在线图像描述OCR插件-0.23

简介

该插件为NVDA添加了在线图像识别引擎。
有两种类型的识别引擎。OCR和图像描述器。OCR:从图像中提取文本。
图像描述器,以文本形式描述图像中的视觉特征。例如一般性描述,颜色类型地标等。使用此插件需要Internet连接,
因为图像描述服务是由Internet上的 API 提供的。在此插件中,它们称为“引擎”。

本版更新

  • 增加了在黑屏状态下使用识别的提醒;
  • 完善了翻译;
  • 添加了简体中文说明文档;
  • 兼容 NVDA2021.1;
  • 其他的一些细节优化。

说明

该插件目前包含三种识别引擎:

  • 在线OCR引擎;
  • 在线图像描述引擎;
  • Windows 10 OCR(离线引擎)

您还需要选择识别图像的来源:

  • 当前的导航对象;
  • 当前窗口;
  • 整个屏幕;
  • 剪贴板中的图像数据或图像文件;
  • 剪贴板中的图像文件路径名或图像URL;

热键首饰

选择了识别类型后,您可以用一个热键开始识别:
NVDA + Alt + P根据图像来源和引擎类型设置执行识别,然后读取结果。如果连按两次,则打开虚拟文档结果。

还有四个其他快捷键未分配。请在使用前打开“NVDA” ➡ “选项” ➡ “输入首饰”手动分配:

  • 循环浏览不同的识别引擎类型;
  • 循环浏览不同的识别来源;
  • 取消当前识别(如果您认为等待时间过长而想取消,则此热键很有用,同样,有时您也不想被识别信息打扰,因为您或许需要查看识别后的某些更重要的信息)。
  • 在虚拟文档中显示上一次识别结果,虽然具有将结果复制到剪贴板的功能,但字符位置信息无法保留,因此添加了此热键来解决此问题。

对于喜欢以前版本中操作方式的用户,还有四个热键未分配(建议使用新的热键手势并根据需要切换引擎类型):

  • 使用在线OCR引擎识别当前导航对象的内容,然后读取结果。如果按两次,则打开虚拟文档结果。

  • 使用在线OCR引擎识别剪贴板内的图像。然后读取结果。如果按两次,则打开虚拟文档结果。

  • 使用在线图像描述引擎识别当前导航对象的内容。然后读取结果,如果按两次,则打开虚拟文档结果。

  • 使用在线图像描述引擎识别剪贴板内的图像。然后读取结果,如果按两次,则打开虚拟文档结果。

引擎配置

您可以选择识别引擎并在 “NVDA菜单” ➡ “设置” ➡ “选项” ➡ “打开在线图像描述设置”对话框中进行详细设置。

插件的作者已经注册了具有免费API配额的帐户,并在 www.nvdacn.com 上设置了代理服务器,以使该插件更易于测试。测试配额是有限的,且 API提供商可以随时取消。所以,强烈建议根据每个引擎中的指南注册您自己的密钥。

以下设置适用于所有引擎

  • 识别后将结果文本复制到剪贴板:
    如果启用,识别结果文本将在识别后复制到剪贴板。

  • 使用弹出对话框展示识别结果:
    如果启用,识别结果文本将显示在弹出窗口中,而不是语音或盲文消息。

  • 交换重复手势的效果:
    默认情况下,仅当您连按两次相应的热键时才会显示虚拟文档结果,如果您经常使用该功能,则可以启用此选项,启用后只需按一次即可打开虚拟文档结果。

  • 启用更详细的日志记录方便调试:
    一些日志对于开发调试是必不可少的,但这样会影响性能并占用大量空间。仅在插件作者或NVDA开发人员明确要求的情况下才打开此功能。

  • 代理类型:
    您正在使用哪种类型的代理。如果您不知道什么是代理,请保持默认。

  • 代理地址:
    代理的完整URL。如果您不知道什么是代理,请保持默认。
    如果选择使用代理,则将在保存前对代理进行验证,验证后,将提示您验证结果。

以下设置在所有引擎中的含义相同

  • API访问类型:
    控制了您如何访问相应的API服务。
    如果选择“使用公共免费 api 配额”,表明您正在使用插件作者注册的帐户中的免费配额。
    如果您选择“使用您自己注册的 api 密钥”,则该插件将使用您自己帐户中的配额。

  • APP ID,API密钥或API秘密密钥:
    如果要使用自己帐户中的配额,则需要相应的访问令牌。一些引擎只需要API密钥。
    一些引擎需要两个令牌。
    这些选项仅在您选择了“使用您自己注册的 api 密钥”时才有效。

请注意,识别结果的质量和准确性受许多因素影响。

  • 引擎提供商使用的模型和技术;
  • 上传图片的质量;
  • 导航对象是否被其他对象遮挡;
  • 屏幕分辨率;

在线图片描述

这是三个可用的引擎。

Microsoft Azure图像分析器

该引擎根据图像内容提取丰富的视觉功能。
该引擎仅支持英语。如果要使用其他语言进行描述,则可以使用Microsoft Azure Image Describer

视觉功能包括:
检测成人内容。

  • 检测图像中的各种品牌, 包括大致位置 复选框 已选择 未选中
  • 根据文档中定义的分类对图像内容进行分类。
  • 用完整句子描述图像内容。
  • 确定强调色、主导色以及图像是否为黑白。
  • 使用与图像内容相关的标签描述图像。
  • 人脸-检测图像上是否有人脸。如果存在, 则生成坐标、性别和年龄。
  • 检测图像是剪贴画还是简笔画。
  • 检测图像中的各种对象, 包括大致位置,仅支持英语。

一些功能还提供其他详细信息:

  • 如果在图像中检测到名人,给出详细信息。
  • 如果在图像中检测到地标时,给出详细信息。
  • 识别地标和名人的详细信息。

Microsoft Azure映像描述器

该引擎以人类可读的语言生成带有完整句子的图像描述。
该描述基于内容标签的集合,可以为每个图像生成一个或多个描述。描述按其置信度得分排序。
此引擎有两个设置。

  • 识别语言
    服务返回图像描述结果的语言。默认情况下为英语。

  • 最多返回多少个结果:
    返回的描述结果最大数量。预设值为1。

维护

兼容性

  • 兼容2019.3及以上版本的NVDA

下载地址

标签: none

添加新评论