在线图像描述OCR插件-0.23

简介

该插件为NVDA添加了在线图像识别引擎。有两种类型的识别引擎。OCR和图像描述器。OCR：从图像中提取文本。图像描述器，以文本形式描述图像中的视觉特征。例如一般性描述，颜色类型地标等。使用此插件需要Internet连接，因为图像描述服务是由Internet上的 API 提供的。在此插件中，它们称为“引擎”。

本版更新

增加了在黑屏状态下使用识别的提醒；
完善了翻译；
添加了简体中文说明文档；
兼容 NVDA2021.1；
其他的一些细节优化。

说明

该插件目前包含三种识别引擎：

在线OCR引擎；
在线图像描述引擎；
Windows 10 OCR（离线引擎）

您还需要选择识别图像的来源：

当前的导航对象；
当前窗口；
整个屏幕；
剪贴板中的图像数据或图像文件；
剪贴板中的图像文件路径名或图像URL；

热键首饰

选择了识别类型后，您可以用一个热键开始识别： NVDA + Alt + P根据图像来源和引擎类型设置执行识别，然后读取结果。如果连按两次，则打开虚拟文档结果。

还有四个其他快捷键未分配。请在使用前打开“NVDA” ➡ “选项” ➡ “输入手势”手动分配：

循环浏览不同的识别引擎类型；
循环浏览不同的识别来源；
取消当前识别（如果您认为等待时间过长而想取消，则此热键很有用，同样，有时您也不想被识别信息打扰，因为您或许需要查看识别后的某些更重要的信息）。
在虚拟文档中显示上一次识别结果，虽然具有将结果复制到剪贴板的功能，但字符位置信息无法保留，因此添加了此热键来解决此问题。

对于喜欢以前版本中操作方式的用户，还有四个热键未分配（建议使用新的热键手势并根据需要切换引擎类型）：

使用在线OCR引擎识别当前导航对象的内容，然后读取结果。如果按两次，则打开虚拟文档结果。
使用在线OCR引擎识别剪贴板内的图像。然后读取结果。如果按两次，则打开虚拟文档结果。
使用在线图像描述引擎识别当前导航对象的内容。然后读取结果，如果按两次，则打开虚拟文档结果。
使用在线图像描述引擎识别剪贴板内的图像。然后读取结果，如果按两次，则打开虚拟文档结果。

引擎配置

您可以选择识别引擎并在 “NVDA菜单” ➡ “设置” ➡ “选项” ➡ “打开在线图像描述设置”对话框中进行详细设置。

插件的作者已经注册了具有免费API配额的账户，并在 www.nvdacn.com 上设置了代理服务器，以使该插件更易于测试。测试配额是有限的，且 API提供商可以随时取消。所以，强烈建议根据每个引擎中的指南注册您自己的密钥。

以下设置适用于所有引擎：

识别后将结果文本复制到剪贴板：如果启用，识别结果文本将在识别后复制到剪贴板。
使用弹出对话框展示识别结果：如果启用，识别结果文本将显示在弹出窗口中，而不是语音或盲文消息。
交换重复手势的效果：默认情况下，仅当您连按两次相应的热键时才会显示虚拟文档结果，如果您经常使用该功能，则可以启用此选项，启用后只需按一次即可打开虚拟文档结果。
启用更详细的日志记录方便调试：一些日志对于开发调试是必不可少的，但这样会影响性能并占用大量空间。仅在插件作者或NVDA开发人员明确要求的情况下才打开此功能。
代理类型：您正在使用哪种类型的代理。如果您不知道什么是代理，请保持默认。
代理地址：代理的完整URL。如果您不知道什么是代理，请保持默认。如果选择使用代理，则将在保存前对代理进行验证，验证后，将提示您验证结果。

以下设置在所有引擎中的含义相同

API访问类型：控制了您如何访问相应的API服务。如果选择“使用公共免费 api 配额”，表明您正在使用插件作者注册的账户中的免费配额。如果您选择“使用您自己注册的 api 密钥”，则该插件将使用您自己账户中的配额。
APP ID，API密钥或API秘密密钥：如果要使用自己账户中的配额，则需要相应的访问令牌。一些引擎只需要API密钥。一些引擎需要两个令牌。这些选项仅在您选择了“使用您自己注册的 api 密钥”时才有效。

请注意，识别结果的质量和准确性受许多因素影响。

引擎提供商使用的模型和技术；
上传图片的质量；
导航对象是否被其他对象遮挡；
屏幕分辨率；

在线图片描述

这是三个可用的引擎。

Microsoft Azure图像分析器

该引擎根据图像内容提取丰富的视觉功能。该引擎仅支持英语。如果要使用其他语言进行描述，则可以使用Microsoft Azure Image Describer

视觉功能包括：检测成人内容。

检测图像中的各种品牌, 包括大致位置复选框已选择未选中
根据文档中定义的分类对图像内容进行分类。
用完整句子描述图像内容。
确定强调色、主导色以及图像是否为黑白。
使用与图像内容相关的标签描述图像。
人脸-检测图像上是否有人脸。如果存在, 则生成坐标、性别和年龄。
检测图像是剪贴画还是简笔画。
检测图像中的各种对象, 包括大致位置，仅支持英语。

一些功能还提供其他详细信息：

如果在图像中检测到名人，给出详细信息。
如果在图像中检测到地标时，给出详细信息。
识别地标和名人的详细信息。

Microsoft Azure映像描述器

该引擎以人类可读的语言生成带有完整句子的图像描述。该描述基于内容标签的集合，可以为每个图像生成一个或多个描述。描述按其置信度得分排序。此引擎有两个设置。

识别语言服务返回图像描述结果的语言。默认情况下为英语。
最多返回多少个结果: 返回的描述结果最大数量。预设值为1。

维护

作者: Larry Wang larry.wang.801@gmail.com

兼容性

兼容2019.3及以上版本的NVDA

下载地址

点此下载