Bookworm 开发动态——Vivo OCR 开启“悦读”新体验

Bookworm 是一款无障碍的文档阅读器,可让您以一种轻松且易于访问的方式来阅读 PDF、EPUB、MOBI 等众多格式的电子文档,借助 OCR 功能还可以用多种形式阅读扫描版文档。

具体用法和功能介绍请参见:勾画、涂抹、摘抄,是你理想的精细化阅读么,赴一场共创之约,寻找一个答案

我是 Bookworm 的协作维护者 Eureka,最近休假一周,把几个项目里一直想做的 feature 实现了一下,其中就包括 Bookworm 的几个新特性。

自从去年我们发布了 Bookworm 2024.2 以来,又增加了一些新的修复和功能特性。不看 commit log,挑战一下我能记得多少。

提前看看有哪些新特性

媒体键控制:这是我前段时间休息的时候完成的,大多是在地铁通勤时间里写的。有些人喜欢在做家务的时候听书,自然也包括我,这个场景能用蓝牙耳机的手势控制朗读应该会不错。哦,对,不得不提到触摸屏,我在触摸屏上用 NVDA 的模拟手势映射了媒体键,也可以在吃饭的时候轻轻触碰触摸屏实现媒体控制。

精确注释和单点注释:在过往 Bookworm 仅支持单点注释,但实际上,对于精细化阅读来说,随意选择一些文本添加注释应该是更常见的需求。在前不久,另一位伙伴 pauliyobo 实现了该特性。
目前,就该功能而言,如果在不选择任何文本的情况下添加注释即为单点注释,反之则为精确注释。

Vivo 和百度在线 OCR 引擎:得益于 Vivo 的大力支持,我们可以使用 Vivo 提供的各种能力便捷地访问数字世界,Bookworm 通过 NVDA 中文社区的授权接口,接入了 Vivo OCR,可以在自动扫描、扫描当前页以及扫描到文件等需要文字识别的地方,调用 Vivo 通用文字识别能力。
如需使用该授权,请参见注册 NVDA 中文站,解锁更多资源
同时也增加了百度通用文字识别高精度版和标准版作为 Bookworm 的在线 OCR 引擎,但需要你自己提供百度的 API key,相对来说,百度提供的免费配额对于长篇阅读来说,显得有点捉襟见肘。大家视情况选用吧!一个月 1000 次的标准识别,也只够我开发调试。
相关设置位于“文件”>“首选项”>“OCR”类别下。

文本自动换行选项:有些人喜欢关闭编辑器的自动换行功能,从而仅使用上下箭头按段落阅读。尽管我认为按各种文本单元阅读不应该通过改变视觉布局去实现,但增加这个功能的请求是合理的,至于怎么用是用户的事。所以我增加了这个功能,将其作为外观设置类别下的一个选项,但默认行为是开启自动换行的,与以往行为一致。

其他的新功能包括对 QRD 文件(另一款阅读器的文件格式)的导入支持,以及正在进行的对 DAISY 格式的支持。

还有一些重要修复,比如:链接文本显示不完整,脚注和内联链接跳转不准确,标点符号被错误地规范化为英文标点,以及安装时未正确清理遗留版本等小问题。

下载体验

你可以在 Bookworm 的中文站:bw.enabc.net 下载到包含上述新特性的开发板 2025.1(开发板页面不定时更新)。

软件个别新特性的字符串尚未翻译为英文,将在稳定版发布时完成。

写在后面

作为一个免费开源项目,首席开发者 Musharraf 在相当长的一段时间里不得不四处奔波躲避战乱。
我和 Paul 被授予完全的访问权限,我们用业余时间维护着它,项目算是没有停滞。

新功能很大程度上源于我们眼中 Bookworm 应有的样子,以及来自社区的声音。
我在 Bookworm 的中文站点 bw.enabc.net 上开通了赞助通道,收到了一些热心用户的赞助,但参与赞助的人并不多。
也可以理解,这个软件远远没达到完美的程度,反而还有诸多缺陷,加之阅读这件事,不是谁都想写写画画,它也没有什么不可替代性。

Whatever,在未来的一段时间里,如果时间和精力允许,我依然会聚焦于精细化阅读方面的贡献,比如,实现文档内图片元素的显示和 AI 识别、实现数学公式的呈现等。

相应地,则会降低那些明显有更好替代方案的功能请求的优先级,比如增加更多逼真的 TTS 角色。

当然,欢迎社区贡献,你可以从小的贡献开始。

就这样,希望你喜欢这个小软件!

End~

标签: none

添加新评论