能否实现对屏幕中的文字进行查找，并给出定位？

craming 创建于 2023-04-26 23:31

需求场景是这样的：

有个pdf文档，里面有100页，里面某些页面上会有“学籍”这两个字，有些页面上会有大量的“数学”二字（同时有少量的“化学”二字），有些页面上会有大量的“化学”二字（同时会有少量的“数学”二字）。

我希望设计一个组合动作，实现对这100页进行按类型的分割。

遇到的困难是：即便有本地化的OCR，可是如果我对全屏进行识别然后检索，也无法对页面进行精准的分类。

有没有可能实现：

1、对屏幕进行检索（根据文本进行检索），得到：匹配成功的次数，以及各次匹配成功时候的定位？

craming 2023-04-26 23:45

pdf内直接用“查找图片”会不够。

因为，pdf来自于一个“打印后再扫描”的文件。在打印和扫描的过程中，会导致部分失真。此时，通过“查找图片”去找，容易错过结果，只能借助ocr

陈_默 2023-04-29 02:58

你可以试试 Cesar 大佬的

自动化_屏幕找字

https://getquicker.net/subprogram?id=85d31f63-c275-4f96-0db9-08d8e1981b2c

这个子程序

craming 回复陈_默 2023-04-29 07:48 :

谢谢！刚看了，有帮助，不过不够。关键是，这个子程序里利用的是百度提供的‘定位’，这个是现在的本地化的ocr所不具备的

craming 2023-04-29 07:48

本地化的ocr，返回的结果中不带定位

陈_默 2023-04-29 08:55

离线识别包

安装这个，我断网测试原始结果是有定位的

你可以尝试一下

craming 回复陈_默 2023-05-03 12:46 :

感谢~

CL 2023-05-03 15:41

下个版本将会提供找字功能。

craming 回复 CL 2023-05-03 15:45 :

牛掰~