「AI大模型加持下的万能识别工具」
简介
告别传统OCR!🚀 解决排版烦恼!「万能识别」让你的图片秒变Markdown!「万能识别」是一款不同于传统意义的OCR助手,能够借助AI大模型实现自动识别任何形式的图片 🖼️,并充分保留格式、排版等信息 📑。
功能简介
- 万能识别:本动作支持识别图片中的一切信息,包括文字、结构化文字、图片、表格、混合信息(比如文字+表格)。识别结果将最大程度保留图片中的文字信息、格式信息、排版信息、文字样式信息等,可直接复制为Markdown格式。与传统OCR助手相比,具有以下优势:
- 充分保留排版、格式、文字样式等信息,极大节省时间;
- 得益于多模态大模型的加持,准确精度更高;
- 无需复杂设置,一键「万能识别」,在混合信息场景(如文字+表格、文字+公式等)、复杂表格场景下,依然表现优异;
- 大模型支持:本动作通过调用智谱、通义千问、混元三个多模态大模型的API实现图片识别,可自行切换。只需填写API Key,即可实现「万能识别」。(上面三个大模型注册可以领取免费Tokens)根据测试,模型优劣见下表:
- 两次输出:支持两次输出,如果大模型第一次输出不完整,可支持再次输出,并最终输出格式一致的完整识别结果。
- 前置条件
- API:本动作的运行需要自行填写API Key,支持智谱、通义千问、混元API,均可免费领取;具体获取方法请见:
- API Key填写窗口会在第一次使用时弹出,填写正确的API Key,后续可直接使用;
- 输入和输出说明:
- 输入:截图,点击动作后,会蹦出截图窗口,截图内容将发送给大模型;
- 输出:模型识别完成后,会自动弹出结果预览窗口,Markdown格式的文本直接复制到剪贴板中。如果设置了「继续输出」,则会蹦出是否继续输出弹窗,点击「是」,模型则会继续输出,并最终弹出完整内容。
- 设置:
- 右键动作,点击「模型选择」,则可以切换大模型,最好只选择一个,默认选择为智谱大模型;
- 右键动作,点击「Prompt」,可自行设定发送给大模型的Prompt;
- 右键动作,点击「继续输出」,勾选后则会在第一次输出完成后蹦出是否继续输出窗口;
- 使用示例
- -未开启「继续输出」功能:点击动作—》触发截图—》截图完成后发送给AI大模型—》蹦出大模型回复预览弹窗—》Markdown结果自动复制到剪贴板;
- 开启「继续输出」功能:点击动作—》触发截图—》截图完成后发送给AI大模型—》蹦出大模型回复预览弹窗—》Markdown结果自动复制到剪贴板—》蹦出是否继续输出弹窗—》点击是—》蹦出大模型再次输出后的全部输出弹窗(自动合并),并自动复制到剪贴板。
- 视频教程:「万能识别」- Quicker动作教程_哔哩哔哩_bilibili
更新计划
- 支持更多大模型;
- 优化功能逻辑和页面设计;
- 支持连续截图、混合取图、本地上传、多文件上传、剪贴板识别;
- 支持excel输出;
欢迎使用~~
最近更新
修订版本
|
更新时间
|
更新说明
|
1
|
2024-10-31 23:42
|
添加了编辑APIKEY功能;
添加了初次使用教程;
|
0
|
2024-10-31 15:53
|
|