AI-OCR识别

AI-OCR识别 公开 已发布

如何安装动作?

适用于
分类(旧)
OCR AI
关键词
AI; OCR;

先砸你土肥坡泔水锅 Reformat 2 人赞了这个动作

3 个动作单 收藏了此动作。

更多信息
分享时间 28天4小时前
最后更新 1天20小时前
修订版本 6
用户许可 可自己使用或修改,不可再分享
Quicker版本 1.43.58
动作大小 29.5 KB

分享到

「使用大模型的多模态能力进行OCR识别,多语言识别」

简介

视频中如此好的效果用的模型为gemini-2.0-flash、有条件的可以试试
复杂文本的识别请使用能力强的多模态模型

相比于其他OCR的优势

1、可以识别多个语种不需要做其他特殊的配置,目前主流的语言都可以较为精准的识别
2、可以识别公式,可以相对较好的识别公式
3、以上功能不需要单独特殊的配置,一次性ALL in


默认使用的模型为硅基流动中的模型,可以自己更换其他模型,只是个demo,如果有意见可以提



请在硅基流动获取API-KEY,注册免费送额度

增加了智谱清言大模型平台,上有免费的glm-4v-flash可以使用,注册送token,在此处获取apikey
智谱清言




Google大模型gemini的api填写方式

自行获取api-key和解决网络问题,Google AI Studio



具体的apibase填写可以参考quicker的官方文档

作者所声明的动作特征:
  • 依赖第三在线服务

最近更新

修订版本 更新时间 更新说明
6 1天20小时前 更新了图片的上传方式,以适应更多平台,比如gemini
5 13天23小时前 bug修复
4 16天2小时前 增加了直接输出到剪贴板的选项

最近讨论

暂无讨论