AI-OCR识别 - by 车站里的守望者 - 动作信息

车站里的守望者

复制Ta的推荐码

适用于

通用 OCR 公式识别

分类(旧)

OCR AI

关键词

AI; OCR;

点赞鼓励一下

cutebubbles UkuLiLee 阿尔都塞用户BY6V3Do-BAA PecoPeco 等 13 人赞了这个动作。

4 个动作单收藏了此动作。

简介

🚀 推荐配置

视频演示效果使用的是 gemini-2.0-flash。
有条件的可以尝试阿里最新的 qwen-vl-max。
(复杂文本识别请务必使用能力强的多模态模型)

🔥 相比其他 OCR 的核心优势

✅ 多语种通吃： 无需特殊配置，精准识别主流语言。

✅ 公式识别强： 数学公式还原度极高。

✅ All in One： 一次性配置，开箱即用。

1. 硅基流动 (SiliconFlow)

默认Demo

支持自定义更换模型，注册即送免费额度。

👉 获取 API-KEY (注册送额度)

2. 智谱清言

包含免费的 glm-4v-flash 模型。

👉 获取智谱 API Key

3. 通义千问 (Aliyun)

多模态大模型质量相当不错。

👉 前往通义千问控制台

4. Mistral OCR

⚠️ 微小图片识别较弱

效果媲美谷歌和阿里，支持 Markdown 格式输出。支持 Cloudflare AI Gateway 代理。

👉 Mistral 控制台

5. Google Gemini 配置

需自行解决网络问题。

步骤1：获取 API Key

步骤2：参考 Quicker 文档填写

👉 前往 Google AI Studio

作者所声明的动作特征：

依赖第三在线服务

分享时间	2025-01-13 13:40
最后更新	2026-02-07 23:40
修订版本	10
用户许可	可自己使用或修改，不可再分享
Quicker版本	1.45.0
动作大小	151.5 KB

修订版本	更新时间	更新说明
10	2026-02-07 23:40	-更新了UI -更新anthropic、gemini
9	2026-02-03 18:22	- 更新了全新的设置界面UI - 可以自行增删模型列表
8	2025-03-19 15:37	- 更新支持了Mistral OCR - 硅基流动的默认模型更改为Qwen/Qwen2.5-VL-72B-Instruct - 通义千问的默认模型改为qwen-vl-ocr-latest

AI-OCR识别公开已发布

适用于

分类(旧)

关键词

更多信息

简介

🚀 推荐配置

🔥 相比其他 OCR 的核心优势

1. 硅基流动 (SiliconFlow)

2. 智谱清言

3. 通义千问 (Aliyun)

4. Mistral OCR

5. Google Gemini 配置

作者所声明的动作特征：

最近更新

最近讨论

AI-OCR识别 公开 已发布

适用于

分类(旧)

关键词

更多信息

简介

🚀 推荐配置

🔥 相比其他 OCR 的核心优势

1. 硅基流动 (SiliconFlow)

2. 智谱清言

3. 通义千问 (Aliyun)

4. Mistral OCR

5. Google Gemini 配置

作者所声明的动作特征：

最近更新

最近讨论

AI-OCR识别公开已发布