分享时间 | 2025-01-13 13:40 |
最后更新 | 8天1小时前 |
修订版本 | 7 |
用户许可 | 可自己使用或修改,不可再分享 |
Quicker版本 | 1.43.61 |
动作大小 | 61.9 KB |
视频中如此好的效果用的模型为gemini-2.0-flash、有条件的可以试试,阿里最新qwen-vl-max好像也行
复杂文本的识别请使用能力强的多模态模型
1、可以识别多个语种不需要做其他特殊的配置,目前主流的语言都可以较为精准的识别相比于其他OCR的优势
请在硅基流动获取API-KEY,注册免费送额度
增加了智谱清言大模型平台,上有免费的glm-4v-flash可以使用,注册送token,在此处获取apikey
智谱清言
可以使用通义千问的多模态大模型,质量相当不错
Google大模型gemini的api填写方式
自行获取api-key和解决网络问题,Google AI Studio
修订版本 | 更新时间 | 更新说明 |
---|---|---|
7 | 8天1小时前 | 增加了通义千问 |
6 | 2025-02-08 22:20 | 更新了图片的上传方式,以适应更多平台,比如gemini |
5 | 2025-01-27 18:51 | bug修复 |