接入ai视觉模型ocr

Katrina_ 创建于 2025-12-02 15:02

看见quicker内置ocr动作终于接入ai了，我很高兴，重新安装回这个动作却发现，居然是对ocr后的信息，让ai进行“修复”，先不说这个会不会提高ocr的准确率，首先这个配置界面我就看不懂，自定义ai接口究竟是填写什么，我选择了默认模型为通义千问，并进行了设置如下

我个人认为没有任何理解问题吧，但是使用动作后提示如下

我不知道这是什么原因，以上都是次要的。

我本身以为接入ai是接入了ai的视觉模型进行ocr各大ai提供商早已退出了ocr模型比如qwen-vl-ocr-latest，mistral-ocr-latest，即使没有专属的ocr模型，普通的视觉模型也具备ocr能力，仅需提供ocr相关提示词，所以理论上所有视觉模型都具备ocr能力，其中qwen-vl-ocr-latest准确率属于是完爆所有常规ocr提供商，比如百度，该模型能在背景含有浅色文字水印的情况下准确识别出要识别的部分忽略背景的浅色文字水印，这一点所有常规ocr提供商都做不到，所以，真心希望作者能接入ai的视觉模型，而不是接入ai对ocr进行后处理，以上内容有些偏激，非常感谢作者提供了这个非常高质的ocr动作，我仅仅是希望该动作可以更好，只要接入ai视觉模型，ocr能力就能随着厂商模型的进化而进化。
可参考如下动作
https://getquicker.net/Sharedaction?code=64f46959-63e3-43bc-1981-08dd32d69a62
再次感谢作者

添加评论

请绑定手机号后发表评论

回复内容

Marcusx 2025-12-02 15:46

正在开发

请绑定手机号后发表评论

接入ai视觉模型ocr

回复内容

回复主贴