部分文章有把正常的fi,fl,ff等故意写成相似的不能识别的符号的情况,请问能否加一个替代步骤,谢谢!
常遇到的不正常文本有这几个
fl
fi
ff
这种目前我还没有遇到过,怀疑应该不是原文就是这样的,可能是pdf等工具文字识别错误出来的结果?
你可以把识别错误的内容也发出来,我看看怎么处理好一点。
不过这种方式指标不治本,以后遇到其他的还是比较影响,我后面可以尝试制作一个功能,给用户提供自定义替换原文的功能,可以自己把原文中的部分字词替换掉。
自定义替换原文的功能,这个就完全能够实现需求,感谢!
也可以考虑增加一个自定义译文替换的功能,例如将连续多行空回车替换为一个回车