如何区分pdf中英文段落起始处?

使用问题 · 535 次浏览
原++ 创建于 2023-08-26 09:29

 

我的需求是匹配到\r\n,全部替换成空格,但是匹配到.\r\n不替换成空格(目的是为了匹配到英文段落起始处),但是有个问题是,即使不是段落起始处也会有.\r\n,所以想问问如何才能更好得区分开。试用了小铅笔的两个子程序,都不能解决这个问题。

原++ 最后更新于 2023/8/26

回复内容
CL 2023-08-26 09:37
#1

估计没法区分,因为获取到的文本会丢失空格信息。

这种规范的pdf可以尝试用word打开一下,看看能不能打开,会不会保留段落的情况下转换为可复制的文字。

原++ 回复 CL 2023-08-26 09:48 :

好的,谢谢崔大,但是word打开需要特别特别久,不行就算了,谢谢

CL 回复 原++ 2023-08-26 10:00 :

有一个想法不知道是否可行:1)统计所有行的平均字符数。 2)如果某一行比平均字符数少的多,可以判断为明确的段落结束。 

原++ 回复 CL 2023-08-26 11:28 :

谢谢崔大,我发现直接去文献的官网复制的文本是具有段落格式的。谢谢

回复主贴