如何区分pdf中英文段落起始处？

原++ 创建于 2023-08-26 09:29

我的需求是匹配到\r\n，全部替换成空格，但是匹配到.\r\n不替换成空格（目的是为了匹配到英文段落起始处），但是有个问题是，即使不是段落起始处也会有.\r\n，所以想问问如何才能更好得区分开。试用了小铅笔的两个子程序，都不能解决这个问题。

原++ 最后更新于 2023/8/26

CL 2023-08-26 09:37

估计没法区分，因为获取到的文本会丢失空格信息。

这种规范的pdf可以尝试用word打开一下，看看能不能打开，会不会保留段落的情况下转换为可复制的文字。

原++ 回复 CL 2023-08-26 09:48 :

好的，谢谢崔大，但是word打开需要特别特别久，不行就算了，谢谢

CL 回复原++ 2023-08-26 10:00 :

有一个想法不知道是否可行：1）统计所有行的平均字符数。 2）如果某一行比平均字符数少的多，可以判断为明确的段落结束。

原++ 回复 CL 2023-08-26 11:28 :

谢谢崔大，我发现直接去文献的官网复制的文本是具有段落格式的。谢谢