我的需求是匹配到\r\n,全部替换成空格,但是匹配到.\r\n不替换成空格(目的是为了匹配到英文段落起始处),但是有个问题是,即使不是段落起始处也会有.\r\n,所以想问问如何才能更好得区分开。试用了小铅笔的两个子程序,都不能解决这个问题。
估计没法区分,因为获取到的文本会丢失空格信息。
这种规范的pdf可以尝试用word打开一下,看看能不能打开,会不会保留段落的情况下转换为可复制的文字。
好的,谢谢崔大,但是word打开需要特别特别久,不行就算了,谢谢
有一个想法不知道是否可行:1)统计所有行的平均字符数。 2)如果某一行比平均字符数少的多,可以判断为明确的段落结束。
谢谢崔大,我发现直接去文献的官网复制的文本是具有段落格式的。谢谢