经常有文本提取的需求,一直使用的软件如下:
DocumentTextExtractor is a simple tool that allows you to extract text from documents (html files, MS-Office files, pdf files), using the search handlers installed on your system.
In order to extract the text from document, simply drag the document file from Explorer window into the main window of DocumentTextExtractor, or use the 'Open Document File' option (Ctrl+O).
You can also generate a text file from command-line, for example this command extracts the text from 1.docx and saves it into 1.txt:
DocumentTextExtractor.exe /ExtractText c:\temp\1.docx c:\temp\1.txt
Download DocumentTextExtractor 32-bit
Download DocumentTextExtractor 64-bit
目前做了一个动作,因为软件可以使用命令行,动作编辑里面有两种方式,一种是命令行,一种是窗口模拟按键使用
https://getquicker.net/sharedaction?code=2fc9bc0c-379e-46d8-b15d-08d8c19e1a7f
目前存在问题。 1.全英文完美; 2. 可能因为是台湾开发,中文有一定几率乱码(临时解决方案为采用窗口模式模拟按键使用),不清楚是否系统转为繁体中文就OK。
文本提取以后通过因文编辑器、文器等可以更方便的进行处理。
由于是小白,这种需求自己也还有找到更简洁的处理方式
感谢分享。