下一步准备研究识别中文标点符号,目前已经完成:
1.全角到半角:字母和数字
2.半角到全角:() 转()
3.去除汉字(不包括中文标点符号)之后的全角和半角空格
4.汉字后的标点符号半角转全角:,;:.?!~/\()<> 转,;:。?!~/\()〈〉
5.去除中文标点符号之后的全角和半角空格
6.汉字(不包括中文标点符号)首尾的成对符号:(汉字),〈汉字〉,[汉字],{汉字},“汉字”,‘汉字’
7.公文文号:[][]【】转〔〕
还有什么需要识别的,请集思广益