文本分词子程序

动作需求 · 500 次浏览
ZTOA10 创建于 2023-08-31 12:27

需求:实现输入一段文本,自动分词成分词列表(是否过滤标点符号)
实用场景:分词频率分析


实现案例:
JavaScript 分词API Intl.Segmenter:https://blog.csdn.net/wuyujin1997/article/details/130451213
文字大爆炸:https://getquicker.net/Sharedaction?code=fa0289d1-c2e0-4286-44e4-08dba7ba3b5d

水平有限,使用运行Javascript代码步骤和WebView2浏览器窗口步骤都没能整成功,看哪位动手能力强一点的整一个子程序,给小白做个示例参考 


回复内容
joie 2023-08-31 15:17
#1

用【文本大爆炸】改了一个,没有封装成子程序,缺点也很多:例如需要打开一下窗口因为需要使用webview自带的库

可以自行修改:https://getquicker.net/Sharedaction?code=ed40e6c4-7677-46bc-8f45-08dba9bf00b5

用法和【文本大爆炸】一样,不过会返回一个处理之后会把结果json数据输出到test变量里面,需要的话自行修改

ZTOA10 回复 joie 2023-08-31 15:28 :

厉害,已经很优秀了,看看能不能找点灵感

臭冬瓜 回复 ZTOA10 2023-08-31 17:20 :

https://getquicker.net/subprogram?id=febd3080-bf4b-471f-8f47-08dba9bf00b5

ZTOA10 回复 臭冬瓜 2023-08-31 20:18 :
再一次感受到真正的大佬平时都是不显山不露水,一出手就知道有没有
乐昂岚 2023-08-31 18:03
#2

https://getquicker.net/Sharedaction?code=bfe7dc1f-63ea-4b95-9656-08db2e83fcea


这个前半部分可以拆分成分词列表
结果还可以, 标点通过替换去除出就行


臭冬瓜 回复 乐昂岚 2023-08-31 18:49 :

这个需要联网吧,上面的好像不需要联网

乐昂岚 回复 臭冬瓜 2023-09-01 09:07 :

确实, 不过好像提供了离线版http://thulac.thunlp.org/

臭冬瓜 回复 乐昂岚 2023-09-01 10:48 :

嗯嗯,原来还想让@CL加上分词功能呢

回复主贴