01月11, 2020

中文分工具的测试对比

六种中文分词工具各有优缺点,但是在自定义词典中增加特殊字符(如),似乎还都不行

中文分词工具有哪些

  • Jieba
  • pyltp (哈工大)
  • hanlp
  • phuseg(北大)
  • jiagu

选择分词工具需要考虑哪些因素

  • 准确性
  • 分词颗粒度
  • 性能

总结

1.时间上(不包括加载包的时间),对于相同的文本测试两次,四个分词器时间分别为:

jieba: 0.01699233055114746 1.8318662643432617

thulac : 10.118737936019897 8.155954599380493

fool: 2.227612018585205 2.892209053039551

HanLP: 3.6987085342407227 1.443108320236206

中科院nlpir:0.002994060516357422

哈工大ltp_ :0.09294390678405762

可以看出平均耗时最短的是中科院nlpir分词,最长的是thulac,时间的差异还是比较大的。

2.分词准确率上,通过分词效果操作可以看出

第一句:结婚的和尚未结婚的确实在干扰分词啊

四个分词器都表现良好,唯一不同的是fool将“干扰分词”合为一个词

第二句:汽水不如果汁好喝,重点在“不如果”,“”不如“” 和“”如果“” 在中文中都可以成词,但是在这个句子里是不如 与果汁 正确分词

jieba thulac fool HanLP

jieba、 fool 、HanLP正确 thulac错误

第三句: 小白痴痴地在门前等小黑回来,体现在人名的合理分词上

正确是:

小白/ 痴痴地/ 在/ 门前/ 等/ 小黑/ 回来

jieba、 fool 、HanLP正确,thulac在两处分词错误: 小白_np 痴痴_a 地_u 在_p 门前_s 等_u 小_a 黑回_n 来_f

第四句:是有关司法领域文本分词

发现HanLP的分词粒度比较大,fool分词粒度较小,导致fool分词在上有较大的误差。在人名识别上没有太大的差异,在组织机构名上分词,分词的颗粒度有一些差异,Hanlp在机构名的分词上略胜一筹。

参考

https://zhuanlan.zhihu.com/p/57731823

本文链接:http://57km.cc/post/compare for chinese nlp tools .html

-- EOF --

Comments