精细解析中文公司名称:智能分词工具助力地名、品牌名、行业词和后缀提取
精细解析中文公司名称:智能分词工具助力地名、品牌名、行业词和后缀提取
中文公司名称分词工具,支持公司名称中的地名,品牌名(主词),行业词,公司名后缀提取。
对公司名文本解析,识别并提取地名(place)、品牌名(brand)、行业词(trade)、公司名后缀词(suffix)。
[x] 补充中国三级地名,优化地名提取效果
[x] 优化品牌名边界问题
[x] 多个行业词提取
运行评估脚本evaluate_file.py,使用预测结果与 GroundTruth 完成相等才为算对的保守评估方法,评估结果:
准确率:97.0%
召回率:96.7%
全自动安装:pip install -U companynameparser
半自动安装:
通过以上两种方法的任何一种完成安装都可以。如果不想安装,可以下载 github 源码包,安装依赖requirements.txt再使用。
Extract Company Name
公司名称各元素提取功能base_demo.py
output:
parse
方法的此处输入name
是 str;
输出的是一个包括 place(地名),brand(品牌名),trade(行业词名),suffix(后缀名),symbol(标点符号)的 dict; 多个地名词、品牌、行业词之间用
,
间隔,如'常州,合肥'
。
All Demo
一个 demo 演示所有示例all_demo.py,包括:
公司名称各元素提取
元素名称结果带分词
显示各元素的位置
用户自定义分词词典,用于解决部分误杀和漏召回
output:
支持批量提取地址的省市区信息:
输入文件:
company_demo.txt
;输出文件:out.csv
,地名、品牌名、行业名、后缀名以\t
间隔
参考链接:https://github.com/shibing624/companynameparser
更多优质内容请关注公号:汀丶人工智能;会提供一些相关的资源和优质文章,免费获取阅读。
版权声明: 本文为 InfoQ 作者【汀丶人工智能】的原创文章。
原文链接:【http://xie.infoq.cn/article/0036e1b96881c272d33c5da78】。
本文遵守【CC-BY 4.0】协议,转载请保留原文出处及本版权声明。
评论