自然语言处理技术
自然语言处理 Natural Language Processing(NLP),是以电子计算机为工具,对人类特有的文字信息进行各种类型处理与加工的技术。这是一门专门的边缘性交叉学科,它涉及了语言学、数学、统计学和计算机科学,横跨了文科、理科、工科这三大只是领域。在日常生活中,自然语言处理的应用无处不在,包括机器翻译系统、信息检索系统、文本信息挖掘系统、语音自动识别系统、文字自动识别系统、知识管理等等方面。
美国语言学家乔姆斯基 N. Chomsky 的形式语言理论,既适用于人工语言,又适用于自然语言。这两者之间,在形式描述方面,确实存在着很大程度的共通之处。
但是自然语言作为人脑的高级功能之一,而语言是人类历史长期发展而约定俗成的产物,对于人类自己来说,有时候语言的理解本身就是一件充满挑战的事情。而计算机也一样。
自然语言与人工语言之间依然存在着四大难以完全解决的问题:
自然语言中,歧义经常发生,而人工语言的歧义则是可控的
自然语言的结构复杂,而人工语言的结构则相对简单很多
自然语言的语义千变万化,规律难寻,而人工语言的语义则是可以通过人来定义
两者间不一定存在一一对应的关系
尽管 Bert 这些新出现的算法已经获得了很大的进步,但是自然语言处理技术依然还有很多等待被解决的问题。与计算机视觉不一样,自然语言处理还需要理解语义才能更准确地处理信息。
版权声明: 本文为 InfoQ 作者【Qien Z.】的原创文章。
原文链接:【http://xie.infoq.cn/article/2c4b71d3b8c243b2b8613aa84】。
本文遵守【CC-BY 4.0】协议,转载请保留原文出处及本版权声明。
评论