语义理解过程中的崩溃
从 2015 年初起,NLP 技术得到了极大的提升,已经正式步入了高速发展的阶段,技术发展不断推陈出新。而 NLP 技术的应用领域可谓是各行各业,在搜索,营销,风控,公关领域随处可见。在现今互联网的时代里,网民数量持续不断地增长,智能手机逐步普及,数字化信息的产生可谓是随手创作,每分每秒产出的数量是惊人的,想要从汪洋大海里发现能作为资源的小东西再整合成具有价值的发现,并不是那么容易的一件事。
目前的 NLP 学术研究里,以英语为研究载体的重要成果占主要地位。而中文的研究相对少,且中文的博大精深,如果缺乏一定联想的能力,可能中国人自己都看不懂。但是幸运的是,中国人绝大部分有这能力,而计算机就没那么幸运了。
英语里面的单词,大部分都可以通过根据字母进行拼读,但是中文的发音却不行。中文还受多种方言的影响,有些句子就算精通普通话达到 100 级也招架不住,每当委婉语出现时,随便意思意思,也不知道最后什么意思。前阵子收集了一堆网友的创作的公开“日记”,网友们为了做反爬,使用了很多“毒创的单词与表 D 慌式”,如果不是语文水平及格,恐怕我也看不懂... 但是大致观察了一下,做反爬的用词方式,一般是同音字,文字拼音的第一个字母,拼音,hu fu 不分,字句结构极度自由时注重关键词表达。
版权声明: 本文为 InfoQ 作者【Qien Z.】的原创文章。
原文链接:【http://xie.infoq.cn/article/cf13f1bf65630156e2b5a2c5b】。
本文遵守【CC BY-NC】协议,转载请保留原文出处及本版权声明。
评论