中文博大精深人工智能如何理解中文的（细说中文分词的发展历程）

句子大全 2023-12-21 02:09:01

相关推荐

中华文明上下五千年，中国文化博大精深，一直以来，让人工智能理解中文都是一个困扰着科学家与程序员的难题。如何让人工智能理解人类的语言呢？最简单的做法就是提取关键词，然后对关键词进行分类。举一个简单的例子，沙茶敏写了一篇文章，通过找到关键词，架构师、程序员、分布式，计算机网络等关键词，计算机再去找到这些关键词对应的领域，发现是属于科技IT类之后，基本就会断定这篇文章属于计算机相关的了。

找到关键词的第一步，就是进行分词，中文不像欧美语系那么简单明了，随便一句中文，不同的断句就能的出不同的意思，举个简单的例子已经关注沙茶敏的和尚未关注沙茶敏的架构师，可以断句应该为关注/沙茶敏/的/和/尚未/关注/沙茶敏/的/架构师，又能断句为关注/沙茶敏/的/和尚/未关注/沙茶敏/的架构师，语义大相径庭。

关键词匹配法

给中文分词，一直以来都是人工智能的一个大难题，参考一些西方语言的做法，先预处理一些中文的词汇，然后从左往右，哪个匹配就匹配哪个。举个例子，“广州大学城大学生”，可能会被分成"广州/大/学/城/大/学生"，再举个经典的例子，“南京市长江大桥”，能分成好多个不同的句子。

无数科学家和程序员一直再分词上面做优化，无奈中文实在太博大精深，人工智能一直理解不了。毕竟中文一个词可以表达多个意思，两个毫不相干的汉字，就能组成一个新的词汇。

基于HMM分词法

既然按照一个词典分词解决不了问题，那么我们就给每字定义一个属性，判断这个字是词头，词中，还是词尾的，或者是单个成词，然后每次分词的时候，看看每个字的成为词的概率多大。然而，中文实在太难了，随便一个字，都可以跟很多字组成不同的词汇，扮演不同的角色，还有不同的意思。

利用统计语言模型分词

既然词典、语义都很难解决问题，那么就用统计学的方法吧。上个世纪90年代，清华大学的郭进博士用统计语言模型成功解决分词二义性问题，将汉语分词的错误率降低了一个数量级。怎么按照概率的进行分词呢？我们相对以往的数据进行统计，然后把现有的多种分词方案计算出一个概率，选择概率最优的方案。并且这种方案也被外国人借鉴过去了，因为识别英文手写体的时候也会出现空格不清晰的问题。

基于深度学习的端到端的分词方法

随着最近今年深度学习的发展，基于深度学习的中文分词法也慢慢流行了，中文的分词也越来越准确。

总结

上述就是中文分词法一个简单的总结了，汉字博大精深，但是随着科技的发展，人工智能的发展，识别汉语的变得越来越有可能的，并且在这个过程中，外国人也将汉语分词应用到其他语言中，共同进步

阅读剩余内容

中文人工智能理解细说中文分词

中文博大精深人工智能如何理解中文的（细说中文分词的发展历程）

技术专栏（结巴中文分词介绍）

AI不会断句（中文分词新模型帮它进步）

siri翻译带“色彩” 中文博大精深（岂能是siri能理解的）

创新工场提出中文分词和词性标注新模型（可提升工业应用效率）

创新工场两篇论文入选ACL 2020（将中文分词数据刷至新高）

创新工场两篇论文入选顶会ACL2020（将中文分词性能刷出新高度）