日记大全

日记大全 > 句子大全

中文博大精深 人工智能如何理解中文的(细说中文分词的发展历程)

句子大全 2023-12-21 02:09:01
相关推荐

中华文明上下五千年,中国文化博大精深,一直以来,让人工智能理解中文都是一个困扰着科学家与程序员的难题。如何让人工智能理解人类的语言呢?最简单的做法就是提取关键词,然后对关键词进行分类。举一个简单的例子,沙茶敏写了一篇文章,通过找到关键词,架构师、程序员、分布式,计算机网络等关键词,计算机再去找到这些关键词对应的领域,发现是属于科技IT类之后,基本就会断定这篇文章属于计算机相关的了。

找到关键词的第一步,就是进行分词,中文不像欧美语系那么简单明了,随便一句中文,不同的断句就能的出不同的意思,举个简单的例子已经关注沙茶敏的和尚未关注沙茶敏的架构师,可以断句应该为关注/沙茶敏/的/和/尚未/关注/沙茶敏/的/架构师,又能断句为关注/沙茶敏/的/和尚/未关注/沙茶敏/的架构师,语义大相径庭。

关键词匹配法

给中文分词,一直以来都是人工智能的一个大难题,参考一些西方语言的做法,先预处理一些中文的词汇,然后从左往右,哪个匹配就匹配哪个。举个例子,“广州大学城大学生”,可能会被分成"广州/大/学/城/大/学生",再举个经典的例子,“南京市长江大桥”,能分成好多个不同的句子。

无数科学家和程序员一直再分词上面做优化,无奈中文实在太博大精深,人工智能一直理解不了。毕竟中文一个词可以表达多个意思,两个毫不相干的汉字,就能组成一个新的词汇。

基于HMM分词法

既然按照一个词典分词解决不了问题,那么我们就给每字定义一个属性,判断这个字是词头,词中,还是词尾的,或者是单个成词,然后每次分词的时候,看看每个字的成为词的概率多大。然而,中文实在太难了,随便一个字,都可以跟很多字组成不同的词汇,扮演不同的角色,还有不同的意思。

利用统计语言模型分词

既然词典、语义都很难解决问题,那么就用统计学的方法吧。上个世纪90年代,清华大学的郭进博士用统计语言模型成功解决分词二义性问题,将汉语分词的错误率降低了一个数量级。怎么按照概率的进行分词呢?我们相对以往的数据进行统计,然后把现有的多种分词方案计算出一个概率,选择概率最优的方案。并且这种方案也被外国人借鉴过去了,因为识别英文手写体的时候也会出现空格不清晰的问题。

基于深度学习的端到端的分词方法

随着最近今年深度学习的发展,基于深度学习的中文分词法也慢慢流行了,中文的分词也越来越准确。

总结

上述就是中文分词法一个简单的总结了,汉字博大精深,但是随着科技的发展,人工智能的发展,识别汉语的变得越来越有可能的,并且在这个过程中,外国人也将汉语分词应用到其他语言中,共同进步

阅读剩余内容
网友评论
相关内容
拓展阅读
最近更新