日记大全

日记大全 > 句子大全

创新工场提出中文分词和词性标注新模型(可提升工业应用效率)

句子大全 2011-11-14 20:34:37
相关推荐

记者从立异工厂得悉,其很新提出了中文分词和词性标注模子,可将外部常识(消息)融入分词及词性标注模子,剔除了分词“杂音”误导,晋升了分词及词性标注结果。

在NLP中,中文分词和词性标注是中文天然说话处分的两个根基使命,尤为在产业场景对分词有很干脆的诉求,但目前没有相对好的一体化办理计划,并且中文分词遍及存在歧义和未登录词的困难。

立异工厂方面注释,中文说话因其分外性,在分词时面对着两个要紧难点。一是歧义疑问,因为中文存在大批歧义,普通的分词对象在切分句子时大概会失足。比方,“片面住户生存程度”,其精确的切分应为“片面/住户/生存/程度”,但存在“分家”、“民生”等歧义词。“他从小学计算机技术”,精确的分词是:他/从小/学/计算机技术,但也存在“小学”这种歧义词。

二是未登录词疑问。未登录词指的是不在词表,大概是模子在练习的过程当中没有碰见过的词。比方经济、医疗、科技等科学平台的职业术语大概社群媒体上的新词,大概是人名。这类疑问在跨平台分词使命中尤为彰着。

所以,在“键-值影象神经网页的中文分词模子”的模子中,行使n元组(即一个由陆续n个字构成的序列,好比“住户”是一个2元组,“生存程度”是一个4元组)供应的每个字的构词才气,经历加(降)权重完成特定语境下的歧义消解。并经历非监视技巧构建词表,完成对特定平台的未标注文本的行使,进而晋升对未登录词的辨认。

在算法试验中,该模子在5个数据集(MSR、PKU、AS、CityU、CTB6)上的阐扬,均革新经历结果。

立异工厂大湾区人工智能钻研院实行院长宋彦显露,与古人的模子举行相对发掘,该模子在全部数据集上的阐扬均跨越了以前的工作,“把中文分词平台宽泛应用的规范数据集上的机能一切刷到了新高。”

在基于双通道留意力机制的分词及词性标注模子中,将中文分词和词性标谛视作团结使命,可一体化完成。模子划分对主动获得的高低文特性和句法常识加权,展望每个字的分词和词性标签,差别的高低文特性和句法常识在各自所属的留意力通道内举行相对、加权,从而辨认特定语境下差别高低文特性和句法常识的进献,从而低落了“杂音”。

立异工厂说明,在和斯坦福大学的 CoreNLP 对象的比拟中,该模子有近10个百分点的晋升。

在场景应用上,立异工厂要紧有望办理产业场景的冲破,宋彦显露,“在产业场景应用的时分,跨平台的模子才气是一个很干脆的诉求。”立异工厂说明,“键-值影象神经网页的中文分词模子”和“基于双通道留意力机制的分词及词性标注模子”两篇文章,曾经当选天然说话处分平台(NLP)顶级学术集会 ACL 2020。(完)

阅读剩余内容
网友评论
相关内容
拓展阅读
最近更新