创新工场提出中文分词和词性标注新模型（可提升工业应用效率）

句子大全 2011-11-14 20:34:37

相关推荐

记者从立异工厂得悉，其很新提出了中文分词和词性标注模子，可将外部常识（消息）融入分词及词性标注模子，剔除了分词“杂音”误导，晋升了分词及词性标注结果。

在NLP中，中文分词和词性标注是中文天然说话处分的两个根基使命，尤为在产业场景对分词有很干脆的诉求，但目前没有相对好的一体化办理计划，并且中文分词遍及存在歧义和未登录词的困难。

立异工厂方面注释，中文说话因其分外性，在分词时面对着两个要紧难点。一是歧义疑问，因为中文存在大批歧义，普通的分词对象在切分句子时大概会失足。比方，“片面住户生存程度”，其精确的切分应为“片面/住户/生存/程度”，但存在“分家”、“民生”等歧义词。“他从小学计算机技术”，精确的分词是：他/从小/学/计算机技术，但也存在“小学”这种歧义词。

二是未登录词疑问。未登录词指的是不在词表，大概是模子在练习的过程当中没有碰见过的词。比方经济、医疗、科技等科学平台的职业术语大概社群媒体上的新词，大概是人名。这类疑问在跨平台分词使命中尤为彰着。

所以，在“键-值影象神经网页的中文分词模子”的模子中，行使n元组（即一个由陆续n个字构成的序列，好比“住户”是一个2元组，“生存程度”是一个4元组）供应的每个字的构词才气，经历加（降）权重完成特定语境下的歧义消解。并经历非监视技巧构建词表，完成对特定平台的未标注文本的行使，进而晋升对未登录词的辨认。

在算法试验中，该模子在5个数据集（MSR、PKU、AS、CityU、CTB6）上的阐扬，均革新经历结果。

立异工厂大湾区人工智能钻研院实行院长宋彦显露，与古人的模子举行相对发掘，该模子在全部数据集上的阐扬均跨越了以前的工作，“把中文分词平台宽泛应用的规范数据集上的机能一切刷到了新高。”

在基于双通道留意力机制的分词及词性标注模子中，将中文分词和词性标谛视作团结使命，可一体化完成。模子划分对主动获得的高低文特性和句法常识加权，展望每个字的分词和词性标签，差别的高低文特性和句法常识在各自所属的留意力通道内举行相对、加权，从而辨认特定语境下差别高低文特性和句法常识的进献，从而低落了“杂音”。

立异工厂说明，在和斯坦福大学的 CoreNLP 对象的比拟中，该模子有近10个百分点的晋升。

在场景应用上，立异工厂要紧有望办理产业场景的冲破，宋彦显露，“在产业场景应用的时分，跨平台的模子才气是一个很干脆的诉求。”立异工厂说明，“键-值影象神经网页的中文分词模子”和“基于双通道留意力机制的分词及词性标注模子”两篇文章，曾经当选天然说话处分平台（NLP）顶级学术集会 ACL 2020。（完）

阅读剩余内容

效率提出提升创新工场中文分词

创新工场提出中文分词和词性标注新模型（可提升工业应用效率）

创新工场两篇论文入选顶会ACL2020（将中文分词性能刷出新高度）

自然语言处理基础技术之分词向量化（词性标注）

创新工场「数据下毒」论文入选NeurIPS 2019（AI安全问题需要引起关注）

“结巴”中文分词：做最好的 Python（中文分词组件）

“时间就是金钱效率就是生命”这句口号（是他提出的）

技术专栏（结巴中文分词介绍）