日记大全

日记大全 > 句子大全

百度发布情感预训练模型SKEP(14项中英文情感任务全面超越SOTA)

句子大全 2023-12-13 02:21:01
相关推荐

近日,百度正式发布情感预训练模型SKEP(Sentiment Knowledge Enhanced Pre-training for Sentiment Analysis)。SKEP利用情感知识增强预训练模型, 在14项中英情感分析典型任务上全面超越SOTA,相关论文已经被ACL 2020录用。本文将对SKEP的模型、实验效果、开源、商业应用分别进行介绍。

论文名称:

SKEP:Sentiment Knowledge Enhanced Pre-training for Sentiment Analysis

SKEP:基于情感知识增强的情感预训练

情感是人类认知的重要组成部分,让机器具备情感分析能力是实现机器认知智能的必要环节。具体来说,情感分析旨在自动识别和提取文本中的倾向、立场、评价、观点等主观信息。它包含各式各样的任务,比如情感倾向分类、实体级情感分类、观点抽取、情绪分析等,整体上这些任务均依赖于深入的情感语义理解。

近年来,基于预训练的语义理解获得了迅猛的发展,显著提升了各类自然语言处理任务的效果。相比于通用预训练中主要关注事实型文本(如新闻、百科等),情感分析更侧重于分析主观型文本中蕴涵的情感和观点,因此有必要专门面向情感分析研发情感预训练模型。

为此,百度研究团队提出了基于情感知识增强的情感预训练算法SKEP。此算法采用了无监督方法自动挖掘情感知识,然后利用情感知识构建预训练目标,从而让机器学会理解情感语义。

具体的说,SKEP首先基于统计方法从大量无标记数据中自动挖掘情感知识,包括情感词(如图中情感词fast、appreciated)、情感词极性(如图中fast对应的情感极性为积极)以及观点搭配(如图中<product, fast>构成的二元组)。

然后,基于自动挖掘的情感知识,SKEP对原始输入句子中的部分词语进行屏蔽(Mask),即替换为特殊字符[MASK]。除了像传统的预训练对单词或者连续片段进行屏蔽,SKEP还会对观点搭配这种skip-gram进行屏蔽。

最后,SKEP设计了三个情感优化目标,要求模型复原被屏蔽的情感信息,包括:基于多标签优化的观点搭配预测,如图x1位置预测<product, fast>情感搭配;情感词预测,如图x6位置预测fast;情感极性分类,如图x6、x9预测该位置情感极性。

这样,通过面向情感的优化目标进行预训练,自动挖掘的情感知识就被有效地嵌入到模型的语义表示中,最终形成面向情感的语义表示。

实验:在14个中英情感数据全面超越SOTA

百度研究团队在三个典型情感分析任务,共计14个中英文数据上验证了情感预训练模型SKEP的效果,包括句子级情感分类(Sentence-level Sentiment Classification)、评价对象级情感分类(Aspect-level Sentiment Classification)和观点抽取(Opinion Role Labeling)。

实验表明,以通用预训练模型ERNIE(内部版本)作为初始化,SKEP相比ERNIE 平均提升约1.2%,并且较原SOTA平均提升约2%,具体效果如下表:

在被ACL 2020录用的论文中,百度还对实验结果进行详细的分析对比。实验分析表明,各类情感知识对于情感预训练都是有帮助的,并且通过利用情感知识进行预训练,SKEP能更好地捕捉文本中的情感信息。更多的细节可以通过该论文进行了解。(论文链接见文章开头部分)

开源:代码模型与一键式产业化工具

为了方便研发人员和商业合作伙伴共享效果领先的情感分析技术,百度开源了基于SKEP的情感预训练代码和中英预训练模型。

此外,为了进一步降低用户的使用门槛,百度在SKEP开源项目中集成了业界首个面向产业化的一键式情感分析训练和预测工具。用户只需要几行代码即可实现基于SKEP的情感预训练以及模型预测功能,欢迎用户使用。(开源地址链接见评论区)

商业应用:技术开放和商业化

情感分析具有重大的实际商业价值,在消费决策、舆情分析、个性化推荐等领域均有广泛的应用。百度情感分析技术已经在百度的搜索、推荐等产品中应用多年,显著提升了用户体验。

近年来,百度还将情感分析对外进行开放,受到了广大客户的欢迎,并且最新的SKEP技术也已经在这些内外场景中开始应用。

其中,中国家电零售连锁企业——国美,作为电商行业标杆客户,借助百度的情感倾向分析、评论观点抽取、观点分类等核心技术,搭建了完整的服务智能化评分系统。

通过应用情感预训练模型SKEP,国美有效提升了语义模型的泛化能力和预测准确率。服务评分的智能化,使得国美客服运营人力减少40%,负面问题处理率从60%飙升至100%,售后差评率整体降低7%。

为了将百度领先的情感分析能力开放给更多的商业伙伴,更好地赋能行业,百度通过AI开放平台开放了基于SKEP预训练的情感倾向分析、评论观点抽取、实体级情感分析等服务。

目前该平台已累计支持8万+用户,成为在情感分析领域技术布局最全面,业界使用最广泛的服务平台之一。

总结

百度创新性地提出了基于情感知识增强的预训练模型SKEP,为各类情感分析任务提供统一且强大的情感语义表示能力,在14个中英数据中刷新了SOTA。此外,为更好地推动技术发展,百度已将SKEP相关的模型、代码进行开源开放。

目前,基于SKEP的情感分析能力已经在商业上有了较为广泛的应用。未来,百度将继续研发更先进的情感分析技术,将最新最好的技术共享出来,赋能广大的行业和用户。

『直播预告』

4月初,国际自然语言处理领域顶级学术会议“国际计算语言学协会年会”(ACL 2020)公布了今年大会的论文录用结果,百度共有11篇论文入选。

5月21日、22日,我们邀请到了百度技术委员会主席、百度自然语言处理首席科学家吴华博士携6位NLP研发工程师为大家带来两场“听大咖讲论文”直播活动;欢迎大家锁定5月22日的第二场直播,我们将在直播中对『基于知识增强的情感预训练』进行详细解读。

直播预约链接请见评论区!

5月22日(周五)

19:30-20:00 利用上下文语境下词级别风格相关性来进行无监督风格转换 陈亮宇

20:00-20:30 基于知识增强的情感预训练 高参

20:30-21:00 多类型对话中的对话式推荐 柳泽明

阅读剩余内容
网友评论
相关内容
拓展阅读
最近更新