日记大全

日记大全 > 句子大全

每日一读:基于Self-Attention和Bi(LSTM的中文短文本情感分析)

句子大全 2023-12-13 03:47:01
相关推荐

4.基于Self-Attention和Bi-LSTM的中文短文本情感分析

4.1论文信息

西北大学 信息科学与技术学院,吴小华,陈 莉,魏甜甜,范婷婷中文信息学报,2019年归档:WPS网盘\我的云文档\论文汇报\毕业论文\论文部分\短文本情感分析算法部分\参考文献4.2论文重点

研究目的:对于当前基于注意力机制和双向LSTM依赖于分词精度的问题,研究者认为,采用字向量的方法可以解决过度依赖分词精度的问题,采用自注意力机制可以获取文本内信息。研究方法:通过字向量作为输入,采用Bi-LSTM提取文本重要信息,采用Self-Attention方法进行权重调整,并最后按照Softmax函数进行分类研究结果:相对于其他方法具有一定的提升:

4.3模型分析

本研究提出一种基于Self-Attention的Bi-LSTM的模型character-SATT-BiLSTM,具体如下:

该模型分为四层,分别为字向量表示层、特征学习层、权重调整层以及情感分类层。进一步进行探究 :

4.3.1 字向量表示层

依赖于词向量的训练方式需要有较高的分词精度,为此作者在此处直接使用了语言单位更小的字向量。通过Skip-gram算法进行大规模训练,每个字维度为300维。算法可以通过以下形式进行表示:

表示参数集合,算法目标是寻找最佳参数的集合。为字向量,为的语境,即:的前后各字构成的集合。因此,(原文公式应该采用竖线,表示条件,应该是排版错误导致)表示在条件下,语境出现的概率。表示所有字和字对应的语境集合,以及(原文公式应该是,而非,至少我到目前为止搞不清楚下标m所表示的具体含义,也没有关于其是否为集合的表述,应该是公式弄错了)分别表示和的向量。

4.3.2 特征学习层

首先需要了解下LSTM,然后再对Bi-LSTM进行探究:

4.3.2.1 LSTM

【LSTM】中文名称为:长短时记忆神经网络,其网络结构图如下:

LSTM的核心在于顶部贯穿整个神经网络的“传送带”,学术名称为细胞状态,该状态由两个关键的门组成,分别为遗忘门、输入门。

4.3.2.1.1 细胞更新

如上图所示,时刻的细胞状态更新依赖于两点,一个是上一时刻的细胞状态(),和本时刻的输入,其中上一时刻细胞状态经过遗忘门后,选择性的丢弃一部分信息,经经过输入门将此时刻的部分信息加入进来。如下图比较清晰的阐明了该过程:

因此,细胞更新状态的方法可以表述为:

。接下来 将具体阐述以及和是如何计算的。

4.3.2.1.2 遗忘门

上图为遗忘门的结构图,其接受来自上一时刻隐层的信息以及此时刻的输入信息,经过函数计算,输出决定丢弃多少信息。这一过程可以理解为,比对上一时刻和此时刻输入信息是否存在差异,如果差异比较大则认为上一时刻信息十分重要,应该保留,给与较大的通过权限;如果上一时刻和此时刻输入信息差别不大,则需要将上一时刻信息做较大的丢失。举例:对于图像识别而言,上一帧画面和现在这帧画面差别不大,则我们直接用现在这帧画面表示即可,而上一时刻画面丢失掉(他的作用完全可以由现在这帧替代)。可以通过如下方式进行表示:

其中,和则是通过加权和的方式结合。

4.3.2.1.2 输入门

上图为输入门的结构图,使用函数判定在新的输入值中保留哪些信息,使用层生成候选向量。分别通过如下方法表示:

到目前为止即可完成对细胞状态的更新。但是对于时刻而言,还需要向外输出一个时刻的值。

4.3.2.1.3 输出门

其中

以及

4.3.2.2 Bi-LSTM

为一个经典的Bi-LSTM图示,其中隐层输出为。

4.3.3 权重调整层

该层采用了自注意力机制方法,其表示方法如下:

其中为句子向量,为调整因子,为了防止内积过大,导致输出值非0即1的情况。

4.3.4 模型训练

Loss函数为交叉熵损失函数:

4.4 模型参数

阅读剩余内容
网友评论
相关内容
拓展阅读
最近更新