来源

2014 EMNLP

关键词

摘要

本文报告了一系列在卷积神经网络(CNN)上进行的一系列实验,这些卷积神经网络在针对句子级别分类任务的预训练词向量之上进行了训练。本文表明,几乎没有超参数调整和静态矢量的简单CNN在多个基准上均能获得出色的结果。通过微调学习特定于任务的向量可进一步提高性能。
本文另外建议对体系结构进行简单的修改,以允许使用特定于任务的向量和静态向量。
本文讨论的CNN模型在7个任务中的4个改进了现有技术,其中包括情感分析和问题分类。

结论


图表

引言

在自然语言处理中,深度学习方法的许多工作都涉及通过神经语言模型学习单词向量表示并对学习的词向量进行合成以进行分类。Word Vector:本质上是特征提取器,可在其维度上编码单词的语义特征。在这种密集表示中,语义上接近的词在较低维向量空间中同样接近(以欧几里得或余弦距离)。

CNN模型在语义解析,搜索查询,句子建模以及其他的一些NLP任务中取得了出色的结果。

本文从无监督的神经语言模型获得的单词向量之上训练一个具有卷积层的简单CNN。单词向量为Mikolov等从1000亿单词的谷歌新闻中预训练得到。使单词向量保持静态,仅学习模型的其他参数。尽管对超参数的调整很少,但这个简单的模型在多个基准上均能获得出色的结果,这表明预训练的向量是“通用”特征提取器,可用于各种分类任务。通过微调学习特定于任务的向量可以进一步改进。最后,本文描述了对体系结构的简单修改,以通过具有多个通道来允许使用预训练向量和特定于任务的向量。


方法

架构

架构图

采用多种不同尺寸的卷积核,对每个卷积核提取的特征图使用最大池化,最后使用FNN和softmax层进行分类。

双通道的word vector,一个保持不变,一个会在bp反向后微调。

规则化

在卷积层使用了dropout,以及l2正则。

实验

在不同的benchmarks上进行了测试。

超参数和训练

卷积的尺寸为3,4,5,dropout 概率0.5,l2正则系数3,batch size为50,通过grid search搜索得到的。

预训练词向量

使用Word2vec,300维的向量,用词带模型训练。未被表示的单词,随机初始化。

模型变种

CNN-rand:所有单词都随机初始化

CNN-static: 使用word2vec来初始化,并不再改变

CNN-non-static: 使用word2vec来初始化,在每个任务中改变

CNN-multichannel: 一个通道的改变,一个不改变。

结果