互联网演出评论短文本情感极性分析研究 摘 要 大数据时代已然到来,人们习惯于将自己的想法和感受上传到互联网,尤其是近年来各种演出如竹兴起,这些演出引出海量的评论信息,对反映观众情感和评论的信息进行分析和深层次的挖掘,对演出单位有着十分重要的意义。随着文化市场的不断繁荣以及科技的发展渗透,旺盛的文化消费需求与优质文化产品的有限供给形成了突出的矛盾。 本文的研究内容是互联网演出评论短文本情感极性分析研究,主要目的是利用计算机技术分析社交媒体中演出信息的评论短文本,得出其情感倾向性,在方便消费者选择合适的演出的同时,也可以帮助出品方对演出能有更好的了解。论文主要是从以下几个方面展开研究工作。 1.完成互联网演出评论短文本情感极性分析的预处理工作。选取某个演出或是电影作为分析目标,获得到它的评论短文本数据之后,对获取的这些评论数据进行文本的预处理工作,主要包括中文分词、去冲重复文本、去停用词、词性标注等,为后续的情感分析做准备。 2.对于基于机器学习的监督学习过程中,相比于人工成本和时间成本较高的人工数据标注,我们提出了一种基于表情信号平滑的标注方法,将人工标注和非人工噪声标注结合在一起,可以提高标注效率。 3.对于文本特征的提取,我们提出了三种文本特征提取的方法,分别是基于词典的特征提取,基于词性的特征提取以及依存句法的特征提取方法。对于依存句法的特征提取这一方法,我们将依存句法分析应用到修饰词的提取上这一过程,该方法是建立在句法结构分析的基础上的,从而能够准确的提取出情感词的修饰词,来获取文本特征。之后将这些特征向量化之后输入分类器,来比较分类效果。 4.我们提出一种多决策混合分类器。这个分类器是基于三支决策思想的,首先是用支持向量机分类器和朴素贝叶斯分类器依次进行三支决策,这样就在一个较高分类效率的前提下,对那些之前无法判断进入边界区域的评论数据再由支持向量机分类器和朴素贝叶斯分类器进行加权投票的方法,来决定这个评论数据最后到底是属于正类还是负类。 关键词:机器学习;情感极性分析;特征提取;依存句法分析;三支决策;分类器 |
互联网演出评论短文本情感极性分析研究
更新时间:2019-09-14