当前位置:主页 > 计算机软件论文 >

基于深度学习的多模型文本分类算法研究

更新时间:2019-08-04
所需金币80 [1金币=1元] 资料包括:原始论文 点击这里给我发消息 QQ在线咨询
文档格式:doc/docx 全文字数:7700 ↓↓立即下载全文 **温馨提示**
以下仅列出文章摘要、目录等部分内容,如需获取完整论文资料,或原创定制、长期合作,请随时联系。
微信QQ:312050216
点击这里给我发消息
扫一扫 扫一扫
基于深度学习的多模型文本分类算法研究

摘  要:随着技术进步的日新月异,网络的飞速发展以及网民数量的高速增加,互联网产品数量也爆发式增长,这其中对交流评论等社交功能的需求也大大增加。随之而来的便是每时每刻产生的数以亿计的文本数据,对这些文本的挖掘、分类、分析以及应用变得极为重要,在科学研究和实际应用中都极有价值。2006年以Hinton为首的科学家们成功设计出首个多层次神经网络算法,因为其具有多层架构并实现了抽象认知学习能力,所以命名为“深度学习”。认知有抽象和迭代两个重要的机制,认知的原理就是由原始信息到低级抽象,再逐渐进行高级抽象迭代,由此实现更高级的抽象模型。大量研究成果都证明了相比于传统的机器学习算法,深度学习理论中的 诸多模型都能够获得更加出色的性能。本文尝试探索将深度学习理论中的卷积神经网络模型引入到文本分类技术中来。为此,需要做以下工作:首先,详细阐述文本分类任务中的详细流程,具体包括数据预处理、中文分词、特征提取、分类算法研究等步骤。在此基础上,通过对文本数据自身的特点进行分析,进一步阐述了传统的文本分类方法中所面临的诸多问题,这为后续介绍特征提取和分类模型设计的研究工作奠定了基础。其次,在对短文本进行特征提取时,为了能够更充分地描述词与词在连续低维空间中的语义关系,即提高特征的表达能力,除了原始数据集以外,在训练中还引入了维基百科中文数据集。本文并未采用传统的人工构建特征的方式,而是利用 Skip-Gram神经网络语言模型来训练出数据集中每个词的word embedding。再将每条样本中出现的所有 word embedding组合为二维特征矩阵的形式,用来代表该条样本的分布式特征。同时设计了一种具有3 种不同大小卷积核的卷积神经网络结构,从而能够在原始输入特征的基础上,进一步完成多种局部抽象特征的自动提取过程。原始输入特征也将作为模型参数被逐渐更新。实验证明,比起传统机器学习方法,包括支持向量机、随机森林、逻辑回归等,基于word embedding和卷积神经网络的文本分类模型成功将分类正确率提升。
关键字:文本分类 中文分词 深度学习 卷积神经网络 自然语言处理