当前位置:主页 > 计算机软件论文 >

网络舆情平台数据采集系统的设计与实现【硕论】

更新时间:2019-01-27
阅享价格300元 资料包括:原始论文 点击这里给我发消息QQ在线咨询
文档格式:doc/docx 全文字数:28000 温馨提示
以下仅列出文章摘要、提纲简介,如需获取全文阅读权限,或原创定制、长期合作,请随时联系。
微信QQ:312050216 点击这里给我发消息
扫一扫 扫一扫
网络舆情平台数据采集系统的设计与实现

摘   要

随着互联网的迅速发展,微博作为一种新的网络媒体形式,在人们获取信息、传递信息、检索信息等日常网络行为中扮演着越来越重要的角色。与传统媒体数据相比,微博文本简短,支持实时转发评论,并且舆情传播速度快,这使得微博数据成为新的研究对象。微博舆情检测技术是研究如何对大量的微博数据信息进行管理分类,已经成为当前微博研究的热点之一。本文从微博数据的采集、微博数据短文本预处理、微博舆情检测方法三个方面进行研究。采集相关微博数据,并结合微博的文本简短性和结构化信息特征,在传统舆情检测方法基础上,对微博数据预处理和微博舆情检测方法进行了探讨。主要工作内容如下:
首先,在论文的准备阶段,主要是阅读大量的文献和相关资料并对到目前为止的微博突发话题检测研究现状进行了初步了解,在掌握突发话题检测的研究背景及意义的基础上,确定了系统的需求分析,制定了系统需要实现的三个功能:
信息采集、数据处理、突发话题检测。与此同时,介绍系统的功能性与非功能性需求,约束了系统开发环境。
其次,本文在分析话题检测整个工作流程的基础上,考虑新浪微博具有的短文本、实时、社交性、媒体性等多个特点,保证突发词的两个特性的同时还要体现突发词的区分度,于是定义和引入了微博的传播价值,它的计算过程包含两个方面,用户影响力和微博的显著度。本文设计了基于传播价值的微博突发话题检测的算法,第一步,依照词语在时间上的变化确定候选突发词集合,第二步利用权重计算和传播价值计算结合的方式完成突发词的筛选。最后利用词共现的概率计算突发词间相似度,利用single-pass的聚类算法完成突发话题检测。
最后,在系统需求分析的基础上,设计了基于传播价值的突发话题检测系统的工作流程。在系统总体架构上,分别分析两种模式C/S和B/S,B/S开发模式更适合本系统的设计;在设计系统层次方面,遵循高内聚、低耦合的原则,系统运用三层体系架构:数据访问层(DAL)、业务逻辑层(BLL)、表示层(UI)。
关键字:微博客;舆情;消息流行度预测;长微博

目   录

摘   要 I
ABSTRACT II
第1章 绪论 1
1.1研究背景 1
1.2研究目的及意义 2
1.3国内外研究现状 2
1.3.1国内外舆情监测研究现状 2
1.3.2 针对海量信息的数据挖掘研究及发展趋势 4
1.4 研究内容和研究目标 5
第2章 微博突发话题检测系统相关技术基础 7
2.1信息采集 7
2.1.1新浪微博API概述 7
2.1.2 OAuth2.0用户身份认证 8
2.2数据处理 10
2.2.1微博无用信息过滤 11
2.2.2微博文本分词及去除停用词 11
2.3微博突发话题检测系统的关键技术 12
2.3.1相关定义 13
2.3.2候选突发词抽取 14
2.3.3基于传播价值的突发词检测 15
2.3.4突发词聚类 17
第3章 系统需求分析 18
3.1系统目标 18
3.2系统需求分析 19
3.2.1系统功能性需求分析 19
3.2.2系统非功能性能需求 23
第4章 系统设计 26
4.1系统开发环境 26
4.1.1开发环境 26
4.1.2数据库 26
4.2系统总体结构设计 27
4.2.1系统架构设计 27
4.2.2系统层次设计 28
4.2.3系统结构模型 30
4.3数据库设计 30
4.3.1数据库的创建 31
4.3.2概念模型 31
4.3.3数据库表的设计 33
4.4系统功能模块设计 35
4.4.1信息采集模块设计 35
4.4.2数据处理模块设计 36
4.4.3微博突发话题检测模块设计 37
4.5登录模块设计 38
第5章 系统功能模块的实现与测试 40
5.1登录模块 40
5.2信息采集模块 45
5.3数据处理模块 54
5.4话题检测模块 58
5.5系统测试 61
第6章 总结与展望 63
6.1总结 63
6.2展望 63
参考文献 65
致谢 69