当前位置:主页 > 计算机软件论文 >

基于改进聚类算法的web数据挖掘系统的设计与实现【硕论】

更新时间:2019-02-17
阅享价格300元 资料包括:原始论文 点击这里给我发消息QQ在线咨询
文档格式:doc/docx 全文字数:25000 温馨提示
以下仅列出文章摘要、提纲简介,如需获取全文阅读权限,或原创定制、长期合作,请随时联系。
微信QQ:312050216 点击这里给我发消息
扫一扫 扫一扫
基于改进聚类算法的web数据挖掘系统的设计与实现

摘  要

Web日志挖掘技术已经成为学术界的一个重点研究话题。基于其中的日志记录分析用户行为,解析用户行为的规律及其特征,有效识别客户群体各规律关系,从而实现有效服务。另外在Web日志挖掘技术中聚类分析法得到了普遍性的应用,基于用户行为有效分析自身兴趣点,结合现有分析优化网络结构,最终实现个性化服务。
本文首先理顺了聚类分析、数据挖掘等概念及原理,在此基础上深入探究了现有模糊聚类法的原理及其具体算法步骤。基于挖掘日志数据的层面,充分分析数据挖掘技术,在此基础上结合WEB日志的原理及其特点,分析数据模型,在统筹分析的基础上得出云计算hadoop平台。其次是总结本文已形成的文本结果,基于用户聚类算法以及糊-C均值算法等提出有效的改进及优化措施。本文通过抽取爬虫日志数据及其统计功能,最后得出较为满意的计算结论。
众所周知爬虫服务器的各个节点中,分布着十分密集的爬虫应用。系统在调度种子或截取网页时会自动记录其日志运行情况,并以此作为抽取信息的前提条件。在用户提出申请后,即展示指标数据,控制器可下达调取爬虫指标数据的任务,经渲染后向服务器反馈,此时用户器在接收到相关信息后可向用户展示。本文在设计大数据据挖掘系统方面是基于爬虫收集器进行的,不仅实现了设计而且本研究获得了较佳成果。最终实证检验本文所设计的web数据挖掘系(也就是改进聚类算法)具有精度更高的特点。

关键词:数据挖掘;web数据;改进的聚类算法

目  次

摘  要 I
Abstract II
目  次 III
第1章 绪论 1
1.1 研究背景 1
1.2 研究意义 1
1.3 国内外研究现状 2
1.3.1 聚类分析研究现状 2
1.3.2 Web 日志挖掘技术研究现状 2
1.4 本文工作与组织形式 3
第2章 web日志数据挖掘概述 5
2.1 大数据 5
2.2 数据挖掘技术 5
2.3 信息抽取技术 8
2.4 web日志的特点 9
2.4.1 web日志的形成 9
2.4.2 web日志的结构分析 9
2.5 web日志数据挖掘的处理模型 10
2.6 web日志数据预处理 11
2.6.1数据清洗 11
2.6.2 用户识别 11
2.6.3 会话识别 12
2.6.4 路径补充 12
2.7 云计算hadoop平台介绍 13
2.7.1 Hadoop平台概述 13
2.7.2 分布式文件存储系统的HDFS 13
2.7.3 MapReduce编程模型 14
2.7.4 数据仓库框架Hive 14
2.8 本章小结 15
第3章  数据挖掘系统相关算法研究 16
3.1 系统相关概念描述 16
3.2 频繁遍历路径概述 16
3.3 最大向前引用算法 16
3.3.1 算法原理 16
3.3.2 举例分析 17
3.4 挖掘频繁遍历路径 17
3.4.1 大引用算法原理 17
3.4.2 大引用算法举例分析 18
3.4.3 最大引用算法 18
3.5 聚类概述 19
3.5.1 模糊 C-均值算法概述 20
3.5.2 对模糊 C-均值算法的改进 22
3.5.3 算法性能对比 24
3.6本章小结 24
第4章 数据挖掘系统总体设计 26
4.1 系统设计目标及功能 26
4.1.1 系统设计目标 26
4.1.2 系统功能介绍 27
4.2 系统物理体系结构 27
4.3 系统软件体系结构 28
4.4 爬虫日志数据信息抽取与统计功能架构 30
4.4.1 系统网络架构 30
4.4.2系统软件层级的结构设计 31
4.4.3系统的功能模块设计 32
4.4.4数据模型的设计 33
4.4.5系统的接口设计 35
4.5 本章小结 36
第5章  数据挖掘系统的设计与实现 37
5.1 系统概述 37
5.2爬虫日志数据收集器的详细设计与实现 39
5.2.1 爬虫日志数据分布 39
5.2.2 爬虫日志数据收集器流程分析 39
5.2.3 爬虫指标数据计算器的详细设计与实现 40
5.3 指标数据展示与邮件发送器详细设计与实现 42
5.3.1 爬虫指标数据 42
5.3.2 指标数据展示与邮件发送业务类 43
5.3.3 指标数据展示与邮件发送时序分析 44
5.4 后台采样任务 45
5.4.1设计思路 45
5.4.2 设计与实现 45
5.5 数据预处理 46
5.6公共服务 47
5.7 模式识别 48
5.7.1 用户聚类的实现过程 48
5.7.2 页面聚类的实现 50
5.8系统运行分析结果 51
5.8.1统计分析 54
5.8.2模式分析 56
第6章 总结与展望 60
6.1 本文的工作 60
6.2 进一步工作 61
参考文献 62
学术成果 64
附录 65