当前位置:主页 > 计算机软件论文 >

中文网页过滤系统的设计与实现

更新时间:2019-01-28
阅享价格100元 资料包括:原始论文 点击这里给我发消息QQ在线咨询
文档格式:doc/docx 全文字数:16600 温馨提示
以下仅列出文章摘要、提纲简介,如需获取全文阅读权限,或原创定制、长期合作,请随时联系。
微信QQ:312050216 点击这里给我发消息
扫一扫 扫一扫
中文网页过滤系统的设计与实现

摘要 在国家信息化发展战略的指引下,中国的互联网与信息技术产业的发展脚步已大步向前迈进。但伴随着互联网与信息技术的飞速发展,形形色色的不良信息也随之发生了变化,经常出现在互联网平台中,不论是其手段还是形式,都具有多样性和复杂性的特点,很多内容不但背离了道德,甚至触犯了相关法律。这以互联网的健康、安全、持续发展是极为不利的,并且产生了不可估计的影响。尤其是对于一些不具有分辨能力的社会弱势群体,例如心理不健康的患者及正在成长发育的青少年等,不良信息将会对他们造成严重的影响,容易误入歧途,危害身心健康,甚至影响他们青春期的发展。所以,当前主要工作任务就是整治网络安全,防止非法内容的传播,给网络用户创建一个良好的使用环境,保证互联网朝着健康、绿色、纯净的方向发展,这是极其重要的关键环节。针对中文网页采取有效的整改措施,使用先进的技术手段,并且取得明显的成果,但由于多数研究学者不能够真正理解和领会中文语言与英文等外语的结构差异和文化差异,中文网页过滤技术仍有待更多的研究、完善和发展。
本文依据当今净化网络使用环境的需求分析,基于中文分词、KMP模式匹配等算法以及网络爬虫等,设计出一个合理可行的中文网络过滤系统。将这个网络系统进行分类,主要包括五大功能模块,在后继内容中予以详细介绍。经过实践证明,本文所设计的中文网页过滤系统,具有完整的使用功能、性能比较稳定、较高的工作效率及明显的过滤效果等多方面优势。如果网络系统中出现不良信息,超过网页系统中设置的数量,系统将自动关闭掉该网页。另外,本系统具有双重过滤功能,URL黑名单和网页非法内容相结合能够达到更好的过滤效果,在其影响下,误判率显著下降。
关键词:中文分词  网页过滤  URL  爬虫  KMP匹配  

目  录

第1章 绪论 1
1.1 课题研究背景 1
1.2 课题研究现状 2
1.3 课题研究目标与内容 3
1.4 本文组织结构 4
第2章 中文网页过滤的关键技术 5
2.1  网络爬虫综述 5
2.1.1  定义 5
2.1.2  研究背景 5
2.1.3  从爬虫角度对互联网进行划分 6
2.2  中文分词技术 7
2.2.1  中文分词出现的背景 7
2.2.2  中文分词算法 7
2.3  基于关键词匹配的过滤技术 8
2.3.1  模式匹配定义 8
2.3.2  常见的模式匹配算法 8
第3章 中文网页过滤系统的需求分析与设计 10
3.1  系统的需求分析 10
3.2  系统的总体设计 11
3.3  系统子功能模块设计 12
3.3.1  URL甄别模块设计 13
3.3.2  网页爬取模块设计 13
3.3.3  中文网页处理模块设计 14
3.3.4  非法网页过滤模块设计 15
第4章 中文网页过滤系统的具体实现与测试 16
4.1 系统权限分级模块的实现 16
4.2  URL甄别模块的实现 17
4.3  网页爬取模块的实现 19
4.3.1  HttpClient 19
4.3.2  HttpClient爬取网页实现 19
4.4  中文网页处理模块的实现 20
4.4.1  IK Analyzer 中文分词工具包 20
4.4.2  IK Analyzer在本系统中中文网页处理模块的实现 21
4.5  非法网页过滤模块的实现 22
4.6  中文网页过滤系统的测试 23
4.7  过滤本地网页的测试 25
结论 28
致谢 29
参考文献 30