当前位置:主页 > 计算机软件论文 >

主题网络爬虫关键技术研究

更新时间:2019-05-19
阅享价格200元 资料包括:原始论文 点击这里给我发消息QQ在线咨询
文档格式:doc/docx 全文字数:18000 温馨提示
以下仅列出文章摘要、提纲简介,如需获取全文阅读权限,或原创定制、长期合作,请随时联系。
微信QQ:312050216 点击这里给我发消息
扫一扫 扫一扫
主题网络爬虫关键技术研究

目录

摘 要 II
第一章 绪论 1
1.1 背景与意义 1
1.2 主题网络爬虫的国内外研究现状 1
1.2.1 主题识别算法及主题搜索策略 2
1.2.2 主题爬虫系统 3
1.3 本文的研究内容 3
第二章 主题网络爬虫的体系结构 5
2.1 组成部分及基本流程 5
2.1.1 基本组成 5
2.1.2 基本流程 6
2.2 主题页面的分布特性 7
2.2.1 Hub/Authority特性 7
2.2.2 Linkage/Sibling Locality特性 7
2.2.3 站点的主题特性 7
2.2.4 隧道特性 8
2.3 搜索策略以及链接提取 8
2.3.1 robots协议和相对链接的转换 8
2.3.2 搜索策略概述 9
2.4 本章小结 9
第三章 网页主题内容抽取 10
3.1 HTML简介 10
3.2 网页文件解析 11
3.3 网页去噪 12
3.3.1 利用统计学去噪 14
3.4 主题内容的抽取 15
3.5 文本分词 15
3.6 本章小结 16
第四章 基于实体链接的主题识别算法 17
4.1 实体链接简介 17
4.2 CN-DBpedia 17
4.3 基于实体链接的特征抽取 18
4.3.1 候选特征集合抽取 18
4.3.2 常见特征抽取算法 20
4.3.3 最终特征抽取 22
4.4 基于朴素贝叶斯算法的分类器 23
4.5 实验分析 25
4.6 本章小结 26
第五章 基于Best-First算法的主题搜索策略 27
5.1 通用搜索策略 27
5.2 常用主题搜索策略 28
5.2.1 基于内容评价的搜索策略 28
5.2.1 基于链接结构评价的搜索策略 29
5.3 基于Best-First算法的主题搜索策略 30
5.3.1 链接价值评估 30
5.3.1 主题搜索策略 31
5.3.2 实验分析 33
5.4 本章小结 33
第六章 总结与展望 35
6.1 总结 35
6.2 展望 35