基于Scrapy框架的网络爬虫与数据分析设计与实现 摘要: 电影《美国队长2》中有句台词:21世纪就是本数据书。自计算机发明进入21世纪以来,互联网数据呈现爆炸式的增长,而在如此庞大的数据面前,如何准确快速的获取我们所需的信息便显得尤为重要。专业领域中,传统的关键字搜索已不再适用于某些特定场景,大数据越来越被广泛应用。必应搜索通过集成以往的飞机票价画出未来票价的走势;谷歌利用用户搜索记录判断出美国流感疫情的现状,比疾控中心快一两周。而作为抓取搜索引擎数据的重要组成部分之一,网络爬虫应运而生。网络爬虫其先进性不仅在于其可爬取并保存整个显示页面的数据,而且可根据目标地址不同,从而具有高度的可塑性。应用者可在编写的过程中,自定义想要输出的数据格式,从而保留数据中的有效字段,筛除掉冗余数据。本文以分析目前招聘热门岗位为例,首先阐述了网络爬虫基于 Python 编写的优势所在,进而通过数据清洗处理,生成前端指定json 数据格式,借助开源、高效、快捷的可视化工具 echarts,以多维度数据分析的形式,将数据以更为直观的形式展现出来。 关键词:scrapy,网络爬虫 |
基于Scrapy框架的网络爬虫与数据分析设计与实现
更新时间:2018-12-25