[免费] 爬虫介绍

爬虫介绍

乙醇创建于 over 7 years 之前

最后更新: less than a minute 之前

阅读数: 775

爬虫介绍

什么是爬虫

爬虫实际上就是采集网络上数据的一段程序，如果把互联网比喻成一个蜘蛛网，那么蜘蛛就是在网上爬来爬去的蜘蛛，爬虫程序通过请求url地址，根据响应的内容进行解析采集数据，比如：如果响应内容是html，分析dom结构，进行dom解析、或者正则匹配，如果响应内容是xml/json数据，就可以转数据对象，然后对数据进行解析。

资源视角

互联网上一切都是资源，比如视频资源，新闻资源等，爬虫实际上就是批量将别人的资源采集下来变成自己的资源的程序。

爬虫的一些例子

从其他网站爬取特定类型的商品信息，然后发布在自己的网上商城里
从其他网站爬取一些特定图片，展示在自己的网站里
搜索引擎爬取网站基本信息，收录在自己的搜索结果里

最简单的爬虫套路

访问1个站点，获取该站点的html代码
解析html代码，把感兴趣的数据从html代码里分离出来
保存这些数据

实际例子

假设我需要抓取重定向科技目前开设的所有测试课程，那么

先访问所有课程页面，把html代码拿到
解析html代码，从里面抠出来课程的名称和详情地址
保存课程的名称和地址

这样就可以实现一个最简单的网络爬虫了。

爬虫对于测试的意义

有时候自己去造一些测试数据是很麻烦的事情，这时候我们就可以使用爬虫去获取其他站点的类似数据，对数据进行加工后就可以当测试数据来使用了。

Reference

大话爬虫的基本套路
推荐另一个不错的python爬虫教程，应该是基于python2.7

0

下一篇

课程列表

评论

登录以发表评论

相关课程