爬虫千万条,守法第一条,爬虫不规范,亲人

本文将介绍一些爬虫的基本知识以及相关包的安装。

1.爬虫概念

以下定义来自百度百科“网络爬虫”词条

网络爬虫（又被称为网页蜘蛛，网络机器人，在FOAF社区中间，更经常的称为网页追逐者），是一种按照一定的规则，自动地抓取万维网信息的程序或者脚本。另外一些不常使用的名字还有蚂蚁、自动索引、模拟程序或者蠕虫。

2.爬虫原理

此话当从万维网创立的目的说起，为了更好的资源共享和信息管理。随着网络的不断发展，数据越来越多，也越来越杂。互联网上出现了大量的冗（rong）余数据，也就是我们常见的垃圾信息。找到有用的信息越来越困难。于是乎，爬虫应运而生，它根据一定的规则，只获取人们想要的内容。

我们平时访问网站的流程是这样的：

a.在浏览器中输入网址（URL）

b.进入网站，双眼寻找并获取对自己有用的信息

c.得到信息后精神、生理（斜眼笑）上得到满足

而爬虫就是根据这一过程进行设计，模拟人的行为对网站进行请求数据，然后将这些数据筛选，整理成有用的信息进行分析。

3.反爬虫概念

作为一个网站站长（比如笔者）辛辛苦苦练习整理文章，几秒过去所有数据都被扒拉走了，心里多么的难受，所以就有了反爬虫。说白了就是通过一些针对爬虫的限制不让爬虫爬取数据，比如验证码……然后就有了图像识别验证码、打码平台等，被称为反反爬虫……只要你愿意，可以一直反下去……

4.开始写爬虫的一些准备工作

首先新建一个虚拟环境，笔者电脑上环境太杂，安一个虚拟环境更加纯净，也方便演示，关于虚拟环境的内容可以翻翻我以前的文章，有详细的介绍。

a.新建虚拟环境（可省略）

b.安装requests模块

此时已经可以写一些简单的爬虫了明天实战一下

转载请注明地址:http://www.1xbbk.net/jwbfz/5482.html

下一篇文章：没有了

最新文章