爬虫千万条,守法第一条,爬虫不规范,亲人

北京哪里治疗白癜风 https://wapyyk.39.net/hospital/89ac7_knowledges.html

本文将介绍一些爬虫的基本知识以及相关包的安装。

1.爬虫概念

以下定义来自百度百科“网络爬虫”词条

网络爬虫(又被称为网页蜘蛛,网络机器人,在FOAF社区中间,更经常的称为网页追逐者),是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本。另外一些不常使用的名字还有蚂蚁、自动索引、模拟程序或者蠕虫。

2.爬虫原理

此话当从万维网创立的目的说起,为了更好的资源共享和信息管理。随着网络的不断发展,数据越来越多,也越来越杂。互联网上出现了大量的冗(rong)余数据,也就是我们常见的垃圾信息。找到有用的信息越来越困难。于是乎,爬虫应运而生,它根据一定的规则,只获取人们想要的内容。

我们平时访问网站的流程是这样的:

a.在浏览器中输入网址(URL)

b.进入网站,双眼寻找并获取对自己有用的信息

c.得到信息后精神、生理(斜眼笑)上得到满足

而爬虫就是根据这一过程进行设计,模拟人的行为对网站进行请求数据,然后将这些数据筛选,整理成有用的信息进行分析。

3.反爬虫概念

作为一个网站站长(比如笔者)辛辛苦苦练习整理文章,几秒过去所有数据都被扒拉走了,心里多么的难受,所以就有了反爬虫。说白了就是通过一些针对爬虫的限制不让爬虫爬取数据,比如验证码……然后就有了图像识别验证码、打码平台等,被称为反反爬虫……只要你愿意,可以一直反下去……

4.开始写爬虫的一些准备工作

首先新建一个虚拟环境,笔者电脑上环境太杂,安一个虚拟环境更加纯净,也方便演示,关于虚拟环境的内容可以翻翻我以前的文章,有详细的介绍。

a.新建虚拟环境(可省略)

b.安装requests模块

此时已经可以写一些简单的爬虫了明天实战一下



转载请注明地址:http://www.1xbbk.net/jwbfz/5482.html


  • 上一篇文章:
  • 下一篇文章: 没有了
  • 网站简介 广告合作 发布优势 服务条款 隐私保护 网站地图 版权声明
    冀ICP备19027023号-7