正确认识搜索引擎爬虫

各大搜索引擎蜘蛛名称大全

第6节：认识搜索引擎爬虫

第1个就是什么是爬虫
也就是认识爬虫
那么爬出来是什么呢
你可以这样理解
百度它需要对我们的页面进行计算
然后给予排名是不是
那么百度不可能挨家挨户的来敲门
然后问一下你这个网站是什么
他来下载你的数据，他绝对有方法的
那什么方法呢？
就是百度它这个服务器里面
也就是它的平台里面
会发出一串数据
到整个互联网上面的各个页面（进行下载）
那这一串数据
就是爬虫
我们来看一下
我上一节课讲过的
那么爬虫的话
就是百度放出蜘蛛
百度的（爬虫）叫做蜘蛛
也就是这串代码
这种代码来到网站之后
他就会来进行抓取
也就是说下载你的页面
是不是
你看老是下来收取试卷了
那么下载你的页面之后
你的页面才会被计算
才会有这个排名
所以说
如果你网站
没有爬虫来爬
那代表什么
代表你这个网站只能自己观看
别人是看不到你这个网站的
也就说是无法得到排名的
这就是说明这串数据的重要性
那么对于爬虫这个东西
这串数据实际上不止百度有
它各大搜索引擎
都有自己的爬虫
比如说百度的它叫：百度蜘蛛
就是我前面讲过的蜘蛛
360的叫做：360蜘蛛
谷歌的是不是叫谷歌蜘蛛呢？
不是哦
谷歌的叫做叫机器人
谷歌机器人
你只要稍微了解一下好吧
因为后面我会教你们看日志的
比如说我这里找了份文档
看见没有
各大搜索引擎
蜘蛛名称大全
你看百度的就是：Baiduspider
记住这个东西
这就是蜘蛛来到你网站的时候
它的一个名字
还有谷歌的叫Googlebot
那么360的叫做：360Spider
还有必应的
就是在这里：bingbot
这么简单了解一下就可以了
你要看的话
去找一些这份文档
好那么我就
这个不是很重要
我们做数据分析的时候我会讲到
我们来看一下
第2个，它的一个特性就是
模拟普通用户
什么叫做模拟普通用户呢？
为什么要模拟普通用户
我们来看，他百度之后有个流程
在看我们的网站
会进行一个得分计算
那么他计算标准就是看
你这个网站它得分
如果说得分高了，我给了你排名之后
你能不能够帮我吸引住更多用户
如果说你这个网站对百度没有帮助
也就说不能够帮助使用百度这些人
解决用户的需求
那么百度为什么给你排名呢？
所以说
模拟普通用户的话
初步的检查你网站的一些基本信息
就好比凡是需要VIP才能访问的
或者说需要登录才能访问的页面
百度它都不会抓取
也就说都不会下载
直接就离开了
懂不懂
就是这么个意思
比如说，举个例子
你比如说QQ空间
在零几年的时候
QQ空间
它是不需要登录
就可以访问的
现在你去看一下
他现在需要登录了
我们打开自己QQ空间之后
换个浏览器打开
你就会发现
它需要你登录才能访问
那么这种页面
他百度就不会执行下面这个流程
叫做收录
也就不会把你这个页面收藏起来
试卷收藏起来
看到没有
所以说这个东西
你需要注意一下自己的页面
你有哪些页面看需要登录才访问
凡是需要登录才访问的页面的呢？
百度他都不会抓住
所以说搭建网站之前
你就注意这一点
这就是一个百度一些
蜘蛛的一些基本信息
那么第2个
百度蜘蛛他来的你网站的时候
实际上有两个步骤
第1个是来访
来访之后
他就会带着数据
下载之后带入数据回去，就是返回
那么来访和返回
这意味着什么
这意味着蜘蛛是这样的
打个比方，画个图给你们看
你看这是百度
是不是
那么百度他需要计算的页面多少个呢？
有成千上亿个
几千万
甚至几十亿个
那么这些页面
它都需要一一的
放出蜘蛛去进行爬行
那么这个时候
同学们注意了
如果是你的页面没有蜘蛛
就不会爬行是不是
那么他出去爬行之后
它蜘蛛就会带页面数据，返回百度
那么在返回百度过程中
它就会进行初步的计算了
那么这个时候
如果说你页面的数据不合格
那么下一次你蜘蛛的数据（访问次数）
蜘蛛的爬行次数就会减少
因为百度知道你这个页面
没有存在价值
你这个网站没有什么价值
他为什么还要放出去蜘蛛去爬呢？
浪费他自己资源呢
对吧
百度这么多个页面
整个互联网这么多页面
那么我的蜘蛛数量工作肯定比较累的
所以说来访和返回
这两项数据
如果说连蜘蛛你都管理不好
你就很难在搜索引擎上获得排名
就直接卡死这第1个步骤了
那么我们这节课程
初步的了解一下蜘蛛

作者：

喜欢围棋和编程。查看的所有文章