网络爬虫的管理规则

网络爬虫:自动从互联网中定向(有目标、过滤无关信息)或不定向(随机)地采集信息的一种程序。常用的类型有:通用网络爬虫(不定向)、聚焦网络爬虫(定向设置过滤规则)。

seo

那么这是我们系列课程第7节
要管理好
我们网站的爬虫数据
那么如果说你的网站
没有去管理爬虫数据话
你网站排名会很差
相信我
而且这也是
我不叫你们先搭建网站,再做SEO的原因
因为你听我讲完之后
你就会发现
你错过了很多机会
如果你先搭建网站的话
那之后可能说
排名难度会有所增加
但是按照听完一叶老师课程之后
你会发现
如果说你跟着老师一步步来操作
会发生什么?
你网站一上线就可以排名
我们不多讲废话
直接开始讲
那么我们想要管理好
这个网站的爬虫
我们就必须要知道
它的一个喜好和特性是什么
我们首先看
这是我总结出来的几点
第1点就是链接的长度
那么什么是链接长度
为什么要是链接的长度
首先我们来讲讲什么是链接好不好
链接,你比如说B站
这是它的一个域名
你也可以把它理解为一个链接
我们刷下去
那么你比如说加斜杠等等
你看这种这是一个链接
那么每个链接都是蜘蛛的入口
蜘蛛,百度它是通过发送数据
蜘蛛之后就是通过链接来抓取你网站的整个内容的
你看见没有
抓住整个网站内容的
那么这是一个链接长度
当链接的长度越长的时候
它蜘蛛来的网站速度就会越慢
那么蜘蛛,往往就不喜欢这种站点
我前面讲过
百度会初步的计算:在放入蜘蛛返回的时候
好,那么这个时候
他不喜欢你这种站点的时候
往往之后的一个爬行几率,就会比较少
也就说你的爬虫数量会降低
爬虫数量降低有什么害处
我会在这点给他们讲到
我们来看
首先链接它分为两种
一种是中文的
一种是英文的
打个比方
中文(链接)的是什么
比如说www.yiye.com
不对
这个是英文的
那中文的是
ww.一叶.com
你看这就是一个中文和英文
有什么区别
中文的话
它蜘蛛识别难度会增加很大很大
我强调三遍
这不单单是这里出现
你比如说
这样的也是叫中文
凡是链接里面带有中文的
他都叫中文(链接)
所以说你们要考虑这一点
你看没有
我把这个东西放上去
他也是中文(链接)
所以说
对于这个页面
它蜘蛛识别难度是很大的
所以说你们选择域名的时候
一定要选择这种英文的域名
当然后面还有一个匹配制算法
中文的
不过同学们一般接触不到
因为这个要求特别高
我们来看第2点
第2点是什么呢
就是网站识别的回访
什么意思?
就是前面有讲
百度蜘蛛对网站会有一些初步数据的计算
还是我上一节课讲过的
蜘蛛它来访我们页面之后
会带着一些数据返回百度
那么这些数据什么呢
第1个就是网站打一个速度
当你这个网站打个速度
它越长的时候
他蜘蛛就越没耐心等待
我们知道
蜘蛛是模拟的普通用户
我上节课讲过
如果你没有看的话
一定不能落过
任何一节课课程
那么(模拟)这个打开速度
就相当于一个(模拟)真实的用户在等待
真实用户一般没有这样长的耐心的
当你这个网站加载时长超过了三秒
或者四五秒的时候
你这个网站就会很差的
第2个是识别难度
识别难度是什么呢
我这里说一下,有一些东西蜘蛛是不识别
或者识别难度很大的
比如说图片的识别难度就会很大
那么视频他就不识别
好视频它就是几乎完全不识别的
或者识别难度极大
我拿现在这个平台说,B站
ilibili
我们来说一个B站很牛逼的一个点
我们看一下网站
这是B站
这是它的一个首页
来同学们看
那么,蜘蛛对于B站的一个识别难度怎么样呢
我们复制这个东西
我们就可以看到
它就是返回给百度
这个数据是什么
来,我复制这个链接
然后搜索一下
它会展示出一系列结果
那么这在这里有个东西
叫做百度快照
这个快照就是百度蜘蛛
它识别出来的你网站里面内容
那么它带给百度的
也是这种内容
好我们来看一下
他带给百度的
在百度真实眼里面
B站长什么样
来注意看

我们来对比一下
这是百度眼里面的B站
那么这是我们用户眼里面的B站
我们对比下
应该没有图片
什么前面都有
我们往后面翻
就是视频
我们再往后面翻
这也是这份
我们正好看
你看这里
你看这里
我们再看百度真实眼里的
蜘蛛眼里面的一个数据
看到没有
这上面看着挺正常
视频哪去了
是吧
然后我们再看这一块全是空白的
那么对于这种页面
它在百度里面
所以说是不合格的
那么为什么B站的排名还这么好
因为有流量用户就是王道
对吧
大B站没法说,很霸道
看到没有,全部是
下面几乎是没什么内容
这是一个百度眼里面真实的样子
所以说你们网站
没有这种
这么霸道的一个情况下
就千万不要模仿
所以说在选择模板的时候
你就要删选了
我后面会讲这个东西
那我们先讲第3个点
第3个是什么呢
就是有效收录
那么有效收录是什么
我这里留个问题给同学们
那么这种有效收录
你可以理解为有价值的页面
什么叫有价值
这里如果你不懂
你想跟我探讨一下
可以直接找我
我的微姓
那么这是第3个点
我们先保留
好吧
这一点是个大知识点
拿笔和本子记下来也没没问题
我们看第4点
第4点就是爬虫越多的时候越容易被收录
那什么意思
我们还记得我前面打个比方
老师下来收集数卷
当你这个网站
它的一个识别难度越高的时候
它的排名数据
百度蜘蛛就越不喜欢
那么这里蜘蛛越多的时候
它识别难度高
并不代表不能识别是不是
那么我第一只蜘蛛识别不了
我们就换第二次来
就这么个意思
你看这个老师在这个流程里面
这个老师如果说
学生的字写得很潦草
它看不清楚他怎么办
到下一个老师
他来看的时候
他可能就看的清楚了
对吧
他认真的看,那这个看不清
我们再多换几个老师试一下
让他们共同探讨一下
这就是一个识别难度
所以说
当我们网站的爬虫越多的时候
你往往就越能被收录
甚至说我可以应用为一种黑帽的
一种工具一种技巧
叫做蜘蛛池
但是这种蜘蛛池是很低效的
好吧
很低效
真得很低效
我这里就不做多讲
后面有机会
给同学们讲解一下
那么这种收录越多的话
还是以上面这一点
就是链接为通道
当我们想要网站蜘蛛更多时,该怎么做
那就是你一个页面,起码得有20-30个链接
才算是一个合格的页面
记住这句话
就是这种链接
B站举例,凡是能够点击的
都叫链接
能够点击就是链接
那么这就是我们课程的前面4个
还有第5个
也就是说爬虫的数据–访问日志
那么这个访问日志是什么呢?
什么意思呢
就是我们网站
只要有访客来到我们网站
服务器就会自动生成一个文档
记录当天的一个数据值
那么我们可以通过这个数据值
观看到我们当天蜘蛛的访问情况
你可以自己找一找
如果说日志文档里面
很少有蜘蛛来爬
说明你这个网站
它的质量是特别差的
如果说你网站
蜘蛛访问的很频繁的话
说明站点很好
我们来看一下
我找一份文档
我就不跟你们展示了
原谅一叶老师,比较懒 (* ̄3 ̄)╭
现在时间不早了
我们看一下怎么去弄
首先有个FTP工具
搭建好网站之后
会有这个工具
如果说你没有建站
你可以找我领下这个教程
我的微姓是
你也可以在我发布的视频里面找一下
我们来看
你看这里有个文件夹
加叫做LOGS结尾的
就是在根目录里面
听不懂没关系
你只需要稍微了解一下
这个不是很重要
如果你没有网站的话
那么我们在这里面可以
能拿到这种压缩包
我们下载出来
然后解压之后
它原本的一个后缀是点LOG
但是改成txt之后
我们就可以打开了
然后我们这个时候
不用文本打开
用Excel的工作文档
那么这个时候打个之后
打开之后会怎么样
下一步我全部跳过了
你可以直接拿这个例子看
找到下一张图片
然后我们就可以筛选
好在这一步
我们选择这一栏
就是J这一栏
因为 J 这一栏的话
它全部是这种访问日志这种数据
那么这个时候我们删选为
Baiduspider/2.0
这是蜘蛛的一个版本号
那么这个时候
它就会展示出蜘蛛访问的次数
看见没有
哪一次,第几次蜘蛛来访问了
那么这个就可以看出
你网站的频繁度
这份文档
你们可以自己去复制一下
简单了解
那这就是我们这节课的内容
那么怎样去管理蜘蛛
我们总结一下
第一个
你网站它这个链接可以识别
而且这个链接在页面里面
一定要多次出现
因为蜘蛛
他访问你这个页面之后
他不会离开
他会接着下一个页面
继续访问
那么就增加了
你蜘蛛的一个存留率
那么这就是一个访问
那么后面(页面识别难度)一定要低
你看像B站
它的(识别)难度就很高的
那么怎样才算难度低呢
文字多!
你首先先记住这点
我后面会讲其他的
然后打开速度快
然后如果说你要下次
让百度发送更多蜘蛛给你
你的页面就要有有效收录,有价值
也就说你这个网站
如果识别难度真的有点大怎么办
就把这个页面
让蜘蛛故意的多次爬行
这些技巧我都会在后面讲的
我们这节课内容就先到这里

作者:

喜欢围棋和编程。

 
发布于 分类 百科编程标签

发表评论

邮箱地址不会被公开。