您现在的位置是:青岛网站建设 > 网站建设

SEO教程:我叫若波茨(robots),初次见面请多多关照

青岛网站建设2024-05-03 12:01:15【网站建设】0人已围观

简介

点击上方蓝字@巴郎刊关注

SEO教程:我叫若波茨(robots),初次见面请多多关照

这是程叫茨rs初次巴郎刊的第063篇文章

SEO教程:我叫若波茨(robots),初次见面请多多关照

作者|巴郎 编辑|巴郎

来源|巴郎刊(ID:balangk)

转载请联系授权(微信ID:g0013g)

前言

小小的robots,聚集着大大的能量

目录(文3200字)01.初次见面02.协议规范03.蜘蛛类型04.SEO与我05.注意事项最后的话

01

初次见面

大家好我是robots!很高兴登场今天的SEO教程见面会,总算轮到我登场啦!若波和新人摸摸哒们初次见面今后还请大家多多关照呀。面请接下来,多多我详细给大家介绍下自己。关照

—01—

姓啥名谁

英文名叫:robots

中文读法:若波茨

SEO术语:网站爬虫协议

官方解释:

robots是程叫茨rs初次网站跟爬虫间的协议,用txt格式文本告诉对应的若波爬虫被允许的权限,同时也是面请搜索引擎蜘蛛进入网站时第一个查看的文件。

该协议不是多多绝对规范,只是关照约定俗成的一般规范。故而可遵守可不遵守。程叫茨rs初次

—02—

我能干什么

爬虫程序

在给大家介绍我的若波职责之前,先给大家讲下啥叫【爬虫程序】。面请

爬虫程序是多多各大搜索引擎自主研发的一套抓爬信息与获取数据的技术程序。

这些信息和数据被抓取以后被爬虫带回去存储到搜索引擎的关照服务器上。这就是爬虫程序的作用。

我的职责

当你的网站上线以后,各类搜索引擎的爬虫立刻闻讯而来。它们来的目的就是搜集你网站上的内容,它们把内容打包好带回家存进服务器里面去。

既然有一大群,一大群的蜘蛛来到咱们的网站抓爬,总得有个人招待它们这些小家伙。而的我的作用:接待它们,并约束它们的抓爬行为。你可以理解为导游。

抓取协议

蜘蛛这些小家伙们活奔乱跳的,它们来到网站抓数据必须有一个人来引导它们,因此我写了一个抓取协议,这个协议文件叫:robots.txt。

在这个协议里面,我与爬虫们协议约定:哪些数据可以抓,哪些数据不要抓。

这些小家伙们看到协议以后就能高效地去抓取数据了。同时这个协议在很大程度上也减轻了接待工作的压力。这就是我的工作。

02协议规范

每个网站,理论上都应该有个一我写的抓取协议。但是有的网站并不规范,它们甚至都不写robot.txt。这可不行哟。

因此规范robots协议对于绝大多数服务型的网站而言是必不可少的,因为会影响到SEO优化,后面再说。

那么如何书写这份协议就格外重要了,上面给大家讲解了我的职责,接下来我给大家重点讲robots协议的书写格式。

—01—放在根目录

robots协议是一个纯文本文件,文件全名叫:robots.txt,该文本放在网站的根目录下,打开的入口为:www.你的域名.com/robots.txt。

当爬虫们进入我们网站以后,它会第一时间先来这里找我,给我打个招呼,然后才开始逛我们的网站。以知乎官网为例来讲解。

知乎官网robots.txt

—02—robots.txt语法

以知乎官网的robots.txt为例。如图所示

截取第一段示例,详细说明

a.格式与后缀

robots.txt必须放置在站点的根目录下,且文件名必须全部小写:robots.txt;后缀为“.txt”

b.语法说明

User-agent

定义搜索引擎蜘蛛的类型

Disallow

定义禁止搜索引擎蜘蛛抓取的对象

Allow

定义允许搜索引擎蜘蛛抓取的对象

*号

*星号,也是一个通配符,表示:任何,任意,这里表示任何种类的蜘蛛

$号

$钱币号,也是一个通配符,表示:指定某个链接

?号

?问号,也是一个通配符,表示:含有?号的动态地址

c.语法范例

例1--允许百度抓取,禁止google抓取

User-agent: Baiduspider

Allow: /

User-agent: Goolebot

Disallow: /

例2--拦截以 .asp 结尾的网址

User-Agent:

*

Disallow: /*.asp$

表示所有的搜索引擎蜘蛛都不允许抓取含有asp字符的网址。

例3--禁止抓取所有包含?的网址

User-agent:

*

Disallow: /*?

*

一般用于一些动态链接的网站,动态链接不利于蜘蛛抓取,以及SEO排名,所以要屏蔽掉。

例4--使用*号匹配字符语法

User-Agent:

*

Disallow: /a*/

表示所有搜索引擎蜘蛛,不允许抓取以a开头的所有的文件。

例5--禁止抓取除去a文件下的1以外的一切页面

User-Agent:

*

Disallow:/a/

Allow:/a/1.html

这里切记,先写Disallow,再写Allow。

因为Disallow是第一优先级,Allow是第二优先级。如果不需要Disallow,可直接写Allow。

03蜘蛛类型

蜘蛛类型有上万种,这里列出一些国外和国内能能叫得上名字的蜘蛛种类。

—01—国内蜘蛛

百度蜘蛛:Baiduspider(这个是总称)

百度蜘蛛其实有很多种,Baiduspider只是总称。旗下还有Baiduspider-image(专抓图片)、Baiduspider-video(专抓视频)、Baiduspider-news(专抓新闻)等等。

360蜘蛛:360spider

360蜘蛛抓起来是很疯狂的,只要它想抓你,你拦都拉不住,即使你写的robots也没用。

有道蜘蛛:YoudaoBot,YodaoBot

网易公司旗下的产品。

搜狗蜘蛛:Sogou News Spider

目前已被腾讯公司战略控股,原先腾讯有个自己的搜索引擎叫搜搜,后来做的要死不活,和搜狗合并了。微信现在用的搜一搜功能就是由搜狗提供的。

可以说腾讯做移动搜索这一块做的很棒,进军搜索市场是板上钉钉的事情了。

另外搜狗的蜘蛛类型也有很多,想要知道它们分别是那些,直接去度娘的若波茨底下去找就可以了,百度和搜狗是死磕到底的竞争正对手。

中国搜:ChinasoSpider

中国搜的爸爸很厉害,由中央七大新闻单位控股而成。如果你做自媒体,找一些官方资料和新闻去这里很好,新媒体小编不错的选项之一。

中国搜索

一搜蜘蛛:YisouSpider

一搜可能新人朋友可能没听说,但是神马搜索你应该听说过,一搜蜘蛛就是神马搜索引擎的蜘蛛。

神马搜索是专注移动互联网的搜索引擎,致力于为用户创造方便、快捷、开放的移动搜索新体验。由来自微软、谷歌、百度、360等国内外IT公司的资深员工所组成。

如果你的产品受众比较大,那么神马搜索必须做SEO布局,也值得你花大量时间去研究。

宜sou蜘蛛:EasouSpider

深圳宜搜天下科技股份有限公司出台一款小型搜索引擎,专注手机移动端搜索,但是相比百度和360,它真的太弱了。还是屏蔽它吧。

即刻蜘蛛:JikeSpider

“即刻搜索”是由人民搜索网络股份公司于2011年6月20日推出的通用搜索引擎平台,也建议屏蔽掉。

一淘网蜘蛛:EtaoSpider

一淘网属于阿里旗下的一个电商网站,喜欢淘货,做闲鱼搬运项目赚零花钱的朋友去这个平台还不错,第二个是1688的一键代发。

—02—国外蜘蛛

国外蜘蛛太多了,本文就写几个知名度高点的吧。

谷歌蜘蛛:Googlebot

做外贸SEO以及海外独立站的人都要接触它,而且还要研究好它,百度很多排名机制都是从谷歌上借鉴而来的。

MSN蜘蛛:MSNbot

微软公司旗下的爬虫

俄罗斯的yandex:YandexBot

俄罗斯的LinkpadBot:LinkpadBot

瑞典:Speedy Spider

英国:MJ12bot

雅虎搜索已经退出历史舞台,成为永远的历史了,这里就不介绍了。

04SEO与我

上面介绍了很多,接下来要说一下我和SEO这个远戚到底有啥关系。

—01—收录与排名

网站中存在很多不重要的图片,以及很多动态链接与冗余的文件,而这些链接对于蜘蛛来说抓取很困难,导致蜘蛛体验很差。

图片太大,导致蜘蛛无法完全抓取,那么一定程度上会浪费蜘蛛的抓爬资源。

因为抓不动,就会把这些未知的元素带回搜索引擎。

搜索引擎无法完全识别这些页面和图片,那么就会对我们的网站产生不信任。

产生了不信任,在对网页进行评分的时候分数就会特别低,进而导致页面的基础评分不及格,不给与索引,更不会收录。最终影响我们的排名。

这就是为什么我们要压缩图片,不要用JS作效果图,精简代码,对动态链接进行伪静态处理的根本原因。

—02—消耗资源

蜘蛛与用户进入网站时候,都会消耗网站服务器的资源,具体形式就是【带宽】。

网站的页面如果很多,那么就需要更多的爬虫来爬,爬虫来的多,消耗的带宽就越多。

假如网站的带宽是固定的,爬虫占用的带宽多了,那么用户占用的带宽就少了。

这势必会影响用户浏览网页的体验,合理利用好robots协议对网站在运营层面来说意义是不言而喻的。

以上两点请新人牢记,在网站上线以前,就要规划好你的首页,栏目页,URL链接伪静态化处理。然后书写好robots.txt。

05注意事项

robots协议对于网站运营有很重要的运营意义,在书写时一定要仔细检查,要慎重使用Disallow。

如果用错会导致网站的某个栏目或页面长时间不被收录。排名是建立在收录基础上的,没有收录就没有排名。

robots协议类似于“君子协定”。并不是说你写了,蜘蛛就不爬了。有的蜘蛛可以强行爬取,你写了也没用。

它只是一个约定俗称的规范,并不是绝对规范。如果在网站日志分析中发现陌生爬虫的足迹,你可以选择屏蔽掉该蜘蛛以便节省网站资源。

网站上线前,要做好本地测试,写好robots.txt最后打包上传服务器再上线。

如果没有做本地测试直接上线,那么第一时间是在robots.txt中屏蔽掉所有蜘蛛。第二步才是做301重定向。

最后的话

关于robots给大家写了很多,基本详细到点了,又要给大家说再见了。

本期的SEO教程《我叫若波茨,初次见面请多多关照》就给大家讲到这,下期我们讲《如何规范书写robots》。下期再见!

做一个有趣的人,再见巴郎!

作者:巴郎

首发:巴郎小站

巴郎小站:http://www.8alang.com/

-END-

作者简介

巴郎:一个有趣的90后小哥哥,做过传统销售,后结缘SEO入行互联网,现自由职业佛系青年。

写文不易,觉得不错!

点个“在看”,转给朋友!

欢迎你“关注”,感谢!

长按下图识别二维码关注

做一个有趣的人

很赞哦!(21)