robots.txt什么意思,robotstxt是什么
内容导航:
一、什么是robotstxt文件
搜索引擎使用spider程序自动访问互联网上的网页并获取网页信息。spider在访问一个网站时,会首先会检查该网站的根域下是否有一个叫做的纯文本文件,这个文件用于指定spider在您网站上的抓取范围。您可以在您的网站中创建一个,在文件中声明该网站中不想被搜索引擎收录的部分或者指定搜索引擎只收录特定的部分。请注意,仅当您的网站包含不希望被搜索引擎收录的内容时,才需要使用文件。如果您希望搜索引擎收录网站上所有内容,请勿建立文件。
二、网站中的文件有什么作用
原发布者:飞瑞敖文件是什么有什么用1、文件是什么
首先SEO博客要和大家弄清楚的概念问题,带有txt后缀的文件是纯文本文档,robots是机器人的意思,也就是说,文件是给搜索引擎蜘蛛看的纯文本文件。
它告诉搜索引擎哪些网页允许抓取、索引并在搜索结果中显示,哪些网页是被禁止抓取的。
搜索引擎蜘蛛来访问你的网站页面的,首先会查看网站根目录下是否有文件,文件就是起到这个作用的。
我们都知道淘宝网是屏蔽百度的,靠的就是文件。
文件是这样书写的:User-agent:BaiduspiderDisallow:/User-agent:baiduspiderDisallow:/的作用
通过设置屏蔽搜索引擎,使之不必要页面被收录,可以大大降低抓取页面所占用的网站带宽,大型网站尤为明显了。
设置文件可以指定某个搜索引擎不去索引不想被收录的URL,比如我们通过url重写将动态URL静态化为永久固定链接,就可以通过设置权限,阻止某些搜索引擎索引那些动态网址,网站重复页面将减少,有利于SEO优化。
怎么写 下面以WordPress博客来作举例。
如文件里写入以下代码:User-agent:*Disallow:Allow:/ 写法中应该注意的几点。
1、必须上传到网站根名录下,不能放在子目录下; 2、,Disallow等必须注意大小写,不能变化;
3以上信息的意思是,禁止所有搜索引擎蜘蛛抓取和索引以上目录及文件,disallow: 是定义禁止搜索引擎收录的地址,例如:disallow:
/plus/ad_,意思是,禁止蜘蛛抓取收录plus文件夹下的ad_文件里的内容,再例如:disallow:
/templets,意思是禁止蜘蛛索引收录templets文件夹下的所有文件内容!
如果允许所有搜索引擎蜘蛛访问和抓取网站所有内容,可以建立一个空的的文件放在根目录,或者把内的原有命令改为: user-agent: * allow:
这样就可以允许所有搜索引擎蜘蛛访问和抓取了,不过网站有一些内容是没必要被抓取的,像
后台管理文件、程序脚本、附件、数据库文件、编码文件、样式表文件、模板文件、导航图片和背景图片等等。
三、robotstxt是什么
基本介绍
是一个纯文本文件,在这个文件中网站管理者可以声明该网站中不想被robots访问的部分,或者指定搜索引擎只收录指定的内容。
当一个搜索机器人(有的叫搜索蜘蛛)访问一个站点时,它会首先检查该站点根目录下是否存在,如果存在,搜索机器人就会按照该文件中的内容来确定访问的范围;如果该文件不存在,那么搜索机器人就沿着链接抓取。
另外,必须放置在一个站点的根目录下,而且文件名必须全部小写。
写作语法
首先,我们来看一个范例:http://www.***.org/
访问以上具体地址,我们可以看到的具体内容如下:
file from http://www.***.org
All robots will spider the domain
User-agent: *
Disallow:
以上文本表达的意思是允许所有的搜索机器人访问www.***.org站点下的所有文件。
具体语法分析:其中#后面文字为说明信息;User-
agent:后面为搜索机器人的名称,后面如果是*,则泛指所有的搜索机器人;Disallow:后面为不允许访问的文件目录。
下面,我将列举一些的具体用法:
允许所有的robot访问
User-agent: *
Disallow:
或者也可以建一个空文件 “/” file
禁止所有搜索引擎访问网站的任何部分
User-agent: *
Disallow: /
禁止所有搜索引擎访问网站的几个部分(下例中的01、02、03目录)
User-agent: *
Disallow: /01/
Disallow: /02/
Disallow: /03/
禁止某个搜索引擎的访问(下例中的BadBot)
User-agent: BadBot
Disallow: /
只允许某个搜索引擎的访问(下例中的Crawler)
User-agent: Crawler
Disallow:
User-agent: *
Disallow: /
另外,我觉得有必要进行拓展说明,对robots meta进行一些介绍:
Robots META标签则主要是针对一个个具体的页面。和其他的META标签(如使用的语言、页面的描述、关键词等)一样,Robots
META标签也是放在页面的<head></head>中,专门用来告诉搜索引擎ROBOTS如何抓取该页的内容。
Robots META标签的写法:
Robots META标签中没有大小写之分,name=”Robots”表示所有的搜索引擎,可以针对某个具体搜索引擎写为name=”BaiduSpider”。
content部分有四个指令选项:index、noindex、follow、nofollow,指令间以“,”分隔。
INDEX 指令告诉搜索机器人抓取该页面;
FOLLOW 指令表示搜索机器人可以沿着该页面上的链接继续抓取下去;
Robots Meta标签的缺省值是INDEX和FOLLOW,只有inktomi除外,对于它,缺省值是INDEX,NOFOLLOW。
这样,一共有四种组合:
<META NAME=”ROBOTS” CONTENT=”INDEX,FOLLOW”>
<META NAME=”ROBOTS” CONTENT=”NOINDEX,FOLLOW”>
<META NAME=”ROBOTS” CONTENT=”INDEX,NOFOLLOW”>
<META NAME=”ROBOTS” CONTENT=”NOINDEX,NOFOLLOW”>
其中
<META NAME=”ROBOTS” CONTENT=”INDEX,FOLLOW”>可以写成<META NAME=”ROBOTS”
CONTENT=”ALL”>;
<META NAME=”ROBOTS” CONTENT=”NOINDEX,NOFOLLOW”>可以写成<META NAME=”ROBOTS”
CONTENT=”NONE”>
目前看来,绝大多数的搜索引擎机器人都遵守的规则,而对于Robots
META标签,目前支持的并不多,但是正在逐渐增加,如著名搜索引擎GOOGLE就完全支持,而且GOOGLE还增加了一个指令“archive”,可以限制GOOGLE是否保留网页快照。例如:
<META NAME=”googlebot” CONTENT=”index,follow,noarchive”>
四、由于此网站的 robotstxt系统未提供关于该结果的说明什么意思
答:应该是限制了蜘蛛的抓取你把修改成allow或者直接删掉它等一段时间恢复数据了就可以有报告了
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容,请发送邮件至 55@qq.com 举报,一经查实,本站将立刻删除。转转请注明出处:https://www.szhjjp.com/n/134301.html