「robotstxt什么意思」robotstxt是什么

robots.txt什么意思,robotstxt是什么

内容导航:

  • 什么是robotstxt文件
  • 网站中的文件有什么作用
  • robotstxt是什么
  • 由于此网站的 robotstxt系统未提供关于该结果的说明什么意思
  • 一、什么是robotstxt文件

    搜索引擎使用spider程序自动访问互联网上的网页并获取网页信息。spider在访问一个网站时,会首先会检查该网站的根域下是否有一个叫做的纯文本文件,这个文件用于指定spider在您网站上的抓取范围。您可以在您的网站中创建一个,在文件中声明该网站中不想被搜索引擎收录的部分或者指定搜索引擎只收录特定的部分。请注意,仅当您的网站包含不希望被搜索引擎收录的内容时,才需要使用文件。如果您希望搜索引擎收录网站上所有内容,请勿建立文件。

    二、网站中的文件有什么作用

    原发布者:飞瑞敖文件是什么有什么用1、文件是什么
    首先SEO博客要和大家弄清楚的概念问题,带有txt后缀的文件是纯文本文档,robots是机器人的意思,也就是说,文件是给搜索引擎蜘蛛看的纯文本文件。
    它告诉搜索引擎哪些网页允许抓取、索引并在搜索结果中显示,哪些网页是被禁止抓取的。
    搜索引擎蜘蛛来访问你的网站页面的,首先会查看网站根目录下是否有文件,文件就是起到这个作用的。
    我们都知道淘宝网是屏蔽百度的,靠的就是文件。
    文件是这样书写的:User-agent:BaiduspiderDisallow:/User-agent:baiduspiderDisallow:/的作用
    通过设置屏蔽搜索引擎,使之不必要页面被收录,可以大大降低抓取页面所占用的网站带宽,大型网站尤为明显了。
    设置文件可以指定某个搜索引擎不去索引不想被收录的URL,比如我们通过url重写将动态URL静态化为永久固定链接,就可以通过设置权限,阻止某些搜索引擎索引那些动态网址,网站重复页面将减少,有利于SEO优化。
    怎么写 下面以WordPress博客来作举例。
    如文件里写入以下代码:User-agent:*Disallow:Allow:/ 写法中应该注意的几点。
    1、必须上传到网站根名录下,不能放在子目录下; 2、,Disallow等必须注意大小写,不能变化;
    3以上信息的意思是,禁止所有搜索引擎蜘蛛抓取和索引以上目录及文件,disallow: 是定义禁止搜索引擎收录的地址,例如:disallow:
    /plus/ad_,意思是,禁止蜘蛛抓取收录plus文件夹下的ad_文件里的内容,再例如:disallow:
    /templets,意思是禁止蜘蛛索引收录templets文件夹下的所有文件内容!
    如果允许所有搜索引擎蜘蛛访问和抓取网站所有内容,可以建立一个空的的文件放在根目录,或者把内的原有命令改为: user-agent: * allow:
    这样就可以允许所有搜索引擎蜘蛛访问和抓取了,不过网站有一些内容是没必要被抓取的,像
    后台管理文件、程序脚本、附件、数据库文件、编码文件、样式表文件、模板文件、导航图片和背景图片等等。

    三、robotstxt是什么

    基本介绍

    是一个纯文本文件,在这个文件中网站管理者可以声明该网站中不想被robots访问的部分,或者指定搜索引擎只收录指定的内容。

    当一个搜索机器人(有的叫搜索蜘蛛)访问一个站点时,它会首先检查该站点根目录下是否存在,如果存在,搜索机器人就会按照该文件中的内容来确定访问的范围;如果该文件不存在,那么搜索机器人就沿着链接抓取。

    另外,必须放置在一个站点的根目录下,而且文件名必须全部小写。

    写作语法

    首先,我们来看一个范例:http://www.***.org/

    访问以上具体地址,我们可以看到的具体内容如下:

    file from http://www.***.org

    All robots will spider the domain

    User-agent: *
    Disallow:

    以上文本表达的意思是允许所有的搜索机器人访问www.***.org站点下的所有文件。

    具体语法分析:其中#后面文字为说明信息;User-
    agent:后面为搜索机器人的名称,后面如果是*,则泛指所有的搜索机器人;Disallow:后面为不允许访问的文件目录。

    下面,我将列举一些的具体用法:

    允许所有的robot访问

    User-agent: *
    Disallow:

    或者也可以建一个空文件 “/” file

    禁止所有搜索引擎访问网站的任何部分

    User-agent: *
    Disallow: /

    禁止所有搜索引擎访问网站的几个部分(下例中的01、02、03目录)

    User-agent: *
    Disallow: /01/
    Disallow: /02/
    Disallow: /03/

    禁止某个搜索引擎的访问(下例中的BadBot)

    User-agent: BadBot
    Disallow: /

    只允许某个搜索引擎的访问(下例中的Crawler)

    User-agent: Crawler
    Disallow:

    User-agent: *
    Disallow: /

    另外,我觉得有必要进行拓展说明,对robots meta进行一些介绍:

    Robots META标签则主要是针对一个个具体的页面。和其他的META标签(如使用的语言、页面的描述、关键词等)一样,Robots
    META标签也是放在页面的<head></head>中,专门用来告诉搜索引擎ROBOTS如何抓取该页的内容。

    Robots META标签的写法:

    Robots META标签中没有大小写之分,name=”Robots”表示所有的搜索引擎,可以针对某个具体搜索引擎写为name=”BaiduSpider”。
    content部分有四个指令选项:index、noindex、follow、nofollow,指令间以“,”分隔。

    INDEX 指令告诉搜索机器人抓取该页面;

    FOLLOW 指令表示搜索机器人可以沿着该页面上的链接继续抓取下去;

    Robots Meta标签的缺省值是INDEX和FOLLOW,只有inktomi除外,对于它,缺省值是INDEX,NOFOLLOW。

    这样,一共有四种组合:

    <META NAME=”ROBOTS” CONTENT=”INDEX,FOLLOW”>
    <META NAME=”ROBOTS” CONTENT=”NOINDEX,FOLLOW”>
    <META NAME=”ROBOTS” CONTENT=”INDEX,NOFOLLOW”>
    <META NAME=”ROBOTS” CONTENT=”NOINDEX,NOFOLLOW”>

    其中

    <META NAME=”ROBOTS” CONTENT=”INDEX,FOLLOW”>可以写成<META NAME=”ROBOTS”
    CONTENT=”ALL”>;

    <META NAME=”ROBOTS” CONTENT=”NOINDEX,NOFOLLOW”>可以写成<META NAME=”ROBOTS”
    CONTENT=”NONE”>

    目前看来,绝大多数的搜索引擎机器人都遵守的规则,而对于Robots
    META标签,目前支持的并不多,但是正在逐渐增加,如著名搜索引擎GOOGLE就完全支持,而且GOOGLE还增加了一个指令“archive”,可以限制GOOGLE是否保留网页快照。例如:

    <META NAME=”googlebot” CONTENT=”index,follow,noarchive”>

    四、由于此网站的 robotstxt系统未提供关于该结果的说明什么意思

    答:应该是限制了蜘蛛的抓取你把修改成allow或者直接删掉它等一段时间恢复数据了就可以有报告了

    版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容,请发送邮件至 55@qq.com 举报,一经查实,本站将立刻删除。转转请注明出处:https://www.szhjjp.com/n/134301.html

    (0)
    robot
    上一篇 2022-09-01
    下一篇 2022-09-01

    相关推荐

    • Swift中的内存管理和ARC是什么

      Swift中的内存管理和ARC(Automatic Reference Counting)是指编程语言和编译器自动管理内存的机制。在Swift中,开发者无需手动管理内存,因为ARC会自动追踪和计算对象的引用次数,并在对象不再被引用时释放其内存。这样可以减少内存泄漏和野指针等问题,提高程序的稳定性和性能。开发者只需要关注对象的引用关系,不需要担心手动释放内存,大大简化了内存管理的工作。但是开发者仍然

      2024-04-20
      0
    • CSS怎么实现鼠标悬浮动画特效

      要实现鼠标悬浮动画特效,可以使用CSS的:hover伪类和transition属性。以下是一个简单的示例:.box {width: 200px;height: 200px;background-color: #3498db;transition: transform 0.3s;}.box:hover {transform:

      2024-02-21
      0
    • 如何使用cgroup限制Linux进程资源使用

      要使用cgroup限制Linux进程的资源使用,可以按照以下步骤操作:安装cgroup工具:首先需要安装cgroup工具包,可以使用以下命令安装:sudo apt-get install cgroup-tools创建cgroup:使用以下命令创建一个名为mygroup的cgroup:sudo cgcreate -g memory,cpu:/mygroup设置资源限制:可以使用cgset命令设置资源

      2024-04-27
      0
    • ppt如何做滚动图片(ppt怎么滚动图片)

      ppt如何做滚动图片,ppt怎么滚动图片内容导航:ppt怎么做滚动照片如何在PPT中实现一组照片由下而上地滚动滚动的图片怎么做高分悬赏ppt中如何让图片跟着字幕一起滚动我不会一、ppt怎么做滚动照片ppt实现图片滚动效果第一步:打开ppt,单

      2022-05-09
      0
    • c语言中main函数的用法是什么

      在C语言中,main函数是程序的入口点,是程序执行时的起始函数。主函数main是程序中的一个特殊函数,程序在运行时首先调用main函数,然后才开始执行main函数中的代码。main函数的定义格式通常为:int main() {// 代码块return 0;}main函数可以带有参数,主要有两种形式:带参数的main函数:int main(int argc, char *argv[]) {//

      2024-03-17
      0
    • 如何在家建站(怎样快速建站)

      第一步:购买网站域名第二步:购买网站空间,这两样都是必须的第三步:用开源程序搭建网站,目前的用的比较多的开源程序是: 博客程序:Wordpress 论坛程序:discuz 企业站程序:织梦DEDECMS、帝国CMS((EmpireCMS) 商城站程序:ecshop

      2022-04-25
      0