你辛辛苦苦做了个网站,内容写得头都快秃了,结果三个月过去百度谷歌都搜不到?别急着怀疑人生,先看看你家网站的”门卫”有没有在偷偷拦人——我说的就是那个藏在网站根目录的robots.txt文件。
这个看起来像代码的东西其实就像小区保安手里的访客名单。比如你不想让快递小哥进小区,就在名单上写”禁止穿蓝色制服的人进3号楼”。同样道理,robots文件就是告诉搜索引擎蜘蛛:”哪些页面能爬,哪些碰都别碰”。但很多新手压根不知道这玩意儿的存在,结果要么把整个网站都锁死了,要么把后台管理页面全暴露在外头。
第一步:认识你家”电子门卫” 这个txt文件必须放在网站根目录,就像把大门口的值班表贴在小区入口。文件名必须全小写写成robots.txt,多一个字母都不行。它的基本结构分三部分:指定对象(User-agent)、禁止区域(Disallow)、允许例外(Allow)。比如说: User-agent: * Disallow: /admin/ Allow: /admin/login.php 这就表示对所有搜索引擎说:”别进后台管理目录,但登录页面可以看看”。注意星号代表所有爬虫,斜杠代表网站根目录,就像文件路径的写法。
最常见的五大翻车现场 1. 把整个网站都屏蔽了(Disallow: / 后面忘了加具体路径) 2. 想禁止某个文件夹却写成Disallow: admin(漏了斜杠变成禁止所有包含admin字符的链接) 3. 同时使用Disallow和Allow时顺序搞反(应该先禁止大范围再允许小例外) 4. 把敏感数据页面写在robots里反而暴露位置(就像在门上贴”内有金库”) 5. 忘记更新文件导致新页面半年都搜不到
自问自答时间 Q:小网站也需要这个吗? A:哪怕只有5个页面,只要你有不想被搜到的后台登录页、测试页面,或者想控制搜索引擎抓取频率,就得用。好比租个单间也得装把门锁对吧?
Q:怎么写才不会被黑客利用? A:绝对不要把敏感路径明晃晃写在文件里!比如你写Disallow: /database/,等于告诉坏人”重要数据在这里”。应该用其他权限控制手段,robots.txt只是给老实爬虫看的君子协议。
Q:改完文件多久生效? A:这个要看搜索引擎的脾气。谷歌可能几天内就会重新检查,有些小搜索引擎可能要等上个月。建议改完后去站长工具手动提交更新,就像催物业快点换新门禁。
小编观点:别再把robots.txt当摆设了!现在就去你的网站输入”你的域名.com/robots.txt”看看,要是显示404错误或者内容乱糟糟,赶紧照着上面的要点重新整理。这可是关系到你家网站在搜索引擎眼里是五星酒店还是烂尾楼的大事。
免责声明:网所有文字、图片、视频、音频等资料均来自互联网,不代表本站赞同其观点,内容仅提供用户参考,若因此产生任何纠纷,本站概不负责,如有侵权联系本站删除!邮箱:207985384@qq.com https://www.ainiseo.com/hosting/34753.html