目录
google-谷歌
网站提交入口
谷歌 网站提交入口
爬虫 UA
按不同的抓取工具会有不同的UA,平时的网站主要是:Googlebot
Google 抓取工具(用户代理)概览
感受
- 验证方式分:域名和链接
- 域名 DNS 验证
- 链接 支持 html,Google Analytics,Google Tag Manager 和DNS 验证
- 作为巨头,文档全面丰富。几乎可以找到你想得到的和你想不到的问题和答案。经常出现的相关链接真的太棒了。
- 手动提交链接后,大概一天可以看到结果,并且可以准确的看到是否被收录,如果没有被收录,会有原因。比如 会重定向的网页不会被收录。
bing-必应
网站提交入口
必应 网站提交入口
爬虫 UA
- bingbot
- adidxbot
- BingPreview
Bing 目前运营着五个主要的爬虫
感受
1.添加网站:可以通过Google search console 导入,文件验证,html验证和DNS的CNAME验证
2.提交了多个链接后,结果显示的是你提交最后一个链接,每天10个配额倒是有减。遗憾的是,他不告诉你结果。
3.通过URl实时检查是可以通过的,但是必应索引就显示已阻止。暂时比较迷,后续再观察。2021年7月7日
显示已阻止
Rl实时检查是可以通过的
4.已抓取页面15,编入索引0,很尴尬。暂时无法判断是链接质量太低还是处于bing观察时期,后续再更新。2021年7月7日
baidu-百度
网站提交入口
百度 网站提交入口
爬虫 UA
Baiduspider
感受
1.添加网站:支持文件验证、html验证和DNS的CNAME验证
2.没有开通小程序,快速收录无权限。绕行
3.普通收录,sitemap和手动提交都尝试了,sitemap显示成功,手动提交无任何反馈。
4.Api提交,按文档的说法应该是比较快的,但是文档是错误的
文档中:
http://data.zz.baidu.com/urls?site=https://www.bjun.tech&token=你的token
实际上应该是:
http://data.zz.baidu.com/urls?site=www.bjun.tech&token=你的token
提交的参数site不能包括协议,不然返回错误
{"error":400,"message":"site init fail"}
sogou-搜狗
网站提交入口
搜狗 网站提交入口
sogou 爬虫 UA
sogou spider User-Agent字段是什么?
PC端UA为
Sogou web spider
Sogou inst spider
Sogou spider
无线端UA为
Sogou wap spider
请注意,根据标准,ua区分大小写。
感受
- 添加网站:仅支持文件和html验证
- 总体感觉 sogou 比较迷
很多信息要去翻说明
(例如 后台没有sitemap,说明里面才有)。
sogou的sitemap采用邀请制
翻了说明也不对,说明里面也有过期或错误的信息
(例如:只存在在说明里面的抓取诊断工具)。
toutiao 头条
网站提交入口
头条 网站提交入口
UA
头条搜索UA介绍
头条搜索的爬虫UA为“Bytespider”首写字母为大写,例如:
PC
Mozilla/5.0 (compatible; Bytespider; https://zhanzhang.toutiao.com/) AppleWebKit/537.36 ~~(KHTML, like Gecko) Chrome/70.0.0.0 Safari/537.36
Android
Mozilla/5.0 (Linux; Android 5.0) AppleWebKit/537.36 (KHTML, like Gecko) Mobile Safari/537.36 (compatible; Bytespider; https://zhanzhang.toutiao.com/)
iOS
Mozilla/5.0 (iPhone; CPU iPhone OS 7_1_2 like Mac OS X) AppleWebKit/537.36 (KHTML, like Gecko) Version/7.0 Mobile Safari/537.36 (compatible; Bytespider; https://zhanzhang.toutiao.com/)
感受
- 不能用QQ登陆,别被他的图标骗了。哈哈哈哈 2021年7月6日
- 添加网站:仅支持文件和html验证
- 后台很舒服,在shenma和sogou之后进入的,体验好太多了。说明资料很详细,这点很赞。
- 官网认证很迷,只支持企业类的,个人即使备案了也不行,官网资质提交应该只支持营业执照(2021年7月6日已提交身份证测试,如果成功会再更新)。
shenma 神马
入口
神马 网站提交入口
爬虫UA
整个官网可见小于10个说明页面访问内并未提及。
隔了几天,百度找了下,应该是yisouspider
感受
- 添加网站:仅支持文件和html验证
- 后台的小程序搜索页面应该时另外开发的,风格不统一,太膈应了
3.总体感觉是服务自家产品,无论时从单独的小程序搜索页,还是结构化、移动端适配的页面。传达的意思是,为我服务。
4.简单逛了一圈,我还是不去碰这尊大神
360搜索
入口
360 网站提交入口
爬虫UA
抓取诊断时:360Spider
- pc
Mozilla/5.0 (compatible; MSIE 9.0; Windows NT 6.1; Trident/5.0); 360Spider
- Mobile
Mozilla/5.0 (Linux; U; Android 4.0.2; en-us; Galaxy Nexus Build/ICL53F) AppleWebKit/534.30 (KHTML, like Gecko) Version/4.0 Mobile Safari/534.30; 360Spider
实际呢:不存在
-
快照:
-
site:bjun.tech
-
nginx log
//360 部分
42.236.10.110 - - [05/Oct/2021:19:12:06 +0800] "GET / HTTP/1.1" 200 2946 "https://bjun.tech" "-"
42.236.10.98 - - [05/Oct/2021:19:12:15 +0800] "GET /Blog/xphp/51 HTTP/1.1" 200 2946 "https://bjun.tech/Blog/xphp/51" "-"
42.236.10.76 - - [05/Oct/2021:19:12:15 +0800] "GET /Blog/xphp/36 HTTP/1.1" 200 2946 "https://bjun.tech/Blog/xphp/36" "-"
42.236.10.70 - - [05/Oct/2021:19:12:15 +0800] "GET /Blog/xphp/4 HTTP/1.1" 200 2946 "https://bjun.tech/Blog/xphp/4" "-"
42.236.10.103 - - [05/Oct/2021:19:12:16 +0800] "GET /Blog/xphp/15 HTTP/1.1" 200 2946 "https://bjun.tech/Blog/xphp/15" "-"
42.236.10.73 - - [05/Oct/2021:19:12:16 +0800] "GET /Blog/xphp/16 HTTP/1.1" 200 2946 "https://bjun.tech/Blog/xphp/16" "-"
//google 部分
66.249.66.15 - - [05/Oct/2021:19:18:36 +0800] "GET /blog/xphp/7 HTTP/1.1" 200 4302 "-" "Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)"
感受
- 2021年7月份就提交了网站,当时有事没有细看就关了,后面发现只提交不审核是不会被抓取了。
- 虽然提交网站需要审核,但是会有邮件回复,这次是2天。平时不知道会不会更快些,毕竟我这次操作是国庆期间。
- 从收到邮件到爬虫抓取到被收录的速度还是挺快的,按上图的日志可以看出基本在当天就完成了。
- 红衣教主这招隐藏UA着实没想到,如果有看过《B君笔记SEO 方案自爆》的同学就知道,我是有对UA进行判断的,恰好那天调试没关,然后就被收录了奇怪的东西。
- 提交的网站类型有个http和https切换,但这个需要手动去设置,有点憨。
- 忘记了要提一下验证方式,一个三种,代码验证、文件验证和DNS chame验证。
- 360搜索,你是来搞笑的吗
本站收录情况
搜索引擎 |
提交时间 |
收录时间 |
google |
2021-7-3 |
2021-7-3 |
bing |
2021-7-5 |
2021-7-31 |
baidu |
2021-7-4 |
2021-8-16 |
sogou |
2021-7-6 |
- |
shenma |
2021-7-6 |
- |
toutiao |
2021-7-6 |
- |
360 |
2021-10-3 |
2021-10-5 |
技巧
如果你的sitemap链接和我的一样是动态生成的,其格式是参数化的 https://www.bjun.tech/?_x=ForSpider.Sitemap
在填写时可以改成 https://www.bjun.tech/?_x=ForSpider.Sitemap&a.xml 以通过检测
适用有限制格式的:神马、头条
第一次爬虫访问记录
google
2021年7月4日 完成验证
2021年7月2日 有爬虫到访
这是一个很神奇的事情,我搭建完成之后还没研究seo前,我的域名就被奇怪的网站引用了,然后就被爬了。
bing
2021年7月2日 完成验证
2021年7月4日 开始有爬虫到访
2021年7月31日 bing已经收录
baidu
2021年7月2日 完成验证
2021年7月4日 开始有爬虫到访
2021年8月16日 baidu已经收录
2022年4月22日 收录突破2
sogou
2021年7月6日 完成验证
2021年7月9日 仅一个访问记录,用于验证
2022年5月14日 今天发现有sogou搜索记录,接口数据一看2022-04-14开始有收录
<info>
<date>2022-04-14</date>
<indexUrlNum>23</indexUrlNum>
<totalUrlNum>35</totalUrlNum>
<fetchNum>5</fetchNum>
<clickNum>0</clickNum>
</info>
随便吐槽下,站长后台这个排序是怕我发现那个是第一天吗?我怀疑界面是设计师写的。
toutiao
2021年7月6日 完成验证
2021年7月9日 仅一个记录,用于验证
360
2021年7月11日 完成验证
2021年10月3日 提交审核
2021年10月5日 反馈邮件
2021年10月5日 爬虫到访,并搜录(之前有没来过我不知道,毕竟隐身的)
2021年11月17日 除了首页,收录了2个页面,2个页面均是自己在https://blog.csdn.net/上发布的转载