目录
访问数据异常
今天无聊j突然想起好久没看站长数据了,登陆百度站长后台一看,下了一跳。什么鬼?日常个位数的访问量,今天咋了,上天(千)啦?
异常的访问
翻下访问日志,居然是遍历域名?
奇怪方式和想不明白的动机
- 上浏览器环境
- 正常的爬虫不会首先百度统计基于js,没有模拟浏览器是不会有统计数据的。
- 上浏览器环境模拟是为了伪装环境,而我的网站一没贵重内容,二没防护,为啥呢?
- 扫子域名
- 鄙人所知,扫子域名也就在一种情况下会用到,找CDN保护下的源服务器,前提还要那个子域名刚好没做保护,碰到域名长度拉满的有意义吗?
- 而上浏览器环境为了扫域名,嗯。。。好像有点矛盾
- 上浏览器环境为了内容
- 扫域名为了地址
两者有关联么?搞不懂!用ping、dns扫不香吗?
一些发现
ip地址
如图,来自北京和上海的ip段都是来自腾讯云,ip属于是固定ip段,ip数也就15个上下。
user-agent
如下,关键字是wkhtmltoimage,简单搜索一下就是网页生成图片,同puppeteer + screenshot。
42.194.183.26 - - [08/May/2022:02:02:55 +0800] "GET /demo/ja3/ja3.php HTTP/1.1" 200 278 "https://y7vimh.bjun.tech/" "Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/534.34 (KHTML, like Gecko) wkhtmltoimage Safari/534.34"
持续时间
现在才第三天,1分钟大概一次。
结语
百思不得其解。如果还有可能,莫非看了这个?
但是我明确的说,我用的是第三个方案,而且拜托,测试链接是:
https://bjun.tech:9763/demo/ja3/ja3.php
带端口的!带端口的!带端口的!端口9763
如果是扫ja3,为啥不用这个捏?
https://ja3.bjun.tech/ja3.php
最后,我也没想明白是为了啥?可能就练手吧。