今天在分析网站日志的时候,发现在一个ip段访问量比较大,刚开始以为是恶意扫描,但是发现ua(UserAgent)中有一段baiduboxapp,这是百度蜘蛛吗?还是伪造的爬虫?先看一下完整ua。
"Mozilla/5.0 (Linux; Android 10; MI 8 Build/QKQ1.190828.002; wv) AppleWebKit/537.36 (KHTML, like Gecko) Version/4.0 Chrome/76.0.3809.89 Mobile Safari/537.36 T7/12.3 SP-engine/2.25.0 baiduboxapp/12.3.0.11 (Baidu; P1 10) NABar/1.0"
查询之后,找到这个
baiduboxapp确实可能是百度蜘蛛,但是nslookup查询之后,并不是百度蜘蛛,怎么回事,有点晕。
是不是蜘蛛必须弄清楚,如果不是蜘蛛要屏蔽掉,不然会浪费服务器资源,所以继续排查。
后面经过大量排查,这部分属于正常用户,使用百度APP访问网页,会经过百度服务器的代理,所以在日志中会显示代理ip,并不是用户的真实ip。而使用手机自带浏览器来访问,每次访问的ip都是用户的真实ip。
如果网站做了https,那么使用百度APP访问网页,并不会被百度服务器代理,但是依然会有baiduboxapp。
暂时不清楚百度APP使用代理ip的目的,获取用户隐私也没有必要这样吧,百度APP的权限不是都给你了吗?
注意:并不是有baiduboxapp就一定没有问题,有时候可能是伪造的爬虫,比如下图。
这种恶意搜索网址的,已经非常明显了,直接屏蔽IP即可。