网站反扒现象

laical · 发表于 2019-7-12 17:22:08

一、HTTP请求头

每次向服务器发送HTTP请求时，都会传送一组属性和配置信息，那就是HTTP请求头。由于浏览器直接访问和爬虫代码发送的请求头不同，很有可能被反爬虫发现，导致封IP。

二、cookie设置

网站会通过cookie跟踪你的访问过程，如果发现有爬虫行为会立刻中断你的访问，比如特别快的填写表单，或者短时间内浏览大量页面。而正确地处理cookie，又可以避免很多采集问题，建议在采集网站过程中，检查一下这些网站生成的cookie，然后想想哪一个是爬虫需要处理的。

三、访问路径

一般爬虫程序访问的路径总是千篇一律，也很容易被反爬虫识别，尽量模拟用户访问，随机访问页面。

四、访问频率

大部分的封IP原因是因为访问频率过快，毕竟都想快速的完成爬虫任务，然而欲速则不达，封IP后效率反而下降。

基本的反爬虫策略就是这些，当然，有些更严格的反爬虫，不仅仅是这些，这就需要反爬虫工程师去慢慢的研究目标网站的反爬虫策略了，跟随着反爬虫策略的不断升级，爬虫策略也需要不断的升级，再加上高效优质的代理IP，爬虫工作才能高效的进行。

小渣渣 · 发表于 2019-7-12 19:01:50

爬虫就是模拟http请求数据，所有的反爬虫都是千篇一律，就是看谁家的算法更智能，效率更高。还要结合自己的业务情况去制定合理的策略。

例如：正常的咨询网站，用户不可能1分钟不可能有1000次请求，或者说1小时不可能有几万次请求，如果单个ip超过设定的阈值，可以直接拒绝掉或者跳转到一个验证码页面，滑动或者输入验证码，即可再次正常访问，否则将ip拉黑。

		自动登录	找回密码
密码			注册[Register]

[交流] 网站反扒现象