架构师_程序员

 找回密码
 注册[Register]

QQ登录

只需一步,快速开始

查看: 59|回复: 1

[交流] 网站反扒现象

[复制链接]
跳转到指定楼层
楼主
发表于 5 天前
zu
一、HTTP请求头

每次向服务器发送HTTP请求时,都会传送一组属性和配置信息,那就是HTTP请求头。由于浏览器直接访问和爬虫代码发送的请求头不同,很有可能被反爬虫发现,导致封IP。

二、cookie设置

网站会通过cookie跟踪你的访问过程,如果发现有爬虫行为会立刻中断你的访问,比如特别快的填写表单,或者短时间内浏览大量页面。而正确地处理cookie,又可以避免很多采集问题,建议在采集网站过程中,检查一下这些网站生成的cookie,然后想想哪一个是爬虫需要处理的。

三、访问路径

一般爬虫程序访问的路径总是千篇一律,也很容易被反爬虫识别,尽量模拟用户访问,随机访问页面。

四、访问频率

大部分的封IP原因是因为访问频率过快,毕竟都想快速的完成爬虫任务,然而欲速则不达,封IP后效率反而下降。

基本的反爬虫策略就是这些,当然,有些更严格的反爬虫,不仅仅是这些,这就需要反爬虫工程师去慢慢的研究目标网站的反爬虫策略了,跟随着反爬虫策略的不断升级,爬虫策略也需要不断的升级,再加上高效优质的代理IP,爬虫工作才能高效的进行。




上一篇:SpringBootMainApplication or also for Application
下一篇:Python入门教程完整版(懂中文就能学会)
帖子永久地址: 

架构师_程序员 - 论坛版权1、本主题所有言论和图片纯属会员个人意见,与本论坛立场无关
2、本站所有主题由该帖子作者发表,该帖子作者与架构师_程序员享有帖子相关版权
3、其他单位或个人使用、转载或引用本文时必须同时征得该帖子作者和架构师_程序员的同意
4、帖子作者须承担一切因本文发表而直接或间接导致的民事或刑事法律责任
5、本帖部分内容转载自其它媒体,但并不代表本站赞同其观点和对其真实性负责
6、如本帖侵犯到任何版权问题,请立即告知本站,本站将及时予与删除并致以最深的歉意
7、架构师_程序员管理员和版主有权不事先通知发贴者而删除本文

码农网,只发表在实践过程中,遇到的技术难题,不误导他人。
沙发
发表于 5 天前
爬虫就是模拟http请求数据,所有的反爬虫都是千篇一律,就是看谁家的算法更智能,效率更高。还要结合自己的业务情况去制定合理的策略。

例如:正常的咨询网站,用户不可能1分钟不可能有1000次请求,或者说1小时不可能有几万次请求,如果单个ip超过设定的阈值,可以直接拒绝掉或者跳转到一个验证码页面,滑动或者输入验证码,即可再次正常访问,否则将ip拉黑。
码农网,只发表在实践过程中,遇到的技术难题,不误导他人。
您需要登录后才可以回帖 登录 | 注册[Register]

本版积分规则

免责声明:
码农网所发布的一切软件、编程资料或者文章仅限用于学习和研究目的;不得将上述内容用于商业或者非法用途,否则,一切后果请用户自负。本站信息来自网络,版权争议与本站无关。您必须在下载后的24个小时之内,从您的电脑中彻底删除上述内容。如果您喜欢该程序,请支持正版软件,购买注册,得到更好的正版服务。

Mail To:help@itsvse.com

QQ|Archiver|手机版|小黑屋|架构师 ( 鲁ICP备14021824号-2 )|网站地图

GMT+8, 2019-7-17 09:52

Powered by Discuz! X3.4

© 2001-2017 Comsenz Inc.

快速回复 返回顶部 返回列表