当前位置: 首页 > news >正文

网站代码检查页面做的好看的网站

网站代码检查,页面做的好看的网站,视频直播app开发,计算机网络技术出来干什么目录 反爬虫的本意和其带来的挑战目标实战开发准备代码开发发现问题1. 发现问题[01]2. 发现问题[02] 解决问题1. 解决问题[01]2. 解决问题[02] 最终结果 结语 反爬虫的本意和其带来的挑战 在这个数字化时代社交媒体已经成为人们表达观点的重要渠道#xff0c;对企业来说… 目录 反爬虫的本意和其带来的挑战目标实战开发准备代码开发发现问题1. 发现问题[01]2. 发现问题[02] 解决问题1. 解决问题[01]2. 解决问题[02] 最终结果 结语 反爬虫的本意和其带来的挑战 在这个数字化时代社交媒体已经成为人们表达观点的重要渠道对企业来说监控社交媒体上的舆情动态可以提供宝贵的数据支持以帮助优化产品和服务。对个人来说可以通过监控分析相关话题来了解行业趋势、扩展知识面从而更好的进行规划。然而目前的很多社交媒体都有相当完善的反爬虫机制例如IP封禁虽然它的本意是为了保护自身例如恶意的爬虫攻击(DOS)高速频繁的请求会增加目标平台的服务器负担【503】但是对于合法的、低频率的采集任务增加了技术难度。 下图是连续频繁的请求触发了平台的保护机制导致目标服务器拒绝访问【403】 GIF动图 ↓ 目标 采集平台知乎采集数据新能源汽车话题 标题点赞量作者 使用技术手段青果代理IP绕过反爬虫机制将采集到的数据以文本的格式保存在txt文本中 实战 如发现有错误请指出谢谢~ 开发准备 安装python库requests、BeautifulSoup 使用终端运行 pip install requestspip install bs4requests 用于发送HTTP请求 BeautifulSoup 用于解析HTML数据 代码开发 导入第三方库到代码中 import requests from bs4 in BeautifulSoup先获取需要爬取的目标 url https://www.zhihu.com/topic/19731651/hot伪装浏览器信息 requestHeader {user-agent:Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/131.0.0.0 Safari/537.36}向目标网站发送网络请求使用get请求 send_request requests.get(url,headersrequestHeader)获取到HTML数据 HTML_source send_request.text analyse_data BeautifulSoup(HTML_source,html.parser)分析获取到所需数据 fetch_data analyse_data.findAll(attrs{data-za-detail-view-element_name:Title}) # 获取标题 fetch_data_num analyse_data.findAll(button,attrs{class:Button VoteButton VoteButton--up FEfUrdfMIKpQDJDqkjte}) # 获取赞成数 fetch_data_name analyse_data.findAll(a,attrs{class:UserLink-link}) # 获取作者id使用open函数创建本文文件为后续写入做准备 text_data open(r目录:\爬取数据存放.txt,w,encodingUTF-8)创建三个列表为后续写入文本做准备 title_name [] support_num [] author_name []使用for循环将标题写入列表 for x in fetch_data:title_name.append(x.text.strip())其余点赞量等类似 for y in fetch_data_num:support_num.append(y.text) for z in fetch_data_name:author_name.append(z.text.strip())将数据写入文本并进行一定的排版(预留一个num充当文本中的编号) num 0 for data,data_1,data_2 in zip(title_name,support_num,author_name):num1text_data.write(数量 str(num) \n)text_data.write(标题: str(data) \n)text_data.write(点赞量: data_1 \n)text_data.write(博主名: data_2 \n --*20 \n)发现问题 1. 发现问题[01] 目前一路写到这看似没有问题但是实际运行时就能发现“博主id”列表输出时有空字符串。如下为输出结果 [, 玩车有料, , 大树, , 赫尔辛根默斯肯, , 小权兄弟, , 产品张小能, , JackyQ, , 玩车情报局, , 毅种循环, , 徐里里, , 瞻云, , 叶子豪, , 太阳城索拉利斯, , 子乾, , 南部之星, , 徐里里, , 灵活就业engineer, , 电动姬, , 人类道德洼地]2. 发现问题[02] 在运行时有很大概率出现【403】这不仅仅时IP问题。返回的HTML状态码和源码 Response [403]!DOCTYPE html html langenheadmeta charsetutf-8//headbodydiv stylecolor:#535861;opacity: 0.1;display: flex;justify-content: center;çŸ¥ä¹Žï¼Œè®©æ¯ä¸€æ¬¡ç‚¹å‡»éƒ½åæ»¡æ„ä¹‰ —— 欢迎来到知乎,发现问题背后的世界。/divscript crossorigin data-assets-tracker-config{appName:zse_ck,trackJSRuntimeError:true} srchttps://static.zhihu.com/zse-ck/v3.6.js/script/body/html解决问题 1. 解决问题[01] 这个问题好解决只要清除空字符串数据就行。导致的原因是HTML中有两份一样的class:UserLink-link 2. 解决问题[02] 导致运行时可能出现【403】的两种可能目前我发现的 没有cookieGIF动图示例 添加cookie即可 IP被封禁 这个问题就得回到目标中的“绕过反爬虫机制”了选择代理ip可以绕过反爬虫机制确保数据的顺利抓取这里我推荐我的老朋友——青果代理IP推荐的理由非常简单在数据采集中可以帮我节省大量时间和精力关键速度贼快现在开始使用青果代理绕过反爬虫机制找到分配到的地址和密钥在代码中配置代理池 # 代理IP隧道域名称端口号 tunnel ********.qg.net:*****# 用户名密码 username ****** password ******** proxies {http: fhttp://{username}:{password}{tunnel},https: fhttp://{username}:{password}{tunnel} }在请求中添加代理池 send_request requests.get(url,headersrequestHeader,proxiesproxies)最终结果 至此采集“知乎”——“新能源汽车”的数据已经完成虽然不是很完善但也七七八八了 来看看最总输出结果吧 数量1 标题:卖掉油车换了电车如今开了2年多终于明白网上说的都是真的 点赞量:​赞同 5923 博主名:玩车有料 ---------------------------------------- 数量2 标题:北京第一批新能源老车主换车笔记 点赞量:​赞同 766 博主名:大树 ---------------------------------------- 数量3 标题:西方电动车不干了我们咋办 点赞量:​赞同 1182 博主名:赫尔辛根默斯肯 ---------------------------------------- 数量4 标题:欧美不和我们玩了新能源车是欧美的阴谋吗中国如何破局 点赞量:​赞同 1624 博主名:小权兄弟 ---------------------------------------- 数量5 标题:充电桩终极测评小充嗨跑、公牛、普诺得、倍思谁是王者 点赞量:​赞同 1625 博主名:产品张小能 ---------------------------------------- 数量6 标题:这个国庆我整理了全网报道的2023年1-9月的232起新能源汽车起火案例数据库 点赞量:​赞同 1096 博主名:JackyQ ---------------------------------------- 数量7 标题:我的小米SU 7 Max创始版交付了说下优缺点和使用感受 点赞量:​赞同 3196 博主名:毅种循环 ---------------------------------------- 数量8 标题:丰田宣布固态电池技术获重大突破「10 分钟充满跑 1200 公里体积重量成本将减半」影响几何 点赞量:​赞同 1.3 万 博主名:徐里里 ---------------------------------------- 数量9 标题:如何看待领克09 EM-P 成功驱动 45 吨摩天巨轮 点赞量:​赞同 154 博主名:瞻云 ---------------------------------------- 数量10 标题:秦卖7.98万真的能盈利吗 点赞量:​赞同 1.2 万 博主名:叶子豪 ---------------------------------------- 等等源代码 ↓ ↓ ↓请自行替换*cookie、代理IP隧道域名称、端口号、用户名、密码、目录位置 * import requests from bs4 import BeautifulSoup# 伪装浏览器 requestHeader {user-agent:Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/131.0.0.0 Safari/537.36,cookie:**********}# 代理IP隧道域名称端口号 tunnel ******.qg.net:****# 用户名密码 username ****** password ******** proxies {http: fhttp://{username}:{password}{tunnel},https: fhttp://{username}:{password}{tunnel} }# 需要爬取的url【网页】 url https://www.zhihu.com/topic/19731651/hot# 发送请求 send_request requests.get(url,headersrequestHeader,proxiesproxies)# 获取HTML源码 HTML_source send_request.text# 分析HTML数据并获取所需数据 analyse_data BeautifulSoup(HTML_source,html.parser) fetch_data analyse_data.findAll(attrs{data-za-detail-view-element_name:Title}) fetch_data_num analyse_data.findAll(button,attrs{class:Button VoteButton VoteButton--up FEfUrdfMIKpQDJDqkjte}) fetch_data_name analyse_data.findAll(a,attrs{class:UserLink-link})text_data open(r目录:\爬取的数据.txt,w,encodingUTF-8) title_name [] support_num [] author_name []for x in fetch_data:title_name.append(x.text.strip()) for y in fetch_data_num:support_num.append(y.text) for z in fetch_data_name:author_name.append(z.text.strip())while in author_name:author_name.remove()num 0 for data,data_1,data_2 in zip(title_name,support_num,author_name):num1text_data.write(数量 str(num) \n)text_data.write(标题: str(data) \n)text_data.write(点赞量: data_1 \n)text_data.write(博主名: data_2 \n --*20 \n)结语 在数字化社交媒体时代舆情监控已成为获取行业动态和用户反馈的重要渠道。然而面对着反爬虫机制的挑战代理ip可以帮助我们有效、高效地解决反爬虫问题。在实际操作中使用青果网络代理IP服务是非常顺利且高效的它提供了稳定的连接和高速的响应确保了数据采集的连续性还提供了强大的API接口方便用户进行批量管理和调度代理IP进一步提升了数据采集的效率和灵活性。 而且青果网络为能给广大用户先行体验代理ip的使用效果提供了6小时免费试用活动 感兴趣、有需求的可以点这里进行试用
http://www.hkea.cn/news/14409639/

相关文章:

  • 帮别人设计网站的网站吗成都大型广告公司有哪些
  • 做个企业网网站怎么做网站seo监测
  • 双语网站系统影视网站cpa 如何做
  • 重庆网站空间键词排名企业资质查询
  • 深圳网站 商城制作网站正能量视频不懂我意思吧
  • 网站几个数据库简单的html网页制作
  • 微云做网站广州模板建站系统
  • 河南省住房和城乡建设网站分类信息网站建设系统
  • 自主建站网站app下载软件免费下载
  • 淘宝网站建设类别报价表
  • 南宁中小企业网站制作自建网站如何盈利
  • 常州建设工程监理员挂证网站做服务网站要多少钱
  • 网站怎么做二级页面莆田有哪些网站建设公司
  • 厦门网站建设技术支持菜鸟式网站建设图书
  • 欧洲网站设计网站建设与运营课程
  • 物流网站做代理我想自己建立一个网站
  • 国内大型php网站建设母版页做网站例子
  • 洋气的设计公司名字浙江网站建设方案优化
  • 网站建设需求登记表 免费下载建网站流程 知乎
  • 考研门户网站的建设网络运维基础知识
  • 四川建设网网站首页营销型网站开发公司
  • 电子商务网站建设步骤上海建网站公司排名
  • 常州网站建设公司哪个好优化师培训
  • h5手机网站怎么做网站怎么建设可以发图评论
  • h5做的网站贵州省职业技能学历双提升工程app
  • 大连网站建设方案维护cms可以做多少个网站
  • 纳税服务网站建设情况什么网站教你做美食
  • 微信分销网站建设网站建设的软文怎么写
  • 怎么进入网站空间台州市建设施工图审图网站
  • p2p视频网站建设网站广告链接怎么做