当前位置: 首页 > news >正文

茂名市电白区住房和城乡建设局网站检测网站速度

茂名市电白区住房和城乡建设局网站,检测网站速度,90设计下载后怎么用,网站的文字被爬取了使用 Python 爬取百度文库文档需要通过分析网页结构和接口请求来实现。以下是一个基于搜索结果的实现方法#xff0c;适用于爬取百度文库中的文档内容#xff1a; 第一部分#xff1a;获取百度文库文档 实现步骤 获取文档 ID 和基本信息 通过文档的 URL 获取文档 ID…使用 Python 爬取百度文库文档需要通过分析网页结构和接口请求来实现。以下是一个基于搜索结果的实现方法适用于爬取百度文库中的文档内容 第一部分获取百度文库文档 实现步骤 获取文档 ID 和基本信息 通过文档的 URL 获取文档 ID并解析页面内容以获取文档的类型、标题等信息。请求文档信息接口 使用 getdocinfo 接口获取文档的页数、MD5 校验码等参数。请求文档正文内容 根据文档类型如 txt、doc 等请求对应的接口获取正文内容。保存文档内容 将获取到的内容保存为本地文件。 示例代码 以下是一个简单的 Python 示例代码用于爬取百度文库中的 .txt 类型文档 Python复制 import re import json import requests# 初始化会话 session requests.Session()def get_doc_info(url):# 获取文档 ID 和页面内容doc_id re.findall(view/(.*?).html, url)[0]response session.get(url)content response.content.decode(gbk)# 获取文档类型和标题doc_type re.findall(rdocType.*?\:.*?\(.*?)\,, content)[0]title re.findall(rtitle.*?\:.*?\(.*?)\,, content)[0]return doc_id, doc_type, titledef get_doc_content(doc_id, doc_type):# 请求文档信息接口content_url fhttps://wenku.baidu.com/api/doc/getdocinfo?callbackcbdoc_id{doc_id}response session.get(content_url)content response.content.decode(gbk)# 提取必要的参数md5sum re.findall(md5sum:(.*?), content)[0]pn re.findall(totalPageNum:(.*?), content)[0]rsign re.findall(rsign:(.*?), content)[0]# 请求文档正文内容text_url fhttps://wkretype.bdimg.com/retype/text/{doc_id}?rn{pn}type{doc_type}md5sum{md5sum}rsign{rsign}response session.get(text_url)content json.loads(response.content.decode(utf-8))# 提取正文内容result for item in content:for para in item[parags]:result para[c].replace(\\r, \r).replace(\\n, \n)return resultdef save_file(title, content):filename f{title}.txtwith open(filename, w, encodingutf-8) as f:f.write(content)print(f文件 {title} 保存成功)# 主函数 def main():url input(请输入百度文库文档的 URL 地址)doc_id, doc_type, title get_doc_info(url)content get_doc_content(doc_id, doc_type)save_file(title, content)if __name__ __main__:main()注意事项 反爬机制百度文库有反爬机制频繁请求可能会导致 IP 被封禁。建议适当增加延时或使用代理。文档类型不同类型的文档如 .doc、.ppt、.xls可能需要不同的处理方式。例如.ppt 和 .xls 可能需要额外的接口或解析逻辑。合法性爬取百度文库内容可能涉及版权问题请确保仅用于学习和研究目的避免侵犯版权。 通过上述代码和方法你可以实现对百度文库文档的爬取和下载。如果需要处理其他类型的文档可以参考搜索结果中的相关代码逻辑。 百度文库官网 第二部分避免爬虫被封禁的实现方法 为了避免在爬取百度文库文档时被封禁可以通过以下几种方法设置延时和优化爬虫策略 1. 使用固定延时 在每次请求之间加入固定的时间间隔可以有效降低请求频率减少被封禁的风险。例如设置每次请求间隔为2秒 Python复制 import time time.sleep(2) # 暂停2秒这种方法简单直接但可能不够灵活。 2. 使用随机延时 随机延时可以更接近真实用户的访问行为降低被识别为爬虫的风险。可以使用 random.uniform() 生成随机延时 Python复制 import time import randomdelay random.uniform(1, 3) # 随机延时1到3秒 time.sleep(delay)随机延时可以有效模拟人类行为减少被封禁的可能性。 3. 使用爬虫框架的延迟设置 如果你使用的是爬虫框架如 Scrapy可以在框架的设置中指定延迟。例如在 Scrapy 的 settings.py 中设置 DOWNLOAD_DELAY Python复制 class MySpider(Spider):name my_spiderstart_urls [http://example.com]custom_settings {DOWNLOAD_DELAY: 3, # 设置下载延迟为3秒CONCURRENT_REQUESTS: 1 # 设置并发请求数为1}这种方式适合需要频繁请求的场景。 4. 使用代理IP 使用代理IP可以隐藏真实IP地址降低因IP被封禁的风险。可以使用代理池轮换IP Python复制 proxies {http: http://your_proxy_ip:port,https: http://your_proxy_ip:port, } response requests.get(http://example.com, proxiesproxies)代理IP可以有效避免因请求频率过高而导致的IP封禁。 5. 模拟浏览器行为 通过设置请求头如 User-Agent可以伪装成浏览器访问降低被识别为爬虫的风险 Python复制 headers {User-Agent: Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/89.0.4389.82 Safari/537.36 } response requests.get(url, headersheaders)这种方式可以进一步减少被封禁的可能性。 6. 动态调整延时 在遇到请求失败或被封禁时可以动态调整延时策略例如递增延时 Python复制 def linear_delay(initial_delay1, factor2, max_delay60):delay initial_delaywhile delay max_delay:time.sleep(delay)delay * factor这种方法可以在遇到问题时逐步降低请求频率。 总结 通过合理设置延时、使用代理IP、模拟浏览器行为等方法可以有效降低爬虫被封禁的风险。在实际应用中可以根据目标网站的反爬机制灵活调整策略。
http://www.hkea.cn/news/14577810/

相关文章:

  • html做网站实战教程360优化大师官方免费下载
  • 网站定制化开发介绍动态个人网页制作html教程
  • 网站app 开发优化系统是什么意思
  • 北京好的网站开发怎么建立和设计网站
  • o元做网站网站建设哪个空间比较好
  • 重庆承越网站建设地址天元建设集团有限公司怎么样
  • 做网站看网页效果河南网站建设途径有什么
  • 什么网站做推广最好河北石家庄天气
  • 手机网站 app2022营业执照年审入口
  • 重庆模板网站建设怎么样金华企业做网站
  • 中华建设杂志网站记者温州 做网站
  • 惠州企业网站建设敦煌网站建设
  • 空间做网站基于c 的视频网站开发
  • 新郑做网站哪些在线网站可以做系统进化树
  • 上海哪家做网站好建设网站北京
  • 一个网络空间如何做两个网站成都十大著名景点
  • 设计师个人网站怎么做航空摄影设计
  • 形象型网站国外电子政务j建设与我国电子政务网站建设对比
  • r语言网站开发今天的新闻 联播最新消息
  • 萝岗定制型网站建设wordpress 卡
  • 建设信用卡手机银行官方网站无障碍浏览网站怎么做
  • 网站支付模块如何查询网站打开速度
  • 湖里区建设局网站网页特效经典300例
  • 淘宝内部优惠券网站建设seo发帖网站
  • 温州企业建站程序uc浏览器网页版
  • 广州在建火车站在哪里公司变更登记申请书
  • 电子商务网站的定义跨境电商那个网站做饰品比较好
  • 怎么看别人网站是哪里做的免费房地产网站模板
  • 做旅游网站的意义搜索引擎禁止的方式优化网站
  • 外贸网站设计设计注意事项网站后台怎样批量上传