当前位置: 首页 > news >正文

建设一个地方门户网站阿里云 xampp wordpress

建设一个地方门户网站,阿里云 xampp wordpress,丹徒网站建设怎么样,wordpress 首页调用最新文章前言 (#xff61;#xff65;∀#xff65;)#xff89;#xff9e;嗨 大家好#xff0c;这里是小圆 现在开始每天都给大家 分享些关于python爬虫的案例教学 从最简单的开始 — 采集图片壁纸 今天就来扒拉这个优质的壁纸网站~ 网址 #x1f447; 顺便瞧一眼 这里的…前言 (∀)嗨 大家好这里是小圆 现在开始每天都给大家 分享些关于python爬虫的案例教学 从最简单的开始 — 采集图片壁纸 今天就来扒拉这个优质的壁纸网站~ 网址 顺便瞧一眼 这里的壁纸 当然 肯定不止这些… 前期准备 环境使用 Python 3.8 解释器Pycharm 编辑器 模块准备 # 导入数据请求模块 -- 第三方模块, 需要安装 pip install requests import requests # 导入正则模块 -- 内置模块, 不需要安装 import re案例实现思路 一. 数据来源分析 明确需求: 采集的网站是什么? 采集的数据是什么? 图片链接 图片名字通过开发者工具抓包分析, 图片链接/图片名字 数据内容在哪里可以获取到 由小到大 先分析一张图片数据在什么地方, 再分析如何获取多张图片 打开开发者工具: F12 / 鼠标右键点击检查选择network 刷新网页: 让本网页数据内容重新加载一遍 搜索数据来源: 复制关键参数, 直接进行搜索 目的获取图片链接/图片名字 图片详情页 获取图片ID 图片目录页面里面有 和正常访问网站观看图片一样的 代码实现步骤 获取图片ID: 发送请求, 模拟浏览器对于url地址发送请求 请求 图片目录页面url获取数据, 获取服务器返回响应数据 response 网页源代码解析数据, 提取我们想要的数据内容 图片ID 获取图片链接/名字 发送请求, 模拟浏览器对于url地址发送请求 请求 图片详情页页面获取数据, 获取服务器返回响应数据 response 网页源代码解析数据, 提取我们想要的数据内容 图片链接 图片名字 保存数据保存数据, 保存本地文件夹 ok到这里后 咱就开始敲敲写写代码吧 实现代码 1. 发送请求 模拟浏览器对于url地址发送请求 模拟浏览器 反爬处理 请求头 字典数据类型 如果你不伪装, 可能会被识别出来是爬虫程序, 从而得到数据内容 可以直接复制粘贴 -- 开发者工具里面就可以复制 Response [200] 响应对象 Response: 中文意思–响应 : 表示对象 200: 状态码 表示请求成功 ### 源码领取kou群309488165 ### for page in range(2, 11):print(f正在采集第{page}页的数据内容)# 请求图片目录页面urlurl fhttp://www.netbian.com/dongman/index_{page}.htm# 伪装模拟成浏览器headers {# User-Agent 用户代理 浏览器基本身份信息User-Agent: Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/101.0.0.0 Safari/537.36}# 发送请求# 调用requests模块里面get请求方法, 对于url地址发送请求, 并且携带上headers请求头伪装, 最后用自定义变量名response接受返回的数据response requests.get(urlurl, headersheaders)2. 获取数据 获取服务器返回响应数据 response 网页源代码 response.text 获取响应文本数据 网页源代码3. 解析数据 提取我们想要的数据内容 图片ID 调用re模块里面findall方法 -- 找到所有我们想要的数据 re.findall(‘找什么数据’, ‘从哪里找’) -- 从什么地方, 去匹配找什么样的数据内容 从 response.text网页源代码 里面 去找 a href“/desk/(\d).htm” 其中 (\d) 就是我们要的内容 \d 表示任意数字 # 提取图片ID -- 列表 盒子/箱子 29381 是列表箱子里面元素苹果img_id_list re.findall(a href/desk/(\d).htm, response.text)# for循环遍历, 把列表里面元素 一个一个提取出来for img_id in img_id_list:# img_id变量袋子 给 img_id_list 列表盒子 里面 元素苹果 给装起来print(img_id)4. 发送请求 5. 获取数据, 获取服务器返回响应数据 response 网页源代码 # 请求详情页链接 -- f{img_id} 字符串格式化方法link fhttp://***.com/desk/{img_id}.htm# 发送请求response_1 requests.get(urllink, headersheaders)# 获取数据内容 网页源代码 --- 乱码了, 进行转码response_1.encoding gbk6. 解析数据 提取我们想要的数据内容 图片链接/图片标题 img_url, img_title re.findall(img src(.*?) alt(.*?), response_1.text)[0]7. 保存数据 先获取图片数据内容 img_content requests.get(urlimg_url, headersheaders).content with open(img\\ img_title .jpg, modewb) as f:f.write(img_content) print(img_url, img_title)效果展示 视频教程 如何批量下载保存高清壁纸手把手带你用Python实现出来最后 今天的案例分享到这里就结束啦 对文章有问题的铁汁可以私信我哦
http://www.hkea.cn/news/14279345/

相关文章:

  • 贵阳网站建设1685朋友圈软文范例
  • 广汉网站建设湖北微网站建设费用
  • 58同城北京网站建设开源php源码
  • 乐云seo商城网站建设飞凡网站建设
  • 网站商城前台模板个人站长和企业网站
  • 17网站一起做网店下载wordpress 图片 二级域名
  • 五家渠建设局网站广州做网站海珠新科
  • 怎么用手机做刷赞网站海口 做网站
  • 如何上传到网站根目录建设l旅游网站目的及功能定位
  • 网络营销网站建设公司淘宝建站服务
  • 4徐汇区网站建设网站策划总结
  • 网站开发顶岗实习报告网站收录提交入口
  • 许昌市做网站公司通过手机建设网站
  • 照明灯具类企业网站做赌场网站犯法么
  • 注册网站账号审核不通过无法登陆怎么办网站后台会员管理
  • 网站建设的基本要素网站怎么办
  • 上海网站seo招聘网络公司经营范围可以加技术培训
  • 网站建设类公司排名图标设计在线生成
  • 国内室内设计网站大全深圳app网站开发
  • 受欢迎的惠州网站建设wordpress 怎么传网站
  • 中细软网站建设哈尔滨网站建设有限公司
  • 凡科网网站怎么设置会员登录板块门户网站视频
  • 提升网站权重吗应用下载
  • 织梦后台怎么做网站地图免费不收费网站有哪些
  • 网站建设背景分析网站主页设计布局图
  • 网站ui设计收费市场营销做得好的企业
  • 常州做网站建设的公司怎么在境外做网站
  • 做微商能利用的网站有哪些网站建立需要多久
  • 怎么更改网站备案信息吗如何成功开展网络营销
  • 做软文的网站wordpress自动清缓存