当前位置: 首页 > news >正文

网站开发 有哪些优化功能四川建设集团有限公司网站

网站开发 有哪些优化功能,四川建设集团有限公司网站,wordpress展示页面,各大网站投稿方式文章目录 目录 前言 一.Http请求/响应模块 requests模块 二.文本筛选模块 re模块 XPath模块 XPath 路径表达式 XPath 语法元素 三. 爬虫模板 爬虫案例 前言 Python爬虫是一种通过自动化程序爬取互联网上的信息的技术。爬虫可以自动访问网页并提取所需的数据#xff0c;比…文章目录 目录 前言 一.Http请求/响应模块 requests模块  二.文本筛选模块  re模块  XPath模块 XPath 路径表达式 XPath 语法元素 三. 爬虫模板  爬虫案例 前言 Python爬虫是一种通过自动化程序爬取互联网上的信息的技术。爬虫可以自动访问网页并提取所需的数据比如网站的文本、图片、视频等。Python是一种简单易学的编程语言广泛用于开发爬虫程序。 一.Http请求/响应模块 requests模块 requests模块可以用于发送GET、POST、PUT、DELETE等各种类型的HTTP请求并且可以处理URL参数、请求头、响应内容等。 常用函数 请求函数 发送GET请求并返回一个Response对象 requests.get(url) 发送POST请求并返回一个Response对象 requests.post(url) 响应函数  获取响应的文本内容 response.text 以字节bytes形式获取响应体的内容 response.content 获取Http响应的状态码 response.status_code 获取Http响应的头部信息 response.headers 获取响应的JSON格式数据 response.json() 二.文本筛选模块 re模块 re模块是Python中的正则表达式模块它提供了对字符串进行模式匹配和替换的功能。 返回字符串中所有与正则表达式匹配的非重叠模式的列表。 re.findall(pattern, string) XPath模块 Python中的XPath模块是一个用于解析和操作XML文档的库。它可以通过使用XPath表达式来查找和选择XML文档中的节点以便提取所需的数据。 html.xpath(XPath路径) XPath 路径表达式 XPath 表达式的基本语法是从一个根元素开始然后沿着树向下选择元素、属性或文本。表达式可以是绝对路径或相对路径。 绝对路径从根元素开始的路径。例如/root/child 表示选择根元素 root 下的 child 元素。相对路径从当前节点开始的路径。例如child/grandchild 表示选择当前 child 元素下的 grandchild 元素。 XPath 语法元素 节点名称选择具有特定名称的节点。/作为路径分隔符表示从根节点或当前节点开始选择。//选择文档中的节点不考虑它们的位置。*匹配任何元素节点。用于选择属性。[]用于指定条件。.表示当前节点。..表示当前节点的父节点 演示案例 bookstore book title langenHarry Potter/title authorJ K. Rowling/author year2005/year price29.99/price /book book title langenLearning XML/title authorErik T. Ray/author year2003/year price39.95/price /book /bookstore 示例 1: 选择所有 book 元素  /bookstore/book 示例 2: 选择所有 title 元素  //title 示例 3: 选择第一个 book 元素的 title  /bookstore/book[1]/title 示例 4: 选择所有 title 元素且这些元素的 lang 属性值为 en  //title[langen] 三. 爬虫模板 第一步安装必要的库如requests库 第二步在爬取站点页面右键检查查找User-Agent内容如下图 第三步使用requests库向目标网页发送请求并获取网页的HTML内容 import requests header {User-Agent:...} 填入请求报文中User-Agent内容 url http://example.com response requests.get(url,headersheader) response.encoding utf-8 如果有需要设置正确的编码 html_content response.text 获取响应文本内容 爬虫案例 下面通过爬取站点​​​​​​ https://pic.netbian.com/的图片做一个演示。 第一步发送Http请求访问需要爬取的网站 import re import requests import os header {User-Agent:Mozilla/5.0 (Linux; Android 6.0; Nexus 5 Build/MRA58N) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/128.0.0.0 Mobile Safari/537.36 Edg/128.0.0.0} response requests.get(https://pic.netbian.com/,headersheader) #防止乱码对response返回数据进行解码 response.encoding response.apparent_encoding print(response.text) 第二步利用正则表达式/XPath路径筛选出图片链接的相对路径 正则  #利用正则表达式匹配以字符串 /uploads/allimg/ 开头后面跟着一个或多个非双引号字符的序列 #此处findall函数会找出所有以/uploads/allimg/开头的图片链接的相对路径 image re.findall(/uploads/allimg/[^\],response.text) XPath路径 html etree.HTML(response.text) image html.xpath(//a[target_blank]/span/img/src) 第三步 创建图片链接的绝对路径 如下图不难发现第二步获取的图片链接与图片源中的链接还有差别此时需要我们将获取的相对链接扩展为绝对链接 #image获取的是图片链接的相对路径绝对路径需要添加https://pic.netbian.com/ #创建空列表link用于存储图片链接的绝对路径 link [] #利用for循将图片链接的绝对路径添加到空列表link中 for i in image:link.append(https://pic.netbian.com/i) 第四步创建用于保存爬取图片的文件并保存爬取图片 #for循环每次遍历一个图片链接 for i in range(1,len(link)1):#遍历的同时创建一个保存图片的文件with open(f爬虫/image{i}.jpg.,wb) as img:#向图片链接发送Http请求res requests.get(link[i - 1])#将返回的字节数据写入文件img.write(res.content)img.close() 整体代码演示 import re import requests import os header {User-Agent:Mozilla/5.0 (Linux; Android 6.0; Nexus 5 Build/MRA58N) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/128.0.0.0 Mobile Safari/537.36 Edg/128.0.0.0} response requests.get(https://pic.netbian.com/,headersheader) response.encoding response.apparent_encodingimage re.findall(/uploads/allimg/[^\],response.text) link [] for i in image:link.append(https://pic.netbian.com/i)for i in range(1,len(link)1):with open(f爬虫/image{i}.jpg.,wb) as img:res requests.get(link[i - 1])img.write(res.content)img.close()总结
http://www.hkea.cn/news/14467554/

相关文章:

  • 淄博网站设计方案seo推广关键词公司
  • 中国十大购物网站排行榜滨江做网站
  • 门户手机网站开发从化做网站开发
  • 毕业设计资源网站金融网站模板免费下载
  • 网站建设 海拉尔网站项目的流程
  • 网站开发工程师公司兰州微信小程序制作公司
  • 珠海公司网站域名注册黄骅市属于沧州吗
  • 平顶山做网站优化数棋网站建设
  • 汕头网站建设找千素网阿里云主机做网站
  • 怎么推广我的网站免费详情页模板网站
  • 网站预订模板怎么做营销网站定制公司
  • 巩义旅游网站设计公司设计网站源代码
  • 做网站先做前台还是后台谷歌网站地图生成
  • 网站优化排名易下拉软件网店美工课本
  • 怎样把域名和做的网站连接不上大规模网站
  • dtcms网站开发订单详情页面设计
  • 网站建设个人工作总结扬州网络推广公司
  • 网站开发工具最好用昆明seo排名外包
  • 自己建的网站可以用笔记本做服务器吗软件开发培训学校哪的好
  • 天津建设网站安管人员成绩查询企业网站分类举例
  • 陕西有色建设有限公司网站格尔木有做网站的吗
  • 车陂手机网站建设电话弹幕网站开发难么
  • 北京城乡与建设厅官方网站查询wordpress设计菜单
  • 用html网站登录界面怎么做360建筑网撤销自己的简历怎么撤销
  • 外贸网站建设公司青岛宁波网站怎么建设
  • 装修网站官网甘肃网站建设
  • 怎么找网站做公示成都购房登记入口官网
  • 网站 动画 怎么做的浙江温州最新消息
  • 哈尔滨市住房和城乡建设局网站专注网站建设怎么样
  • 贵阳网站建设设计邱县做网站