当前位置：首页 > news >正文

网站高端设计公司哪家好深圳市交易中心官网

news 2026/4/19 3:02:23

网站高端设计公司哪家好,深圳市交易中心官网,wordpress模板怎么安装,计算机哪个专业工资最高目录 Requests库 7个主要方法 Requests库的get()方法 Response对象的属性爬取网页的通用代码框架理解requests库的异常 HTTP协议及Requests库方法 HTTP协议 HTTP协议采用URL作为定位网络资源的标识。 HTTP协议对资源的操作理解PATCH和PUT的区别 HTTP协议与Requse…目录 Requests库 7个主要方法 Requests库的get()方法 Response对象的属性爬取网页的通用代码框架理解requests库的异常 HTTP协议及Requests库方法 HTTP协议 HTTP协议采用URL作为定位网络资源的标识。 HTTP协议对资源的操作理解PATCH和PUT的区别 HTTP协议与Requsets库 Requests库主要方法解析 requests.requst() Requests库 import requests# 获取网页r requests.get(http://www.baidu.com)# 获取网页状态码200表示成功print(r.status_code) 200 type(r) class requests.models.Response r.headers {Cache-Control: private, no-cache, no-store, proxy-revalidate, ection: Keep-Alive, Transfer-Encoding: chunked, Server:} 7个主要方法方法说明requests.requst()构造一个请求最基本的方法是下面方法的支撑requests.get()获取HTML网页对应HTTP中的GET方法requests.post()向HTML网页提交POST信息对应HTTP中的POST方法requests.head()获取HTML网页的头信息对应HTTP中的HEAD方法requests.put()向HTML提交PUT方法对应HTTP中的PUT方法requests.patch()向HTML网页提交局部请求修改的的请求对应HTTP中的PATCH方法requests.delete()向HTML提交删除请求对应HTTP中的DELETE方法 Requests库的get()方法 r requests.get(url) 1、构造一个向服务器请求资源的Request对象 Request 2、返回一个包含服务器资源的Response对象 Response Response对象包含爬虫返回的内容 requests.get(url,paramsNone,**kwargs) url获取html的网页的url paramsurl中的额外的参数字典或字节流格式可选 **kwargs12个控制访问的参数 def get(url,paramsNone,**kwargs):Send a GET request.:param url: URL for the new :class:Request object.:param params: (optional) Dictionary or bytes to be sent in the query string for the:param \*\*kwargs: Optional arguments that request takes.:return: class:Request Request object:rtype: requests.Requestkwargs.setdefault(allow_radirects, True)return request(get, url, paramsparams, **kwargs) Response对象的属性属性说明r.status_codeHTTP请求返回状态码200表示连接成功404表示失败r.textHTTP响应的字符串形式即url对应的页面内容r.encoding从HTTP　header中猜测的响应内容的编码方式r.apparent_encoding从内容中分析响应内容的编码方式(备选编码方式)r.contentHTTP响应内容的二进制形式 r.encoding如果header中不存在charset则认为编码为 ISO-8859-1。 r.apparent_encoding根据网页内容分析出的编码方式。爬取网页的通用代码框架理解requests库的异常异常说明requests.ConnectionError网络连接异常如DNS查询失败拒绝连接等requests.HTTPErrorHTTP错误异常requests.URLRequiredURL缺失异常requests.TooManyRedirects超过最大重定向次数产生重定向异常requests.ConnectTimeout连接远程服务器超时异常requests.Timeout请求URL超时产生超时异常专门与异常打交道 import requests def getHTMLText(url):try:r requests.get(url, timeout30)r.raise_for_status() # 如果不是200引发HTTPError异常r.encoding r.apparent_encodingreturn r.textexcept:return 产生异常if __name__ __main__:url http://www.daidu.domprint(getHTMLText(url)) 爬取网页的通用代码框架最大的作用是能够使用户访问或爬取网页变得更有效更稳定更可靠 HTTP协议及Requests库方法 HTTP协议 HTTPHypertext Transfer Protocol超文本传输协议。 HTTP是一个基于“请求与响应”模式的、无状态的应用层协议。请求与响应用户发起请求服务器做相关响应。无状态第一次跟第二次请求之间并没有相关的关联。应用层协议该协议工作再TCP协议之上。 HTTP协议采用URL作为定位网络资源的标识。 URL格式http://host[:post][path] host合法的Internet主机域名或IP地址 port端口号缺省端口为80 path请求资源的路径 HTTP URL实例 http://www.bit.edu.cn http://220.181.111.188/duty HTTP URL理解 URL是通过HTTP协议存取资源的Internet路径一个URL对应一个数据资源。 HTTP协议对资源的操作方法说明GET请求获取URL位置的资源HEAD请求获取URL位置资源的响应消息报告即获取该资源的头部消息POST 请求向URL位置的资源后附加新的数据PUT请求向URL位置存储一个资源覆盖原URL位置的资源PATCH请求局部更新URL位置的资源即改变该处资源的部分内容DELETE请求删除URL位置存储的资源理解PATCH和PUT的区别假设URL位置有一组数据UserInfo包括UserID、UserName等20个字段。需求用户修改了UserName其他不变。采用PATCH仅向URL提交UserName的局部更新请求。采用PUT必须将所有20个字段一并提交到URL未提交字段被删除。 PATCH的最主要好处节省网络带宽 HTTP协议与Requsets库 HTTP协议方法Requsets库方法功能一致性GETrequests.get()一致HEADrequests.post()一致POSTrequests.head()一致PUTrequests.put()一致PATCHrequests.patch()一致DELETErequests.delete()一致 Requsets库的head()方法 r requests.head(http://httpbin.org/get) r.headers # 展示反馈头部信息的内容 r.text # 展示全部内容但发现内容是空 head()方法可以用很少的网络流量获取网络资源的概要信息。 Requsets库的post()方法 payload {key1: value1, key2: value2} r requests.post(http://httpbin.org/post, data payload) print(r.text) 当我们向UPL去POST一个字典或者POAT键值对的时候那么键值对会默认地被存储到表单的字段下。 r requests.post(http://httpbin.org/post, data ABC) print(r.text) 如果我们不提交键值对就提交一个字符串ABC那么我们就发现ABC被存到了data的相关的字段下。 post方法根据用户提交内容的不同在服务器上会做数据的相关的整理。 put方法也是一样它与post方法类似只不过它能够将原有的数据覆盖掉。 payload {key1: value1, key2: value2} r requests.put(http://httpbin.org/post, data payload) print(r.text) Requests库主要方法解析 requests.requst() requests.requst(method,url,**kwargs) method请求方式对应get/put/post等7种 url拟获取页面的url链接 **kwargs控制访问的参数共13个 method请求方式 r requests.requst(GET,url,**kwargs) r requests.requst(HEAD,url,**kwargs) r requests.requst(POST,url,**kwargs) r requests.requst(PUT,url,**kwargs) r requests.requst(PATCH,url,**kwargs) r requests.requst(delete,url,**kwargs) r requests.requst(OPTIONS,url,**kwargs)OPTIONS事实上是向服务器获取一些服务器跟客户端能够打交道的参数这里面并不与获取资源直接相关因此平时中使用的少。 **kwargs控制访问的参数均为可选项 params字典或字节序列作为参数增加到url中 kv {key1: value1, key2: value2} r requests.request(http://python123.io/ws, params kv) print(r.url)# 运行结果 http://python123.io/ws?key1value1key2value2 data字典、字节序列或文件对象作为Request的内容 kv {key1: value1, key2: value2} r requests.request(POST,http://python123.io/ws, data kv) body 主体内容 r requests.request(POST,http://python123.io/ws, data body) jsonJSON格式的数据作为Request的内容 kv {key1: value1, key2: value2} r requests.request(POST,http://python123.io/ws, json kv) headers字典HTTP定制头 hd {user-agent: Chrome/10} r requests.request(POST,http://python123.io/ws, headers hd) cookies字典或CookieJarRequest中的cookiesauth元组支持HTTP认证功能files字典类型传输文件 fs {file: opendata.xls, rb} r requests.request(POST,http://python123.io/ws, files fs) timeout设定超时时间秒为单位 r requests.request(POST,http://python123.io/ws, timeout 10) proxies字典类型设定访问代理服务器可以增加登录认证 pxs { http:http://user:pass10.10.10.1:1234,https,http://10.10.10.1:4321} r requests.request(POST,http://python123.io/ws, proxies pxs) allow_redirectsTrue/False默认为True重定向开关streamTrue/False默认为True获取内容立即下载开关verifyTrue/False默认为True认证SSL证书开关cert本地SSL证书路径 requests.get() requests.get(url,paramsNone,**kwargs) url获取页面中的url链接 paramsurl中的额外参数字典或字节流格式可选 **kwargs12个控制访问的参数request中除了params参数之外的 requests.head() requests.head(url,**kwargs) url拟获取页面中的url链接 **kwargs13个控制访问的参数与request一样 requests.post() requests.post(url,data None, json None,**kwargs) url拟更新页面的url链接 data字典、字节序列或文件Request的内容 jsonJSON格式的数据Request的内容 **kwargs11个控制访问的参数除了data和json其他11个request一样的参数放最后 requests.put() requests.put(url,data None,**kwargs) url拟更新页面的url链接 data字典、字节序列或文件Request的内容 **kwargs12个控制访问的参数除了data其他12个request一样的参数放最后 requests.patch() requests.patch(url,data None,**kwargs) url拟更新页面的url链接 data字典、字节序列或文件Request的内容 **kwargs12个控制访问的参数除了data其他12个request一样的参数放最后 requests.delete() requests.delete(url,**kwargs) url拟删除页面的url链接 **kwargs13个控制访问的参数request一样

查看全文

http://www.hkea.cn/news/14322523/