嵊州市网站建设,网站建设分金手指专业二,成都官网搭建公司,外贸网站建设收款通道requests模块可以用来获取网络数据#xff1b;
那么对于爬虫来说#xff0c;要获取下图网页中的内容#xff0c;就需要网页的URL。 复制链接方法是#xff0c;打开网页#xff0c;点击链接框#xff0c;右键选择复制。
requests.get()函数可用于模拟浏览器请求网页的过…requests模块可以用来获取网络数据
那么对于爬虫来说要获取下图网页中的内容就需要网页的URL。 复制链接方法是打开网页点击链接框右键选择复制。
requests.get()函数可用于模拟浏览器请求网页的过程在Python语言中使用该函数就能够获取网页数据。 get()函数中传入要访问网页的URL就像浏览器打开URL一样。
1获取网页内容的步骤 2代码实现
# 使用import导入requests模块
import requests# 将网页链接赋值给url
url https://*****************/# 使用requests.get()方法获取url的内容将结果赋值给response
response requests.get(url)# 输出response
print(response)
返回的response对象就是响应消息
3获取状态码
在浏览器中查看Response Headers中的信息就能够找到status:200状态码200代表此次请求执行成功。
使用.status_code属性就可以查看状态码这里输出的状态码数据类型是整型
import requestsurl https://nocturne-spider.baicizhan.com/2020/07/29/example-post-3/response requests.get(url)statusCode response.status_codeprint(statusCode)
而只有状态码返回为200时才能够成功获取到网页内容。 为满足上面的运行逻辑我们要使用条件判断语句if..else先判断状态码当状态码等于200时再进行下一步操作。 if response.status_code 200:print(response.status_code)else:print(请求数据失败)
4提取信息获取内容
通过请求URL获取到了Web服务器返回的信息 要用.text属性该属性能够将获取到的信息提取出来。 网页内容多我们可以用切片遵循左闭右开将字符串进行分割方法输出前1000个字符
if response.status_code 200:content response.text[:1000]print(content)elseprint(请求数据失败)
5HTML
刚刚输出的内容是HTML语言它是由许多的标签组成这些标签构成网页的内容
这个就是类似输出的HTML语言
!DOCTYPE html
html langzh-CN
headmeta charsetUTF-8
meta nameviewport contentwidthdevice-width, initial-scale1, maximum-scale2
meta nametheme-color content#222
meta namegenerator contentHexo 5.1.1link relapple-touch-icon sizes180x180 href/images/apple-touch-icon-next.pnglink relicon typeimage/png sizes32x32 href/images/favicon-32x32-next.pnglink relicon typeimage/png sizes16x16 href/images/favicon-16x16-next.pnglink relmask-icon href/images/logo.svg color#222link relstylesheet href/css/main.csslink relstylesheet href/lib/font-awesome/css/all.min.css
5总结
HTML是构成网页的标记语言。 URL指定了要访问文档的具体地址。 HTTP协议规定了文档的传递方式。 爬虫就是根据URL通过HTTP协议去获取HTML内容。