当前位置: 首页 > news >正文

建立网站需要多长钱重庆市建设工程信息官网站

建立网站需要多长钱,重庆市建设工程信息官网站,网页制作培训心得,asp网站改php网站方法?? 欢迎来到我的博客#xff01; 非常高兴能在这里与您相遇。在这里#xff0c;您不仅能获得有趣的技术分享#xff0c;还能感受到轻松愉快的氛围。无论您是编程新手#xff0c;还是资深开发者#xff0c;都能在这里找到属于您的知识宝藏#xff0c;学习和成长。 ?? … ?? 欢迎来到我的博客 非常高兴能在这里与您相遇。在这里您不仅能获得有趣的技术分享还能感受到轻松愉快的氛围。无论您是编程新手还是资深开发者都能在这里找到属于您的知识宝藏学习和成长。 ?? 博客内容包括 Java核心技术与微服务涵盖Java基础、JVM、并发编程、Redis、Kafka、Spring等帮助您全面掌握企业级开发技术。大数据技术涵盖HadoopHDFS、Hive、Spark、Flink、Kafka、Redis、ECharts、Zookeeper等相关技术。开发工具分享常用开发工具IDEA、Git、Mac、Alfred、Typora等的使用技巧提升开发效率。数据库与优化总结MySQL及其他常用数据库技术解决实际工作中的数据库问题。Python与大数据专注于Python编程语言的深度学习数据分析工具如Pandas、NumPy和大数据处理技术帮助您掌握数据分析、数据挖掘、机器学习等技术。数据结构与算法总结数据结构与算法的核心知识提升编程思维帮助您应对大厂面试挑战。 ?? 我的目标持续学习与总结分享技术心得与解决方案和您一起探索技术的无限可能在这里我希望能与您共同进步互相激励成为更好的自己。 ?? 欢迎订阅本专栏与我一起在这个知识的海洋中不断学习、分享和成长??? ??版权声明本博客所有内容均为原创遵循CC 4.0 BY-SA协议转载请注明出处。 目录 一、爬虫的基本概念 1. 爬虫的定义 2. 爬虫的主要工作流程 3. 常用 Python 工具 二、环境准备 1. 安装 Python 2. 安装必要库 三、写第一个简单的爬虫 1. 完整代码示例 2. 代码逐步解析 1发送 HTTP 请求 2检查请求状态 3解析 HTML 数据 4提取网页内容 5打印结果 四、改进爬虫功能 1. 添加请求头 2. 控制爬取频率 3. 保存数据 五、应对复杂网页 1. 动态加载网页 2. 爬取图片或文件 六、爬虫的注意事项 1. 遵守法律和道德 2. 处理异常 3. 避免过于频繁的请求 网页爬虫是一种通过程序自动抓取网页数据的技术。对于初学者来说使用 Python 写一个简单的爬虫是一个很好的入门项目。Python 提供了许多强大的工具和库如 requests 和 BeautifulSoup可以帮助快速实现网页数据的爬取。 在本文中我们将从爬虫的基本概念开始逐步实现一个可以抓取网页内容的简单爬虫并探讨如何改进爬虫以应对复杂场景。我们将从以下几个方面展开 一、爬虫的基本概念 1. 爬虫的定义 爬虫Web Crawler是一种自动化脚本或程序它会模拟用户访问网页的行为从而提取网页中的特定内容。 2. 爬虫的主要工作流程 一个典型的爬虫任务通常包括以下步骤 发送请求通过 HTTP 协议访问目标网页获取其 HTML 内容。 解析数据对获取到的 HTML 进行解析提取我们需要的数据。 存储数据将提取到的数据保存到文件或数据库中便于后续处理。 3. 常用 Python 工具 **requests**发送 HTTP 请求获取网页内容。 **BeautifulSoup**解析 HTML 或 XML 数据提取特定内容。 **re**正则表达式对复杂文本模式进行匹配和提取。 **pandas**对数据进行清洗和分析。 二、环境准备 1. 安装 Python 确保你的计算机上已经安装了 Python推荐使用 3.7 及以上版本。如果尚未安装可以从 Python 官方网站 下载并安装。 2. 安装必要库 打开命令行或终端运行以下命令安装我们需要的 Python 库 pip install requests beautifulsoup4**requests**用于发送 HTTP 请求。 **beautifulsoup4**用于解析 HTML 数据。 三、写第一个简单的爬虫 我们来实现一个简单的爬虫它将抓取某个网页的标题和正文内容。 1. 完整代码示例 以下代码实现了一个基本的爬虫 import requests from bs4 import BeautifulSoupdef simple_crawler(url):try:# 1. 发送请求response requests.get(url)response.raise_for_status() # 检查请求是否成功# 2. 解析网页内容soup BeautifulSoup(response.text, html.parser)# 3. 提取标题和段落内容title soup.find(title).text # 获取网页标题paragraphs soup.find_all(p) # 获取所有段落内容print(f网页标题: {title} )print(网页内容:)for p in paragraphs:print(p.text)except requests.exceptions.RequestException as e:print(f请求失败: {e})# 示例网址 url https://example.com # 替换为你想爬取的网页地址 simple_crawler(url)2. 代码逐步解析 1发送 HTTP 请求 response requests.get(url)使用 requests.get() 方法向目标网址发送 GET 请求。 返回的 response 对象包含网页的所有内容包括 HTML 源代码。 2检查请求状态 response.raise_for_status()通过 raise_for_status() 检查请求是否成功。如果返回的 HTTP 状态码表示错误如 404 或 500会抛出异常。 3解析 HTML 数据 soup BeautifulSoup(response.text, html.parser)BeautifulSoup 用于解析 HTML 内容并将其转化为 Python 对象方便后续操作。 第二个参数 html.parser 指定使用 Python 内置的 HTML 解析器。 4提取网页内容 title soup.find(title).text paragraphs soup.find_all(p)find(title) 方法返回 title 标签的内容。 find_all(p) 方法返回所有段落标签 p并以列表形式存储。 5打印结果 for p in paragraphs:print(p.text)遍历提取到的段落内容并打印每个段落的文本。 四、改进爬虫功能 1. 添加请求头 一些网站会检测爬虫程序并阻止访问。可以通过添加请求头来模拟浏览器访问。 headers {User-Agent: Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.124 Safari/537.36 } response requests.get(url, headersheaders)2. 控制爬取频率 为了避免对目标网站造成过高的负载可以在每次请求后添加延时。 import timedef delay_request(url):response requests.get(url)time.sleep(2) # 等待 2 秒return response3. 保存数据 将爬取的数据保存为文件或数据库。 保存到文件 with open(output.txt, w, encodingutf-8) as f:f.write(f标题: {title} )for p in paragraphs:f.write(p.text )保存到 CSV 文件 import csvwith open(output.csv, w, newline, encodingutf-8) as csvfile:writer csv.writer(csvfile)writer.writerow([段落内容])for p in paragraphs:writer.writerow([p.text])五、应对复杂网页 1. 动态加载网页 对于 JavaScript 渲染的网页requests 无法获取完整内容可以使用 selenium 或 playwright。 示例使用 selenium from selenium import webdriverurl https://example.com# 配置 WebDriver driver webdriver.Chrome() driver.get(url)# 获取动态加载的内容 html driver.page_source print(html)# 关闭浏览器 driver.quit()2. 爬取图片或文件 import os# 下载图片 img_url https://example.com/image.jpg response requests.get(img_url)# 保存图片 with open(image.jpg, wb) as f:f.write(response.content)六、爬虫的注意事项 1. 遵守法律和道德 避免违反法律确保爬取行为符合目标网站的使用条款。 尊重 robots.txt 文件通过 robots.txt 查看目标网站的爬取限制。 2. 处理异常 对于网络请求失败、数据缺失等情况添加异常处理逻辑 try:response requests.get(url)response.raise_for_status() except requests.exceptions.RequestException as e:print(f请求失败: {e})3. 避免过于频繁的请求 可以设置延时或使用代理 IP proxies {http: http://123.45.67.89:8080,https: http://123.45.67.89:8080 } response requests.get(url, proxiesproxies)
http://www.hkea.cn/news/14562032/

相关文章:

  • 做ppt的图片素材网站有哪些.net网站开发简介
  • 垡头做网站的公司酒泉市住房和城乡建设局网站
  • 安阳建设网站做封面的免费网站
  • 如皋做网站的公司广点通都有哪些平台投放
  • 网站建设哪家好推荐万维科技会员类网站模板
  • 合肥网站建设教程怎么自己做H5网站
  • 上海网站建设 迈若如何在建设部网站补录项目
  • 网站建设成本计划手机网站怎样排版最好
  • 动漫做h免费网站深圳市建筑人才网
  • 市住建设局网站建设网站公司需要准备哪些材料
  • 网站建设三折页盐城网站开发怎么样
  • 东昌府企业做网站推广WordPress实例页面在哪里修改
  • 网站建设的阶段aws 知乎 wordpress
  • 网站建设费用支出方案海南万宁市
  • 淘宝网站模板是什么做的竞价广告推广
  • 网站引入百度地图wordpress微信公众号关注登陆
  • 网站建设方法有那几种造价工程建设协会网站
  • 网站伪静态文件网站开发php制作
  • 网站页面做成自适应优缺点我想建设一个网站
  • 常州建站网站模板用sql网站建设基本流程
  • 如何查到网站是谁做的青岛做公司网站
  • 赣州做网站建设十大软件管理系统
  • 网站开发有专利吗一个公司做100个网站
  • 学校网站建设文字规范问题室内设计学校排名榜
  • 有没有做底单的网站网页制作公司找哪家
  • 企业网站关键词优化排名应该怎么做小程序后台开发教程
  • 网站建设公司新闻软文代发价格
  • 酒店移动网站建设方案网络营销推广的要点
  • 苏州网站建设搜q479185700seo排名优化有哪些
  • 中山工程建设信息网站祁连县公司网站建设