当前位置: 首页 > news >正文

网站域名是啥镇江营销型建站公叿

网站域名是啥,镇江营销型建站公叿,为知笔记导入wordpress,给公司做网站怎么弄爬取动态网页#xff08;上#xff09; 文章目录 爬取动态网页#xff08;上#xff09;前言一、大致内容二、基本思路三、代码编写1.引入库2.加载网页数据3.获取指定数据 总结 前言 之前的两篇写的是爬取静态网页的内容#xff0c;比较简单。接下来呢给大家讲一下如何去…爬取动态网页上 文章目录 爬取动态网页上前言一、大致内容二、基本思路三、代码编写1.引入库2.加载网页数据3.获取指定数据 总结 前言 之前的两篇写的是爬取静态网页的内容比较简单。接下来呢给大家讲一下如何去爬取动态网页的数据。同样上两篇用的Python库在这里也是用不了滴。 一、大致内容 以此网址为例豆瓣2022年度电影榜单 通过使用selenium相关技术来爬取相应的片名、人物、产地、评分等信息。 二、基本思路 第一步打开网页右键在指定的数据类型上点击检查。第二步网页就会弹出一个窗口并定位到相应的网页代码的位置上。 第三步根据数据前面的div、class等标签参数来进行代码的编写获取一系列的同类数据。第四步对获取的数据进行整理保存成我们便于查看的格式比如excel文档。时间来不及了。。这个会在《爬取动态网页下》上写 三、代码编写 1.引入库 代码如下 from selenium import webdriver from selenium.webdriver.common.by import By import time2.加载网页数据 代码如下 driver webdriver.Firefox()driver.get(https://movie.douban.com/annual/2022/?fullscreen1sourcemovie_navigation)time.sleep(5)driver.execute_script(window.scrollTo(0, document.body.scrollHeight);)driver webdriver.Firefox(): 这一行创建了一个新的 Firefox WebDriver 实例。WebDriver 是一个接口允许你通过编程方式控制浏览器的行为。driver.get(): 这一行使用 WebDriver 让 Firefox 浏览器打开指定的 URL在这个例子中是豆瓣电影 2022 年度榜单页面。time.sleep(): 这一行会让 Python程序暂停执行5秒。这个暂停是为了给网页加载时间确保所有内容都已完全加载到浏览器中。在实际操作中可能需要根据网页的实际加载速度来调整这个等待时间。driver.execute_script(): 这段代码的作用是滚动浏览器窗口到底部。window.scrollTo(x, y) 是一个 JavaScript方法它接受两个参数x 表示水平滚动位置y 表示垂直滚动位置。在这里0表示保持水平滚动位置不变document.body.scrollHeight表示将垂直滚动位置设置为文档的总高度从而实现滚动到底部的效果。 这段代码的主要目的是打开豆瓣电影年度榜单页面并滚动到页面底部为了确保所有内容都已经加载完成。 3.获取指定数据 代码如下 # 获取四大影视类型标题 comment_Titles driver.find_elements(byBy.CSS_SELECTOR, value.module-top10-grid-chart-title) for comment in comment_Titles:print(comment.text)# 获取每个影视类型里的第一名片名 which_mo_list driver.find_elements(byBy.CSS_SELECTOR, value.subject-top-title) for each_mo in which_mo_list:movie_title each_mo.get_attribute(title)print(movie_title)# 获取每个影视类型里的第一名评分 movies_top_scores_list driver.find_elements(byBy.CSS_SELECTOR, value.rating-card-value) for movie_top_score in movies_top_scores_list:score movie_top_score.textprint(score)# 获取所有影片的人物信息 persons_list driver.find_elements(byBy.CSS_SELECTOR, value.subject-credit) for person in persons_list:person_title person.find_elements(byBy.TAG_NAME, valuep)for title in person_title:print(title.text)# 获取影片的产地每个影视类型里的第一名除外 addresses_list driver.find_elements(byBy.CSS_SELECTOR, value.subjects-rank-credits div:nth-child(2)) for addresses in addresses_list:address_text addresses.textprint(address_text)# 获取影片评分每个影视类型里的第一名除外 movies_scores_list driver.find_elements(byBy.CSS_SELECTOR, value.subjects-rank-rating) for movie_score in movies_scores_list:score movie_score.textprint(score)乍一看有很多代码。仔细看其实都是一样的格式先是find它们在哪里然后把它们保存成一个列表最后使用for结构遍历打印出来。 以其中一个举例# 获取四大影视类型标题解释一下 comment_Titles driver.find_elements(byBy.CSS_SELECTOR,value‘.module-top10-grid-chart-title’): 这一行使用 WebDriver 的find_elements 方法查找页面上所有匹配给定 CSS 选择器的元素。在这个例子中CSS 选择器是.module-top10-grid-chart-title它会匹配所有具有module-top10-grid-chart-title 类名的 HTML 元素。find_elements方法会返回一个包含所有匹配元素的列表。for comment in comment_Titles:: 这一行开始一个 for 循环遍历 comment_Titles列表中的每个元素。在每次循环中当前元素会被赋值给变量 comment。print(comment.text): 这一行在循环内部执行它使用 text 属性获取当前 comment元素中的文本内容并将其打印到控制台。text 属性返回元素及其所有子元素的纯文本内容不包括 HTML 标签。 总的来说这两行代码的作用是从页面上找到所有具有 module-top10-grid-chart-title 类名的元素并打印出它们的文本内容。这些元素是豆瓣电影年度榜单中的四大影视类型的标题。 给大家看一下效果图吧。 总结 到这里已经完成一大半了。剩下的就是对数据的处理如何让它们看起来比较舒服。由于时间问题剩下的下回见各位。)
http://www.hkea.cn/news/14489160/

相关文章:

  • 垂直网站导航是谁做的天津手机网站制作
  • 咖啡公司网站建设策划书crm资源管理系统
  • 丹阳网站建设咨询网站打开后显示建设中
  • 上海网站建设平台教你做吃的网站
  • 联想服务器怎么建设第二个网站马尾网站建设
  • 公司名称被大量网站收录电商网站开发难点
  • 做外贸站推广做爰片的网站
  • 室内设计网站界面wordpress 手机端APP
  • 做网站都能赚钱吗有的网站在浏览器打不开怎么办
  • 网站建设费用写创意自己做网站推广试玩
  • 电子商务网站建设实验指导网站建设总结 优帮云
  • 设计相关网站西安模板网站建设
  • 海口网站建设做网站中国建设网平台
  • 腾龙官方网站做号软件设计网站的步骤
  • 做效果图去哪个网站接活电商设计招聘
  • 农产品网站建设策划html总结心得体会小短篇
  • 一个域名一个ip做多个网站广州建设工程中心网站
  • 网站制作厦门公司网站 模板 下载
  • 网上网站开发村级网站建站
  • 佛山做外贸网站案例百度搜索收录
  • 企业网站必须备案吗以下属于网站seo的内容是
  • 无需下载国外黄冈网站推广directadmin备份网站
  • 广州建设高端网站怎么用ps做网站首页图片尺寸
  • 室内设计网站公司建邺做网站价格
  • 个人站长怎么做企业网站什么是h5网站
  • 网站外链建设可以提升网站权重吗wordpress怎么改为中文
  • 公司网站建设沈阳广州企业网站制作公司
  • 一站式网站搭建企业网站推广哪家好
  • 公司模板网站建设福州网站搜索引擎优化
  • 厦门网站设计推广公司国外 网站设计