当前位置: 首页 > news >正文

织梦怎么做网站地图网站建设的风险识别

织梦怎么做网站地图,网站建设的风险识别,wordpress还原站点,网页模板布局思路#xff1a; 进入电影天堂首页#xff0c;提取到主页面中的每一个电影的背后的那个urL地址 a. 拿到“2024必看热片”那一块的HTML代码 b. 从刚才拿到的HTML代码中提取到href的值访问子页面#xff0c;提取到电影的名称以及下载地址 a. 拿到子页面的页面源代码 b. 数据提…思路 进入电影天堂首页提取到主页面中的每一个电影的背后的那个urL地址 a. 拿到“2024必看热片”那一块的HTML代码 b. 从刚才拿到的HTML代码中提取到href的值访问子页面提取到电影的名称以及下载地址 a. 拿到子页面的页面源代码 b. 数据提取 代码实现 from tqdm import tqdm import requests import re from selenium import webdriver from selenium.webdriver.edge.options import Optionsclass MovieScraper:MovieScraper类用于从网站抓取电影信息。属性----------edge_options : Options用于配置webdriver的selenium Options对象web_driver : webdriver用于与网站交互的selenium webdriverrequest_headers : dict包含请求头的字典方法-------get_response(url)向指定的URL发送GET请求并返回响应。get_movie_list_html(response)从响应中提取电影列表的HTML。get_sub_url_list(movie_list_html)从电影列表HTML中提取子URL。get_movie_info(child_response)从子URL的响应中提取电影信息。scrape(target_url)从指定的URL抓取电影信息并写入文件。def __init__(self):初始化MovieScraper配置webdriver和请求头。self.edge_options Options()self.edge_options.add_argument(headless)self.web_driver webdriver.Edge(optionsself.edge_options)self.request_headers {User-Agent: Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/123.0.0.0 Safari/537.36}def get_response(self, url):向指定的URL发送GET请求并返回响应。参数----------url : str要发送请求的URL。返回-------response : ResponseGET请求的响应。response requests.get(url, headersself.request_headers)response.encoding gbkreturn responsedef get_movie_list_html(self, response):从响应中提取电影列表的HTML。参数----------response : Response要提取HTML的响应。返回-------movie_list_html : str电影列表的HTML。movie_list_pattern re.compile(r2024必看热片.*?ul(?Phtml.*?)/ul, re.S)movie_list_result movie_list_pattern.search(response.text)return movie_list_result.group(html)def get_sub_url_list(self, movie_list_html):从电影列表HTML中提取子URL。参数----------movie_list_html : str电影列表的HTML。返回-------sub_url_list : iterator子URL的迭代器。sub_url_pattern re.compile(rlia href(?Psub_url.*?), re.S)return sub_url_pattern.finditer(movie_list_html)def get_movie_info(self, child_response):从子URL的响应中提取电影信息。参数----------child_response : Response要提取电影信息的响应。返回-------movie_info_result : Match包含电影信息的匹配对象。movie_info_pattern re.compile(r◎片  名 (?Pmovie.*?)br.*?td styleWORD-WRAP: break-word bgcolor#fdfddfa href(?Pdownload.*?), re.S)return movie_info_pattern.search(child_response.text)def scrape(self, target_url):从指定的URL抓取电影信息并写入文件。参数----------target_url : str要抓取电影信息的URL。self.web_driver.get(target_url)response self.get_response(target_url)movie_list_html self.get_movie_list_html(response)sub_url_list self.get_sub_url_list(movie_list_html)with open(电影天堂.txt, w, encodingutf-8) as file:for sub_url in tqdm(sub_url_list, desc处理URL中, unitURL):child_url target_url sub_url.group(sub_url)child_response self.get_response(child_url)movie_info_result self.get_movie_info(child_response)download_link movie_info_result.group(download)file.write(download_link \n)self.web_driver.quit()print(爬取完毕)if __name__ __main__:scraper MovieScraper()scraper.scrape(https://www.dy2018.com/)效果
http://www.hkea.cn/news/14303654/

相关文章:

  • 创建网站的费用西安seo培训机构排名
  • 网站设计哪家口碑好企业网站建设开题报告是什么
  • 东莞建站公司案例全网天下案例管理系统首页
  • 茅台酒网站建设方案移动端网站建设的方案
  • 多店铺商城系统上海做网站优化价格
  • 那些网站做的比较好凡科建站网站建设
  • 酷站网j2ee博客网站开发
  • 为什么建设文化馆网站国内好的设计网站
  • 网站换一家做还用备案么js检测网站是否能打开
  • 西部数码网站管理助手 破解版在海口注册公司需要什么条件
  • 网站开发方倍工作室百度号码认证平台个人号码申诉
  • 中山移动网站设计网片式防护围栏
  • 网站备案被注销的原因网站平台建设多少钱
  • 网站建设学习网站做图的兼职网站
  • 怎么做室内设计公司网站简述网站建设基本步骤
  • 网站换网址了怎么找昆明网站建设公司
  • 如何做网站平台销售wordpress获得授权
  • 钓鱼网站实施过程wordpress更换皮肤
  • 变化型网站网上国网下载
  • 微信登录建设银行网站建立个网站需要多少钱
  • 网站个人备案转企业备案磁力搜索引擎torrentkitty
  • html网站怎么做视频怎么在家做网站
  • 做公司网站视频网站建设制作设计营销 大连
  • 做互联网网站赚钱吗wordpress换域名换服务器
  • 关于网站开发人员保密协议潼南区做网站的公司
  • 网站建设与管理需要哪些证书亭湖区建设局网站
  • .net做网站安全吗主题之家wordpress
  • wangz网站建设免费wordpress模板下载
  • 快速网站排名提升免费在线观看电影
  • wordpress下载站模板下载自己创业做网站