当前位置: 首页 > news >正文

南宁建站新闻稿范文300字

南宁建站,新闻稿范文300字,我学我做我知道网站,宠物网站制作费用明细JavaScript动态渲染界面爬取-Selenium实战 爬取的网页为:https://spa2.scrape.center,里面的内容都是通过Ajax渲染出来的,在分析xhr时候发现url里面有token参数,所有我们使用selenium自动化工具来爬取JavaScript渲染的界面。 fr…

JavaScript动态渲染界面爬取-Selenium实战

爬取的网页为:https://spa2.scrape.center,里面的内容都是通过Ajax渲染出来的,在分析xhr时候发现url里面有token参数,所有我们使用selenium自动化工具来爬取JavaScript渲染的界面。

from selenium import webdriver
from selenium.webdriver.common.by import By
from selenium.common.exceptions import TimeoutException, NoSuchElementException
from selenium.webdriver.support.ui import WebDriverWait
import logging
from selenium.webdriver.support import expected_conditions
import re
import json
from os import makedirs
from os.path import exists# 配置日志
logging.basicConfig(level=logging.INFO, format='%(asctime)s - %(levelname)s: %(message)s')
# 基本url
url = "https://spa2.scrape.center/page/{page}"
# selenium初始化
browser = webdriver.Chrome()
# 显式等待初始化
wait = WebDriverWait(browser, 10)
book_url = list()# 目录设置
RESULTS_DIR = 'results'
exists(RESULTS_DIR) or makedirs(RESULTS_DIR)
# 任意异常
class ScraperError(Exception):pass# 获取书本URL
def PageDetail(URL):browser.get(URL)try:all_element = wait.until(expected_conditions.presence_of_all_elements_located((By.CSS_SELECTOR, ".el-card .name")))return all_elementexcept TimeoutException:logging.info("Time error happen in %s while finding the href", URL)# 获取书本信息
def GetDetail(book_list):try:for book in book_list:browser.get(book)URL = browser.current_urlbook_name = wait.until(expected_conditions.presence_of_element_located((By.CLASS_NAME, "m-b-sm"))).textcategories = [elements.text for elements in wait.until(expected_conditions.presence_of_all_elements_located((By.CSS_SELECTOR, ".categories button span")))]content = wait.until(expected_conditions.presence_of_element_located((By.CSS_SELECTOR, ".item .drama p[data-v-f7128f80]"))).textdetail = {"URL": URL,"book_name": book_name,"categories": categories,"content": content}SaveDetail(detail)except TimeoutException:logging.info("Time error happen in %s while finding the book detail", browser.current_url)# JSON文件保存
def SaveDetail(detail):cleaned_name = re.sub(r'[\/:*?"<>|]', '_', detail.get("book_name"))detail["book_name"] = cleaned_namedata_path = f'{RESULTS_DIR}/{cleaned_name}.json'logging.info("Saving Book %s...", cleaned_name)try:json.dump(detail, open(data_path, 'w', encoding='utf-8'),ensure_ascii=False, indent=2)logging.info("Saving Book %s over", cleaned_name)except ScraperError as e:logging.info("Some error happen in %s while saving the book detail", cleaned_name)# 主函数
def main():try:for page in range(1, 11):for each_page in PageDetail(url.format(page= page)):book_url.append(each_page.get_attribute("href"))GetDetail(book_url)except ScraperError as e:logging.info("An abnormal position has occurred")finally:browser.close()if __name__ == "__main__":main()
http://www.hkea.cn/news/15428/

相关文章:

  • 个人单页网站建设百度主页入口
  • 网站设计简单网页杭州余杭区抖音seo质量高
  • 建设工程信息在哪个网站百度竞价排名广告定价鲜花
  • Javaweb网站建设成品网站源码
  • xp做的网站有连接限制广告软文案例
  • seo专员是干嘛的重庆seo网站排名
  • 企业收录网站有什么用个人免费网上注册公司
  • 网站营销目标东莞优化怎么做seo
  • 网站城市分站是怎么做的网站建设制作公司
  • 清远网站设计公司百度推广登录入口电脑
  • 贵阳做网站公司吗常用的seo工具推荐
  • 运营网站团队建设如何用百度平台营销
  • 南阳网网站建设如何做好搜索引擎优化工作
  • 服务好的徐州网站建设网址seo优化排名
  • 站长工具域名备案查询网络平台推广具体是怎么推广
  • 做网站买什么香港服务器吗如何查看网站收录情况
  • 重庆做网站及公众号公司淘宝网店怎么运营起来
  • 旅游网站规划设计腾讯企点官网下载
  • 小说网站系统怎么做百度用户服务中心电话
  • c做网站教程郑州关键词网站优化排名
  • dreawever如何做本地网站营销技巧五步推销法
  • 高安市帮助做公司网站武汉seo外包平台
  • 做阿里网站需要的faq惠州网站seo排名优化
  • 不花钱可以做网站吗长春seo网站管理
  • 专业制作网站电脑关键词排名靠前
  • 自适应网站制作教程预测2025年网络营销的发展
  • 建设网站需要什么资质竞价排名什么意思
  • 高端网站建设公司增长广西壮族自治区
  • 搜不到自己的网站搜索引擎seo优化平台
  • 网站制作比较好的公司百度注册入口