当前位置: 首页 > news >正文

上海建立公司网站商城网站免费模板

上海建立公司网站,商城网站免费模板,网站建设系统 网站自助建站系统,上线一个网站需要哪些条件文章目录 声明安装必要的库项目结构技术细节小结 声明 请您遵守网站的robots文件规定#xff0c;本文目的只是做学习交流使用#xff0c;包括多个模块#xff0c;例如数据存储、日志记录、错误处理、多线程或异步请求 安装必要的库 pip install requests beautifulsoup4 sq… 文章目录 声明安装必要的库项目结构技术细节小结 声明 请您遵守网站的robots文件规定本文目的只是做学习交流使用包括多个模块例如数据存储、日志记录、错误处理、多线程或异步请求 安装必要的库 pip install requests beautifulsoup4 sqlite3 项目结构 创建以下文件和目录结构 my_crawler/ ├── config.py ├── crawler.py ├── db.py ├── logger.py └── main.py 技术细节 配置文件 config.py 配置文件用于存储常量和配置项 BASE_URL https://example.com ARTICLES_URL f{BASE_URL}/articles DATABASE_NAME articles.db LOG_FILE crawler.log1.数据库操作 db.py 用于创建数据库表和插入数据 #db.pyimport sqlite3 from config import DATABASE_NAMEdef init_db():conn sqlite3.connect(DATABASE_NAME)cursor conn.cursor()cursor.execute(CREATE TABLE IF NOT EXISTS articles (id INTEGER PRIMARY KEY AUTOINCREMENT,title TEXT NOT NULL,url TEXT NOT NULL))conn.commit()conn.close()def insert_article(title, url):conn sqlite3.connect(DATABASE_NAME)cursor conn.cursor()cursor.execute(INSERT INTO articles (title, url) VALUES (?, ?), (title, url))conn.commit()conn.close()2.日志记录 logger.py 用于配置日志记录 logger.pyimport logging from config import LOG_FILEdef setup_logger():logging.basicConfig(filenameLOG_FILE,levellogging.INFO,format%(asctime)s - %(levelname)s - %(message)s)logger setup_logger()3.爬虫逻辑 crawler.py 包含爬虫的主要逻辑 crawler.pyimport requests from bs4 import BeautifulSoup from config import ARTICLES_URL from db import insert_article from logger import loggerdef fetch_page(url):获取网页内容try:response requests.get(url)response.raise_for_status() # 检查请求是否成功return response.textexcept requests.RequestException as e:logger.error(f请求错误: {e})return Nonedef parse_html(html):解析HTML提取文章标题和URLsoup BeautifulSoup(html, html.parser)articles []for article in soup.find_all(div, class_article):title article.find(h1, class_article-title).get_text(stripTrue)url article.find(a)[href]articles.append((title, url))return articlesdef crawl_articles():抓取并保存文章html fetch_page(ARTICLES_URL)if html:articles parse_html(html)for title, url in articles:insert_article(title, url)logger.info(f已保存文章: {title} - {url})主程序 main.py 启动爬虫的主程序 main.pyfrom crawler import crawl_articles from db import init_db from logger import loggerdef main():logger.info(开始爬虫任务)init_db()crawl_articles()logger.info(爬虫任务完成)if __name__ __main__:main()小结 请您遵守网站的robots文件规定本文目的只是做学习交流使用感谢csdn平台
http://www.hkea.cn/news/14347442/

相关文章:

  • php 大型网站开发教程网店设计风格有哪些
  • 做网站上凡科南昌企业建设网站开发
  • 网站安全证书有问题如何解决微信怎么设计分享网站
  • 北京网页网站设计手机wap网站制作免费
  • 宁津有培训做网站的专业定制小程序
  • 证明做二维码打款网站链接提供手机自适应网站
  • 张家界酒店网站建设北京企业网站排名优化
  • 宝安电子厂做网站企业 网站 制作
  • 广州网站优化注意事项wordpress 点击图片放大
  • 淘宝客为什么做网站2021年关键词排名
  • 株洲新站建设wordpress 一页一屏
  • 贵州做网站公司站长之家素材网
  • 自己做网站需要什么软件下载什么网站可以做旅行行程
  • 贫困户房屋建设补助在哪个网站公布钢结构平台设计
  • 安徽国贸集团网站建设做一个网站大概多少钱
  • 宁波网站设计首选荣盛网络网站开发项目建设经验
  • 网站建设属什么合同新浪网站开发语言
  • 全景校园网站开发海外seo网站建设
  • 平面设计素材网站排行榜前十名编程培训
  • 网站注册页面html企业app怎么做
  • 注册一个网站需要多少钱企业网站建设策划
  • 建设银行网站账号怎么注销东坑做网站
  • 网站建设费用组成品牌策划推广方案
  • 定制手机网站建设计算机应用技术与php网站开发
  • 企业网站建设对网络营销的影响主要表现在( )深圳网站制作 公司
  • 网站利用微信拉取用户做登录页seo网站排名
  • 快速创建一个网站企业自助建站策划方案
  • 产品销售网站模块如何设计招聘设计师去哪个网站
  • 罗源福州网站建设网站被挂广告怎么办
  • 长春市城乡建设部网站公司注册地址可以是住宅