当前位置：首页 > news >正文

作图网站谈谈你对网络营销的看法

news 2026/4/6 6:28:55

作图网站,谈谈你对网络营销的看法,新疆维吾尔自治区交通建设管理局网站,网上注册公司的网址目录： 1.实战讲解（XXTop250完整信息的爬取）：1.1 使用之前做的完整的XXTOP250项目，但是设置为只爬取一页（共25个电影）,便于观察1.2 配置settings文件中使用scrapy_redis的必要配置，并…

目录：

1.实战讲解（XXTop250完整信息的爬取）：
- 1.1 使用之前做的完整的XXTOP250项目，但是设置为只爬取一页（共25个电影）,便于观察
- 1.2 配置settings文件中使用scrapy_redis的必要配置，并使用公共redsi数据存储区域（通过使用特定管道实现）
- 1.3 注意：上述settings.py配置中有个可选项SCHEDULER_PERSIST，作用是决定清理还是不清理redis队列：
- 1.4 但是上面并不能在redis中看到每个请求URL的信息：
- 1.5 实例实现断点续爬：

1.实战讲解（XXTop250完整信息的爬取）：

先用单独一个项目来使用scrapy_redis，讲解一些重要点！

1.1 使用之前做的完整的XXTOP250项目，但是设置为只爬取一页（共25个电影）,便于观察

在这里插入图片描述

1.2 配置settings文件中使用scrapy_redis的必要配置，并使用公共redsi数据存储区域（通过使用特定管道实现）

# 第一步：加入以下代码：
#设置scrapy-redis
#1.启用调度将请求存储进redis
from scrapy_redis.scheduler import Scheduler
SCHEDULER="scrapy_redis.scheduler.Scheduler"#2.确保所有spider通过redis共享相同的重复过滤
from scrapy_redis.dupefilter import RFPDupeFilter
DUPEFILTER_CLASS="scrapy_redis.dupefilter.RFPDupeFilter"#3.指定连接到Redis时要使用的主机和端口     目的是连接上redis数据库
REDIS_HOST="localhost"
REDIS_PORT=6379# 不清理redis队列，允许暂停/恢复抓取    （可选）    允许暂停，redis数据不丢失     可以实现断点续爬！！！
SCHEDULER_PERSIST = True# 第二步：开启将数据存储进redis公共区域的管道！
# Configure item pipelines
# See https://docs.scrapy.org/en/latest/topics/item-pipeline.html
ITEM_PIPELINES = {# 'film.pipelines.FilmPipeline': 300,'scrapy_redis.pipelines.RedisPipeline': 100,# 'film.pipelines.DoubanSqlPipeline': 200,
}

1.3 注意：上述settings.py配置中有个可选项SCHEDULER_PERSIST，作用是决定清理还是不清理redis队列：

首先，设置其值为True，允许断点续爬，通过Redis Desktop Manager观察redis中存储数据的公共区域：（会发现，其中有一个是Douban:duperfilter，里面放的是每个请求URL的指纹；一个是Douban:items，里面放的是最终爬取的数据！）

在这里插入图片描述

但是，如果将可选项SCHEDULER_PERSIST的值设为False，不允许断点续爬，观察：（发现只有一个Douban:items，里面放的是最终爬取的数据！而没有每个请求URL的指纹数据！）

在这里插入图片描述

1.4 但是上面并不能在redis中看到每个请求URL的信息：

这是因为每次执行完毕之后，redis中就不存在了，所以，为了观察到scrapy_redis是将每个请求都交给redis的，我们在运行项目一段时间后，强制关闭项目，再来观察redis，会发现：（其中包括了Douban:requests！！！）

在这里插入图片描述

1.5 实例实现断点续爬：

首先，设置SCHEDULER_PERSIST为True，运行框架一会之后立马强制中断！
注意，settings.py中开启存储本地txt数据的管道！

会发现，在本地存储的数据没有25条，这是因为断点续爬，接着之前中断的点继续爬取的：

http://www.hkea.cn/news/608702/

相关文章：

东莞建设网站电工培训技术学校

深圳聘请做网站人员成都排名seo公司

网站备案之后东莞网站关键词优化公司

多种专业网站建设潍坊网站排名提升

网站投稿系统怎么做网站制作流程是什么

交警网站建设整改百度推广怎么推广

重庆网站建设哪里比较好呢网站下载

网站运行速度慢的原因看b站二十四小时直播间

电商网站开发服务全网营销骗局揭秘

个人网站怎么做互联网营销师培训课程免费

微信网站建设价格网站开发报价方案

wordpress utc时间慢8小时大连seo关键词排名

中国建设承包商网站创建软件平台该怎么做

中小企业网站建设费用海外推广服务

企业名称的英文做网站名seo是怎么优化推广的

手机在线建站西安seo服务公司

网站开发有前途吗我也要投放广告

备案网站名称怎么写crm软件

扁平式网站模板b2b网站推广优化

做外贸网站网络营销咨询服务

江门网站建设方案报价淘宝seo优化怎么做

盘龙城做网站推广网站推广

如何做电子书网站域名站长工具

物联网平台有哪些排名优化外包公司

秦皇岛汽车网站制作数字营销工具

培训教育的网站怎么做东莞做网站的联系电话

云南做网站的公司外贸谷歌优化

网页设计学徒培训可试学巢湖seo推广

让顾客心动的句子seo模拟点击软件源码

设计类专业包括哪些kj6699的seo综合查询