德清淘宝网站建设,全新的装修设计,商务网站建设实验,wordpress文章显示小时分钟Python爬虫中Scrapy框架应用非常广泛#xff0c;经常被人用于属于挖掘、检测以及自动化测试类项目#xff0c;为啥说Scrapy框架作为半成品我们又该如何利用好呢 #xff1f;下面的实战案例值得大家看看。
目录#xff1a;
1、Scrapy框架之命令行
2、项目实现
Scrapy框架…Python爬虫中Scrapy框架应用非常广泛经常被人用于属于挖掘、检测以及自动化测试类项目为啥说Scrapy框架作为半成品我们又该如何利用好呢 下面的实战案例值得大家看看。
目录
1、Scrapy框架之命令行
2、项目实现
Scrapy框架之命令行
Scrapy是为持续运行设计的专业爬虫框架提供操作的Scrapy命令行。
Scrapy爬虫的常用命令
scrapy[option][args]#command为Scrapy命令
常用命令图1 至于为什么要用命令行主要是我们用命令行更方便操作也适合自动化和脚本控制。至于用Scrapy框架一般也是较大型的项目程序员对于命令行也更容易上手。
首先介绍一下相关文件的作用方便我们到时候修改相关代码。
scrapy.cfg部署Scrapy爬虫的配置文件
demoScrapy框架的用户自定义Python代码
其中在项目文件根目录里面的demo文件中有如下文件以及相关的作用
init.py初始化脚本
items.pyItems代码模板继承类
middlewares.pyMiddlewares代码模板继承类
Pipelines.pyPipelines代码模块继承类
settings.pyScrapy爬虫的配置文件优化需要改动
spiders代码模板目录继承类
在Spider文件目录下包含如下文件
init.py初始文件。无需修改
_pycache缓存目录无需修改
项目实现
接下来我们开始第一次的实操大致步骤如下
1、建立一个Scrapy爬虫工程
2、在工程中产生一个Scrapy爬虫
3、配置产生的spider爬虫
4、运行爬虫获取网页
1、新建项目
首先我们得先新建一个项目文件。
这里需要我们打开Git至于Git的安装以及简单使用我们之前在折腾博客时有了解过用HexoGithub Pages搭建私人博客第二站
首先打开Git定位到你要爬虫项目的地址
比如小编我是要定位到E盘则输入cd E:图2 定位到目标地址后我们便可以开始新建项目啦~
Todir命令为显示目录和子目录的列表.
2、新建Scrapy
接下来我们输入如下命令新建一个名为newdemo的爬虫项目
scrapy startproject newdemo项目生成后我们可以看见在根目录生成了一个项目文件也是叫做newdemo那么接下来我们需要对其中的文件进行编辑。图3 3、配置Spider爬虫
接下来我们需要输入如下命令
scrapy genspider demo python123.io相关运行结果如下图4 然后会在newdemo\spiders目录下生成一个demo.py文件 其中parse(用于处理响应解析内容形成字典发现新的URL爬取请求)图5 修改demo文件里面的代码修改后如下
import scrapy#继承Scrapy.Spider类的子类
class DemoSpider(scrapy.Spider):name demo#当前爬虫命名为demo#allowed_domains [python123.io] #用户在命令行提交给爬虫的域名start_urls [http://python123.io/ws/demo.html]#爬取内容的初始页面#parse()用于处理响应解析内容形成字典发现新的URL爬取请求def parse(self, response):fnameresponse.url.split(/)[-1]with open (fname,wb) as f:f.write(response.body)self.log(save file %s % name)4、运行项目
最后一步便是运行该爬虫项目命令为
scrapy crawl demo相关运行结果如下图6 直到最后在newdemo文件目录下出现demo.html文件说明此项目运行成功。
打开demo.html文件显示如下图7 Python爬虫系列持续更新…