如何在百度做自己公司的网站,电子商务网站应该如何建设,贵大网站建设多少钱,wordpress模板开发教程视频1.创建scrapy项目的命令#xff1a; scrapy startproject 项目名字 示例#xff1a; scrapy startproject myspider
2.通过命令创建出爬虫文件#xff0c;爬虫文件为主要的代码文件#xff0c;通常一个网站的爬取动作都会在爬虫文件中进行编写。 …1.创建scrapy项目的命令 scrapy startproject 项目名字 示例 scrapy startproject myspider
2.通过命令创建出爬虫文件爬虫文件为主要的代码文件通常一个网站的爬取动作都会在爬虫文件中进行编写。
命令 在项目路径下执行: scrapy genspider 爬虫名字 允许爬取的域名
爬虫名字: 作为爬虫运行时的参数 允许爬取的域名: 为对于爬虫设置的爬取范围设置之后用于过滤要爬取的url如果爬取的url与允许的域不通则被过滤掉。
示例
cd myspider 这一步是进入当前项目路径
scrapy genspider lianjia lianjia.com 再创建爬虫文件
item : 定制你要抓取的字段 比方说你要去爬取一个网站 里面有标题 用name变量去接收 就先在item里面定制好接收的字段 setting放的是你爬虫的最基本信息 包括爬虫的初始化伪装 也需要在这里面去完成 pipelines:保存数据 --不管你是要保存数据到Excel里面或者数据里面都需要在这个文件抒写 middlewares:爬虫中间件
运行scrapy 命令在项目目录下执行scrapy crawl 爬虫名字
示例scrapy crawl 爬虫名字 --nolog 忽略日志信息
7.1 也可爬虫项目中执行命令 每次我们写完代码进行测试的时候都要去安装目录执行所以为了方便我们要写一个再爬虫项目根目录中创建.py结尾的文件执行以下指令:
from scrapy import cmdline cmdline.execute([‘scrapy’,‘crawl’,‘lianjia’])
#.extract()提取内容方法
打开Scrapy Shel 例如 cd mySpider 进入项目路径 scrapy shell https://cs.lianjia.com/zufang/ #想要测试的url