当前位置: 首页 > news >正文

.net网站项目有哪些网站开发需要注册账户吗

.net网站项目有哪些,网站开发需要注册账户吗,衡阳网站排名优化费用,网站建设软件开发工作室整站模板目标 在实际开发过程中#xff0c;我们所需要的数据往往需要通过多个页面的数据汇总得到#xff0c;通过列表获取到的数据只有简单的介绍。站在Scrapy框架的角度来看#xff0c;实际上就是考虑如何处理一个item包含多级页面数据的问题。本文将以获取叶子猪网站的手游排行榜及…目标 在实际开发过程中我们所需要的数据往往需要通过多个页面的数据汇总得到通过列表获取到的数据只有简单的介绍。站在Scrapy框架的角度来看实际上就是考虑如何处理一个item包含多级页面数据的问题。本文将以获取叶子猪网站的手游排行榜及手游详情为学习案例来解决这个问题。 版本 Scrapy 2.12.0 实战 第一步搭建Scrapy框架。略过如果不会搭建的通过可以看我之前的Scrapy入门文章。 第二步通过打开目标网页查看网页代码我们可以的到手游排行榜的基础信息这里我们只获取标题。 import scrapyclass SytopSpider(scrapy.Spider):name sytopallowed_domains [sy.yzz.cn]start_urls [http://sy.yzz.cn/news/14324-1.shtml]def parse(self, response):a_list response.xpath(//ul[classitem-pt-list]/li/div[1]/a)for a in a_list:# 标题alt a.xpath(./img/alt).get()print(alt) 第三步进入二级页面获取描述信息。此时日志打印可以看到单个游戏的信息并没有组合起来。 import scrapyclass SytopSpider(scrapy.Spider):name sytopallowed_domains [sy.yzz.cn]start_urls [http://sy.yzz.cn/news/14324-1.shtml]def parse(self, response):a_list response.xpath(//ul[classitem-pt-list]/li/div[1]/a)for a in a_list:# 标题alt a.xpath(./img/alt).get()print(alt)# 二级页面的urlinfo_url a.xpath(./href).get()print(f二级页面的url是{info_url})meta {alt: alt}yield scrapy.Request(urlinfo_url, callbackself.parse_info)def parse_info(self, response):p_list response.xpath(//div[classcontent]//p)for p in p_list:contentp.xpath(string(.)).get()print(content) 第四步组合item数据。scrapy.Request方法中的meta参数很重要它实现了深度爬取。比如在爬取多层级页面时使用 meta 参数传递父页面的信息到子页面。 import scrapyfrom yezizhu.items import YezizhuItemclass SytopSpider(scrapy.Spider):name sytopallowed_domains [sy.yzz.cn]start_urls [http://sy.yzz.cn/news/14324-1.shtml]def parse(self, response):a_list response.xpath(//ul[classitem-pt-list]/li/div[1]/a)for a in a_list:# 标题alt a.xpath(./img/alt).get()# 二级页面的urlinfo_url a.xpath(./href).get()meta {alt: alt}yield scrapy.Request(urlinfo_url, callbackself.parse_info,metameta)def parse_info(self, response):p_list response.xpath(//div[classcontent]//p)print(start)alt response.meta[alt]print(alt)contentfor p in p_list:contentcontent\np.xpath(string(.)).get()print(content) 第五步创建item属性。 class YezizhuItem(scrapy.Item):alt scrapy.Field()content scrapy.Field() 第六步传递item属性值并将item对象传递给管道。 import scrapyfrom yezizhu.items import YezizhuItemclass SytopSpider(scrapy.Spider):name sytopallowed_domains [sy.yzz.cn]start_urls [http://sy.yzz.cn/news/14324-1.shtml]def parse(self, response):a_list response.xpath(//ul[classitem-pt-list]/li/div[1]/a)for a in a_list:# 标题alt a.xpath(./img/alt).get()# 二级页面的urlinfo_url a.xpath(./href).get()meta {alt: alt}yield scrapy.Request(urlinfo_url, callbackself.parse_info,metameta)def parse_info(self, response):p_list response.xpath(//div[classcontent]//p)print(start)alt response.meta[alt]print(alt)contentfor p in p_list:contentcontent\np.xpath(string(.)).get()print(content)top_contentYezizhuItem(altalt, contentcontent)yield top_content 第七步在settings.py文件中开启管道。 ITEM_PIPELINES {yezizhu.pipelines.YezizhuPipeline: 300, } 第八步在管道中设置下载数据并启动项目。 import jsonclass YezizhuPipeline:# 在爬虫文件开始之前就执行的方法def open_spider(self, spider):self.fp open(C:\\Users\\Administrator\\Desktop\\test\\a.json, w, encodingutf-8)self.fp.write([)def process_item(self, item, spider):line json.dumps(dict(item), ensure_asciiFalse) ,\nself.fp.write(line)return item# 在爬虫文件执行之后再执行的方法def close_spider(self, spider):# 删除最后一个多余的逗号并关闭 JSON 数组self.fp.seek(self.fp.tell() - 3, 0)self.fp.write(\n])self.fp.close()
http://www.hkea.cn/news/14336721/

相关文章:

  • 房地产网站设计中国建筑公司排名最新五十强
  • 我自己做的网站一直没有效果怎么办山西省普通高考考生网上服务平台
  • 二级域名可以做淘客网站含数据的wordpress
  • 网站建设技能培训编程猫下载
  • 网站上传后怎么打开黄冈论坛东湖社区
  • 网站开发过程 知乎企业网站模板下载562
  • 杭州专业网站制作wordpress flat主题
  • 德阳网站建设求职简历电脑有网络但是浏览器打不开网页
  • 北京上地做网站表白时刻网页制作
  • 美工设计网站推荐福州网站建设营销方案
  • 诸城 建设外贸网站吉林市做网站哪家好
  • 做视频的软件模板下载网站有哪些内容网站建设 南通
  • 铜陵网站制作网站建设英文名词
  • iis7建网站wordpress移除工具栏
  • 北京做网站便宜的公司茶叶推广方案
  • 境外 网站网站微信分享接口网站开发
  • 韶山市建设局网站专做民宿的网站
  • 网站建设一般报价多少做购物网站是怎么连接银行
  • 微信网站开发js框架做网站常用字体
  • 网站功能建设与栏目划分上虞网站建设
  • 建设部网站公示钦州公租房摇号查询网络营销策划的流程及要点
  • 怎样做旅游网站网站作为医院形象建设
  • 站长工具端口检测百度资源提交
  • 公司建设网站怎么做账指定网站长期建设 运营计划
  • php网站开发技术代码网站开发过程代码问题 解决
  • 一个网站的设计周期html购物网页设计报告
  • 企业网站建设浩森宇特it运维
  • 网站后台登入密码忘记了semester什么意思
  • 品牌形象网站建设做网站主要学什么软件
  • 人才市场网站源码wordpress 电子商城 模板