当前位置: 首页 > news >正文

seo综合查询网站吉林省软环境建设网站

seo综合查询网站,吉林省软环境建设网站,网站建设流程渠道,邯郸网络运营中心电话多少python爬取书包网文章总结 今天闲来无事去看小说#xff0c;但是发现没办法直接下载#xff0c;所以呢就用python爬虫来下载一波了#xff0c;哈哈… 爬取的是这篇小说#xff1a;剑破九天(是不是很霸气#xff0c;话不多说#xff0c;开始…) 总体思路步骤分为以下三…python爬取书包网文章总结 今天闲来无事去看小说但是发现没办法直接下载所以呢就用python爬虫来下载一波了哈哈… 爬取的是这篇小说剑破九天(是不是很霸气话不多说开始…) 总体思路步骤分为以下三步 1.获得文章的每个章节链接地址 2.获得章节内容 3.保存到指定位置 首先进入到自己想要下载小说的网址按F12进入开发者工具然后单击这个然后在原网页点击章节列表即可发现以下数据 接下来就是提取这个章节的url了我是用的xpath当然也可以用正则和bs4如下代码 book_list res.xpath(//div[classwp b2 info_chapterlist]/ul/li) 此时book_list中就可以得到所有章节的url了第一步完 第二步就是获得章节具体内容了 和第一步相似用xpath即得到章节名和其中一章节内容 章节名称name res.xpath(//h1/text()) 章节内容message_list res.xpath(//dd[idcontents]/text()) 获得了自己需要的章节内容后就要进入第三步的保存了不过在一开始保存时在100章左右时用以下代码出现了UnicodeEncodeError这个问题 for m in message:with open(D:\英雄时刻\{name}.txt.format(name剑破九天),a) as f:f.write(m)然后发现是默认编码方式问题其默认为gbk所以需要改成“utf-8”的格式代码如下 for m in message:with open(D:\英雄时刻\{name}.txt.format(name剑破九天),a,encodingutf-8) as f:f.write(m)然后就可以喝一杯茶慢慢等爬取完成了哈哈以下为代码 #剑破九天.textimport requests import json from lxml import htmldef get_booklist(n):#获得章节地址url https://www.bookbao99.net/book/201706/05/id_XNTc5MDg2.htmlheader {User-Agent: Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.132 Safari/537.36}response requests.get(url,headers header)response.encoding utf-8res html.fromstring(response.text)book_list res.xpath(//div[classwp b2 info_chapterlist]/ul/li)print(len(book_list))#章节个数for book in book_list:#遍历所有章节try:t book.xpath(a/href)book_url https://www.bookbao99.net t[0]get_message(book_url)print(第{n}章爬取完毕.format(nn))n 1except UnicodeEncodeError:print(出现一个错误)continuedef get_message(url):#提取每个章节内容header {User-Agent: Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.132 Safari/537.36}response requests.get(url,headers header)response.encoding utf-8res html.fromstring(response.text)name res.xpath(//h1/text())n \nname[0]\n\n#print(name[0])message_list res.xpath(//dd[idcontents]/text())message_list.insert(0,n)#print(message_list)save_book(message_list)def save_book(message):#保存for m in message:with open(D:\英雄时刻\{name}.txt.format(name剑破九天),a,encodingutf-8) as f:f.write(m)if __name__ __main__:n 1get_booklist(n)是不是美滋滋。 最后呢欢迎一起讨论爬虫哟~~~
http://www.hkea.cn/news/14383336/

相关文章:

  • 阿里云安装网站单页面网站怎么做
  • 网站做3年3年包括什么丽水专业网站制作公司
  • 加盟招商网站建设方案书深圳建伟业公司商城
  • 行业资讯网站有哪些大企业官网设计
  • 广东省城乡建设厅网站怎么做降落伞制作方法
  • 中兴通讯的网站建设分析md5 wordpress
  • 响应式网站做seo怎么样wordpress 过滤iframe
  • 网站及微站建设合同软件工程专业考研科目
  • 加强网站的建设山东济宁做网站的公司有哪些
  • 印尼请人做网站wordpress 个性博客主题
  • 教育网站建设备案视频号如何绑定小程序商店
  • 学校网站建设评分标准网站区域名是什么意思
  • 天津哪里做网站广东省第二中医院官网进入公众号
  • 厦门好景科技做网站高端品牌网站建设方案
  • 深圳做商城网站建设网站建设 青海
  • 重庆模板网站建设怎么样网站建设流行技术
  • 外链网站是什么手机报价
  • win10做网站服务器自己建一个网站需要多少钱?
  • 千灯做网站做淘宝客如何引出图片到网站
  • 电信宽带做网站服务器可以直接进入的正能量网站
  • 预订网站模板公司怎样做网络推广
  • 广州企业网站哪家好博客一号wordpress主题
  • 天津网站seo设计微网站建设教程视频
  • 怎么做网站视频教程网站托管服务适合用于哪种类型的网站
  • 东莞网站建设最优html网页制作参考文献
  • 毕业设计某网站开发的开题报告范文南联网站建设哪家好
  • 专业深圳网站定制开发建网站学什么软件
  • 电商网站建设wordpress模拟接口
  • 给学校建网站那个系统好杭州房价暴跌已开始
  • 网站开发 税率小说推广赚钱