当前位置: 首页 > news >正文

有做网站代理运营的吗宁波网络营销推广咨询报价

有做网站代理运营的吗,宁波网络营销推广咨询报价,wordpress app开发教程,电商网站要素引言 最近发现了一个有意思的网站,里面充斥了大量的舔狗箴言。作为一个爬虫发烧友怎么能错过此等机会,咱们直接就是上才艺! 类的编写 本次爬虫使用了多协程的方案进行,保证了爬虫的速度。在这里我们新建一个爬虫类,…

引言

最近发现了一个有意思的网站,里面充斥了大量的舔狗箴言。作为一个爬虫发烧友怎么能错过此等机会,咱们直接就是上才艺!

类的编写

本次爬虫使用了多协程的方案进行,保证了爬虫的速度。在这里我们新建一个爬虫类,并在里边添加上我们需要的方法。

网页的获取

首先是网页的获取部分,我们在这里主要使用了多协程,代码如下:

# 定义多协程函数async def page_get(self):# 利用with创建协程会话async with aiohttp.ClientSession() as session:# 再次利用循环的会话来进行网页源代码的获取async with session.get(url=self.url) as resp:html = await resp.text()# 调用网页解析的函数result = self.page_parse(html)# 写入文件with open('tiangou.txt', mode='a+', encoding='utf-8') as f:if result + '\n' not in f.readlines():f.write(result + '\n')

网页解析部分

在本函数中我们调用了BeautifulSoup解析网站的内容,然后返回页面的内容,代码如下:

    def page_parse(self, html):soup = BeautifulSoup(html, 'html.parser')result = soup.find('article')return result.text

类的主方法

在类的主方法中我们创建了协程循环,并提交任务给协程。与此同时,我们还能够根据类的属性来决定获取多少句子。

    def run(self):try:loop = asyncio.get_event_loop()tasks = [self.page_get() for i in range(self.num)]loop.run_until_complete(asyncio.wait(tasks))except Exception as e:print(e)

全部代码与运行演示

基于上述内容,全部代码如下所示:

import asyncio
from bs4 import BeautifulSoup
import aiohttp
from random import choiceHEADERS = {'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/105.0.0.0 ''Safari/537.36 '
}
URL = 'https://www.nihaowua.com/dog.html'class crawl_dog():def __init__(self, url, headers, num=100):self.url = urlself.headers = headersself.num = numasync def page_get(self):async with aiohttp.ClientSession() as session:async with session.get(url=self.url) as resp:html = await resp.text()result = self.page_parse(html)with open('tiangou.txt', mode='a+', encoding='utf-8') as f:if result + '\n' not in f.readlines():f.write(result + '\n')def page_parse(self, html):soup = BeautifulSoup(html, 'html.parser')result = soup.find('article')return result.textdef run(self):try:loop = asyncio.get_event_loop()tasks = [self.page_get() for i in range(self.num)]loop.run_until_complete(asyncio.wait(tasks))except Exception as e:print(e)if __name__ == '__main__':# crawl = crawl_dog(URL, HEADERS)# crawl.run()with open('tiangou.txt', mode='r', encoding='utf-8') as f:result = f.readlines()print(choice(result))

在主函数中,新建了类并调用了run方法来进行抓取。我们随机抽几句来尝尝鲜:

  • 我不敢有什么奢望,只希望亲他的时候要记得涂上我送你的唇膏…
  • 我的嘴真笨,跟别人能说出花,嘴巴会像开过光,唯独跟你,怎么说都不太对。每天都要看很多遍微博,你稳居我微博经常访问第一的宝座,有什么好玩的都想分享给你只为逗你一笑。你的抑郁你的不快我都看在眼里急在心头,我想默默陪着你让你开心。天快亮了,又一包烟抽完。你是我最孤独的心事,能不能偶尔低下头看看我。
  • 问你在干嘛,你问我能不能别烦你。居然询问我的意见,态度真好,真喜欢你!

妈妈再也不同担心我没有舔狗语录喽!

总结

在本文中,设计并实现了抓取舔狗句子的小实例。如果你有任何问题可以私信或或者评论与我讨论。

我们下次再见!

`

http://www.hkea.cn/news/22125/

相关文章:

  • 网站建设注意哪些问题sem和seo是什么职业岗位
  • 一_建设网站前的市场分析奶茶软文案例300字
  • 做网站智能工具江阴企业网站制作
  • 怎么看网站有没有做推广大数据营销系统多少钱
  • 广东工厂搜索seoseo平台优化服务
  • 网站开发平台 eclipseseo网站推广案例
  • 什么网站做调查能赚钱关键词优化报价推荐
  • 网站开发职业认知小结开发一个app平台大概需要多少钱?
  • 装修公司全包项目seo搜索引擎实训心得体会
  • 爱站网是干什么的长沙关键词排名首页
  • wordpress 教垜四川seo推广公司
  • 东莞市阳光网青岛seo服务
  • 网站弹窗在中间位置企业培训师
  • 整站下载器 安卓版域名解析查询站长工具
  • 跨境自建站模板seo推广是做什么
  • 网站建设与网页设计报告网络营销师报名入口
  • 生成前端页面的网站东莞网络营销全网推广
  • 网站及单位网站建设情况免费男女打扑克的软件
  • 公司有网站有什么好处网上开店如何推广自己的网店
  • 海口网站建设策划关键词排名优化工具有用吗
  • 请问哪里可以做网站汕头seo
  • 访问国外网站速度慢苏州关键词seo排名
  • 做网站备案照片的要求谷歌seo教程
  • wordpress站点全屏新站如何让百度快速收录
  • wordpress 会议 主题推广排名seo
  • 源码开发网站建设sem与seo的区别
  • 如何查网站的空间防恶意点击软件
  • 单位网站建设收费标准互联网推广引流
  • 网站有中文源码加英文怎么做关键词歌词完整版
  • 建设网站企业银行做网站的平台