当前位置: 首页 > news >正文

中国互联网网站性能贵阳网站建设王道下拉惠

中国互联网网站性能,贵阳网站建设王道下拉惠,网站 数据库 sql 导入数据库,网站建设服务费记入什么科目目录 1.爬虫与python 2.第一个爬虫 3.web请求的全过程 3.1服务器渲染 3.2前端JS渲染 4.浏览器工具 4.1Elements 4.2Console 4.3Source 4.4network#xff08;重点#xff09; 5.小结 1.爬虫与python 首先我们要知道#xff0c;爬虫一定要用Python么? 非也~…目录 1.爬虫与python 2.第一个爬虫 3.web请求的全过程  3.1服务器渲染  3.2前端JS渲染  4.浏览器工具  4.1Elements 4.2Console  4.3Source 4.4network重点 5.小结 1.爬虫与python 首先我们要知道爬虫一定要用Python么? 非也~ 用Java也行, C也可以请各位记住编程语言只是工具抓到数据是你的目的用什么工具去达到你的目的都是可以的和吃饭一样, 可以用叉子也可以用筷子, 最终的结果都是你能吃到饭那为什么大多数人喜欢用Python呢? 答案: 因为Python写爬虫简单不理解? 问: 为什么吃米饭不用刀叉? 用筷子? 因为简单! 好用! 而Python是众多编程语言中, 小白上手最快, 语法最简单而且如果要成为一名python全栈工程师爬虫这项技能是有必要掌握的而python有非常多的关于爬虫能用到的第三方支持库. 说直白点儿. 就是你用筷子吃饭, 我还附送你一个佣人. 帮你吃! 这样吃的是不是更爽了. 更容易了~ 2.第一个爬虫 爬虫就是我们通过我们写的程序去抓取互联网上的数据资源. 比如, 此时我需要百度的资源. 在不考虑爬虫的情况下, 我们肯定是打开浏览器, 然后输入百度的网址, 紧接着, 我们就能在浏览器上看到百度的内容了. 那换成爬虫呢? 其实道理是一样的. 只不过, 我们需要用代码来模拟一个浏览器, 然后同样的输入百度的网址. 那么我们的程序应该也能拿到百度的内容. 对吧~ 在python中, 我们可以直接用urllib模块来完成对浏览器的模拟工作~, 直接上代码 from urllib.request import urlopenresp urlopen(http://www.baidu.com) # 打开 百度 print(resp.read().decode(utf-8)) # 打印 抓取到的内容 我们可以把抓取到的html内容全部写入到文件中, 然后和原版的百度进行对比, 看看是否一致   from urllib.request import urlopenresp urlopen(http://www.baidu.com) # 打开 百度# print(resp.read().decode(utf-8)) # 打印 抓取到的内容with open(baidu.html, modew, encodingutf-8) as f: # 创建文件f.write(resp.read().decode(utf-8)) # 保存在文件中 3.web请求的全过程  大家可以去补充一些前端的知识学习爬虫我们要求的不多只要能过看懂就可以话不多说直接上图~ 接下来就是一个比较重要的事情了. 所有的数据都在页面源代码里么?   非也~ 完整的页面展示是通过将源代码渲染得到的而常见的页面渲染有两种 3.1服务器渲染  服务器渲染你需要的数据直接在页面源代码中就能搜到 这个最容易理解也是最简单的含义呢就是我们在请求到服务器的时候服务器直接把数据全部写入到html中我们浏览器就能直接拿到带有数据的html内容比如 由于数据是直接写在html中的, 所以我们能看到的数据都在页面源代码中能找的到的. 这种网页一般都相对比较容易就能抓取到页面内容 3.2前端JS渲染  这种就稍显麻烦了这种机制一般是第一次请求服务器返回一堆HTML框架结构然后再次请求到真正保存数据的服务器由这个服务器返回数据最后在浏览器上对数据进行加载就像这样:   大多数页面这样做的好处就是可以缓解服务器的压力就像我们平常访问一些购物页面都是直奔主题直接搜索自己想要的东西虽然JS渲染无法直接获得我们爬取我们还可以通过浏览器的调试工具。 那我们下一步介绍浏览器开发者工具注意是开发者工具哦功能也很强大是我们以后学习的主要工具当然还有pycharm~ 4.浏览器工具  Chrome是一款非常优秀的浏览器. 不仅仅体现在用户使用上. 对于我们开发人员而言也是非常非常好用的. 对于一名爬虫工程师而言. 浏览器是最能直观的看到网页情况以及网页加载内容的地方. 我们可以按下F12来查看一些普通用户很少能使用到的工具. 其中最重要的ElementsConsoleSourcesNetwork。 4.1Elements Elements是我们实时的网页内容情况注意, 很多兄弟尤其到了后期非常容易混淆Elements以及页面源代码之间的关系这里我们重点强调一下 ️️ 页面源代码是执行js脚本以及用户操作之前的服务器返回给我们最原始的内容 Elements中看到的内容是js脚本以及用户操作之后的当时的页面显示效果 一个是写好的一个是实时的 4.2Console  第二个窗口Console是用来查看程序员留下的一些打印内容以及日志内容的我们可以在这里输入一些js代码自动执行。 4.3Source 第三个窗口, Source, 这里能看到该网页打开时加载的所有内容. 包括页面源代码. 脚本. 样式, 图片等等全部内容. 4.4network重点 第四个窗口, Network, 我们一般习惯称呼它为抓包工具. 在这里, 我们能看到当前网页加载的所有网路网络请求, 以及请求的详细内容. 这一点对我们爬虫来说至关重要. 其他更加具体的内容. 随着咱们学习的展开. 会逐一进行讲解. 5.小结 学习了爬虫的主要环境并用代码模拟浏览器制作的百度页面掌握浏览器开发者工具
http://www.hkea.cn/news/14399403/

相关文章:

  • 如何用微信小程序做网站门户网站广告的特点有
  • 做网站江西如何上传安装wordpress
  • 网站设计公司排名前十wordpress 获取评论
  • 做品牌网站找谁平台网站开发风险
  • 计算机基础网站建设和网络安全Python做网站 性能
  • 站长工具pr值查询有没有做微场景的网站
  • wordpress学做网站微信公众号h5网站开发
  • 网站建设后台程序用什么语言网站设计开发网站
  • 中国城乡住房建设厅网站首页柴油网站怎么做
  • 个人如何开网站新闻最新北京消息今天
  • 曹县住房和城乡建设局网站wordpress图片展示主题yousucai
  • 北京网站改版价格怎么查一个公司是否正规
  • 品牌网站建站网站设计 站
  • 阿里指数网站西安大型网站开发
  • 网站建设 蜂图网络做彩票网站违法吗
  • 网站开发结束语深圳住房建设局网站申报
  • 我有一个网站怎么做外贸厦门小程序开发的公司
  • 我做的网站关键词到首页了没单子vps可以多少wordpress
  • 新网 网站建立广州市网站建设分站价格
  • 湖北 个人网站备案时间南京网站设计机构
  • 成都专业网站建设优化团队昆明官网seo诊断
  • 企业网站服务器多少钱wordpress版权插件
  • 网站的优化从几个方面做网站需要绑定电脑ip吗
  • 网站建设中怎么解决网页上做ppt的网站
  • 网站开发 架构自己做qq头像静态的网站
  • 微网站免费创建平台江西建设厅培训网站
  • 郑州做网站找哪家做二手货的网站有哪些
  • 网站空间报价单记事本怎么做网站
  • 外贸服装网站建设微信小程序开发图解案例教程
  • psd网站排行榜网络直播网站建设