当前位置: 首页 > news >正文

网站数据采集怎么做广告建设网站

网站数据采集怎么做,广告建设网站,网站模块化,通付盾 网站公司建设python爬虫 以下内容仅供学习交流,请勿用作其他用途,若涉及隐私和版权问题,请及时联系我删除 闲来无事,学了学爬虫小知识,适合入门,文笔拙劣,还望见谅 爬虫是什么: 爬取网页上的文字,图片,视频,音频 自动化操作浏览器,比如填写表单,打卡,提高工作效率爬虫的注意事项: 爬虫…python爬虫 以下内容仅供学习交流,请勿用作其他用途,若涉及隐私和版权问题,请及时联系我删除 闲来无事,学了学爬虫小知识,适合入门,文笔拙劣,还望见谅 爬虫是什么: 爬取网页上的文字,图片,视频,音频 自动化操作浏览器,比如填写表单,打卡,提高工作效率爬虫的注意事项: 爬虫前阅读robots.txt 注意遵守相关法律规定 反爬:防止爬虫程序对网站数据就行爬取 反反爬:破解网站中的反爬机制,获取相关数据什么是HTTP协议: HTTP协议:HyperText Transfer Protocol,超文本传输协议,发布和接收HTML的协议,服务器端口号:80端口 HTTPS协议:HTTP协议的加密版本,在HTTP下加入了SSL层,服务器端口号:443我们平时输入网址时不需要手动输入端口号,浏览器会自动识别,例如下图,CSDN使用的是HTTPS协议,我们可以手动输入:443,按下回车,仍可访问网页 输入错误的端口号,会加载失败,例如我们输入:80,会显示响应无效 什么是URL: URL:Uniform Resource Locator,统一资源定位符 scheme://host:port/path/?query-stringxxx#anchor scheme:访问的协议,常见的协议:http,https,ftp host:主机名,域名,比如www.taobao.com port:端口号,默认80或443 path:查找路径,sz.58.com/chuzu ,这里的chuzu就是path query-string:查询字符串,www.baidu.com/s?wdpython,后面的wdpython就是查询字符串 anchor:锚点,前端用作页面定位用的,现在一些前后端分离项目,也用锚点来做导航常见请求方法: Requests Method:HTTP协议定义了8种请求方法,最常用的四种请求方法GET, POST, PUT, DELETE, 剩下四种不常用的请求方法:HEAD、‌OPTIONS、‌TRACE和CONNECT,下面介绍一下get请求和post请求 get请求:一般情况下,只从服务器获取数据下来,并不会对服务器资源长生任何影响的时候会使用get请求 post请求:向服务器发送数据(登录),上传文件.会对服务器资源产生影响的时候使用post请求如何查看请求方式 打开浏览器,进行网页搜索,单击鼠标右键,选择最下方的检查 ①选择Network ②刷新网页 ③选择第一个文件,点击后就可以查看请求方法是“GET 登录界面通常会产生POST请求,随便输入账号试一试,显示的是”POST“请求 请求头参数: User-Agent:浏览器名称,网络爬虫中经常使用到,请求一个网页时,服务器通过这个参数就可以知道是哪种服务器发送的 通过爬虫发送的请求,User-Agent是Python,为了避免反爬,通常设置为一些浏览器的值来伪装爬虫Referer:表明当前这个请求从哪个url过来的,对于反爬中,如果不是从指定页面过来的,那么就不做相关的响应Cookie:http协议是无状态的,一个人发送了两次请求,服务器没有能力知道这两个请求是否来自同一个人,因此用cookie来做标识,一般想要做登录后才能访问的网站,那么就需要发送cookie信息在Network中的headers中可以查看User-Agent,Referer和Cookie 状态响应码: 状态响应码:Response Code 200:请求正常,服务器正常的返回数据 301:永久重定向,访问www.jingdong.com的时候会重定向到www.jd.com 302:临时重定向,访问一个需要登录的页面的时候,而此时没有登录,那么就会重定向到登录页面 400:请求的url在服务器找不到,即请求url错误 403:服务器拒绝访问,权限不够,或者是被反爬了 500:服务器内部错误,可能是服务器出现bug了,或者宕机了状态响应码的详解请看这篇文章:https://blog.csdn.net/2202_75922690/article/details/137112746 爬虫小尝试: request网页采集 需要在pycharm中安装requests模块 #request网页采集 import requests keywordinput(请输入搜索关键词:)#指定url urlfhttps://www.baidu.com/s?tn15007414_15_dgieutf-8wd{keyword} #header要在自己电脑浏览器中找不是用别人的代码 header{User-Agent:Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/126.0.0.0 Safari/537.36}#网络请求,获得响应 reponserequests.get(urlurl,headersheader) print(reponse.text) #写入文件中,在本地找到然后打开就是网页 with open(keyword.html,w,encodingutf-8) as f:f.write(reponse.text)print(f已下载...{keyword})打开保存的文件在浏览器中打开,如图: post请求爬取翻译 需要用到的模块:import requests,import pprint 这是动态加载的,当我们输入查询词汇时,发送的是post请求,传回来数据,由于是post请求,需要找到ajax数据,因此要点击Fetch/XHR进行查找 输入单词anchor,进行查找,注意到sug有好几个,点击第一个sug,发现单词是’a’,点击第二个sug,发现单词是’an’,第三个sug是’anc’,一直到最后一个sug是’anchor’,我们可以发现我们想要找的数据极有可能是在这里面,点击它的Headers,可以查找Request URL,这是我们要请求的URL 查看Payload的数据是’kw:anchor’,而Preview里面的数据有anchor,由此我们发现通过数据’kw:anchor’发送post请求就可以拿到包含anchor的数据 import pprint import requests#导入包 import os keywordinput(请输入要查询的词汇(输入空格退出):) urlhttps://fanyi.baidu.com/sug header{User-Agent: Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/126.0.0.0 Safari/537.36} data{kw: keyword } while keyword! :res requests.post(urlurl, headersheader, datadata)if res.json()[data]list( ):print(抱歉,没有您要查询的结果,请重新输入)else:pprint.pprint(res.json()[data][0][v])keyword input(请输入要查询的词汇(输入空格退出):)data {kw: keyword} os.system(pause)最终运行结果: 输入正确的单词,可以查出意思,输入错误的单词,并不能查到结果,根据程序返回没有查询结果,这样我们的一份小词典软件算是完成了 再次声明,以上内容仅供学习交流请勿用作其他用途
http://www.hkea.cn/news/14281348/

相关文章:

  • 怎么用腾讯云做网站家电网站设计
  • 台州宇洋台州网站建设企业邮箱登录入口
  • 阿里云网站建设最后什么样子花瓣网平面设计素材
  • 怎样注册自己网站优化百度涨
  • 制作网站需要多少时间wordpress 网站换域名
  • 网站域名攻击西宁互联网公司
  • 濮阳网站优化公司哪家好网站建设制作找哪家公司
  • 免费建设网站公司哪家好企业网站优化推广公司
  • 沧州做网站的公司网站开发组合 所有组合
  • 汉语国际网站建设域名续费一般多少一年
  • 网站建设几层结构昆明网站建设 技术支持
  • 规范机关单位网站建设杭州做网站怎么收费多少
  • 怎么快速建一个网站wordpress扒站教程
  • 做网站的需要什么要求广州引流推广公司
  • 网站建设公司赚钱株洲网站建设优化
  • 大兴做网站网站建设有哪种方式
  • dw做的网站要多大酒水包装设计公司
  • 废旧电脑做网站服务器wordpress 自动发布
  • 网站的运营方案房屋设计装修app
  • 域名注册了 如何做网站php旅游类网站开发毕业设计
  • 做网站配送地址怎么变换东莞市机电工程学校网站建设与管理
  • 中英网站怎么做小程序制作收款
  • 网站优化软件排行榜网站的pv uv
  • 做企业云网站的企业邮箱电子商务网站建设与管理教材评价
  • 广州专业做网站的公司手机中关村在线报价大全
  • 网站建设要代码有什么好处wordpress支付宝打赏
  • 积极参与网站信息建设工作个人网页代码html个人网页完整代码
  • 网站版面的美化原则wordpress 目录 导航站
  • 网站 网页数量logo设计 效果图
  • 怎么推广自己的网站链接集美那里有教网站建设