当前位置：首页 > news >正文

网站数据采集怎么做广告建设网站

news 2026/4/16 0:50:36

网站数据采集怎么做,广告建设网站,网站模块化,通付盾网站公司建设python爬虫以下内容仅供学习交流,请勿用作其他用途,若涉及隐私和版权问题,请及时联系我删除闲来无事,学了学爬虫小知识,适合入门,文笔拙劣,还望见谅爬虫是什么: 爬取网页上的文字,图片,视频,音频自动化操作浏览器,比如填写表单,打卡,提高工作效率爬虫的注意事项: 爬虫…python爬虫以下内容仅供学习交流,请勿用作其他用途,若涉及隐私和版权问题,请及时联系我删除闲来无事,学了学爬虫小知识,适合入门,文笔拙劣,还望见谅爬虫是什么: 爬取网页上的文字,图片,视频,音频自动化操作浏览器,比如填写表单,打卡,提高工作效率爬虫的注意事项: 爬虫前阅读robots.txt 注意遵守相关法律规定反爬:防止爬虫程序对网站数据就行爬取反反爬:破解网站中的反爬机制,获取相关数据什么是HTTP协议: HTTP协议:HyperText Transfer Protocol,超文本传输协议,发布和接收HTML的协议,服务器端口号:80端口 HTTPS协议:HTTP协议的加密版本,在HTTP下加入了SSL层,服务器端口号:443我们平时输入网址时不需要手动输入端口号,浏览器会自动识别,例如下图,CSDN使用的是HTTPS协议,我们可以手动输入:443,按下回车,仍可访问网页输入错误的端口号,会加载失败,例如我们输入:80,会显示响应无效什么是URL: URL:Uniform Resource Locator,统一资源定位符 scheme://host:port/path/?query-stringxxx#anchor scheme:访问的协议,常见的协议:http,https,ftp host:主机名,域名,比如www.taobao.com port:端口号,默认80或443 path:查找路径,sz.58.com/chuzu ,这里的chuzu就是path query-string:查询字符串,www.baidu.com/s?wdpython,后面的wdpython就是查询字符串 anchor:锚点,前端用作页面定位用的,现在一些前后端分离项目,也用锚点来做导航常见请求方法: Requests Method:HTTP协议定义了8种请求方法,最常用的四种请求方法GET, POST, PUT, DELETE, 剩下四种不常用的请求方法:HEAD、‌OPTIONS、‌TRACE和CONNECT,下面介绍一下get请求和post请求 get请求:一般情况下,只从服务器获取数据下来,并不会对服务器资源长生任何影响的时候会使用get请求 post请求:向服务器发送数据(登录),上传文件.会对服务器资源产生影响的时候使用post请求如何查看请求方式打开浏览器,进行网页搜索,单击鼠标右键,选择最下方的检查 ①选择Network ②刷新网页 ③选择第一个文件,点击后就可以查看请求方法是“GET 登录界面通常会产生POST请求,随便输入账号试一试,显示的是”POST“请求请求头参数: User-Agent:浏览器名称,网络爬虫中经常使用到,请求一个网页时,服务器通过这个参数就可以知道是哪种服务器发送的通过爬虫发送的请求,User-Agent是Python,为了避免反爬,通常设置为一些浏览器的值来伪装爬虫Referer:表明当前这个请求从哪个url过来的,对于反爬中,如果不是从指定页面过来的,那么就不做相关的响应Cookie:http协议是无状态的,一个人发送了两次请求,服务器没有能力知道这两个请求是否来自同一个人,因此用cookie来做标识,一般想要做登录后才能访问的网站,那么就需要发送cookie信息在Network中的headers中可以查看User-Agent,Referer和Cookie 状态响应码: 状态响应码:Response Code 200:请求正常,服务器正常的返回数据 301:永久重定向,访问www.jingdong.com的时候会重定向到www.jd.com 302:临时重定向,访问一个需要登录的页面的时候,而此时没有登录,那么就会重定向到登录页面 400:请求的url在服务器找不到,即请求url错误 403:服务器拒绝访问,权限不够,或者是被反爬了 500:服务器内部错误,可能是服务器出现bug了,或者宕机了状态响应码的详解请看这篇文章:https://blog.csdn.net/2202_75922690/article/details/137112746 爬虫小尝试: request网页采集需要在pycharm中安装requests模块 #request网页采集 import requests keywordinput(请输入搜索关键词:)#指定url urlfhttps://www.baidu.com/s?tn15007414_15_dgieutf-8wd{keyword} #header要在自己电脑浏览器中找不是用别人的代码 header{User-Agent:Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/126.0.0.0 Safari/537.36}#网络请求,获得响应 reponserequests.get(urlurl,headersheader) print(reponse.text) #写入文件中,在本地找到然后打开就是网页 with open(keyword.html,w,encodingutf-8) as f:f.write(reponse.text)print(f已下载...{keyword})打开保存的文件在浏览器中打开,如图: post请求爬取翻译需要用到的模块:import requests,import pprint 这是动态加载的,当我们输入查询词汇时,发送的是post请求,传回来数据,由于是post请求,需要找到ajax数据,因此要点击Fetch/XHR进行查找输入单词anchor,进行查找,注意到sug有好几个,点击第一个sug,发现单词是’a’,点击第二个sug,发现单词是’an’,第三个sug是’anc’,一直到最后一个sug是’anchor’,我们可以发现我们想要找的数据极有可能是在这里面,点击它的Headers,可以查找Request URL,这是我们要请求的URL 查看Payload的数据是’kw:anchor’,而Preview里面的数据有anchor,由此我们发现通过数据’kw:anchor’发送post请求就可以拿到包含anchor的数据 import pprint import requests#导入包 import os keywordinput(请输入要查询的词汇(输入空格退出):) urlhttps://fanyi.baidu.com/sug header{User-Agent: Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/126.0.0.0 Safari/537.36} data{kw: keyword } while keyword! :res requests.post(urlurl, headersheader, datadata)if res.json()[data]list( ):print(抱歉,没有您要查询的结果,请重新输入)else:pprint.pprint(res.json()[data][0][v])keyword input(请输入要查询的词汇(输入空格退出):)data {kw: keyword} os.system(pause)最终运行结果: 输入正确的单词,可以查出意思,输入错误的单词,并不能查到结果,根据程序返回没有查询结果,这样我们的一份小词典软件算是完成了再次声明,以上内容仅供学习交流请勿用作其他用途

查看全文

http://www.hkea.cn/news/14281348/