网站按钮确定后图片怎么做,如何给网站绑定域名,网站怎么做用qq登录接入,网站后台管理进入爬虫基本原理 爬虫基本流程拉取什么数据JavaScript渲染页面cookies爬虫代理检查robots.txt爬虫的攻与防 爬虫基本流程 • 获取网页源代码#xff1a;通过库来实现#xff0c;urllib#xff0c;requests等实现http请求 • 提取信息#xff1a;分析网页源代码#xff0… 爬虫基本原理 爬虫基本流程拉取什么数据JavaScript渲染页面cookies爬虫代理检查robots.txt爬虫的攻与防 爬虫基本流程 • 获取网页源代码通过库来实现urllibrequests等实现http请求 • 提取信息分析网页源代码提取数据如正则表达式beautiful souppyquerylxml等 • 保存数据保存为txtjson或数据库 拉取什么数据 • Html代码 • Json字符串api接口手机端大部分是这种数据格式 • 二进制文件图片音频视频等 • 各种扩展名的文件cssJavaScript各种配置文件等 JavaScript渲染页面 • 用urllib或requests抓取网页时得到的源代码和浏览器中看到的 不一样 • 越来越多的网页采用ajax、前端模块化工具来构建整个网页都JavaScript渲染出来的 • 需要分析ajax接口或使用selenium等库实现模拟JavaScript渲染 • 页面渲染 cookies • cookies在浏览器端在访问动态网页时候浏览器会自动附带上它发送给服务器服务器通过识别cookies并鉴定其是哪个用户判断其是否登录状态然后返回对应的响应 • cookies 爬虫代理 • 代理网络用户去取得网络信息 代理的作用突破自身IP访问限制访问团体内部资源提高访问 速度隐藏真实IP • 爬虫代理可以获得较好的爬取效果防止被封禁或输入验证码登录 检查robots.txt Robots协议也称为爬虫协议、机器人协议等的全称是“网络爬虫排除标准”Robots Exclusion Protocol网站通过Robots协议告诉搜索引擎哪些页面可以抓取哪些页面不能抓取 当一个搜索蜘蛛访问一个站点时它会首先检查该站点根目录下是否存在robots.txt如果存在搜索机器人就会按照该文件中的内容来确定访问的范围如果该文件不存在所有的搜索蜘蛛将能够访问网站上所有没有被口令保护的页面 豆瓣的robots.txt 爬虫的攻与防