当前位置: 首页 > news >正文

网站还在建设中优秀网络小说

网站还在建设中,优秀网络小说,大庆建设工程交易中心网站,海报设计分析前言 #xff08;结尾有彩蛋欧#xff09; 目前#xff0c;许多网站采取各种各样的措施来反爬虫#xff0c;其中一个措施便是使用验证码。随着技术的发展#xff0c;验证码的花样越来越多。验证码最初是几个数字组合的简单的图形验证码#xff0c;后来加入了英文字母和混…前言 结尾有彩蛋欧         目前许多网站采取各种各样的措施来反爬虫其中一个措施便是使用验证码。随着技术的发展验证码的花样越来越多。验证码最初是几个数字组合的简单的图形验证码后来加入了英文字母和混淆曲线。有的网站还可能看到中文字符的验证码这使得识别愈发困难。         后来 12306 验证码的出现使得行为验证码开始发展起来用过 12306 的用户肯定多少为它的验证码头疼过。我们需要识别文字点击与文字描述相符的图片验证码完全正确验证才能通过。现在这种交互式验证码越来越多如极验滑动验证码需要滑动拼合滑块才可以完成验证点触验证码需要完全点击正确结果才可以完成验证另外还有滑动宫格验证码、计算题验证码等。         验证码变得越来越复杂爬虫的工作也变得愈发艰难。有时候我们必须通过验证码的验证才可以访问页面。本章就专门针对验证码的识别做统一讲解。 接下来会涉及的验证码有普通图形验证码、极验滑动验证码、点触验证码、微博宫格验证码这些验证码识别的方式和思路各有不同。了解这几个验证码的识别方式之后我们可以举一反三用类似的方法识别其他类型验证码。 环境使用 python 3.9pycharm 图形验证码的识别 我们首先识别最简单的一种验证码即图形验证码。这种验证码最早出现现在也很常见一般由 4 位字母或者数字组成。例如某某网站的注册页面有类似的验证码。 一般来说表单的最后一项就是图形验证码我们必须完全正确输入图中的字符才可以完成注册和登录。 1. 本节目标 以某网站的验证码为例讲解利用 OCR 技术识别图形验证码的方法。 2. 准备工作 识别图形验证码需要库 tesserocr。本文文末有安装教程。 3. 获取验证码 为了便于我们的实验测试我们先将验证码的图片保存到本地。 打开开发者工具找到验证码元素。验证码元素是一张图片它的 src 属性是 CheckCode.aspx。可以看到一个验证码右键保存即可将其命名为 yzm.jpg。 这样我们就可以得到一张验证码图片以供测试识别使用。 4. 识别测试 接下来新建一个项目将验证码图片放到项目根目录下用 tesserocr 库识别该验证码代码如下所示 import tesserocr from PIL import Imageimage Image.open(yzm.jpg) result tesserocr.image_to_text(image) print(result) 在这里我们新建了一个 Image 对象调用了 tesserocr 的 image_to_text() 方法。传入该 Image 对象即可完成识别实现过程非常简单结果如下所示JR42。是不是很神奇。 5.验证码处理 接下来我们换一个验证码将其命名为 code2.jpg 重新运行上面的代码输出FFKT。 这次识别和实际结果有偏差这是因为验证码内的多余线条干扰了图片的识别。 对于这种情况我们还需要做一下额外的处理如转灰度、二值化等操作。我们可以利用 Image 对象的 convert() 方法参数传入 L即可将图片转化为灰度图像代码如下所示 image image.convert(L)image image.convert(1)image.show() 我们还可以指定二值化的阈值。上面的方法采用的是默认阈值 127。不过我们不能直接转化原图要将原图先转为灰度图像然后再指定二值化阈值代码如下所示 image image.convert(L) threshold 80 table [] for i in range(256):if i threshold:table.append(0)else:table.append(1)image image.point(table, 1) image.show() 运行之后就会得到我们想要的处理结果。而且我们发现原来验证码中的线条已经去除整个验证码变得黑白分明。这时重新识别验证码再次运行上面的代码就可以得到我们要的验证码。         那么针对一些有干扰的图片我们做一些灰度和二值化处理这会提高图片识别的正确率。  tesserocr库安装 在这里我和大家简单介绍一下这个库的安装教程。 1.tesseract软件的安装 在win10下安装tesseract可以进入该网址进行下载 https://digi.bib.uni-mannheim.de/tesseract/ 其中文件名中带有dev的为开发版本不带dev的为稳定版本可以选择下载不带dev的版本。例如可以选择下载tesseract-ocr-win64-setup-v5.3.0.20221214.exe。         下载完成后打开下载文件其中可以勾选Additional language data(download)选项来安装OCR识别支持的语言包以便OCR识别多国语言。(也可以在选项中只勾选chinese) 2.环境配置 在系统变量里修改path添加你安装tesserocr的路径。在系统变量里创建一个新的变量名为:TESSDATA_PREFIX值为:D:\Program Files(X86)\Tesseract-OCR\tessdata(根据自己安装的tesserocr安装路径为准)。 3、安装tesseracr包 - 尝试pip安装 pip install tesserocr - 如果不成功则尝试通过.whl文件安装。 下载地址https://github.com/simonflueckiger/tesserocr-windows_build/releases 这里就不介绍whl怎么安装的了不会的私信评论。 TIP: tesserocr也只是识别手段的一种如果需要高精度的识别可以尝试TensorFlow实现深度学习模型通过训练模型来识别图形验证码。 哈喽大家好为了回馈粉丝长久以来的支持博主决定开始给大家送福利了。在爬虫时网上的免费代理IP不好用怎么办不要慌[鬼脸]我给大家争取到了一个福利点击下面链接即可免费领取七天测试         http://suo.nz/2zmKBG         白嫖不要不要的
http://www.hkea.cn/news/14409556/

相关文章:

  • dz论坛网站源码seo高级优化方法
  • 保定模板建站哪家好商城服务是什么平台
  • 网站建设合同 知乎京东网站推广方式
  • 提供企业网站建设公司义乌建设公司网站
  • 承德建设网站楼盘动态
  • 网站建设与管理内容网站开发任务分解
  • 秦皇岛金洋建设集团网站网站模板 餐饮
  • 佛山 建站公司佛山企业网站设计公司
  • 山东省旅游网站建设查关键词热度的网站
  • 烟台外贸网站建设长沙做网站公司 上联网络
  • 做自己的网站可以赚钱吗服装时尚网站
  • 南京凯盛建设集团有限公司网站网站推广策划评估指标有哪些
  • 如何介绍设计的网站模板网站修改图片链接
  • 平面设计素材网站知乎北京朝阳区房租
  • 荆门城乡建设局网站微网站功能列表
  • 专业的移动网站建设成都建设网站费用
  • 网站内页标题怎么填阿里云服务器添加网站
  • cgi做网站咋把网站制作成软件
  • 企业网站中文域名有必要续费吗wordpress多级分销插件
  • 北京朝阳区做网站十大代理记账公司
  • 网站的pv是什么找人做效果图那个网站
  • 做游戏用什么电脑系统下载网站好太原网页设计公司
  • 怎么优化自己公司的网站电子商务网站的开发流程
  • ie建设企业网站进去无法显示做关于星空的网站
  • 海阔天空网站建设电商平台设计
  • wordpress去掉侧边栏网站建设优化现状图表
  • 电子商城网站制作海南公司网站建设哪家快
  • 网站开发应用到的技术名词基于dijango的网站开发
  • 平面网站模版秦皇岛十大必去景点
  • 网站空间ip需不需要备案火车头采集器wordpress下载