当前位置: 首页 > news >正文

建筑网站大全免费电子商务解决方案

建筑网站大全免费,电子商务解决方案,网站维护企业,wordpress添加新浪微博0x00 背景 文档中敏感信息识别。不限于word, pdf 等文件格式中的敏感信息及其中的图片敏感信息识别。 0x01 识别原理 以word文档为例 .docx文件有很多种结构#xff0c;这些结构在python-docx中用3种不同的类型来表示#xff1a;最高一层是Document对象表示文档#xff0…0x00 背景 文档中敏感信息识别。不限于word, pdf 等文件格式中的敏感信息及其中的图片敏感信息识别。 0x01 识别原理 以word文档为例 .docx文件有很多种结构这些结构在python-docx中用3种不同的类型来表示最高一层是Document对象表示文档每个Document对象包含一个Paragraph 对象也就是段落组成的列表而每个Paragraph对象则包含一个Run对象的列表 一个Run对象是具有相同格式的文本当发生变化的时候就需要一个新的Run对象 个人觉得读取全部文档信息然后用正则匹配效率比较高。 word 或 pdf 里面有图片的情况涉及到数字图像处理技术。(图片里的敏感信息) 0x02 实现 用到一个库 python-docx #!pip install python-docx - -userimport docx import osprint(os.getcwd()) file docx.Document(test.docx)# test.docx #经测试还得是个docx文档doc不行 Test数据匹配数据TestTest 敏感信息print(打印文件行数 str(len(file.paragraphs))) print(打印第1行: file.paragraphs[0].text) print(打印第1行长度: str(len(file.paragraphs[0].runs))) print(打印第3行长度: str(len(file.paragraphs[2].runs))) print(打印第5行长度: str(len(file.paragraphs[4].runs))) print(打印第7行长度: str(len(file.paragraphs[6].runs))) # 空格注意for i in range(2):print(file.paragraphs[0].runs[i].text) # 只有len 2print(----------)for i in range(3):print(file.paragraphs[6].runs[i].text) # 只有len 3/4print(----------)# 看样子是根据大小写等样式来区分段落的def getText(fileName):doc docx.Document(fileName)TextList []for paragraph in doc.paragraphs:TextList.append(paragraph.text)return \n.join(TextList)fileName rtest.docx print(getText(fileName)) test.docx 内容如下 Test数据匹配数据TestTest 敏感信息 我在不同的电脑打印每一行长度有些不同不清楚是否跟word版本以及word 版本内置的字体有关。而且只支持docx暂不支持doc。 打印结果如下 打印文件行数7 打印第1行: Test 数据 打印第1行长度: 2 打印第3行长度: 1 打印第5行长度: 1 打印第7行长度: 3 Test  数据 ---------- T est  敏感信息 ---------- Test数据匹配数据TestTest 敏感信息 而在专业版word上执行结果是 : 打印第1行长度: 2 打印第3行长度: 1 打印第5行长度: 2 打印第7行长度: 4 细节问题暂没时间深究猜测和系统默认字体有关理由是在pycharm打开docx文档默认字体不同一个是英文字体一个是等线字体。 0x03 reference 【数据安全】一文读懂数据内容识别核心技术 – 绿盟科技技术博客 了解基于确切数据匹配的敏感信息类型 | Microsoft Learn   -- 微软EDM敏感信息识别 python使用docx模块读写docx文件的方法与docx模块常用方法_docx.document_癫疯时刻的博客-CSDN博客 用Python读写Word文档入门-腾讯云开发者社区-腾讯云 python解析并读取PDF文件函数总结_pypdf读取章节内容_满腹的小不甘的博客-CSDN博客 0x04 后记 python 识别pdf 中敏感信息见 reference 里的链接。python 识别pdf 推荐 pdfminer3k 或 pdfplumber 两个库。 由于时间关系本文写的略简洁敏感图片识别也没有介绍到后续如果有时间会继续修改完善本文。
http://www.hkea.cn/news/14463995/

相关文章:

  • 营销型网站建设实战深圳微网站建设公司
  • 北京网站建设分析论文微信开发者工具可视化怎么打开
  • 创维爱内购网站咸阳网站建设哪家好
  • 文化传媒网站php源码动漫网页制作
  • 企业怎么做网站做网站有必要?
  • 做网站赚钱平台葫芦岛高端网站制作
  • 永济市住房保障和城乡建设管理局网站wordpress 手动安装
  • 广西网站开发软件网站建设规划公司
  • 网站服务器 英文电子商务网页制作试题及答案
  • 毕业设计做网站怎么做怎么彻底删除2345网址导航
  • 垂直门户网站的盈利模式探讨国内免费自建网站
  • 焦作做网站推广活动营销方案
  • 政务网站建设原则福建 建设网站
  • 个性化网站好看的模板
  • 山东省建设工程质量监督网站做网站违法
  • 盐田高端网站建设网站建设页面设计规格
  • 北京网站建设 知乎wordpress 底部导航插件
  • 那里有正规网站开发培训学校视频营销发布平台包括
  • 西安网站制作的公司电脑系统做的好的网站好
  • 焦作网站建设公司哪家好wordpress缓存设置
  • 企业营销网站建设策划书wordpress grace 8.0
  • 智能家居网站建设方案购物网站首页模板下载
  • 网站开发关键技术郑州市
  • 国外免费搭建网站源码广州做企业网站找哪家公司好
  • 怎么用h5网站做动效河北seo推广方法
  • 温岭营销型网站建设深圳市知名广告公司
  • 芗城网站建设深圳餐饮网站建设
  • 郴州网站建设的公司推蛙网络
  • 哪个网站可以接做美工的活儿网站开发最适合的浏览器
  • 建立网站有哪些步骤如何制作公司网站和网页