当前位置: 首页 > news >正文

seo优化工具使用教程东莞网站快速排名优化

seo优化工具使用教程,东莞网站快速排名优化,优设网网站,网站开发 百度云现需将pdf 转换至Excel #xff0c; 目前实现方式#xff1a;将PDF的TABLE部分与 非 TABLE部分分别导出至Excel两个sheet中 1#xff09;、识别PDF中的表格块 2#xff09;、将PDF转换为Word格式 3#xff09;、提取Word中非表格的文本数据 4#xff09;、对文本与表格重…现需将pdf 转换至Excel 目前实现方式将PDF的TABLE部分与 非 TABLE部分分别导出至Excel两个sheet中 1、识别PDF中的表格块 2、将PDF转换为Word格式 3、提取Word中非表格的文本数据 4、对文本与表格重复的行进行去重 5、合并导出至Excel不同sheet页中 # codingUTF8 import datetime from docx import Document from pdf2docx import Converter import pandas as pd import numpy as np import pdfplumber import os import fitz# TODO 输出PDF表格数据至Excel def extractTables(filepath):with pdfplumber.open(filepath) as pdf:tables []for i in range(0, len(pdf.pages)):page pdf.pages[i]tables.append(page.extract_tables())df pd.DataFrame()df_seperation pd.DataFrame([np.nan, np.nan]) # 创建空白的用于充当分隔行for i in range(0, len(tables)):tabular tables[i] # 选取第i页的表格if len(tabular) 0: # 如果该页存在表格的话for j in range(0, len(tabular)): # j 表示第几个表格df_temp pd.DataFrame(tabular[j])df pd.concat([df, df_seperation, df_temp]) # 更新总表格return df# TODO pdf 转Word def extractWord(pdffilepath, wordfilepath):cv Converter(pdffilepath)cv.convert(wordfilepath)cv.close()# TODO 获取非表格内容 def getDocLines(wordfilepath):doc Document(wordfilepath)paragraphs doc.paragraphslines []for paragraph in paragraphs:line paragraph.text.strip()if not line:continuelines.append(line)# aspose用的体验板带有页眉# lines lines[100:]# print(lines)df pd.DataFrame(lines)return df# TODO 删除与table重复的行数据 def txt(tabledf, txtdf):lines []for line in tabledf[0]:lines.append(str(line))# 获取txt与Excel重复的数据repeat_txt []for line in lines:for txt in txtdf[0]:if line.find(txt) ! -1:repeat_txt.append(txt)txtdf txtdf.drop(txtdf[txtdf[0] txt].index)return txtdfif __name__ __main__:filepath D:\develop_python\Python_Demo\PDF_TO_EXCEL\YM2021\\outpath D:\develop_python\Python_Demo\PDF_TO_EXCEL\YM2021\\pdffile 南通-2.21pdffilepath filepath str(pdffile) .pdfexcelfilepath filepath str(pdffile) .xlsxwordfilepath filepath str(pdffile) .docx# 获取PDF表格数据try:starttime datetime.datetime.now()print(执行开始, starttime)if not os.path.exists(outpath):os.makedirs(outpath)print()print(正在读取表格数据........)tabledf extractTables(pdffilepath)print(表格数据读取完成........)print()print(正在转换Word......)extractWord(pdffilepath, wordfilepath)print(Word转换完成......)print()print(正在解析非表格文本数据......)txtdf getDocLines(wordfilepath)# 删除与table重复的行数据df txt(tabledf, txtdf)print(非表格数据解析完成......)print()print(正在输出Excel文件......)writer pd.ExcelWriter(excelfilepath)tabledf.to_excel(writer, sheet_nameEXCEL, indexFalse)# txtdf.to_excel(writer, sheet_nametxt, indexFalse)df.to_excel(writer, sheet_nametxt, indexFalse)writer.save()print(Excel文件输出成功......)print()endtime datetime.datetime.now()print(执行结束, endtime)print(耗时, endtime - starttime)except Exception as e:print(Exception, e.args)
http://www.hkea.cn/news/14425529/

相关文章:

  • 萍乡商城网站建设环保企业网站模板
  • 做网站每年需要多少维护费免费ai写作网站3000字
  • 电商网站统计怎么做学校网站建设先进事迹
  • 网站建设与维护报告总结做网站的收益在哪
  • 律师个人 网站做优化网站规划要点
  • 全国企业信用信息查询网站wordpress改为邮箱验证注册
  • 阿里云建站视频简约网站欣赏
  • 颍上建设网站黑龙江省住房与建设厅网站
  • 手机怎么做网站卖东西免费提供网站建设
  • 郑州外贸营销网站建设网站上线注意问题
  • 阐述商业网站开发岗位需求分析cms网站系统
  • 姑苏区建设局网站wordpress 验证百度网盟
  • 昆明网站seo外包百度贴吧网站开发需求分析
  • 网上移动厅官方网站上海专业做网站公司有哪些
  • 中国建设银行分行网站微信商城怎么弄
  • 如何学习网站建设互联网项目推广平台有哪些
  • 宝塔面安装wordpress网站优化效果怎么样
  • 一个虚拟主机多个网站视频微网站开发
  • 网站怎么添加百度地图无极限网站模板
  • 做网站销售这几天你有什么想法星沙网站建设公司
  • 青岛即墨网站建设做网站水印
  • 如何在电子表格上做网站的连接制作网站首先做的是
  • 可以做翻译兼职的网站有哪些农业推广学
  • 品牌设计前景如何seo标签优化方法
  • 做网站难吗网站平台网站怎么做
  • 重庆网站建设seo银川网站建设哪家优
  • 建立一个网站英语样式模板网站
  • 海东高端网站建设公司温州建设管理处网站
  • 无锡网站设计网站网站推广计划渠道
  • 哪一家做网站好网站备案之后