当前位置: 首页 > news >正文

哪里有南宁网站建设关于实施公司网站建设的请示

哪里有南宁网站建设,关于实施公司网站建设的请示,房产网站模板程序,新手做网站免费教程提取PDF内容的Python库有多种选择#xff0c;每个库都有其独特的优缺点。以下是一些常用的库以及它们的优缺点和示例代码#xff1a; pdfplumberPyMuPDF (fitz)PyPDF2PDFMinerCamelot 1. pdfplumber 优点#xff1a; 易于使用#xff0c;提供简单直观的API。能提取文本…        提取PDF内容的Python库有多种选择每个库都有其独特的优缺点。以下是一些常用的库以及它们的优缺点和示例代码 pdfplumberPyMuPDF (fitz)PyPDF2PDFMinerCamelot 1. pdfplumber 优点 易于使用提供简单直观的API。能提取文本、表格和图像。提供对文本进行后处理的工具如文字搜索、行识别等。支持多页PDF文件。 缺点 对于复杂的PDF文件提取效果可能不如其他库。速度相对较慢。 示例代码 假设我们有一个PDF文件 example.pdf内容包括文本和表格。 import pdfplumber import pandas as pdpdf_path example.pdf data []with pdfplumber.open(pdf_path) as pdf:for page in pdf.pages:text page.extract_text()if text:print(fPage {page.page_number}:)print(text)# Extract tablestables page.extract_tables()for table in tables:df pd.DataFrame(table[1:], columnstable[0])data.append(df)print(df)# Combine all tables into a single DataFrame if data:all_tables pd.concat(data)print(All extracted tables:)print(all_tables)2. PyMuPDF (fitz) 优点 性能高速度快。支持文本、图像、注释等多种元素的提取。提供PDF文档的修改和操作功能如添加文本、图像、注释等。 缺点 文档和示例较少。对于新手来说可能有点复杂。 示例代码 import fitz # PyMuPDFpdf_path example.pdf document fitz.open(pdf_path)for page_num in range(document.page_count):page document.load_page(page_num)text page.get_text()print(fPage {page_num 1}:)print(text)# Extract imagesfor img in page.get_images():xref img[0]base_image document.extract_image(xref)image_bytes base_image[image]with open(fimage_{page_num 1}_{xref}.png, wb) as image_file:image_file.write(image_bytes)print(fExtracted image from page {page_num 1}, image reference {xref})3. PyPDF2 优点 易于合并、拆分、旋转PDF文件。轻量级依赖少。支持加密和解密PDF文件。 缺点 对于文本提取和处理的支持较弱。不支持图像提取。 示例代码 import PyPDF2pdf_path example.pdf with open(pdf_path, rb) as file:reader PyPDF2.PdfFileReader(file)for page_num in range(reader.numPages):page reader.getPage(page_num)text page.extract_text()print(fPage {page_num 1}:)print(text)# Example: Merging two PDFs merger PyPDF2.PdfFileMerger() merger.append(example1.pdf) merger.append(example2.pdf) merger.write(merged.pdf) merger.close()# Example: Splitting a PDF input_pdf PyPDF2.PdfFileReader(example.pdf) output_pdf PyPDF2.PdfFileWriter() for page_num in range(input_pdf.numPages // 2):output_pdf.addPage(input_pdf.getPage(page_num)) with open(split.pdf, wb) as output_file:output_pdf.write(output_file)4. PDFMiner 优点 非常强大的文本提取功能。支持复杂的PDF结构。提供详细的PDF文档解析功能。 缺点 相对复杂不易上手。速度较慢。 示例代码 from pdfminer.high_level import extract_text from pdfminer.high_level import extract_text_to_fp import iopdf_path example.pdf# Extract text to a string text extract_text(pdf_path) print(text)# Extract text to a file-like object output_string io.StringIO() with open(pdf_path, rb) as file:extract_text_to_fp(file, output_string) print(output_string.getvalue())5. Camelot 优点 专门用于从PDF文件中提取表格。提供了流模式和Lattice模式处理不同类型的表格。生成的表格可以方便地转换为pandas DataFrame。 缺点 只适用于表格提取不支持其他类型的PDF内容提取。依赖于第三方工具如Ghostscript。 示例代码 import camelotpdf_path example.pdf tables camelot.read_pdf(pdf_path, flavorstream) # Use stream for stream mode, lattice for lattice modefor table in tables:print(fTable on page {table.page}:)print(table.df) # DataFrame of the extracted table# Save tables to a CSV file for i, table in enumerate(tables):table.to_csv(ftable_{i}.csv)总结 pdfplumber 是一个易于使用的库适用于一般的PDF文本和表格提取特别适合处理表格。PyMuPDF (fitz) 性能强大且速度快适合需要高效处理的场景特别是需要处理图像和注释的PDF文档。PyPDF2 适用于PDF文件的合并、拆分和旋转但文本提取功能较弱更适合处理PDF文档的结构而不是内容。PDFMiner 提供了最强大的文本提取功能适合处理复杂PDF结构但相对复杂且慢适合需要详细解析PDF内容的场景。Camelot 专用于表格提取适合处理PDF中的表格数据特别是在需要将表格数据转换为结构化数据时。 选择合适的库取决于具体需求和PDF文档的复杂性。如果只是需要提取文本和表格pdfplumber 和 Camelot 是不错的选择。如果需要高性能处理或处理图像和注释可以考虑 PyMuPDF (fitz)。如果需要处理复杂的PDF结构PDFMiner 是最强大的工具。而 PyPDF2 适合处理PDF文件的结构操作如合并和拆分。
http://www.hkea.cn/news/14320060/

相关文章:

  • 有没有好一点的网站做网站商城需要什么软件
  • 免费看电视的网站门户网站建设和管理情况
  • 免费音乐网站建设开发微信小程序步骤
  • 山东省建设职业教育集团网站网络科技公司怎么挣钱
  • 成都旅游景点排名前十濮阳网站优化公司哪家好
  • 廊坊哪里有做网站建设的腾讯企点多少钱一个
  • 网站干什么的WordPress用页面写文章
  • 网站建设推推蛙陕西网络推广公司
  • 河南省建设执业资格注册中心网站做社区网站
  • 即墨有做网站的吗有没有做php项目实战的网站
  • 长沙网页制作模板的网站wordpress 分类 id
  • 南京电信网站备案哈尔滨市人社app
  • 文章资讯类网站模板访问wordpress数据库
  • 网站在线建设方案dw做网站简单吗
  • dsicuz做的网站郑州做网站狼牙
  • 广东住房和城乡建设厅网站首页国外网络推广方法
  • 无锡网站排名团队网站推广 英文
  • 南京建设项目环评公示期网站html教程书
  • 中石化工建设宁波分公司网站2023年重启核酸
  • 宝安设计网站建设网站服务器管理维护
  • 天津哪家公司做公司网站常宁市城乡和住房建设网站
  • 电子商务类网站有哪些监利县建设局网站
  • 免费网站搭建平台wordpress 笔记插件下载
  • 成都建设网站 scgckjwordpress id3
  • 网站如何做分享开县做网站
  • 苏州微网站开发天眼企业查询系统
  • 昌吉建设局网站常用的博客建站程序
  • 网页建设与网站设计临清网站制作
  • 自己做网站如何盈利2023新闻摘抄10条
  • 网站开发团队组成东莞市建设小学网站