如何向搜索引擎提交网站,报考二级建造师证需要什么条件,长春市网站建设,wordpress登录页定制目录 预览效果安装下载模型测试代码总结 欢迎关注 『python爬虫』 专栏#xff0c;持续更新中 欢迎关注 『python爬虫』 专栏#xff0c;持续更新中 预览效果
支持转化pdf的表格 安装
Docling 本身是专注于文档转换的工具#xff0c;通常用于将文件#xff08;如 PDF持续更新中 欢迎关注 『python爬虫』 专栏持续更新中 预览效果
支持转化pdf的表格 安装
Docling 本身是专注于文档转换的工具通常用于将文件如 PDF转换为其他格式如 Markdown
要求python3.11版本
pip install docling下载模型
第一次运行需要下载外网的模型,需要tz保证网络通畅,否则会一直飘红报错可能需要较长时间计算分析,尤其是你没有GPU 使用CPU的情况
Fetching 9 files: 100%|██████████| 9/9 [00:0000:00, 15840.85it/s]
Neither CUDA nor MPS are available - defaulting to CPU. Note: This module is much faster with a GPU.测试代码
from docling.document_converter import DocumentConverter# 第一次运行需要下载外网的模型,需要tz保证网络通畅# 外网pdf论文
# source https://arxiv.org/pdf/2206.01062 # document per local path or URL# 可以是网页
# source https://blog.csdn.net/u011027547/article/details/143885170 # document per local path or URL# 可以是pdf
source https://www.gov.cn/zhengce/zhengceku/2022-11/12/5726417/files/b0d97070c0674ab0a1dec4ccd45dd726.pdf # document per local path or URL# 初始化 DocumentConverter
converter DocumentConverter()# 执行转换
result converter.convert(source)# 获取转换后的 Markdown 内容
markdown_content result.document.export_to_markdown()# 保存到 .md 文件
with open(source.split(/)[-1].md, w, encodingutf-8) as md_file:md_file.write(markdown_content)print(Markdown 文件已保存为 source.split(/)[-1].md)总结
大家喜欢的话给个点个关注给大家分享更多计算机专业学生的求学之路
版权声明
发现你走远了mzh原创作品转载必须标注原文链接
Copyright 2023 mzh
Crated2023-3-1 欢迎关注 『python爬虫』 专栏持续更新中 欢迎关注 『python爬虫』 专栏持续更新中 『未完待续』