网站免费视频,网站建设制作公司知道万维科技,做影视类短视频的资源网站,网站建设是广告么本文旨在以简单的方式解释 Visual NLP 的关键概念#xff0c;让你了解 Visual NLP 的含义、它的用例是什么、如何使用它以及为什么它是构建自动提取管道的未来 。 NSDT在线工具推荐#xff1a; Three.js AI纹理开发包 - YOLO合成数据生成器 - GLTF/GLB在线编辑 - 3D模型格式在…本文旨在以简单的方式解释 Visual NLP 的关键概念让你了解 Visual NLP 的含义、它的用例是什么、如何使用它以及为什么它是构建自动提取管道的未来 。 NSDT在线工具推荐 Three.js AI纹理开发包 - YOLO合成数据生成器 - GLTF/GLB在线编辑 - 3D模型格式在线转换 - 可编程3D场景编辑器 1、什么是Visual NLP
NLP 的一个分支结合了视觉空间和布局特征和文档中存在的文本信息。 大多数经典的 NLP 问题都处理文本数据这些数据包含大量信息但仍然缺乏帮助我们区分文本内容和含义的视觉队列。
鉴于我们正处于像 ChatGPT、Bard、Claude 等人工智能LLM时代它们本质上是多模式的即接受图像和文本作为输入我们确实看到了这些系统的潜力。
转向 Visual NLP 的主要原因之一是需要对扫描文档进行信息提取。 目前IE 活动是通过将扫描文档转换为文本并在其上运行 NLP 来进行的。
现在让我们看看这种方法的局限性
由于文本表示不明确例如清晰度、字体等OCR 文本识别失败。不使用可能为文本增加价值的视觉图像。通过 OCR 转换为文本时表格数据会变得混乱。
添加视觉数据有助于克服此类挑战并为模型提供丰富的数据以更好地完成任务。
2、Visual NLP用例
Visual NLP 的一些用例包括
视觉文档分类使用文本空间特征图像视觉问答布局分析分析文档内容的空间排列以了解其结构和含义的过程。 这包括识别文本、图像、表格和其他元素的位置以及整体文档结构例如标题和副标题。关键信息提取从文档和其他视觉内容中提取关键信息的过程。 这可以包括姓名、日期、地点和金额等信息。图像字幕生成图像的文本描述的任务。表格检测识别和定位图像和文档中的表格的任务。表结构识别识别表的逻辑和物理结构的任务。 表的逻辑结构是指表中不同单元格之间的关系例如哪些单元格属于同一标题行或列。 表格的物理结构是指表格的布局例如边框的位置和单元格之间的间距。
下面是如何利用 Visual NLP 力量的一些示例。
2.1 从扫描收据中提取关键信息
此任务的目的是从给定收据中提取多个关键字段的文本并将每个收据图像的文本保存在 json 文件中。 我们对 Donut 模型进行了微调以从扫描的发票收据中提取公司、地址、日期、总计等实体。 事实数据如下
{
company: BOOK TA .K (TAMAN DAYA) SDN BHD,
date: 25/12/2018,
address: NO.53, TAMAN DAYA, 81100 JOHOR BAHRU, JOHOR.,
total: 9.00
}
该模型能够学习直接从图像中提取这些实体。 当考虑真实情况和预测文本完全匹配的正确实例时我们能够获得约 60% 的准确率。
2.2 视觉质量检查
此任务的目的是从图像中生成给定问题的答案。 我们针对此任务对 Donut 模型进行了微调。 事实数据如下所示
{
gt_parses: [{question: what is AGE?, answer: 30}, {question: what is GENDER?, answer: Female}, {question: what is DATE?, answer: 2023-01-07}
]
}
该模型能够学习直接从图像生成答案。
一些可以通过HuggingFace使用的Visual NLP模型
DonutPix2StructLayoutLMDiT
在上面的示例中我们使用 Donut 作为起点来展示 Visual NLP 系统的功能但你可以使用上述任何模型。
3、基于 Visual NLP 的自动化信息提取流程
上述示例展示了当前 Visual NLP 系统的明显潜力以及为什么该研究领域将成为自动提取管道的未来。
视觉 NLP 是一个快速发展的领域有可能彻底改变我们处理和理解信息的方式。 通过结合视觉和文本特征视觉 NLP 模型可以克服传统 NLP 模型的局限性从更广泛的来源包括扫描文档提取更准确、更全面的信息。
随着视觉 NLP 领域的不断成熟我们可以期待看到更多创新和突破性的应用程序出现。 例如视觉 NLP 可用于开发能够理解和索引文本和图像的新搜索引擎或者创建新型教育工具通过结合视觉和文本信息来帮助学生更有效地学习。 原文链接Visual NLP简明教程 - BimAnt