石家庄企业网站,wordpress 获取自定义字段值,企业形象,免费个人推广引流平台与开源和闭源模型相比#xff0c;InternVL 1.5 在 OCR、多模态、数学和多轮对话等 18 个基准测试中的 8 个中取得了最先进的结果。 上海AI Lab 推出的 InternVL 1.5 是一款开源的多模态大语言模型 (MLLM)#xff0c;旨在弥合开源模型和专有商业模型在多模态理解方面的能力差距… 与开源和闭源模型相比InternVL 1.5 在 OCR、多模态、数学和多轮对话等 18 个基准测试中的 8 个中取得了最先进的结果。 上海AI Lab 推出的 InternVL 1.5 是一款开源的多模态大语言模型 (MLLM)旨在弥合开源模型和专有商业模型在多模态理解方面的能力差距。 论文称InternVL 1.5 在四个特定基准测试中超越了 Grok-1.5V、GPT-4V、Claude-3 Opus 和 Gemini Pro 1.5 等领先的闭源模型特别是在与 OCR 相关的数据集中。 GPT-3.5研究测试
yeschat
GPT-4研究测试
Hello, LLMs
Claude-3研究测试全面吊打GPT-4
AskManyAI
论文用下面一张图非常生动地展示了他们为 达到 AGI 星球 所做的努力 图中主要涉及 InternVL 的三个改进1强视觉编码器为大规模视觉基础模型 InternViT-6B 探索了一种持续学习策略提高了其视觉理解能力并使其可以在不同的LLM中迁移和重用。2动态高分辨率根据输入图像的长宽比和分辨率将图像划分为1到40个448×448像素的图块最高支持4K分辨率输入。3高质量的双语数据集收集了高质量的双语数据集涵盖常见场景、文档图像并用英文和中文问答对进行注释显着提高了 OCR 和中文相关任务的性能。 总体的结构则是采用与流行的多模态大模型类似的 ViT-MLP-LLM 架构通过MLP映射器将预训练好的InternViT-6B与InternLM2-20b结合在一起。同时还使用一个简单的Pixel Shuffle 技巧将视觉标记的数量减少到四分之一。
对于动态高分辨率研究人员则是从预定义的比例中动态匹配最佳宽高比将图像划分为448×448像素大小的块并为全局上下文创建缩略图。该方法最大限度地减少了纵横比失真并在训练期间适应不同的分辨率。 ▲图4.动态分辨率。
在训练过程中视觉标记的数量范围为 256 到 3,328。在测试过程中图块数量最多可以增加到 40 个从而产生 10,496 个视觉标记从而实现最高4K分辨率的输入。
论文中也提供了模型在预训练和微调阶段使用的各类任务以及对应的数据集并且都是公开数据集。为了构建大规模 OCR 数据集研究人员还利用 PaddleOCR 对 Wukong 数据集的图像执行中文 OCR对 LAION-COCO 数据集的图像执行英文 OCR。 ▲图5.(a) 预训练阶段使用的数据集 ▲图5.(b) 微调阶段使用的数据集。
而InternVL 1.5 的具体性能表现如何如下图所示InternVL 1.5 在大多数基准测试中都表现出领先的性能 ▲图6.在 16 个多模式基准上与 SoTA 模型进行比较。
与 TextMonkey、DocOwl-1.5 和 LLaVA-NeXT 等其他开源模型相比InternVL 1.5 在这些基准测试中显着缩小了与专有模型的差距。
然而虽然 InternVL 1.5 超越了 MM1并且在 MMMU 上与 Gemini Pro 1.0 相当但它比其前身 InternVL 1.2 略有下降。作者也对此进行了分析并称这可以被认为是适当的降低且可以归因于语言模型规模较小这种现象也可以在下图中的 MMT-Bench 结果中观察到。 ▲图7. 在ConvBench和MMT-Bench上与SoTA模型的比较。
针对InternVL在不同分辨率下的性能研究人员也进行了实验。论文称尽管在训练期间仅使用 1 到 12 个图块但可以在测试期间将零样本任务扩展到 40 个图块即4K分辨率。
但是作者也发现并不是所有任务都需要高分辨率从图8来看与 OCR 相关的任务例如 DocVQA、InfoVQA、TextVQA 和 OCRBench受益于分辨率的提高而 AI2D、MMMU、MMBench 和 HallusionBench 等任务在更高分辨率下表现出轻微下降。 ▲图8.不同图像分辨率下 InternVL 1.5 性能的比较。X 轴代表图块数量Y 轴代表基准性能。最高值及其相应的图块数量会突出显示。
总体而言InternVL 1.5 对动态分辨率表现出很强的鲁棒性。它可以根据每项任务的具体要求调整分辨率确保在高分辨率有利的情况下实现最佳性能在不利于高分辨率的情况下节省资源。
为了充分践行自己对标 GPT-4V的目标论文中的 General QA、OCR-related QA、科学理解、中国传统文化、目标定位、多图像对话的示例上均与 GPT-4V进行对比蓝色字体显示出色的答案而红色字体显示错误的答案。
为了方便读者阅读如果非中文下面的蓝色或红色字体的部分均进行中文翻译。 ▲General QA 的示例。 ▲OCR-related QA 示例。 ▲科学理解的例子。 ▲中国传统文化的范例。蓝色突出显示了出色的答案 ▲目标定位的示例。 ▲多图像对话示例。
最后我们也可以在官方demo中进行试玩 https://internvl.opengvlab.com 不得不说这个效果真的很惊喜不过也存在一些问题比如说当用 InternVL 1.5 的 arxiv 首页询问的时候它居然杜撰了自己的作者看来多模态大模型上的幻觉问题也要赶紧着手研究了~