当前位置：首页 > news >正文

制作一个链接网站软件开发培训机构费用

news 2026/4/28 8:42:12

制作一个链接网站,软件开发培训机构费用,广东珠海网站建设,凡科网站建设教程引言简介方法 Agent 框架 Agent 交互探索阶段部署阶段文档生成高级功能实验结果总结局限性未来工作 1. 引言大语言模型#xff08;LLM#xff09;如 ChatGPT 和 GPT-4 显著提升了自然语言处理能力#xff0c;并且推动了智能体在自主决策中的应用。… 引言简介方法 Agent 框架 Agent 交互探索阶段部署阶段文档生成高级功能实验结果总结局限性未来工作 1. 引言大语言模型LLM如 ChatGPT 和 GPT-4 显著提升了自然语言处理能力并且推动了智能体在自主决策中的应用。最初这些智能体专为基于文本的交互方式设计展现了卓越的表现包括记忆自适应性和多任务处理能力。然而现实世界的应用程序不仅仅局限于文本输入还涉及视觉和其他模态数据的处理这对传统智能体提出了挑战。为应对这一需求近年来涌现了多模态智能体如 AssistGPT、Vipergpt 和 Visual ChatGPT 等它们能够在复杂环境中执行多步骤推理、信息提取和集成并根据用户输入作出适应性响应。此前的工作如 AppAgent v1 和 MobileAgent 通过模拟人类的交互方式已经在智能手机应用程序中展示了较大的潜力。尽管如此准确识别图形用户界面仍然是多模态智能体面临的关键挑战。依赖视觉特征的传统方法往往因识别模型的局限性而不够准确。而移动环境的动态特性和频繁的应用更新也进一步加剧了这一挑战。即便是如 GPT-4 这样的先进模型在处理不熟悉的视觉元素时仍显不足尤其是在应对小众应用时。为了解决这些问题AppAgent v1 通过自动化探索和观看演示的方式增强了智能体的决策能力但其过于依赖现成的解析器限制了智能体在处理不标准界面元素时的灵活性。为此AppAgent v2 提出了一种新的多模态智能体框架扩展了动作空间使其能够更广泛地适应不同类型的应用程序和界面元素。 1. 简介随着多模态大语言模型MLLM的发展视觉智能体Agent正逐渐在软件界面中尤其是图形用户界面GUI中发挥重要作用。本文设计了一个专为移动设备打造的智能体框架 AppAgent v2该框架基于大语言模型能够在移动设备上导航并模拟用户交互行为。AppAgent v2 通过构建灵活的动作空间增强了其在不同应用程序中的适应性支持解析器、文本和视觉描述的结合。智能体的工作分为两个阶段探索Exploration和部署Deployment。在探索阶段智能体通过自动或手动的方式记录用户界面各元素的功能并将其存储在结构化的知识库中。部署阶段智能体通过 RAG检索增强生成技术从知识库中检索信息并实时更新使其能够准确高效地完成任务包括跨多个应用程序执行复杂的多步骤操作。实验结果表明AppAgent v2 在各种基准测试中的表现优异验证了其在实际场景中的有效性。AppAgent v2官方表示代码将很快开源。更多关于端侧大模型、Agent及其实践欢迎关注微信公众号《小窗幽记机器学习》 2. 方法 AppAgent v2 的多模态智能体框架分为两个阶段探索和部署。在探索阶段智能体通过自主或手动方式分析用户界面记录 UI 元素及其功能形成知识库。在部署阶段智能体利用知识库中的信息根据任务要求进行操作。图1appAgent 流程。探索模块采用Agent驱动或手动探索将元素信息收集到文档中。部署阶段使用RAG实时检索和更新文档从而快速准备执行任务 2.1 Agent 框架 AppAgent v2 在 Android 15 环境下使用 Android Studio 模拟器实现。智能体通过调用 AndroidController 发送指令与手机交互结合 OCR 和检测模型从屏幕截图中提取 UI 元素的信息如 Android ID、文本、坐标等并将其用于任务推断和决策。 2.2 Agent 交互智能体通过一套标准化的指令与 Android 系统交互指令包括点击、输入文本、滑动、返回、长按等操作。这些指令被转换为 Android 系统可执行的命令确保与界面的交互精确无误。 2.3 探索阶段在探索阶段智能体通过两种方式分析用户界面智能体驱动的探索和手动探索。智能体驱动的探索智能体自动识别需要交互的 UI 元素并执行操作记录交互前后的变化并根据结果反思操作的有效性。手动探索当智能体对某些界面的理解有限时引入手动探索GPT-4 通过观察人类的操作记录 UI 元素的变化和任务流程帮助智能体在未来的任务中更好地理解和应对复杂的界面和操作。 2.4 部署阶段在部署阶段智能体利用自查检索器Self-query Retriever从知识库中检索相关文档结合当前的 GUI 信息和任务要求执行操作。智能体可以根据任务的需要动态更新知识库确保在不同应用场景中快速适应。通过不断更新历史信息和操作结果智能体能够优化其决策过程直到任务完成。 2.5 文档生成探索阶段收集的 UI 元素信息被存储在结构化的知识库中。该知识库包括元素的 Android ID、可见标签、文本内容、视觉特征如颜色、形状及其屏幕坐标等。知识库支持实时更新和动态检索确保智能体可以随着任务的变化不断调整其操作策略。 2.6 高级功能 AppAgent v2 还具有以下增强功能视觉特征决策当无法通过标准解析器识别 UI 元素时智能体会转向基于视觉特征的决策利用 OCR 技术识别界面中的文本和图标确保在面对全新界面时仍能有效操作。安全检查智能体在执行涉及敏感信息的操作如账户密码或支付时会自动切换到手动模式确保用户隐私不受侵犯。跨应用任务管理智能体能够在多个应用程序之间切换执行复杂的跨应用任务如从一个应用中提取信息并在另一个应用中执行操作。 3. 实验为了评估 AppAgent v2 的性能本文在 Android 平台上进行了一系列实验涵盖多个基准测试和用户研究。 3.1 定量结果 AppAgent v2 在三个基准测试中进行了评估DroidTask、AppAgent v1 基准和 Mobile-Eval。 DroidTask在 13 个流行应用程序衍生出的 158 个任务中AppAgent v2 在完成率上表现优异显著超过了 GPT-4 和带有记忆组件的 AutoDroid证明了其强大的任务执行能力。 AppAgent v1 基准在 Twitter、Telegram 和其他常用应用的测试中AppAgent v2 通过探索和部署阶段的结合展示了其在多种任务和界面中的适应能力成功率大幅提升。 Mobile-Eval在 10 个常用移动应用程序中AppAgent v2 在成功率、过程分数、相对效率和完成率四个指标上均表现出色验证了其高效、准确地执行复杂任务的能力。表2: MobileAgent和appAgent在Mobile-Eval上的指标对比结果 3.2 用户研究为了进一步展示 AppAgent v2 的实际应用效果本文进行了用户研究模拟了复杂的跨应用任务。结果表明AppAgent v2 能够准确执行长时间、多步骤的任务展现了其在实际场景中处理复杂任务的能力和灵活性。图3跨app应用上的定性结果 3.3 UI 界面解析分析 AppAgent v2 结合了结构化数据和视觉特征两种方法解析 UI 界面。对于常规应用智能体依赖从 Android 系统解析的 XML 数据而对于自定义开发的应用智能体则通过 OCR 和视觉特征识别图标和文本。该双重策略显著提高了智能体的适应性和任务执行的可靠性。 4. 总结本文提出了一个多模态智能体框架 AppAgent v2显著提升了智能体在移动设备上的交互能力。通过整合解析器和视觉特征AppAgent v2 构建了一个灵活的动作空间能够适应不同类型的应用程序界面并通过探索和部署两个阶段有效管理移动设备的动态环境。实验证明了该框架在图形用户界面识别和复杂任务执行方面的优越性尤其是在跨应用任务和新环境中的适应能力。 AppAgent v2 的主要贡献包括多模态智能体框架的引入结合解析器和视觉特征构建了灵活的动作空间增强了智能体与图形用户界面的交互能力提高了其在新环境中的适应性。结构化存储格式的开发结合 RAG 技术实现了对知识库的实时更新和访问增强了智能体的决策精度和任务执行效率。广泛的实验证明通过多个基准测试和用户研究验证了智能体在各种移动应用程序中的有效性展示了其适应性、用户友好性和操作效率。 AppAgent v2 在现有技术基础上进一步提升了智能体在复杂移动环境中的表现为未来的多模态智能体研究提供了重要的参考和改进方向。 5. 局限性尽管 AppAgent v2 在多个应用场景中表现优异但仍存在一些局限性数字标签识别的局限性AppAgent v2 依赖智能体识别 UI 上的数字标签来确定特定元素。当 UI 元素本身包含数字时可能会导致混淆。这种问题可以通过预先的手动探索和记录来缓解。隐藏 UI 元素的交互难题智能体在处理一些隐藏 UI 元素如加速视频播放的按钮时由于缺乏先验知识可能无法检测到相关元素进而限制了其执行某些操作的能力。未来的工作将侧重于增强 UI 识别能力并结合先验知识来解决这些问题。 6. 未来工作未来的研究工作将集中在以下几个方面增强跨应用任务处理能力进一步优化智能体在多个应用程序之间切换时的决策流程提升其处理复杂跨应用任务的效率。优化视觉特征识别改进视觉特征的识别与操作特别是在面对复杂或定制化的应用界面时确保智能体始终能够做出正确的交互决策。提高智能体的用户体验通过优化智能体的反馈机制和任务执行过程进一步提升用户体验使其更加直观和高效。总之AppAgent v2 为多模态智能体的发展提供了坚实的基础并为未来的移动设备智能体研究指明了方向。

查看全文

http://www.hkea.cn/news/14446129/