cc域名做门户网站,接app推广的单子在哪接,中信建设有限责任公司是央企吗,国内设计好的网站案例iclr 2024 reviewer评分 5688
引入了 SmartPlay#xff0c;一种从 6 种不同游戏中提取的基准 衡量LLM作为智能体的能力 1 智能代理所需的能力
论文借鉴游戏设计的概念#xff0c;确定了智能LLM代理的九项关键能力#xff0c;并为每项能力确定了多个等级#xff1a;
长文…iclr 2024 reviewer评分 5688
引入了 SmartPlay一种从 6 种不同游戏中提取的基准 衡量LLM作为智能体的能力 1 智能代理所需的能力
论文借鉴游戏设计的概念确定了智能LLM代理的九项关键能力并为每项能力确定了多个等级
长文本理解 一般LLM的能力 根据文档长度和句法变化定义了4个等级 1) 几行固定文本 2) 几段固定文本 3) 带有句法变化 4) 长于1页500字 推理 多跳逻辑推理和演绎通常需要用于分析游戏对象的互动或行动条件/依赖关系 根据推理跳数定义了3个等级 1) (0 ∼ 1) 2) (2 ∼ 3) 3) ( 3) 指令/规则遵循 遵循环境或用户设定的规则和指令 我们根据游戏规则的数量定义了3个等级 1) 单一规则 2) ( 5) 3) (5) 规划 进行长期的情境规划以实现复杂目标 根据规划步骤和需要优先处理的并行目标定义了3个等级 1) 5个规划步骤 2) 5个以上规划步//骤 3) 并行目标 泛化 在广泛的任务范围内表现出色。 根据游戏提供的变异度定义了3个等级 1) 固定环境 2) 固定游戏世界但目标随机 3) 程序生成的游戏世界 理解概率 分析和估计随机事件的概率。 根据环境中随机性的重要性定义了3个等级 1) 无随机性 2) 游戏中存在随机性 3) 随机性为核心游戏机制 从互动中学习 从实时互动中获取环境知识。 根据需要学习的独特互动次数定义了4个等级 1) 无需学习 2) 单次互动 3) 5次互动 4) 5次以上互动 错误/失误处理 从错误中恢复例如纠正错误的轨迹。 根据是否需要处理错误以及是否需要额外的推理和重新规划定义了3个等级 1) 不需要 2) 简单回滚即可纠错 3) 需要推理和重新规划以纠正错误 空间推理 空间推理通常需要用来理解方向和在游戏世界中导航例如导航2D/3D世界。 根据维度定义了3个等级 1) 0 ∼ 1D 2) 2D 3) 3D。
2 SMARTPLAY 中涉及的游戏
双臂老虎机石头剪刀布汉诺塔信使制造者我的世界 3 实验
3.1 各种大模型比较