第一个系统的工具使用奖励范式,Toolrl可以减轻

美食 365bet登录 浏览

小编:Qian Cheng目前是伊利诺伊大学香槟分校(UIUC)的伊利诺伊大学的第一年医生,一位名为Ji Feng教授的主管。在Tsinghua大学学习本科生

Qian Cheng目前是伊利诺伊大学香槟分校(UIUC)的伊利诺伊大学的第一年医生,一位名为Ji Feng教授的主管。 Tsinghua大学的本科生和他的主管是Liu Zhiyuan教授。它的工作着重于语言模型和人工智能方向的大型工具的使用和推理。他在ACL,EMNLP,COLM,COLING,ICLR等许多学术会议上发表了十多篇论文,并在工作中有十多篇论文,并从Google Scholar中获得了500多个学术引用。他目前是ACL地区主席以及AAAI,EMNLP,COLM和其他会议审稿人的成员。 “如果您想做得很好,则需要先磨刀工具。”现在,人工智能以前所未有的速度改变了人类认可的冠军,并且工具的极大应用已成为衡量人工智能的真正智慧的主要标准NCE。通过出色的推理和计划能力,大型语言模型正在迅速整合人类和生活,但是当面对复杂或新的工具场景时,传统的管理和培训方法通常会出现。人工智能如何有助于突破这种瓶颈和工具能够自由使用?该工具的出现为我们带来了答案。香槟伊利诺伊大学研究团队领导了一项开创性研究的建议-Toolrl。与传统上管理的微调不同,系统的工具RL可以首次使用加强范式来探索工具的方法,并通过精制奖励设计通过推理工具有效地解决问题。标题:toolrl:奖励是研究论文工具的所有要求:https://arxiv.org/pdf/2504.13958代码存储库:https://github.com/qiancheng0/toolrl图1:比较基本培训策略对基本效果的效果基准活动。精细的奖励设计工具 + GRPO冷启动可以在不同型号中进行最佳。在右侧学习训练曲线,并且随着培训数据的增加,奖励也很快。关联的推理工具:LLM在Toolrl中的“工具链工具”,工具模型研究人员称问题为与推理集成的工具工作的范式(TIR)。这项任务的ISTYPES不仅要求模型“使用”工具,而且还需要以合理和逻辑为单位调用许多工具,并且建议根据中间结果调整下一个思维方式。 TIR任务的关键功能包括:接触中的许多步骤:一个任务通常需要许多工具调用,每个步骤中有中间观察(例如API反馈)。呼叫组合:每个步骤都可以调用一个或多个工具,并且该模型需要生成参数调用。要驱动的推理:模型应该决定在自然语言参数中“思考”之后要调用和输入哪些工具?如图。2:SFT通常很难推广到工具推理,这可能会导致MGA问题,例如过度推理,而基于RL的程序具有更好的总体功能。设计的钥匙 - 不是“正确”就足够了。 Toolrl使用该工具处于最前沿的工具,系统地检查任务中的奖励设计大小,包括:如何平衡不同的奖励信号?粒度:如何梦想奖励信号谷物而不是选择二进制?动态性:在培训期间,奖励信号是否会随着时间而变化?研究表明,仅针对最终匹配答案的粗粒,静态或奖励通常会失败最有效的指南学习工具技能。到目前为止,Toolrl引入了结构化的奖励设计,结合了“格式规范”和“ Call Worldess”,以确保模型不仅会产生理性的链条思维,而且还可以准确地理解含义和调用工具语义,并更准确,更准确Ate工具。 “工具名称”,“参数名称”和“参数内容”,以实现更好的工具奖励。基准测试,从工具呼叫(伯克利函数呼叫排行榜),API互动(API-BANK)到问答(BAMBBOOGLE)任务。实验运动模型:使用QWEN2.5和LLAMA3系列作为基本模型;训练方法:比较原始模型,管理微调(SFT),紧密结束优化策略(PPO)以及提出的工具RLL的GRPO奖励设计方法;分析的维度:准确性,新任务/工具的一般能力等。一般概括性的更强功能:在尚未看到的工具,语言或目标中,工具RLL模型仍然保持领先的绩效,显示了主动性和反际交往能力;更合理的呼叫:在问答活动中,工具RLL模型可以控制呼叫的数量,避免使用操作,更好,更稳定。实验结果表明,Toolrl不仅提高了使用语言模型工具的能力,而且更重要的是,它鼓励模型知道“我何时会调用工具以及如何调用工具” - 这是代理商朝着自主智能迈向自主智能的关键步骤。表1-3:在三个基准测试上的测试结果,文章发现GRPO冷启动方法通常可以实现影响的最佳结果:Toolrl不仅是一个过程,而且是一组一般的奖励范式结论:Toolrl不仅是一个过程,而且在工具中为您创建了一个新的范式。本文融入大规模的实验和深入分析,证明了三个主要发现:适应能力优于长度扩展的构想路径,不能为该工具带来更高的性能,但可能会引入噪声以导致过度的推理;动态奖励有助于适当的转移 - 基于T的实时调整的奖励机制下雨步骤可以使模型通常从简单的目标到复杂的目的,并逐渐积累推理能力。细粒度的反馈是每个工具调用的钥匙奖励和惩罚,可以极大地提高模型采取许多步骤并正确使用外部工具的能力。表4-5:Toorl的训练有素的模型显示,在无关的工具检测中(BFCL子任务)中,工具调用和自我知识计划的更好,合理的平衡。与传统的对加强研究的研究相比,通常将“准确性的结果”作为奖励信号的唯一目的,这不仅是“如果是正确的话”,还反映了许多指标,例如“工具名称”和“定义参数” - 研究的复杂工具链。在最前沿,工具RL提出的有益框架不仅可以适应更多样化的任务类别,而且还具有更灵活和受控的LLM培训想法和外部工具。我们看forwaRD到KAD,并加深了与多模式工具的接触,基于此范式的一代知识和计划等领域的智力水平。

当前网址:https://www.tianyuanqing.com//a/meishi/765.html

 
你可能喜欢的: