阿里巴巴云汤蒂·戴安金(Dianjin)释放了戴安吉

小编:这篇文章由阿里巴巴云Thyi Dianjin团队和苏州大学完成。最近,阿里巴巴云Thyi Dianjin团队与苏州大学合作,以大型财务语言合作

这篇文章由阿里巴巴云Thyi Dianjin团队和苏州大学完成。最近,阿里巴巴云Thyi Dianjin团队与Soochow University合作,在金融语言模型领域推出了现代成就的成功:Dianjin-R1。该财务模型结合了高级技术和全面数据支持,是为财务活动而设计的。纸质地址:https://arxiv.org/abs/2504.15716github:https://github.com/aliyun/qwen-dianjinhugging face:https://huggingging.co.co.co/dianjinmodelscope:https:/ https://tanyi.aliyun.com/dianjin完全打开源数据集:Dianjin-R1独特的亮点之一是Diast-dianjin-r1-data。数据集基于全面升级ITHE TONGYI DIANJIN团队正在进行去年在ACL-2024上发布的CFLUE基准测试,其中包括Finqa和中国合规性检查(CCC)数据集,为金融合理的基础提供了强大的基础。关于活动。它目前是开放资源,旨在支持和促进金融领域的研究和应用。财务推理模型的完全开放资源:Dianjin-R1-7B和Dianjin-R1-32B模型完全向公众开放。这些模型在复杂的财务活动中,通过管理精致的曲调(SFT)的精致折磨和增强研究(RL)的两个阶段表现良好。开放资源的强大来源为行业提供了更大的应用可能性,并促进了财务AI的创新发展。基于Tongyi Dianjin平台的多代理系统综合:更值得关注的是,我们通过Thyi Dianjin平台基于数据综合实现了多机构。通过DOT Gold Platform,我们构建了飞轮数据和模型优化机制,使单个可调用的呼叫对具有高计算成本的多代理系统。它不仅反映了REMDianjin-R1的表现,但也显示了我们创新的模型优化功能和智能系统集成。 Dianjin-R1-7B成功地匹配了QWQ行业的基准模型,具有轻巧的参数和出色的性能,表现出了非凡的竞争。 Dianjin-R1-32B主要是参与的模型,包括DeepSeek-R1,并在绩效测试中赢得了第一名,显示了我们IIN的效率,即人工智能和金融技术领域。我们的评论基准与传统标准不同。 Dianjin-R1不仅严格测试财务领域的三个主要财务,而且还专门研究了两个通用领域的数据集以进行全面审查。这种新方法不仅显示了Dianjin-R1在金融专业领域的显着改善,而且还显示了其在一般活动中的表现。 Dianjin-R1的发布不仅促进了金融技术知识过程,而且还促进了毛皮其中结合了我们在大型财务模型领域的领先地位。我们依靠Dianjin-R1在更多领域中释放其强大潜力。上一年的背景,大语言模型(LLM)的进步已引起人们对增强其识别能力的强烈兴趣。 OpenAI O1,DeepSeek R1和QWQ等模型表明,通过显式建模识别过程可以显着改善复杂任务中的性能。尽管有这些改进,但对金融基准的最新评估表明,由于对特定领域的特定数量,合理的理由数量以及严格遵守监管要求的需求,金融部门的推理仍然特别具有挑战性。对这些挑战的有效反应需要专门的推理技术,这些技术可以处理结构化的财务信息并解决问题。到目前为止,我们推出了Dianjin-R1,LLM nagincludes推理增强了管理和str促进加强以提高推理活动的表现。 Dianjin-R1-Data的构建首先是Dianjin-R1-Data的高质量数据集由三个主要资源构建:CFLUE,FINQA和我们对遵守遵守合规性(CCC)任务的所有权。 CFLUE:包含来自15个财务资格的38,638个多个选择选项,涵盖了各种主题和困难。通过三步过滤过程,我们过滤了高质量的问题:首先,以少于15个单词的形式删除简单的问题;其次,删除所有较小语言模型可以正确回答的问题,以确保需要更深入的推理技能;最后,使用gpt-4or来消除歧义,并确保每个问题都清晰清晰。最后一组问题不仅具有清晰可正确的答案,而且还具有详细的解释,可以帮助评估财务模型的推理能力。 Finqa:Finqa是开源E English Benchmark基准,其中包含8,281个财务问答对,需要财务报告的推理数量。在我们的研究中,我们在提交条件下的长度和困难与CFLUE糖尿病相同,以确保质量和复杂性。因此,我们仔细结合了一个高质量的问答子集,该Q&A子集是在英语背景下评估财务推理能力的理想选择。 CCC(基于多古数据综合):关注需要NG多步逻辑的复杂合规性情况。为了确保推理的质量,我们将Tongyi Dianjin多代理系统平台通过数据合成的推理,并采用GPT-4O验证过程来评估生成的答案,理解步骤和参考说明之间的一致性。此过程创建了可靠的增强增强和非信息样品,以支持更稳定的模型培训。 Dianjin-R1进行监督微调(SFT)的两阶段培训,我们经过训练的Dianjin-R1-7b和Dianjin-R1-32b,基于QWEN2.5-7B-INSTRUCTION和QWEN2.5-32B结构,并且已开发的理解和最终答案的过程均处于结构输出中。为了进一步提高推理的质量,我们应用了Kamag -Child政策政策(GRPO),这是一种强化研究算法,这些算法引入了两个奖励信号:鼓励结构化产出的奖励,以及促进答案准确性的奖励。这些机制指导该模型产生连贯的推理和可靠答案的途径。实验结果,我们审查了Dianjin-R1模型和其他通用场推断和非熟年模型,并具有不同的基准测试,例如CFLUE,FINQA,CCC,MATH-500和GPQ-DIAMOND。结果表明,增强识别模型始终比非财务婴儿期的相应模型更重要。特别是,只有CFLUE培训在所有任务上都取得了重大改进,并进一步提高了性能所有数据集。我们的评论还强调了学习鞋带的好处,特别是如果奖励信号与工作领域保持一致。最后,我们使用使用LLMS开发的基于条件检查的多代理系统在CCC数据集中显示了该方法的实际应用。通过为工作流决策的每个节点分配专用代理,该系统有效地纳入了中间的合理措施,以最终做出合规性判断。结论总而言之,Dianjin-R1通过纳入高质量的管理,结构化推理生成和基于奖励的研究改进,提供了一种测量和有效的方法来增强LLMS财务推理能力。

当前网址:https://www.tianyuanqing.com//tutorials/web/2025/0505/790.html

 
你可能喜欢的: