上海人工智能实验室发布2024金融大模型应用评测报告

时间：2025-01-23 12:40

小编：星品数码网

近期，上海人工智能实验室联合多家机构发布了《金融大模型应用评测报告（2024）摘要版》，该报告的推出旨在进一步推动金融科技的创新发展，提升金融服务的智能化水平，并探索金融大模型的应用新路径。本报告共计17页，涵盖多项重要内容，其评测结果和对于金融行业未来的发展具有积极的指导意义。

1. 评测范式

在本次评测中，涵盖了14个主流大模型机构和其20个模型，这些模型包括了国内外的开源与闭源模型、通用基模及金融垂直模型。评测围绕五大关键维度展开，包括模型的基础能力、金融安全、价值对齐能力等。具体方法上，研究团队结合了主观与客观的评估方式，确保评测结果的科学性和公正性。

为了能够全面评估每个模型的表现，评测过程中采用了《库帕思金融大模型评测数据集（2024版）》。该数据集涵盖了多个维度的数据，包括模型的基础能力、金融安全等信息，部分样例已经公开供公众查询。评测还利用了OpenCompass作为核心评测工具，此工具不仅能高效评估模型的客观性表现，还能对主观题的答案进行审核评分。综合评估分数采用线性加权模型进行计算，以确保各个维度的评估结果反映模型的真实能力。

2. 评测结果

经过分析，参评模型的总分平均为71.9分。在此次评测中，Claude 3.5 Sonnet 20240620、Step 2 16k/Finstep以及Qwen2.5 72b Instruct/Qwen2 VL 72B分别位列前三名。在各个能力维度的得分上，显现出不同模型的异质性表现，其中金融安全与价值对齐能力的平均得分较高，而金融专业认知能力的平均得分则明显偏低，这表明当前模型在认知度和专业知识方面还需进一步提升。

3. 评测

从评测结果来看，各模型在金融评测的五大能力维度上基本满足了当下金融场景的需求，然而在金融专业认知和多模态处理能力方面仍存在较大提升空间。这一现象反映出当前金融大模型的语料库建设亟需加强，尤其是高质量的金融语料和多模态数据集的构建显得尤为关键。为了推动行业的进一步发展，评测框架的扩展和更新也必须与实际金融业务紧密结合，这能够有效规范行业发展并促进模型与业务的精准对接。

此次评测提供了行业发展的重要参考，展望未来，评测方法的持续优化、语料建设的加强以及评测框架的完善都将是推动金融大模型更好服务行业的关键所在。因此，建立更加科学的评估体系和丰富的应用场景将是未来工作的重点。

未来展望

在金融科技的快速发展背景下，金融大模型的研究与应用成为了一种重要的趋势。随着人工智能技术的不断成熟，金融领域对大模型需求的不断增加，势必将为金融服务的精准化、智能化带来新的机遇。当前的评测结果也提示行业参与者需要更加关注模型的专业能力，推动多元化和多模态数据的融合，以提升整个行业的服务水平。

而言，上海人工智能实验室发布的2024年金融大模型应用评测报告为我们展现了当前金融大模型在实用性与智能化方面的成就，同时也指明了必须持续努力和改进的方向。通过不断的优化与创新，金融大模型将能够在未来的智能金融场景中发挥更加重要的作用。

上海人工智能实验室发布2024金融大模型应用评测报告

精品推荐

相关文章