上海退休教师张阿姨最近发现,查询养老金明细不再需要戴着老花镜在手机银行层层点击了。“我这个月的养老金到账了吗?”对着手机屏幕轻声问道,几秒钟后,屏幕上的AI助手就用口语化的中文列出了到账时间、金额明细。这个让张阿姨赞不绝口的功能,是蚂蚁数科助力上海某家银行打造的AI手机银行服务,也是当下金融大模型从实验室走向普通人生活的生动缩影。
30秒钟生成2万字无“幻觉”信贷报告,11分钟完成单笔科创贷款审批,智能机器人提供理财服务,智能眼镜实现“看一看”支付……2025年的金融行业,正被人工智能掀起一场深刻变革。然而,在效率提升的背后,AI“幻觉”、数据合规、安全挑战如影随形。金融大模型正站在“技术突破”与“风险防控”的十字路口,探索着属于自己的发展航道。
追逐零“幻觉”
在金融领域,大模型的应用并不罕见。过去几年,金融行业正在加速拥抱大模型浪潮。据咨询机构麦肯锡统计,大模型有望给全球金融行业带来每年2500亿美元至4100亿美元的增量价值。大模型在金融行业的应用也逐渐从智能问答等场景深入到风控、营销、财富管理等核心业务场景。
与此同时,问题随之而来,“一本正经说胡话”的AI“幻觉”已经让不少金融从业者感到头痛。
所谓AI“幻觉”,是指AI生成的内容与现实世界事实或用户输入不一致的现象。简而言之,就是AI在胡说八道。以市面上常见的AI智能客服为例,AI智能客服的“已读乱回”经常令用户陷入沟通困局。
在金融领域,AI“幻觉”可能不仅会让人觉得“好笑”,更会带来严重的问题——“我们曾试着使用通用大模型做信贷审批辅助,结果它把‘信用卡套现’识别成了正常消费。”某股份制银行科技部负责人回忆起去年的一次尝试时仍心有余悸。这个插曲道出了金融业拥抱AI时的普遍困境:通用大模型就像“门外汉”,虽能说会道,却不懂金融的“行话”与规矩。
中国人民银行科技司司长李伟曾撰文称,“当前,通用基础大模型缺乏对金融专业知识的系统掌握,未经过金融业务的实战训练,距离金融应用存在‘知识鸿沟’,直接应用于专业性强的复杂金融场景往往‘幻觉’率较高、难以满足业务需要。”
对此,华东师范大学上海人工智能金融学院院长邵怡蕾在接受《金融时报》记者采访时表示,通用大模型虽然在处理日常语言任务上表现出色,但缺乏金融领域所需的精确性和逻辑性。而在金融行业,决策所依赖的各种报告的准确性至关重要,如信贷报告、投资研究报告等,这些文档即使出现1%的错误,都可能带来严重后果。
“零‘幻觉’对于金融业是刚需。”邵怡蕾解释道,5%的幻觉率看似不高,但放在金融领域,就意味着每1000个数字里可能有50个数字是错误的。想象一下,如果一笔亿元级别的贷款审批中,关键的偿债能力数据出现错误,可能会直接导致坏账风险;如果股市分析报告里有错误的财务数据,投资者可能会因此蒙受巨大损失。这种损失在对错误极度敏感的金融领域,是完全不可容忍且难以估量的。这也是很多金融机构对大模型的应用至今持保守态度的原因。
更先进的金融推理模型呼之欲出。“一个好的垂直大模型,特别是推理能力很强的大模型,才能成为一个智能体可控、可靠、可优化的智能中枢,没有这个东西就像机械设备没有关键的齿轮。”蚂蚁数科CTO王维强调,推理大模型产生的推演能力、泛化能力、意图识别能力、结构化表达能力,是企业愿意用新技术取代原有业务模式、创造增量价值的基础。
专为金融而生
当通用大模型还在为“读懂金融行话”发愁时,一批更垂直的金融大模型已悄然在信贷审批、宏观分析、客户服务等核心场景实现突破,用“懂金融”的智能体重构金融服务流程。
华东师范大学上海人工智能金融学院(SAIFS)推出的金融分析师智能体“思睿”,只需短短30秒,就能生成长达2万字的信贷报告,相当于眨两次眼的工夫完成过去分析师一周的工作,且报告中“幻觉”信息的错误率被严格控制在0.3%以内。
“可别小瞧这个智能体。”邵怡蕾笑着对记者说,“‘思睿’就相当于一位拥有CFA三级资质的顶级金融分析师,不仅能把行业动态、企业经营数据、政策风向等多维度信息深度融合,还带着智金院自主研发的‘火眼金睛’——‘幻觉’检测系统,对每一个数据节点进行细致核验,确保报告里没有‘虚言’。”
这有赖于背后藏着两座“知识宝库”:15TB的多模态金融数据、10万条精细化标注的思维链语料库,让“思睿”既能洞察行业本质,又能精准把控风险。“此前全世界范围内没有一个大模型可以独立上岗金融核心业务(比如信贷和风控)。”邵怡蕾对记者说,SAIFS的路线与之不同,是“金融思维优先、技术服务治理”。也就是说,先把金融的方法论、风控与监管嵌入系统设计里,挑选出最有价值的金融任务,然后再选择最合适的模型与工程手段,打造完成任务的智能体工作流。
对于AI“幻觉”,SAIFS推出Smith RM模型,通过“三阶验证”机制攻克这一难题:宏观因子校验确保数据符合经济规律,微观财报反向拆解验证企业数据一致性,舆情语义溯源交叉核对信息真实性,最终将幻觉率从初代模型的10%降至0.3%。
无独有偶,与SAIFS发布的智能金融的生态体系类似,2025世界人工智能大会期间,蚂蚁数科正式发布了专为金融业应用打造的金融推理大模型Agentar-Fin-R1。蚂蚁数科通过“加权训练算法”,有针对性地强化薄弱环节训练。例如,当发现模型对“保险理赔条款解读”正确率低时,会自动增加相关数据训练权重,同时生成合成数据进行专项强化。
“但即便如此,行业仍未完全解决极端场景‘幻觉’问题——在突发金融事件中,模型对未见过的新型风险案例仍可能出现误判。”业内专家表示。
告别“成长的烦恼”
尽管应用场景不断拓展,金融大模型仍面临着一些现实困境。
“金融强监管的特性,让大模型必须在‘数据安全’与‘模型效能’间实现精细平衡。”一位业内人士表示,“模型不联网,数据不出行”成为行业共识,但这也意味着大模型无法像通用模型那样依赖互联网数据迭代,训练素材受限明显。
对此,邵怡蕾表示,在SAIFS与农业银行的合作中,通过“本地部署+可信执行环境”确保数据不离开银行系统,同时,用联邦学习技术实现“数据可用不可见”,增加了技术架构的复杂度。
可解释性则是合规的另一道关卡。金融决策要求“每一步推理都可追溯”,但大模型的“黑箱”特性与此矛盾。某券商尝试用通用大模型做投资推荐时,因无法解释“为何推荐某只股票”,最终未通过合规审查。对此,SAIFS的解决思路是“保留思维链”。有专家解释称,智能体在生成结论时,同步输出推理过程,如信贷评估中会明确标注“风险等级上调因企业流动比率连续三季度下降”,并附上原始财报数据位置。
大模型的高成本成为行业普及的拦路虎。训练一个金融大模型需要数千万元的算力投入,后续维护成本同样高昂。蚂蚁数科的“轻量化训练”方案提供了一种解法:通过加权训练算法,减少微调数据量和算力消耗,更像“个性化辅导”——自动识别模型的薄弱环节,有重点地“加餐”。
比如,在测试中发现模型对“保险理赔条款解读”正确率较低,系统会自动增加这类数据的训练权重,就像老师给学生集中讲解易错知识点。这种方法不仅让模型在金融能力上突飞猛进,还带来了成本优势:企业后续想用模型处理新业务,需要的微调数据量和算力消耗大幅减少。对中小银行来说,这意味着用更低成本就能享受到顶尖AI能力。
值得注意的是,模型需要终身学习。金融政策调整了怎么办?市场出了新动态怎么接?工程师们给模型装了更新模块,自动抓取最新政策文件、市场报告,通过轻量化训练快速吸收新知识。“时刻学习。”一位从业人士笑着比喻,就像金融从业者要参加继续教育,大模型也能通过“在职培训”保持专业能力的与时俱进。
不过,探索之路还很长。王维表示,目前模型更新主要靠技术“拉着走”,只有先解决成本和效率问题,才能让需求真正“冒出来”。等技术越过拐点,场景效果足够好时,市场就会“推着走”了。
展望未来,王维相信,推理大模型会让智能体在更多金融场景大显身手。“从解决七八成问题,到有些能搞定99%甚至100%,这是个循序渐进的过程。”但王维也提醒,要清醒认识技术的边界,对于那些决策至关重要、出错损失巨大的场景,不能让大模型直接“拍板”,需理性看待大模型的能力范围。
邵怡蕾表示,法律和监管也需要与时俱进。监管需要不断完善,设定可用与不可用的边界,制定应对模型风险的机制,进一步促进人工智能在金融领域的应用。