蚂蚁集团蚁天鉴2.0发布打造大模型安全测评智能体

来源：光明网2024-07-08 12:32

　　7月5日，在2024世界人工智能大会“迈向AGI：大模型焕新与产业赋能论坛”上，蚂蚁集团联合清华大学发布大模型安全一体化解决方案“蚁天鉴”2.0版。蚁天鉴2.0新增AI鉴真功能，支持图像、视频等多模态内容真实性及深度伪造检测，并在测评功能上持续升级，打造了大模型安全测评“智能体”，新增大模型X光、大模型基础设施测评两大测评功能。至此，蚁天鉴2.0形成了包括大模型基础设施测评、大模型X光测评、应用安全测评、AIGC滥用检测、证件伪造检测、围栏防御等在内的完整技术链条，面向行业提供全方位智能化的大模型安全测评和防御解决方案。

蚂蚁集团联合清华大学发布“蚁天鉴2.0”

　　蚂蚁集团副总裁、大安全技术部总裁李俊奎表示，大模型和Agent智能体正带来前所未见的智能体验，同时也带来了模型内部幻觉、安全漏洞和深度生成内容滥用等新的挑战。蚁天鉴旨在打造AI大模型的安全铠甲，确保大模型技术在安全可靠的环境中发挥效能。

　　蚁天鉴2.0在测评端研发了“测评智能体”。该测评智能体提供全流程自动化的安全测评工具，支持各种形式模型和深度学习框架，可扩展测评垂类大模型、多模态大模型及Agent智能体，并能根据被测大模型的安全水位动态调整攻击策略和出具测试用例，保障测评效果和效率。

　　与此同时，该智能体也增加了两项新功能。一是“大模型X-ray”，即大模型X光，可针对大模型的内在神经元进行X光扫描来做探查和判断，让研究人员了解大模型内部在发生什么、定位可能引发风险的神经元、并进行编辑修正，从而在模型内部治理幻觉，实现从源头识别和抑制风险。二是“大模型基础设施测评”，此前蚁天鉴的测评能力主要集中于大模型生成的内容安全、合规风险等检测。蚁天鉴2.0从攻击者全链路视角出发，深入扫描模型算法组件及软件系统，可及时准确发现大模型供应链及运行环境安全问题，保障云到端的应用安全可控。

　　同时，蚁天鉴2.0防御端新增“AI鉴真”功能，支持多模态内容真实性及深度伪造检测，可快速精准鉴别图像、视频、音频、文本内容的真伪。目前，蚁天鉴2.0依托生成模型自建百万量级音视图多模态合成数据集，覆盖主流生成方案，有效应对AI换脸、声音模拟、证件伪造等各类深度伪造风险场景。

　　目前，蚁天鉴的检测与防御产品已开放给20家外部机构和企业使用，为通用大模型及医疗、金融、政务等垂直领域行业大模型应用安全保驾护航。蚂蚁AI金融助理“支小宝”结合蚁天鉴，通过大模型训练与推理风险管控、大模型风险点全方位评测、大模型用户交互风险管控等举措保障大模型应用安全，确保数据的准确性和金融逻辑的严格性。2024年，蚁天鉴商业化迈出重要一步，通过蚂蚁数科开始服务广泛的外部客户。

　　论坛现场还发布了由清华大学、中关村实验室、蚂蚁集团等机构联合编制的《大模型安全实践（2024）》白皮书，为行业打造高价值参考体系。

　　白皮书基于当前大模型发展趋势与挑战，提出了大模型安全实践总体框架，确立了“以人为本，AI向善”为大模型安全建设的核心，确保技术进步服务于人类福祉；以“安全、可靠、可控”三个核心维度的大模型安全技术体系，涵盖大模型安全测评与防御的综合技术方案；以及“端、边、云”为大模型安全技术的主要承载实体。蚂蚁集团安全生态副总裁邵晓东表示，白皮书还阐述了大模型在金融、医疗、政务等领域安全应用的案例，以及“五维一体”协同共治的治理框架，希望行业共同推动大模型安全生态发展。

　　本场论坛汇聚了国内外研究机构和顶尖学者以及产业人士等，从前沿技术、产业应用等不同视角分享了大模型安全的研究，探讨端云协同、端侧应用等最新趋势以及大模型安全最新体系与实践。这些深入的讨论，也将为大模型如何安全可靠地助力产业转型升级、推进数字经济发展提供更加明确的前进方向。（李文）

阅读剩余全文（）