ShortDF突破多模态模型质效困局

来源：光明网2025-09-23 17:47

　　当前，文生图、文生视频等生成式人工智能技术正得到越来越广泛的应用，但在一些场景中，生成速度和生成质量难以兼顾的矛盾也尤为突出。针对这一痛点，中国联通数据科学与人工智能研究院聚力攻关并实现了突破，提出模型推理加速方案ShortDF，突破多模态模型生成效率与质量瓶颈，并赋能多场景应用。

　　当前主流的多模态生成模型大多以扩散模型为基础，通过在训练过程中给清晰的图像或视频添加随机噪声，再运用反向去噪规律，实现从指令文本到匹配图像或视频的生成。

　　通俗来讲就是先教会模型“画面或视频怎么由正常变混乱”，学习并记住这个过程，然后模型便可照此规律按指令文本“把混乱画面或视频变正常”。其中的去噪过程作为关键核心，在这个过程中，如何选择路径也决定了生成效率和质量。

　　现有的路径选择方法主要分为两类：一类是马尔科夫链式方法，如DDPM，Denoising Diffusion Models，即按照规定路线循规蹈矩走完所有路口，虽然稳妥但耗时长，生成效率较低；另一类是人工跳步式方法，如DDIM，Denoising Diffusion Implicit Models，凭借经验人为设定抄近道仅走少量路口从而实现效率提升，但因为路径缺乏自适应性，容易发生图像模糊或形变等问题。

　　中国联通数据科学与人工智能研究院提出了一种创新方法——ShortDF（Shortest path optimizing in Denoising Diffusion model去噪扩散模型最短路径优化），可在路径图中找到合适路径，并做路径压缩。直观来说，就像具备会进化的“智能导航”，不再固定走完所有步骤，也不预设定走哪些步骤，而是动态选择最优路径并做路径压缩，让一步抵多步，从而实现效率和质量的权衡。

　　ShortDF在多个业界主流基准数据集上均取得了显著性能提升，其中在CIFAR-10数据集上的表现尤为突出：原本需要10步生成的DDIM图像，ShortDF仅用2步即可完成，实现了约5倍的速度提升，同时图像清晰度（FID指标）提升18.5%。

　　这些实验结果验证了ShortDF在多模态生成任务的高效推理能力，实现了在保证生成质量的前提下推理速度的大幅度提升。凭借这一突破性成果，ShortDF入选CVPR 2025的Highlight论文（全球超1万篇投稿中仅2.97%入选），获得国际人工智能学术界的高度认可。

　　目前，ShortDF技术已在多种内容生成场景中应用，有效确保了生成质量的同时提升了生成效率，优化了用户体验。ShortDF针对扩散类模型具备通用性，应用空间广泛，适用于文生图、文生视频、图像及视频编辑等多种功能场景。

　　未来，中国联通数据科学与人工智能研究院将继续推动多模态生成技术的优化与创新，解决模型产业化落地的“最后一公里”问题，让高效高质的AI生成技术在文创、工业、教育、医疗等更多领域得到更广泛和深入的应用。让人工智能惠及更多个人及企业，推动人工智能+规模化发展。（张伟）

阅读剩余全文（）