星火语音大模型发布打造万物互联时代各行业“百搭”CP

来源：光明网2024-02-02 14:15

　　由大模型领衔的人工智能技术在2023年掀起了一场数字生产力革命，语音能力作为科技赋能生活最为刚需的能力也引发了科学界的高度关注，全球语音大模型的研究热情逐渐高涨。

　　作为语音交互技术领域的领军者，科大讯飞自然不会将语音大模型的王者地位拱手让人。近日，在星火认知大模型V3.5升级发布会上，星火语音大模型一道问世，评测效果国际领先，中文、英语、法语、俄语等首批37个主流语种的语音识别效果超过OpenAI Whisper V3，而在多语种语音合成方面，星火语音大模型的首批40个语种拟人度超83%。

　　未来，星火语音大模型将不止助力跨国度、跨语种、跨文化间的对话，还能“百搭”更多真实场景，赋能实际应用落地。智能汽车、智能客服、智能家居、陪伴机器人，星火语音大模型将大有用武之地，万物互联人机对话的全新革命将深度变革人类的工作和生活方式。

　　源头技术稳居国际领先，大模型带来跃升机会

　　以智能语音起家的科大讯飞，创业25年来在这条赛道上一直跑在世界的最前面，在语音识别、语音合成等多领域始终保持源头技术自主创新迭代。

　　同时，作为语音技术与AI领域的“国家队”，科大讯飞还是首批国家新一代人工智能开放创新平台、语音及语言信息处理国家工程研究中心的承建方。

　　“科大讯飞从创业之初的梦想和使命，就是要实现沟通无障碍。25年了，我们的目标和梦想一天都没有变。”刘庆峰称。在通用人工智能时代，科大讯飞也紧抓大模型时代机遇，以大模型深度赋能语音技术的再度升级。在技术优势上，借助大模型底座与全国产算力平台，讯飞星火语音大模型将更多语音表征解耦，并融入到大模型预训练中，提升了韵律表现力和拟人度，突破了复杂场景识别效果的上限，提升了语料稀缺小语种的效果。

　　从实用性上来说，配合讯飞星火大模型V3.5的理解能力和情感感知能力，语音大模型能够实现更精细的模型描述、更精准的语义理解以及更统一的多任务建模，语音合成的韵律表现力和拟人度测试结果惊艳。自此，星火智能语音具备了更加丰富的属性，有语种、有内容、有韵律、有音色，还有情绪，尤其是一些语气词的使用上能够做到更精准、更地道。

　　落地应用价值向好，上下游产业共享机遇

　　基于以上核心技术优势，星火语音大模型在应用落地方面带来的可能性更让人备感期待。

　　在星火认知大模型V3.5升级发布会上，科大讯飞董事长刘庆峰现场介绍了搭载语音大模型的讯飞翻译机，即将上线多语种自动识别和增强式翻译两个重要功能，分别于今年1月底和3月中旬完成升级。

　　据悉，此次讯飞翻译机多语种自动识别升级将支持35种语言，让国际商务沟通、跨国旅行变得更加便捷，增强式翻译技术让讯飞翻译机化身最强“AI翻译官”，跨语言、跨文化交流更加省心出彩。

　　除了直接赋能C端硬件产品，星火语音大模型在未来更多现实场景中也富有深度落地的潜力。智能汽车将同时拥有具备深度语言理解能力和复杂任务处理能力的智慧大脑和智慧语音，在此基础上，智能驾舱、智能座舱、智能导航、音乐控制等交互体验将进一步得到优化提升。家庭生活及医疗场景下，陪伴机器人、辅诊机器人、导购导游机器人、智能家居助手、穿戴式设备等产业也将随着星火语音大模型的赋能迎来价值爆发增长的机会。

　　万物互联时代，科技进步以全民创享智慧生活为目标。“软硬融合、智能物联、场景赋能”已成为中国智能产业链全链条企业的发展共识。语音大模型，作为赋能智慧生活的有力的生产力工具，其与各行各业的“CP”组合究竟表现如何，将关乎着产业经济发展的活力和全民生活质量的提高。星火语音大模型既有大展拳脚的决心，就期待拿出更加优异的成绩，继续领跑通用人工智能时代的语音王者之位。（刘锐）

阅读剩余全文（）