首页 > 软件资讯 > 小米声音理解大模型 MiDashengLM-7B 发布并全量开源,22 个公开评测集刷新最好成绩

小米声音理解大模型 MiDashengLM-7B 发布并全量开源,22 个公开评测集刷新最好成绩

时间:2025-08-05 14:23:35

xiayx 8月4日消息,小米自研声音理解大模型 MiDashengLM-7B 今日正式发布,并全量开源。

据小米官方介绍,MiDashengLM-在速度与精度方面实现了显著突破:单样本首Token延迟仅为同类模型的四分之一,同显存下并发性能提升超过。该模型在公开评测集上刷新了多项多模态大模型的最佳成绩(SOTA)。

MiDashengLM- 是一种基于 Xiaomi Dasheng 的新型音频编码器与 QwenOmni- Thinker 的自回归解码器组合,通过独特的通用音频描述训练策略,实现了对语音、环境声音和音乐的全面理解。

,小米的Xiaomi Dasheng声音基座模型在全球首次超越了AudioSet 的平均准确率,并在国际上确立了在HEAR基准测试中的领先地位,特别是在环境声、语音和音乐三大领域持续保持领先优势。

Xiaomi Dasheng 在小米智能家居和汽车座舱等多个场景中拥有超过落地应用,行业首发了多项创新技术。其核心算法加持下,“打个响指”环境音关联 IoT 控制能力、车外唤醒防御、全天候监控异常声音以及增强哨兵模式的划车检测等技术功能,都成为了小米智能家居和汽车座舱的重要亮点。

MiDashengLM 的训练数据由 100% 的公开数据构成,模型以宽松的 Apache License 2.0 发布,同时支持学术和商业应用。

小米指出,不同于QwenOmni等未公开训练数据细节的模型,MiDashengLM完整公开了数据源的详细配置。在该模型的技术报告中,详细描述了从音频编码器预训练到指令微调的全流程。

作为小米“人车家全生态”战略的关键技术,MiDashengLM拥有强大的跨领域理解和语音、环境声与音乐分析能力。它不仅能够理解用户的日常生活中的各种声音和环境,还能从这些声音中挖掘出隐藏的信息,提升场景的理解泛化性。这无疑为小米智能家居产品的进一步发展提供了强有力的支撑。

基于 MiDashengLM 的模型通过自然语言处理技术,实现了与用户的高效交互和个性化的沟通。它不仅能够为用户提供唱歌、外语练习等场景下的精准反馈和定制提升方案,还能在驾驶过程中即时回答环境噪音问题。这种智能化方式使交流更加人性化和便捷。

MidasengLM 由 Xiaomi Dasheng 音频编码器构成,是 Xiaomi Dasheng 系列模型的重要革新。在当前版本的基础上,小米正致力于提升计算效率,以实现模型在终端设备上的离线部署,并增加基于用户自然语言提示的更全面声音编辑功能。

xiayx附 MiDashengLM 开源地址:

GitHub 主页:https://github.com/xiaomi-research/dasheng-lm

技术报告:https://github.com/xiaomi-research/dasheng-lm/tree/main/technical_report

模型参数(Hugging Face):https://huggingface.co/mispeech/midashenglm-7b

模型参数(魔搭社区):https://modelscope.cn/models/midasheng/midashenglm-7b

网页 Demo: https://xiaomi-research.github.io/dasheng-lm

交互 Demo:https://huggingface.co/spaces/mispeech/MiDashengLM

热门推荐