首页 > 软件资讯 > 小米声音理解大模型 MiDashengLM-7B 发布并全量开源，22 个公开评测集刷新最好成绩

小米声音理解大模型 MiDashengLM-7B 发布并全量开源，22 个公开评测集刷新最好成绩

时间：2025-08-05 14:23:35

xiayx 8月4日消息，小米自研声音理解大模型 MiDashengLM-7B 今日正式发布，并全量开源。

据小米官方介绍，MiDashengLM-在速度与精度方面实现了显著突破：单样本首Token延迟仅为同类模型的四分之一，同显存下并发性能提升超过。该模型在公开评测集上刷新了多项多模态大模型的最佳成绩（SOTA）。

MiDashengLM- 是一种基于 Xiaomi Dasheng 的新型音频编码器与 QwenOmni- Thinker 的自回归解码器组合，通过独特的通用音频描述训练策略，实现了对语音、环境声音和音乐的全面理解。

，小米的Xiaomi Dasheng声音基座模型在全球首次超越了AudioSet 的平均准确率，并在国际上确立了在HEAR基准测试中的领先地位，特别是在环境声、语音和音乐三大领域持续保持领先优势。

Xiaomi Dasheng 在小米智能家居和汽车座舱等多个场景中拥有超过落地应用，行业首发了多项创新技术。其核心算法加持下，“打个响指”环境音关联 IoT 控制能力、车外唤醒防御、全天候监控异常声音以及增强哨兵模式的划车检测等技术功能，都成为了小米智能家居和汽车座舱的重要亮点。

MiDashengLM 的训练数据由 100% 的公开数据构成，模型以宽松的 Apache License 2.0 发布，同时支持学术和商业应用。

小米指出，不同于QwenOmni等未公开训练数据细节的模型，MiDashengLM完整公开了数据源的详细配置。在该模型的技术报告中，详细描述了从音频编码器预训练到指令微调的全流程。

作为小米“人车家全生态”战略的关键技术，MiDashengLM拥有强大的跨领域理解和语音、环境声与音乐分析能力。它不仅能够理解用户的日常生活中的各种声音和环境，还能从这些声音中挖掘出隐藏的信息，提升场景的理解泛化性。这无疑为小米智能家居产品的进一步发展提供了强有力的支撑。

基于 MiDashengLM 的模型通过自然语言处理技术，实现了与用户的高效交互和个性化的沟通。它不仅能够为用户提供唱歌、外语练习等场景下的精准反馈和定制提升方案，还能在驾驶过程中即时回答环境噪音问题。这种智能化方式使交流更加人性化和便捷。

MidasengLM 由 Xiaomi Dasheng 音频编码器构成，是 Xiaomi Dasheng 系列模型的重要革新。在当前版本的基础上，小米正致力于提升计算效率，以实现模型在终端设备上的离线部署，并增加基于用户自然语言提示的更全面声音编辑功能。

xiayx附 MiDashengLM 开源地址：

GitHub 主页：https://github.com/xiaomi-research/dasheng-lm

技术报告：https://github.com/xiaomi-research/dasheng-lm/tree/main/technical_report

模型参数（Hugging Face）：https://huggingface.co/mispeech/midashenglm-7b

模型参数（魔搭社区）：https://modelscope.cn/models/midasheng/midashenglm-7b

网页 Demo： https://xiaomi-research.github.io/dasheng-lm

交互 Demo：https://huggingface.co/spaces/mispeech/MiDashengLM