
前沿多模态大模型:论文与实战
文章平均质量分 91
欢迎订阅本专栏,聚焦多模态大模型的前沿技术与工业落地实践:
一、最新模型技术拆解:逐层拆解GPT-4o、Gemini等顶尖模型的流式架构、训练策略与推理优化方案
二、论文精读:精选ICML/NeurIPS顶会论文,提炼可复现的创新点与避坑指南
三、企业级实战:模型训练、部署,形成应用案例
kakaZhui
人工智能算法工程师,精通大模型算法以及RAG,Agent等
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
小米最新ASR音频大模型MiDashengLM
ACAV100M 的原始音频经过一系列“专家”模型(如 Whisper, CED, DNSMOS)进行自动标注,然后由一个推理 LLM 将这些元信息整合成最终的通用音频字幕。MiDashengLM 的设计哲学,是从根本上改变 LALM 与音频交互的方式,让模型从一个只关注内容的“听写员”,转变为一个能够捕捉整个音频场景的“速记员”。为了自动为 ACAV100M 生成高质量的通用字幕,团队设计了一个创新的。完全开放**的技术路线,为 LALM 领域带来了深刻的启示和宝贵的资源。为此,团队基于公开的。原创 2025-08-05 10:41:14 · 195 阅读 · 0 评论 -
【读论文】基于llm的ASR后纠错_带口音ASR
传统 GER 的局限在于,它只“看”ASR 给出的文本候选,而听不到原始的语音。该论文的核心思想就是,让 LLM 在纠错时,不仅能“看”到 ASR 的文本候选,还能“听”到原始语音的发音特征,并能“分析”到音素级别的发音细节。传统的 ASR 后处理方法,如基于语言模型 (LM) 的重打分 (rescoring) 或简单的文本纠错,在处理口音问题时常常力不从心,因为它们。,即利用 LLM 的强大语言和推理能力,将 ASR 的候选识别结果 (hypotheses) 纠正为正确的文本,展现出超越传统方法的潜力。原创 2025-08-01 14:25:18 · 415 阅读 · 0 评论 -
【读论文】Step-Audio 2 深度解读:迈向工业级语音交互的「全能型选手」
从简单的语音指令到流畅的语音对话,我们对 AI 的期望越来越高。为了实现这一目标,StepFun 团队在 Step-Audio 和 Step-Audio-AQAA 的基础上,推出了全新的。Step-Audio 2 在多个公开基准和自建基准上,与顶尖的开源和商业模型进行了全面的比较,展现了其 SOTA 级的性能。Step-Audio 2 的训练过程是一个精心设计的多阶段流程,旨在逐步构建和增强其各项能力。的方式,将一个强大的文本 LLM,逐步改造和提升为一个全能的语音交互模型。原创 2025-07-30 21:00:49 · 37 阅读 · 0 评论 -
深度解析 noisereduce:开源音频降噪库实践
是一个基于 Python 的开源音频降噪库,专注于为科研、工程和日常应用提供简单高效的噪声抑制工具。该项目由 Tim Sainburg 维护,核心算法基于频谱减法(Spectral Gating),无需深度学习或复杂训练,适合快速集成到音频处理、语音识别、播客后期、科学实验等多种场景。零门槛:无需训练,直接调用即可降噪兼容性强:支持 numpy 数组、wav 文件等多种输入可调节参数丰富,适应不同噪声环境支持单通道和多通道音频纯 Python 实现,依赖少,易于集成。原创 2025-07-26 22:43:00 · 493 阅读 · 0 评论 -
【读代码】Facebook Denoiser:开源端到端语音降噪系统原理与实战
Denoiser是 Facebook Research 开源的端到端语音降噪系统,专为实时语音通信、录音、流媒体等场景设计。Denoiser 采用纯时域神经网络(Conv-TasNet 变体),无需传统频谱处理,直接对原始音频波形进行建模,能高效去除多种环境噪声,提升语音清晰度。端到端时域建模,无需 STFT 频谱支持实时流式降噪,低延迟适配多种噪声类型(环境、音乐、人声等)训练与推理代码开源,支持自定义训练兼容 PyTorch,易于集成和二次开发。原创 2025-07-23 20:38:42 · 99 阅读 · 0 评论 -
【读代码】李沐团队开源音频大模型 Higgs Audio V2
是 Boson AI 团队开源的多模态音频大模型项目,致力于打造通用音频理解与生成的基础设施。Higgs-Audio 支持音频转文本(ASR)、文本转音频(TTS)、音频事件检测、音频检索、音频问答等多种任务,具备强大的多任务、多语言、多模态能力。支持音频理解(ASR、事件检测、音频问答等)与音频生成(TTS、音频合成等)多模态输入(音频、文本、图片等)与多模态输出基于 Transformer/LLM 架构,具备强泛化能力开放模型权重、推理代码与训练框架。原创 2025-07-23 20:28:07 · 200 阅读 · 0 评论 -
【读代码】深度解析 RNNoise:开源实时语音降噪的经典之作
RNNoise是由 Xiph.Org 基金会开发并开源的实时语音降噪库。它将传统信号处理与轻量级循环神经网络(RNN)相结合,能够在极低的计算资源下实现高质量的语音降噪。RNNoise 以 C 语言实现,适合嵌入式、移动、桌面等多种平台,广泛应用于 VoIP、会议、直播、智能硬件等场景。端到端实时语音降噪,延迟极低轻量级 RNN,CPU 占用极小(树莓派等设备可流畅运行)支持多种噪声类型(环境噪声、人声、回声等)易于集成到现有音频处理链路完全开源,BSD 许可。原创 2025-07-19 22:51:55 · 157 阅读 · 0 评论 -
开源工具DeepFilterNet:实时语音降噪
是一款专为实时语音降噪设计的轻量级深度学习模型,由 Rikorose 等开发并开源。该项目以低延迟、高音质、低资源消耗为目标,适用于嵌入式设备、桌面应用、流媒体等多种场景。DeepFilterNet 支持多种平台(如 Linux、Windows、Mac、Raspberry Pi),并提供了 C/C++、Python、Rust 等多语言接口,便于集成到各类语音通信系统中。主要特点端到端实时语音降噪极低延迟(<10ms),适合通话、会议、直播等场景轻量级,适配嵌入式与移动设备。原创 2025-07-13 21:28:15 · 145 阅读 · 0 评论 -
FunASR fsmn-vad 模块深度解析:高效端到端语音活动检测方案
FunASR是阿里巴巴达摩院开源的端到端语音识别工具箱,集成了多种语音识别、语音活动检测(VAD)、说话人识别等模块。其中fsmn-vad是 FunASR 提供的高效、轻量级、工业级语音活动检测(Voice Activity Detection, VAD)方案,基于 FSMN(Feedforward Sequential Memory Network)结构,兼具高精度与低延迟,广泛应用于语音前端、流式 ASR、智能硬件等场景。主要特点端到端、轻量级、低延迟支持流式/离线推理。原创 2025-07-12 14:33:05 · 404 阅读 · 0 评论 -
【读代码】开源音乐分离工具Spleeter
Spleeter是由 Deezer Research 开发并开源的音乐源分离工具,基于 TensorFlow 实现,内置多种预训练模型,支持将混合音频一键分离为人声、伴奏、鼓、贝斯、钢琴等多个音轨(stem)。Spleeter 以其高效、易用、分离效果优异等特点,成为音乐信息检索(MIR)领域的事实标准工具之一。支持分离类型2 stems:人声/伴奏4 stems:人声/鼓/贝斯/其他5 stems:人声/钢琴/鼓/贝斯/其他应用场景。原创 2025-07-11 16:50:06 · 168 阅读 · 0 评论 -
LLaMA-Omni 深度解析:打开通往无缝人机语音交互的大门
与传统的 ASR 数据(语音->文本)或 TTS 数据(文本->语音)不同,这种 Speech-to-Speech (S2S) 的数据格式是训练端到端语音对话模型的关键。让我们深入其内部,探寻其工作原理。由于 LLM 的自回归(Auto-regressive)生成特性,文本和声学 Token 是一个接一个被预测出来的,这就天然地实现了文本显示和语音播放的流式同步,带来了极佳的实时交互体验。LLaMA-Omni 的运行依赖三个核心的预训练模型:作为大脑的 LLM,作为耳朵的语音编码器,以及作为嘴巴的声码器。原创 2025-07-09 20:05:29 · 112 阅读 · 0 评论 -
【读论文】GLM-4.1V-Thinking 解读:用强化学习解锁 VLM 的通用推理能力
GLM-4.1V-Thinking 不仅仅是一个强大的开源 VLM,更重要的是,它为我们展示了一套以推理为中心、以可扩展 RL 为核心驱动力的 VLM 训练框架。通过知识密集型的预训练对齐思维模式的 SFT,以及创新的带课程采样的强化学习 (RLCS),GLM-4.1V-Thinking 成功地将其强大的基础能力,系统性地、高效地转化为了在多个复杂领域的卓越推理能力。原创 2025-07-08 23:01:40 · 174 阅读 · 0 评论 -
【读代码】GLM-4.1V-Thinking:开源多模态推理模型的创新实践
GLM-4.1V-Thinking是清华大学KEG实验室推出的新一代开源视觉语言模型,基于GLM-4-9B-0414基础模型构建。该项目通过引入"思维范式"和强化学习课程采样(RLCS)技术,显著提升了模型在复杂任务中的推理能力。64k超长上下文支持:可处理长达64k token的输入序列4K分辨率处理:支持任意纵横比的图像输入多模态推理强化:在数学推理、长文本理解等18项基准测试中超越72B参数模型中英双语支持:原生支持中文和英文的混合输入。原创 2025-07-08 22:33:50 · 113 阅读 · 0 评论 -
【读代码】深度解析TEN VAD:实时语音活动检测的高性能开源解决方案
TEN VAD是TEN生态系统中的核心组件,专为企业级实时语音交互场景设计。作为轻量级、低延迟的语音活动检测系统,其在检测精度(F1=0.91)和计算效率(RTF=0.0086)上均超越行业标杆WebRTC VAD和Silero VAD,特别适合需要快速响应的人机对话系统。原创 2025-07-07 21:23:26 · 83 阅读 · 0 评论 -
【实战】如何训练一个客服语音对话场景VAD模型
VAD本质上是一个二分类任务(语音/非语音),因此需要对音频进行逐帧(或逐时间段)的标注。标注工具:使用Audacity, Praat, Label-Studio等音频标注工具。标注粒度:通常以毫秒为单位,标注出每个语音片段的起始和结束时间。明确标注规则核心问题:什么是“语音”?严格定义:只标注包含明确词义的人类说话声。宽松定义:除了说话声,还包括笑声、哭声、叹息、咳嗽等人类发出的声音。选择哪种定义取决于下游任务的需求。例如,如果下游需要分析客户情绪,那么哭声和笑声也应该被标注为“语音”。原创 2025-07-06 22:48:57 · 69 阅读 · 0 评论 -
【读论文】DeepEyes 复刻openai o3的看图思考能力
状态 (State,s_t: 包含了到当前步骤t为止的所有文本 Token 序列X_<t和所有图像观察序列I_<t(包括原始图像和所有裁剪图像)。动作 (Action,a_t: 模型在状态s_t下生成的下一个 Token。这个 Token 可以是普通文本 Token,也可以是工具调用指令 Token。策略 (Policy,π_θ: 即 VLM 自身,根据当前状态s_t输出下一个动作(Token)的概率分布。奖励 (Reward,R(τ): 在一个完整的 iMCoT 轨迹τ。原创 2025-06-17 20:42:31 · 164 阅读 · 0 评论 -
Step-Audio-AQAA 解读:迈向「纯语音」交互的端到端 LALM 新里程
Step-Audio-AQAA 的架构核心是一个强大的多模态 LLM,通过双码本音频 Tokenizer 进行输入编码,并通过一个专门针对音频 Token 的神经声码器进行输出解码,实现了从音频到音频的直接映射。Step-Audio-AQAA 以其纯粹的端到端设计理念、创新的双码本音频 Tokenizer、文本-音频交错式输出以及针对性的后训练策略,为构建下一代智能语音交互系统树立了新的标杆。Step-Audio-AQAA 的架构由三个核心模块组成,它们紧密协作,实现了从音频理解到音频生成的完整闭环。原创 2025-06-14 22:47:37 · 340 阅读 · 0 评论 -
【读代码】BAGEL:统一多模态理解与生成的模型
BAGEL是字节跳动推出的开源多模态基础模型,具有70亿激活参数(140亿总参数)。支持精确的区域修改,保留背景细节的同时实现材质变换。可生成360度视角序列,适用于电商3D展示。基于首帧预测后续动态过程,支持自然现象模拟。通过数据层面的多任务交织,实现统一表征学习。原创 2025-05-25 00:07:48 · 408 阅读 · 0 评论 -
【读代码】端到端多模态语言模型Ultravox深度解析
Ultravox是由Fixie AI团队开发的开源多模态大语言模型,专注于实现音频-文本的端到端实时交互。项目基于Llama 3、Mistral等开源模型,通过创新的跨模态投影架构,绕过了传统语音识别(ASR)的中间步骤,可直接将音频特征映射到语言模型的高维空间。原创 2025-05-17 22:53:46 · 311 阅读 · 0 评论 -
从openai图文对比模型clip到具身智能vlm agent
CLIP(Contrastive Language-Image Pre-Training)是OpenAI 2021年推出的多模态预训练模型,通过4亿个互联网图像-文本对进行对比学习训练。首创自然语言作为监督信号在零样本场景下超越传统监督模型支持跨模态语义对齐(ImageNet零样本准确率达76.2%)原创 2025-05-15 19:36:32 · 99 阅读 · 0 评论 -
【读代码】Qwen2.5-Omni 深度解析
全模态感知:无缝处理文本/图像/音频/视频输入多模态生成:实时流式生成文本和自然语音超强泛化:单模态性能媲美专用模型,多模态任务SOTA。原创 2025-05-13 17:49:23 · 196 阅读 · 0 评论 -
深度剖析多模态大模型中的视频编码器算法
随着多模态大型语言模型(MLLM)的兴起,AI 理解世界的能力从静态的文本和图像,进一步拓展到了动态的、包含丰富时空信息的视频。视频作为一种承载了动作、交互、场景变化和声音(虽然本文主要聚焦视觉部分)的复杂数据形式,为 MLLM 提供了理解真实世界动态和因果关系的关键线索。然而,要让 LLM 有效地“消化”和理解视频内容,一个强大的视频编码器(Video Encoder)是不可或缺的“前端”。原创 2025-05-11 22:32:07 · 309 阅读 · 0 评论 -
全模态具身智能:从 VLM 到 MLLM
人工智能的感知边界正在以前所未有的速度扩展。最初,我们惊叹于大型语言模型(LLM)对文本的深刻理解和流畅生成。很快,视觉语言模型(Vision-Language Models, VLM)登场,让 AI 第一次真正“看见”了世界,能够理解图像内容并将其与语言关联,实现了“看图说话”、“图像问答”等功能。然而,真实世界远比静态图像和文本描述要丰富得多。它充满了动态的视频、环境的声音、人类的语音,以及我们与之交互的物理实体。为了让 AI 更全面地感知、理解并最终融入这个复杂的世界,研究者们正致力于构建更强大的。原创 2025-05-11 22:14:44 · 248 阅读 · 0 评论 -
LLaVA:开源多模态大语言模型深度解析
LLaVA(Large Language and Vision Assistant)是由Haotian Liu等人开发的开源多模态大语言模型,旨在实现GPT-4级别的视觉-语言交互能力。该项目通过视觉指令微调技术,将预训练的视觉编码器与语言模型深度融合,在多个多模态基准测试中达到SOTA水平。核心特点支持336x336高分辨率图像处理兼容LLaMA、Vicuna、Mistral等多种基座模型提供4-bit/8-bit量化推理能力支持LoRA高效微调在单卡3090 GPU上即可完成训练。原创 2025-05-10 17:51:03 · 903 阅读 · 0 评论 -
【具身智能算法入门】VLM/VLA 算法入门指南
人工智能的浪潮正从纯粹的语言理解和生成,涌向更广阔、更复杂的具身智能 (Embodied AI)领域。我们不再满足于让 AI 在数字世界中处理文本,而是期望它们能够感知物理世界、理解多模态信息、并基于此进行决策和行动。在这个激动人心的前沿,视觉语言模型 (Vision-Language Models, VLM)和视觉语言 Agent (Vision-Language Agents, VLA)扮演着核心角色。原创 2025-05-10 15:46:40 · 771 阅读 · 0 评论 -
深度解析RealtimeVoiceChat:实时AI语音对话系统的架构与实现
修改emotion="happy" # 支持多种情感参数。原创 2025-05-09 09:31:14 · 292 阅读 · 0 评论 -
阿里语音处理工具ClearerVoice-Studio项目上手指南
【代码】阿里语音处理工具ClearerVoice-Studio项目上手指南。原创 2025-04-28 18:16:43 · 828 阅读 · 0 评论 -
通过数据增强打造抗噪音多模态大模型
未来的研究将继续探索更先进的数据增强技术(如基于生成模型的增强)、更智能的噪音感知与处理机制,以及更高效的训练方法,持续推动 MLLM 在复杂声学环境下的性能边界。,我们可以将这些抗噪音数据的作用发挥到极致,最终打造出能够在各种真实场景下稳定、可靠工作的多模态大模型,让 AI 的“耳朵”真正无惧喧嚣,“声”入人心。除了对干净语音进行增强,我们还可以构建一些特殊类型的训练数据,进一步提升模型的抗噪音能力和特定场景下的交互能力。:需要大量的、多样化的噪音/无效语音样本,以及明确的标签来教会模型区分。原创 2025-04-27 17:40:14 · 468 阅读 · 0 评论 -
Kimi-VL 解读:高效 MoE 视觉语言模型VLM,兼顾长上下文与高分辨率
Moonshot AI 推出了Kimi-VL,一个高效的、开源的、基于混合专家(MoE)架构的视觉语言模型。高效 MoE 架构:语言解码器采用 MoE 架构,在保持强大能力的同时,显著降低了推理时的激活参数量(仅激活 2.8B 参数),提高了效率。原生高分辨率视觉编码:引入MoonViT视觉编码器,能够原生处理不同分辨率的图像输入,无需复杂的分割拼接。长上下文理解:支持128K的上下文窗口,能够处理长视频和长文档。强大的推理能力:不仅在标准 VLM 基准上表现出色,还推出了。原创 2025-04-14 17:51:44 · 344 阅读 · 0 评论 -
揭秘多模态大模型如何处理图片
方案优点缺点适用场景CNN (如 ResNet)成熟, 高效, 局部性/平移不变性归纳偏置, 预训练模型多全局建模能力弱, 感受野受限, 对输入尺寸敏感对计算资源有限, 或需要强局部特征的任务ViT (标准)全局感受野, 可扩展性强, 架构与 LLM 统一缺乏图像归纳偏置, 计算复杂度高 (平方级), 对大数据量依赖数据充足, 需要强全局建模能力的任务ViT (层级/Swin)平衡效率与性能, 多尺度特征模型设计相对复杂大多数视觉任务的良好选择CLIP ViT强大的图文对齐能力。原创 2025-04-13 21:06:06 · 223 阅读 · 0 评论 -
Video Encoder:多模态大模型如何看懂视频
大型语言模型(LLM)已经掌握了理解文本的超能力,而多模态大模型(MLLM)则更进一步,让 AI 拥有了“看懂”图像的眼睛。但这还不够!真实世界是动态的、流动的,充满了运动、变化和声音。视频,正是承载这一切动态信息的关键媒介。让 LLM 看懂视频,意味着 AI 需要解锁一系列新技能:理解动作事件、把握时序关系、建立因果联系、关联声音画面、捕捉长期依赖… 这比看懂静态图片要复杂得多!视频数据**高维度、长时序、多模态(视+听)**的特性,给模型带来了巨大的挑战。原创 2025-04-12 14:49:12 · 484 阅读 · 0 评论 -
【多模态mllm之audio encoder】openai whisper模型解析
解码器的一个关键特征是使用绑定的输入-输出标记表示,其中相同的权重矩阵既用于嵌入输入标记,也用于将最终的隐藏状态投影到词汇空间以进行标记预测。将原始音频转换为对数梅尔频谱图是一个关键的预处理步骤,它将信号转换为更符合人类听觉感知的表示形式,并且更有效地被神经网络处理,突出了与语音识别最相关的频率分量。这些参数表明,模型具有深层结构,能够捕获复杂的语音模式。此外,模型的训练数据超过 680,000 小时,涵盖多语言和多任务监督数据,包括剪辑、TED 演讲、播客和采访等,这使其接近人类水平的鲁棒性和准确性。原创 2025-04-08 17:06:53 · 397 阅读 · 0 评论 -
VITA 模型解读,实时交互式多模态大模型的 pioneering 之作
今天回顾一下多模态模型VITA,当时的背景是OpenAI 的 GPT-4o 惊艳亮相,然而,当我们将目光投向开源社区时,却发现能与之匹敌的模型寥寥无几。模态支持不全:大多聚焦于文本和图像,对音频、视频的支持有限。交互体验割裂:难以实现真正的实时、低延迟、可打断的自然语音交互。端到端能力不足:往往依赖于多个独立模型的级联(如 ASR-LLM-TTS),存在错误累积和优化困难的问题。在这样的背景下,应运而生。由腾讯优图实验室等机构联合推出的 VITA,被誉为。原创 2025-03-30 23:32:02 · 247 阅读 · 0 评论 -
Qwen2-Audio Qwen2.5-VL Qwen2.5_Omni傻傻分不清
Whisper 类音频编码器 + LLM。Qwen2.5-VL:ViT 类视觉编码器 + Qwen2.5 LLM。流式音频/视觉编码器Talker (双轨 AR Transformer)流式语音 Codec 解码器 (DiT + BigVGAN)TMRoPE (音视频时序对齐)Thinker-Talker (文本语音并发生成)特性Qwen2.5-VL核心目标音频理解视觉理解统一多模态理解与生成 (文本+语音)主要输入音频, 文本图像, 视频, 文本。原创 2025-03-27 18:00:21 · 445 阅读 · 0 评论 -
【Qwen开源新鲜出炉】Qwen2.5-Omni:极致多模态交互
*多模态大模型(MLLM)**应运而生。它们试图打破模态之间的壁垒,让 AI 不仅能“读懂”文字,还能“看见”图像、“听见”声音、“理解”视频。近年来,我们见证了 MLLM 的飞速发展,从理解图文到处理视频,再到实现语音对话,其能力边界不断拓展。然而,构建一个真正统一、智能、且能实时交互多模态信息的融合:如何有效地融合来自不同模态(文本、图像、音频、视频)的信息,实现跨模态的理解和推理?时序同步:如何处理视频中音频和视觉信号的时间同步问题?并发生成。原创 2025-03-27 12:01:31 · 578 阅读 · 0 评论 -
Freeze-Omni:冻结 LLM,实现语音对话
一起来读语音chat模型方法的经典论文,Freeze-Omni原创 2025-03-19 22:35:29 · 169 阅读 · 0 评论 -
Qwen2-Audio:通义千问音频大模型技术解读
Qwen2-Audio 的这些改进,使得它在多项任务上都取得了 SOTA(State-of-the-Art)的性能,尤其是在音频相关的指令跟随任务上,表现尤为出色。它不仅能够准确地将一种语言的语音翻译成另一种语言的文本,还能在多语种混合的场景下,保持较高的翻译质量。通过这三个步骤的训练,Qwen2-Audio 不仅掌握了丰富的音频和语言知识,还具备了强大的指令跟随能力和生成高质量文本的能力。Qwen2-Audio 的成功,并非源于复杂的模型架构或繁琐的训练流程,而是源于对问题的深刻理解和对技术的巧妙运用。原创 2025-03-18 23:51:58 · 941 阅读 · 0 评论 -
Ultravox:融合whisper+llama实现audio2text交互
Ultravox是由Fixie AI开发的一种创新型多模态大语言模型,专为实时语音交互设计。与传统的语音交互系统不同,Ultravox无需单独的语音识别(ASR)阶段,可以直接理解文本和人类语音,实现更快速、更自然的交互体验。Ultravox v0.5在语音理解基准测试中超越了OpenAI的GPT-4o Realtime和Google的Gemini 1.5 Flash。本文将对Ultravox的模型架构、训练方法、推理性能等方面进行全面分析,以帮助读者深入了解这一前沿技术。原创 2025-03-10 22:58:47 · 261 阅读 · 0 评论 -
【实战项目】Python 手撕一个基于最新端到端大模型的语音聊天系统
近年来,随着深度学习技术的飞速发展,语音交互技术取得了显著的进步。从智能音箱到虚拟助手,语音交互已经渗透到我们生活的方方面面。错误累积:每个模块的错误都会传递到下一个模块,导致最终结果的偏差。高延迟:多个模块串行处理,增加了系统的响应时间。难以优化:各个模块独立训练,难以进行端到端的联合优化。为了解决这些问题,**端到端(End-to-End)**语音交互系统应运而生。端到端模型将语音输入直接映射到语音输出,省去了中间的文本转换环节,从而简化了系统架构,降低了延迟,提高了性能。原创 2025-03-05 16:11:42 · 178 阅读 · 0 评论 -
【模型对比】Moshi、MinMo 和 Step-Audio深度对比
Moshi、MinMo 和 Step-Audio 代表了当前 MLLM 在语音交互领域的最新进展。它们都致力于实现更自然、更智能、更实时的语音交互体验,但在技术路线上各有侧重。原创 2025-03-02 08:59:14 · 144 阅读 · 0 评论