WWW.VNIRY.CN
标签聚合 ASR

/tag/ASR

www.ithome.com · 2026-04-30 18:15:35+08:00 · tech

IT之家 4 月 30 日消息,华擎 (ASRock) 今日于 Taichi 系列推出首款纯白设计主板 X870E Taichi White。这一型号采用有别于原版 X870E Taichi 的数字科幻风格纯白设计语言, 为 Taichi 系列带来耳目一新的视觉体验 。 华擎表示,X870E Taichi White 在外观设计上营造出宛如来自异时空的未来感,象征这款白色 Taichi 主板如同穿梭时空而来的科技结晶,模糊了现代与未来、现实与虚拟之间的界线,在无限之上再次进化突破。 硬件规格方面,X870E Taichi White 搭载 24+2+1 相 110A SPS 供电,配备 2 组 PCIe Gen5 物理全长插槽,连接性方面搭载 10GbE LAN 与 Wi-Fi 7 WLAN 以及 2 个 USB-C 40Gbps,64MB BIOS ROM 也使其可支持未来 AM5 处理器升级需求。

www.ithome.com · 2026-04-24 21:19:21+08:00 · tech

IT之家 4 月 24 日消息,阶跃星辰今日宣布推出新一代自动语音识别模型 StepAudio 2.5 ASR。 该模型的核心突破在于率先将大语言模型的推理加速技术引入语音识别领域,在推理速度与转写精度两个维度均有显著提升,主要面向会议转写、语音交互、输入法、媒体内容处理、长音频识别等场景。 传统语音识别模型受限于自回归生成机制,需要逐个 Token 依次输出,效率较低。StepAudio 2.5 ASR 采用 ASR+MTP-5 深度融合架构,将此前应用在 Step 3.5 Flash 大模型上的 MTP(IT之家注:多 Token 预测)技术移植至语音识别领域。该技术使模型能够一次预测多个候选 Token,并通过并行验证机制快速确认结果,打破了传统自回归机制逐个输出的效率瓶颈。 实测数据显示,模型推理速度提升 400%、时延降低 60%,推理峰值达 500 tokens/s,推理成本直降 80%。以 5 分钟左右的音视频为例,几乎可以实现即时转写。 在转写精度方面,StepAudio 2.5 ASR 在覆盖新闻播报、会议访谈及强噪声环境的多个中英文权威测试集上,综合转写精度达到业内 SOTA 水准。在 LibriSpeech 等中英文 10 个权威开源测试集上的综合错误率均低于竞品。 针对长音频处理这一语音识别领域的长期痛点,行业内通常依赖“切片-转写-拼接”方案,即把音频切成若干小段分别识别再合并,但这种方式容易造成上下文信息割裂 —— 模型在转写后半段内容时,可能已经“忘记”了开头信息。StepAudio 2.5 ASR 复用了大语言模型原生的 32K 上下文窗口能力,支持端到端一次性读入最长 30 分钟的连续音频,无需分段切割。在 30 分钟满载输入测试中,模型没有出现随时间推移精度衰减的情况。 定价方面,StepAudio 2.5 ASR 仅为 0.15 元 / 小时,约为此前 Step ASR 2 的十分之一。目前,该模型已全量上线阶跃星辰开放平台和 Step Plan,开发者可通过官网体验使用。 相关阅读: 《 人人都能是配音导演,阶跃星辰发布语音生成模型 StepAudio 2.5 TTS 》 参考资料: 阶跃星辰开放平台: https://platform.stepfun.com/docs/zh/guides/models/stepaudio-2.5-asr Step Plan: https://platform.stepfun.com/docs/zh/step-plan/integrations/audio-api 体验中心: https://www.stepfun.com/studio/audio ?tab=speech-recognition Demo Page: https://stepaudiollm.github.io/step-audio-2.5-asr/ Model Card: https://stepaudiollm.github.io/step-audio-2.5-asr/model-card/

www.ithome.com · 2026-04-24 07:34:22+08:00 · tech

IT之家 4 月 24 日消息,小米今日正式发布 MiMo-V2.5-TTS Series 与 MiMo-V2.5-ASR —— 一套面向 Agent 时代的全链路语音模型系列, 覆盖识别与合成两大核心能力 ,让语音的输入与输出都可以被语言自由调度。 IT之家从官方介绍获悉,MiMo-V2.5-TTS Series 包含三款模型,现已登陆 小米 MiMo 开放平台 ,并且 限时免费 。三者共享统一的风格指令遵循、音频标签控制与文本理解能力,让声音表现可以被语言精细调度,分别覆盖三种典型创作需求: MiMo-V2.5-TTS: 内置多款高质量精品音色,支持语速、情绪、语气等精细化控制,开箱即用,满足多场景表达。 MiMo-V2.5-TTS-VoiceDesign: 一句话快速定义并生成全新音色,让音色创作更直观、更高效。 MiMo-V2.5-TTS-VoiceClone: 少量样本高保真复刻目标音色,同时保持稳定的风格指令遵循与音频标签控制能力。 MiMo-V2.5-ASR 正式开源。 模型在中英双语、中文方言、Code-Switch、强噪音、多说话人等复杂真实场景下的语音识别性能达到业界领先水平,为 Agent 提供清晰可靠的语音转写,确保每一次交互都建立在精准的理解之上。 MiMo-V2.5-TTS 精准的风格指令遵循能力 从简短的单句指令,到一整份导演笔记,模型都能稳定理解并遵循,覆盖情绪、语气、语速、发声方式、语言风格等多个维度。指令不必写成结构化参数 —— 像给演员说戏一样把想要的感觉描述出来,模型就会落到对应的演绎之中。 对于一致性要求更高的场景 —— 有声剧、游戏 NPC、角色化对话等 —— 模型还支持 导演剧本级 的结构化输入:把 人物 、 场景 、 详细指导 分层描述,各层按自己的节奏独立更新、自由组合。这种分层既让角色的音色身份贯穿始终,也让每一句话的表演都能被单独控制。 灵活的音频标签控制能力 除了段落级的自然语言指令,模型还支持行内音频标签,用于在文本特定位置精准控制情绪、状态或风格。标签支持中英双语和开放文本描述,允许在同一段文本中灵活混用。从简单的情感标注,到多标签叠加、细粒度排布的复杂编排,模型都能稳定表达,在标签的表达力和组合稳定性上均有出色表现。 丰富的文本理解能力 即便没有任何 prompt,也没有任何标签 —— 就是一段最普通的文本 —— 模型也能直接表现出其中的韵律与情感。标点的停顿、句式的起伏,会被自然呈现;文本中暗藏的情感弧线,从平静叙述到激烈转折,模型能主动捕捉;甚至连字里行间透露出的说话人身份(年龄、气质、角色类型),也会自动落到声音里。换句话说:最朴素的纯文本,交给它,也能还你一段有血有肉的演绎。 MiMo-V2.5-ASR 如果说 TTS 是在“输出”端让声音成为创作工具,那么 ASR 就是在“输入”端为这一切打开大门。在真实场景下,语种切换、背景噪声、说话人带着浓重的方言口音,在这样的环境里还能听清、听准,才是真正好用的语音识别。 MiMo-V2.5-ASR 作为全链路语音模型系列的听觉基座,在中英双语、中文方言、Code-Switch、强噪音、多说话人、高知识密度等复杂真实场景下均达到业界领先水平。它不只是为了把清晰的语音转成文字,更是让 Agent 在嘈杂的真实声音里,抓住每一个值得被理解的字词。 核心特点 中文方言:支持吴语、粤语、闽南语、四川话等方言 英文复杂场景:在 AMI 等复杂英文场景 Open ASR Leaderboard 上达到领先水平 Code-Switch:中英 Code-Switch 语音转录自由流畅,无需预设语种标签 歌曲识别:中英文歌曲歌词识别,在伴奏与人声混合场景下保持高精度 强噪音场景:在高噪音、远场拾音等复杂声学环境中保持鲁棒识别 多说话人:支持多人交叉对话场景的准确转录,如会议场景 强知识关联:古诗词、专业术语、人名、地名等知识密集型内容的精准识别 原生标点:结合语音韵律与语义原生输出标点,转写结果即拿即用,无需后处理 性能表现 MiMo-V2.5-ASR 在中英文通用、中文方言、Code-Switch 及歌词识别等多个维度上均取得当前最优或极具竞争力的结果,展现出跨场景、跨语种的稳定优势。以下为代表性评测结果: 如何使用 MiMo-V2.5-TTS、MiMo-V2.5-TTS-VoiceDesign、MiMo-V2.5-TTS-VoiceClone 均在 Xiaomi MiMo API 开放平台限时免费,同时,用户可以到 Xiaomi MiMo Studio 进行快速体验。 MiMo-V2.5-ASR 目前已开源模型权重和代码,支持开发者和研究者直接使用或二次开发。 参考 Xiaomi MiMo API 开放平台限时免费 Xiaomi MiMo Studio 快速体验 MiMo-V2.5-ASR Demo page MiMo-V2.5-ASR 项目开源地址 MiMo-V2.5-ASR 权重开源地址 MiMo-V2.5-ASR Huggingface space:

www.ithome.com · 2026-04-20 14:29:18+08:00 · tech

IT之家 4 月 20 日消息,4 月 20 日(今天)下午,阿里通义实验室正式推出语音识别大模型 Fun-ASR1.5。 其基于统一的大模型架构,单模型即可 覆盖 30 种语言、汉语七大方言体系及 20+ 地方口音 ,古诗词吟诵也能精准转写。目前,Fun-ASR1.5 已在阿里云百炼平台正式上线,面向教育、传媒、金融、科技、文化等各行业客户提供 API 服务。 在一些“高难度”的跨语言切换(Code-Switching)场景下,它也能应对自如。比如, 同一段对话里夹杂多种语言 ,模型也能准确识别,无需提前告诉它接下来要说哪种语言。Fun-ASR1.5 现在可以做到无需预设语种标签,就自动识别并切换,保证转写的准确性。 据IT之家了解,该能力源于模型的架构和训练创新。MoE(混合专家)架构让模型内部可以分工协作,听到特定语言时 仅激活相关部分进行处理 ,因而更为灵活高效。同时,在训练阶段分级、分阶段地使用精准数据,也让模型能更好地应对真实世界中的复杂语音情况。 在中文本土化方面,基于数十万小时真实方言语音数据的“喂养”,Fun-ASR1.5 的平均字错误率(CER)相比上一版本下降 56.2%。 Fun-ASR1.5 可原汁原味还原方言,如上海话的“侬”、苏州话“倷”(均指“你”),为下游模型处理方言文字提供了准确的基础语料。 Fun-ASR1.5 对中文古诗词识别进行专项优化。研究团队构建了先秦至近代的古诗词语音-文本对齐语料库,涵盖《诗经》《楚辞》、李白杜甫诗集、苏轼辛弃疾词作等经典文本的真人诵读录音。 在内部评测集中,Fun-ASR1.5 对古诗词的字符级准确率达到 97% ,可应用于国学在线课程和有声诗词,助力文化传承。 模型还可以基于上下文语义自动插入逗号、句号、问号、感叹号等标点,使转写结果接近书面表达。例如输入语音:“今天天气怎么样啊我想出去走走但又怕下雨”,输出文本就是“今天天气怎么样啊?我想出去走走,但又怕下雨。” 其还支持将口语中的非标准表达自动转换为规范格式: 数字:“三千五百六十二” → “3562” 日期:“二零二六年三月二十九号” → “2026 年 3 月 29 日” 金额:“五万八千块” → “58000 元” 电话:“幺三八零零幺三八零零零” → “13800138000” 这些改进大幅降低了会议纪要、新闻采访整理、法律笔录等场景的后期人工校对和编辑成本。 目前,用户可在阿里云百炼平台调用其 API,或在魔搭社区直接体验。 阿里云百炼: https://bailian.console.aliyun.com/cn-beijing ?tab=model# /efm/model_experience_center/voice ?modelId=fun-asr 魔搭社区: https://modelscope.cn/studios/iic/FunAudio-ASR

36kr.com · None · tech

36氪获悉,4月20日,阿里巴巴发布端到端语音识别大模型Fun-ASR1.5 ,无需预设语种标签,单一模型即可高精度识别30种语言。此前,Fun-ASR1.0已用于钉钉AI听记、DingTalk A1录音机等智能硬件。全新升级的1.5版本覆盖中文七大方言体系及二十余种地方口音,并强化古诗词诵读的专项识别,将应用场景拓宽至跨国企业、国际会议、多语直播、县域政务服务以及古诗词教育等。