推广 热搜： 金设备中国公司参数未来行业教师企业政策

比OpenAI的Whisper快50%，最新开源语音模型

日期：2024-08-18 caijiyuan 评论：0 移动：http://wlb.glev.cn/news/7026.html

核心提示：声明：本文来自于微信公众号 AIGC开放社区作者：AIGC开放社区，授权转载发布。生成式AI初创公司aiOla在官网开源了语音模型Whisp

声明：本文来自于微信公众号 AIGC开放社区作者：AIGC开放社区，授权转载发布。

生成式AI初创公司aiOla在官网开源了语音模型Whisper-Medusa，推理效率比OpenAI开源的Whisper快50%。

aiOla在Whisper的架构之上进行了修改采用了“多头注意力”机制的并行计算方法，允许模型在每个推理步骤中预测多个token，同时不会损失性能和识别准确率。

开源地址:https://github.com/aiola-lab/whisper-medusa

huggingface:https://huggingface.co/aiola/whisper-medusa-v1

传统的Transformer架构在生成序列时，是遵循逐个token的顺序预测过程。这意味着在生成新序列时，模型每次只能预测下一个token，然后将这个预测的token加入到序列中，再基于更新后的序列预测下一个token。

这虽然能够确保生成序列的连贯性和上下文相关性，但也有一个非常明显的缺陷——极大限制了模型的推理效率。

此外，由于每次只能处理一个 token ，模型难以捕捉到数据中的长程依赖关系，可能会忽略一些重要的全局信息，从而影响模型的整体性能和准确性。

而Whisper-Medusa使用了10头的多注意力机制，能各自独立地计算注意力分布并行地处理输入，然后将各自的输出通过拼接的方式组合起来，形成一个多维度的向量。

随后向量被送入全连接层进行进一步的处理，以生成最终的token预测。这种并行的数据处理方式不仅加快了模型的推理效率，还增加了模型的表达能力，因为每个注意力头都可以专注于序列的不同子集，捕捉到更丰富的上下文信息。

为了使多头注意力机制在Whisper-Medusa模型中更高效地运行，aiOla采用了弱监督的方法，在训练过程中冻结了原Whisper模型的主要组件，使用该模型生成的音频转录作为伪标签来训练额外的token预测模块。

使得模型即便没有大量手动人工标注数据的情况下，依然能够学习到有效的语音识别模式。

此外在训练过程中，Whisper-Medusa的损失函数需要同时考虑预测的准确性和效率。一方面，模型需要确保预测的token序列与实际转录尽可能一致;

另一方面，通过多头注意力机制的并行预测，模型被鼓励在保证精度的前提下，尽可能地加快预测效率。

aiOla使用了学习率调度、梯度裁剪、正则化等多种方法，确保模型在训练过程中能够稳定收敛，同时避免过拟合性。

业务场景方面， Whisper-Medusa能理解100多种语言，用户可以开发音频转录、识别等多种应用，适用于翻译、金融、旅游、物流、仓储等行业。

aiOla表示，未来会将Whisper-Medusa的多注意力机制扩展至20个头，其推理效率将再次获得大幅度提升。

本文地址：http://www.glev.cn/news/7026.html 歌乐夫 http://www.glev.cn/ , 查看更多

更多>同类行业资讯

0 条相关评论

新闻列表

企业新闻

推荐企业新闻

推荐图文

推荐行业资讯

点击排行

• 期货交易中结算价(期货交易中结算价怎么算)	• 外盘期货实时行情直播间(外盘期货直播室在线直
• 怎么屏蔽垃圾短信华为（华为手机怎么能屏蔽短信	• 上证50etf和上证50指数差别（上证50etf和上证50
• 2020年全国不孕不育医院排行，上海市第一妇婴保	• 纯碱期货多空持仓（纯碱期货持仓量）
• 之后再哭，现在先笑	• 汽车基础知识宝典：您身边的汽车常识指南
• 画皮世界手游(画皮世界手游攻略)	• 党的十八大以来数字中国建设取得显著成效
• 广发银行贵金属怎么收费	• 大蒜期货是怎么进行交易的(大蒜期货怎么炒)
• 一线黄金价格今日	• 股指期货有什么好的网站
• 嚼着吃的蜂巢蜜，润肺祛秋燥、缓解鼻炎，营养是	• 期货最有效的指标(期货ol指标详解)
• 数字货币的职能有哪些	• 融航期货交易平台正规
• 期货远期价格和即期价格	• 原油平均使用年限(原油平均使用年限怎么算)
• 法兰的基本知识(法兰常识)	• 宇宙是什么形状？最新研究倾向宇宙是个“球”
• 黄金外汇直播喊单（黄金外汇交易直播喊单）	• 期货增仓下跌什么原因(期货增仓下跌什么原因呢)
• 全国首张热食类餐饮机器人《食品经营许可证》发	• 做期货的小平台
• 德州十大小吃排名，大柳面搭配卤子更美味，葱烧	• 交通安全的基石：常识考试与日常出行规则解析
• 期货交易采用双向交易方式(期货双向开仓两边通	• 天然气期货啥时换合约(天然气期货合约时间表)
• 智库直播原油期货直播间(财经原油期货直播)	• 财务报销科目分类明细(财务报销科目分类明细表)
• 飞行知识小科普，一起来涨姿势！(关于飞机的冷	• 打造“海莱坞”，让中国电影成为海南“新名片”
• 远大国际期货期货有限公司	• [切换城市]兰州北京上海天津重庆长春沈阳西宁西
• 【世界说】美最新民调：大多数选民认为美国政治	• Epic每日资讯【免费领取循环英雄，购买三部曲白
• 北美记者站热度 57前往资讯热度风云榜＞	• 十九大报告，为什么用了这33个“最”？
• 泰国七大高颜值男明星齐聚Vogue Gala 2022 Thai	• 十九大报告的新思想、新论断、新提法、新举措
• 全世界原油排名(全世界原油排名前十)	• 【1905影视频】精彩栏目
• 事关你我！10月不止黄金周一批新规也将正式实	• 我的世界菜鸟皮肤名(我的世界彩虹菜鸟皮肤展开
• 《紫罗兰永恒花园》：京都动画的新时代	• 美国国防部宣布向乌克兰提供新一轮安全援助
• 完美解锁最新“看片”神器，无需登录即可享受会	• 新闻观察：核酸检测有了新版指南
• 中国经济十强城市：上海稳居第一天津或跌出前	• 【4】Amazon Prime Gaming免费领取【麦登橄榄球
• 新发展理念书写中国特色社会主义政治经济学新篇	• 动画专业毕业了熬不过前两年咋办？我家里也很迫
• 【BX资讯】《无节操Bitch社》动画化决定　把你	• 潮汕话游戏网名(经典潮汕话网名)
• 总书记关于新闻舆论工作的这些论述，你还记得吗	• 刘亚仁：《密会》应该会成为我人生中最难忘的
• 国内潮流社区公司，孵化出全球月访问300w+	• 小天鹅被薅7000万网店公布补偿方案：现金..
• 中国空间站"太空菜园"最新画面公开！一片欣欣向	• 成都神兽归笼失败：受高温影响不得不调整教学
• 上量还得有油箱！消息称鸿蒙智行享界S9增程版明	• 《英雄联盟》传奇解说组合德云色解散网友：十
• 越来越没人买！女子婚前7000多买的钻戒如今不值	• 家长公开课｜新学期，这10句话送给孩子！
• 怎么删除icould的照片（怎么删除icould照片而不	• 安兔兔8月安卓次旗舰性能榜出炉：天玑数量超过
• 小米MIX Flip 2现身：搭载骁龙8 Gen4 明年5月发	• 《异形：夺命舰》票房达6.4亿成2024年暑期档进
• 三只羊主播否认一箱螃蟹赚100块：各做各的不能	• 达人拍戏，演员直播，娱乐内容的融合与奔赴
• 世卫组织发布最高级别警报！湖南疾控最新回应→	• @云南车主 2024年汽车置换更新补贴细则来了→
• 雷军：小米SU7连续3个月交付破万预计11月提前	• 【组团式帮扶】青大附院“医疗人才组团式”帮扶
• 《黑神话：悟空》定制！耕升RTX 4070 SUPER踏雪	• 《英雄联盟》2024LPL夏决收官：BLG 3：0战胜WBG
• 新冠疫情回升？疾控部门发布最新提醒	• 极越CEO夏一平：投入几十亿的智驾都是马路杀手
• 第二十三小学 “奥运精神永相伴，少年朝气正当	• 内蒙古自治区全面部署第41个全区民族团结进步活
• 四战搜索，抖音难造“百度”	• 唐尚珺坦言毕业时近40岁找工作难度大张雪峰：
• 太突然！这名知名演员已去世！很多湛江人都看过	• 小屏旗舰标杆！曝小米15已备案：首发骁龙8 Gen4
• 浮世绝香（浮世绝香小说是悲剧吗）	• 市自然资源局、市公安局、矿洞沟镇政府联合打击
• 访问量200w+ 网站已达44家，背后都有哪些	• 举报成功奖励500元！连云港一地发布通告！
• 大庆女子收到一条短信，银行卡里的钱都被转走了	• 太突然！这名知名演员已去世！很多湛江人都看过
• 完全自主全球首制7500立方米液态二氧化碳运输	• 3天假，或延长至13天？一地公告
• 《黑神话：悟空》带火86版《西游记》：海外观看	• 官方详解小米SU7车外唤醒防御：抑制率达99% 友
• 平凉路199号邮编（平凉路1098号邮编）	• 以军遭遇“重大安全事件”
• 违纪违法，我省两名干部接受调查	• B站也将进入收缩式盈利阶段？