中国科技少年对话“Kaldi之父”Daniel Povey 每日短讯
时间:2024-01-17 20:56:19来源:财讯网

月初,Daniel 团队的新一代 Kaldi 语音项目获得了小米2023百万美金技术大奖评选的二等奖。近日,两位《超脑少年团》成员“小孩哥”高培淇和宫一森来到小米祝贺偶像Daniel 获奖。

01

继往开来:

站在 Kaldi 的肩膀上

Kaldi 是一款开源的语音识别工具包,主要用于语音识别、说话人识别、自然语言处理等领域。

在智能语音方面,大到微软、苹果、腾讯这样的巨头,小到各种初创企业,几乎都曾或在使用 Kaldi 的技术进行研发及开发产品。而小米首席语音科学家Daniel Povey正是 Kaldi 的创始人。

Kaldi之父、小米集团首席语音科学家 Daniel Povey

说到为什么还要研发新一代 Kaldi,也是随着深度学习技术的发展以及硬件算力的提升,智能语音领域也进入到一个新的发展阶段,Kaldi 也需要不断更新以适应新的应用场景和技术趋势。

Daniel 博士在2019年注意到了 Transformer 架构的潜力,并判断构建通用基础模型的时机已经到来,加入小米后,他就开始实施这一蓝图,研发新一代 Kaldi 语音基础引擎。

02

深耕底层:

新一代 Kaldi 的技术突破

新一代 Kaldi是一个开源的智能语音技术工具集,包含核心算法库k2、通用语音数据处理工具包Lhotse、解决方案集合 Icefall 以及服务端引擎 Sherpa 四个子项目,开发者可以基于这些工具集轻松定制自己的智能语音应用。

如果把一个AI应用比喻为一座冰山,那用户所能感知到的应用界面就是暴露在“海平面”之上的冰峰,强有力地托起这些应用的核心和庞大的技术基底,则是被深埋在“海平面”之下。

深藏在“海平面”之下的新一代 Kaldi 通用技术基底有哪些?它们又能够带来怎样的作用?下面就为大家介绍。

▍全新声学编码器:zipformer

Zipformer是一个应用 Attention 机制的通用声学编码器,不仅可以用在语音领域,初步实验验证其在文本和图像任务上同样适用。

Zipformer 具有效果更好、计算更快、更省内存等优点,这使得 Zipformer 模型非常适合于低资源设备端部署。

▍首创神经网络优化器: ScaledAdam

全新升级的神经网络优化器——ScaledAdam是新一代 Kaldi 团队在业界最知名的优化器 Adam 的基础上,引入了可学习的缩放因子,实现了网络训练时间大幅缩短。而且ScaledAdam与Adam一样,是一个通用的网络训练优化器。

▍业界最快Transducer 损失函数:Pruned RNN-T

新一代 Kaldi 团队还研发了业界最快的 Transducer 损失函数—— Pruned RNN-T。

实验数据显示,相比 PyTorch 中实现的 RNN-T 损失函数,Pruned RNN-T 损失函数在仅使用 1/5 显存的基础上,取得了约 10 倍的速度提升。

▍有限状态转换器:可微分 FST

可微分FST(Finite State Transducer)是一个有限状态转换器,可以构建复杂的语言处理模型。

新一代 Kaldi 团队创造性的实现了运行于 GPU 的可微分有限状态机,使开发者只需要在外部构建好图的拓扑结构,将其他的一切计算和训练的部分交给 k2 引擎, 从而降低建模的工作量,提高灵活性。此外,新一代 Kaldi 团队还实现了基于 GPU 的状态机解码方法,实现了语音识别解码的全链路 GPU 加速。

新一代 Kaldi 还有众多杰出的成果,如:近乎零成本的知识蒸馏技术,让小模型也能学习到大模型的本领;基于时延惩罚的低时延端到端模型的训练方法;PromptASR 语音识别系统;高效数据集构建方案 textsearch ; 全平台语音任务服务引擎 sherpa 等等。集众多优质技术于一身的新一代 Kaldi ,也将会在未来给大家带来更多实用的惊喜,敬请期待吧!

03

开源共享:

我为人人,人人为我

新一代 Kaldi 作为一个基础引擎,不仅推动了公司的技术发展,更对业界产生了深刻的影响。

首先,它可以在语音交互层面有力赋能小米「人车家全生态」新战略。以座舱为例,使用新一代 Kaldi 引擎后,座舱的语音识别的性能进一步提升, jira 解决率提升45%,服务器成本也降低一半。

其次,新一代 Kaldi 作为一个基础引擎,不仅可以服务于语音任务,还可以广泛地适用于各种 AI 任务。目前,团队首创的 ScaledAdam 优化器已经用在了小米自研大模型中。

最后,在智能家居领域中,通过使用新一代 Kaldi 技术,人们可以通过语音指令控制家电设备、查询天气、播放音乐等;在教育行业中,可以对学生进行口语测试和纠正,提高学生的口语表达和听力理解能力;在医疗行业中,可以实现自动化的病历记录和诊断,提高医疗行业的效率。可以说,新一代 Kaldi 的出现正在对各行各业产生积极的影响。

坚持开源是新一代 Kaldi 与前一代一脉相承的底色。“我为人人,人人为我”,这是 Daniel 坚持 Kaldi 开源的期望,也是小米积极拥抱开源的初心。

“人因梦想而伟大,又因坚持梦想而成长。”Daniel借用雷军的话,寄语和高培淇、宫一森一样怀揣着编程梦想的科技少年。今日的科技少年也一定会成长为未来科研事业中的栋梁。

最后,让我们把目光再次聚焦到获奖的新一代 Kaldi 团队,这是一个创新和经验的结合体,正是因为他们,新⼀代 Kaldi 取得了众多世界领先的成果。期待新一代 Kaldi 在未来,给大家带来更多极致、好用的技术,让开源普惠大众。

 

标签:

生活指南
  • 换装厨电选下吸近排!板川近排烟灶一体机产品推荐官陈红老师倾情力荐! 当前讯息

    在1月11日板川多场景新品发布会上,知名歌手陈红老师来到现场,成为

  • 博观而约取 厚积而薄发 ——瓦窑小学举行语文、数学复习研讨活动 全球视讯

    教而不研则浅,言而不教则空。为了进一步提高课堂复习效率,促进教

  • 今热点:15连板未果 圣龙股份前三季度净利“腰斩”

    各路资金的轮番炒作,让圣龙股份(603178)成为了A股市场新晋妖王,10

  • 中银基金旗下12只产品率先披露三季报 近八成实现超额收益_焦点滚动

    10月16日,中银基金管理有限公司旗下12只产品2023年三季度报告出炉

  • 公募基金的宽基指数酣战又起?深证50指数周三发布 主打“优创新与高成长”

    来源:财联社宽基指数家族又添新丁,10月13日,深交所全资子公司深

  • 金融监管总局:降低消费金融成本_天天看点

    严格规范金融服务收费禁止第三方‘搭车收费’清晰披露贷

  • 专家呼吁推行学生“春假”制度 缓解旅游供需矛盾

    中新网北京10月8日电(记者 李金磊)今年中秋国庆和暑假假期旅游市场

  • 天天时讯:厦门灵玲动物王国成功繁育罕见小熊猫三胞胎

    中新网厦门9月26日电 (杨伏山邱嘉伟)被誉为动物福地的厦门灵玲动物

  • 环球滚动:盈康生命主编的行业首部《装配式生物安全实验室技术标准》正式公布

    在实验室亟需升级质量发展的当下,装配式实验室作为后起绿色低碳类

  • 焦点信息:A股并购重组持续活跃 年内85家公司首发相关公告

    今年以来,A股市场并购重组持续活跃。Wind数据显示,以首次披露日期

  • 中秋国庆假期将至 全国铁路预计发送旅客1.9亿人次|环球新要闻

    央视网消息:中秋国庆假期即将来临,全国铁路预计发送旅客1 9亿人次

  • “农”墨重彩绘就三秦好“丰”景_天天快看点

    【高质量发展调研行】◎本报记者 马爱平 郑 莉 付丽丽 何沛苁

  • 晶丰明源上半年增亏 上市募8.7亿拟发不超7.1亿可转债

    中国经济网北京9月13日讯晶丰明源(688368 SH)近日公布了2023年半年

  • 世界今热点:​西平县二郎小王庄小学开展安全演练活动

    为进一步强化学校师生的消防安全意识,提高他们的防范自救能力,9月12

  • 传奇战士四十级衣服_传奇战士四十级衣服怎么获得

    传奇战士是一款非常受欢迎的手机游戏,其中四十级衣服是非常重要的装备

  • 贴片led灯珠电压电流是多少 贴片led灯

    1、用万用表的二级管档测,红笔接正,黑笔接负。2、如果有蜂呜声则坏,

  • 民生
    • 北京修订空气重污染应急预案 降低预警启动门槛|全球报资讯

    • 公安部:电诈形势仍严峻 今年以来累计推送预警指令3.1亿条

    • 金观平:消费数据产权保护不容小觑

    • 重大突破!西延高铁全长5730米道镇隧道顺利贯通