个销云 个销云 个销云

打个响指,让家闻 “ 声 ” 而应

文章发布于:2024-02-19 13:53:15

提到“打响指”这个限定的声音情境,你的脑海中会联想到什么?


是电影中,打个响指让愿望实现、反派团瞬间被全灭、主角即将展现高光时刻;还是正发着呆,被好友一个响指唤醒回神;魔术师施展魔法,凭空变出鲜花......


在这里,就要和各位介绍一个能听懂你所想,且能联动米家操作的新功能——“打个响指”。它到底凭借什么被“委以重任”为控制设备的触发条件?又能带来怎样的惊喜?跟着小编一起往下揭秘吧!





01

响指一打,设备懂你


小米澎湃OS的推出,让设备互联进入「主动智能」时代。突破性的 Xiaomi HyperMind 全设备思考中枢可以让你身边的设备成为感知世界的触角。统一思考,多维感知判断,主动学习用户习惯,真正把小米生态中的各类设备打通,并以人为中心提供主动服务,让设备更懂人。“打个响指”就是基于 Xiaomi HyperMind 架构下推出的新功能。


目前,市面上常见的交互式语音指令,都需要多轮对话操作。而此次随着小米澎湃OS一起推出的“打个响指”功能,一个响指,就能让多设备自主运行。不仅操作流程简单、直接,还能指令直达、主动感知,让家闻“声”而应!



作为行业首发的使用用户动作唤醒+识别+触发操作的技术,相比于传统的语音唤醒和下达指令而言,不仅是唤醒方式上的一个创新,更是小米在声音事件感知、通用声音识别上先进能力的体现。


而我们在众多声音情境中选择响指声识别的原因,不仅是“响指”声音具有场景特殊性,不太容易被误触发、或被环境中的其他声音模拟,而且打响指联动米家本身就很酷!能给用户带来更好的使用体验、更高的识别准确度。



通常情况下,大家在唤醒小爱同学下达相应的指令时,都需要先进行唤醒、再等待小爱同学回应、再下达指令、再等待小爱同学执行等步骤,而打响指技术则完全不需要这一系列流程。


你只需要有一个 Xiaomi Sound 音箱,在米家 App 中设置好功能的自动化指令,音箱在开启状态下,会自动、持续感知周围的环境声音。打响指这一指令,只要在音箱方圆3米范围内,就能被精准识别和捕捉到,即可快速触发各类操作,唤醒准确率高达 96%。


应用演示:

  • 以打响指触发单个设备为例:米家 App 连接到客厅的音箱,并在 App 中设置开灯,执行方式:响指检测。就能在回家后,随手一个响指,打开客厅的灯。
  • 以打响指触发多个设备为例:米家 App 连接到主卧的音箱,并在 App 中设置拉开窗帘、打开空气净化器、打开加湿器等一系列操作。这样,就能在刚起床时,慵懒地打个响指赖会儿床,等待指令一项项地执行:打开窗帘迎接朝阳,呼吸一口新鲜空气、感受湿润的早晨........,慢慢醒神。

此外,响指识别的算法完全在音箱端实现了本地部署,所有的声音在音箱内即完成了处理,不会上传云端,用户不必有隐私泄露的担心和困扰。

而为了避免误识别,负责这项算法的小米AI实验室也做了诸多优化,例如:在检测到周围播放音乐或者视频时,自动暂时屏蔽响指识别功能,防止音乐或电影里的响指触发误识别;在检测到类似于响指的声音时,算法会自动做两次鉴别操作,确保只有真正的响指声音才会唤醒;算法加入了对于声音距离的判断机制,防止窗外的某些声音误触发等等......


使用小tips:

  • 唤醒\下达指令方式:打个响指;
  • 实现流程:打开米家 App ,点击右上角创建自动化,添加触发条件中选择设备,再选择音箱,环境音检测中选择打响指,再添加需要关联操作的设备和其自动化指令,即可完成所有设置;
  • 唤醒位置区间:音箱3米范围内,可在不同房间放置音箱+关联不同房间的设备,并设置不同触发指令哦;
  • 指令实现时间:1s内判断完成,2s内上传执行;
  • 唤醒设备数量设置:单个或多个,无限制,用户可随意设置。



02
玩转技术,多设备自主运行

历经十余年的积累,让小米的技术研发已经从应用层面更多转向了底层技术层面,其中 AI 领域是小米长期持续投入的底层赛道之一。

而小米 AI 实验室下的声学语音部门已具备从硬件到软件基础层,再到软件应用层的全链路声音算法能力,覆盖声音的理解与生成,其麦克风阵列拾音、语音识别、声纹识别、语音唤醒、语音合成等能力服务于数亿小米用户。


响指检测的诞生,是基于小米持续研发的音频标记技术。该技术的目标是对音频作多标签分类,使计算机能够理解音频内容,可应用于音频搜索、危险事件识别、机器故障监测、辅助无障碍等广泛场景。

音频标记算法可以识别广泛的声音,有助于让环境中的声音也能用文字等其他模态同等地表达,让声音被“看”见。

小米声学语音技术架构


场景一:使用无障碍


音唤醒虽是市面上使用最多的,但并不适用于所有用户。例如对于言语障碍用户而言,无法直接语音唤醒小爱同学,且需要在手机上进行多次操作又较为繁琐。“打个响指”功能对其而言,就是一个很好的“小帮手”,能够主动感知、一次操作即可控制家庭设备,帮助他们向周围的设备直接下达指令,让生活更方便。


场景二:生活总会有惊喜


要说生活中什么东西,能令人一直铭记,想起来时嘴角又不自觉上扬。我想,应该是一场足够用心和有序又顺利的惊喜。在一个充满浪漫氛围的场景下,正深情地告白时,突然喊小爱同学帮忙打开灯光、播放音乐......这种煞风景的画面,光是脑补就觉得能尴尬到想直接原地隐身。那若是在告白前,将氛围灯、音乐等都提前设置好,现场部分环节交由响指来配合自动执行,那一切安排尽在掌握当中,留下美好又惊喜的回忆皆有可能了!一个响指,氛围感拉满!

场景三:闭麦时间到


下班回家,已经处于低电量模式下的我们,可能只想“闭麦”,独处修身养息。这时,只需站在玄关处打个响指,就能下达已经在后台设置好的相关指令,完成开灯、拉窗帘、打开加湿器、打开空气净化器、打开音箱播放音乐这一系列操作,无需再与小爱同学进行多轮对话和等待执行,直接进入个人放松模式。



03
深耕底层技术,AI 赋能产品

音频标记技术,是小米 AI 实验室研发积累的基础技术之一,它能够识别上百种自然声音,响指声只是其中之一。在深耕 AI 技术能力的过程中,小米 AI 实验室声学语音团队长久的积累和沉淀,让音频标记技术能够轻松实现技术的另一种玩法创新。同时,也在不断地认真聆听、洞察不同用户人群的真实需求,做出让更多人能够享受到主动、智能化的科技生活的产品。

除此之外,还能让机器能够听懂人类语言,理解自然界的千千万万种声音。就如同小米的人形机器人一般,它具备84种语义理解能力,帮助机器人认识周围的声音并做出反应,大幅提升了机器人的感知能力。


同时,音频标记技术赋能于“小米闻声”,帮助无障碍人群用眼睛“看”到声音。它可以监测 14 种对听力障碍用户重要的环境音,包括火警、婴儿啼哭等,并以手机通知栏进行文字推送。这让听力障碍用户得以“看见”生活中的声音,与普通人一样享受智能生活的便捷。不光是手机,小米手环、手表也可以同步显示和接收这样的声音信息。


也如同 Xiaomi Sound 音箱的环境音识别功能,实现远程家庭守护、家庭&家人状态监控。


去年9月,小米的音频标记算法刷新了国际学术界的最好成绩,把 AudioSet 公开数据集上的 mAP 指标首次推进到 50 以上。尤其值得一提的是,我们还发布了一个 mini 版模型,该模型的参数量仅为同行的约十分之一,却仍然在性能上领先。同时,我们也将模型训练代码和预训练模型开放出来,供同行研究者们免费使用。该成果对应的论文已被国际顶级语音会议 ICASSP 接收。

模型链接:https://huggingface.co/mispeech
论文链接:https://arxiv.org/abs/2308.11957


-

做最酷的产品,是小米三大铁律之一。

打响指这一趣味的交互方式,是我们基于底层技术的一次全新尝试,希望给大家的生活带来更多的乐趣。

在未来,我们会让打响指功能覆盖到更多机型和载体上,支持多设备协同,在不同的房间打响指,触发不同房间里的设备的不同操作,以及增加和声音关联的操作。小米工程师将持续在旷野中探索技术之路,挖掘其更趣味、温暖等特质的一面,为用户带来更加便捷的智能生活体验。



微信扫码

分享文章素材

建立自己的品牌素材库

立即体验

相关文章

更多文章

相关文章

拼命加载中...
已经到底了

提交成功

我们会尽快联系您

我要合作

申请免费试用

您的称呼:

公司:

您的手机:

验证码:

期望合模式:

详细需求:

立即体验