随着 2007 年 iPhone 引发的智能手机的出现,触控成为了与这些设备交互的主要输入方式。而现在,随着可穿戴设备(以及之前存在的一些免提技术)的出现,语音正在成为另一种关键的输入方式。语音输入带来的体验可能性是巨大的,至少可以这么说。
它们不仅仅局限于与车载设备、配件和可穿戴设备交互。想想语音输入为将更多技术带给更多人开辟的道路。它是巨大的:无障碍、识字、游戏、VR 等等。这其中蕴藏着一种社会氛围,它与我们 Mozilla 在 Mozilla 宣言 中阐述的使命产生共鸣。
如何开始
如今,两家领先的移动操作系统/生态系统提供商——苹果和谷歌,都拥有自己的原生体验,分别是 Siri 和“好的,谷歌”(与 Google Now 结合)。我们需要努力将语音输入功能引入现有的第一个生态系统——开放网络。在 2013 年巴塞罗那世界移动通信大会(MWC)期间,当 Desigan Chinniah 向我介绍来自巴西的 Firefox 贡献者 André Natal 时,我们围绕此事进行了对话,并立即达成一致,无论以何种方式,都要努力实现此事。André 告诉我,他从 Brendan Eich 在 BrazilJS 的一次演讲中获得了灵感,所以我不需要多说服他。:-)
第一步
在过去的一年中,我们围绕此事的方案和策略进行了多次通话和会议。由于“代码胜于雄辩”,基础工作与 Firefox 桌面版和 FxOS Unagi 设备同步开始,后来随着时间的推移,转向 Mozilla Flame 设备。在过去的一年中,我们与 Mozilla 工程领导团队就具体方案进行了多次会议,并决定将此项工作分解为几个较小的阶段(“循序渐进”)。
第一个目标是实现 Web 语音 API,并将声学/语言模块与解码器集成,然后进行尝试。Mozilla 工程/质量保证和社区中许多志同道合的人员在 André 加班加点(在他日常工作之外)并高度专注的情况下,提供了指导和代码审查,从而提供了帮助。事情在过去的一个月左右时间里进展迅速。(坦白地说,这项工作唯一停滞的一天是巴西队在 2014 年世界杯上输给德国的那天。:-)) André 为他的辛勤工作赢得了所有赞誉!
我们现在处于什么阶段?
我们目前的思路是,首先开发一款基于语法的(有限命令)应用程序,并在我们丰富且多元化的国际 Mozilla 社区中进行分发,用于基于口音的测试和增强。一旦我们稳定了这个阶段,我们将进入第二阶段,我们可以更多地专注于自然语言处理,并在未来实现更接近虚拟助手体验的阶段,可以为用户提供基于语音的答案。我们还有很多工作要做,而这仅仅是开始。
我将把剩下的细节留到以后再说,直接进入本月的现状。到目前为止,我们取得了哪些进展?
我们现在已经准备好了 Web 语音 API 供测试,并且有几个演示供您观看!
桌面版:Mac 上的 Firefox Nightly
编辑注:为了获得最佳效果,请同时播放以上两个视频。
Firefox OS 演示
加入我们吧!
如果您想继续关注,请查看 SpeechRTC - 语音使开放网络变得可能维基 和 错误 1032964 - 在 Firefox OS 中启用语音输入。
所以,如果您有能力,请加入我们,为我们提供帮助。我们需要你们所有人(以及你们的“声音”。)请记住,“多个声音,一个 Mozilla”!
关于 Sandip Kamat
Sandip Kamat 是 Mozilla 连接设备产品管理团队的一员。他大部分职业生涯都致力于构建移动技术和产品。在加入 Mozilla 之前,他曾在摩托罗拉移动(后来被谷歌收购)和西门子移动工作。他是印度理工学院马德拉斯分校和加州大学圣地亚哥分校(雷迪商学院)的校友。他热衷于将尖端技术带给普通人,让他们的生活更美好。
关于 Robert Nyman [名誉编辑]
Mozilla Hacks 的技术布道者和编辑。发表关于 HTML5、JavaScript 和开放网络的演讲和博客。Robert 是 HTML5 和开放网络的坚定支持者,自 1999 年以来一直在从事网络前端开发工作——在瑞典和纽约市。他经常在 http://robertnyman.com 上发布博客,并且喜欢旅行和结识新朋友。
14 条评论