将语音输入功能引入开放网络和 Firefox OS

随着 2007 年 iPhone 引发的智能手机的出现,触控成为了与这些设备交互的主要输入方式。而现在,随着可穿戴设备(以及之前存在的一些免提技术)的出现,语音正在成为另一种关键的输入方式。语音输入带来的体验可能性是巨大的,至少可以这么说。

它们不仅仅局限于与车载设备、配件和可穿戴设备交互。想想语音输入为将更多技术带给更多人开辟的道路。它是巨大的:无障碍、识字、游戏、VR 等等。这其中蕴藏着一种社会氛围,它与我们 Mozilla 在 Mozilla 宣言 中阐述的使命产生共鸣。

如何开始

如今,两家领先的移动操作系统/生态系统提供商——苹果和谷歌,都拥有自己的原生体验,分别是 Siri 和“好的,谷歌”(与 Google Now 结合)。我们需要努力将语音输入功能引入现有的第一个生态系统——开放网络。在 2013 年巴塞罗那世界移动通信大会(MWC)期间,当 Desigan Chinniah 向我介绍来自巴西的 Firefox 贡献者 André Natal 时,我们围绕此事进行了对话,并立即达成一致,无论以何种方式,都要努力实现此事。André 告诉我,他从 Brendan EichBrazilJS 的一次演讲中获得了灵感,所以我不需要多说服他。:-)

第一步

在过去的一年中,我们围绕此事的方案和策略进行了多次通话和会议。由于“代码胜于雄辩”,基础工作与 Firefox 桌面版和 FxOS Unagi 设备同步开始,后来随着时间的推移,转向 Mozilla Flame 设备。在过去的一年中,我们与 Mozilla 工程领导团队就具体方案进行了多次会议,并决定将此项工作分解为几个较小的阶段(“循序渐进”)。

第一个目标是实现 Web 语音 API,并将声学/语言模块与解码器集成,然后进行尝试。Mozilla 工程/质量保证和社区中许多志同道合的人员在 André 加班加点(在他日常工作之外)并高度专注的情况下,提供了指导和代码审查,从而提供了帮助。事情在过去的一个月左右时间里进展迅速。(坦白地说,这项工作唯一停滞的一天是巴西队在 2014 年世界杯上输给德国的那天。:-)) André 为他的辛勤工作赢得了所有赞誉!

我们现在处于什么阶段?

我们目前的思路是,首先开发一款基于语法的(有限命令)应用程序,并在我们丰富且多元化的国际 Mozilla 社区中进行分发,用于基于口音的测试和增强。一旦我们稳定了这个阶段,我们将进入第二阶段,我们可以更多地专注于自然语言处理,并在未来实现更接近虚拟助手体验的阶段,可以为用户提供基于语音的答案。我们还有很多工作要做,而这仅仅是开始。

我将把剩下的细节留到以后再说,直接进入本月的现状。到目前为止,我们取得了哪些进展?

我们现在已经准备好了 Web 语音 API 供测试,并且有几个演示供您观看!

桌面版:Mac 上的 Firefox Nightly

编辑注:为了获得最佳效果,请同时播放以上两个视频。

Firefox OS 演示

加入我们吧!

如果您想继续关注,请查看 SpeechRTC - 语音使开放网络变得可能维基错误 1032964 - 在 Firefox OS 中启用语音输入

所以,如果您有能力,请加入我们,为我们提供帮助。我们需要你们所有人(以及你们的“声音”。)请记住,“多个声音,一个 Mozilla”!

关于 Sandip Kamat

Sandip Kamat 是 Mozilla 连接设备产品管理团队的一员。他大部分职业生涯都致力于构建移动技术和产品。在加入 Mozilla 之前,他曾在摩托罗拉移动(后来被谷歌收购)和西门子移动工作。他是印度理工学院马德拉斯分校和加州大学圣地亚哥分校(雷迪商学院)的校友。他热衷于将尖端技术带给普通人,让他们的生活更美好。

更多由 Sandip Kamat 撰写的文章……

关于 Robert Nyman [名誉编辑]

Mozilla Hacks 的技术布道者和编辑。发表关于 HTML5、JavaScript 和开放网络的演讲和博客。Robert 是 HTML5 和开放网络的坚定支持者,自 1999 年以来一直在从事网络前端开发工作——在瑞典和纽约市。他经常在 http://robertnyman.com 上发布博客,并且喜欢旅行和结识新朋友。

更多由 Robert Nyman [名誉编辑] 撰写的文章……


14 条评论

  1. szimek

    有没有可能更新 Web 语音 API,使其可以选择接受媒体流对象作为输入,而不是总是使用麦克风?

    2014 年 9 月 9 日 下午 3:21

    1. Andre Natal

      您好,szimek。

      这确实可行,但由于我们遵循 W3C 规范 [1],因此目前尚不可行。

      但您可以在 bugzilla 中的 Speech API 错误树 [2] 上提交一个错误报告,要求实现此功能!

      [1] https://dvcs.w3.org/hg/speech-api/raw-file/tip/speechapi.html

      [2] https://bugzilla.mozilla.org/showdependencytree.cgi?id=1032964&hide_resolved=1

      2014 年 9 月 10 日 上午 6:12

      1. Marco Chen

        请参考 [1],该规范已经将媒体流添加为可选的输入源。

        [1] https://bugzilla.mozilla.org/show_bug.cgi?id=1038061

        2014 年 9 月 10 日 上午 7:58

        1. Andre Natal

          这太棒了,Marco。我之前并不知道。

          谢谢

          2014 年 9 月 11 日 上午 0:12

        2. szimek

          太棒了,谢谢!

          2014 年 9 月 11 日 下午 2:02

    2. Sandip Kamat

      您好,szimek,

      André 在上面评论过,但您能详细说明一下您想要实现什么样的用例吗?如果我们能与 w3c 在标准方面合作,这种实现肯定可行。

      Sandip

      2014 年 9 月 10 日 下午 3:10

      1. szimek

        您好,Sandip,

        我在想一个场景,您从浏览器拨打电话——能够将远程流传递给语音识别,将允许您显示使用电话的人所说内容的文字记录。这对于听力障碍人士来说将非常棒。

        此外,您可以很容易地使用一些翻译服务来翻译这种文字记录。我写了一个实验性的应用程序,它可以翻译您正在说的话,并在另一边朗读翻译结果 (https://webrtc-translate.herokuapp.com),但当然,如果您能够创建一个 WebRTC 客户端,使用任何(本地或远程)音频流来实现这个功能,那就更棒了。

        2014 年 9 月 11 日 上午 6:40

        1. Sandip Kamat

          szimek,很棒的想法。我们也在考虑类似的想法。请继续关注这些错误,看看是否可以将您的应用程序与当前的实现集成。谢谢!

          2014 年 9 月 18 日 下午 04:58

  2. Riccardo

    酷!我想看到 Mozilla 帮助 voxforge 项目完成更多语言的免费声学模型。

    2014 年 9 月 9 日 下午 23:13

    1. Andre Natal

      你好,Riccardo!

      是的,这是目标之一!

      我们希望建立一个流程,要求社区提供他们的声音来增强现有模型并创建新模型!

      请在 bugzilla [2] 中关注 bugtree 并打开一个关于它的 bug!

      [1] https://bugzilla.mozilla.org/showdependencytree.cgi?id=1032964&hide_resolved=1

      2014 年 9 月 10 日 上午 06:17

      1. Riccardo

        你好,Andre,

        提交了这个 bug:https://bugzilla.mozilla.org/show_bug.cgi?id=1065904

        2014 年 9 月 11 日 上午 01:35

        1. Andre Natal

          谢谢,Riccardo!

          希望我们能尽快建立一个平台,让 Mozilla 社区贡献他们的声音!

          2014 年 9 月 11 日 上午 01:37

  3. Noitidart

    太棒了,伙计们!我迫不及待地想使用这个 API!:)

    2014 年 9 月 13 日 上午 01:47

    1. Noitidart

      我怎样才能在我的 fxos 手机上获取这个应用程序?它说那里已经有 2 个应用程序了。

      2014 年 9 月 13 日 上午 01:50

本文的评论已关闭。