将语音输入功能引入开放网络和 Firefox OS

随着 2007 年 iPhone 引发的智能手机的出现，触控成为了与这些设备交互的主要输入方式。而现在，随着可穿戴设备（以及之前存在的一些免提技术）的出现，语音正在成为另一种关键的输入方式。语音输入带来的体验可能性是巨大的，至少可以这么说。

它们不仅仅局限于与车载设备、配件和可穿戴设备交互。想想语音输入为将更多技术带给更多人开辟的道路。它是巨大的：无障碍、识字、游戏、VR 等等。这其中蕴藏着一种社会氛围，它与我们 Mozilla 在 Mozilla 宣言中阐述的使命产生共鸣。

如何开始

如今，两家领先的移动操作系统/生态系统提供商——苹果和谷歌，都拥有自己的原生体验，分别是 Siri 和“好的，谷歌”（与 Google Now 结合）。我们需要努力将语音输入功能引入现有的第一个生态系统——开放网络。在 2013 年巴塞罗那世界移动通信大会（MWC）期间，当 Desigan Chinniah 向我介绍来自巴西的 Firefox 贡献者 André Natal 时，我们围绕此事进行了对话，并立即达成一致，无论以何种方式，都要努力实现此事。André 告诉我，他从 Brendan Eich 在 BrazilJS 的一次演讲中获得了灵感，所以我不需要多说服他。:-)

第一步

在过去的一年中，我们围绕此事的方案和策略进行了多次通话和会议。由于“代码胜于雄辩”，基础工作与 Firefox 桌面版和 FxOS Unagi 设备同步开始，后来随着时间的推移，转向 Mozilla Flame 设备。在过去的一年中，我们与 Mozilla 工程领导团队就具体方案进行了多次会议，并决定将此项工作分解为几个较小的阶段（“循序渐进”）。

第一个目标是实现 Web 语音 API，并将声学/语言模块与解码器集成，然后进行尝试。Mozilla 工程/质量保证和社区中许多志同道合的人员在 André 加班加点（在他日常工作之外）并高度专注的情况下，提供了指导和代码审查，从而提供了帮助。事情在过去的一个月左右时间里进展迅速。（坦白地说，这项工作唯一停滞的一天是巴西队在 2014 年世界杯上输给德国的那天。:-)) André 为他的辛勤工作赢得了所有赞誉！

我们现在处于什么阶段？

我们目前的思路是，首先开发一款基于语法的（有限命令）应用程序，并在我们丰富且多元化的国际 Mozilla 社区中进行分发，用于基于口音的测试和增强。一旦我们稳定了这个阶段，我们将进入第二阶段，我们可以更多地专注于自然语言处理，并在未来实现更接近虚拟助手体验的阶段，可以为用户提供基于语音的答案。我们还有很多工作要做，而这仅仅是开始。

我将把剩下的细节留到以后再说，直接进入本月的现状。到目前为止，我们取得了哪些进展？

我们现在已经准备好了 Web 语音 API 供测试，并且有几个演示供您观看！

桌面版：Mac 上的 Firefox Nightly

编辑注：为了获得最佳效果，请同时播放以上两个视频。

Firefox OS 演示

加入我们吧！

如果您想继续关注，请查看 SpeechRTC - 语音使开放网络变得可能维基和错误 1032964 - 在 Firefox OS 中启用语音输入。

所以，如果您有能力，请加入我们，为我们提供帮助。我们需要你们所有人（以及你们的“声音”。）请记住，“多个声音，一个 Mozilla”！

Sandip Kamat 是 Mozilla 连接设备产品管理团队的一员。他大部分职业生涯都致力于构建移动技术和产品。在加入 Mozilla 之前，他曾在摩托罗拉移动（后来被谷歌收购）和西门子移动工作。他是印度理工学院马德拉斯分校和加州大学圣地亚哥分校（雷迪商学院）的校友。他热衷于将尖端技术带给普通人，让他们的生活更美好。

更多由 Sandip Kamat 撰写的文章……

Mozilla Hacks 的技术布道者和编辑。发表关于 HTML5、JavaScript 和开放网络的演讲和博客。Robert 是 HTML5 和开放网络的坚定支持者，自 1999 年以来一直在从事网络前端开发工作——在瑞典和纽约市。他经常在 http://robertnyman.com 上发布博客，并且喜欢旅行和结识新朋友。

更多由 Robert Nyman [名誉编辑] 撰写的文章……

14 条评论

szimek

有没有可能更新 Web 语音 API，使其可以选择接受媒体流对象作为输入，而不是总是使用麦克风？

2014 年 9 月 9 日下午 3:21
1. Andre Natal
  
  您好，szimek。
  
  这确实可行，但由于我们遵循 W3C 规范 [1]，因此目前尚不可行。
  
  但您可以在 bugzilla 中的 Speech API 错误树 [2] 上提交一个错误报告，要求实现此功能！
  
  [1] https://dvcs.w3.org/hg/speech-api/raw-file/tip/speechapi.html
  
  [2] https://bugzilla.mozilla.org/showdependencytree.cgi?id=1032964&hide_resolved=1
  
  2014 年 9 月 10 日上午 6:12
  1. Marco Chen
    
    请参考 [1]，该规范已经将媒体流添加为可选的输入源。
    
    [1] https://bugzilla.mozilla.org/show_bug.cgi?id=1038061
    
    2014 年 9 月 10 日上午 7:58
    1. Andre Natal
      
      这太棒了，Marco。我之前并不知道。
      
      谢谢
      
      2014 年 9 月 11 日上午 0:12
    2. szimek
      
      太棒了，谢谢！
      
      2014 年 9 月 11 日下午 2:02
2. Sandip Kamat
  
  您好，szimek，
  
  André 在上面评论过，但您能详细说明一下您想要实现什么样的用例吗？如果我们能与 w3c 在标准方面合作，这种实现肯定可行。
  
  Sandip
  
  2014 年 9 月 10 日下午 3:10
  1. szimek
    
    您好，Sandip，
    
    我在想一个场景，您从浏览器拨打电话——能够将远程流传递给语音识别，将允许您显示使用电话的人所说内容的文字记录。这对于听力障碍人士来说将非常棒。
    
    此外，您可以很容易地使用一些翻译服务来翻译这种文字记录。我写了一个实验性的应用程序，它可以翻译您正在说的话，并在另一边朗读翻译结果 (https://webrtc-translate.herokuapp.com)，但当然，如果您能够创建一个 WebRTC 客户端，使用任何（本地或远程）音频流来实现这个功能，那就更棒了。
    
    2014 年 9 月 11 日上午 6:40
    1. Sandip Kamat
      
      szimek，很棒的想法。我们也在考虑类似的想法。请继续关注这些错误，看看是否可以将您的应用程序与当前的实现集成。谢谢！
      
      2014 年 9 月 18 日下午 04:58
Riccardo

酷！我想看到 Mozilla 帮助 voxforge 项目完成更多语言的免费声学模型。

2014 年 9 月 9 日下午 23:13
1. Andre Natal
  
  你好，Riccardo！
  
  是的，这是目标之一！
  
  我们希望建立一个流程，要求社区提供他们的声音来增强现有模型并创建新模型！
  
  请在 bugzilla [2] 中关注 bugtree 并打开一个关于它的 bug！
  
  [1] https://bugzilla.mozilla.org/showdependencytree.cgi?id=1032964&hide_resolved=1
  
  2014 年 9 月 10 日上午 06:17
  1. Riccardo
    
    你好，Andre，
    
    提交了这个 bug：https://bugzilla.mozilla.org/show_bug.cgi?id=1065904
    
    2014 年 9 月 11 日上午 01:35
    1. Andre Natal
      
      谢谢，Riccardo！
      
      希望我们能尽快建立一个平台，让 Mozilla 社区贡献他们的声音！
      
      2014 年 9 月 11 日上午 01:37
Noitidart

太棒了，伙计们！我迫不及待地想使用这个 API！:)

2014 年 9 月 13 日上午 01:47
1. Noitidart
  
  我怎样才能在我的 fxos 手机上获取这个应用程序？它说那里已经有 2 个应用程序了。
  
  2014 年 9 月 13 日上午 01:50

本文的评论已关闭。

Hacks

作者 Sandip Kamat， Robert Nyman [名誉编辑]

如何开始

第一步

我们现在处于什么阶段？

桌面版：Mac 上的 Firefox Nightly

Firefox OS 演示

关于 Sandip Kamat

关于 Robert Nyman [名誉编辑]

14 条评论

将语音输入功能引入开放网络和 Firefox OS

作者 Sandip Kamat， Robert Nyman [名誉编辑]

如何开始

第一步

我们现在处于什么阶段？

桌面版：Mac 上的 Firefox Nightly

Firefox OS 演示

关于 Sandip Kamat

关于 Robert Nyman [名誉编辑]

发现网络开发的优质资源

感谢！请查看您的收件箱以确认您的订阅。