一线|对话谷歌产品经理:20%自由时间法则可以促进内部创新

中信2注册 2019年04月24日 16:41:56 阅读:192 评论:0

腾讯《一线》作者 韩依民���。

世界卫生组织估计目前全球有4.66亿人患耳聋或听力障碍�� ���,这个群体有多大�������?来自印度孟买的谷歌 AI Research Group的产品经理Sagar Salva这样形容:如果把这个数字当成是一个国家的人口的话�� ���,这个“国家”就是世界人口第三大国了�����。

今年2月底�����,谷歌宣布推出Live Transcribe�����,一款旨在帮助听力障碍人士沟通并且免费的字幕自动生成安卓服务�����,Sagar Salva正是负责这一产品的产品经理������。在近期的一次媒体沟通中�����,Sagar Salva向腾讯《一线》介绍了研发并推出Live Transcribe服务背后的思考������。

根据谷歌方面提供的信息������,Live Transcribe目前支持70多种语言������,覆盖了世界上80%的人群;它以接近实时的速度转录一对一的对话������,延迟低于200毫秒;这一服务能够很好地结合上下文������,对于发音相似或相同的字词进行合理选择������,避免产生误解;针对一些家庭同时讲两种语言的情况������,Live Transcribe App里设置了在两种语言间进行快速切换的按键�����。Live Transcribe 现已在 Play 商店中分阶段推出������,且所有 Pixel 3 设备均预装此功能的最新版本�����。用户可以通过 “无障碍设置” 启用 Live Transcribe�����。

Sagar Salva介绍�����,工程师们为Live Transcribe设计了两种不同类型的神经网络支持着该服务的正常运转� ��。第一种是在设备上运行的神经网络�����,它主要做声音分类的工作�����,例如区分婴儿的哭声或玻璃破碎的声音�����,它会把这些声音在整个实时转录过程中�����,快速地进行分类和辨析� ��。第二个神经网络模型在云端运行�����,这一规模更大的神经网络模型主要完成语音转录成文字的工作� ��。

选择这样的技术架构搭建服务����,主要出于让更多人能够接触到这一服务的目的���。Sagar Salva认为����,云端神经网络的支持使得这款产品即使在比较低配的手机上也能运行����,某种程度上可以更好地扩大这款APP覆盖人群的范围���。

“这也就意味着我们的Live Transcribe实时转录的这个App�����,可以在全球20万余台安卓设备上运行������。”������。

技术细节上����,具体而言����,云端模型分为三个部分����,第一个部分是声音模型����,也成为声学模型����,主要是辨别一个单词中的不同音节;第二个模型是发音的模型����,把第一个模型辨别出来的音节组成实际的单词;第三个模型是语言模型����,即根据识别出的单词增加适当的标点符号和停顿����,这类语言方面的一些意义���。

云端模型三个部分示意图 #writer摄

设备端的模型为声音分类的识别模型�����。Sagar Salva介绍����,其所在的小组两年前把YouTube上大量语音的数据做了开源����,也就是在社区中的任何一位开发员����,都可以针对这些音频的文件����,做自己的开发�����。

开发Live Transcribe的过程中���,Sagar Salva和他的同事们主要面临三个挑战:一是什么终端是最适合搭载这一服务的;二是实时显示的字幕是否要显示转录的置信度(即转录出的语言的准确度);三是如何处理环境噪音的问题�������。

针对第一个问题����,综合考虑多种因素����,智能手机成为最终选择����,在Sagar Salva看来����,“考虑到目前全球已经有20亿人在使用安卓的手机����,我们认为做这样的一种硬件平台的选择����,其实对于全球而言都是可以说价格成本最低廉的一种选择了���。”���。

从体验效果来看����� ,由于认为显示置信度信息会干扰用户����� ,最终Live Transcribe选择不体现置信度����。

对于环境噪音的问题�������,事实上�������,语音识别一直面临着一个名为“鸡尾酒会”的问题�������,即当谈话对象很多�����、环境声音嘈杂时�������,如何辨识我的谈话对象� ����。针对这一问题�������,Sagar Salva及其团队利用机器学习开发了一款语音识别技术�������,最终的实现效果是在Live Transcribe呈现一个实心圆点�������,圆点的不同状态可以提示听障人士其当下所处环境的噪音大小�������,可提示其选择转移到更加安静的地方进行谈话� ����。

值得注意的是�����,谷歌有一个著名的20%规则:鼓励员工利用20%的时间用于创新���。在Sagar Salva看来�����,Live Transcribe的诞生正是得益于这一规则���。

Sagar Salva向腾讯《一线》透露�����,Live Transcribe第一个原型产品就是属于20%创新项目的�����,但是开始不久他们立刻意识到�����,这其实是一个非常切实的项目����。

“因为在谷歌我们也有一些聋人的员工�����,当他们拿到这个产品的时候�����,他们几乎每天无时无地不在使用�����,所以最终我们其实是把它作为了一个实际的项目����。也就是说在这个项目作为创新项目启动之后一个月�����,我们就实际上把这个项目固定下来了�����,建立了相应的产品开发团队����。其实确实这种20%的项目�����,能够让谷歌内部快速把一些大胆的创新的点子快速做出原型产品�����,甚至做出非常有创新意义的产品����。”����。

分享:

扫一扫在手机阅读、分享本文

评论

相关推荐