冷冻机厂家
免费服务热线

Free service

hotline

010-00000000
冷冻机厂家
热门搜索:
行业资讯
当前位置:首页 > 行业资讯

声音的气力与谷歌语音技术负责人对话

发布时间:2020-03-23 13:00:39 阅读: 来源:冷冻机厂家

据国外媒体报道,知名科技博客TechCrunch作者贾森·金凯德(Jason Kincaid)发表文章,讲述了他与谷歌语音技术负责人迈克·科恩(Mike Cohen)最近进行的一次谈话,内容触及谷歌大力投入语音技术的缘由及发展前景。

谷歌语音技术负责人迈克·科恩(Mike Cohen)

以下为全文摘要:

尽 管智能手机应用程序花样翻新,层见叠出,但是如果你拿出手机,说一声“寻觅到科技馆的道路”,谷歌就会立即照做的话,你依然会感到这个情形有点不太寻常。 语音技术通过iPhone应用程序,和与Android的深度整合,正在变得日趋普遍,而这实际上仅仅是一个开始。

回顾过去

在讨论现在的状态之前,我们先来回顾一下科恩过去的经历,也可以说这是在回顾语音技术的历史,由于虽然科恩从2004年开始一直在谷歌工作,但他自80年代初在斯坦福研究院做研究时起,就站在语音和技术的交汇之处,至今已几十年了。

科 恩说,在20世纪70年代语音工作有两大阵营:语言学家和工程师。语言学家强调规则——他们会找出语法和发音上的各种趋势,和每个音素如何与其他音素 互动。工程师们则采取了不同的方法:他们的目标不是试图以人工方式精心肯定每一个规则,而是构建复杂的统计模型,当有更多的语音数据输入到这些模型中时,它 们就会得以改进。

到了70年代末和80年代初,当科恩开始在斯坦福研究院做研究 时,工程师们正处于领先位置,但是存在着这样一个问题:统计模型的改进已开始构成渐近线。科恩解释说,由于这些模型总是相同的,向它们输入更多的数据终 究会出现报酬递减(例如他们的模型不善于辨认发音在多大程度上取决于哪些词被说出,又在多大程度上取决于上下文是什么)。工程师们需要找到一种方式来建立 更好的模型,所以他们终究开始与语言学家们合作,造就了另外一波研究热潮。到90年代初,语音技术已取得了长足的发展,研究人员创建了 航空旅游信息系统(ATIS,Air Travel InformationSystem,用户可以走到一个终端,说“告诉我从波士顿动身的航班”,计算机就会显示相干数据。该系统可以辨认这些命令无数种的变化,因此你没必要记住某 些关键字)。在Windows 95面市时就有了ATIS这样的系统,这让人觉得有些不可思议。

在ATIS获得成功的基础上,科恩认为这项技术已做好了商业运用的准备,所以他和三个联合创始人创办了Nuance公司,为需要处理大量呼入电话的大公司建立自动电话系统(电话公司的客户服务系统就是一个例子)。

科 恩继续寻觅改良Nuance语音辨认软件的方法(鉴于他曾是一名研究者,这也就不足为奇了)。而且事实证明,海量的呼入录音比他在斯坦福研究院做研究时获 得的数据更加有用,由于有些东西没法在实验室环境中重现,比如背景中的狗叫声,孩子的哭声等等,而这些声音会出现在呼入的电话中,所以Nuance面临着 语音分析的重大新挑战。

但这里有一个很大的问题:虽然Nuance的技术正在处理大量数据,Nuance公司还是必须向它的每一个企业客户提出要求,以便取得这些数据用于研究目的。这样做对企业有好处,由于它们能从技术改进中获益,但一些企业依然对此持谨慎态度。这终究致使科恩进入了谷歌。

GOOG-411项目

在 2004年前,谷歌基本上没有语音技术,但是科恩看到了机会。即便在那个时候,手机将对未来技术产生巨大影响的迹象就很明显。而且,由于谷歌直接面对终究 用户,它收到的任何语音数据都可以方便地用于研究目的。因而科恩进入谷歌,着手展开GOOG-411项目,后来它成为谷歌的免费411语音服务。

这 项服务在2007年推出,它提供了一个简单方便的功能集:你给它打电话询问一些基本信息,比如一个企业的电话号码,它就会马上为你提供相干信息,而且是免 费的。科恩说,推出GOOG-411的主要原因就是“它有用”,但它还有一个重要的副作用:谷歌从此开始建立一个庞大的语音数据库。还记得前面讨论过的数 据模型吗?谷歌语音系统在概念上与之类似,但是范围大很多。

GOOG-411项目 在十月份取消了,但这时候谷歌已有了更多的语音数据输入方式,包括在Android上到处可见的麦克风按钮,和GoogleMobile的iPhone应用程序。而且谷歌可以查看基于文本的搜索查询词条,肯定一个词后面出现得最频繁的是哪一个词。这一切都意味着谷歌可以相对较快 地改进其语言模型。

科恩说,如今谷歌使用2300亿个搜索查询词条来“培训”其语音辨认功能所使用的语言模型。为了形象地说明数据量有多大,科恩说,如果只用一个CPU,这个“培训”需要70年时间才能完成。

这 项技术现在已用在谷歌的多种产品中。YouTube自动为数百万视频添加了字幕。谷歌语音服务尝试将呼入的语音邮件转录成文字(产生了一些非常滑稽的结 果)。语音搜索将在移动装备上发挥更大的作用,所以,如果在不太遥远的将来,你看到配有媒体中心的车辆在运行Android,请不要感到惊讶,它们肯定带 有语音功能。

科恩很高兴地谈起谷歌在声音技术上做出的努力,但他没有泄漏统计数据,行将发布的功能,也没有做出预测。科恩承认,谷歌语音搜索的量波动很大,取决于是不是有新的带有语音功能的服务推出,和是不是报刊最近进行了报导。

当我问他,多久以后语音搜索将变得非常准确,以至于我们可以将它视为天经地义(指不需要再检查文字的拼写毛病),虽然他说了类似于“5年”这样话(对研究工作而言,这相当因而说“我不知道”),但他不愿意谈及具体计划。

我 也问过他,对苹果在语音技术方面采取的行动有甚么想法(苹果去年收购了以语音搜索技术为主的公司Siri,很明显苹果想把将语音技术纳入到iOS中),科 恩一样也没有这个问题上说多少(虽然这其实不使人感到惊讶)。他只是说,谷歌已推出了一个产品,因此具有数据量大的天然优势,但这个问题的答案最终将归结 于苹果开发了甚么产品和它与谁合作。

不过,虽然科恩没有谈及具体细节,他却讲到 了谷歌语音技术的长远目标:让语音输入变得无处不在。“就像你可以在很多地方用键盘输入文本,你也应当可以在很多地方使用语音输入。”而准确性是其中的一个要点“它需要极其‘接近完善’,人们选择使用语音输入不在于它的表现,而在于最终用户的喜好。”腾讯科技消息

昆明儿宝儿童医院科室列表

云南仁爱医院预约挂号

厦门湖里天伦医院怎么样

相关阅读