中山公众号开发,中山小程序开发,中山企业官网开发,中山软件开发,中山APP开发
公司动态
COMPANY DYNAMIC
行业资讯
COMPANY DYNAMIC
扫一扫出方案
搜狗 AI 交互技术部总经理陈伟:未来 AI 语音交互产品将会走向多模态
点击数:
2020-06-04 17:02:52

受限于人工同传或速记人员费用高、记忆力及翻译 / 速记速度有限等因素,搜狗 AI 录音笔逐渐出现在越来越多会议场景中,AI 录音笔可以将演讲者的语音实时转成文本,并且进行同步翻译,很大程度上取代了人工同传和速记人员,帮助人们实现了不同语言间的低成本交流。那么,这背后又有哪些智能语音技术作为支撑?在 AICon 大会召开前夕,InfoQ 有幸采访了搜狗 AI 交互技术部总经理陈伟,听他分享搜狗 AI 交互技术的发展历程及应用实践。

背景

随着深度学习技术的兴起,人们已经看到了 AI 在感知识别层面如语音、视觉等领域取得的惊人成果,AI 智能语音技术也正在快速走向实用。搜狗近年来一直在 AI 领域持续布局,语音识别在搜狗输入法的大规模应用也呈现出渐行渐好的趋势。

借此契机,陈伟于 2012 年 8 月加入搜狗,负责带领搜狗 AI 交互技术团队,围绕搜狗“自然交互 + 知识计算”的 AI 战略,重点布局搜狗多模态人机交互技术的研发和产品化工作,研究的领域覆盖了多模态人机交互系统的各项技术,同时重点研究如何结合感知和认知方向的技术打造出自然的人机交互体验,期间还带领团队研发了搜狗分身、机器同传、个性化合成、变声等前沿性的 AI 创新能力,目前研发的技术重点服务于搜狗的输入法、搜索、AI 硬件等核心产品,同时也在以搜狗 AI 开放平台的方式对外输出。

搜狗 AI 交互技术的发展历程

近年来,搜狗在智能语音交互上取得了一定成绩,在车载、智能家居、可穿戴移动设备上都有规模化落地。但在智能语音交互技术的推进过程中,搜狗也是在不断的尝试和探索中蜿蜒前行。

通常,语音录入和转写的准确率要依赖于真实场景而定,受限于噪声、口音、讲话方式等因素的影响,准确率会有一定的差异。但是目前搜狗在转写上已经具备了较强的鲁棒性,针对不同场景的识别效果波动性已经有明显减小。广义的语音识别不仅限于内容的识别,还包括了语音分析等核心技术,例如搜狗的同传 3.0 技术以“多模态”和“自主学习“为核心,加入视觉 (OCR) 和思维能力(知识图谱),让机器同传不仅会听,还首次具备了会看、能理解会推理的能力。

在采访中,陈伟表示,搜狗在智能语音交互技术的发展,主要分为以下几个阶段:

1、语音搜索阶段

语音搜索方便了用户在搜狗搜索上快捷的检索,早期识别准确率不够高,但是搜索可以返回多个检索结果,很大程度可以降低识别错误带来的影响。目前搜狗识别准确率已经达到较高的水平,搜狗搜索已经可以根据用户语音搜索请求直接给出答案,用户体验感有了较大提升。

2、语音输入阶段

搜狗语音输入能帮助用户更高效、快捷地输入内容,语音输入的最高输出效率目前能达到每分钟 300~400 个字,特别是伴随着数据、算法和算力的不断提升,语音输入识别准确率也得到了大幅提升,近几年,搜狗每年的识别字错误率都能保持 30% 以上的下降,语音输入的日 PV 已经达到 10 亿 +。但是,快速发展的背后也让搜狗发现通用的语音输入无法解决用户个性词的识别,比如通讯录、工作领域的词汇等,所以去年搜狗发布了个性化语音识别能力,能够基于用户在搜狗输入法的用户词库,实时优化语音识别效果,针对个性化词的识别错误率下降了 40%。

3、语音翻译阶段

语音翻译能够方便用户进行实时跨语言的交流,结合搜狗在语音识别、机器翻译、语音合成领域的技术积累,2016 年搜狗推出了首款商用 AI 同传系统—搜狗同传,能够实时查看或收听同传译文,目前已经支持了大会演讲、线上直播、远程会议等多个场景,同时在输入法、录音笔等产品上也上线了同传的功能。此外,搜狗还推出了搜狗翻译机,这是业内较早地将语音翻译能力进行离线化的尝试,不联网也可以实时进行跨语言交流。产品背后,是搜狗智能语音团队在模型压缩、低算力推理、知识提纯等方面的不断探索。

4、语音交互阶段

2011 年的 Siri 和 2014 年的 Ehco 有效推动了语音助手类产品的快速成熟,也带动了国内一大批语音交互类产品的发布。在通用语音交互上的研发过程中,研究团队逐渐发现目前智能语音交互的产品,核心在于对话能力仍无法满足用户的预期,无法做到自然地对话。因此,搜狗 AI 团队的研究重点主要放在了面向于垂直刚需场景的任务型对话研究上,语音交互侧重于车载、智能家居、可穿戴移动设备等领域,提供全双工的语音交互能力,并在 2016 年发布了自有的语音交互 VUI- 知音 OS。

5、多模态交互阶段

搜狗的人机交互主张是自然交互,如何做到自然交互,搜狗认为这一问题的答案,一定是多模态交互。不局限于语音,而是语言、视觉等多种模态信息相结合,共同提升交互体验。因此,搜狗在多模态感知、多模态人机交互、多模态表达等方向都在持续研发,特别是其发布的搜狗分身,实现了以数字人的形象和人进行对话和交互,形成了搜狗在交互领域最具差异化和代表性的交互产品。

结语

据陈伟介绍,未来 AI 语音交互产品将会走向多模态,搜狗同传也不例外。就搜狗同传产品而言,在经过多重“感官”的调用后,搜狗同传不仅可以做到翻译更加快速和准确,而且会更加自然、专业、智能。数据显示,在“听”“看”“思考”三位一体的作用下,搜狗多模态同传系统针对 PPT 内容的识别准确率提升 21.7%,翻译正确率提升 40.3%。

嘉宾介绍:

陈伟,搜狗 AI 交互技术部总经理,主要负责搜狗多模态人机交互技术的研发和产品化工作,研究方向涵盖语音、图像、自然语言等多模态领域,带领团队实现了行业中最前沿的人机交互技术,并重点推动了搜狗人机交互核心能力在输入法、AI 录音笔、AI 翻译机的全面应用。同时还主导推出了搜狗分身、搜狗同传、搜狗变声等前沿性的 AI 创新产品,不断带领团队探索人机交互产品和技术的未来。

文章版权归极客邦科技 InfoQ 所有

节点互动(广东)科技有限公司一家专注于 APP开发 + 小程序开发 + 微信开发 + 系统开发 + 网站开发 的专业互联网应用服务提供商。5年实战开发经验,高校合作基地,多年行业深耕经验,助力传统行业快速转型,为众多企业提供创新性互联网应用产品。


推荐文章
微信的火热发展在于机遇和平台
【摘要】在互联网时代,新浪微博一推出就受到众多网民的欢迎,开始在网络世界上爆红起来。在微博发展期间,蹿红了许多微博明星以及草根达人,明显开微博不仅满足了粉丝想要了解明星更多信息的需求,同时也拉近了明显与粉丝的距离。但是腾讯显然不满新浪抢走了它的目标用
职业教育增长,正在“电商化”
这个行业比较特殊;首先,教育名义上是一个行业,实际上是很多行业的组合:学前英语启蒙、K12辅导班、上班族理财课堂;从前端获客到后台业务组织,可以说是千差万别,甚至是毫无关联;然而,它又不像内容、电商这类行业,有海量的产品可以选择。 在后疫情时代,教育转向线上的趋势也越来越明朗,那么相应的营销方法论又有什么新发展呢...
如何正确解读MVP测试指标?
解读MVP测试指标是产品经理常做的事情,那MVP测试指标究竟是什么?又该如何正确解读呢?本文介绍了解读MVP测试指标需要注意的问题和制定测试指标的大致逻辑,与大家分享!一、MVP需要完美吗?MVP的概念是随着Eric Ries 《精益创业》的受追捧而
如何给产品制定数据指标?
制度产品数据指标是产品经理必须要做的事情。那究竟怎么制作产品数据指标?又需要哪些能力呢?本文介绍了制定产品数据指标需要注意的两点和制定产品指标大致逻辑,与大家分享!制度业务指标几乎是每个部门每个岗位都要做,且非常重要的事。相对于其它部门的业务指标,产
从0到1,互联网公司的组织规模与产品有什么关系?
一家互联网组织,是怎样从无到有、从0到1,从MVP到DEMO到alpha、beta版本,再到V1.0正式上线、提供服务创造价值并经过一轮轮融资上市直至退市的呢?产品主导型互联网组织在逐步扩大的过程中,拥有怎样的竞争力和核心优势?这是作者几年前发布的文
西瓜视频落地 Flutter,给你的避坑指南
Flutter 是目前最火的跨平台技术,在提供极好的用户体验的同时能解决多端一致性的问题,而且还能有效地降低人力成本。在谷歌正式发布 Flutter 之后,各大厂纷纷布局并逐步落地,国内大厂像阿里巴巴、字节跳动、美团等已经走在了 Flutter 队伍
Slack 的开发环境是如何演进的?
在本文中,开发环境是指可以在部署之前测试代码更改的沙箱,不是 Eclipse 或 Microsoft Visual Studio 这样的集成开发环境(IDE)。本文最初发布于 Slack 官方博客,由 InfoQ 中文站翻译并分享。对我来说,开发环境
以数字经济赋能实体 AKmax交易服务平台致力于助推企业数字
今年5月份国务院开展“数字化转型伙伴行动”帮扶举措,核心内容提现了“以数字经济赋能实体,帮助各类企业数字化转型”。区块链作为数字经济主流技术之一,产业区块链、实体场景应用、技术开发的结合发展已成大势所趋。而这一变化,也让业内不少人士重新思考区块链与实
搜狗 AI 交互技术部总经理陈伟:未来 AI 语音交互产品将
受限于人工同传或速记人员费用高、记忆力及翻译 / 速记速度有限等因素,搜狗 AI 录音笔逐渐出现在越来越多会议场景中,AI 录音笔可以将演讲者的语音实时转成文本,并且进行同步翻译,很大程度上取代了人工同传和速记人员,帮助人们实现了不同语言间的低成本交
扎根中国20年,F5“代码到用户”线上峰会盛大启幕
2020年5月20日,全球领先的多云应用服务厂商F5公司以线上峰会的形式开启了F5 2020 “代码到用户” 暨F5中国20周年纪念庆典,深入解读了F5“代码到用户” 的战略。F5全球首席执行官范仲林先生、F5全球首席科学家及首席技术官林耕先生、 N
在线客服系统