游客

从搜狗输入法到搜狗听写 自然交互领跑AI应用落地

游客 2017-08-21 15:02:17    201569 次浏览

语音识别,虽早已不是新鲜技术,但实现语音实时转换成文字的听写转录,却成了人工智能领域垂直场景落地的新突破点。近日,搜狗推出转录、速记“神器”——搜狗听写,从搜狗输入法的语音识别“进化”到搜狗听写,AI 应用逐渐“飞入寻常百姓家”,自然交互也领跑着 AI 场景化落地。

从搜狗输入法到搜狗听写 自然交互领跑AI应用落地

当 2006 年搜狗输入法正式上线时,用户正处于键盘输入的黄金时代;2011 年,搜狗开始前瞻布局自己的语音技术,并在一年之内快速产品化。从键盘到触屏,再到语音输入,搜狗输入法在“人机交互”方式上不断积累着经验,用嘴打字也逐渐从时尚变成用户习惯。

语音是人类交流、人机交互最自然的方式,它同样也被认为是开启人工智能时代的起点。搜狗公司作为国内 AI 能力最强的互联网公司之一,早已建立了强大的语音自研团队,拥有目前互联网规模最大的语音数据。统计显示,搜狗输入法单语音输入日频次已达 2.6 亿次,比一年前增长 80% 以上。通过大规模的优质语音训练数据和深度学习的技术能力积累,搜狗也将这种语音识别的技术优势转化到了更多的适用场景中。

从搜狗输入法到搜狗听写 自然交互领跑AI应用落地

从技术上来看,搜狗听写产品的关键在于语音识别准确率,据了解,搜狗听写使用了搜狗输入法的长时语音转写技术,从立项到现在,错误率已经下降了 30%。在声学模型方面,采用了端到端深度神经网络技术 Deep LC-CLDNN CTC 技术,转写模式则使用了 Deep CNN CTC 的方式,语言模型基于T级海量输入法文本数据使用神经网络进行建模。

搜狗听写的识别准确率已达到国际领先水平,语音输入比键盘打字更快、更方便、更准确。但 AI 的应用过程并不完全是技术导向,而是场景驱动的产品导向,重点在于如何深入用户需求、怎样更多地结合使用场景,只有把需求和场景结合起来才能成为好的 AI 产品。在语音领域,搜狗最先意识到,产品落地需要场景驱动,在垂直化场景中,AI 才能真正为用户所用。

在具体的应用场景上,搜狗听写针对用户使用的不同环境,如开会,写小说等场景进行优化,识别效果较通用效果提升 15% 以上;针对图书馆、咖啡厅等不便于大声说话而又有使用语音的场景,提供耳语识别技术,在人的说话音量低至 30 分贝时,依然可以准确识别。搜狗听写作为一款多场景的语音听写工具,大大提高了用户生产力。

从搜狗输入法的语音识别能力延伸到搜狗听写,自然交互改变生活的大幕逐渐拉开。未来,语音技术在各种应用场景中还有大量机会,比如在智能家居的场景,我们希望回家以后可以使用语音和电视、遥控器、音箱、窗帘等讲话。不仅是智能家居应用场景,而且在更多的垂直化应用场景中,如车载、医疗、教育等环境,语音带来的人机交互变化将深刻改变我们的生活方式和习惯。

人类对于人工智能的终极描绘,始终是同人一样进行自然的语言交流,这也是搜狗人工智能的发展目标。对于搜狗输入法,AI 也赋予了它更多的未来,在搜狗的概念中,使用输入法时机器能更好地理解人的意图,从而推送相关联的信息、衍生内容,未来,搜狗输入法的辅助对话将帮助人类在机器时代更好地进行交流。

从输入法到搜狗听写再到辅助对话,搜狗通过 AI 技术对人的自然交互进行了延展,提高了设备的便利性、及时性,拓宽了实用场景并增加了交互纬度,搜狗一直在做的就是帮助用户“表达和获取信息更简单”,将人工智能技术发展聚焦在语言领域,自然交互领跑着 AI 应用落地。

内容加载中