科技

专访 | 三角兽陈华荣:能搜索 “主角一开始就死了的电影”,小米电视怎么做到的?

字号+ 来源:雷锋网 2017-04-21 19:46 我要评论

用 10 周时间,让你从 TensorFlow 基础入门,到搭建 CNN、自编码、RNN、GAN 等模型,并最终掌握开发的实战技能。4 月线上开课,www.mooc.ai现已开放预约。 雷锋网按:雷锋网正在启动 “新智

用 10 周时间,让你从 TensorFlow 基础入门,到搭建 CNN、自编码、RNN、GAN 等模型,并最终掌握开发的实战技能。4 月线上开课,www.mooc.ai 现已开放预约。

雷锋网按:雷锋网正在启动 “新智造成长榜 2017” 评选活动,我们将对人工智能与机器人行业进行大规模报道、梳理和调研,并联合数十家著名投资机构根据这些创新公司的技术实力、商业能力和成长性进行深度评选,最终从多个领域分别选出一些极具潜力成长性的创新公司。如果你想参与我们的评选,可点击「阅读原文」链接,或通过邮箱 xinzhizao@leiphone.com 联系我们!

上个月,小米发布了一款新电视——小米电视 4A。这次发布会距离小米电视 4 的发布仅过去了 2 个月。小米电视 4A 的发布有个小背景,从去年下半年开始,因为原材料价格的大幅上涨,2 月份,小米电视 3s 已经涨价了 500-600 元,刚发布的小米电视 4 虽然还未上市销售,但 4.9mm 的厚度以及超窄的边框,注定了它在价格上不是一个 “小米式” 的产品。

小米电视 4A 被称作回归高性价比之作,不过同时,王川也给这款电视带来了一个新特性——人工智能,这是 “小米首款人工智能语音电视”。发布会上,王川的演示获得了全场掌声,尤其是他说出诸如 “小岳岳追车的画面”、“邓超和张天爱第一次见面的场景” 的指令,小米电视 4A 准确跳到相应画面时。

这些让人惊叹的智能背后,需要语音识别以及自然语言处理的支持,三角兽正是为小米电视提供语义理解技术的公司。日前,雷锋网采访了具体负责这个项目的三角兽技术合伙人陈华荣,聊了聊他的职业经历,小米电视 4A 的人工智能背后的秘密,以及语义理解在垂直领域的商业化应用。

三角兽技术合伙人陈华荣

陈华荣:从 Bing 的 Answer 系统到三角兽的聊天机器人

2005 年,在中科院软件所获得计算机软件与理论专业硕士后,陈华荣就加入了微软,并先后在北京和微软西雅图总部工作。2013 年,他回到了北京,在 Bing 部门负责中日韩的 Answer 系统。所谓 Answer 系统,即向用户提供结构化的显示结果,用户不用离开搜索引擎,就能获取到需要的信息。

如上图,当你搜索《芈月传》时,第一条搜索结果会直接出现这部电视剧的信息、海报、简介和每一集的视频链接,而且来源于两个不同的视频网站。百度和 Google 也有类似的系统,它们通常以卡片的形式向用户展示。

Answer 系统和普通搜索结果的最大区别,是它力求准确而不是关键词的相关性。陈华荣向雷锋网解释,这主要依靠工程师对数据整理的准确性。对结构化的数据,如电视剧评分,系统会直接抓取,而对于半结构化和非结构化的数据,则需要先抓取下来,再做语义分析,然后以结构化的方式呈现给用户。对于视频类信息,系统则通过接入 API 的方式,直接把视频网站的数据呈现出来。

这个工作和三角兽目前专注的语义分析其实是匹配的。而在微软这样的大公司,即使有小冰、Cortana 这样的产品,它们的一切也要围绕微软的战略进行,这是最让陈华荣感到掣肘的地方。所以,在 2016 年,当三角兽的 CTO,也是陈华荣在微软的同事亓超找来时,他毫不犹豫地加入了后者。

让自然语言理解的服务应用到更多领域,打造一个语义理解的大脑,是三角兽的愿景。现在,三角兽专注的领域之一,任务驱动的多轮对话是陈华荣负责的重要工作。所谓任务驱动的多轮对话,即用户带着明确的目的来,通过自然语言的交互方式,快速解决自己的问题,如订餐、看电影等。

多轮对话的目的,是因为和人类正常的聊天一样,单独一句话通常不能明确表达需求,这就需要系统通过反问、反复确认来一步步明确用户的需求,并返回结果。这已经超越了简单的语义理解加信息检索的过程,而是一个在对话过程中不断明确需求的决策过程。这也是聊天机器人解决实际问题的基础。

模糊语义识别:你把电视剧名字记错了,我依然能给出正确的结果

陈华荣告诉雷锋网,三角兽此次为小米电视 4A 准备了一整套的语义理解方案,而小米根据自身的产品需求和排期,主要选择了模糊语义理解和视频问答两个部分。

所谓模糊语义识别,即在用户输入模糊的、不准确甚至错误的信息时,依然能给出正确的搜索结果。因为小米电视使用了语音作为交互方式,输入时,用户的语调不同,就有可能出现错误信息,另外,当用户记忆不清时,也经常会给出错误的搜索词。

陈华荣举了个例子,前段时间有一个很火的电视剧叫《老公们的私房钱》,而用户则可能错记为《男人们的私房钱》。这个时候,三角兽的技术就可以返回正确的结果。

对于模糊语义识别的实现过程,陈华荣介绍,三角兽在视频这个领域建立了语义纠错的语言模型,会处理字形像(半 - 芈)、模糊音(肖生克 - 肖申克)、同音不同字(路遥知马力 - 陆垚知马俐)、语义相近(男人们 - 老公们)等等的问题。在该模型的基础上三角兽做了特别的处理去做索引建库。

当用户的查询(query)过来后,经过纠错模型去作特别的处理后,再到数据库中尽量地召回相关的视频;之后,排序(Rank)模型的特征在纠错模型的基础上,结合大数据挖掘的信息,如热度、评分等等,对结果进行重排序,从而把用户想要找的视频正确的检索出来和进行了语义上的纠错。这也是三角兽可以把 “男人们的私房钱” 纠正为 “老公们的私房钱”,“肖生克救赎” 纠正为 “肖申克的救赎” 的原因。

视频问答:剪刀手爱德华的男主角还演过什么电影?

视频问答系统,可以看成是影视百科,包含视频简介、演员百科、剧中的角色、该演员还演过什么电影等各种信息。这样,当用户用语音询问诸如 “剪刀手爱德华的男主角” 时,系统就能给出正确的答案。

不过,问答系统的功能远不止于此。发布会上,小米也做了很多展示,某些时候,它甚至超出你的想象。比如,“剪刀手爱德华的男主角还演过什么电影?”、“《肖申克的救赎》是哪一天获得的奥斯卡奖?”“小李子什么时候拿过奥斯卡金像奖?” 等,问答系统都能给出答案。

而陈华荣告诉雷锋网,这些其实是很成熟的技术。首先,对这些语句进行理解并不困难,整个实现过程最大的难点,在于数据的提炼,也就是说,要将影视剧的各种信息提取出来,并提炼出各种标签,然后通过检索、排序,匹配用户的需求。

 和问答系统实现过程类似的是电影搜索,唯一的不同是对用户的指令进行语义理解后,不是直接返回答案,而是到数据库里去检索相关的电影,并作重排序返回结果。这个功能的实用性更高,比如你甚至可以直接让电视找出 “只有一个人出演的电影”、“主角一开始就死了的电影” 等。

 (网络上散步着大量诸如 “主角一开场就死了的电影” 的信息,需要系统先抓取,再进行语义分析和信息提炼)

现在,对于影视剧信息,打标签的大部分工作已经可以做到自动化。系统首先从影视剧的官方网站、豆瓣、贴吧、各种评论中抓取信息,再对这些信息进行挖掘,自动提炼信息。另外,对一些知名度高的头部内容,三角兽也会用人工的方法进行标注,匹配用户更多样化的自然语言搜索需求。

陈华荣还告诉雷锋网,未来,三角兽还将与小米电视在多轮对话方面展开合作,以对话的方式,更准确地匹配用户更加个性化的需求。

例如,当用户发出指令,“我要看《天龙八部》” 时,系统会返回非常多的结果,为了更好地理解用户,多轮对话系统会主动询问 “您要看电视剧还是电影?” 如果用户选择了电视剧,系统可能会再次询问用户要看什么版本,直到给出用户满意的结果。

进行多轮对话时,自然语言处理系统的关键一步是对对话状态的追踪,即根据多轮的对话来确定用户当前的目标到底是什么的过程。在这个过程中,系统要确认是讲当前的状态与前一个状态是冲突的,还是要将两个状态进行合并。举个简单的例子,用户想看刘德华的电影,但是对搜索结果不太满意,他就可能转换目的,“张学友的电影”,这个时候,系统已经按照两个状态冲突来进行处理,在结果中呈现张学友主演的电影;但是,如果用户说了 “和张学友的电影”,系统就会把两个状态进行合并,呈现刘德华和张学友一起演的电影。

所以,在智能电视的应用上,对影视数据的更精细化的提炼,以及对上下文的准确理解,是语义理解当前的一个难点。小米电视的应用,已经是一个开始。

语义理解大有 “钱景”:智能客服、商场导购、车载系统、机器人、音乐……

除了任务驱动的多轮对话系统,三角兽的专注的另一个领域是开放域聊天。和要解决用户具体需求的多轮对话系统不同,开放域聊天指系统能对用户的任何问题给出回应,它的目的更多的是建立情感联系,拉近和用户的距离。

在陈华荣看来,未来,开放域聊天会成为多轮对话的标配,没有前者,系统会显得呆板、机械,也很难给人智能的感觉。而开放域聊天和多轮对话、智能问答在一起,可以在很多领域有很好的应用。现在,三角兽已经在几个领域有了应用:

金融领域:恒生电子

三角兽为这家给证券、银行、基金、期货等提供技术支持的企业开发了客服机器人系统,为用户解决开户,股票、基金投资信息等服务。

三角兽的客服系统的优势在于语义理解系统,可以分析非常多样的用户提问,理解用户的真实意图,然后对应企业问答库中的答案。

零售领域:香港新世界

三角兽提供了智能问答和多轮对话系统。比如在商场中,系统会推荐热门的餐厅,也会在用户提问时,通过进一步的引导,来明确用户想要吃中餐、西餐,或者一人食还是聚餐的需求。

目前,该服务主要通过微信公众号提供。系统还集成了开放域聊天技术,用户也可以进行闲聊。

媒体领域:光明网

两会期间,三角兽为光明网的 “小明 AI 两会” 提供了技术支持(详见雷锋网之前的报道),分析了 40 多万篇有关媒体报道和官方报告对其进行训练,从 29 万个词汇中挖掘出近 5000 个与两会相关的关键词,并据此整理出针对每一位代表委员的个性化报道。

车载环境:威马汽车

主要是威马汽车车载前装音乐和导航模块。在陈华荣看来,车载环境是语义理解应用非常好的垂直领域。因为这个环境里比较封闭,用户的需求无外乎导航、寻找附近的银行、餐厅,打电话等。

2015 年,有一款叫 Vinci 的所谓智能头机的产品,吸引了很多关注,但也引来了不少非议。现在,Vinci 已经转而主打语音交互,其背后的语义理解技术,同样由三角兽提供。陈华荣还透露,三角兽正在与另一家大公司合作,更深入地进入音乐和智能音箱行业。

未来,让银行网点中不再需要柜台人员,以及对老人、小孩进行情感陪护,抑或通过 IoT 设备,通过自然语言的方式控制各种家具设备,都是三角兽的目标。

2017 新智造成长榜评选启动

雷锋网正式启动 2017「新智造成长榜」评选,旨在寻找智能未来三年十倍的创新变量。

即日起雷锋网接受创新企业的报名,最终榜单将由雷锋网于 7 月份举行的 CCF-GAIR 2017 大会期间公布。

如果您有意参加我们的评选活动,可以点击「阅读原文」,加入榜单评选!

1.本站遵循行业规范,任何转载的稿件都会明确标注作者和来源;2.本站的原创文章,请转载时务必注明文章作者和来源,不尊重原创的行为我们将追究责任;3.作者投稿可能会经我们编辑修改或补充。

相关文章
网友点评
你感兴趣的