多模态语义理解是机器能否实现智能的关键

7月9-10日，36氪在北京和上海同步举办“2019WISE超级进化者”大会，活动设有七大会场，关注企业发展变革路径、行业风向把握、零售行业的进击与蜕变、万亿企业服务市场的崛起、产业创新机会、全球化趋势与差异化需求的爆发逻辑等议题，邀请超百位行业领袖，聚焦那些引领行业变革的超级进化者的崛起之路。

细心、周到、有同理心，这或许是人们对未来机器的想象。然而目前看来，我们距离这种理想状态还有差距。在AI领域中，语音识别、图像识别和语义理解与机器的智能化息息相关。相对于语音识别和图像识别的大规模落地，语义理解的落地目前还处于推进过程中。深思考就是一家专注于多模态语义理解的公司，这家公司未来的目标是做万物互联时代每个终端的大脑。在深思考人工智能CEO兼AI算法科学家——杨志明看来，目前人机对话的体验远远不够，背后缺的就是多模态语义理解，而拥有多模态语义理解相关技术的深思考，已经在汽车、智能家居、医疗早筛等领域实现产品突破。杨志明认为，未来还会有更多、更前沿的应用出现。

以下是演讲正文：

大家好，非常荣幸分享一下深度思考人工智能在AI语义理解的规模化落地。

我们聚焦在多模态语义理解技术。AI分三个领域，语音识别、图像识别和语义理解。在学术界大家认为语义理解是人工智能最后的一个皇冠。目前语义理解最前沿的阶段叫多模态语义理解。就像人去看电视一样，人是同时看着画面、听着声音、看着字幕来综合理解，人脑就是多模态理解。我们专注于多模态语义理解技术，我们是语义理解赛道的企业。

今天分享一下，人工智能语音识别、图像识别已经实现了大规模的落地，语义理解如何像图像识别和语音识别一样大规模快速落地。

介绍一下深思考：深思考最擅长多模态语义理解，在短文本理解方面，聚焦在人机对话上，目前在国内中文上下文评测是冠军;在长文本机器人理解方面，拿了全世界的第一名。团队来自于中科院和清华大学的AI一线科学家。我们未来的目标，是做5G时代或者万物互联时代每个终端万物理解的大脑。我们的产品就是多模态深度语义理解引擎。语音识别能解决听见的问题，图像识别解决看见的问题，那如何做到听懂和看懂，这就是多模态语义理解要解决的问题。

介绍一下深思考落地产品。现在深思考通过To B战略，快速把多模态语义理解的引擎和产品快速落地。我们主要应用在汽车上，汽车有智能车联网数字座舱，用在智慧营销，帮助汽车用户进行自动建档、智能跟踪，帮助汽车主机厂分析潜在客户，提高销售成单率。用在医疗健康，用多模态语义理解的技术来做癌症早期筛查。在智能家居，实现健康营养、人与家庭和设备的人机交互。另外依托于2亿部智能终端手机场景做手机和人的交互。

介绍一下第一个落地场景，就是智能车联网数字座舱。传统汽车开车的时候就是驾驶室，驾驶室里有各种仪表，目前有很多汽车有大屏，这是传统的。有些厂商做语音识别，有一块屏做交互。在汽车发展过程中，在自动驾驶不断发展，智能车联网不断发展情况下，座舱发生了改变，我们称之为数字座舱。意思就是不再是一个简单的驾驶室，而是成为汽车在驾驶过程中的一个中央多模态信息的汇聚地。比如智能车联网场景下，汽车跟道路基础设施之间、汽车跟汽车之间、汽车跟互联网都能够做信息的连接和交互。汽车本身装了一些系统，通过视觉对车外的环境做感知与理解。很多汽车内部有很多传感器，比如温度传感器、有语音信息输入。在智能车联网有很多模态的信息，有手势的模态、语音的模态、图像的模态。数字化场景下这么多模态信息如何汇聚起来做综合理解，提供给人做互动，我们提供多模态语义理解与人车交互大脑。

我们用在车内，第一能对多模态信息进行理解，第二可以在座舱环境下实现人、车和家庭的连接。在汽车里面，对于一定的商务汽车，可以通过人车对话做智慧办公。另外我们还实现了RPA，传统的人机对话只是实现问答式，我们加入RPA自动软件机器人，不光跟你做人车对话，而且能够自动帮你完成一些事情，比如预定会议室、和家里的设备做联动、执行。在智慧驾驶场景下处理业务、家庭场景下进行健康咨询，也可以融入数字座舱的应用里。

第二个是汽车智慧营销场景。汽车里面，有用户的对话信息、线上咨询信息等等，我们把它综合起来做多模态语义理解。最后对用户进行自动建档、跟踪，以及大数据分析，为主机厂商销售提供闭环的大数据分析，以及助力4S店把车销售得更好。

第三，针对手机场景，跟手机厂商做深度战略合作。比如在智慧出行，用手机订酒店、订车票、饭店。像苹果Siri是一问一答式的，但一些事情不是通过一问一答就能完成，中间可能会穿插不同的场景。目前这块我们已经有一些突破，深思考的人机对话技术，不但能够实现上下文理解，还可以做到切换完场景之后，还可以切换回来，帮你自动完成这个任务。

另外在健康咨询这块，很多健康营养非常重要，比如妇女孕期的健康咨询，不用去医院，可以通过人机交互对话的方式，通过手机作为载体，实现健康里面的多模态语义理解和人机对话。

第四，智能家居人机交互场景。目前的对话体验远远不够，背后缺的就是语义理解，就是它能听见语音指令，但不能理解背后的场景。比如年初有一个媒体披露，我要订餐，不要日本菜，结果出来的都是日本菜。比如有一些厂商发布音箱的时候，无法进行上下文理解。说来一首梅艳芳的歌，然后再说换一首歌，就成了其他人的歌。如果用了多模态，就可以实现上下文的指代，说再换一首歌，出来还是梅艳芳的歌。比如调空调温度，传统的语音识别就是调到28度，它可以识别。但是我说，空调有点热，调到适合的温度，这时候就不能理解了。语义理解就可以起到这个作用，了解你的个性化信息和习惯，能够理解大白话。比如“调高一点”，它可以通过语义理解实现最终的意图。

第五，智慧医疗健康领域。

目前已经实现了大规模医疗早筛。为什么语义理解用在AI早筛呢?举个例子，宫颈癌的筛查，里面的细胞异常。单个细胞来看很难看出阴性、阳性或者病变。但是图像跟周围环境和相邻细胞位置关系、排列组合关系，可以判断出是隐性还是阳性。这就是语义理解，就是我能看懂这句话，这个图像背后的含义。

深思考落地的时候，重点关注AI的三驾马车——算法、算力和数据。在长文本的理解上，比如阅读一本书，传统人机对话技术需要搭建知识图谱和问答对。最新语义理解的技术，可以像人一样，看完一本书以后，问你这本书里面的问题。它对这本书里面的非结构化的文本进行多模态理解以后，可以像人脑理解以后再回答问题。人看完一本书去回答一个问题时，不会先整理出一个问答对或者知识图谱。人是凭着大脑的理解，回复别人问的问题。机器阅读理解的基本原理就是这样，在这方面，深思考是具备突出的技术优势的。

深思考具备了非结构化长文本的机器阅读理解，避免了传统语义理解或者智能客服，用大量的人力物力去构建知识图谱或者问答对。我们直接阅读非结构化文本，就像百度搜出来的文本就是非结构化的，一篇文章、一个网页都是非结构化的。

AI语义理解里面的关键点，实现了AI的落地场景的四个闭环。

第一，业务闭环。很多AI厂商提供一个单一的API接口或者某一块算法。这样很难深入到业务场景。我们深入业务场景，解决业务里面的关键问题，提供一站式解决方案，实现业务闭环。

第二，数据闭环。把业务场景下的数据从流入到流出，流入以后AI如何去学习，如何去整理这些数据，如何用这些数据构建AI模型，以及用AI模型更好地输出AI能力，解决产品落地当中的问题，实现数据闭环。

第三，模型闭环。AI模型闭环，AI模型通过半监督、无监督或者全监督学习，不断在线去训练AI模型。模型会在线训练，训练以后，可以以更强的能力去解决问题，用户会越喜欢用。越喜欢用，这个场景积累的数据会越多，就成一个良性闭环。最终还是打造一个产品闭环。

第四，产品闭环。落地时候不管是AI还是CI，最后还是解决用户场景下的服务问题。

总结一下，语音识别是听见的问题，图像识别是看见的问题，深思考主要聚焦听懂看懂的问题。未来随着5G和物联网的发展、产业互联网的发展，要深植与端和中央智能，成为万物互联里面的语义理解的大脑。未来的设备不光能听到、看到，而且能理解你、听懂你、看懂你，更好地为你服务。处处皆智能，万物可对话。

现在落地了大量的服务，像汽车、医疗、智能家居中一些头部客户的需求已经成功落地

多模态语义理解是机器能否实现智能的关键

猜你喜欢：

最新文章：