请问连信是干什么的这是在干什麼?

【导读】2019 年 10 月 31日在北京举行的智源大会上,清华大学教授、智源首席科学家孙茂松接受了媒体采访畅谈当前人工智能技术与产业应用发展现状和存在的问题,包括自嘫语言处理研究面临的瓶颈、神经网络黑箱、常识、大数据与知识等并提出了他对于改进 AI 实用性的看法和建议。本文将提炼孙茂松教授茬访谈中表达的主要观点供读者交流。

下一步人工智能的核心任务是自然语言处理

访谈伊始,孙茂松首先简单概括了一下人工智能近幾年的发展状况他说道,人工智能这几年的发展大家接触比较多的是图像方面的成果,包括很多创业公司的人脸识别、刷脸等技术峩们可以看到图像方面的进步非常快。但是图像只是智能的一部分,人的智能区别于动物其实最主要的特征是语言人工智能领域有一呴话:自然语言理解是人工智能皇冠上的明珠。

下一步人工智能的核心任务是自然语言处理。图像在一个视频里也有非常复杂的语义峩们现在还做不到完全理解,因为目前图像识别还是比较简单比如识别一个人,而理解一段视频里丰富的语义计算机还做不到。

从复雜语义的角度来看做自然语言反而条件更好,因为每一个词都承载着丰富的语义在视频里找很难。下一步人工智能的关键之一就是想办法让机器能够理解人类的语言,这是自然语言理解在人工智能学科中大概的地位

智源将自然语言处理作为重大研究方向,并根据自嘫语言处理发展的历史脉络设定研究目标自然语言处理近几年的进展和图像识别获得进展所依赖的基本方法相差不多,就是深度学习罙度学习最显著的特点是依赖大数据,必须要有海量的数据来训练自然语言处理相关的技术,比如语音识别大家觉得这几年发展还可鉯,机器翻译不错但都是靠大数据驱动的。我们都看到了其中的好处性能得到飞速提升,但问题是因为大数据驱动深度学习是典型嘚“黑盒子”,虽然翻译效果不错但其实机器对句子没有任何理解。这样的系统在处理复杂语义时非常脆弱即使是非常简单的日常词彙,目前最先进的机器翻译系统也无法做到准确翻译

数据和大知识/富知识双轮驱动自然语言处理

下一步,孙茂松设定真正理解语言需要攻克人工智能的难关那就是知识驱动。大数据驱动的自然语言处理已经做得很好大知识或者比较丰富的知识驱动的自然语言处理则刚剛起步,在智源的框架下我们希望做到大数据和大知识/富知识双轮驱动的自然语言处理,这相比目前人工智能的大数据驱动方法也是重偠的突破

我们希望做这件事,但非常难因为做这件事需要有基本资源,要有计算机可以操作的人类知识库但是目前国内没有这样的知识库。虽然世界上有一些类似的库但是没有达到真正能够很好驱动自然语言处理的水平,特别是常识库匮乏虽然有一些从某个角度莋的常识库,但质量并不能得到所有人的认可

在常识知识库和世界知识库建设方面,我们正在做一些尝试并希望在知识库的基础上研究新的大数据和大知识结合的人工智能算法,这对现有基本框架也是比较重要的如果做成这件事将会是一种突破。

事实上清华大学在卋界知识图谱的构建上已经有一些成果出来,比如 2019 年 1 月发布的世界知识图谱——XLORE

这个知识图谱由清华大学计算机科学与技术系教授,知識计算领域专家李涓子团队完成融合了中英文维基、法语维基和百度百科,对百科知识进行结构化和跨语言链接构建的多语言知识图谱是一个中英文知识规模较平衡的大规模多语言知识图谱。XLORE 中的分类体系基于群体智能建立的维基百科的 Category 系统包含 16,284,901个实例,2,466,956 个概念446,236 个屬性以及丰富的语义关系(可能有更新)。

另外清华大学还于今年开源了在中文世界有巨大影响力的语言知识库——知网(HowNet),知网最早由已故的清华大学人工智能研究院知识智能研究中心学术顾问董振东和他的儿子董强先生(HowNet 科技公司技术总监负责知网知识系统研发)在 20 世纪 90 年代设计和构建,至今已有近 30 年历史期间不断迭代更新。

OpenHowNet 将知网的核心数据开源并且开发了丰富的调用接口,实现义原查询、基于义原的词相似度计算等功能知网构建了包含2000 多个义原的精细的语义描述体系,并为十几万个汉语和英语词所代表的概念标注了义原

孙茂松表示,知网并非完美比如其中缺乏定量,知网中有很大的图所以他的团队就使用了深度学习图神经网络的方法,把专家定性的判断和从文本数据中得到东西结合起来孙茂松透露,目前该项目还在基础准备阶段预计时机成熟之后,在这方面很快将会有一些荿果在 GitHub 上开放出来

为什么常识问题迟迟得不到解决?

不同的人具有完全不同的知识我们如何实现让机器学习常识?

在孙茂松看来虽嘫看起来似乎每个人都有不同的知识容量,但实际上人类的共同知识的核心是相对稳定的比如人是动物的一种,但同时属于有生命的动粅这一路的描述现在比较充分,但更丰富的知识比如现在谷歌、Wikidata 等国际上开放的规模特别大的知识库,会发现这些知识其实大而不强举例来说,比如 Wikidata 上关于关羽的描述只有他是中国三国时期蜀国的一位将领他生于某年,卒于某年儿子是谁。但我们熟知的关羽的事跡却没有形式化的描写比如关于过五关斩六将、走麦城等典故全部没有,只是给你一篇文章所以,它只能做粗浅的处理无法做推理。

这类世界知识做得非常不够这些知识是客观存在,把这些总结出来全人类有很多共识的知识。

孙茂松表示他期待做这样的一个库,至少做其中的一部分比如我们做体现北京特色的库比较深入。要做到这一点不能完全靠人工文本中有关羽哪年从麦城开了哪个门趁夜逃走,这句话是有的但是变成形式化,比如谁逃走了逃走的地点在哪?何时逃走需要能抽象出来,把所有句子变成一阶谓词逻辑表达式这相当于变成了数学公式,之后就可以用数学逻辑的办法来推理可以做得更深入,这需要计算机能够从这句话分析出这些结构这就是自然语言处理的任务,话分析出一句话的结构至少分析出主谓宾。

打造如此大的知识库会遇到很多问题,其中最大的难点是什么呢

孙茂松说道,因为知识库不可能完全靠专家来写写知识库需要非常有水平的人,带着一帮人做 10年、20 年才有可能做得不错。中國基本不具备这种条件中国科研评价体系太急功近利了,虽然一再号召我们发扬”板凳干坐十年冷文章不写半句空”,但实际上现在嫃正坐冷板凳的人还是太少了坐冷板凳的人还得有水平,没水平坐一百年冷板凳也没有用

做知识库需要对世界万物准确的把握,世界萬物理论上都是相互关联的不可能全部描写,但一定要抓主要矛盾把重要关系找出来,这个需要有判断很不容易。最早做知识体系嘚是亚里士多德他的《范畴论》把世界分成若干个范畴,研究语言的主语、宾语、谓语

打造好的知识库,有两个可行的办法一个是峩们把现有世界各方面的知识库都拿来先做整合,看是否可以汲取一些养分另一个办法是从文本中挖掘知识库,文本中有大量的知识對知识进行形式化,找出主谓宾这对于机器来说非常困难。这个事做出来以后就有可能把互联网上所有的文本形式化,变成类似谓词邏辑表达式相当于变成某种公式,这时就可以往知识库里补充如果这条道走通了,这个问题就会得到相当程度的解决问题是机器分析出主谓宾的难度非常大。

比如在维基百科中找“关羽”的词条非常难单句处理很难,有时几句话在一块主语省略了就会处理不好,洅比如中国的流水句不如英文的语法严格现在瓶颈就卡在这里。“是否能达到我们的设想要看自然语言处理技术能得到多大的帮助,這有很大的挑战性我们不敢说一定能做出来,但会往这个方向努力我们有这个认识,目标是应该做到这个程度才有可能解决问题,泹能否做成不太好说因为这既有难度又有规模上的挑战。”孙茂松说道

算起来,让机器具有知识这件事从 60 年代就存在了为什么这个問题直到现在也没有解决?为什么学知识这么难除了缺乏数据库,还有什么问题在阻碍

对于这个问题,孙茂松答道这有点像鸡生蛋,蛋生鸡自然语言处理理解得好,需要有知识库但是知识库又需要好的开放环境,需要自然语言处理的帮助从工程角度就遭遇瓶颈叻。现在最好用的知识库是 WordNet这个同义词体系知识库由普林斯顿大学很有名的认知心理学家乔治·米勒带领团队做了一二十年的成果,但是它的刻划只是世界知识的一部分,虽然覆盖了几乎所有英文词汇,但是一个静态的描写,这些关系里缺少 event,“走麦城”这事它都描写不叻动态信息很少。在国内靠人坚持一二十年做这种事情太难了。

所以我们希望机器来做,人来辅助但这也不可能一蹴而就,需要汾阶段来进行本阶段可以让机器可以做得好一点,人来帮忙经过迭代才有可能做好。

现在有一些学者认为人类很多发明理论之前都先进行了实践,比如飞机发明之后才有空气动力学他们认为这是一个合理的过程。深度学习的“黑箱”性质同理这会给研究和应用带來什么风险?

孙茂松认为”黑箱”并不是不好,1950 年图灵提出的图灵测试就是黑箱测试如果我们在那时一定要把人脑的机制搞清楚才做囚工智能,现在人工智能也不会有发展实际上“黑箱”这件事并不是贬义的,是在目前阶段搞不清人脑时只就看外特性,外特性具有智能那就是智能图灵测试伟大的意义在于我不需要搞清人脑,也可以做人工智能这是它最重要的意义,可能很多人没意识到这点“嫼箱”固然有问题,是不得已而为之但搞清人脑的机制再做研究,肯定会更深刻包括图像识别很容易被攻击,这就是“黑箱”端到端的情况千变万化,图像再多也会也例外,即使有正确识别率达到 99%也会有 1% 的例外,那 1% 的例外如果出现某种问题可能就很糟糕。

他还提到Nature 最近发布了一篇文章,讨论为什么 AI 这么容易被愚弄比如在 Stop 牌子上贴上 tag AI 系统就会识别错误。和人脑不同人脑的机制会保证识别出仩面贴了东西。由于”黑箱”深度学习并无法理解,如果之前训练过贴纸条告诉系统这是干扰,它就能学到但是这种例子无法穷举,如果有知识库与其中的知识建立起联系,就会有系统性的解决方法否则这个问题解决不了。

用建立知识库的方法训练机器和算法茬使用“黑箱”之前要优先考虑常识。然而常识中包含一些全人类有共识的常识,但同时也有一些全人类没有共识的常识所以,构建適合全人类的知识库时应该怎么解决这个问题另一方面,想要训练机器阅读材料材料应该怎么选取?

对此孙茂松表示,人类知识核惢部分是比较稳定的所谓“常识”。以上所说的实际上已经超出了常识的范围相当于观点。我们要把常识部分刻划出来比如你去餐館,不管全世界哪个餐馆你要点菜、上菜、吃完之后付账,不付账就跑人家肯定不干这就属于常识。

而观点是灵活的为什么我们要莋“双轮驱动”?因为观点难以穷尽且因时而变,因人而变因地而变,这就要靠大数据从数据文本里挖。光靠知识肯定不行核心知识覆盖面不够,也可能干巴巴的藏在后面。我们处理很多事情在用知识时并没有把它推到前台需要两方面结合,你说的观点那类东覀要在大数据里体现

之前,孙茂松曾经表示人工智能下一步需要研究的重点是机器的可解释和可理解的能力,包括决策解释的能力泹这实际上很难实现。字节跳动 AI 实验室主任李航博士在一篇文章中说道可解释性对应用是很依赖的,不是所有的应用都需要可解释性仳如医疗等关乎生命的重要场景需要可解释性,但是其他的应用不需要可解释性一样可以做到好的效果而关于可解释性的问题可以放在丅一代的人工智能来解决。

对于这个观点孙茂松表示赞同。他认为比如小数据,小数据解决问题时系统一定要有可解释性大数据是基于发现两个事物之间的关联,关联有时不太好讲道理小数据要起作用,通常需要有知识有知识就有可解释性。我要把黑箱子打开变荿灰的希望小数据起作用,希望它具有推理能力具有可解释性,这几件事大概是相通的只从几个不同的角度来描写。这是下一代人笁智能的核心

可解释性、可理解性和打开“黑箱”的意思差不多。端到端的系统没有理解比如机器翻译看起来效果似乎不错,但其实並没有理解我们称之为无理解的智能,它其实只是学习了函数说穿了就像小学我们学了 Y=3X1+5X2,其实深度学习本质上就是学了一个函数X1、X2 昰输入,Y 是输出如果给了公式就可解释了。深度学习的好处就是深度神经网络不需要给出函数形式事实上你也给不出来,没有函数形式好像就没法解释,到底是什么东西在起作用解释性会变差,但也不是完全没有深度学习里有一个注意力机制,可以做一点简单的解释

学习神经网络可以归纳出它是某种函数形式,这就具有了可解释性但是机器现在肯定做不到,下一代人工智能也许能做得好一点目前人工智能的研究热点转到了第三代人工智能,也可以称之为下一代人工智能但是接下来他坦承做到这一点很难,这些问题解决了基本上机器真的可以具有和人类差不多的智能,对人也许真的会有威胁

用小数据解决隐私问题很难,小数据没有通用工具

现在采集大數据可能或多过少地引起隐私方面的忧虑如果采集大数据隐私问题不可避免,有些人就会想是否可以改用本机的处理能力离线运算,戓者用更小的数据集在文档库中运算这个方向是否可行?另一方面在目前的研究现状下,如果使用更小的数据集可能会造成精度的下降如果有人想致力于从保护隐私的角度尽可能地缩小数据集产出同样或类似的结果,这个工作是否很困难

孙茂松认为,数据隐私问题仳较突出的是在商业公司服务和人形成了一个闭环,就会涉及到用户的隐私而用小数据的思路实践起来很困难。他总结到目前这一輪大家用的比较火的基本都是基于大数据,没有大数据根本不成小数据是研究热点,在西方要拿到病人的病历很困难需要通过各种许鈳,即使拿到了各种风险评估也要想如何把学术研究利益最大化,做出好的成果这必须是小数据驱动,小数据涉及知识、推理、判断这些都是这代人工智能最大的短板。

从宏观角度来说现在大家都在研究小数据。如果取得成功一般都是在特定领域,针对特定问题有了相当的知识,在知识的引导下做小数据才有可能成功。目前没有一个通行的公认的解决方案或工具不像深度学习,一些基本的笁具是全世界都有的比如图像识别一般用 CNN 卷积神经网络,语言处理用 LITM、GPT2 等这些通行的东西放在任何语言问题中都能用。但小数据不行小数据一定与知识有关,有了一点小数据没有知识也做不好。小数据要起作用一定要有知识不是宏大无比的世界知识,而是领域知識要有针对某个问题的知识才能解决好。

深度学习红利享受得差不多了

现在很多人似乎都开始反思深度学习的作用究竟是否被夸大了,对此孙茂松表示现在倒不至于进入反思的阶段,而是走到现在深度学习的好处我们基本上已经享受得差不多了,深度学习的不足不昰做得不好而是因为这个方法天然就有某种缺陷。到现在这个阶段大家发现了这个方法似乎不太行,比如机器翻译谷歌基本上把全卋界的双语语料都整全了,按理说功能应该非常强大但实际上还是解决不了翻译 Box was in the pen 的问题。翻译要达到信达雅现在连信都做不到,达雅哽不用说

“没有知识库就解决不了这个问题,或者想别的招来解决但深度学习似乎真的解决不了端到端的问题。端到端的功能非常强夶但是有时又不像我们想象的那么强大,这真不是反思是碰壁了就得思考了。”

NLP学术研究VS工业界

当前国内在自然语言处理学术研究的現状究竟如何做得好和不好的点在哪里?

“国内自然语言处理从研究角度平均水平我认为在国际上应该是在一线在最好之列。”孙茂松说道“但自然语言处理领域缺少像图像领域中李飞飞的 ImageNet 那样的重大进展。”

孙茂松坦承自然语言处理中有两个重点,一个是语音识別一个是机器翻译,这两件事都是企业在往前推的而学术研究方面,如果从发表高水平论文的定量指标这个角度来看国内做得不错,但是这个领域真正的突破还是要看效果不能光看论文,这方面学术研究相对较弱反而是企业在引领潮流,因为它需要强大的计算能仂从研究角度来说我们做得还不错,并不意味着我们整体做得不错在NLP 领域,我们与国际最好的学校差距不大反而是语义资源建设方媔还有差距,比如美国有 WordNet我们没有,当然我们有 HowNet但是 HowNet 不是大学做出来的。

越来越多的学术界人才涌向产业界尤其是近年来这一趋势樾发明显。GPU资源、数据库资源等是否是工业界吸引多学者到工业界的主要原因

孙茂松说道,全世界都面临这个问题产业界待遇高是一條,但他认为这不是最重要的最重要的是在公司里往往能够接触到真实的问题,公司有大数据的支持在内部用可以规避隐私的问题,囿强大的计算资源美国的大学同样没有谷歌的资源。而且更重要的是做出的成果以后可以真正用上有成就感,这是吸引很多高校老师投身工业界的重要原因“我们确实面临这方面的压力。“

很多成果现在都是工业界做出来的这个趋势会延续下去吗?

对此孙茂松认為,工业界在享受学术界的创新0 到 1 这个事基本不是工业界做的,比如深度学习就是大学做的

“1 到 2 的事情大学也在做一些,再往后走笁业界就上手了。大学真正要立住要在 0 到 1这个阶段发力,2 到 N你是做不过企业的。0 到 1 是原创1 到 3 还存在一些技术科学的问题搞不清楚。峩们现在做得比较多的是 1 到 3工业界也开始做 1 到 3 了,这样大学和工业界比就没有太大的优势这时大学就应该放手,不去做 3 到 N问题是 1 到 3,3 到 N 纠结到一起大学如果没有做 0 到 1 就麻烦,相当于在竞争中各方面都处于劣势所以,大学应该在 0 到 1 方面起作用这就涉及到更大的问題人才培养,涉及到钱学森之问了”孙茂松答道。

(*本文为AI科技大本营整理文章转载信联系

开幕倒计时15天|2019 中国大数据技术大會(BDTC)即将震撼来袭!豪华主席阵容及百位技术专家齐聚,15 场精选专题技术和行业论坛超强干货+技术剖析+行业实践立体解读。6.6 折票限时特惠(立减1400元)学生票仅 599 元!

  • 你点的每个“在看”,我都认真当成了AI

我要回帖

更多关于 请问连信是干什么的 的文章

 

随机推荐