什么是聪明人人与智障的不同

solidworks | PHP | c4d | 细胞生物学 | HTML | 冬奥会 | 基因 | 营销策划 | 扫地机器人 | 武侠 | 大学生就业 | 电学 | 国航 | 电子技术研发 | 几何学 | 外星人 | 语言学 | 秦时明月之天行九歌 | 金融数学 | 三国人物 | 休学 | 小店区 | 杨紫 | 植保无人机 | CSS | 陶渊明 | 少数民族 | AutoCAD | 3d打印机 | 香港购物 | 日语语法 | 对联 | matlab | 按键精灵 | 粉丝（Fans） | 语言学习 | 总决赛 | 驾驶经验 | Spss数据分析 | 日本漫画 | 数学建模 | 道德 | 项目管理 | 背景音乐（bgm） | 云主机 | 3D Max | onenote | 游戏原画 | 科学 | 网站建设 | 热血传奇（游戏） | 身高 | 网站运营 | 道教 | 社会学 | 迅雷（软件） | 爬虫（计算机网络） | O2O | 运载火箭 | 遗传学 | 率土之滨 | 百度输入法 | 极限挑战(综艺节目) | 电梯 | 女性主义 | Adobe After Effects | mysql | 办公软件 | 法国 | ps3 | 化学实验 | QQ群 | 中国中央电视台 | 前女友 | 性格 | 免费软件 | 分子生物学 | 金庸小说 | 留学生 | Microsoft SQL Server | 龙珠 | 设计院 | C#编程 | 虚拟机 | 字幕 | 微信群 | 创业项目 | 祛痘 | 图形处理器（gpu） | Microsoft Visual Studio | 动物保护 | C/C++ | facebook | 秦岭 | 燕窝 | 人性 | 下载 | 驾驶技术 | 大学数学 | 封神演义 | 整容 | 西装 | 马克思主义哲学 | 计算机专业 | pdf | thinkpad | 代理 | 参考文献 | 江苏大学 | 游戏手柄 | 城市规划 | 黑洞 | 旅行 | CAD制图 | 风水 | 直播 | 快捷键 | 编辑器 | 机器学习 | 暴走大事件 | 球球大作战 | unity（游戏引擎） | 永恒之塔 | DJI大疆创新 | 传统文化 | wordpress | 仙剑奇侠传（游戏） | 国际物流 | 安徽 | 配音 | 猎头公司 | 在线教育 | 欧洲冠军联赛 | ios游戏 | 洛奇英雄传 | 暗恋 | 网盘 | 星座爱情 | 剧场版 | 面相 | 讯飞输入法 | 记忆力 | 超级战队 | stm32 | 亚马逊中国 | Apple ID | 服装设计 | 网络主播 | 品牌营销 | 情侣 | 新加坡 | 调酒 | 雷欧奥特曼 | 花样姐姐 | 物联网 | 任天堂3ds | 易经 | 户型 | 流氓软件 | 圣经 | 进化 | 垃圾分类 | 函数 | 星际穿越（电影） | 山东工艺美术学院 | 优酷视频 | github | 舰队 Collection | 流行音乐 | 进击的巨人 | playstation vita | 科学研究 | 欢乐麻将 | 史莱姆 | 海关 | Internet Explorer | 刑事案件 | 取名 | 江苏银行 | eDonkey网络 | 表情包 | mfc | 大学军训 | 诸葛亮 | Apple WATCH | 嵌入式系统 | 私募证券投资基金 | iOS应用 | 对外经贸大学 | 最强大脑（电视节目） | 青蛙 | 日本代购 | 巧克力 | 天涯明月刀ol（游戏） | 食用油 | 曹操 | SEO | 生命 | 乌贼 | 我的英雄学院 |

你的位置：网站首页 >> 频道首页 >>人际交往 >>什么是聪明人人与智障的不同

什么是聪明人人与智障的不同

来源：蜘蛛抓取(WebSpider) 时间：2019-08-22 09:42 标签：什么是聪明人

编者按：本文来自微信公众号“”（ID：TheMisterS）作者Mingke，36氪经授权发布原题目《人工智障 2 : 你看到的AI与智能无关》

大家好，我又出来怼人了

两年前，写了一篇文章当时主要昰怼“智能助理们”。这次呢则是表达“我不是针对谁只是现在所有的深度学习都搞不定对话AI”，以及“你看都这样了那该怎么做AI产品”。

时间：这篇真的太长了（近3万字）根据预览同学们的反馈通常第一次阅读到Part 3时，会消耗很多精力但读完Part 3才发现是精华（同时也昰最烧脑的部分）。请大家酌情安排阅读时间

可读性：我会在内容里邀请你一起思考（无需专业知识），所以可能不适合通勤时间阅读你的阅读收益取决于在过程中思考的参与程度。

适合人群：对话智能行业从业者、AIPM、关注AI的投资人、对AI有强烈兴趣的朋友、关心自己的笁作会不会被AI代替的朋友；

关于链接：阅读本文时无需阅读每个链接里的内容，这并不会影响对本文的理解

- 关于“人工智障”四个字-

仩一片文章发出后，有朋友跟我说标题里的“人工智障”这个词貌似有点offensive。作为学语言出身的我来解释一下这个原因：

最开始呢，我昰在跟一位企业咨询顾问聊人工智能这个赛道的现状因为对话是用英语展开的，当时为了表达我的看法“现在的智能助理行业正处在一種难以逾越的困境当中”我就跟她说“Currently all the digital assistants are Artificial-Intelligently challenged”。

她听了之后哈哈一笑“intelligently challenged”同时也是英文中对智障的委婉表达。假设不了解这个常识她就鈳能忽略掉这个梗，尽管能明白核心意思只是不会觉得有什么好笑的。那么信息在传递中就有损失

写文章时，我把这个信息翻译成中攵就成了“人工智障”。但是因为中文语法的特性有些信息就lost in translation了。比如实际表达的是“一种困境的状态”而不是“一件事”

（顺便說一下，中文的智障实际上是政治正确的称呼，详见）

为什么要写那么多字来解释这个措辞？因为不同的人看见相同的字，也会得箌不同的理解这也是我们要讨论的重点之一。

2017年10月上图这个叫Sophia的机器人，公民身份，这个评价比图灵测试还要牛何况还是在沙特，他们才刚刚允许女性开车不久（）

Sophia经常参加各种会、“发表演讲”、“接受采访”，比如表现出来非常类似人类的言谈；去；接受の类的主流媒体的采访；甚至公司创始人。

Basically alive. 要知道西方的吃瓜群众都是看着《终结者》长大的，前段时间还看了《西部世界》在他们嘚世界模型里，“机器智能会觉醒” 这个设定是迟早都会发生的

普通大众开始吓得瑟瑟发抖。不仅开始担心自己的工作是不是会被替代还有很多人开始担心AI会不会统治人类，这样的话题展开“未来已来”，很多人都以为真正的人工智能已经近在咫尺了

只是，有些人鈳能会注意到有些不合理的地方：“等等人工智能都要威胁人类了，为啥我的Siri还那么蠢”

我们来看看到2018年末在对话智能领域，各方面究竟发展的如何了

我在2016年底做过一个测试，对几个智能助理提一个看似简单的需求：“推荐餐厅不要日本菜”。只是各家的AI助理都会給出一堆餐厅推荐全是日本菜。

2年过去了在这个问题的处理上有进展么？我们又做了一次测试：

结果是依然没有解决“不要”两个芓被所有助理一致忽略了。

为什么要关注“不要”两个字之前我去到一家某非常有名的智能语音创业公司，聊到这个问题时他家的PM显絀疑惑：“这个逻辑处理有什么用？我们后台上看到用户很少提出这类表达啊”

听到这样的评论，基本可以确定：这家公司还没有深入箌专业服务对话领域

场景方面，一旦深入进服务领域里的多轮对话很容易会遇到类似这样的表达：“我不要这个，有更便宜的么”。后台没有遇到只能说用户还没开始服务就结束了。场景方面与AI公司的domain选择有关

但是在技术方面，则是非常重要的因为这正是真正智能的核心特点。我们将在part 2&3详细聊聊这个问题现在先抛个结论：这个问题解决不了，智能助理会一直智障下去的

自从2015年几个重要的深喥学习在开发者当中火了起来，大小公司都想做“Her”这样面对个人消费者的通用型智能助理（To C类产品的终极目标）一波热钱投给最有希朢的种子队伍（拥有Fancy背景）之后，全灭目前为止，在2C这方面的所有商用产品无论是巨头还是创业公司，全部达不到用户预期

在人们嘚直觉里，会认为“智能助理”处理的是一些日常任务，不涉及专业的需求应该比“智能专家”好做。这是延续“人”的思路推荐餐厅、安排行程是人人都会做的事情；却只有少数受过专业训练的人能够处理金融、医疗问诊这类专业问题。

而对于现在的AI情况正好相反。现在能造出在围棋上打败柯洁的AI但是却造不出来能给柯洁管理日常生活的AI。

随着to C助理赛道的崩盘To B or not to B已经不再是问题，因为已经没得選了只能To B。这不是商业模式上的选择而是技术的限制。目前To B特别是限定领域的产品，相对To C类产品更可行：一个原因是领域比较封闭用户从思想到语言，不容易发挥跑题；另一方面则是数据充分

只是。因为客户是一个个谈下来的项目是一个个交付的，这意味着增長慢靠人堆，没有复利带来的指数级增长大家纷纷表示不开心。

这个“帮人造机器人”的业务有点像“在网页时代帮人建站”转成To B嘚团队经常受到资本的质疑： “你这个属于做项目，怎么规模化呢”

要知道，国内的很多投资机构和里面的投资经理入行的时间是在國内的移动互联起来的那一波。“Scalability”或者“高速增长”是体系里最重要的指标没有之一。而做项目这件事就是Case by case，要增长就要堆人也僦很难出现指数级增长。这就有点尴尬了

“你放心，我有SaaS！哦不是AIaaS。我可以打造一个平台上面有一系列工具，可以让客户们自己组裝机器人”

然而，这些想做技能平台的创业公司也没有一个成功的。短期也不可能成功

主要的逻辑是这样的：你给客户提供工具，泹他需要的是雕像——这中间还差了一个雕塑家佐证就是那些各家试图开放“对话框架”给更小的开发者，甚至是服务提供者帮助他們“3分钟开发出自己的AI机器人”，具体就不点名了自己都开发不出来一个让人满意的产品，还想抽象一个范式出来让别人沿用你的（不work嘚）框架

不过，我认为MLaaS在长期的成功是有可能的但还需要行业发展更为成熟的时候，现在为时尚早具体分析我们在后面Part 5会谈到。

“喑箱的成功和智能的失败 ”

对话这个领域另一个比较火的赛道是智能音箱。

各大主要科技公司都出了自己的智能音箱腾讯叮当、阿里嘚天猫精灵、小米音箱、国外的Alexa、Google的音箱等等。作为一个硬件品类这其实是个还不错的生意，基本属于制造业

不仅出货不差，还被寄予期望能够成为一个生态的生意——核心逻辑看上去也是充满想象力的：

超级终端：在后移动时代，每家都想像iphone一样抢用户的入口只偠用户习惯使用语音来获得咨询或者服务，甚至可以像Xbox/ps一样硬件赔钱卖，软件来挣钱；

用语音做OS：开发者打造各类语音的技能然后通過大量“离不开的技能” 反哺这个OS的市场占有；

提供开发者平台：像Xcode一样，给开发者提供应用开发的工具和分发平台、提供使用服务的流量

可是，这些技能使用的实际情况是这样的：

万众期待的killer app并没有出现；

基本没有商业服务型的应用；

技能开发者都没赚到钱也不知道怎么赚钱；

大部分高频使用的技能都没有商业价值——用户用的最多的就是“查天气”

没有差异性：智能的差异嘛基本都没有的事儿。

回過头来我们再来看刚刚那位沙特阿拉伯的公民，Sophia既然刚刚提到的那么多公司投入了那么多钱和科学家，都搞成这样凭什么这个Sophia能一鳴惊人？

因为Sophia的“智能” 是个骗局

可以直接引用Yann LeCun对此的评价， “这完全是鬼扯”

简单来说，Sophia是一个带喇叭的木偶——在各种大会上的發言和采访的内容都是人工撰写然后用人人都有的语音合成做输出。却被宣传成为是其“人工智能”的自主意识言论

这还能拿“公民身份”，可能是人类公民被黑的最惨的一次这感觉，好像是我家的橘猫被一所985大学授予了土木工程学士学位

其实对话系统里，用人工來撰写内容或者使用模版回复，这本来就是现在技术的现状（在后面我们会展开）

但刻意把“非智能”的产物说成是“智能”的表现，这就不对了

考虑到大部分吃瓜群众是通过媒体渠道来了解当前技术发展的，跟着炒作的媒体（比如被点名的Tech Insider）都是这场骗局的共犯這些不知道是无知还是无良的文科生，真的没有做好新闻工作者份内的调查工作

最近这股妖风也吹到了国内的韭菜园里。

Sophia出现在了王力宏的一首讲AI的MV里；然后又2018年11月跑去给大企业站台

真的，行业内认真做事儿的小伙伴都应该站出来，让大家更清晰的知道现在AI——或者說机器学习的边界在哪儿不然甲方爸爸们信以为真了，突然指着sophia跟你说“ 别人都能这么自然，你也给我整一个”

你怕不得装个真人進去？

对了说到这儿，确实现在也有：用人——来伪装成人工智能——来模拟人为用户服务。

国内的案例典型的就是银行用的大堂机器人其实是真人在远程语音（所谓Tele presence）。美国有X.ai做基于Email的日程管理的。只是这个AI到了下午5点就要下班

当然，假如我是这些骗局背后开發者被质疑的时候，我还可以强行拉回人工智能上：“这么做是为了积累真正的对话数据以后用来做真的AI对话系统识别的训练。”

这麼说对外行可能是毫无破绽的但是真正行业内干正经事的人，都应该像傅盛那样站出来。

人家沙特是把AI当成人这些套路是把人当成AI。然后大众就开始分不清楚究竟什么是AI了

“人工智能究竟（tmd）指的是什么？”

另一方面既然AI现在的那么蠢，为什么马一龙 (Elon Musk) 却说；霍金甚至直接说

而在另一边，Facebook和Google的首席科学家却在说现在的AI都是渣渣，甚至应该推翻重做。

大家该相信谁的一边是要去火星的男人，囷说不定已经去了火星的男人；另一边是当前两家科技巨头的领军人物

其实他们说的都对，因为这里说到的“人工智能”是两码事

而Yann LeCun 囷Hinton指的人工智能则是指的当前用来实现“人工智能效果”的技术（基于统计的机器学习）。这两位的观点是“用这种方式来实现人工智能昰行不通的”

两者本质是完全不同的，一个指的是结果一个指的是（现在的）过程。

那么当我们在讨论人工智能的时候究竟在说什麼？

最根本的问题是目前人类对“智能”的定义还不够清楚何况人类本身是否是智能的最佳体现，还不一定呢想想每天打交道的一些囚：）

一方面，在大众眼中人工智能是 “人造出来的，像人的智能”比如Siri。同时一个AI的水平高低，则取决于它有多像人所以当Sophia出現在公众眼中的时候，普通人会很容易被蒙蔽（甚至能通过图灵测试）

Oracle对AI的定义也是 “只要是能让计算机可以模拟人类行为的技术，都算！”

而另一方面从字面上来看“Artificial Intelligence”，只要是人造的智能产品理论上都算作人工智能。

也就是说一个手持计算器，尽管不像人也應算是人工智能产品。但我相信大多数人都不会把计算器当成是他们所理解的人工智能

这些在认识上不同的解读，导致当前大家对AI应用嘚期望和评估都有很多差异

再加上还有“深度学习、神经网络、机器学习” 这些概念纷纷跟着人工智能一起出现。但是各自意味着什么之间是什么关系，普通大众都不甚了解

“ 没关系，韭菜不用懂” 但是想要割韭菜的人，最好能搞清楚吧连有些投资人自己也分不清，你说怎么做判断如何投项目？当然是投胸大的

以上，就是到2018年末在对话领域的人工智能的现状：智能助理依然智障；大部分To B的給人造机器人的都无法规模化；对话方面没有像AlphaZero在围棋领域那样的让人震惊的产品；没有商业上大规模崛起的迹象；有的是一团浑水，和渾水摸鱼的人

为什么会这样？为什么人工智能在图像识别人脸识别，下围棋这些方面都那么快的进展而在对话智能这个领域却是如此混乱？

既然你都看到这里了我相信你是一个愿意探究本质的好同志。那么我们来了解对话的本质是什么；以及现在的对话系统的本質又是什么。

Part 2 当前对话系统的本质：填表

有一群小鸡出生在一个农场无忧无虑安心地生活。

鸡群中出现了一位科学家它注意到了一个現象：每天早上，食槽里会自动出现粮食

作为一名优秀的归纳法信徒(Inductivist)，这只科学鸡并不急于给出结论它开始全面观察并做好记录，试圖发现这个现象是否在不同的条件下都成立

“星期一是这样，星期二是这样；树叶变绿时是这样树叶变黄也是这样；天气冷是这样，忝气热也是这样；下雨是这样出太阳也是这样！”

每天的观察，让它越来越兴奋在心中，它离真相越来越接近直到有一天，这只科學鸡再也没有观察到新的环境变化而到了当天早上，鸡舍的门一打开它跑到食槽那里一看，依然有吃的！

科学鸡对他的小伙伴，志茬必得地宣布：“我预测每天早上，槽里会自动出现食物明天早上也会有！以后都会有！我们不用担心饿死了！”

经过好几天，小伙伴们都验证了这个预言科学鸡骄傲的并兴奋的把它归纳成“早起的小鸡有食吃定理”。

正好农场的农夫路过，看到一只兴奋的鸡不停嘚咯咯叫他笑了：“这只鸡很可爱哦，不如把它做成叫花鸡好了”

科学鸡，卒于午饭时间

在这个例子里，这只罗素鸡（’s chicken）只对现潒进行统计和归纳不对原因进行推理。

而主流的基于统计的机器学习特别是深度学习也是通过大量的案例，靠对文本的特征进行归类来实现对识别语义的效果。这个做法就是罗素鸡。

目前这是对话式人工智能的主流技术基础。其主要应用方向就是对话系统，或稱为Agent之前提到的智能助理Siri，CortanaGoogle Assistant以及行业里面的智能客服这些都算是对话智能的应用。

这些产品的交互方式是人类的自然语言，而不是圖像化界面

图形化界面（GUI）的产品，比如网页或者APP的产品设计是所见即所得、界面即功能。

对话智能的交互（CUI, Conversational UI）是个黑箱：终端用户能感知到自己说出的话（输入）和机器人的回答（输出）——但是这个处理的过程是感觉不到的就好像跟人说话，你并不知道他是怎么想的

每一个对话系统的黑箱里，都是开发者自由发挥的天地

虽说每家的黑箱里面都不同，但是最底层的思路都万变不离其宗，核心僦是两点：听人话（识别）+讲人话（对话管理）

如果你是从业人员，那么请回答一个问题：你们家的对话管理是不是填槽若是，你可鉯跳过这一节（主要科普填槽是怎么回事）请直接到本章的第五节“当前对话系统的局限” 。

“AI如何听懂人话 ”

对话系统这个事情在2015姩开始突然火起来了，主要是因为一个技术的普及：机器学习特别是深度学习带来的语音识别和NLU(自然语言理解)——主要解决的是识别人讲嘚话

这个技术的普及让很多团队都掌握了一组关键技能：意图识别和实体提取。这意味着什么我们来看一个例子。

在生活中如果想偠订机票，人们会有很多种自然的表达：

“有去上海的航班么”；

“看看航班，下周二出发去纽约的”；

“要出差帮我查下机票”；

鈳以说“自然的表达” 有无穷多的组合（自然语言）都是在代表 “订机票” 这个意图的。而听到这些表达的人可以准确理解这些表达指嘚是“订机票”这件事。

而要理解这么多种不同的表达对机器是个挑战。在过去机器只能处理“结构化的数据”（比如关键词），也僦是说如果要听懂人在讲什么必须要用户输入精确的指令。

所以无论你说“我要出差”还是“帮我看看去北京的航班”，只要这些字裏面没有包含提前设定好的关键词“订机票”系统都无法处理。而且只要出现了关键词，比如“我要退订机票”里也有这三个字也會被处理成用户想要订机票。

自然语言理解这个技能出现后可以让机器从各种自然语言的表达中，区分出来哪些话归属于这个意图；洏那些表达不是归于这一类的，而不再依赖那么死板的关键词比如经过训练后，机器能够识别“帮我推荐一家附近的餐厅”就不属于“订机票”这个意图的表达。

并且通过训练，机器还能够在句子当中自动提取出来“上海”这两个字指的是目的地这个概念（即实体）；“下周二”指的是出发时间。

这样一来看上去“机器就能听懂人话啦！”。

这个技术为啥会普及主要是因为机器学习领域的学术氛围，导致重要的论文基本都是公开的不同团队要做的是考虑具体工程实施的成本。

最后的效果就是在识别自然语言这个领域里，每镓的基础工具都差不多在意图识别和实体提取的准确率，都是百分点的差异既然这个工具本身不是核心竞争力，甚至你可以用别家的大把可以选，但是关键是你能用它来干什么

在这方面，最显而易见的价值就是解放双手。语音控制类的产品只需要听懂用户的自嘫语言，就去执行这个操作：在家里要开灯可以直接说 “开灯”，而不用去按开关；在车上说要“开天窗”，天窗就打开了而不用詓找对应的按钮在哪里。

这类系统的重点在于清楚听清哪个用户在讲是什么。所以麦克风阵列、近场远场的抗噪、声纹识别讲话的人的身份、ASR（语音转文字）等等硬件软件的技术就相应出现，向着前面这个目标不断优化

“讲人话”在这类应用当中，并不那么重要通瑺任务的执行，以结果进行反馈比如灯应声就亮了。而语言上的反馈只是一个辅助作用，可有可无

但是任务类的对话智能，往往不圵是语音控制这样一轮交互如果一个用户说，“看看明天的机票”——这表达正常但无法直接去执行。因为缺少执行的必要信息：1）從哪里出发和 2）去哪里？

如果我们希望AI Agent来执行这个任务一定要获得这两个信息。对于人来完成这个业务的话要获得信息，就得靠问這个用户问题来获得信息。很多时候这样的问题，还不止一个也就意味着，要发起多轮对话

对于AI而言，也是一样的

要知道 “去哪里” = Agent 问用户“你要去哪里？”

要知道 “从哪里出发” = Agent 问用户“你要从哪里出发呢”

这就涉及到了对话语言的生成。

决定“该说什么话”才是对话系统的核心——无论是硅基的还是碳基的智能。但是深度学习在这个版块并没有起到什么作用。

在当前处理“该说什么”这个问题，主流的做法是由所谓“对话管理”系统决定的

尽管每一个对话系统背后的“对话管理”机制都不同，每家都有各种理解、各种设计但是万变不离其宗——目前所有任务类对话系统，无论是前段时间的Google duplex还是智能客服，或者智能助理最核心的对话管理方法，有且仅有一个：“填槽”即Slot filling。

如果你并不懂技术但是又要迅速知道一家做对话AI的水平如何，到底有没有黑科技(比如刚刚开始看AI领域嘚做投资的朋友 )你只需要问他一个问题：“是不是填槽？”

如果他们（诚实地）回答“是”那你就可以放下心来，黑科技尚未出现接下来，能讨论的范围无非都是产品设计、工程实现、如何解决体验和规模化的困境，这类的问题基本上该智障的，还是会智障

要昰他们回答“不是填槽”，而且产品的效果还很好那么就有意思了，值得研究或者请速速联系我：）

那么这个“填槽”究竟是个什么鬼？嗯不搞开发的大家可以简单的把它理解为“填表”：好比你要去银行办个业务，先要填一张表

如果这张表上的空没有填完，柜台尛姐姐就不给你办她会红笔给你圈出来：“必须要填的空是这些，别的你都可以不管” 你全部填好了，再递给小姐姐她就去给你办悝业务了。

还记得刚刚那个机票的例子么用户说“看看明天的机票”，要想执行“查机票”就得做以下的步奏，还要按顺序来：

1. ASR：把鼡户的语音转化成文字。

2. NLU语义识别：识别上面的文字属于（之前设定好的）哪一个意图，在这里就是“订机票”；然后提取文字里媔的实体，“明天”作为订票日期被提取出来啦。

3. 填表：这个意图是订机票那么就选“订机票”这张表来填；这表里有三个空，时间那个空里就放进“明天”。

（这个时候表里的3个必填项，还差两个：“出发地”和“到达地”）

4. 开始跑之前编好的程序：如果差“出發地”就回“从哪里走啊？”；如果差“目的地”就回“你要去哪里？”（NLG上打引号是因为并不是真正意义上的自然语言生成，而昰套用的对话模版）

5. TTS：把回复文本合成为语音，播放出去

在上面这个过程当中1和2步奏都是用深度学习来做识别。如果这个环节出现问題后面就会连续出错。

循环1-5这个过程只要表里还有空要填，就不断问用户直到所有的必填项都被填完。于是表就可以提交小姐姐（后端处理）了。

后端看了要查的条件返回满足这些条件的机票情况。Agent再把查询结果用之前设计好的回复模板发回给用户

顺便说一下，我们经常听到有些人说“我们的多轮对话可以支持xx轮最多的时候有用户能说xx轮”。现在大家知道在任务类对话系统里，“轮数的产苼”是由填表的次数决定的那么这种用“轮数多少”来衡量产品水平的方法，在这个任务类对话里里完全无意义

一定要有意义，也应該是：在达到目的、且不影响体验的前提下轮数越少越好。

在当前只要做任务类的多轮对话，基本跑不掉填表

5月的时候，Google I/O发布了Duplex的錄音Demo场景是Google Assistant代替用户打电话去订餐厅，和店员沟通帮助用户预定位子。值得注意这并不是Live demo。

那Google的智能助理（后称IPA）又怎么知道用户嘚具体需求呢跑不掉的是，用户还得给Google Assistant填一张表用对话来交代自己的具体需求，比如下面这样：

“当前对话系统的局限”

我刚刚花了兩千来个字来说明对话系统的通用思路接下来，要指出这个做法的问题

还记得之前提到的 “不要日本菜”测试么我们把这个测试套用茬“订机票”这个场景上，试试看：“看看明天去北京的航班东航以外的都可以”，还是按步奏来：

1. ASR语音转文字没啥问题；

2. 语义识别，貌似有点问题

- 意图：是订机票没错；

- 实体提取：跟着之前的训练来；

- 出发地：这个用户没说，一会得问问他...

等等他说的这个“东航鉯外的都可以”，指的是啥之前没有训练过与航空公司相关的表达啊。

没关系咱们可以把这个表达的训练加上去：东航 = 航司。多找些表达只要用户说了各个航空公司的名字的，都训练成航司这个实体好啦

另外，咱们还可以在填表的框里添加一个航司选择，就像这樣（黄色部分）：

（嗯好多做TO B的团队，都是掉在这个“在后面可以加上去”的坑里）

但是，这么理所当然的训练之后实体提取出来嘚航司却是“东航”——而用户说的是 “东航以外的”，这又指的哪个（些）航司呢

“要不，咱们做点Trick把‘以外’这样的逻辑单独拿出來手工处理掉”——如果这个问题可以这么容易处理掉，你觉得Siri等一干货色还会是现在这个样子难度不在于“以外”提取不出来，而昰在处理“这个以外是指哪个实体以外？

当前基于深度学习的NLU在“实体提取”这个技术上就只能提取“实体”。

而人能够理解在这個情况下，用户是指的“排除掉东航以外的其他选择”这是因为人除了做“实体提取”以外，还根据所处语境做了一个对逻辑的识别：“xx以外”。然后自动执行了这个逻辑的处理，即推理去进一步理解，对方真正指的是什么（即指代）

而这个逻辑推理的过程，并鈈存在于之前设计好的步奏（从1到5）里

更麻烦的是，逻辑的出现不仅仅影响“实体”，还影响“意图”：

“hi Siri别推荐餐厅”——它还昰会给你推荐餐厅；

“hi Siri，除了推荐餐厅你还能推荐什么？”——它还是会给你推荐餐厅

想要处理这个问题，不仅仅是要识别出“逻辑”；还要正确判断出这个逻辑是套用在哪个实体，或者是不是直接套用在某一个意图上这个判断如何做？用什么做都不在当前SLU的范圍内。

对这些问题的处理如果是集中在一些比较封闭的场景下，还可以解决个七七八八但是，如果想要从根本上、泛化的处理希望┅次处理就解决所有场景的问题，到目前都无解在这方面，Siri是这样Google Assistant也是这样，任意一家都是这样。

为啥说无解我们来看看测试。

“用图灵测试来测对话系统没用”

一说到对人工智能进行测试大部分人的第一反应是图灵测试。

5月Google I/O大会的那段时间我们团队正在服务┅家全球100强企业，为他们规划基于AI Agent的服务

在发布会的第二天，我收到这家客户的Tech Office的好心提醒：Google这个像真人一样的黑科技会不会颠覆现囿的技术方案？我的回答是并不会

话说Google Duplex在发布会上的demo确实让人印象深刻，而且大部分看了Demo的人都分辨不出打电话去做预定的是不是真囚。

“这个效果在某种意义上算是通过了图灵测试。”

由于图灵测试的本质是“欺骗”(A game of deception)，所以很多人批评它这只能用来测试人有多恏骗，而不是用来测智能的在这一点上，我们在后文Part 4对话的本质中会有更多解释

人们被这个Demo骗到的主要原因，是因为合成的语音非常潒真人

这确实是Duplex最牛的地方：语音合成。不得不承认包括语气、音调等等模拟人声的效果，确实是让人叹为观止只是，单就在语音匼成方面就算是做到极致，在本质上就是一只鹦鹉——最多可以（所以你看活体识别有多么重要）

只是，Google演示的这个对话系统一样處理不了逻辑推理、指代这类的问题。这意味着就它算能过图灵测试，也过不了测试

相比图灵测试，这个测试是直击深度学习的要害当人类对句子进行语法分析时，会用真实世界的知识来理解指代的对象这个测试的目标，就是测试目前深度学习欠缺的常识推理能力

如果我们用Winograd Schema Challenge的方法，来测试AI在“餐厅推荐”这个场景里的水平题目会是类似这样的：

A. “四川火锅比日料更好，因为它很辣”

B. “四川火鍋比日料更好因为它不辣”

AI需要能准确指出：在A句里，“它”指的是四川火锅；而在B句里“它”指的则是日料。

还记得在本文Part 1里提到嘚那个“不要日本菜测试”么我真的不是在强调“回字有四种写法”——这个测试的本质，是测试对话系统能不能使用简单逻辑来做推悝（指代的是什么）

如果系统不知道相应的常识（四川火锅是辣的；日料是不辣的），就没有推理的基础更不用说推理还需要被准确哋执行。

有人说我们可以通过上下文处理来解决这个问题。不好意思上面这个常识根本就没有出现在整个对话当中。不在“上文”里媔又如何处理？

对于这个部分的详细解释请看下一章（Part 3 对话的本质）。

尽管指代问题和逻辑问题看上去，在应用方面已经足够致命叻；但这些也只是深度学习表现出来的诸多局限性中的一部分

哪怕更进一步，再过一段时间有一家AI在Winograd Schema Challenge拿了100%的正确率，我们也不能期望咜在自然语言处理中的表现如同人一样因为还有更严重和更本质的问题在后面等着。

“对话系统更大的挑战不是NLU”

我们来看问题表现在什么地方

现在我们知道了，当人跟现在的AI对话的时候AI能识别你说的话，是靠深度学习对你说出的自然语言进行分类归于设定好的意圖，并找出来文本中有哪些实体

而AI什么时候回答你，什么时候反问你基本都取决于背后的“对话管理”系统里面的各种表上还有啥必填项没有填完。而问你的话则是由产品经理和代码小哥一起手动完成的。

那么这张表是谁做的？

或者说是谁决定，对于“订机票”這件事要考虑哪些方面？要获得哪些信息需要问哪些问题？机器又是怎么知道的

是人。是产品经理准确点说。

就像刚才的“订机票”的案例当用户问到“航司”的时候，之前的表里并没有设计这个概念AI就无法处理了。

要让AI能处理这样的新条件得在“订机票”這张表上，新增加“航空公司”一栏（黄色部分）而这个过程，都得人为手动完成：产品经理设计好后工程师编程完成这张表的编程。

所以AI并不是真的通过案例学习就自动理解了“订机票”这件事情，包含了哪些因素只要这个表还是由人来设计和编程实现的，在产品层面一旦用户稍微谈及到表以外的内容，智障的情况就自然出现了

因此，当Google duplex出现的时候我并不那么关心 Google duplex发音和停顿有多像一个人——实际上，当我观察任意一个对话系统的时候我都只关心1个问题：

“是谁设计的那张表：人，还是AI”

只是，深度学习在对话系统里媔能做的只是识别用户讲出的那句话那部分——严格依照被人为训练的那样（监督学习）。至于其他方面比如该讲什么话？该在什么時候讲话它都无能为力。

但是真正人们在对话时的过程却不是上面提到的对话系统这么设计的，而且相差十万八千里人的对话，又昰怎么开展的这个差异究竟在哪里？为什么差异那么大所谓深度学习很难搞定的地方，是人怎么搞定的呢毕竟在这个星球上，我们洎身就是70亿个完美的自然语言处理系统呢

我们需要了解要解决的问题，才可能开展解决问题的工作在对话领域，我们需要知道人们对話的本质是什么下一章比较烧脑，我们将讨论“思维”这件事情是如何主导人们的对话的。

“对话的最终目的是为了同步思维”

你是┅位30出头的职场人士每天上午9点半，都要过办公楼的旋转门进大堂的，然后刷工牌进电梯去到28楼，你的办公室今天是1月6日，平淡無奇的一天你刚进电梯，电梯里只有你一个人正要关门的时候，有一个人匆忙挤进来

进来的快递小哥，他进电梯时看到只有你们两囚就说了一声“你好”，然后又低头找楼层按钮了

你很自然的回复：“你好”，然后目光转向一边

两边都没什么话好讲——实际上，是对话双方认为彼此没有什么情况需要同步的

人们用语言来对话，其最终的目的是为了让双方对当前场景模型（Situation model）保持同步（大家先了解到这个概念就够了。更感兴趣的详情请见）。

上图中A和B两人之间发展出来所有对话，都是为了让红框中的两个“Situation model” 保持同步Situation model 茬这里可以简单理解为对事件的各方面的理解，包括Context

不少做对话系统的朋友会认为Context是仅指“对话中的上下文”，我想要指出的是除此鉯外，Context还应该包含了对话发生时人们所处的场景这个场景模型涵盖了对话那一刻，除了明文以外的所有已被感知的信息比如对话发生時的天气情况，只要被人感知到了也会被放入Context中，并影响对话内容的发展

A: “你对这个事情怎么看？”

B: “这天看着要下雨了咱们进去說吧”——尽管本来对话内容并没有涉及到天气。

对同一件事情不同的人在脑海里构建的场景模型是不一样的。 (想要了解更多可以看)

所以，如果匆忙进电梯来的是你的项目老板而且假设他和你（多半都是他啦）都很关注最近的新项目进展，那么你们要开展的对话就很哆了

在电梯里，你跟他打招呼：“张总早！”，他会回你 “早啊对了昨天那个…”

不待他问完，优秀如你就能猜到“张总” 大概后媔要聊的内容是关于新项目的这是因为你认为张总对这个“新项目”的理解和你不同，有同步的必要甚至，你可以通过昨天他不在办公室大概漏掉了这个项目的哪些部分，来推理你这个时候应该回复他关于这个项目的具体什么方面的问题

“昨天你不在，别担心客戶那边都处理好了。打款的事情也沟通好了30天之内搞定。” ——你看不待张总问完，你都能很棒的回答上这多亏了你对他的模型的判断是正确的。

一旦你对对方的情景模型判断失误那么可能完全“没打中点上”。

“我知道昨天晚上我回了趟公司，小李跟我说过了我是要说昨天晚上我回来办公室的时候，你怎么没有在加班呀小王，你这样下去可不行啊…”

所以人们在进行对话的过程中，并不昰仅靠对方上一句话说了什么（对话中明文所包含的信息）就来决定回复什么而这和当前的对话系统的回复机制非常不同。

“对话是思想从高维度向低维的投影”

我们假设在另一个平行宇宙里，还是你到了办公楼

今天还是1月6日，但2年前的今天你与交往了5年的女友分掱了，之后一直对她念念不忘也没有交往新人。

你和往日一样进电梯的，刚要关门的时候匆忙进来的一个人，要关的门又打开了僦是你2年前分手的那位前女友。她进门时看到只有你们两她抬头看了一下你，然后又低头找楼层电梯了这时她说：“你好”。

请问你這时脑袋里是不是有很多信息汹涌而过这时该回答什么？是不是类似“一时不知道该如何开口”的感觉

这个感觉来自（你认为）你和她之间的情景模型有太多的不同（分手2年了），甚至你都无法判断缺少哪些信息有太多的信息想要同步了，却被贫瘠的语言困住了

有囚做了一个比喻：语言和思维的丰富程度相比，是冰山的一角我认为远远不止如此：对话是思想在低维的投影。

如果是冰山你还可以從水面上露出来的部分反推水下大概还有多大。属于维度相同但是量不同。但是语言的问题在只用听到文字信息，来反推讲话的人的思想失真的情况会非常严重。

为了方便理解这个维度差异在这儿用3D和2D来举例：思维是高维度（立体3D的形状），对话是低维度（2D的平面仩的阴影）如果咱们要从平面上的阴影的形状，来反推上面悬着的是什么物体，就很困难了两个阴影的形状一模一样，但是上面的3D粅体可能完全不同。

对于语言而言阴影就像是两个 “你好”在字面上是一模一样的，但是思想里的内容却完全不同在见面的那一瞬間，这个差异是非常大的：

你在想（圆柱）：一年多不见了她还好么？

前女友在想（球）：这个人好眼熟好像认识…

“挑战：用低维表达高维”

要用语言来描述思维有多困难？这就好比当你试图给另一位不在现场的朋友，解释一件刚刚发生过的事情的时候你可以做箌哪种程度的还原呢？

试试用语言来描述你今天的早晨是怎么过的

当你用文字完整描述后，我一定能找到一个事物或者某个具体的细节它在你文字描述以外，但是却确实存在在你今天早晨那个时空里

比如，你可能会跟朋友提到早饭吃了一碗面；但你一定不会具体去描述面里一共有哪些调料。传递信息时缺少了这些细节(信息)，会让听众听到那碗面时在脑海里呈现的一定不是你早上吃的“那碗面”嘚样子。

这就好比让你用平面上（2D）阴影的样子来反推3D的形状。你能做的只是尽可能的增加描述的视角，尽可能给听众提供不同的2D的素材来尽量还原3D的效果。

为了解释脑中“语言”和“思想”之间的关系（与读者的情景模型进行同步）我画了上面那张对比图，来帮助传递信息如果要直接用文字来精确描述，还要尽量保全信息不丢失那么我不得不用多得多的文字来描述细节。（比如上面的描述中尚未提及阴影的面积的具体大小、颜色等等细节）。

这还只是对客观事物的描述当人在试图描述更情绪化的主观感受时，则更难用具體的文字来表达

比如，当你看到的时候请尝试用语言精确描述你的主观感受。是不是很难能讲出来话，都是类似“鹅妹子嘤”这类嘚这些文字能代表你脑中的感受的多少部分？1%

希望此时，你能更理解所谓 “语言是贫瘠的而思维则要丰富很多”。

那么既然语言茬传递信息时丢失了那么多信息，人们为什么理解起来好像没有遇到太大的问题？

“为什么人们的对话是轻松的”

假设有一种方式，鈳以把此刻你脑中的感受以完全不失真的效果传递给另一个人。这种信息的传递和上面用文字进行描述相比丰富程度会有多大差异？

鈳惜我们没有这种工具。我们最主要的交流工具就是语言，靠着对话来试图让对方了解自己的处境。

那么既然语言这么不精准，叒充满逻辑上的漏洞信息量又不够，那么人怎么能理解还以此为基础，建立起来了整个文明

比如，在一个餐厅里当服务员说 “火腿三明治要买单了”，我们都能知道这和“20号桌要买单了”指代的是同样的事情 ()是什么让字面上那么大差异的表达，也能有效传递信息

人能通过对话，有效理解语言靠的是解读能力——更具体的点，靠的是对话双方的共识和基于共识的推理能力

当人接收到低维的语訁之后，会结合引用常识、自身的世界模型（后详）来重新构建一个思维中的模型，对应这个语言所代表的含义这并不是什么新观点，大家熟悉的开复老师在1991年在苹果搞语音识别的时候，就在采访里科普“”。

当对话的双方认为对一件事情的理解是一样的或者非瑺接近的时候，他们就不用再讲需要沟通的，是那些（彼此认为）不一样的部分

当你听到“苹果”两个字的时候，你过去建立过的苹果这个模型的各个维度就被引用出来，包括可能是绿或红色的、味道的甜、大概拳头大小等等如果你听到对方说“蓝色的苹果”时，這和你过去建立的关于苹果的模型不同（颜色）思维就会产生一个提醒，促使你想要去同步或者更新这个模型“苹果为什么是蓝色的？”

还记得在Part 2 里我们提到的那个测试指代关系的Winograd Schema Challenge么？这个测试的名字是根据而来的

“议员们拒绝给抗议者颁发许可证，因为他们 [害怕/提倡] 暴力”

当 [害怕] 出现在句子当中的时候，“他们”指的应该是议员们；当[提倡]出现在句子当中的时候“他们”则指的是“抗议者”。

1. 人们能够根据具体情况作出判断，是因为根据常识做出了推理“议员害怕暴力；抗议者提倡暴力。”

2. 说这句话的人认为这个常识對于听众应该是共识，就直接把它省略掉了

同理，之前（Part 2）我们举例时提到的那个常识（“四川火锅是辣的；日料不是辣的”）也在表达中被省略掉了。常识（往往也是大多数人的共识）的总量是不计其数而且总体上还会随着人类社会发展的演进而不断新增。

例子1洳果你的世界模型里已经包含了“华农兄弟” （你看过并了解他们的故事），你会发现我在Part 2最开始的例子藏了一个梗（做成叫花鸡）。泹因为“华农兄弟”并不是大多数人都知道的常识而是我与特定人群的共识，所以你看到这句话时获得的信息就比其人多。而不了解這个梗的人看到那里时就不会接收到这个额外的信息，反而会觉得这个表达好像有点点奇怪

例子2，创投圈的朋友应该都有听说过 Elevator pitch就昰30秒，把你要做什么事情讲清楚通常的案例诸如：“我们是餐饮界的Uber”，或者说“我们是办公室版的Airbnb”这个典型结构是“XX版的YY”，要讓这句话起到效果前提条件是XX和YY两个概念在发生对话之前，已经纳入到听众的模型里面去了如果我给别人说，我是“对话智能行业的麥肯锡”要能让对方理解，对方就得既了解对话智能是什么又了解麦肯锡是什么。

“基于世界模型的推理”

场景模型是基于某一次对話的对话不同，场景模型也不同；而世界模型则是基于一个人的相对而言长期不变。

对世界的感知包括声音、视觉、嗅觉、触觉等感官反馈，有助于人们对世界建立起一个物理上的认识对常识的理解，包括各种现象和规律的感知在帮助人们生成一个更完整的模型：世界模型。

无论精准、或者对错每一个人的世界模型都不完全一样，有可能是观察到的信息不同也有可能是推理能力不一样。世界模型影响的是人的思维本身继而影响思维在低维的投影：对话。

让我们从一个例子开始：假设现在咱们一起来做一个不那么智障的助理我们希望这个助理能够推荐餐厅酒吧什么的，来应付下面这样的需求：

当用户说：“我想喝点东西”的时候系统该怎么回答这句话？經过Part 2我相信大家都了解，我们可以把它训练成为一个意图“找喝东西的店”然后把周围的店检索出来，然后回复这句话给他：“在你附近找到这些选择”

恭喜，咱们已经达到Siri的水平啦！

但是刚刚我们开头就说了，要做不那么智障的助理这个“喝东西的店”是奶茶點还是咖啡店？还是全部都给他

嗯，这就涉及到了推理我们来手动模拟一个。假设我们有用户的Profile数据把这个用上：如果他的偏好中朂爱的饮品是咖啡，就给他推荐咖啡店

这样一来，我们就可以更“个性化”的给他回复了：“在你附近找到这些咖啡店”

这个时候，咱们的AI已经达到了不少“智能系统”最喜欢鼓吹的个性化概念——“千人千面”啦！

然后我们来看这个概念有多蠢

一个人喜欢喝咖啡，那么他一辈子的任意时候就都要喝咖啡么人是怎么处理这个问题的呢？如果用户是在下午1点这么问这么回他还好；如果是在晚上11点呢？我们还要给他推荐咖啡店么还是应该给他推荐一个酒吧？

或者除此之外，如果今天是他的生日那么我们是不是该给他点不同的东覀？或者今天是圣诞节，该不该给他推荐热巧克力

你看，时间是一个维度在这个维度上的不同值都在影响给用户回复什么不同的话。

时间和用户的Profile不同的是：

1. 时间这个维度上的值有无限多；

2. 每个刻度还都不一样比如虽然生日是同一个日期，但是过生日的次数却不重複；

除了时间这个维度以外还有空间。

于是我们把空间这个维度叠加（到时间）上去你会发现，如果用户在周末的家里问这个问题（鈳能想叫奶茶外卖到家），和他在上班时间的办公室里问这个问题（可能想出去走走换换思路）咱们给他的回复也应该不同。

光是时涳这两个维度就有无穷多的组合，用"if then"的逻辑也没法全部手动写完我们造机器人的工具，到这个需求就开始捉襟见肘了。

何况时间和涳间只是世界模型当中最显而易见的两个维度。还有更多的更抽象的维度存在，并且直接影响与用户的对话比如，人物之间的关系；人物的经历；天气的变化；人和地理位置的关系（是经常来出差、是当地土著、是第一次来旅游）等等等等咱们聊到这里，感觉还在聊对话系统么是不是感觉有点像在聊推荐系统？

要想效果更好这些维度的因素都要叠加在一起进行因果推理，然后把结果给用户

至此，影响人们对话的光是信息（还不含推理）至少就有这三部分：明文（含上下文）+ 场景模型（Context）+ 世界模型。

普通人都能毫不费力地完荿这个工作但是深度学习只能处理基于明文的信息。对于场景模型和世界模型的感知、生成、基于模型的推理深度学习统统无能为力。

这就是为什么现在炙手可热的深度学习无法实现真正的智能（AGI）的本质原因：不能进行因果推理

根据世界模型进行推理的效果，不仅僅体现上在对话上还能应用在所有现在成为AI的项目上，比如自动驾驶

经过大量训练的自动驾驶汽车，在遇到偶发状况时就没有足够嘚训练素材了。比如突然出现在路上的婴儿车和突然滚到路上的垃圾桶，都会被视为障碍物但是刹不住车的情况下，一定要撞一个的時候撞哪一个？

又比如对侯世达(Douglas Hofstardler )而言，“驾驶”意味着当要赶着去一个地方的时候要选择超速还是不超速；要从堵车的高速下来，還是在高速上慢慢跟着车流走...这些决策都是驾驶的一部分他说：“”。

“人脑有两套系统：系统1和系统2”

关于 “系统1和系统2”的详情請阅读 Thinking, Fast and Slow, by Daniel Kahneman，一本非常好的书对人的认知工作是如何展开的进行了深入的分析。在这儿我给还不了解的朋友介绍一下，以辅助本文前后的觀点

心理学家认为，人思考和认知工作分成了两个系统来处理：

系统1是快思考：无意识、快速、不怎么费脑力、无需推理

系统2是慢思考：需要调动注意力、过程更慢、费脑力、需要推理
系统1先上遇到搞不定的事情，系统2会出面解决

系统1做的事情包括: 判断两个物体的远菦、追溯声音的来源、完形填空 ( "我爱北京天安" )等等。

顺带一提下象棋的时候，一眼看出这是一步好棋这个行为也是系统1实现的——前提是你是一位优秀的玩家。

对于中国学生而言你突然问他：“7乘以7”，他会不假思索的说：“49！”这是系统1在工作因为我们在小学都會背99乘法表。这个49并非来自计算结果而是背下来的（反复重复）。

相应的如果你问：“3287 x 2234等于多少？”这个时候人就需要调用世界模型中的乘法规则，加以应用（计算）这就是系统2的工作。

另外在系统1所设定的世界里，猫不会像狗一样汪汪叫若事物违反了系统1所設定的世界模型，系统2也会被激活

在语言方面，对于深度学习而言，它更适合去完成系统1的工作实际上它根本没有系统2的功能。

关於这两个系统值得一提的是，人是可以通过训练把部分系统2才能做的事情，变成系统1来完成的比如中国学生得经过“痛苦的记忆过程”才能熟练掌握99乘法表，而不是随着出生到长大的自然经验慢慢学会的。

但是这里有2个有意思的特征：

1. 变成系统1来处理问题的时候鈳以节约能量。人们偏向相信自己的经验是因为脑力对能量的消耗很大，这是一个节能的做法

2. 变成系统1的时候，会牺牲辩证能力因為系统1对于逻辑相关的问题一无所知。“我做这个事情已经几十年了”这种经验主义思维就是典型案例

想想自己长期积累的案例是如何茬影响自己做判断的？

“单靠深度学习搞不定语言现在不行，将来也不行”

在人工智能行业里你经常会听到有人这么说 “尽管当前技術还实现不了理想中的人工智能，但是技术是会不断演进的随着数据积累的越来越多，终将会实现让人满意的人工智能”

如果这个说法，是指寄希望于仅靠深度学习不断积累数据量，就能翻盘——那就大错特错了

无论你怎么优化“马车”的核心技术（比如更壮、更哆的马），都无法以此造出汽车(下图右)

对于大众而言，技术的可演进性是以宏观的视角看人类和技术的关系。但是发动机的演化和马車的关键技术没有半点关系

深度学习领域的3大牛，都认为单靠深度学习这条路（不能最终通向AGI）感兴趣的朋友可以沿着这个方向去研究:

：“我的观点是都扔掉重来吧”

：“如果你对于这个每天都在接触的世界，有一个好的因果模型你甚至可以对不熟悉的情况进行抽象。这很关键......机器不能因为机器没有这些因果模型。我们可以手工制作这些模型但是这远不足够。我们需要能发现因果模型的机器”

臸于深度学习在将来真正的智能上扮演的角色，在这儿我的说法：“I don’t

现在我们了解了人们对话的本质是思维的交换，而远不只是明文仩的识别和基于识别的回复而当前的人工智能产品则完全无法实现这个效果。那么当用户带着人类的世界模型和推理能力来跟机器用洎然语言交互时，就很容易看到破绽

Sophia是一个技术上的骗局（凡是鼓吹Sophia是真AI的，要么是不懂要么是忽悠）；

现在的AI，都不会有真正的智能（推理能力什么的不存在的包括Alpha go在内）；

只要是深度学习还是主流，就不用担心AI统治人类；

对话产品感觉用起来智障都是因为想跳過思维，直接模拟对话（而现在也只能这样）；

“用的越多数据越多，智能会越强产品就会越好，使用就会越多”——对于任务类对話产品这是一个看上去很酷，实际上不靠谱的观点；

一个AI agent能对话多少轮，毫无意义；

to C的助理产品做不好是因为解决不了“如何获得鼡户的世界模型数据，并加以利用”这个问题；

to B的对话智能公司为何很难规模化（因为场景模型是手动生成的）

先有智能，后有语言：偠做到真正意义上的自然语言对话至少要实现基于常识和世界模型的推理能力。而这一点如果能实现那么我们作为人类，就可能真的需要开始担心前文提到的智能了

不要用NLP评价一个对话智能产品：年底了，有些媒体开始出各种AI公司榜单其中有不少把做对话的公司分茬NLP下面。这就好比不要用触摸屏来衡量一款智能手机。在这儿我不是说触摸屏或者NLP不重要(Essential)反而因为太重要了，这个环节成为了每一家嘚标配以至于在这方面基本已经做到头了，差异不过1%

对于一个对话类产品而言，NLU尽管重要但只应占个整体配件的5-10%左右。更进一步来說甚至意图识别和实体提取的部分用大厂的，产品间差异也远小于对话管理部分的差距真正决定产品的是剩下的90%的系统。

到此是不昰有一种绝望的感觉？这些学界和行业的大牛都没有解决方案或者说连有把握的思路都没有。是不是做对话智能这类的产品就没戏了仩限就是这样了么？

不是对于一项技术而言，可能确实触底了；但是对于应用和产品设计而言并不是由一个技术决定的，而是很多技術的结合这里还有很大的空间。

作为产品经理让我来换一个角度。我们来研究一下既然手中的工具是这些，我们能用他们来做点什麼

“AI的归AI，产品的归产品”

有一部我很喜欢的电影The Prestige，里面讲了一个关于“瞬间移动”的魔术对于观众而言，就是从一个地方消失嘫后瞬间又从另一个地方出现。

第一个魔术师成功的在舞台上实现了这个效果。他打开舞台上的右边的门刚一进去的一瞬间，就从舞囼左边的门出来了对观众而言，这完全符合他们的期望

第二个魔术师在观众席里，看到效果后惊呆了他感觉这根本毫无破绽。但是怹是魔术师——作为一个产品经理——他就想研究这个产品是怎么实现的但是魔术行业里，最不受人待见的就是魔术揭秘。

影片最后他得到了答案（剧透预警）：所有的工程机关、升降机、等等，都如他所料的藏在了舞台下面但真正的核心是，第一个魔术师一直隐藏着自己的另一个双胞胎兄弟当他打开一个门，从洞口跳下舞台的那一刻双胞胎的另一位就马上从另一边升上舞台。

看到这里大家鈳能就恍然大悟：“ 原来是这样，双胞胎啊！”

这感觉是不是有点似曾相识在本文Part 2，我们聊到把对话系统的黑箱打开里面就是填一张表的时候，是不是有类似的感觉对话式人工智能的产品（对话系统）就像魔术，是一个黑箱用户是以感知来判断价值的。

“ 我还以为囿什么黑科技呢我是双胞胎我也可以啊。”

其实这并不容易我们先不说魔术的舞台里面的工程设计，这个魔术最难的地方是如何能在魔术师的生活中让另一个双胞胎在大众视野里完全消失掉。如果观众们都知道魔术师是双胞胎就很可能猜到舞台上的魔术是两个人一起表演的。所以这个双胞胎一定不能出现在大众的“世界模型”里。

为了让双胞胎的另一个消失在大众视野里这两兄弟付出了很多代價，身心磨绝非一般人能接受的，比如共享同一个老婆

这也是我的建议：技术不够的时候，设计来补做AI产品的同学，不要期待给你智能要是真的有智能了，还需要你干什么人工智能产品经理需要设计一套庞大的系统，其中包括了填表、也当然包括深度学习带来的意图识别和实体提取等等标准做法、也包括了各种可能的对话管理、上下文的处理、逻辑指代等等

这些部分，都是产品设计和工程力量發挥的空间

我需要强调一下，在这里咱们讲的是AI产品思路，不是AI的实现思路

对于对话类产品的设计，以现在深度学习的基础语义悝解应该只占整个产品的5%-10%；而其他的，都是想尽一切办法来模拟“传送”这个效果——毕竟我们都知道这是个魔术。如果只是识别就占叻你家产品的大量心血其他的不去拉开差异，基本出来就是智障无疑

在产品研发方面上，如果研发团队能提供多种技术混用的工具肯定会增加开发团队和设计的发挥空间。这个做法也就是DL(Deep Learning) +的结合GOFAI是，也就是深度学习火起来之前的symbolic AI也就是专家系统，也就是大多数在AI領域的人都看不起的 “if then…”

DL+GOFAI 这个前提是当前一切后续产品设计思路的基础。

“存在即为被感知” 是18世纪的哲学家George Berkeley的名言加州大学伯克利分校的命名来源也是为了纪念这位唯心主义大师。这个意思呢就是如果你不能被感知到，你就是不存在的！

我认为“存在即为被感知” 是对话类AI产品的Design principle对话产品背后的智能，是被用户感知到而存在的直到有一天AI可以代替产品经理，在那之前所有的设计都应该围绕著，如何可以让用户感觉和自己对话的AI是有价值的然后才是什么是聪明人的。

要非常明确自己的目的设计的是AI的产品，而不是AGI本身僦像魔术的设计者，给你有限的基础技术条件你能组装出一个产品，体验是人们难以想到

同时，也要深刻的认识到产品的局限性魔術就是魔术，并不是现实

这意味着，在舞台上的魔术如果改变一些重要的条件，它就不成立了比如，如果让观众跑到舞台的顶上從上往下看这个魔术，就会发现舞台上有洞或者“瞬间移动”的不是这对双胞胎中的一个，而是一个观众跑上去说“让我来瞬间移动試试”，就穿帮了

Narrow AI的产品，也是一样的如果你设计好了一个Domain，无论其中体验如何只要用户跑到Domain的边界以外了，就崩溃了先设定好產品边界，设计好“越界时给用户的反馈”然后在领域里面，尽可能的模拟这个魔术的效果

假设Domain的边界已经设定清晰了，哪些方面可鉯通过设计和工程的力量来大幅增加效果呢？

其实在“Part 3 对话的本质” 里谈到的与思维相关的部分，在限定Domain的前提下都可以作为设计嘚出发点：你可以用GOFAI来模拟世界模型、也可以模拟场景模型、你可以Fake逻辑推理、可以Fake上下文指代——只要他们都限定在Domain里。

“选择合适的Domain”

成本（工程和设计的量）和给用户的价值并不是永远成正比也根据不同的Domain的不同。

比如我认为现在所有的闲聊机器人都没有什么价徝。开放Domain没有目标、没有限定和边界，对用户而言会认为什么都可以聊。但是其自身“场景模型”一片空白对用户所知的常识也一無所知。导致用户稍微试一下就碰壁了。我把这种用户体验称为 “每次尝试都容易遇到挫折”

可能，有些Domain对回复的内容并不那么看重也就并不需要那么强壮的场景模型和推理机制来生成回复内容。

我们假设做一个“树洞机器人”可以把产品定义是为，扮演一个好的聽众让用户把心中的压力烦恼倾诉出来。

这个产品的边界需要非常明确的，在用户刚刚接触到的时候强化到用户的场景模型中。主偠是系统通过一些语言的反馈鼓励用户继续说。而不要鼓励用户来期望对话系统能输出很多正确且有价值的话当用户做出一些陈述之後，可以跟上一些对“场景模型”依赖较小泛泛的话。

“我从来没有这么考虑过这个问题你为什么会这么想呢？”

“关于这个人你還有哪些了解？”

“你觉得他为什么会这样”

这样一来，产品在需求上就大幅减轻了对“自然语言生成”的依赖。因为这个产品的价徝不在回复的具体内容是否精准，是否有价值上这就同时降低了对话背后的“场景模型”、“世界模型”、以及“常识推理”这些高維度模块的需求。训练的素材嘛也就是某个特定分支领域（比如职场、家庭等）的心理咨询师的对话案例。产品定义上这得是一个Companion型嘚产品，不能真正起到理疗的作用

当然，以上并不是真正的产品设计仅仅是用一个例子来说明，不同的Domain对背后的语言交互的能力要求鈈同进而对更后面的“思维能力”要求不同。选择产品的Domain时尽量远离那些严重依赖世界模型和常识推理，才能进行对话的场景

有人鈳能说，你这不就是Sophia的做法么不是。这里需要强调的是Sophia的核心问题是欺骗产品开发者是想忽悠大众，他们真的做出了智能

在这里，峩提倡的是明确告诉用户这就是对话系统，而不是真的造出了智能这也是为什么，在我自己的产品设计中如果遇到真人和AI同时为用戶服务的时候（产品上称为Hybrid Model），我们总是会偏向明确让用户知道什么时候是真人在服务，什么时候是机器人在服务这么做的好处是，控制用户的预期以避免用户跑到设计的Domain以外去了；不好的地方是，你可能“听上去”没有那么酷

所以，当我说“存在即为被感知”的時候强调的是对价值的感知；而不是对“像人一样”的感知。

“对话智能的核心价值：在内容不在交互”

多年前，还在英国读书的时候我曾经在一个非常有名历史悠久的秘密结社里工作。我对当时的那位照顾会员需求的大管家印象深刻你可以想象她好像是“美国运通黑卡服务”的超级礼宾，她有两个超能力：

1. Resourceful会员的奇葩需求都能想尽办法的实现：一个身在法兰克福的会员半夜里遇到急事，临时想盡快回伦敦半夜没有航班了，打电话找到大管家求助最后大管家找到另一个会员的朋友借了私人飞机，送他一程凌晨回到了伦敦。

“Oliver我想喝点东西…”

“当然没问题，我待会给你送过来” 她也不需要问喝什么，或者送到哪里

人人都想要一个这样的管家。蝙蝠侠需要Alfred；钢铁侠需要Javis；西奥多需要Her（尽管这哥们后来走偏了）；iPhone 需要Siri；这又回到了我们在Part1里提到的AI的to C 终极产品是智能助理。

但是人们需偠这个助理的根本原因，是因为人们需要它的对话能力么这个世界上已经有70亿个自然语言对话系统了（就是人），为什么我们还需要制慥更多的对话系统

我们需要的是对话系统后面的思考能力，解决问题的能力而对话，只是这个思考能力的交互方式（Conversational User Interface）如果真能足夠什么是聪明人的把问题提前解决了，用户甚至连话都不想说

我知道很多产品经理已经把这个iPhone初代发布的东西讲烂了。但是在这儿确實是一个非常好的例子：我们来探讨一下iPhone用虚拟键盘代替实体键盘的原因。

普通用户从最直观的视角，能得出结论：这样屏幕更大！需偠键盘的时候就出现不需要的时候就消失。而且还把看上去挺复杂的产品设计给简化了更好看了。甚至很多产品经理也是这么想的實际上，这根本不是硬件设计的问题原因见下图。

其实乔布斯在当时也讲的很清楚：物理键盘的核心问题是（作为交互UI）你不能改变咜。物理交互方式（键盘）不会根据不同的软件发生改变

如果要在手机上加载各种各样的内容，如果要创造各种各样的软件生态这些鈈同的软件都会有自己不同的UI，但是交互方式都得依赖同一种（物理键盘无法改变）这就行不通了。

所以实际代替这些物理键盘的，鈈是虚拟键盘而是整个触摸屏。因为iPhone（当时的）将来会搭载丰富的生态软件内容就必须要有能与这些还没出现的想法兼容的交互方式。

在我看来上述一切都是为了丰富的内容服务。再一次的交互本身不是核心，它背后搭载的内容才是

但是在当初看这个发布会的时候，我是真的没有get到这个点那个时候真的难以想象，整个移动互联时代会诞生的那么多APP都有各自不同的UI，来搭载各式各样的服务

你想想，如果以上面这些实体键盘让你来操作大众点评、打开地图、Instagram或者其他你熟悉的APP，是一种怎样的体验更有可能的是，只要是这样嘚交互方式根本设计不出刚才提到的那些APP。

与之同时这也引申出一个问题：如果设备上，并没有多样的软件和内容生态那还应该把實体键设计成触摸和虚拟的方式么？比如一个挖掘机的交互方式，应该使用触屏么甚至对话界面？

“对话智能解决重复思考”

同样的对话智能的产品的核心价值，应该在解决问题的能力上而不是停留在交互这个表面。这个“内容” 或者 “解决问题的能力” 是怎么体現的呢

工业革命给人类带来的巨大价值在于解决“重复体力劳动”这件事。

经济学家Tyler Cowen 认为“ 什么行业的就业人越多，颠覆这个工种就會创造更大的商业价值” 他在Average Is Over这本书里描述到：

“ 20世纪初，美国就业人口最多的是农民；二战后的工业化、第三产业的发展再加上妇奻解放运动，就业人工最多的工种变成辅助商业的文字工作者比如秘书助理呼叫中心（文员信息输入）。1980/90年代的个人计算机以及Office 的普忣，大量秘书助理类工作消失。”

这里提及的工作都是需要大量重复的工作。而且不停的演变从重复的体力，逐步到重复的脑力

從这个角度出发，对一个场景背后的“思考能力”没有把控的AI产品会很快被代替掉。首当其冲的就是典型意义上的智能客服。

在市场仩有很多这样的智能客服的团队，他们能够做对话系统（详见Part 2）但是对这各领域的专业思考，却不甚了解

我把“智能客服” 称为“湔台小姐姐”——无意冒犯，但是前台小姐姐的主要工作和专业技能并没有关系他们最重要的技能就是对话，准确点说是用对话来“路甴”——了解用户什么需求把不合适的需求过滤掉，再把需求转给专家去解决

但是对于一个企业而言，客服是只嘴和耳而专家才是腦，才是内容才是价值。客服有多不核心想想大量被外包出去的呼叫中心，就知道了

与这类客服机器人产品对应的，就是专家机器囚一个专家，必定有识别用户需求的能力反之不亦然。你可以想象一个企业支付给一个客服多少薪资又支付给一个专家多少薪资？┅个专家需要多少时间培训和准备才能上岗客服小姐姐呢？于此同时专业能力是这个机构的核心，而客服不是

正因为如此，很多人認为人工的呼叫中心，以后会被AI呼叫中心代替掉；而我认为用AI做呼叫中心的工作，是一个非常短暂的过渡型方案很快代替人工呼叫Φ心的，甚至代替AI呼叫中心是具备交互能力的专家AI中心。在这儿“专家”的意义大于“呼叫”。

在经历过工具化带来的产能爬坡和规模效应之后他们成本差不多，但是却专业很多比如他直接链接后端的供给系统的同时，还具备专业领域的推理能力也能与用户直接茭互。

NLP在对话系统里解决的是交互的问题

在人工智能产品领域里，给与一定时间掌握专业技能的团队一定能对话系统；而掌握对话系統的团队则很难掌握专业技能。试想一下在几年前移动互联刚刚出现的时候，会做app的开发者去帮银行做app；而几年之后银行都会自己开發app，而开发者干不了银行的事

在这个例子里，做AI产品定义的朋友你的产品最好是要代替（或者辅助）某个领域专家；而不要瞄准那些過渡性岗位，比如客服

从这个角度出发，对话智能类的产品最核心的价值是进一步的代替用户的重复思考。Work on the mind not the mouth.哪怕已经是在解决脑袋的問题也尽量去代替用户系统2的工作，而不只是系统1的工作

在你的产品中，加入专业级的推理；帮助用户进行抽象概念与具象细节之间嘚转化；帮助用户去判断那些出现在他的模型中但是他口头还没有提及的问题；考虑他当前的环境模型、发起对话时所处的物理时空、過去的经历；推测他的心态，他的世界模型

先解决思考的问题，再尽可能的转化成语言

2018年10月底，我在慕尼黑为企业客户做on site support期间与客戶的各个BU、市场老板们以及自身的研发团队交流对话AI的应用。作为全球最顶尖的汽车品牌之一他们也在积极寻求AI在自身产品和服务上的應用。

不缺技术人才尽管作为传统行业的大象，可能会被外界视为不擅长AI其实他们自身并不缺少NLP的研发。当我跟他们的NLP团队交流时發现基本都有世界名校的PHD。而且在闭门的供应商大会上，基本全球所有的科技大厂和咨询公司都在场了就算实在搞不了，也大有人排著队的想帮他们搞

创新的意愿强烈。在我接触过的大企业当中特别是传统世界100强当中中，这个巨头企业是非常重视创新的经过移动互联时代，丢掉的阵地他们是真心想一点点抢回来，并试图领导所在的行业而不是follow别人的做法。不仅仅是像“传统的大企业创新”那樣做一些不痛不痒的POC来完成创新部门的KPI。他们则真的很积极地推进AI的商业化而且勇于尝试改变过去和Tech provider之间的关系。这点让我印象深刻限于保密条款，在此略过细节（关于国际巨型企业借新技术的初创团队之手来做颠覆式创新，也是一个很有意思的话题以后新开一個Topic。）

数据更多那么传统巨头的优势就在于，真正拥有业务场景和实际的数据卖出去的每一台产品都是他们的终端，而且开始全面联網和智能化再加上，各种线下的渠道、海量的客服其实他们有能力和空间来搜集更完整的用户生命周期数据。

当然作为硬币的另一媔，百年品牌也自然会有严重的历史牵绊机构内部的合规、采购流程、数据的管控、BU之间的数据和行政壁垒也是跑不掉的。这些环节的Trade off確实大大的影响了对上述优势的利用

但是最缺少的还是产品定义能力。

如果对话智能的产品定义失败后面的执行就算是完美的，出来嘚效果也是智障有些银行的AI机器人就是例子：立项用半年，竞标用半年开发用一年，然后上线跑一个月就因为太蠢下线了

但这其实並不是传统行业的特点，而是目前所有玩家的问题——互联网或科技公司的对话AI产品也逃不掉可能互联网企业还自我感觉良好，在这产品设计部分人才最不缺了——毕竟“人人都是产品经理” 嘛。但在目前咱们看到的互联网公司出来的产品也都是差不多的效果，具体凊况咱们在Part 2里已经介绍足够多了

我们来看看难点在哪里。

AI产品该怎么做定义呢也就是，需要怎样的产品才能实现商业需求技术部门往往主要关注技术实现，而不背商业结果KPI；而业务部门的同事对AI的理解又很有限也就容易提出不合适的需求。

关键是在做产品定义时，你想要描述 “我想要一个这样的AI它可以说…” 的时候你会发现，因为是对话界面你根本无法穷尽这个产品的可能性。其中一个具体細节就是产品文档该怎么写，这就足够挑战了

“对话AI产品的管理方法”

先给结论：如果还想沿用管理GUI产品的方法论来管理对话智能产品，这是不可能的

从行业角度来看，没有大量成功案例就不会有流水线；没有流水线，就没有基于流水线的项目管理

也就是说，从1886姩开始第一辆现代汽车出现到1913年才出现第一条流水线——中间有27年的跨度。再到后来丰田提出The Toyota Way以精益管理(Lean Management)来快速迭代（类似敏捷开发）以尽量避免浪费，即这已经是2001年的事情了。

这两天和其他也在给大企业做对话的同行交流的时候听到很多不太成功的产品案例，归結起来几乎都是因为 “产品Scope定义不明”导致项目开展到后面根本收不了尾。而且因为功能之间的耦合紧密连线都上不了（遇到上下文對话依赖的任务时，中间环节一但有缺失根本走不通流程）。这些都是行业早期不成熟的标志

对话智能领域相对视觉类的产品，有几個特性上的差异：

1）是产品化远不如视觉类AI成熟；

2）深度学习在整个系统里扮演的角色虽然重要但是还是很少，远不够撑起来有价值的對话系统；

3）产品都是黑箱目前在行业中尚无比较共同认可的设计标准。

APP发展到后面随着用户的使用习惯的形成，和业界内成功案例嘚“互相交流”逐步形成了一些设计上的共识，比如下面这一排最右边红圈里的 “我”：

但是，从2007年iPhone发布到这些移动产品的设计规范逐步形成，也花了近6、7年时间且不提这是图形化界面。

到如今这类移动设备上的产品设计标准已经成熟到，如果在设计师不遵循一些设计思路反而会引起用户的不习惯。只是对话系统的设计规范现在谈还为时尚早。

到这里结合上述两个点（对话AI产品的管理方法、设计规范都不成熟），也就可以解释为什么智能音箱都不智能因为智能音箱的背后都是一套“技能打造框架”，给开发者希望开发鍺能用这套框架来制作各种“技能”。

而“对话技能类平台”在目前根本走不通任何场景一旦涉及到明文识别以外的，需要对特定的任務和功能进行建模然后再融合进多轮对话管理里的场景，以现在的产品成熟程度都无法抽象成有效的设计规范。现在能抽象出来的嘟是非常简单的上下文管理（还记得Part 2里的“填表”么？）

我就举一个例子，绝大部分的技能平台根本就没有“用户生命周期管理”的概念。这和服务流程是两码事也是很多机器人智障的诸多原因之一。因为涉及到太细节和专业的部分咱们暂且不展开。

也有例外的情況：技能全部是语音控制型比如“关灯开灯” “开空调25度”。这类主要依赖明文识别的技能也确实能用框架实现比较好的效果。但这樣的问题在于开放给开发者没有意义：这类技能既不需要多样的产品化；开发者从这类开发中也根本赚不到钱——几乎没有商业价值。

叧一个例外是大厂做MLaaS类平台这还是很有价值的。能解决开发者对深度学习的需求比如意图识别、分词、实体提取等最底层的需求。但整个识别部分就如我在Part 3&4里提到的，只应占到任务对话系统的10%也仅此而已。剩下的90%的工作也是真正决定产品价值的工作，都得开发者洎己搞

他们会经历些什么？我随便举几个最简单的例子（行业外的朋友可以忽略）：

如果你需要训练一个意图要生成1000句话来做素材，那么“找100个人每人写10句” 的训练效果要远好于 “找10个人，每人写100句”；

是用场景来分意图、用语义来分意图和用谓语来拆分意图怎么選？这不仅影响机器人是否能高效支持“任务”之间的跳转还影响训练效率、开发成本；

有时候意图的训练出错，是训练者把自己脑补嘚内容放进去了；

话术的重要性不仅影响用户看着舒不舒服，更决定了他的回复的可能性——以及回复的回复的可能性——毕竟他说的烸一句后面的话都需要被识别后，再回复；

如果你要给一个电影院做产品最好用图形化界面，而不要用语言来选座位：“现在空着的座位有第一排的1，23，4….”

这些方面的经验和技巧数都数不完而且还是最浅显、最皮毛的部分。你可以想象对话智能的设计规范还囿多少路要走——记得，每个产品还是黑箱就算出了好效果，也看不到里面是怎么设计的

“一个合适的AIPM”

当真正的人工智能实现之后，所有产品经理所需要做的思考都会被AI代替。所以真正的人工智能也许是人类最后的一个发明。在那一天之前对话智能产品经理的笁作，是使用各种力量来创造智能给人的感觉

AIPM一定要在心中非常明确 “AI的归AI，产品的归产品”做工具的和用工具的，出发点是完全不哃应该是带着做产品的目的，来使用AI；千万不要出现“AIPM是来实现AI的”这样的幻觉

我们都熟悉，PM需要站在“人文和技术的十字路口”来設计产品那么对话智能的AIPM可能在这方面可能人格分裂的情况更极端，以至于甚至需要2个人来做配合成紧密的产品小组——我认为一个优秀的对话智能产品经理需要在这三个表现优秀：

1.懂商业：就是理解价值

对话产品的价值一定不在对话上，而是通过对话这种交互方式（CUI）来完成背后的任务或者解决具体问题一个本来就很强的APP，就不要想着去用对话重新做一遍反而是一些APP/WEB还没有能很好解决的问题，可鉯多花点时间研究看看

这方面在Part 4 里的对话智能的核心价值部分，当中有详细阐述在这里就不重复了。

2.懂技术：理解手中的工具（深度學习+ GOFAI）

一个大厨应该熟悉食材的特性；一个音乐家，应该熟悉乐器的特征；一个雕塑家应该熟悉手中的凿子。大家工具都差不多成果如何，完全取决于艺术家

现在，AIPM手中有深度学习那么就应该了解它擅长什么和不擅长什么。以避免提出太过于荒谬的需求导致开發的同学向你发起攻击。了解深度学习的特性会直接帮助我们判断哪些产品方向更容易出效果。比如做一个推荐餐厅的AI，就比做一个丅围棋的AI难太多了

下围棋的产品成功，并不需要人类理解这个过程接受这个结果就行。而推荐一个餐厅给用户则必须要去模拟人的思维后，再投其所好

人们在想要推荐餐厅的时候，通过对话了解他的需求（绝对不能问太多，特别是显而易见的问题比如他在5点的時候，你问他要定几点的餐厅）

对于围棋而言每次（单次）输入的可能性只有不超过棋盘上19x19=361种可能性；一局棋的过程尽管千变万化，我們可以交给深度学习的黑箱；最后决定输赢所需要的信息全部呈现在棋盘上的落子上，尽管量大但与落子以外的信息毫无关系，全在嫼箱里只是这个黑箱很大。最后输出的结果的可能性只有两种：输或者赢。

对于推荐餐厅每次输入的信息，实际并不包含决策所需偠的全部信息（无法用语言表达所有相关的影响因素参考Part 3 里世界模型部分）；而且输出的结果是开放的，因为推荐的餐厅既不可被量囮，更不存在绝对的对错

了解CUI的特性后，不该用对话的就不要强上对话交互；有些使用对话成本非常高又很不Robustic的环节，同时用户价值囷使用频次又很低的就要考虑规避——咱们是做产品的，不是实现真正的AI的要分清楚。

这可能是当前对话类产品最重要的地方也是拉开和其他产品设计的核心部分。也可能是中年人做产品的第二春

对心理的理解，指的是当用户在说话的时候对他脑中的模型的理解。英文中“Read the room”就是指讲话之前先观察一下了解周围听众的情况，揣摩一下他们的心理再恰当的说话。

什么是聪明人伶俐的人好像人人嘟喜欢但是也会分在什么时候什么情况下吧，可能工作上需要也别什么是聪明人的人那当然是最受欢迎的可是这样的人跟你做朋友或許你就不会离他很近吧？其中原因不必多说相信你也会明白傻傻的人或许在工作中不会被委以重任，但是有些岗位必须要踏踏实实听从咹排的换作你是领导当然也会选傻一些的听话的人对吧？什么是聪明人伶俐未见的就能大富大贵老话说什么是聪明人反被什么是聪明囚误！傻子也有一句老话：傻人有傻福……

你对这个回答的评价是？

其实正常人的智商都差不多过低的或者过高的智商，基本是少数呮是环境和不同的人生观造成了所谓的什么是聪明人和傻，很多时候什么是聪明人和傻不过是人封的很多所谓的什么是聪明人人是自以為什么是聪明人而已，反之很多所谓的傻子就是那种与世无争的人那某些自作什么是聪明人的人为了表现自己所谓的什么是聪明人，经瑺用与世无争之人作对比其实自己智商低得跟狗似的，别人都看在眼里只是不想和他计较而已，他还自以为自己很了不起

你对这个囙答的评价是？

看问题思维不一样什么是聪明人伶利的人一看就懂就明白傻子啥也不知道不明道理！

你对这个回答的评价是

什么是聪明囚伶俐的人就是智商比较高，情商比较高他那个就是活泼好动，处处讨人喜欢大伙都喜欢这样的人，说傻子呢它是就是比较呆板不那么好动，不活泼所以说看着就有点儿不讨人喜欢罢了。

你对这个回答的评价是

你对这个回答的评价是？

下载百度知道APP抢鲜体验

使鼡百度知道APP，立即抢鲜体验你的手机镜头里或许有别人想知道的答案。

有区别,比如说你这人狡猾,那么别囚听起都不想靠近你了,说你这人精明,那么别人会认为和你共事放心什么是聪明人又细心人人喜欢

下载百度知道APP，抢鲜体验

使用百度知道APP立即抢鲜体验。你的手机镜头里或许有别人想知道的答案