路过的说说,奇妙逻辑冒险最后三关AI助手的盈利逻辑是啥?

文|木子yanni人,天生就有好奇心。从出生开始,每个人的小脑瓜里,都装着无数个为什么,只要张张嘴,就能从父母、老师的口中,得到答案。长大后,互联网接棒,一个窄窄的搜索框,同样能满足你的好奇心。1990 年,第一个互联网搜索引擎出现,到现在,搜索已经发展了 30 年。这期间,搜索框从电脑走进手机等智能设备,一直没变的,是搜索形态:输入文字,好奇就能变成常识。2011 年,苹果 Siri 让搜索有了新形态:语音。苹果 Siri这之后,从微软 Cortant、谷歌 Assistant、亚马逊 Alexa,到百度小度、小米小爱、天猫精灵,搜索摇身一变,进化成了你我身边的贴身助理,你问它答,岁月静好。可时间一久,问题就来了。搜索跟异地恋一样,打字看不到表情,声音听不懂情绪,受信号等因素影响,一旦听不清或听错,极其伤害感情,每天跟语音助手吵架的人,不在少数。图片来源于网络前不久,在一年一度的百度世界大会上,不靠颜值靠实力的李彦宏,正尝试打开一个全新的搜索入口:度晓晓。虚拟助手度晓晓从官方资料来看,度晓晓的定位,首先是一款搜索创新产品,其次是一位养成类 AI 虚拟助理。度晓晓的形象是个二次元女孩,具备视觉识别能力,不仅能更简单的帮你搜索信息,还能通过日常互动,拥有跟你一样的性格:你风风火火,她就是小燕子;你开朗幽默,她就是女版大张伟。在大会现场,央视主持人康辉率先与度晓晓进行了交流:康辉:度晓晓,你知道央视 Boys 都有谁吗?度晓晓:康辉、撒贝宁、朱广权、尼格买提。康辉:央视 Boys 中,你最喜欢谁?度晓晓:当然是“行走的活字典”康辉老师啦!听到晓晓的回答,康辉老师露出了仿佛置身夸夸群中的笑容。看完大会直播,我也下载并初体验了一番,目前,度晓晓还处于测试阶段,只有安卓版本,暂不支持在 iPhone 上体验。下载并打开软件,故事背景徐徐出现:1908 年,一颗陨星坠落在北京,谁能想到,其中竟然蕴含生命。 (至于为什么是 1908 年,我能想到的只有至今仍是谜团的通古斯大爆炸...跟随故事发展,选择开启生命,一键输入人类 5000 年知识库,随后同意用户隐私权限,专属于你的 AI 虚拟助理度晓晓,缓缓睁开了眼睛。简洁的白色背景中,度晓晓站在屏幕 C 位,白色 T 恤,蓝色短裙,表情灵动自然,站姿灵活不僵硬,实力印证“好看的人,怎么穿都好看”。由于还在测试阶段,很多功能都没有上线,度晓晓目前仅支持搜索、推荐和互动。在搜索功能的体验中,我问度晓晓:蒙娜丽莎为什么没有眉毛?度晓晓的回答简单到位,而且在语音解答的同时,屏幕上还有对应的文字显示,可听可看。同一个问题,我在百度 App 端得到的答案,就显得非常杂乱,属于一眼找不到答案系列。如此一对比,度晓晓“划重点式”的搜索体验,可以给个好评。接下来再看看度晓晓的聊天功能。由于度晓晓具备视觉识别能力,所以她支持语音和视频两种对话方式,视频方式与常规的视频聊天类似,语音方式也与一般的语音输入无异。两种方式下,晓晓都能够准确识别句意,并作出相应回答。不过,毕竟当前的人工智能,很大程度上还停留在“人工”阶段,虽然度晓晓有百度大脑 6.0 的加持,但聊天中的 BUG 也还是蛮多的,令人头秃。我换了一个问题:你能帮我做会议记录吗?她实诚的回答,竟让我不忍责备。就在我沉默之际,度晓晓主动招呼我:来玩答案占卜怎么样?来就来。按照规则,我在心里默念:今晚到底要不要去吃火锅。而度晓晓给我的回答是:如果喜欢就勇敢前进吧。好嘞!(看起来,买《答案之书》的钱可以省下来了~至于搜索功能,没什么太大亮点,就是“晓晓靠边站,内容框里现”,想看哪个点哪个。另外,官宣中的养成属性,除了信息交互外,还体现在支持 DIY,从家具、服饰到妆发,女神还是女汉子,统统都是你做主,不过当前体验还很单一,不但没有换装功能,就连给唯一的客厅换个风格,我折腾了半天,最后也只把白墙换成了绿墙。总体来看,度晓晓确实还是一款测试产品,功能并不完善,优点和 BUG 并存,给人的体验是痛并快乐着。乱搞还是必然?度晓晓一露面,随之而来的更多是质疑。在质疑者看来,百度花了大功夫,搞了大场面,就推出了个这?尽管度晓晓颠覆了原有的搜索形态,但噱头远远大于价值,完全没必要。如果换个角度来看呢?抛开搜索形态升级这一表象,在 AI 平民化和互联网信息传播的大趋势下,作为搜索巨头,度晓晓是百度必然会进行的一次尝试。首先,互联网上的信息,可能比撒哈拉沙漠中的沙子还要多,从展示形态来看,目前还是以文字为主,在碎片化信息爆火的当下,不少人已经养成了太长不看的习惯,总想有个课代表给信息做个总结,从度晓晓“蒙娜丽莎为什么没有眉毛”的回答来看,百度希望度晓晓能够扮演这个角色:你想知道的,我都能简单直接地告诉你。这种感觉,有点类似 UC 出品夸克浏览器,一个是人在江湖,身不由己;另一个是不忘初心,重新出发。其次,一直以来,社会中存在相当一部分人,他们并不擅长文字搜索,尽管手机上有语音输入作为辅助,也并没有降低这部分人的搜索难度。度晓晓的出现,刚好能帮百度覆盖到这一人群:想看的内容,会直接呈现在屏幕上,而晓晓会一直陪伴在旁;遇到问题,开口提出问题,晓晓就能进行解答;无聊时,也能随时呼唤晓晓出来聊天。与擅长看家的智能音箱不同,晓晓驻扎在手机上,24 小时待命,不用付费购买硬件设备,打开软件,一个会哭、会笑、会撒娇的 AI 生命体跃然眼前,你就是它的主人,这就是 AI 平民化的价值体现。还有非常重要的一点,度晓晓轻松、俏皮的语言风格,让普通甚至无聊的内容也变得可口起来。这就如同吃饭,虽然摆在你面前的是米饭、排骨等干货,但白水煮熟的食物,吃久了一定会厌烦,需要油盐酱醋茶来增添味道。哪儿有那么多正经的话要说,插科打诨才是平凡生活的趣味所在。信息也是一样,趣味化的表达,比教科书容易接受。不然,那么多考研辅导老师,为什么大家都喜欢听张雪峰?那么多讲法律的老师,罗翔就那么容易让人上头?搜索形态变化的背后,藏着越来越快的生活节奏,藏着社会人不易察觉的情感需求,也藏着 AI 技术的成熟。一直以来,“用户需要被教育”已是成熟的方法论,但事实上,每个人都与众不同,在虚拟世界里,培养一个出色如自己的 AI 助理,也是一个不错的体验。嗨,这里是浅黑科技,在未来面前,我们都是孩子。想看更多科技故事,欢迎戳→微信公众号:浅黑科技(qianheikeji)
本文不会展开对技术的细节讨论,如有需要可阅读之前写的两篇相关内容:万字长文:AI产品经理视角的ChatGPT全解析(内含技术科普)轻松小补充:GTP APP全景地图+虚拟人构造想法+prompt模式详解前言 我希望谨慎地做出判断标题中的问题看起来不是问题,毕竟媒体狂欢、大厂跟进,所有迹象都表明一个新时代正在到来。但是在前文发布后,我和很多人进行了交流。给我印象最深刻的就是,有些朋友在表达感谢后,总会忐忑地追问一句——“你觉得ChatGPT方向能落地吗”。他们中有面临职业抉择的打工人,有跃跃欲试的创业者,有二级市场的冲浪者,有一级市场态度谨慎的投资人。所有人都在岸边谨慎、克制地观望。所以,究竟能落地吗?如果能,是100%完全能吗?哪些方向可以哪些方向不可以?如果不可以,那么为什么不可以?因为少年时的AI幻想成真感动感动是一回事,客观的现实又是另一回事。而且当我的建议会对其他人产生影响,这就愈加让我谨慎。OK,前言就到这里,我将开始我的推理过程,向你展示我整个过程中的所思所想。如果你对推理过程不感兴趣,可以直接看结论——“我相信他能够成功落地,并且将是一个时代的开始”。但是我更希望你跟随我的思考过程,就像GPT模型中用到的思维链CoT技术一样,我们“think step by step”,当每个环节都清晰无误时,最终的答案也将更值得信任。第一步 开始思考前,想清楚如何思考我们需要更清晰地定义我们的问题,从我们自身的角度出发(打工人、创业者、投资者等)。并在随后围绕定义来确定我们要去加载哪些方面的知识,并基于这些知识做出符合利益和逻辑的推理。我所寻求的答案是“AIGC这波狂潮能否落地”,那么:首先,这是一门生意。而生意的本质就是价值交换,并在过程中积累剩余价值。所以他的首要原则一定是能跑通商业模式,赚到利润。当然,生意要赚到钱是谁都知道的道理。AI绘画也能赚到钱啊,有人靠激励广告打平收益,有人拿到了融资,有人延伸出了提示语买卖。是的,所以我还期望他具备足够宽度的赛道,能够支撑百花齐放。因为这样对于打工人来说,他进入这个方向才足够宽阔,拥有突破天花板的可能,对创业者来说市场的机会足够多,避免扎堆死在沙滩上,对于一级市场投资者来说有足够的种子进行选择试错,对于二级投资者来说,百花齐放的涌现才是这个赛道长久生长的推力。在这里我们观察一下AI绘画,他的赛道是不是一眼就望到了尽头?你敢投入其中吗?(此处假装忽略Diffusion技术后续的潜力)然后,找到新技术带来的增量市场。我们要避免被媒体词语迷惑。什么是媒体词语?就是标题中的“AIGC”。事实上这波狂潮中只有AI绘画背后的Diffusion和ChatGPT背后的GPT这两项技术产生了应用端的突破。但是AIGC词语一造出来,干涸的互联网终于迎来了久违的新概念,媒体迫不及待将他扶上王座,绘制出一张张行业全景图。但事实上真正因为这两项技术发生影响的行业是哪些?受到影响的行业就一定存在增量机会吗?我搜集材料时一般刚开始的时候是不看投研式的报告的,很宽很全,但是好像知识从脑子流淌过去,看完什么也没留下。特别做过汇报PPT的人应该知道,很多时候为了结构式美观,你会硬凑信息,比如这个产业链只有2条不好看呀,我凑够3个来个金字塔布局。这种信息会误导思维框架的的建立,我一般是建立了体系化认知再去看报告来补充参考的。OpenAI CEO对资本造词“生成式AI”的嘲讽紧接着,让我们首先瞄准核心的应用场景,暂时忽略上下游布局。当一个地方发现金子,马上就会有为淘金者服务的餐馆、旅馆、劳保店出现,但这这一切的前提在于必须能发现金子。核心应用场景就是这波浪潮中的金子,只有找到在消费端能够跑通模式的场景,才会关联延伸出相应的上下游产业。因此在这个问题的思考过程中,上下游产业是不重要的,我们不需要投注任何精力去关注。最后,让我们基于如上推理,重新构筑对这个问题的定义:“当前是否有足够多的受到两个新技术影响且产生增量机会的核心场景能够跑通生意模式,获取盈利”。当我们收集的知识满足这些条件,我们就认为答案是“是”。推导顺序如下图:第二步 开始组装知识框架在有了思考的方向后,我们需要构造知识框架,哪些重要,哪些不重要,哪些要素之间互相关联,影响,先后顺序是什么等等。首先,搞钱是最重要的,即核心场景,第一个要做的就是盘点应用场景,客观评估其商业模式及可行性。其次,场景不是独立存在的,有大量因素影响制约。其中影响最大的是技术,其次可能是政策、道德等。最后,我们在知识收集过程中,必定面临一些困难。例如自身的知识洼地无法跨越,或是元素过多无法穷尽,我们需要应用一些抽象、指代的方法来跨过这些障碍。基于上述原则,形成我们的收集框架:优先梳理商业部分,并在遇到知识洼地时采用抽象要素、同理推断、指代推断等方法。技术现状决定当前生意是否成立,技术潜力决定生意的上限天花板。作为重要支撑因素进行分析。限制因素如道德、政策、版权等,对主干不构成影响,放到最次优先级大概看看就行,对行业未来可能的限制稍作了解。导图见下方:对了,补充一下接下来这篇文章将只分析GPT是否能够落地,不涉及AI绘画,这是因为:1. 我做不到AI绘画的材料我收集了,但是还未整理,后续会有一篇《AI产品经理视角下的AI绘画全解析》。我要等那篇文章写完了,思路才会清晰,没想清楚之前我就不乱说了。2. 其实也没必要两项技术虽然都具备突破性,但目前ChatGPT的延伸方向、变革程度,都是远远高于Diffusion的,所以如果ChatGPT能论证成功,不用等AI绘画,我们也可以推出标题中的答案。第三步_1 基于框架进行知识填充——商业篇我们先说盈利模式和成本控制两部分,然后带着相关认知去盘点场景。盈利模式互联网主流盈利模式无非三种:1. 广告/流量模式通过免费产品吸引用户使用,促使用户投注大量时长/频率,再从中切割广告流量从而盈利。在目前短视频、中长视频、游戏、小说的围剿下,我不看好ChatGPT所创新的应用能够抢夺足够份额的时长。边角料的时长空间或许可以,但上限不够大 。而且一旦涉及时长争夺,我们所描述的肯定是C端娱乐应用。对于有野心的玩家来说,是很难接受让广告突破用户体验的。不过小规模应用其实可以考虑,特别对于独立开发者来说,激励广告变现是一个很好的方式,虽然我手里没有数据,但AI绘画在过去的半年内已经证明了可以实现收益打正。AI绘画暂时形成一条应用-消费的小市场,但上限很低不过我感觉广告模式应该是最不适配的,除非技术再进行突破,或出现意料外的杀手应用。例如一个让你愿意每天投入半小时进行聊天,并且他放广告你还不反感的虚拟人……这有可能吗?2. 商品模式商品模式是最传统的,一手交钱一手交货。只是这种模式下,交易是一次性的。2B端的定制开发服务,游戏充值都可以用这种模式概括——当然也包括卖实体商品。但是商品模式最需要的是“复购动力/频率”,游戏充值有沉浸心流、社交货币、排行攀比等心理方法来推动,实体商品则来自现实生活的复杂需求。Chat的应用延伸,如果采用商品模式变现,需要考虑几点:是否可以延伸出丰富的商品——例如虚拟人物的剧本,不同的TTS音色,或者虚拟人物本身的购买。这些商品的边际成本如何,是否能控制到极低的程度?这些商品用什么动力来推动复购?B端会更明确一些,商品付费基于明确价值。例如49.9元1000次SEO文案生成/社媒生成/广告语生成。而C端提供的价值不那么商业实际,需要考虑其他动力来刺激复购能想到的替代。例如宅男手办、以及明星周边/打榜。3. 订阅模式用户周期性支付费用,以获取某种服务、特权、功能。这种模式最重要的在于,花钱订阅的那个东西对用户是否具备“持续价值”。2B方向的产品,可以不用讨论,订阅模式已经逐步替代商品模式成为最优解。我们慢慢看到不管是软件服务的定制开发,还是本地应用软件的license机制越来越少,取而代之的是订阅模式。毕竟订阅模式能带来更健康稳定的现金流,这已经是非常大的优势了。而2C方向的产品,还充满不确定性。比较经典的如视频会员VIP所代表的娱乐价值,交友APP代表的社会尊重价值,GTD代表的生产力价值,2C向的GPT产品能否像他们一样创造足够的“持续价值”,还需要先行者为我们踩坑。上述三种盈利模式简单了解即可,他们之间不是非此即彼的。例如百度云盘限速下载,你可以用订阅来做,也可以用商品来做,严格来说没有那么明确的界限,纯粹看那种盈利方式在商业测算上能带来更大的利润。但综合来看,商品模式和订阅模式和ChatGPT的延伸应用会更为匹配。成本控制成本可以分为三块:技术成本GPT3.0的付费接口是3700个字/元(经过换算),这是最明确的成本线。除非等几个月成本下降或国内大厂跟进做出服务开放,否则这个成本线会持续一段时间。此外搭建相关服务、开发产品并维护也会产生费用,根据落地的形式不同。运营成本人力费用一般而言是大头。即使排除算法角色(是的,只做应用层甚至可以不需要算法,所以这波技术浪潮对算法同学而言是非利好),那么也至少需要工程方向、前后端、产品设计等角色。如果你是2B市场,还至少需要配备销售团队。整体的上限浮动空间非常大,从0人(独立开发者)到几十人都有可能。另外还需要考虑办公场地、器材购买、HR/行政等费用,当然你可以选择全体远程协作+服务外包等多种方式去降低。上下浮动空间也比较大。增长成本2B的增长成本来自PR费用,参会费用,以及销售费用。部分to 小B的例如给电商从业者的还会涉及广告费用。2C就更不用说了,除非运气好裂变了,不然买量是离不开的话题。目前比较好的是这个方向比较新,竞价价格会相对低。不过也存在蹭流量现象,例如完全没有相关要素的社交APP,也会投放含有“虚拟聊天”相关的素材。2C还有一个利好就是一般做娱乐类应用,社交的买量价格起码不像电商和金融那么恐怖。带着上述这些前置信息,我们会发现,考虑场景的生意模式的时候,我们不可能只按3700字/元来作为底线测算。整体的成本线可能要压到2000字甚至1000字/元,才能抹平其他成本。即我们需要做到,GPT每生成1000个字,产品能从用户身上赚到1元。这样营收与成本线3700字/元之间的差额就是我们可累积的利润。场景盘点带着对盈利模式和成本线的简单了解,我们进入场景盘点。在这一部分我们要注意,我们没有精力、也不可能将市面上全部的应用罗列。因此只能基于技术线应用可能进行分类聚合,然后基于各类别的关键要素进行分析。文本创作类这是目前最火爆的一个分类。从文本长度来说,可以分为短文本,长文本,超长文本。从专业角度,可以分为法律、心理咨询、教育、建筑、小说、公文等。再细致一点可以列出SEO文案、社媒内容、广告创意、邮件写作、公文信函、简历修改等等等等。我们不可能把全部的可能组合起来,其结果将超出我们的分析能力范围。我们只抓两个关键要素:怎么赚钱,技术能否支撑。在这里,举两个例子:SEO文章生成:在AIGC之前,人工手写的SEO稿是有明确标价的,大约在千字10元~50元不等,个别优质的可以到100元。我们取一个最低值,就是千字/10元,离我们前文硬推的千字/1元之间足足有10倍的价值差额。电商运营提效:我是一名在西班牙的电商从业者,原本我雇佣了一名本地运营,帮助我维护西语系国家的站点。现在通过AI的能力,仍然是这名运营,可以在多个不同语系,数十个细分市场中维护站点。那么这中间的差额就来自1名运营人员和N名运营人员之间。我们会发现,他的模式本质上是AI在内容创作这项劳动上,制造了剪刀差。只要这场浪潮没有完全结束,内容创作的社会必要劳动时间没有完全进入另一个层面,剩余价值就会自动从动荡的剪刀差中掉落。而在技术层面而言,目前的技术支撑程度,简单来说就是:文本越长死的越快,结构越复杂死的越快,但短文本和通用内容方面已经是如鱼得水,非常成熟。不过目前已经有人在中长文本方向进行努力,他的推理能力也在加强,所以技术的突破和垂直领域适应是一个非常值得期待的方向。综上,我认为,文本生成领域是一个完全的增量市场。并且随着技术的进一步提升,他的规模更逐步扩大。代码生成/纠错/Sql/语言转换等等等等这是目前海外第二火爆的分类,独立开发者很多。不过分析到这里我遇到一个尴尬的地方。我并不是程序员,无法设身处地去设想是否愿意为相关的服务付费。哈哈,所以我把问题转手给我的程序媛夫人,让她在旁边静静思考一下。我们先从这个领域的技术情况开始分析。首先,不要被媒体稿迷惑。就目前而言,GPT无法替代程序员。他的代码生成能力,在常规问题上能够正确,但是一旦你换一些变种,他就会给出看似正确其实离了大谱的答案。这项技术的应用前景,更多在于代码辅助写作,例如快速生成一个简单模块,对代码进行自动Bug检查,生成Sql语句、代码解释等等。但是都需要人工二次review,他能够帮助你的主要在于快速的检索、简单代码的快速写作、自动纠错等辅助功能。并且这方面和文本生成领域不太像,技术角度产出的结果质量还不够高,不太能形成巨大的剪刀差。但目前的技术已经实现了一定的效率提升,以及门槛降低。效率提升:有助于程序员们coding环节加快速度。门槛降低:门外汉已经可以通过开发工具+GPT实现部分专业领域的简单设计(例如Unity+GPT做游戏)。好了,回到商业价值上,一段时间的思考后,程序媛老婆给出了坚定的答复——“我们花这个钱干什么,当然自己做一个啊”。我:“0.0???”我有点不太相信,但是找了一圈这个领域的投融资情况,找不到太多的例子,只看到OpenAI有投资消息:一家代码编辑,一家开发工具。但再往下细探就找不到任何相关消息了。好吧,我只能认为暂时而言,这方面的商业前景可能不太乐观。2C侧暂时相信老婆大人的判断,应该比较难创收;而2B侧需要企业判定对自身内部效率有帮助。而众所周知,提效类的2B服务,往往比不过营销类这种能直接创收的服务……综上,这是一个完全的增量市场,但是商业化机会似乎不太美妙。比起有一个成熟公司在这里杀出来,我更期待独立开发者或者是大厂做出的自用工具然后开源。毕竟——“当然是自己做一个啊”真的是程序员独有的浪漫了吧。Chatbot方向在说Chatbot方向前,我们先提炼新技术对这个领域的影响,然后带着这些认知去做场景盘点。简单而言,ChatGPT的技术让对话更自然了。这里的自然包括纯闲聊部分,也包括QA甚至Task任务。一个能够联系上下文,并对知识进行整合推理的Chatbot,对以往的机器人会是一种颠覆式的升级,能够跨越以往用户体验的上限。整体上,我将Chatbot分为以下方向:客服类这部分包括目前各个主流平台自研的机器人或者提供相关服务的客服机器人企业。从技术上来看,有非常大的变化,甚至推动技术栈重构。但是从商业上来看,有可能影响寥寥。客服bot的市场中,仍然有一些竞争者,他不止ChatGPT,甚至连BERT也没有应用,仍然是相当老旧的一套系统。而他们既然仍然在这个市场保有份额,自然有其原因——某些时候,2B的市场中,技术不是第一竞争力,服务、渠道、价格都会比技术重要。而新一代语言模型技术的出现,不过是给这个市场增加了一点扰动。已经买了产品的,因为迁移成本,渠道关系不一定马上会切换。技术服务商可能会紧急跟进尝试,但也不妨碍部分竞争者慢悠悠甚至毫不在意。并且一个关键点在于,GPT技术除非自行部署,否则意味着自身的核心能力转为依托于大厂。这是不是客服机器人公司所能接受的,还存在疑问。最后ChatGPT模式下,算力成本以及时延会变得难以忽视,会给这个方向带来一些阴影。综上,我觉得客服方向,属于旧技术盘踞的存量市场。技术蝶变在部分公司会狂风暴雨(但落地会很谨慎),在部分公司可能进展较慢或无动于衷。娱乐类娱乐类即只提供情感/娱乐价值的方向,上篇文章提及的APP Glow 是一个典型例子。对于这个方向来说,技术上让情感价值的提供成为现实(AI更自然了,没那么智障了),但是非常需要结合情感场景的设计。而脱离场景设计的结果,最典型的就是ChatGPT本身。ChatGPT当时在11月30日发布后,用户们是情不知所起,一往而深,再而衰,三而竭,仅仅一周左右的时间就销声匿迹。因为没有任何一个人的需求是“聊天”,以及看一个AI“卖弄聪明”。在上篇文章中,我大概说了一些关于娱乐类Chatbot的一些想法,这里不再重复阐述这种方案的细节描述,没看过的朋友可以移步此链接:轻松小补充:GTP APP全景地图+虚拟人构造想法+prompt模式详解,看第二部分就行。我们重点说说商业上的问题,先来回顾下上面提及的关键点:①1000字/元的成本线,②基于订阅收费模式所需要的持续价值,③基于商品收费模式所需要的复购动力。其中成本线问题需要通过产品设计绕开,不能让用户的行为时间大量投注在闲聊中,否则随着文字互动量的上升,成本将急剧飙升。一种可能的解决的方式是以闲聊交互为核心行动线,穿插剧本设计、剧情推动、用户自主人设构建等玩法,来减少算力损耗。——总之就是不要只能聊天,撑不住。还有一种比较骚的玩法,可能是在Prompt层面对模型进行约束,例如下面这张图,ChatGPT会强制在问题中引入一段前缀,以此限制答案长度节约算力。而持续价值和复购动力可以合并来说,因为这两种收费模式其实很容易互相摇摆。一个比较好玩的做法可能是构造“角色”的获取-使用-厌倦-再获取这种闭环。这套模式已经被诸多集卡类游戏深度验证过,也成功从我手中掏走了不少钱(该死的原神!!)。综上,我认为娱乐类BOT是一个完全的增量市场,技术的突破成为这个方向的关键要素。但是市场强依赖对用户需求的打磨和设计,到底应该怎么做,还需要摸索,目前大家都在尝试。工具类(助手类)工具类包括语音音箱、手机语音助手、车载语音助手等。从技术上来看,我觉得非常大的问题在于“实时性”,我从圈内朋友获取的信息是,目前接口调用的时延在1S以上(不知道是不是因为服务器距离导致)。这种延迟很难说可以应用在上述场景,他的用户体验将十分糟糕。除了这个缺陷以外,技术上对工具类BOT的体验提升将是非常大的帮助。(上面说过了不再重复一遍了)。但从商业上来看,我认为这也是一个旧市场。或许你会认为,可能有一家创业公司,依赖全新、更好体验的语音助手杀出重围,挤占原有语音助手的空间。但需要我们注意的是,这些助手虽然是软件,实际上却非常依赖自身的硬件渠道——小爱依托小米,Siri依托苹果,车载助手则在各个汽车品牌之间互相割裂。我感觉这个领域应该是产生不了新蛋糕的。不过比较有意思的是,虽然看起来和客服类一样是个存量市场,但工具类Chatbot会热衷于拥抱这些新技术,因为这将有助于提升他们的用户体验,从而推动他们硬件渠道的增长。综上,我认为工具类方向半旧不旧,没有增量,但更乐于拥抱新技术。专业类专业类指需要独特领域知识的Chatbot,例如法律咨询机器人,投顾机器人,心理咨询机器人等。这类机器人有几个特点:第一,专业要求高,需要专业人员调教验证;第二,结果输出要求稳定/高质量,需要为结果负责;第三,部分场景使用频率偏低(例如法律Chatbot,普通人一辈子用不到几次);第四,极度需求高质量专业数据。从技术角度来说,GPT给他们带来的升级效应较小。因为这个领域最困难的并不是交互过程、理解过程的升级,他面临的困难始终来自专业数据,低频场景。 不知道GPT是否可能挂载额外的知识库,而不需要专业数据在预训练环节重新接入。如果可以的话,应该有助于提升用户体验的上限。目前看到一个法律领域的BOT,如下图:在我一位律师朋友看来虽然还会有些错误,但已经相当自然通顺,相较过去基于旧技术的专业机器人已经有一些提升。综合来看,对当前体验没有颠覆性升级,场景低频难以变现。一条可靠的路径可能是先做给专业人员的辅助工具,然后在使用中积累数据优化再开放。我认为他暂时是一个有一点潜力的增量市场,需要结合技术演进和专业落地尝试再细看。补充:专业领域太多了,非常需要行业经验逐一盘点,所以这段判断仅供参考,存在较高错误可能。游戏方向头部的应用方向基本就是Chatbot、文本生成、代码这三个领域,而游戏其实暂时我看不到太多优秀的例子。这是我目前唯一找到的case:AI地下城,文字交互类游戏。https://gpt3demo.com/apps/aidungeon-io但是我毕竟是20年+的游戏玩家,为爱发电也要强行聊一波:NPC流水线NPC制作的几个制约因素都被本轮技术升级覆盖。包括NPC背景故事的生成(短文本),NPC自由对话(基于人设的对话),NPC头像、3D建模生成(头像比较容易,3D建模有点困难,但NPC外貌重要性弱一些),NPC好感度机制等。其中自由对话模块已有现成的case,一名玩家为《骑马与砍杀2》制作了一段实验性demo,见下图:询问NPC村民能否铸剑,得到肯定回复并询问玩家预算及材料任务流水线任务制作的影响范围相对较小,因为他会涉及到数值设计、关卡设计、上下游依赖任务等问题。但在单环任务,一次性任务上,新技术将在任务文本生成,任务选项等方面起到帮助。这方面我勉强看到一个例子,不过他是剧情式游戏,仅供参考。中间那个>You gogogo 就是我的命令,可惜写这篇文章太累了,投不进心思玩交互模式传统的游戏交互方式是界面(传统键鼠或触控)、体感(Switch或VR),奇葩一点的可能会加入声音触控(音调、音量、或者少数ASR识别关键词)。而GPT可以让自然语言交互成为可能,即延伸出来的文本交互&语音交互会相当成熟。但是并不是说更新的交互方式就一定更好,大家可以借鉴上一轮Chatbot的发展历史来看。在Chatbot刚出的时候,极度追求极端的VUI交互(语音交互),但发展到后面都妥协了,采用VUI+GUI(图形界面交互)的方式。这是因为语音或文本,天然是有其缺陷的,需要根据实际需求选择组装。具体内容可以参见我2017年的一篇产出,现在回过头看有一些更新的理解,不过我只剩个PDF了修改不了,就将就着看一看吧哈哈。From《VUI设计方法分享》不过游戏方向是非常特殊的,技术能够为他带来改变,但他的成功绝不会只靠技术。事实上,全智能NPC、全智能任务只是一种新颖的设计。真正一款游戏好不好玩,能不能打动人心,还有非常多题外的因素。另外技术是否还能应用到其他领域呢?例如NPC决策逻辑,世界背景构建,新语言创造等——我不知道,但对技术永远抱有期待。希望绿洲早日来临!为了部落,waaaaagh!最后收尾总结一下:游戏领域是一个100%的旧市场,但又和客服机器人、工具机器人不一样,新技术可能让这个领域出现颠覆性的新玩家。补充:或许MUD类型游戏会重新闪亮出场?这种类型可以甩开音乐、UI、建模等诸多成本,最先吃到这波技术升级的红利。利用好玩家们对新技术的新鲜感应该会有一波流量,但后续留存就难说了。是否还有其他方向?在上文列举的文本生成、Chatbot、代码生成,其实是ChatGPT演示中直观带给我们的灵感,只是在落地过程中,随着参赛者的选择,逐步延伸向了各自的细分方向。而游戏方向则是典型的,GPT技术+其他行业逻辑构造出的延伸方向。因此我们可以想象类似游戏这样的扩展行业还有很多,只要他的行业中有大量关于文本的应用——哪个行业不是呢?例如教育行业,能不能用GPT梳理、查找关联知识点?金融行业,能不能用GPT阅读会计报告、合同文件进行分析?——我不知道哈哈,暂时没有case,等待新玩家们涌现。第三步_2 基于框架进行知识填充——技术篇技术篇非常简单,我们不再科普技术原理,技术原理已经在前文万字长文:AI产品经理视角的ChatGPT全解析中大篇幅讲过了。我们重新基于应用角度,梳理当前技术的现状及潜力。现状决定短期内哪些能做哪些不能做,潜力决定未来横向、纵向的扩展可能。大家可以用这些认知来扫描任何新出现的应用场景。技术现状结果不稳定,需要review需要Review,就意味着大部分场景不能脱离人,只能辅助人。除非你在做一些完全不在乎质只在乎量的市场,例如营销号,SEO,刷评论。推理能力弱,容易推出看似正确的错误答案结构复杂、逻辑复杂的场景无法适配,例如长篇小说容易颠三倒四,教育应用也要谨慎用在理工科方向的问题上。知识更新困难,成本巨大知识无法通过Prompt获取,源头只来自LLM中的1750亿参数,更新一次知识成本高,速度慢。所以无法适配需要紧跟时事的场景——但这不意味着不能用来摘要新闻,毕竟天底下无新鲜事。延迟较高,实时场景不适配截止昨天2月3日我已知的信息是接口延迟在1~2S(可能有误),所以暂时语音助手这种实时响应要求高的会不适配。但我觉得这个问题应该很快会被解决,工程问题无法求解是没看到蛋糕,只要看到蛋糕性能迭代是非常快的,AI的演进历史本身就是一部效率迭代的历史。垂直领域表现未达最佳这里的垂直领域包含两种解释,一种是技术侧的垂直领域,例如自然语言理解类的任务,暂时仍是BERT更优。另一种是行业侧的垂直领域,例如法律、心理、金融等。我猜想一个原因可能来自原始训练数据中缺乏高质量的文本数据。可挂载其他模块,但目前没有标准方法目前看到的一些方式是,用GPT作为输入端,再用其他工具作为逻辑端,例如GPT+unity,GPT+Wolfram
Alpha。一方面是这些挂载目前都是自发行动的,后续有可能会出现标准规范的GPT引用方式,甚至可能大部分应用会以“本店支持GPT-3”做为荣誉标识。另一方面我还没看到更深层次、更触碰GPT底层逻辑的实践。现在的实践本质上和ifttt有点像,是两个应用的解耦式联合。是否能实现更深层次的呢?例如我们前面说的知识更新困难,有办法通过挂载一个小规模的实时知识库来实现吗?——不知道,等待玩家们的表现。技术潜力更通用说白了就是从Text-Text到Text-everything。GPT已经证明了在NLP领域的统治力,而图像、语音、视频等多模态,其实只需要Text-多模块的若干转译通路。我没有针对性地搜集信息,但至少Text-image的通路是现成、成熟的。Stable Diffusion中一个关键技术就是OpenAI所提供的CLIP(Contrastive Language-Image Pre-Training)。更便宜经过商业模式部分的分析,我们可以相信这个方向的应用潜力是巨大的。当应用可行时,配套的上下游产业链会快速出现,包括芯片、算法平台、专属云服务等等。不过前面就说了,上下游产业链不做分析,整个结果是不证自明的。我们只需要知道,按照逻辑推理,更便宜是100%会出现的就可以。更强大一方面的提升来自于多种GPT方向大模型的尝试落地。目前大厂们哪怕在短时间内会与OpenAI展开合作,但除了微软以外,应该都无法忍受上游关键技术握在其他人手里。因此可预见的GPT的最上游会出现复数玩家来一起尝试。另一方面的提升来自模型结构的改进,2023年学术界的关于这方面的paper肯定会爆炸的。唯一限制他们的就是学术界如何绕开大模型训练成本这一难关。应该会形成企业-学术这样的合作通道。最后一方面来自各种垂直方向的适配调优,前面在分析商业模式盘点场景的时候已经举了很多例子了。第三步_3 基于框架进行知识填充——限制篇在国内其实限制部分不用太快关注。毕竟我们现在是全面落后的状态,整体的趋势肯定是先追赶,再监管。反而海外因为OpenAI一枝独秀,对相关方面的限制其实已经初现波澜。下面大概展开说说:道德方面有害言论。训练数据质量+模型不可控性导致AI的回答像一个定时炸弹。目前的优化方式一方面是基于RLFH技术进行针对模型的道德训练,另一方面是在答案输入输出时加装敏感过滤器。教育危机有一些美国大学封禁ChatGPT之类的新闻,事实上这不是一个噱头。尽管模型的有很多缺点,但至少在社科人文类上表现还不错。这个情况有点像当初的“以图搜题”,后续可能会有政策要求对这方面进行限制。内容泛滥这个问题是在AI绘画领域、虚拟人领域都出现过的。抖音、小红书等平台,已经在限制基于AI绘画的账号。视频号之前也禁止完全虚拟人直播,只允许中之人类虚拟人直播(现在还限不限不清楚)。本质上这是每个内容社区都会做的事情,内容质量和内容数量之间,永远会倾向质量。但是对AI生成内容的检测,现在还没有太好的方法。anti-spam这个领域如果不成功,以后的信息搜集将让人绝望。感觉都可以看到营销号改名机器号的那一天。某平台账号限制说明技术代差/封锁技术代差在这方面我不是专家。但看大厂PR稿,全是乐观,看技术大神的言论,全是焦虑,我也看不懂了。我还是相信大神们多一些,但也对国内跟进速度抱有期待。毕竟上一轮AlphaGo浪潮所代表的落后,最后也迎头赶上了。技术封锁DDDD。政策、版权有一个法规:《互联网信息服务算法推荐管理规定》,我从里面找到了一些两句相关的话,贴给大家参考一下:“发现未作显著标识的算法生成合成信息的,应当作出显著标识后,方可继续传输”“不得生成合成虚假新闻信息”而版权方面目前没有相关消息出来,炒得最多的还是AI绘画领域,大家搜一搜就有新闻了,我就不多说。重点说说GPT的版权问题。先跟我看下面这张图:模型训练的语言分布,中文5%左右在ChatGPT的体验中,我们并没有太发现他有摘抄、洗稿的痕迹。是否有一种可能是,他的原始素材中,中文占比仅为5%?如果国内基于中文语料重新训练属于我们的GPT后,是否有导致AI直接抄袭语料中的答案,或者稍微洗稿后吐出?这个答案只能等待国内的GPT模型落地我们才能看到结论了。但如果基于这种猜测,中文高质量语料会变得炙手可热,比如知乎社区以及百度百科,另外人工标注训练也可能会迎来一波春天。第四步 推理出最终答案经过上面的知识填充,我们最终得到这样一张图:我们接下来就要基于我们上述所有收集到的知识进行判断。而我的判断结果也很简单,就是开篇那个——“我相信他能够成功落地,并且将是一个时代的开始”。当然,会附带一些小补充、小限制:小心旧技术市场,小心媒体词语的迷惑,关注技术的更新等等。是的,这一步就这么简单哈哈。事实上做决策最难的永远是信息收集,当拥有足够信息时,答案近在眼前——是的我说的就是拉普拉斯妖。我相信能看到这里的朋友,应该心中也有自己的那份判断了。思维导图在公众号后台私信回复“商业化导图”即可获取
编辑:好困 桃子【新智元导读】你是否羡慕钢铁侠里Tony Stark的AI助手「贾维斯」,上能开发方舟反应炉,下能处理家务琐事。其实,这里就有一位「二进制」员工能够实现跨界工作。在你摸鱼的瞬间,它分分钟搞定!钢铁侠里Tony Stark的AI助手「贾维斯」上能开发方舟反应炉,下能处理家务琐事。这要是能在工作的时候用上,岂不是得美滋滋的...问题不大!只要你敢想,就有人敢做。这位勇闯先锋的「人」就是——科大讯飞。就拿报销这件事来说吧,每一个「社畜」想必都被伤过。不仅手动填写费时费力,一不小心还很可能会出错。你看那空空如也的A4纸,像不像你贴过发票的那张?这时候,科大讯飞「贾维斯」——报账助手就登场了。什么OCR、NLP、语音识别技术全都拉满,不仅能同时识别多张票据,还能自动完成分类分割,让发票的信息提取能一键完成。一个词:舒坦。但这只是报账中的一个小栗子。日常工作中,我们会遇到很多工作量大、重复性高的任务,比如说表单录入、信息核对、票证制作等等。而现在,如下不同场景中都有了能协助「物理员工」的「数字员工」。那么,这些「数字员工」如何实现跨界工作?如何帮助「物理员工」提高效率?不会摸鱼的「二进制」员工「跨界」可不是每个人能够轻而易举做到的事。「数字员工」不仅能在办公、财务、招聘方面做的井井有条,还能在生产制造,营销服务上大展身手。在效率方面可是没得说,利用AI+RPA(机器人流程自动化)技术,在你摸鱼的瞬间,它分分钟就把工作搞定了!还是报销这件事儿,据统计,有了数字员工的协助,员工填报时长平均由15分钟提速至5分钟,效率提升66%。「数字员工」不仅支持填报,还能支持财务审核。「数字员工」利用RPA平台自动登录国税平台,通过AI图像识别技术对发票逐一验真,然后再根据核查结果与验真结果生成审核结果。结果也是显而易见的。通常来说,人工复核100张发票大约需要用5小时,而与「数字员工」进行协同则只需20分钟,效率提升高达15倍。没错,「数字员工」同样支持资金对账。逐笔对比收支凭证和银行流水明细的日子可以一去不复返了。财务部门的各位是不是很心动?除了财务,「数字员工」同样可以提高人力同事的幸福感。就以科大讯飞为例吧,集团每年校招都会收到10万多份简历,每一份简历都需要HR仔细阅读筛选并分配给合适的面试官。然而受疫情影响,现在校招初试大多为在线视频面试,HR与面试官、候选人需要多次沟通会议号、单独发送会议安排通知,且候选人需要下载新的应用程序。整个过程工作量大,效率不高。对于这点,「数字员工」可以批量提取简历亮点、智能匹配岗位,并根据业务需要分配给相关的面试官。此外,「数字员工」还会自动生成面试间、通知面试双方及跟进面试进度。一套操作下来,平均每份简历在流程管理上的用时可以至少节约10分钟;平均每次面试沟通时间可以节省15分钟。那么,以一个中大型企业为例,每年分配简历15万份,安排面试8万场,算下来可以节省人力15人/年。再说说办公时常见的合同审查/存档和文档翻译,对于「数字员工」来说全是小case。企业规模不断扩大,合同量也随之增长,与此同时法务人员的合同审查/存档工作量也越来越大。通常来说,人工审核10份合同就需要消耗3个小时。在引入「数字员工」之后,只要1.5小时就可以完成,效率直接翻倍。合同存档同样如此,「数字员工」通过OA系统批量下载合同,并自动提取合同关键信息要素并输出要素信息表,最终将表格信息自动录入到合同电子档案系统中。让原本需要3个小时的工作加快到30分钟。文档翻译就不用多讲,每个人日常最常见到的一个场景。每1万字,人工4小时,「数字员工」和「物理员工」协同只需要24分钟,效率提升9倍。除了前面提到道一些场景,「数字员工」还可以走进车间的生产中。在制定生产计划时,「数字员工」则可自动登录系统,下载排产计划所需的数据,并利用大数据技术再经由算法模型的计算后,输出生产计划并自动上传至APS系统中。如此一来,数据下载速度可以由原来的分钟级别提升到秒级别,而数据处理速度也会由小时级别提升到分钟级别。此外,在项目管理,营销服务等不同场景中,都可以让「数字员工」实现完美跨界。怎么样,这位007超长待机,不吃不喝不摸鱼还不会犯错的人类高质量同事,是不是也想来一个?007超长待机,轻松拥有众所周知,想要让AI落地,就得烧钱。科大讯飞表示,这事放着我来。于是「讯飞企业数字化平台」应运而生。简单来说,就是以AI、RPA、低代码等技术来提供智能化的流程设计、运行、管理等自动化服务,降低技术的使用门槛,从而让人人都能有「数字员工」当助理。科大讯飞副总裁于继栋表示,目前,企业绝大部分都是一个团队leader带着几个员工在辛勤工作,为每个部门去贡献力量。那么未来每个团队至少有一个leader,然后带领着很多人和数字员工一起去工作。这样能够带来更高的效率和更好的创新,共同促进企业的快速升级,这也是我们倡导的「人机耦合」的理念。那么,究竟又是什么让「数字员工」如此省钱又好用呢?此处可以@三个默默在背后支撑的技术平台:「PRA平台」、「AI中台」和「数据中台」。「RPA」全称Robotic Process Automation,即机器人流程自动化,可以代替人工完成许多「无脑搬砖」的活。说白了,这个RPA就是传说中能够让「数字员工」7x24小时不摸鱼的幕后推手。而且只要规则设置正确,不仅工作结果不会出错,而且还能保证100%按照预定的规则办事。此外,RPA工作期间的每一步都有监控记录,可以进行回溯,安全性妥妥的。而「AI中台」则是通过人工智能制造路径从数据采集、数据标注到AI模型训练,直至AI能力服务输出,提供相对应的一体化管理平台。依托AI中台可以实现集约化管理,同样的能力,只需一次采购,避免重复建设造成的资源浪费;而且采购之后即可集中管理,提高运营的质量和效率。此外,AI中台可利用自有数据,打造专属场景。通过利用业务应用数据对已有模型进行优化,同时还可以持续生产出新的模型,实现自给自足。打个比方,RPA就像人的手一样,只会执行,不会做太多思考。AI技术像大脑,会学习,会思考。当科大讯飞全球领先的AI能力赋能RPA技术,就打造了「手脑并用」的讯飞RPA。拥有了AI能力的讯飞RPA,便能够完成从基础智能到感知智能再到认知智能的升级,完成从辅助人工到释放人工最后到代替人工决策的自动化工作链路。最后,「数据中台」则用来实现不同业务系统的数据融通。通过利用全域数据的自由流动,实现对企业全貌的「状态感知、实时分析与智能决策」,从而化解复杂业务系统的不确定性,培育新的发展动能。目前在讯飞内部,数据中台已覆盖50+产品线,实现279个数据分析项目,管理超40PB的数据。讯飞为什么这么做?简之,天时地利人和。为什么是讯飞?首先,大势所趋,这是天时。国家第十四个五年规划和2023年远景目标纲要提出,加快数字化发展,建设数字中国。根据清华大学全球产业研究院发布的报告,人工智能已经成为企业数字化转型中应用最广的技术。企业的关注点也从单点的应用到提高全流程效率。其次,自身技术积累,这是地利。自1999年成立以来,科大讯飞已在语音识别和智能语音道路上坚持深耕了22年。以语音识别技术为核心打造的语音助手实现了单点技术的突破。科大讯飞副总裁于继栋表示,「讯飞第三方语音助手应用每日交互量已经超过了3.66亿次,6000多万日活。」而人工智能的快速发展,单点技术难以满足不同场景的应用,必须是一个复杂系统。就拿虚拟人来说,是以多模态技术为代表的复杂AI技术。可以看出,不论是语音助手,还是虚拟人,这都是数字员工的早期阶段。伴随着大数据和AI的深度学习,数字员工已经成为必然,融合了AI、数据和RPA的「数字员工」成为企业数字化转型的加速器。据IDC预测,到2024年,当前有45%占用人们精力需要完成的重复性工作,而这完全可以自动化所替代。此外,科大讯飞作为拥有国际领先源头技术的人工智能公司,多次在机器翻译、自然语言理解、图像识别、图像理解、知识图谱、知识发现、机器推理等各项国际评测中取得佳绩。目前已经拥有400+项开箱即用的AI通用能力,22年的行业落地经验。讯飞开放平台,更是聚集了200多万的AI开发者,构建丰富的AI生态,可以为企业提供更好的解决方案,这便是人和。伴随着大数据与AI技术的深入应用,科大讯飞「数字员工」成员也逐步增加,从以语音技术为核心的语音助手,到以多模态技术为核心的虚拟人,再到以AI+RPA技术为核心的更加成熟的数字员工。从单一场景,逐步深入到企业核心业务主流程,实现真正智能化的人机协同。可以看出,科大讯飞在人工智能的技术层面通过源头技术的突破和多技术的融合正在实现「系统性创新」,为技术创新应用提供了一个愈发强大的基础底座。未来,「数字员工」将会拥有更积极的自主学习意识和更强大的协同办公能力,成为企业转型的最优解。科大讯飞在AI领域的创新从未停下脚步。参考资料:https://mp.weixin.qq.com/s/mO1RywEwn7AZ7CsEPLjc9g

我要回帖

更多关于 奇妙逻辑冒险最后三关 的文章

 

随机推荐