八代g5400笔记本电脑脑,输入g出g5输入h出h6,反过来也是,只有这两个键是这种情况

1.6K129 条评论分享收藏感谢收起weixin.qq.com/r/fSjn-9rE7IeTrZ6c931v (二维码自动识别)赞同 8950 条评论分享收藏感谢收起270162 条评论分享收藏感谢收起赞同 8121 条评论分享收藏感谢收起679 条评论分享收藏感谢收起www3.lenovo.com在这个神奇的网站上我拍到过一个p51, i7-7820hq,16g内存,512GB SSD,m1200m专业图形显卡,游戏性能相当于960m,做设计则可以秒飞大多数游戏显卡,1100美金,连转运一共只花了8000块。而且这是纯正高贵血统的thinkpad。当然特别容易被砍单,必须要美国信用卡和美国的私人地址,这个只能求助那些海淘专业户了,买起来还是相当麻烦的。题主问小米适合设计吗,小米确实不适合,所以我回答不适合,并且解释了为什么不适合,也推荐了更适合的选项。这是一个十分简单的逻辑,我不认为有什么可以抬杠的地方。如果我有什么事实性错误,欢迎指出,但杠精我就不再奉陪了,不停的评论小米便宜,这跟问题和我的回答有任何关联吗,问题是能不能用,我本来回答的也是能不能用,就是因为评论里不停说题主穷我才出了点穷主意。还要继续说小米是最好的选择?首先你得能用才能讲便宜啊,chromebook更便宜,文曲星才几十块钱,计算器更是只要几块钱,你咋不去买来做设计啊?照这个只要便宜就行的想法,干嘛要去读这种烧钱专业,师范专业不光不收学费还倒给你钱啊,这么说学师范美术拿卡西欧作图才是王道?——这是预算0元搞设计最好的选择。更新一下,我这个回答只是单说了一个方面,既然已经这么多赞了还是稍微补充一些:色域只是屏幕好坏的一个方面,也别把他当成唯一标准,除此以外色准,色深,色温,对比度,亮度,伽马值也都是很重要的方面,如果有比较高的要求,这些方面也都是要注意的。顺带一提,小米笔记本的其他很多参数也类似色域,不同的评测相差十分巨大,比如色温,我看到有6700k的,还有7100k的,对比度有800:1也有1000:1的,估计这款屏幕的产品线比较佛系。。。说到这里,小米笔记本pro和我上面说的idealpad 720s都还是6bit色深,虽然也能凑合,但还是比8bit差很多,所以多唠叨一句:没穷到当裤衩还是别省这个钱了,rmbp已经算性价比最高的了,美术院校rmbp很多,找学长或同学收个二手也是种选择。以上。赞同 1.2K383 条评论分享收藏感谢收起&figure&&img src=&https://pic4.zhimg.com/v2-c428d3b3e5be24f62335b_b.jpg& data-rawwidth=&800& data-rawheight=&633& class=&origin_image zh-lightbox-thumb& width=&800& data-original=&https://pic4.zhimg.com/v2-c428d3b3e5be24f62335b_r.jpg&&&/figure&&blockquote&编译 | AI科技大本营(&a href=&http://link.zhihu.com/?target=https%3A//mp.weixin.qq.com/mp/profile_ext%3Faction%3Dhome%26__biz%3DMzI0ODcxODk5OA%3D%3D%26scene%3D124%23wechat_redirect& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&公众号ID:rgznai100&/a&)&br&参与 | reason_W&/blockquote&&p&上月,由 Michael I.Jordan 、Jeff Dean、李飞飞、LeCun 等多位人工智能领域的大牛发起的系统机器学习会议 SysML 在斯坦福开幕。&/p&&p&会上,机器学习宗师级大牛 Michael I.Jordan 就《系统与机器学习的前景与挑战》进行了主旨演讲。因为和 NBA 球星迈克尔·乔丹名字相近,他有着一个有趣的称号:“The Michael Jordan of Machine Learning”,&b&即机器学习界的迈克尔·乔丹&/b&。&/p&&p&为什么说他是机器学习宗师级大牛?要知道,在这一领域的重要学者如吴恩达,Zoubin Ghahramani, Tommi Jaakkola, Lawrence Saul 和 David Blei 都是他的学生。他现在担任加州大学伯克利分校电机工程与计算机系和统计学系教授。&/p&&p&Michael I.Jordan的重要贡献则包括&b&指出了机器学习与统计学之间的联系,并推动机器学习界广泛认识到贝叶斯网络的重要性。他还以近似推断变分方法的形式化、最大期望算法在机器学习的普及方面的工作而知名&/b&。&/p&&p&此次演讲中,&b&从一开始他就现在所谓的“AI”进行了抨击&/b&。他认为,现在媒体上热炒的“AI”概念言过其实,很多人都是为了借此向 VC、媒体以及大众兜售概念。至于真正的 AI,“&b&我们根本还没有实现&/b&”。也有相当一部分研究者陷入了深度学习的泥潭,思维变得更加狭窄。&/p&&p&他回顾了机器学习领域的现状,以及今后发展面临的挑战。虽然机器学习理论目前的发展达到了一定高度,&b&但他很讨厌人们现在突然将它称为 AI,因为那仍然还只是机器学习。他认为真正 AI 的实现,需要依靠逻辑、推理、决策等运算的突破才能实现,但现在它们之间还存在明显脱节&/b&。&/p&&p&一些经典 AI 领域,如计算机视觉、NLP 等还远未达到智能和实用的地步,有赖进一步研究和努力。与此同时,传统的社交平台,如 Facebook,还远没有真正地将人们连接起来。医疗、金融、音乐、餐饮等众多系统平台仍存在巨大的想象空间,要做到这些,需要研究者们跳出传统视角。&/p&&p&&b&本文为 Michael I.Jordan 在大会上的演讲实录(有删节),人工智能头条整理。&/b&&/p&&p&&br&&/p&&figure&&img src=&https://pic3.zhimg.com/v2-e28e1741bfbeac6cf9660ce_b.jpg& data-caption=&& data-size=&normal& data-rawwidth=&1080& data-rawheight=&588& class=&origin_image zh-lightbox-thumb& width=&1080& data-original=&https://pic3.zhimg.com/v2-e28e1741bfbeac6cf9660ce_r.jpg&&&/figure&&h2&&b&▌&/b& &b&我们还没有实现真正的 AI&/b&&/h2&&p&你们知道,我之前从 MIT(麻省理工)离职去了 UC 伯克利。这其实是因为 MIT 没有任何跟统计相关的专业,并且直到现在也还不算有,而我认为统计学对计算机科学至关重要。虽然今天计算机科学的发展已经十分激动人心,但它依然还没有解决推理性的问题,在计算机和推理之间有一个脱节,所以我才要跳槽去研究概率和统计。&/p&&p&很多人说我这些做法是在从统计视角在研究 AI,这种看法欠妥,我只是在研究机器学习。AI 是一个非常宽泛的概念,它几乎涉及到所有层面的计算机科学。它的每一部分都应该涉及到数据流,并且应该基于这些数据自适应地进化。这里面全是计算机科学,但直到今天,这一看法也还没有在计算机系得到很多认同,他们仍然认为统计是 AI 的一部分。&/p&&p&我已经疲于应对这些争论了。&/p&&p&今天,我们到处都可以看到“AI”这一字眼,媒体上铺天盖地。这让我感到非常不安,因为那些说法太言过其实了。我们没有实现人工智能,没有实现智能,甚至连它们是什么都不知道。我们说现在的系统都涉及到数据的输入输出,它们其实是在模仿一些很聪明的东西,但也仅仅是模仿,根本称不上是智能,我们并没有实现它。&/p&&p&今天,很多人乐衷于使用“AI”这个流行词。但这只不过是他们借此向 VC(风险投资)、企业、媒体以及大众兜售一些他们自己的概念。至于真正的 AI,我们根本还没有实现。我现在虽然不再跳出来争论这些话的对错,但依然会在内心时时刻刻提醒自己:我们还并没有实现所谓的 AI。&/p&&p&现在,我非常高兴我们有了一个这样的社区,我们当前真正需要的正是建设性的努力,那必须保持严肃和清醒。并不是所有的炒作都是在为了在 AI 淘金热中大赚一笔,他们或许也是为了能够真正实现 AI,让这个世界变得越来越美好,让 AI 更加稳定,更加真实,足够支撑建立一个全新科学领域所需的概念。&/p&&p&这就像有人喜欢土木工程、喜欢化工工程师一样,我也非常尊敬他们在所在领域做出的实实在在的努力。他们研究出的东西切实改变了每个人的生活,而这也正是 AI 领域所需要的和依然欠缺的。&/p&&h2&&b&▌机器学习领域的现状&/b&&/h2&&p&&br&&/p&&figure&&img src=&https://pic3.zhimg.com/v2-b4fba854a5aa2eb2df4ae6_b.jpg& data-caption=&& data-size=&normal& data-rawwidth=&921& data-rawheight=&661& class=&origin_image zh-lightbox-thumb& width=&921& data-original=&https://pic3.zhimg.com/v2-b4fba854a5aa2eb2df4ae6_r.jpg&&&/figure&&p&&br&&/p&&p&机器学习理论已经发展到了目前我们所看到的高度,&b&我在二十年前我就已经预见到它的发展会是这样:数据将无处不在,用机器学习进行决策和商业建模将成为我们的习惯。但我很讨厌人们现在突然将它称为 AI,虽然最近有一些新的想法出现,但那仍然还只是机器学习&/b&。我不和他们争论,并不代表认可他们的说法。相反,我会更加坚持自己的追求。&/p&&p&这世上并没有魔法,机器学习只是将它的输入输出映射到它对一些处理机制的模仿之上了,虽然这看起来很神奇,但其实依然还有很多真正的问题——比如从广义上来说,很多层面上的系统问题——都还没有得到解决。&/p&&p&&b&机器学习也还远远没有发展到足以成为一个可靠的工程原则&/b&,可以针对现代数据分析问题得到鲁棒的、可扩展的解决方案。有很多涉及到不确定性、推理、决策、鲁棒性和规模化的问题都还没有得到解决。更不要说经济学系统了,因为我们甚至对建立系统时的定价和激励行为也还没有足够的思考。社会法律系统也是如此。&/p&&p&我以为每个人都会或多或少意识到这一点,但没想到等待他们意识到这一点需要的时间却长得不可思议。&/p&&p&扎克伯格在一年前的演讲中曾谈到他创建 Facebook 时的经历,“我什么都不知道,在这一过程中也并没有扮演任何角色。我们只是搭建了一个平台,而关于如何使用它甚至都没有规定。但后来让我感到震惊的是,人们并没有很好地使用它”。&/p&&p&我们不仅要时刻注意人们有没有用这个平台来做坏事——比如虚假新闻,还要让人们可以通过这个平台得到正确结果,否则每天都会有数十万人因此做出错误的医疗决定、糟糕的交通状况或者财务决策。到目前为止,我们甚至都还没有在解决这些问题上取得一点进步。我们的反应就好像在说我们本来就是如此。&/p&&p&对我来说,系统机器学习瞄准的目标太低了。这个社区中的很多人炒作深度学习太过头了,我们已经有了反向传播(Backpropagation)这个伟大的学习机器;我们要让它可以更好、更快、更容易实现,所有这些都会很快实现;公司也会成立,经济也会向前发展。但这样做的目标定得太低了,这仅仅是一个非参数回归问题,甚至都谈不上“是”。所以我希望作为一个社区,我们可以有更高的目标,我们不能仅仅努力让反向传播更容易。&/p&&h2&&b&▌&/b& &b&“AI” = IA + II&/b&&/h2&&p&下面我来谈一下为什么我说在人们的脑海里计算机和推理没有连接起来。&/p&&p&&br&&/p&&figure&&img src=&https://pic3.zhimg.com/v2-7f5f606480bcddb9b4be_b.jpg& data-caption=&& data-size=&normal& data-rawwidth=&957& data-rawheight=&694& class=&origin_image zh-lightbox-thumb& width=&957& data-original=&https://pic3.zhimg.com/v2-7f5f606480bcddb9b4be_r.jpg&&&/figure&&p&其实在我一开始接触这个领域的时候,我当时学习了一些关于 AI 的东西,但我没有真正研究过。那时候有很多研究 AI 的观点,比如通过广度优先搜索来寻找一个明星,这也是约翰·麦卡锡(John McCarthy)真正在 MIT 在做的研究。(注:约翰麦卡锡,人工智能领域的开山鼻祖之一,他曾发起和参与 AI 历史上著名的达特茅斯会议,后来前往斯坦福并组建了斯坦福人工智能实验室。)&/p&&p&我要说的这个故事和你们往常听的有点不同:人工智能这个概念并不是 Minsky、McCarthy、Newell 他们那些人坐在一起开了个会就讨论出来的。&/p&&p&麦卡锡刚到 MIT 的时候就说过他会研究智能(Intelligence)和计算领域。他们说那并不是控制论,控制论已经有维纳在做了,麦卡锡解释了这两个领域的区别。真正让人们意识到 AI 是一个新领域的是,这个领域更多的是基于逻辑而不是控制理论和信号优化,所以他必须给它一个新的名字,所以他发明了“Artificial Intelligence”这个词。我觉得这个故事更加真实。&/p&&p&&b&然而,历史的奇异转折之处在于现在研究 AI 的所有想法都在维纳那一边,都是关于优化统计的,并且没有逻辑,但现在大家用的“AI”这个词却依然还是麦卡锡发明的那个词。&/b&&/p&&p&无论如何,AI 依然是一个伟大的愿景。这是一个在思考应该如何将计算实体与软硬件结合到一起,并构建能够捕捉智能的东西的哲学问题,这很有意思。&/p&&p&我认为这仍然还只是一个学术领域的愿景,并不认为它有必要或者已经足够用于促进社会进步或工业发展。我并不相信我们能够建立通用智能,并且它可以解决世界上所有问题的说法。那只是愚蠢的科幻小说里的东西,并且是既不必要也不足够的。我们需要把思想从一些真实问题中解放出来。有很多有钱的名人说我们要建立一个通用人工智能,然后就可以解决世界上的问题,比如癌症。我并不想谈论这些东西,但人们总是这样在说。&/p&&figure&&img src=&https://pic3.zhimg.com/v2-e1f6faaedb6_b.jpg& data-caption=&& data-size=&normal& data-rawwidth=&975& data-rawheight=&702& class=&origin_image zh-lightbox-thumb& width=&975& data-original=&https://pic3.zhimg.com/v2-e1f6faaedb6_r.jpg&&&/figure&&p&不管如何,现在有个有趣的观点,我们并不是要让所有的事情都变好。与此同时,真正发生的事实也并不是 AI 取得了巨大的成功,而是“IA”(Intelligence Augmentation)取得的巨大成就。&/p&&p&搜索引擎就是这其中的一个代表,它是一个机器学习系统,不停地获取数据并随时间进行改善以做出更好的决策。 像其他很多实际工程系统一样,那是一个涉及到很多东西的机器学习算法,但那也意味着很多智能。比如我不必记住白俄罗斯的首都,但是当我在网上搜索一下就可以马上知道。我看起来非常聪明,因为我无所不知。&/p&&p&我也可以在这里说英语,然后通过安装同传系统让你们听到汉语。看起来似乎我可以说很多门语言,但其实我并不会说汉语,这是因为电脑增强了我的智能。很多这种用深度学习实现的东西,我认为它们很有趣,但是——比如你见得很多的风格转换,人们输进去一张图片,然后它会被转换成另一张很酷的图片,看起来像梵高的画一样,那作为一个玩具会非常有趣。但它真正做的是增强了人们的创造力。&/p&&p&它是一种“增强” ,并不是人们说的智能。但那已经很有趣了,你甚至可以用它来创作音乐,但直接用它写交响乐就很傻了,谁会在乎一台电脑会不会写交响乐呢,无论那意味着什么。但它却可以为下一个贝多芬或者杰出艺术家的诞生提供一个自由创作的环境,那才是真正令人激动的,那就是 IA。&/p&&p&&br&&/p&&figure&&img src=&https://pic2.zhimg.com/v2-f0ffd17bfcdeec15cb796cf_b.jpg& data-caption=&& data-size=&normal& data-rawwidth=&952& data-rawheight=&702& class=&origin_image zh-lightbox-thumb& width=&952& data-original=&https://pic2.zhimg.com/v2-f0ffd17bfcdeec15cb796cf_r.jpg&&&/figure&&p&还有一些更为重要的东西,我将其称之为“II”,即“Intelligent Infrastructure”。在我们身边发生的事正越来越多的体现着这个世界对我们的了解。&/p&&p&世界正在被连接起来,比如我只要动动手机,就可以在几秒钟之内约到一辆汽车,它可以带我到达目的地。这个世界正在通过网络变得越来越智能——只要你在一个大的复杂系统上加上数据,加上人类,那就是物联网。那是一个万亿美元的经济市场,并且正在改变人类的生活,改变你对于医疗、金融和日常生活的想象。所有这些都是非常巨大的改变,并且在过去的几十年确确实实发生了。&/p&&p&这让我想起了亚马逊——他们是第一家认真做这件事的公司,并且是在 90 年代,远在我们炒作这个概念之前。现在有很多公司正在建设物流预测以及欺诈系统,还有推荐系统,这些都是非常棒的事情,但那都是机器学习,不是我所谓的 AI,真正的 AI 将比我们现在看到的更为激动人心。&/p&&figure&&img src=&https://pic1.zhimg.com/v2-cec5e05a87b5d460c1caad65abc46cd4_b.jpg& data-caption=&& data-size=&normal& data-rawwidth=&533& data-rawheight=&246& class=&origin_image zh-lightbox-thumb& width=&533& data-original=&https://pic1.zhimg.com/v2-cec5e05a87b5d460c1caad65abc46cd4_r.jpg&&&/figure&&p&&br&&/p&&p&我认为在这里有一个脱节。如果你以这种经典的方式研究 AI ,你或许会对视觉、语音、自然语言处理还有机器人感兴趣,因为你是对这种具体的智能体感兴趣,它们会像我们一样做出智能的行动。你想到的所有东西都是和具体智能体有关,所以你可以根据场景开发算法,并且将它们转变成目标、标签或者语音。那都是很棒的,但那并不能解决我们在建立一个真实世界系统时所遇到的真实问题的十分之一。那只是“IA”或者“II”,而且人们的注意力会被视觉或语音方面的问题所分散。&/p&&h2&&b&▌未曾解决的经典 AI 问题&/b&&/h2&&figure&&img src=&https://pic3.zhimg.com/v2-cdc812e56e2d7ceda827706_b.jpg& data-caption=&& data-size=&normal& data-rawwidth=&979& data-rawheight=&684& class=&origin_image zh-lightbox-thumb& width=&979& data-original=&https://pic3.zhimg.com/v2-cdc812e56e2d7ceda827706_r.jpg&&&/figure&&p&虽然有些经典的 AI 问题看起来已经快要解决了,但我要说,我认为我们实际上还远没有解决这些经典的 AI 问题。&/p&&p&在计算机视觉中,我们可以比之前更好的标注目标和场景,但它们并不是真实场景,那只不过是从互联网上获取的包含目标的图片。如果你使用相同的训练集进行测试,正确率可以达到 90%,但是在真实的世界中那可能只有 20%。因此,我们只不过是对场景中的对象进行了标注,并没有真正解决这个问题。而关于场景的意义是什么?场景中正在发生什么事?接下来会发生什么?我们甚至都还不知道。所以人们说计算机视觉技术得到的一些东西非常荒谬。&/p&&p&语音领域和语义领域也是一样。总的来说,我们生活在一个依靠听觉的声音世界中,但在闭上眼睛之后,我们还远不能单纯靠听声音来了解周围世界。因为没有语义信息,甚至都没法开始自然语言处理。&/p&&p&翻译并不是输进去一种语言的字符串,然后得到另一种你之前已经见过很多次的语言的字符串就可以了。我说法语很流畅,你用英语和我交流,我也能理解你说话的意思,我会将你话里的概念转换成法语词汇,而不是将英语字符串映射为正确的法语字符串。你甚至还可以再通过努力让它的正确率达到 90%,但那依然是无效的。&/p&&p&视觉技术可以通过有监督标记和一些无监督标记技术来应用,而自然语言就不行。如果不相信,你可以试着读一下道格拉斯·霍夫施塔特(Douglas Hofstadter)前几天在美国《大西洋月刊》上的一篇文章。他通过英语、法语、德语和中文四种语言翻译的比对论证得出一个结果:&b&谷歌翻译即使应用了人工智能技术也没有真正理解语言&/b&。&/p&&p&&b&语言真的是人类的智慧,包含了对这个世界各种事物的讽刺、隐喻、引用和参考。只有我们真的了解这个世界才能搞明白语义,它需要理解人类的社会行为、概念行为,而这些并不能通过标签数据和很多字符串来实现&/b&。&/p&&p&让我们继续回到主题上。刚刚我们讨论的是翻译,现在说一下对话。&/p&&p&&b&对话并不只是一个可以和你不停对话的聊天机器人&/b&,虽然那听起来比较有趣。&b&它实际上是试图实现一个目标,比如我想订一个飞往巴黎的航班,这中间涉及到我自己的各种复杂偏好,然后最终可以把我带到那里&/b&。所以我们必须有一个对话逐渐地将我这个意愿通过机器人落实到真实世界的实际行动上,但我们离这一步还很远。&/p&&p&谈到机器人技术,你知道它有很多进步。但我仍然十分怀疑,&b&目前工业界的机器人只能在非常有限的环境中工作&/b&。我们虽然已经可以让机器人和人类进行互动,但我并不认为它在我们的生活环境中工作会没有问题。&/p&&h2&&b&▌机器学习近期的挑战&/b&&/h2&&figure&&img src=&https://pic3.zhimg.com/v2-3a961a3117bf84bffdc0a_b.jpg& data-caption=&& data-size=&normal& data-rawwidth=&969& data-rawheight=&719& class=&origin_image zh-lightbox-thumb& width=&969& data-original=&https://pic3.zhimg.com/v2-3a961a3117bf84bffdc0a_r.jpg&&&/figure&&p&现在让我们接着谈论技术。如果你是一个系统机器学习研究人员,并且认为自己的生活将支持深度学习方式——我也认为这非常有用——但这里还有一大堆其它的甚至称不上是 AI 的东西。&/p&&p&&b&多重决策(Multiple Decisions)&/b&,统计学家一直在讨论这个话题,但机器学习领域的人却几乎不谈论这个。你可以构造一个神经网络,它需要输入一些图片或者搜索引擎营销信息(SEM),甚至一些数据的历史信息来进行决策。它会对不同环境中的不同人员使用相同的神经网络做出成百上千次决策,那完全是个灾难。&/p&&p&这些决策有可能是完全错误的。比如碰巧在下雨天你要乘坐某个交通工具,每个人可能最后都会乘坐同样的交通工具,到达相同的街道,这势必会造成拥挤。相关决策波动会导致最终结果的变化,即使那不满足独立同分布假设。&/p&&p&&b&我们现在的系统仍然是假设我们处在一种理想世界中&/b&,所以总会有错误发现率存在(注:错误发现率 FDR( False Discovery Rate)是指错误拒绝(拒绝真的(原)假设)的个数占所有被拒绝原假设个数比例的期望值)。系统应该支持可以有错误发现率,而不仅仅是支持神经网络中的逻辑回归、决策树。 如果你的系统不支持,我就不会在我的公司用它。&/p&&p&&b&要有一个这样能够创造市场的系统,我认为需要考虑大量的因素。所以我们会将经济学引入我们的系统,我们需要拥有消费者和生产者双向的连接,而不是仅仅建立一个可以让人们上传数据并从中获取答案的平台,而不建立一个实际系统。&/b&&/p&&p&在今天,不确定性依然存在。&b&我们在统计学中谈论的 Bootstrap、贝叶斯理论、Jackknife(刀切法)以及其他原则都还没有在计算机科学系统内部建立&/b&。&/p&&p&它们只是输入输出,给出一条 ROC 曲线就好像已经完成了其实本没有完成的工作。所以要如何将智力结合到其中呢?要怎样解决他们两者之间不连贯的事实?这是非常关键的问题,我们必须解决这一点,并且必须假设这些问题可以通过计算机科学进行处理。&/p&&p&谈到抽象,人类其实非常善于发现抽象。举个例子,比如我可以发明一个新词汇“Blecch”,然后说一些关于“Blecch”的事情,你就可以知道和它有关的各种各样的事。你可以通过抽象进行推理,事实上也正是因为我们可以创建抽象概念,计算机科学才可以发展的这么好。&/p&&p&我的儿子非常擅长发现类比、隐喻以及那些有趣的东西,这些都会在他的大脑中形成一个新的抽象。但神经网络和那个差的太远了,神经网络必须要先看到大量的数据,最终才能发现一个新特征,或者如果有人非要称其为抽象也可以。&/p&&p&&b&数据溯源(Provenance)&/b&,这非常重要。实际上我对数据科学非常感兴趣。在医疗系统中,有很多误报(假阳性)导致很多死亡的案例。在我儿子出生的时候,有一些错误的成像结果,那是一个误报。如果我们相信了那条决策路线,就可能会走一个非常危险的程序,甚至杀死胎儿。我认为那也可能发生在你身上,我计算的结果是在过去的几年中,由于误报,每天大概有 20 个胎儿会被杀死。&/p&&p&&b&误报和不好的统计数据无关,而是与错误的报告结果有关。&/b&在某种情况下进行计算的数据,实际上在相同情形下用于新的成像机器时是不准确的。那听起来是一个讨厌的数据库问题。但就是那个东西让模型有时难以发挥作用。&/p&&p&关于长期目标,人类非常善于追求长期目标,比如选择职业、买房。而我们的机器却并不具备实现长期目标的能力。不要跟我说强化学习,那也没有长期目标。&/p&&p&实时性能这一目标,我想那些设计自动驾驶汽车的人应该认识到了它的重要性,而其他人还没有意识到这正是我们要考虑的关键部分。这也不是传统 AI 的一部分。&/p&&p&如果你是一个真正有雄心的系统人员,这些都会是亟待解决的重大问题,并且大多还是很少受到关注或者正在受关注但还需要一段时间才能解决的问题。&/p&&h2&&b&▌机器学习与市场的创造性&/b&&/h2&&p&我的一些观点是基于我的研究和在公司的经历形成的。今天我将向大家分享两个观点。&/p&&figure&&img src=&https://pic3.zhimg.com/v2-7cf20d71832_b.jpg& data-caption=&& data-size=&normal& data-rawwidth=&518& data-rawheight=&179& class=&origin_image zh-lightbox-thumb& width=&518& data-original=&https://pic3.zhimg.com/v2-7cf20d71832_r.jpg&&&/figure&&p&就我实际所做的工作而言,我只是一个理论研究者,所以关于这些神经网络发展的良好势头,我都乐于看着它们发生,但当我看到所有人都在扎堆朝着一个方向前进时,我就会寻找其它方向。我现在做的所有工作都是在证明收敛率和随机性的定理,你要是看过我的主页就会知道我这些天有多兴奋,但我形成这些观点却是基于在公司的(实践)经历而不是通过证明它们。&/p&&p&United Masters 公司是一个美国音乐人服务平台,它在 2017 年 11 月宣布成立。现在音乐人非常多,创作的音乐也非常多,但除了少数几个掌握权力的人之外,大多数音乐人的第一笔订单并不会赚钱,音乐创作实际上没有得到报酬。&/p&&p&发生这种状况的原因有很多,比如我们处在一个并不景气的市场,而如果连接生产者和消费者的经济的话,就会产生很多价值。它不像之前的唱片公司一样,在生产者和消费者之间有中介存在,那在这种模式下不会有效。所以你必须做些别的什么,就像 Uber 那样,或者其他你看到的真实的机会。&/p&&p&United Masters 已经和 Spotify 跟 Youtube 等公司建立了合作关系,并且获得了所有数据。他们会了解任何艺术家,不仅仅有碧昂丝那样的世界级歌手,还有成百上千个不太出名的艺术家,然后了解有哪些用户在听他们的音乐。他们提供给艺术家展示的机会:我知道我不是非常出名,但我知道佛罗里达州有一万人喜欢定期收听我。&/p&&p&这种口碑就意味着如果我去那里举办一场音乐会,我就可以赚两万五千美元。一年我可以做三到四次,那就是十万美元的薪水。我不必再做一个出租车司机,然后每周只有周末才有时间创作音乐。我实际上可以成为一个真正活跃的全职音乐家,很多人都可以这样。这就可以创造一个市场,你知道谁在听你的音乐,然后你就可以做得更多。&/p&&p&这实际上就是在生产者和消费者之间建立了连接。有了这种连接,一旦数据流通过,商品买卖就可以更流畅。所以艺术家可以说你只要付两万美元我就可以在你婚礼上表演,或者你是我的一个超级粉丝,你想来后台...所有这些商品的形式都可能出现,而公司实际上就提供了这种可以赚钱的方式。他们提供这些平台当然也应该得到一些钱,当然那到不了像一个标准代理人一样可以获取百分之五十的费用,不过百分之十也差不多,所以你知道你的音乐大师梦真的有希望了。&/p&&p&这家公司的 CEO 是 Steve Stoute,他是个了不起的人,也是我曾见过的最聪明的人之一。他曾在索尼旗下的唱片公司工作,后来创建了 Translation 广告公司,并且完成了很多实际的东西。他了解很多音乐人,Steve 的经历以及他的音乐背景,让他刚好处于一个可以将音乐、技术和人联系在一起的位置。我认为我们的社区可以参与这种活动是非常令人激动的,而 Steve 就刚好给出了这把钥匙。&/p&&p&去年我曾请他做一个开场演讲。那场演讲的主题是关于 Hip-hop ,自我赋权和解放,创造力以及这些该如何和数据科学联系起来。&/p&&h2&&b&▌机器学习与数据共享&/b&&/h2&&p&现在还有一个数据共享的问题。&/p&&p&所有这些都还只是想法,如果我有时间的话就会进行实验,所有这些都是想法的实验。这些都只是我的一些研究建议,我的团队可能会做的。我们这些时间主要是证明定理,但这里还有一个数据共享的想法实验。&/p&&figure&&img src=&https://pic2.zhimg.com/v2-ebb9df7e2ed62405a4bccd_b.jpg& data-caption=&& data-size=&normal& data-rawwidth=&505& data-rawheight=&316& class=&origin_image zh-lightbox-thumb& width=&505& data-original=&https://pic2.zhimg.com/v2-ebb9df7e2ed62405a4bccd_r.jpg&&&/figure&&p&&b&数据共享不是“AI”的问题&/b&,但却是现实世界的“II”问题。很多公司都有数据,如果可以将它们放到一起,那将对他们有用,但这通常不被允许。法律上不允许出于很多原因,比如,在某天一个公司可能会遭受入侵或欺诈攻击,但这可能同时发生在所有公司,也可能只针对特定的公司。&/p&&p&如果将每个人的数据都汇总起来,你就可以构建世界上最好的分类器,并且可以让系统受欺诈的程度保持的相当低,但人们不会那样做。为什么呢?很多原因。&b&你要怎样激励他们开始分享数据?&/b&你把你的数据发送给我,是因为我是个值得信赖的中心人员,我会通过密码机制或其他方式保护你的数据。&/p&&p&我会获取你的数据,然后构建一个完美的分类器,然后再把它们送回去。我不会和任何人分享你的数据。但那并不是很有趣,因为可能我收到的数据中有欺诈数据。对公司来说,如果他们把真实的数据放到系统中,别人会得到比他们更多的优势,所以他们不会发送高质量的数据,他们不傻。&/p&&p&那他们应该发送的数据质量要多高?系统应该有什么激励机制来让他们衡量要发送数据的质量?这还涉及到隐私问题,他们的律师就会一直强调不要发送数据。所以这里从机器学习的视角来说,有一种方式就是你让每个公司自己决定要发送的数据质量或者隐私,或者其它想要对数据进行的操作。比如,他们要把噪声加到数据中,然后才会放心地把数据交出来。他们对这样有些差异化的私人系统会感到满意。&/p&&p&现在数据到了我这里,我会用所有这些数据构建一个分类器,然后看这个分类器在测试集中的表现如何。之后我要做的是留出一个公司的数据,然后用其他公司的数据做训练集得到一个分类器,然后看分类器效果多好。然后对比留出不同公司数据后得到的分类器。如果在某个公司数据是训练集时,得到的分类器效果最好,就说明这个公司提供的数据是好的。&/p&&p&我可以仅仅通过在经典 Handout 方法中的一个损失函数量化数据的好坏。我现在要为每个公司做的是每次留出它们一个,然后就知道他们发给我的数据有多好,他们觉得要给我发多好的数据,以及数据差异有多大。并且一旦我知道了这些,我就可以进行评估,现在我做的是世界上最好的分类器。但我会把模型或者预测结果,根据它们发给我的数据质量返还给他们。&/p&&p&这也可以说是经济学,我设定了一个博弈,有一些激励的概念,并且可能存在纳什均衡,而不是说谁都不发高质量的数据。但这个提议或许会是一个研究,可能不会有结果。&/p&&p&总之,如果很多事情你能摆脱传统的思考角度,那么这个社区将有很多路可以走。我不认为只靠深度学习的那群人可以实现那个目标。&/p&&p&完整视频地址:&a href=&http://link.zhihu.com/?target=https%3A//www.youtube.com/watch%3Fv%3D4inIBmY8dQI& class=& external& target=&_blank& rel=&nofollow noreferrer&&&span class=&invisible&&https://www.&/span&&span class=&visible&&youtube.com/watch?&/span&&span class=&invisible&&v=4inIBmY8dQI&/span&&span class=&ellipsis&&&/span&&/a&&/p&&p&&/p&
编译 | AI科技大本营() 参与 | reason_W上月,由 Michael I.Jordan 、Jeff Dean、李飞飞、LeCun 等多位人工智能领域的大牛发起的系统机器学习会议 SysML 在斯坦福开幕。会上,机器学习宗师级大牛 Michael I.Jordan 就《系统与机器学习…
&p&谢邀。&/p&&p&这个问题问得好,由工作性质决定,数据科学家的职业发展途径注定是一条漫长而艰辛的道路。但当你站在金字塔顶端俯身回首时,会庆幸自己坚持至今。&b&因为无论是你的专业技能,思维方式,沟通技巧,执行力,甚至薪资,与曾经比都不是一个level的。&/b&&/p&&p&无论哪个行业,每时每刻都会有庞大的数据产生并储存下来,这些数据蕴藏着大量的信息和财富,急需专业人士处理分析。特别是人工智能和金融科技兴起后,数据科学更是作为一切的根基。因此数据科学被「哈佛商业评论」评为21世纪最有潜力的学科。然而数据分析的人才需求每年都在增长,而高校毕业生远远无法符合行业的需求,&b&尤其是真正有实力,有眼光的数据科学家更是凤毛麟角,是各个企业争相聘用的人才。&/b&&/p&&p&如果说,数据工程师(Data Engineer)负责整理数据,减少存储成本,方便其他部门调用;数据分析师(Data Analyst)偏重于数据清洗,挖掘,可视化,与商业运用相结合,最后形成切实可行的商业方案。那么数据科学家(Data Scientist)需要具备以上的所有能力,&b&他们不仅仅会coding,还要有周密的产品思维,灵敏的商业嗅觉,深厚的数理功底,过人的沟通技巧,业务和技术两把抓&/b&。可谓上得了厅堂,下得了厨房,打得了小三,斗得过流氓。&/p&&p&正因稀缺而有价值,数据科学家的薪资是数据行业中最高的,江浙沪地区基本年薪50万打底;但同时也是最漫长的,成为一个真正意义上的数据科学家,往往需要5到10年的时间,没错,少于5年工作经验是没有资格担任数据科学家的。&/p&&p&那么如何成为数据科学家呢?有两条路可走,让优达菌为你解读。&/p&&hr&&h2&&b&第一条:转行&/b&&/h2&&p&&b&适用对象:&/b&&/p&&ol&&li&&b&具备扎实的coding功底及数理基础的技术人才,如资深软件工程师/算法工程师。&/b&他们日常从事的工作很大一部分与数据科学重叠,选择技术,制定框架,编写好用的新包,为开源的发展做贡献。长期的读代码,编代码,解决高管及甲方的问题,让他们积累了大量实战经验,能够灵活分析复杂问题及使用各种工具。他们转行后遇到技术上的困难较少,更多是对市场需求的嗅觉不足,也就是业务思维的欠缺,这会导致他们短期内无法接触到业务的核心和前沿。&/li&&li&&b&对商业有深度理解,目光敏锐,沟通能力强的商业人才,如咨询师。&/b&他们在IT界早已身经百战,时刻从商业模式的链条去分析问题,深入了解用户,知道什么样的产品深得人心,怎么和客户沟通交流,有极高的情商和专业素养。他们转行后需要弥补技术的空白,加上自身出色的业务能力和沟通能力,组建一个团队并与优秀的工程师合作,往往能为公司攻克发展中急需解决的问题。&/li&&/ol&&hr&&h2&&b&第二条:从数据分析的基层岗位做起,慢慢求发展&/b&&/h2&&p&&b&适用对象:技术不过关,项目经验少,业务思维欠缺的小白。&/b&你可以先从事以下工作,为数据科学家之路铺砖:&/p&&h2&&b&1. 数据分析师 &/b&&/h2&&p&&b&简单说就是为各行各业(甲方)进行数据服务。&/b&拿到数据后,按照固定流程,使用R或python等编程语言进行数据清洗,再从数据中找出能驱动解决实际问题的市场痛点,最后用Tableau等可视化软件展现给客户或高层领导。在这个过程中,你需要进行角色互换,从用户的角度思考问题的关键点,与研发部门和产品部门沟通,将整体分析方向控制在切实可行的范围内。如:这项产品的受众是哪些群体?该在哪里投放广告?喜欢这个产品的客户,还要推荐给他什么?&/p&&p&其中,最重要的原则是落地,不落地意味着你所有的工作都是纸上谈兵,makes no sense。有的公司会忽悠股东弄出假大空的目标来,其实短期内根本实现不了。&/p&&p&你将会积累以下技能:&/p&&ul&&li&统计学基础(假设检验等)&/li&&li&利用R或python进行数据清洗&/li&&li&可视化技能(Tableau)&/li&&li&基本的产品思维,商业思维和沟通能力&/li&&/ul&&h2&2. 数据工程师&/h2&&p&由于公司中的部门太多,数据往往特别脏,各种格式都有,也不方便跨部门调用,因此演变出数据工程师这个职业。&b&数据工程师的最终目的就是实现数据管理,将数据整理成标准格式,降低存储成本,优化查询效率。&/b&具体从收集和架构两大方面出发,一方面通过写数据传输包,设计聚合过程,优化存储,来构建和维护数据传输和存储的基础设施,另一方面将原始数据,转化为数据分析师可以制作报表的标准格式化数据。至于数据怎么用,就不是他们关心的了。&/p&&p&举个例子,某宝每天都有海量的用户在浏览,搜索,收藏产品,这就需要有工程师将他们的这些行为写入数据库中存储,再交给数据分析师进行分析,最后根据用户特征给出个性化推荐。&/p&&p&你将会积累以下技能:&/p&&ul&&li&python, C/C++, Java等语言&/li&&li&计算机结构和算法设计&/li&&li&数据仓库和ETL工具&/li&&li&各种操作系统,如UNIX, LINUX等&/li&&li&Spark, Storm, Hive 等开源平台&/li&&/ul&&p&没有数据分析基础的童鞋们,不妨可以了解一下优达的&a href=&//link.zhihu.com/?target=https%3A//cn.udacity.com/dand%3Futm_source%3Dzhihu-oa%26utm_medium%3Dsocial%26utm_campaign%3Ddand& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&「数据分析师」纳米学位&/a&哦,学完后可以很好的与数据分析师和工程师对接。&/p&&h2&3. 数据科学家&/h2&&p&当你具备了在上述两个岗位积累多年的经验,&b&此时的你足够担任team leader,领导大家攻克项目。&/b&一名优秀的数据科学家需要具备以下软/硬实力:&/p&&ol&&li&&b&深入市场和业务&/b&:眼光必须足够广才能看清问题的本质,这就需要你在漫长的职业生涯中逐渐积累和锻炼。在做项目时,亲自与不同部门(如产品,运营,战略部门)沟通,才能找到核心问题,否则参数调得再溜都没有意义。另外, 多读经管方面的书籍,提升自己的商业管理能力,成为一个精通商业的技术人员。&/li&&li&&b&过硬的技术&/b&:数据分析师解决不了的问题都要抛给数据科学家,没有过硬的技术怎能hold住场面呢?他们的主要工作是围绕公司最核心的产品解决实际问题,比如说,保险行业偏重于模型预测,基于数据预测多少保费能实现最大化收益;生物公司基于基因组大数据找到靶向位点精准治疗疾病等。掌握机器学习,算法研发,MapReduce框架,Hadoopscripting等种种技能,最终目的是提升用户体验,增强用户粘性,改善数据驱动产品。&/li&&/ol&&p&&b&怎样才能完成向数据科学家的华丽转身?&/b&在此优达菌要打个小广告啦。上周,Udacity在阿姆斯特丹的TNW科技峰会上,也向世界首发新课——&a href=&//link.zhihu.com/?target=https%3A//cn.udacity.com/course/data-scientist-nanodegree--nd025%3Futm_source%3Dzhihu-oa%26utm_medium%3Dsocial%26utm_campaign%3Ddsnd& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&「数据科学家」纳米学位&/a&,这门与 IBM、Starbucks 等众多创新型企业联合打造的终极课程,让你在7个月内打牢数理统计基础,get到数据行业的核心技能,迅速积累大量的项目实战经验,成为价值不菲的稀缺人才!&/p&
谢邀。这个问题问得好,由工作性质决定,数据科学家的职业发展途径注定是一条漫长而艰辛的道路。但当你站在金字塔顶端俯身回首时,会庆幸自己坚持至今。因为无论是你的专业技能,思维方式,沟通技巧,执行力,甚至薪资,与曾经比都不是一个level的。无论哪…
&figure&&img src=&https://pic2.zhimg.com/v2-08e6eefbf92fff980a9d_b.jpg& data-rawwidth=&750& data-rawheight=&500& class=&origin_image zh-lightbox-thumb& width=&750& data-original=&https://pic2.zhimg.com/v2-08e6eefbf92fff980a9d_r.jpg&&&/figure&&p&裁员!最近,人工智能健康领域的老大哥 IBM沃森健康(Watson Health)传来了裁员达70%的消息,备受业内关注,甚至有金融分析师称这个部门是烧钱的无底洞。&/p&&p&&br&&/p&&p&那么,在AI热潮之下,你该如何构建一个更理性更纯粹的思考框架?这一次,邢波教授可谓将AI的边界问题讲透了。&/p&&p&&br&&/p&&p&? 我们去人为的制造一个谎言,最后这个谎言被戳穿以后,反而是那些诚实工作的人,去承担惩罚。这对研发人员很不公正。&/p&&p&&br&&/p&&p&——邢波&/p&&p&&br&&/p&&figure&&img src=&https://pic2.zhimg.com/v2-b647f1bd792676d_b.jpg& data-caption=&& data-size=&normal& data-rawwidth=&1080& data-rawheight=&719& class=&origin_image zh-lightbox-thumb& width=&1080& data-original=&https://pic2.zhimg.com/v2-b647f1bd792676d_r.jpg&&&/figure&&p&邢波,师从机器学习泰斗级学术大咖 Michael Jordan ,卡耐基梅隆大学机器学习和医疗中心主任,2017年机器学习学术水平排名世界第一。&/p&&p&同时,他还是生物化学与计算机科学的双料博士,创立了通用机器学习平台Petuum,并获得了软银投资。&/p&&p&&br&&/p&&p&&b&授课老师|邢波&/b&卡耐基梅隆大学计算机科学学院教授&/p&&p&通用机器学习平台 Petuum 创始人&/p&&p&&br&&/p&&p&&b&挑战Facebook的1亿用户&/b&&/p&&p&&b&&i&一次不“体面”的经历&/i&&/b&&/p&&p&&br&&/p&&p&现在的人工智能,正在面临一个非常非常实际的工程问题——&b&规模瓶颈&/b&:&/p&&p&&br&&/p&&blockquote&你的算法可以在实验室的单机上实现,可到了现实环境中,就可能不行。&/blockquote&&p&&br&&/p&&p&我讲下在Facebook的经历。&/p&&p&&br&&/p&&p&大概2011年左右,我们做了一个比较成功的&b&社交建模&/b&——&/p&&p&&br&&/p&&p&依靠拥有100万人的好莱坞影星数据库,可以实现对人进行分类和精准推荐。&/p&&p&&br&&/p&&p&但当我把这个模型部署在Facebook里1亿规模的用户上时,结果相当让人失望:&/p&&p&&br&&/p&&p&原则上,6分钟能算完100万个,如果有1000台机器,那么,0.6分钟就可以算完,但结果呢?&/p&&p&&br&&/p&&p&不要说0.6分钟了,1星期都没有算完,中间就卡了。&/p&&p&&br&&/p&&p&&b&&&/b&&&&&/p&&p&&b&算法也没有错,建模也没有错,机器也有,但为什么还是卡了?&/b&&/p&&p&&br&&/p&&p&指挥1000人的部队和指挥一个人是不一样的,当你把算法放在1000台机器上时,涉及到一个&b&机器之间通讯&/b&的问题。&/p&&p&&br&&/p&&blockquote&比如,机器学习需要不断递归迭代,每次迭代需要握一次手,告诉我,迭代完了,或者还没迭代完,你得等一下,等一次就是一个门槛。当你有好几台机器迭代的时候,他们的速度是不一样的,每一次,你都要等到最后一个机器完成以后,才能往前走。&/blockquote&&p&&br&&/p&&figure&&img src=&https://pic1.zhimg.com/v2-54a44cb48aecdcda717fd0e1cc133848_b.jpg& data-caption=&& data-size=&normal& data-rawwidth=&907& data-rawheight=&477& class=&origin_image zh-lightbox-thumb& width=&907& data-original=&https://pic1.zhimg.com/v2-54a44cb48aecdcda717fd0e1cc133848_r.jpg&&&/figure&&p&&br&&/p&&p&所以,这就涉及一个非常关键的问题:&/p&&p&&br&&/p&&blockquote&机器学习作为算法理论工具,作为模型,跟它的计算设备,有着重要关联,&b&新的AI程序需要新的AI引擎&/b&,就像新的飞机设计必须有新的引擎来助推。&/blockquote&&p&&br&&/p&&figure&&img src=&https://pic2.zhimg.com/v2-2940fbf1a4c7ab11cbde1_b.jpg& data-caption=&& data-size=&normal& data-rawwidth=&914& data-rawheight=&432& class=&origin_image zh-lightbox-thumb& width=&914& data-original=&https://pic2.zhimg.com/v2-2940fbf1a4c7ab11cbde1_r.jpg&&&/figure&&p&&br&&/p&&p&作为一个成熟的人工智能学者,不仅仅是要成为一个算法专家或者建模专家,你不能把活扔给程序员,让他们实现,而是要对任务和工作环境,有更深刻的理解。&/p&&p&&br&&/p&&p&举个例子,人工智能在工程实现上,&b&目的性非常强,而操作方式,实际上是次要要素。&/b&&/p&&p&&br&&/p&&blockquote&比如,你要飞行表演,队形完整即可,不必飞的太快,即可以损失效率;但如果飞机是去救火,飞行姿态其实不必特别精准同步,以换回效率。&/blockquote&&p&&br&&/p&&p&&b&掘金AI&/b&&/p&&p&&b&&i&AI架构者必须要思考9个关键问题&/i&&/b&&/p&&p&&br&&/p&&p&&b&&&/b&&&&&/p&&p&&b&如何把握AI的未来机遇?&/b&&/p&&p&&br&&/p&&p&先说个故事,美国早期,很多人去加州淘金,但实际上靠淘金致富的真不多,最后真正的巨富,我记住的是这样两个人:&/p&&p&&br&&/p&&blockquote&造牛仔裤的李维·斯特劳斯,当时,他给一些工人制作装备和衣服;&br&&br&造工具铁锹的萨姆·布瑞南,因为每个挖金人的都需要铁锹。&/blockquote&&p&&br&&/p&&p&&b&同理,AI 也有很多落地场景:&/b&你可以从数据里生成产品或是生成服务,也可以为AI的研发者或者使用者,提供他们所需要的工具。&/p&&p&&br&&/p&&p&所以,你可以好好思考一下,你的机会是在AI价值链的哪一端呢?&/p&&p&&br&&/p&&figure&&img src=&https://pic4.zhimg.com/v2-cfa4d1eb2c5f5b405bc75e3_b.jpg& data-caption=&& data-size=&normal& data-rawwidth=&905& data-rawheight=&485& class=&origin_image zh-lightbox-thumb& width=&905& data-original=&https://pic4.zhimg.com/v2-cfa4d1eb2c5f5b405bc75e3_r.jpg&&&/figure&&p&&br&&/p&&p&现今,科技公司的人工智能解决方案面临的最大瓶颈是:&b&无法像商品一样,以可控的成本,进行大量的创造和复制。&/b&&/p&&p&&br&&/p&&p&所以,要实现靠谱的,有用的,可用的AI,必须要跨越手工坊制作,&b&采用标准化的工业量产模式。&/b&就好比造车,先把零件弄好,然后产生一个供应链,最后做一个组装。&/p&&p&&br&&/p&&figure&&img src=&https://pic3.zhimg.com/v2-0e262c58e722b37ed16a5bfde9ccf9a2_b.jpg& data-caption=&& data-size=&normal& data-rawwidth=&1080& data-rawheight=&608& class=&origin_image zh-lightbox-thumb& width=&1080& data-original=&https://pic3.zhimg.com/v2-0e262c58e722b37ed16a5bfde9ccf9a2_r.jpg&&&/figure&&p&&br&&/p&&p&我们希望通过这样的尝试,把人工智能从独门秘笈、黑科技,往工程的方向做一个推动:&/p&&p&&br&&/p&&blockquote&使它对于语言的依赖、设备的依赖和对于界面依赖弱化,让不同的人,像我们使用电或者使用微软的文字工具一样,各取所需,而不是说非要雇一个Chief AI Officer,或者雇一大堆博士,做手工作坊式的研发。&/blockquote&&p&&br&&/p&&p&&b&&&/b&&&&&/p&&p&&b&总之,一个成熟的AI架构者要学会思考以下9个关键问题:&/b&&/p&&p&&br&&/p&&p&①建立一个完整的,工程上可信的解决方案,而不是一个玩具或是Demo;&/p&&p&&br&&/p&&p&而且,这个体系可插入可拔出,是一个插件式的平台,就像你做一个汽车生产线一样,产品升级,更换零件或者更换局部就可以,不必拆掉整个产品线重来。&/p&&p&&br&&/p&&p&②可复制性;&/p&&p&&br&&/p&&p&别人也可以用,而且也可以做出来。&/p&&p&&br&&/p&&p&③经济可行性;&/p&&p&&br&&/p&&p&④适用于各种用户的特殊状况;&/p&&p&&br&&/p&&p&举个例子,比如波音公司生产飞机,要为每一个用户造一家不同的飞机吗?不用,提供基本的飞机引擎、机身、操作软件等就可以。&/p&&p&&br&&/p&&p&换句话说,&b&用户的个性需求和生产商提供的解决方案,两边应该在中间相遇,而不是在某一端相遇&/b&,这是现在人工智能还比较缺少的设计思路。&/p&&p&&br&&/p&&p&⑤结果可重现;&/p&&p&&br&&/p&&p&⑥理解解决方案是如何建构起来的;&/p&&p&&br&&/p&&p&⑦可解释性,尤其是出现意外结果时知道哪儿出了问题;&/p&&p&&br&&/p&&p&⑧能交流结果,让大家也能重现你宣称的结果;&/p&&p&&br&&/p&&p&⑨清楚什么能够做到,什么不行。&/p&&p&&br&&/p&&p&举个例子,我可以告诉你,我在5年之内不准备坐自动驾驶车,或者我强烈要求自动驾驶车有方向盘,我自己得握着,为什么呢?&/p&&p&&br&&/p&&p&因为作为一个研发者,我很清楚,现在很多算法包括深度学习算法里的因果性,还没有搞清楚。&/p&&p&&br&&/p&&p&&b&人工智能会超越人类吗?&/b&&/p&&p&&b&&i& 要警惕对学科的伤害&/i&&/b&&/p&&p&&br&&/p&&p&很多人认为,人工智能的发展,会像摩尔定律一样,实现指数型爆炸,但现实是,摩尔定律有坚实的数据基础,人工智能没有。&/p&&p&&br&&/p&&p&&b&人工智能的发展是有边界的,并且最终会收敛,而且,它收敛的地方并不是在人类智能,甚至还可能会出现倒退。&/b&&/p&&p&&br&&/p&&p&比如最近,一向热衷激进部署机器人工厂的埃隆·马斯克,在Facebook上承认,工厂自动化了以后,效率没有提高,反而下降了。&/p&&p&&br&&/p&&figure&&img src=&https://pic3.zhimg.com/v2-eef596a252a6cbaca25ab0ca_b.jpg& data-caption=&& data-size=&normal& data-rawwidth=&955& data-rawheight=&500& class=&origin_image zh-lightbox-thumb& width=&955& data-original=&https://pic3.zhimg.com/v2-eef596a252a6cbaca25ab0ca_r.jpg&&&/figure&&p&&br&&/p&&p&&b&&&/b&&&&&/p&&p&&b&那么,人工智能不能做什么呢?有以下3个方面:&/b&&/p&&p&&br&&/p&&p&&b&①机器无法提出问题;&/b&&/p&&p&&br&&/p&&p&人是很善于挑战未知,去提出问题的,但对于机器来说,提出一个未知问题(不是根据书本的内容知识,来提测验问题),发现一个新的物理定理和数学定理,这一点非常非常难,我不相信在可预见的将来,有任何的算法或者模型能够做到这一点。&/p&&p&&br&&/p&&p&&b&②机器也无法知道未知的问题;&/b&&/p&&p&&br&&/p&&p&有一种说法,对人的修养和学识的衡量标准之一是,你是否知道未知,这一点,机器也不知道。&/p&&p&&br&&/p&&p&因为机器对边界没有感觉,它并不知道在它的知识范围之外,还有什么东西它不知道,这是不能被设置的功能。&/p&&p&&br&&/p&&p&&b&③机器难以从小数据学习,依然需要人工架构和调教。&/b&&/p&&p&&br&&/p&&p&人的学习都是通过小数据来开始学,依靠环境、先验知识和逻辑思维的综合方法,从不同的数据里面来获得知识,然后他们还能综合、成长。&/p&&p&&br&&/p&&p&这也是人工智能相当弱的地方,而且即便可以实现,到了工程层面,其性能也是相当不稳定。&/p&&p&&br&&/p&&p&它需要有非常非常激进的调参,非常非常神秘的独门暗器,各种各样的秘诀敲门,这都妨碍了人工智能的商业化、规模化。&/p&&p&&br&&/p&&p&&b&&&/b&&&&&/p&&p&&b&另外一个问题,人工智能会超越人类吗?&/b&&/p&&p&&br&&/p&&p&实际上,人工智能和人类智能是两条不一样的路。&/p&&p&&br&&/p&&p&成功的人工智能体现的是机械或者工程美学,而人类智能是自然的美学,或者是一种生物、哲学上的美。&/p&&p&&br&&/p&&p&&b&所以,我的观点是:&/b&&/p&&p&&br&&/p&&p&①在有限规则的特定任务下,机器超越人类的水平只是时间问题。&/p&&p&&br&&/p&&p&比如算数学题、下围棋、打扑克,规则一清楚了以后,结果就确定了,不必吃惊。&/p&&p&&br&&/p&&p&②在非结构化的场景下,即使简单的情感识别问题,机器仍然没有突破人类。&/p&&p&&br&&/p&&p&比如,这位女生到底是高兴了还是难过了?这样的程序其实是写不出来的。&/p&&p&&br&&/p&&p&总之,在可预期的将来,人机协作才是真正的方向,人类不应该害怕人工智能或者机器学习,而真正应该担忧的是什么呢?&/p&&p&&br&&/p&&figure&&img src=&https://pic3.zhimg.com/v2-ec188ddf794a_b.jpg& data-caption=&& data-size=&normal& data-rawwidth=&998& data-rawheight=&514& class=&origin_image zh-lightbox-thumb& width=&998& data-original=&https://pic3.zhimg.com/v2-ec188ddf794a_r.jpg&&&/figure&&p&&br&&/p&&p&&b&人别到时候跟机器一样,变得冷酷或者完全没有人性,这是值得关注的。&/b&&/p&&p&&br&&/p&&p&&b&小结&/b&&/p&&p&最后,我想为人工智能的从业者,那些沉默的大多数,不太在网上出声,也不太会获得相应运作利益的那些人,说几句话:&/p&&p&&br&&/p&&p&由于资本的驱动、人性的弱点,或者由于其他的一些因素,我们看到了人工智能被追捧,但由于并没有跟现实来匹配,结果就产生了一个预期和现实的落差,最后的受害者是谁呢?&/p&&p&&br&&/p&&p&&b&对学科的伤害。我是相当痛心的。&/b&&/p&&p&&br&&/p&&p&因为在前两个人工智能的低谷期,其实有大量的天才和非常非常诚实、踏实的研究者,由于这样的误解,得不到经费、支持、和理解,他们最后不得不离开这个行业。&/p&&p&&br&&/p&&p&这样的现象正在发生。&/p&&p&&br&&/p&&p&我们去人为的制造一个谎言,最后这个谎言被戳穿以后,反而是那些诚实工作的人,去承担惩罚。&b&这对研发人员很不公正。&/b&&/p&&p&&br&&/p&&p&所以,希望大家对待人工智能,能够更理性更纯粹一些。&/p&&p&&br&&/p&&blockquote&本文根据邢波在混沌大学研习社的课程整理而成,内容有删减。关注知乎机构号&a href=&https://www.zhihu.com/org/hun-dun-da-xue/activities& class=&internal&&「混沌大学」&/a&,私信关键词「邢波」,即可听取完整课程。&/blockquote&
裁员!最近,人工智能健康领域的老大哥 IBM沃森健康(Watson Health)传来了裁员达70%的消息,备受业内关注,甚至有金融分析师称这个部门是烧钱的无底洞。 那么,在AI热潮之下,你该如何构建一个更理性更纯粹的思考框架?这一次,邢波教授可谓将AI的边界问…
&figure&&img src=&https://pic4.zhimg.com/v2-5d220f468f179b51fffeac2_b.jpg& data-rawwidth=&600& data-rawheight=&338& class=&origin_image zh-lightbox-thumb& width=&600& data-original=&https://pic4.zhimg.com/v2-5d220f468f179b51fffeac2_r.jpg&&&/figure&&p&&/p&&h2&&b&背景&/b&&/h2&&p&一般大公司的机器学习团队,才会尝试构建大规模机器学习模型,如果去看百度、头条、阿里等分享,都有提到过这类模型。当然,大家现在都在说深度学习,但在推荐、搜索的场景,据我所知,ROI并没有很高,大家还是参考wide&deep的套路做,其中的deep并不是很deep。而大规模模型,是非常通用的一套框架,这套模型的优点是一种非常容易加特征,所以本质是拼特征的质和量,比如百度、头条号称特征到千亿规模。可能有些朋友不太了解大规模特征是怎么来的,举个简单的例子,假设你有百万的商品,然后你有几百个用户侧的profile,二者做个交叉特征,很容易规模就过10亿。特征规模大了之后,需要PS才能训练,这块非常感谢腾讯开源了Angel,拯救了我们这种没有足够资源的小公司,我们的实践效果非常好。&/p&&p&网上有非常多介绍大规模机器学习的资料,大部分的内容都集中在为何要做大规模机器学习模型以及Parameter Server相关的资料,但我们在实际实践中,发现大规模的特征预处理也有很多问题需要解决。有一次和明风(以前在阿里,后来去了腾讯做了开源的PS:angel)交流过这部分的工作为何没有人开源,结论大致是这部分的工作和业务相关性大,且讲明白了技术亮点不多,属于苦力活,所以没有开源的动力。&/p&&p&本文总结了蘑菇街搜索推荐在实践大规模机器学习模型中的特征处理系统的困难点。我们的技术选型是spark,虽然spark的机器学习部分不能支持大规模(我们的经验是LR模型的特征大概能到3000w的规模),但是它非常适合做特征处理。非常感谢组里的小伙伴@玄德 贡献此文。&/p&&h2&&b&整体流程图&/b&&/h2&&p&这套方法论的特点是,虽然特征规模很大,但是非常稀疏。我们对特征集合进行onehot编码,每条样本的存储需求很小。由于规模太大,编码就变成一个比较严峻的问题。&/p&&figure&&img src=&https://pic1.zhimg.com/v2-c738bc8efb_b.jpg& data-caption=&& data-size=&normal& data-rawwidth=&1170& data-rawheight=&320& class=&origin_image zh-lightbox-thumb& width=&1170& data-original=&https://pic1.zhimg.com/v2-c738bc8efb_r.jpg&&&/figure&&ol&&li&连续统计类特征:电商领域里面,统计的ctr、gmv是非常重要的特征。&/li&&li&Id类特征:包括用户id、商品id、类目id等&/li&&/ol&&h2&&b&特征构建遇到的问题&/b&&/h2&&h2&&b&1. 特征值替换成对应的数值索引过慢&/b&&/h2&&p&组合后的训练样例中的特征值需要替换成对应的数值索引,生成onehot的特征格式。&/p&&p&特征索引映射表1的格式如下:&/p&&figure&&img src=&https://pic4.zhimg.com/v2-0af62a6b2acb02_b.jpg& data-caption=&& data-size=&normal& data-rawwidth=&696& data-rawheight=&418& class=&origin_image zh-lightbox-thumb& width=&696& data-original=&https://pic4.zhimg.com/v2-0af62a6b2acb02_r.jpg&&&/figure&&p&为了实现这种计算,我们需要对所有的特征做unique编码,然后将这个索引表join回原始的日志表,替换原始特征,后续流程使用编码的值做onehot,但这部分容易OOM,且性能有问题。于是我们着手优化这个过程.&/p&&p&首先我们想到的点是将索引表广播出去, 这样就不用走merge join, 不用对样例表进行shuffle操作,索引表在比较小的时候,大概是4KW的规模, 广播出去是没有问题的,实际内部实现走的是map-side join, 所以速度也是非常快的, 时间减少到一个小时内.&br&&/p&&p&当索引表规模达到5KW的时候,直接整表广播, driver端gc就非常严重了, executor也非常不稳定, 当时比较费解, 单独把这部分数据加载到内存里面, 占用量只有大约executor内存的20%左右,为啥gc会这么严重呢?后面去看了下saprk的原理,解决了心中的疑惑.
因为spark2.x已经&a href=&https://link.zhihu.com/?target=https%3A//issues.apache.org/jira/browse/SPARK-12588& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&移除HTTPBroadcast&/a&, 仅有的一种实现是TorrentBroadcast.实现原理类似于大家常用的 BT下载技术。基本思想就是将数据分块成 data blocks,如果executor 取到了一些 data blocks,那么这个 executor 就可以被当作 data server 了,随着取到数据的 executor 越来越多,有更多的 data server 加入,数据就很快能传播到全部的 executor 那里去了.&br&&/p&&p&在广播的过程中会将数据冗余一份到blockManager,供其他executor进行读取. 其原理如图所示:&/p&&figure&&img src=&https://pic2.zhimg.com/v2-620f1ad29daef6e48b043_b.jpg& data-caption=&& data-size=&normal& data-rawwidth=&602& data-rawheight=&276& class=&origin_image zh-lightbox-thumb& width=&602& data-original=&https://pic2.zhimg.com/v2-620f1ad29daef6e48b043_r.jpg&&&/figure&&p&&br&&/p&&p&在广播的过程中, driver端和executor端都会有短暂的时间达到2倍的内存占用,&/p&&ul&&li&dirver端&br&driver端先把数据序列成byteArray, 切割成小块的data block再广播出去, 切割的过程,内存会不断接近2倍byteArray的大小, 直到切割完之后,将byteArray释放掉.&/li&&li&executor端&br&executor装载广播的数据是driver的反过程, 每次拿到一个data block之后, 就将其存放到blockManager, 同时通知driver的blockManagerMaster说这个block多了一个存储的地方,供其他executor下载.等executor把所有的block都从其他地方拿全之后,先申请一个Array[Byte],将block的数据进行反序列化之后得到原始数据.这个过程中和driver端应用,内存会不断接近2倍数据的大小, 直到反序列化完成.&/li&&/ul&&p&通过了解了spark广播的实现, 可以解释广播5kw维特征的gc严重的问题.&/p&&p&随着实验特征的迭代,表2的列数会不断的增多,处理时间会随着列数的增多而线性增加, 特征索引的规模增多,会导致广播的过程中gc问题越来越严重, 直到OOM频繁出现.&/p&&p&这个阶段需要解决2个问题&/p&&ol&&li&需要高效得将表1的数据广播到各个executor&/li&&li&不能使用join列的方式来实现替换索引值&/li&&/ol&&p&综合这两个问题, 我们想出了一个解决方案, 将表1先按照特征值排好序, 然后再重新编码, 用一个长度为max(索引值)长度的数组去存储, 索引值作为下标,对应的元素为特征值,将其广播到executor之后, 遍历日志的每一行的每一列, 实际上就是对应的特征值, 去上面的数组中二分查找出对应的索引值并替换掉.&/p&&p&使用下标数据存储表1, 特征值按照平均长度64个字符计算, 每个字符占用1个字节, 5千万维特征需要3.2G内存,广播的实际表现ok,1亿维特征的话需要占用6.4G内存, 按照广播的时候会有双倍内存占用的情况,gc会比较严重. 我们又想了一个办法, 将字符串hash成long,long仅占用8字节,比起存储字符串来说大大节省了空间, hash的有个问题是可能会冲突, 由于8字节的hash映射空间有 -2^63 到 2^63-1, 我们使用的是BKDRHash, 实际测下来冲突率很少,在业务可接受的范围, 这个方法可以大大节省占用的内存,1亿特征仅占用800M的内存, 广播起来毫无压力,对应的在遍历表2的时候, 需要先将特征值用同样的算法hash之后再进行查找. 经过这一轮优化之后, 相同资源的情况下,处理10亿行, 5KW维特征的时候, 耗时已经降低到半个小时了, 且内存情况相对稳定.&/p&&p&这种情况跑了一段时间之后, 特征规模上到亿了, 发现这一步的耗时已经上升到45分钟了,分析了下特征的分布,发现连续特征离散化的特征在日志出现的频率很高,由于是连续统计值,本身非常稠密,基本每一条数据都有其出现,但是这类特征在表1的分布不多, 这完全可以利用缓存把这类特征对应的索引值保存下来, 而没必要走hash之后再二分搜索,完全可以用少量的空间节省大量的时间. 实际实现的时候,判断需要查找的特征值是否符合以上的这种情况, 如果符合的话, 直接用guava缓存表2的特征值-&表1的索引值,实际统计的缓存命中率是99.98888%, 实际耗时下降得也很明显, 从之前的45分钟降到17分钟.当然缓存并不是银弹,在算hash的时候误用了缓存, 导致这一步的计算反而变得慢了, 因为hash的组合实在是太多了, 缓存命中率只有10%左右, 而且hash计算复杂度并不高.在实际使用缓存的时候, 有必要去统计一下缓存的命中率.&/p&&h2&&b&2. Spark的一些经验&/b&&/h2&&ol&&li&利用好spark UI的SQL预览,
做类似特征处理的ETL任务多关注下SQL, 做这类特征处理的工作的时候, 这个功能绝对是一把利器, 前期实现时间比较赶, 测试用例比较少, 在查实际运行逻辑错误的问题时, 可以利用前期对数据的分析结论结合SQL选项的流程图来定位数据出错的位置.&/li&&li&利用spark UI找出倾斜的任务,找到耗时比较长的Stages, 点进去看Aggregated Metrics by Executor&br&&/li&&li&对单个task可以不用太关注, 如果某些Executor的耗时比起其他明显多了,一般都是数据清洗导致的(不排除某些慢节点)&br&&/li&&li&利用UI确认是否需要缓存, 如果一个任务重复步骤非常频繁的,且任务的数据本地性都是RACK_LOCAL的 则要考虑将其上游结果缓存下来.
比如我们这里会统计单列特征的频次的时候&br&&/li&&li&会将上游数据缓存下来, 但是数据量相对比较大, 我们选择将其缓存到磁盘,spark实现的自动分配内存和磁盘的方法有点问题,不知道是我们的姿势问题还是他的实现有bug。&br&&/li&&/ol&&h2&&b&生产版本小结&/b&&/h2&&p&亿级别特征维度,几十亿样本(对全样本做了采样,效果损失不明显),二十分钟左右跑完。不过这个时间数据参考意义不大,和跑的资源和机器性能有关,而大厂在这块优势太大了。而本文核心解决的点是特征处理过程中,特征编码的索引达到亿级别时,数据处理性能差或者spark OOM的问题。&/p&
背景一般大公司的机器学习团队,才会尝试构建大规模机器学习模型,如果去看百度、头条、阿里等分享,都有提到过这类模型。当然,大家现在都在说深度学习,但在推荐、搜索的场景,据我所知,ROI并没有很高,大家还是参考wide&deep的套路做,其中的deep并不是…
&figure&&img src=&https://pic3.zhimg.com/v2-2e5b7e4777fdd62bdf640e_b.jpg& data-rawwidth=&567& data-rawheight=&181& class=&origin_image zh-lightbox-thumb& width=&567& data-original=&https://pic3.zhimg.com/v2-2e5b7e4777fdd62bdf640e_r.jpg&&&/figure&&p&感谢知乎许多朋友的关注和建议,继续摘选《深度卷积网络·原理与实践》中的内容做一些小连载,这来自书中的第9.3.6节。&b&如需转载,请先与本人联系,多谢多谢。&/b&&/p&&p&如您对书感兴趣(三百多页,高清全彩印刷,上百张彩图),从深圳发货的链接是:&/p&&a href=&https://link.zhihu.com/?target=https%3A//item.taobao.com/item.htm%3Fid%3D& data-draft-node=&block& data-draft-type=&link-card& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&《深度卷积网络·原理与实践》已有现货了~ 深度学习 人工智能 书&/a&&p&从北京发货,或京东发货,请点击:&/p&&a href=&https://link.zhihu.com/?target=https%3A//s.taobao.com/search%3Finitiative_id%3Dtbindexz_ie%3Dutf8%26spm%3Da21bo.-taobao-item.2%26sourceId%3Dtb.index%26search_type%3Ditem%26ssid%3Ds5-e%26commend%3Dall%26imgfile%3D%26q%3D%25E6%25B7%25B1%25E5%25BA%25A6%25E5%258D%25B7%25E7%25A7%25AF%25E7%25BD%%25BB%259C%2B%25E5%258E%259F%25E7%E4%25B8%258E%25E5%25AE%259E%25E8%25B7%25B5%26suggest%3Dhistory_1%26_input_charset%3Dutf-8%26wq%3D%25E6%25B7%25B1%25E5%25BA%25A6%25E5%258D%25B7%25E7%25A7%25AF%26suggest_query%3D%25E6%25B7%25B1%25E5%25BA%25A6%25E5%258D%25B7%25E7%25A7%25AF%26source%3Dsuggest%26sort%3Dsale-desc& data-draft-node=&block& data-draft-type=&link-card& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&深度卷积网络 原理与实践_淘宝搜索&/a&&a href=&https://link.zhihu.com/?target=https%3A//search.jd.com/Search%3Fkeyword%3D%25E6%25B7%25B1%25E5%25BA%25A6%25E5%258D%25B7%25E7%25A7%25AF%25E7%25BD%%25BB%259C%25C2%25B7%25E5%258E%259F%25E7%E4%25B8%258E%25E5%25AE%259E%25E8%25B7%25B5%26enc%3Dutf-8%26qrst%3D1%26rt%3D1%26stop%3D1%26vt%3D2%26suggest%3D1.def.0.V00%26wq%3D%25E6%25B7%25B1%25E5%25BA%25A6%25E5%258D%25B7%25E7%25A7%25AF%26psort%3D3%26click%3D0& data-draft-node=&block& data-draft-type=&link-card& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&- 商品搜索 - 京东&/a&&p&在NIPS 2016大会上,著名研究者LeCun提出了预测学习(predictive&br&learning)概念。在他的讲稿中,将机器学习比喻为“蛋糕”:&/p&&ul&&li&强化学习,是蛋糕上的小樱桃:输入数据,输出1个数字,代表对于奖励的预测。&/li&&li&有监督学习,是蛋糕的糖霜:输入数据,输出少量结论,例如图像的分类。&/li&&li&无监督学习,预测学习,是蛋糕的真正本体:输入数据,输出同样量级的预测。&/li&&ul&&li&例如:输入部分缺失的图像,输出将图像补充完整后的结果。&/li&&li&例如:输入一段视频,输出对于视频的未来发展的预测,如下图所示。&/li&&/ul&&/ul&&figure&&img src=&https://pic4.zhimg.com/v2-3a052cb0a0d500d2df8cc81f90da55e0_b.jpg& data-caption=&& data-size=&normal& data-rawwidth=&567& data-rawheight=&161& class=&origin_image zh-lightbox-thumb& width=&567& data-original=&https://pic4.zhimg.com/v2-3a052cb0a0d500d2df8cc81f90da55e0_r.jpg&&&/figure&&p&预测学习很重要,而且可能是通往强人工智能的必经之路。目前深度学习的领军人物Hinton、LeCun、Bengio均在此投入了研究,也许它将带来AI的下一场革命。&/p&&p&在笔者看来,预测学习有几个重要特点:&/p&&ul&&li&它需要逻辑,需要常识。例如,在预测视频的发展时,需学会物理定律(如牛顿三定律),学会不同事物的特征(如人体的不同关节的运动方法),学会空间立体的概念(需处理物体的平移,旋转,相互间的遮挡),等等。&/li&&ul&&li&在推理和预测过程中,还需要记忆,包括长期和短期记忆。目前研究人员已有办法为网络加入各种记忆模组。&/li&&/ul&&li&它的数据特别容易获得。首先,它是无监督方法,无需人工标记。其次,网络上已经有浩如烟海的视频,截取出的每个片段都可用于训练。而且我们还可用摄像头轻松生成无穷无尽的新视频,甚至可让AI学会主动控制摄像头。 &/li&&ul&&li&我们还可使用游戏引擎生成视频画面。&/li&&/ul&&li&此前我们已看到数据对于深度学习的关键性。在使用海量数据训练后,深度网络有可能会逐渐掌握逻辑和常识,改善它此前在这两方面的缺陷,甚至自动发现物理定律。&/li&&ul&&li&本书第1章中提到的“情感神经元”是很好的例证:仅仅是要求网络学会预测,网络就可自动发现深层次的规律。&/li&&/ul&&li&预测学习也有非常实际的用途。例如,在自动驾驶中,如果能预测其它车辆和行人的行为,就可以改善自动驾驶的性能和安全性。&/li&&/ul&&p&在LeCun的讲稿中,给出了如下公式:&/p&&blockquote&&b&智能 = 感知 + 预测 + 记忆 + 推理和规划&/b&&/blockquote&&p&不妨将其总结为:&/p&&blockquote&&b&记忆过去,感知现在,预测未来&/b&&/blockquote&&p&如果与强化学习结合,可得到如下图所示的更完整的架构图。这里智能体的目标是最小化费用,这需要通过对世界建模实现。&/p&&figure&&img src=&https://pic3.zhimg.com/v2-ad16a5dff9950d94fff693a70472bbe2_b.jpg& data-caption=&& data-size=&normal& data-rawwidth=&567& data-rawheight=&365& class=&origin_image zh-lightbox-thumb& width=&567& data-original=&https://pic3.zhimg.com/v2-ad16a5dff9950d94fff693a70472bbe2_r.jpg&&&/figure&&p&目前在预测学习领域已有许多有趣的工作,例如让网络预测游戏环境中物体的下落和碰撞轨迹(PhysNet,&a href=&https://link.zhihu.com/?target=https%3A//arxiv.org/abs/& class=& external& target=&_blank& rel=&nofollow noreferrer&&&span class=&invisible&&https://&/span&&span class=&visible&&arxiv.org/abs/&/span&&span class=&invisible&&2&/span&&span class=&ellipsis&&&/span&&/a&),如下图所示。&/p&&figure&&img src=&https://pic4.zhimg.com/v2-d4d264606cbfbbbc3e869df_b.jpg& data-caption=&& data-size=&normal& data-rawwidth=&567& data-rawheight=&181& class=&origin_image zh-lightbox-thumb& width=&567& data-original=&https://pic4.zhimg.com/v2-d4d264606cbfbbbc3e869df_r.jpg&&&/figure&&p&左边是游戏场景。右边上排是实际的下落和碰撞情况。右边下排是网络的预测,其中第1张图像是网络的输入,后续3张图像都是网络的预测。&/p&&p&可见,网络有能力大致预测出方块的运动情况,不过会随着时间的推移而越来越模糊。&/p&&p&这是预测模型中的常见现象,是因为未来有不确定性。如下图所示,未来有多种可能性,我们无法提前判知。&/p&&figure&&img src=&https://pic3.zhimg.com/v2-dfbd096dab82f90cef8fb51_b.jpg& data-caption=&& data-size=&normal& data-rawwidth=&528& data-rawheight=&172& class=&origin_image zh-lightbox-thumb& width=&528& data-original=&https://pic3.zhimg.com/v2-dfbd096dab82f90cef8fb51_r.jpg&&&/figure&&p&&br&&/p&&p&因此,如使用MSE作为拟合目标,网络会无所适从,最终造成图像模糊。&/p&&p&解决方法是引入GAN思想,用判别器网络判断未来的发展是否为真。这样网络可以给出更清晰的预测(虽然预测无法囊括未来的所有发展)。&/p&&p&例子见:&/p&&a href=&https://link.zhihu.com/?target=https%3A//github.com/dyelax/Adversarial_Video_Generation& data-draft-node=&block& data-draft-type=&link-card& data-image=&https://pic1.zhimg.com/v2-f261be89391eeecf04a2173d9aedbe98_ipico.jpg& data-image-width=&400& data-image-height=&400& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&dyelax/Adversarial_Video_Generation&/a&&p&其中的动画很有趣,推荐读者打开看一看。&/p&&figure&&img src=&https://pic4.zhimg.com/v2-7e71c279ed2cf5fa47e6d845c0a28de7_b.jpg& data-caption=&& data-size=&normal& data-rawwidth=&500& data-rawheight=&250& class=&origin_image zh-lightbox-thumb& width=&500& data-original=&https://pic4.zhimg.com/v2-7e71c279ed2cf5fa47e6d845c0a28de7_r.jpg&&&/figure&&p&例如,对于吃豆人游戏的画面预测,如果不使用GAN,在经过一个岔路口时,由于网络不知道吃豆人会选择哪个路口,因此会在画面中同时显示出吃豆人向上走和向下走的轨迹,如下面的GIF所示:&/p&&a href=&https://link.zhihu.com/?target=https%3A//github.com/dyelax/Adversarial_Video_Generation/raw/master/Results/Gifs/rainbow_NonAdv.gif& data-draft-node=&block& data-draft-type=&link-card& class=& external& target=&_blank& rel=&nofollow noreferrer&&&span class=&invisible&&https://&/span&&span class=&visible&&github.com/dyelax/Adver&/span&&span class=&invisible&&sarial_Video_Generation/raw/master/Results/Gifs/rainbow_NonAdv.gif&/span&&span class=&ellipsis&&&/span&&/a&&h2&&b&总结:个人认为,预测学习确实是找到了AI在未来进步的一个关键点。&/b&&/h2&&h2&&b&目前中文网络上对于预测学习的介绍很少,就像知乎也还没有“预测学习”的标签。&/b&&/h2&&h2&&b&大家在刷榜之余,不妨多关注预测学习,或者哪位 propose 一个预测学习的标准数据集给大家来刷榜吧。&/b&&/h2&&h2&&b&其实找一些 youtube 视频集就很合适。预测学习的数据集非常容易获得,这是一个很大的优点,可以避免巨头垄断数据的情况。&/b&&/h2&&h2&&b&所以,虽然《深度卷积网络·原理与实践》是入门书,其中也加入了对预测学习的简单介绍,希望能开阔大家的思路。书中还有更多较新的内容,欢迎感兴趣的读者关注。&/b&&/h2&
感谢知乎许多朋友的关注和建议,继续摘选《深度卷积网络·原理与实践》中的内容做一些小连载,这来自书中的第9.3.6节。如需转载,请先与本人联系,多谢多谢。如您对书感兴趣(三百多页,高清全彩印刷,上百张彩图),从深圳发货的链接是:
&figure&&img src=&https://pic1.zhimg.com/v2-b73b2c94cd9c9afa94d87_b.jpg& data-rawwidth=&800& data-rawheight=&534& class=&origin_image zh-lightbox-thumb& width=&800& data-original=&https://pic1.zhimg.com/v2-b73b2c94cd9c9afa94d87_r.jpg&&&/figure&&p&文/何宇兵&br&&/p&&p&在当前复杂的零售环境下,选址对于零售企业而言变得格外重要,因为位置就是线下流量的直接入口。近期数据侠实验室,DT君邀请到了GeoHey·极海上海分公司的技术总监何宇兵,他将从三个维度来为大家揭晓如何通过地理方法解决选址问题?融合机器学习的智能地图如何赋能商业选址?&/p&&p&&br&&/p&&h2&&b&1.0时代:地理可视化&/b&&/h2&&p&&br&&/p&&p&1.0时代即通常所说的数据上图,将数据投放至地图上,用地理可视化的方式展现出来。&/p&&p&&br&&/p&&p&&br&&/p&&figure&&img src=&https://pic1.zhimg.com/v2-1f5afe3c9b7c_b.jpg& data-caption=&& data-size=&normal& data-rawwidth=&720& data-rawheight=&405& class=&origin_image zh-lightbox-thumb& width=&720& data-original=&https://pic1.zhimg.com/v2-1f5afe3c9b7c_r.jpg&&&/figure&&p&&br&&/p&&p&&br&&/p&&p&佳通轮胎是我接触这一行业所做的第一个项目,这一项目对于现在而言能轻而易举地做到并且能够做得更好但对当时而言则较为复杂。&/p&&p&&br&&/p&&p&&br&&/p&&figure&&img src=&https://pic2.zhimg.com/v2-dea17b098c099faf2348a1_b.jpg& data-caption=&& data-size=&normal& data-rawwidth=&720& data-rawheight=&405& class=&origin_image zh-lightbox-thumb& width=&720& data-original=&https://pic2.zhimg.com/v2-dea17b098c099faf2348a1_r.jpg&&&/figure&&p&&br&&/p&&p&&br&&/p&&p&在可视化1.0时代,Tesco走在行业前端,已经开始用地理可视化的方式做选址。用户只需在其在线商城注册账号后输入自己的地址,系统后台便会将用户分配到他所属的门店。但这对地理编码的精度要求特别高,假设你的地址定位不准确就会影响后续的整个配送路径。&/p&&p&&br&&/p&&p&在选址之前需对现有门店进行较深的认知,以麦当劳商圈调查为例,在选址之前需要对已经开业的门店做很多商业调研,将这些收集回来的数据呈现在地图上,目的是帮助他们了解其客户,这些客户分布在哪里?&/p&&p&&br&&/p&&p&&br&&/p&&figure&&img src=&https://pic2.zhimg.com/v2-7fc8e0cdc29d0db336d2b86_b.jpg& data-caption=&& data-size=&normal& data-rawwidth=&720& data-rawheight=&405& class=&origin_image zh-lightbox-thumb& width=&720& data-original=&https://pic2.zhimg.com/v2-7fc8e0cdc29d0db336d2b86_r.jpg&&&/figure&&p&&br&&/p&&p&&br&&/p&&p&上图每一个格子代表客户百分比,颜色越深就代表这个地方的客户越多。可以发现,大部分客户都来自于离店铺越近的地方,越远的地方它的颜色越浅。另外还可以发现这家店的商圈大小,商圈的范围是80%的客户所分布的范围。通过调研的方式计算出80%的客户分布哪些范围以内?另外还能了解有哪些因素会影响到商圈的大小及形状。比如在上图的右下角为一个高等级道路,可以发现在道路上方集中了大部分客户,而在道路下方并没有很多客户,那就说明高等级道路是影响商圈形状的重要因素。通过这种方式还能得到其他认知,例如河流也是影响商圈形状的一个因素。&/p&&p&&br&&/p&&p&&br&&/p&&figure&&img src=&https://pic1.zhimg.com/v2-f9bd9f5e5952bfa0ee7cf2ff_b.jpg& data-caption=&& data-size=&normal& data-rawwidth=&720& data-rawheight=&405& class=&origin_image zh-lightbox-thumb& width=&720& data-original=&https://pic1.zhimg.com/v2-f9bd9f5e5952bfa0ee7cf2ff_r.jpg&&&/figure&&p&&br&&/p&&p&&br&&/p&&p&再以乐天玛特为例,他的需求是根据会员分布结合人口数据帮助其制定DM投放策略。例如人口多、会员较少的区域或是会员多、购买频率较低的区域都是需要重点关注的地方,如上图右上角圈出来的红色区域,它就是DM投放重点关注的区域。&/p&&p&&br&&/p&&p&当我们有了会员数据之后,继续把会员的消费金额、消费频次投放到地图之上,帮助他们安排接送车及站点分布。如在销售额贡献大的区域增加站点等。&/p&&p&&br&&/p&&p&在地理可视化1.0时代,阿迪达斯是一个较为特殊的案例。&/p&&p&&br&&/p&&p&&br&&/p&&figure&&img src=&https://pic2.zhimg.com/v2-20f0b5d1e98ddccfe1cbcd4a338e3674_b.jpg& data-caption=&& data-size=&normal& data-rawwidth=&720& data-rawheight=&405& class=&origin_image zh-lightbox-thumb& width=&720& data-original=&https://pic2.zhimg.com/v2-20f0b5d1e98ddccfe1cbcd4a338e3674_r.jpg&&&/figure&&p&&br&&/p&&p&&br&&/p&&p&一直到现在为止,收集商圈市场容量数据是较难的一件事情。但我们通过可以获取到的POI数据模拟商圈的市场潜力以达到发现其市场容量的目的。对于某些大家熟悉的大城市如上海而言,所有人都能大致了解其核心商圈。但我们的最终目的是帮助商户了解二三线城市,甚至是四线城市。当对这个城市不够了解时,如何挑选品牌应该进入的区域?这就是阿迪达斯服务案例解决的问题。&/p&&p&&br&&/p&&h2&&b&2.0时代:分析与流程&/b&&/h2&&p&&br&&/p&&p&2.0时代是如今大部分企业所处的一个阶段。由于数据量急剧上升,我们需要针对这种大数据做分析,从1.0时代针对单个点解决具体问题,上升至2.0时代帮助企业建立流程进而处理选址过程中可能面临的一些问题。&/p&&p&&br&&/p&&p&&br&&/p&&figure&&img src=&https://pic3.zhimg.com/v2-5fabffe4022_b.jpg& data-caption=&& data-size=&normal& data-rawwidth=&720& data-rawheight=&405& class=&origin_image zh-lightbox-thumb& width=&720& data-original=&https://pic3.zhimg.com/v2-5fabffe4022_r.jpg&&&/figure&&p&&br&&/p&&p&&br&&/p&&p&以上汽为例,在收集了新能源车辆的的行车轨迹数据后,提前制定好用户标签从而制定出用户画像,汽车厂商就会根据这些标签找到一些异业联盟。例如这一品牌的客户经常会去某个购物中心,那么就可将车放在这个购物中心供潜在的客户试驾,这也就是一个潜在的获取客户的渠道。&/p&&p&&br&&/p&&p&&br&&/p&&figure&&img src=&https://pic4.zhimg.com/v2-ac9ab6ef19d86a7d642b60a7b0abece4_b.jpg& data-caption=&& data-size=&normal& data-rawwidth=&720& data-rawheight=&405& class=&origin_image zh-lightbox-thumb& width=&720& data-original=&https://pic4.zhimg.com/v2-ac9ab6ef19d86a7d642b60a7b0abece4_r.jpg&&&/figure&&p&&br&&/p&&p&&br&&/p&&p&再以JDPower所做的会员管理系统为例。根据客户的到店频次、消费金额以及最近到店消费时间,将会员划分成不同等级,如高价值客户、低价值客户、高风险客户、低风险客户等,针对不同的客户类型进行不同的营销策略。在此平台基础上,还可以交互地针对某一区域的客户做营销。通过对会员更深入的分析,帮助他们更好地制定一个选址策略。&/p&&p&&br&&/p&&p&&br&&/p&&figure&&img src=&https://pic2.zhimg.com/v2-beae940b8ec87d438f92b_b.jpg& data-caption=&& data-size=&normal& data-rawwidth=&720& data-rawheight=&405& class=&origin_image zh-lightbox-thumb& width=&720& data-original=&https://pic2.zhimg.com/v2-beae940b8ec87d438f92b_r.jpg&&&/figure&&p&&br&&/p&&p&&br&&/p&&p&以极海和某银行的合作平台为例,对于现阶段而言,增加网点并不是银行主要的目的,而是通过系统的层次建立一个流程,对网点进评估,针对不同的网点从数据的角度制定开、停、并、转的决策。&/p&&p&&br&&/p&&h2&&b&3.0时代:机器学习辅助决策&/b&&/h2&&p&&br&&/p&&p&从去年开始就有很多企业慢慢在选址策略上应用机器学习的方式。这里引入自然街区这一概念。&/p&&p&&br&&/p&&p&&br&&/p&&figure&&img src=&https://pic4.zhimg.com/v2-3eec268d2fbcaaa04b45b8_b.jpg& data-caption=&& data-size=&normal& data-rawwidth=&720& data-rawheight=&405& class=&origin_image zh-lightbox-thumb& width=&720& data-original=&https://pic4.zhimg.com/v2-3eec268d2fbcaaa04b45b8_r.jpg&&&/figure&&p&&br&&/p&&p&&br&&/p&&p&自然街区是规划里的一个概念,将它应用到零售选址这一行业中代替原先的网格方式。网格方式最大的缺点在于网格可能会横跨一条路、覆盖了两个小区,这样就有可能出现一种分歧。假设一个小区是公寓,一个小区是别墅,那么这两个小区

我要回帖

更多关于 奔腾g5400笔记本电脑 的文章

 

随机推荐