cloudera hadoop 认证认证怎么样 知乎

唯品会美研中心郭安琪:2015 Hadoop Summit见闻
发表于 16:28|
来源董老师知乎专栏|
作者郭安琪
摘要:Hortonwork、Cloudera、SAP、IBM、惠普、雅虎等25+数据服务技术提供商,Schlumberger、verizon、迪斯尼、Airbnb、赛门铁克、Aetna等各行各业的领军企业,Hadoop威风仍在。
【编者按】2015 Hadoop Summit上,超过25家知名大数据玩家展示了自己的设计,包括Schlumberger、verizon、迪斯尼、Airbnb、赛门铁克、Aetna等各行各业的领军企业分享了自己的实战经验。显而易见,在各种大数据计算框架林立的情况下,Hadoop依然大规模不属于生产环境。文章原标题为《世界沉醉在数据里》。以下为原文-11日,我在美国加州硅谷参加了第八届全球Hadoop技术峰会(Hadoop Summit 2015)。在短短的3天时间里我既见识到了Hortonwork、Cloudera、SAP、IBM、惠普、雅虎等25+数据服务技术提供商围绕大数据设计开发的产品,也聆听了Schlumberger(能源巨头)、verizon(通信巨头)、迪斯尼(娱乐巨头)、Airbnb(共享经济代表企业)、赛门铁克(信息安全巨头)、Aetna(医疗保险巨头)这些各行各业的领军企业用数据产品为公司创造价值的真实案例。我最大的感受就是有这么多的公司相信数据的价值,并且真真切切地将数据作为企业的重要资产来维护和使用。简单地用峰会一位嘉宾,微软分管数据平台副总裁Ranga的语言总结--“世界沉醉在数据里” (The world is drunk on data)Fig 1:第八届全球Hadoop技术峰会(Hadoop Summit 2015)会场掠影什么是Hadoop?自从我发了出席Hadoop技术峰会的朋友圈以后,就被小伙伴们各种“酷炫”“有用”的评论刷屏了。不过遇到了一个难点:如何向我妈解释“什么是Hadoop”这个问题。这个问题大概有点像向程序员解释CL的红底鞋到底好在哪一样难。作为一个接触了Hadoop一年的技术新人,我也还在摸索的道路上,不过幸好我们有亲爱的维基百科,在上面,Hadoop的定义是:一个用java语言编写的便于大型数据集合的分布式储存和计算的软件框架。简单来说,这是计算机领域的一个开源软件,任何程序开发者都可以看到它的源代码,并且进行编译。它的出现让大数据的储存和处理一下子变的快了很多,也便宜了很多。Fig 2:Hadoop Summit 2015主题演讲中Hortonwork CEO Rob介绍Hadoop技术在企业级应用中所占的市场份额Hadoop是怎么做到将大数据储存和处理变得又快又便宜的?这个讲起来可以讲三天三夜呢。不过举个简单的例子,现在需要数一个图书馆有多少本书,一个人数肯定很慢,需要很多个人数,而且最好每一个区域的书都有2-3个人数一遍,这样统计的数量才比较准确。所以就需要有一个机制将书籍分好区,规定每一个人负责数哪几个区的书,这样即使有人生病了也不会影响到总体统计工作的完成。这里的人就是Hadoop所操控的一台台个人计算机,机制就是Hadoop的核心MapReduce方法。在我看来,Hadoop的分布式计算功能就像一个精明的资本家设计的工作分配制度,既保证工作的完成不会特别依赖某一个人,又保证了如果工作量上升了只需要再雇一个劳工就能解决问题。Fig 3:Hadoop Summit 2015微软数据平台副总裁Ranga主题演讲截图,展示零售业,医疗,支付,教育,机器维护和交通领域基于Hadoop技术的数据红利(Data Dividend)什么是Hadoop技术峰会(Hadoop Summit 2015)?要解释这个问题就要先解释一下Hadoop对于企业的重要性。ForresterResearch(一家著名的咨询公司)的首席分析师Mike Gualtieri在峰会中预测,100%的大企业已经或将在未来2-3年内开始使用Hadoop。不管你是能源,通信,医疗,娱乐,生产制造,互联网行业的企业,你的数据总是会越来越多,而如果需要从这些海量数据中挖掘出价值,提高企业的整体竞争力,你就需要一个强大的储存和处理数据的能力,Hadoop及其泛生态圈就能帮你实现!(真的不是在打广告。。)Hadoop技术峰会就是Hadoop的开发者和使用者交流的地方。峰会为期三天,期间有160多场讲座,有来自Aetna, Facebook,谷歌,微软,迪士尼,Airbnb等公司的各路技术大拿分享他们关于开发使用Hadoop的故事。通过讲座,自由讨论,聚餐,party等形式参会者会与来自39个国家的4000+的参会者进行沟通。某种意义上来说,Hadoop Summit就像是个宗教活动,虔诚的数据爱好者相聚在一起,看看你在做什么我在做什么,共同讨论关于数据的信仰。Fig 4:Hadoop Summit 2015第一天下午讲座日程截图技术新人如何最大化一场技术峰会的收获?参加某一行业的峰会最重要的当然是了解行业趋势,都有哪些新的概念,这样慢慢得你才说得出内行话。这也是为了平常工作做准备,比如我,去年参加过InfoQ组织的QCon(全球架构师大会),大会内容大概听懂了30%,经过一年的工作学习和查字典(wiki),这次参加Hadoop峰会我大概能听懂50%,和同行交流的时候总算还能一句搭一句地深入讨论。当然能问出好的问题也是峰会收益最大化的有效手段。我的兴趣主要在产品方面,所以主要听的是Hadoop技术在不同公司里的usecase(使用场景),同时我也总结了一下技术新人应该如何玩转这一类型的技术峰会的经验,特此分享:新的概念围绕Hadoop的生态系统人这些是我觉得作为一个掌握的知识还不够全面的技术新人在峰会上应该多投入的地方:看看行业里都有哪些新的概念,补充一下自己的专业字典;了解围绕某个技术的上下游提供商的发展情况,谁在开发什么样的软件,谁在为什么样的软件埋单,这有助于技术新人在参与设计产品的时候有个全局的概念;最后最重要也是最容易实现的,就是联络参会的人。大家都是付了昂贵的门票($900+)来参加这次峰会的业内人士,所以每个人都像一座金矿,都有自己领域的专业知识,都会遇到相似的问题,开放的交流说不定会让一直困扰你的一个问题找到全新的解法。除此以外,同行的交流也能让你不觉得孤独,很多你想尝试的做法也许能从别的公司的执行数据反馈中找到自信。Fig 5:Hadoop Summit 2015参会者在白板(Job Posting Board)前查看有关Hadoop技术的岗位:雅虎在招人!苹果在招人!Uber在招人!….左下角我们唯品会美国研发中心也在招资深数据科学家哟!下面就是我在这三个方面的一些收获:新的概念概念一:“大铁遇到大数据”(Big Iron Meets Big Data)这句话是通用电气负责软件的首席信息官Vince在峰会上提出的,总结的是这个时代大数据与物联网(第一阶段主要在工业物联网)将相辅相成。这从本次参会的公司名单上也能看出一二:医疗,能源,机械,通信这些传统行业纷纷粉墨登场,介绍他们在大数据/互联网方面的尝试。当然从我和参会人的讨论看来,目前这些传统企业的大数据运用还仅限于通过传感器搜集数据然后做数据分析,以后的发展还很长。Fig 6:Hadoop Summit 2015通用电气首席信息官Vince的主题演讲中提到的关于物联网的惊人数据,Hadoop技术配合物联网将打开无限价值:到2020年为止,世界上有240亿台设备介入物联网,96%的企业领导表明在接下来3年要试水物联网,到2022年为止物联网将达到14.4万亿美金的市场。其中7大主要使用场景是:智能工厂,市场营销,智能电池,游戏娱乐,智能建筑,商用地面交通工具,医疗。概念二:”世界沉醉在数据里” (The world is drunk on data”)这个概念与“数据湖’(Data Lake)息息相关。数据湖是个相对年轻的概念,在它之前大家普遍接受的是“数据超市”(Datamart),意指在企业里将数据(水)像瓶装水一样过滤消毒打包好后便于各部门使用。与之相对应的,数据湖就是一个原始数据的聚合地,那些没有经过处理的数据都会被丢到一个容器里,只有当需要用的时候,才从这个数据湖里取用并做处理。这个湖的上下游的流淌是目前软件开发重点投资的地方。类似的概念还有“数据沼泽”。其他频繁被提到的词,欢迎大家自己百科~Data Governance,Data Lineage,Data Dividend,Data wrangling围绕Hadoop的生态系统董飞在他的文章中详细介绍了围绕Hadoop的生态系统。我的总体感觉就是原来对于这么多(至少30家)企业来说,数据和Hadoop就是他们赖以生产的资源和工具,如果说数据如水的话(参考上一段的“数据湖”概念),我至少看到了有水源勘探的公司,钻井的公司,打水,教人打水的公司,教人节水的公司,消毒水的公司,还有给水流情况做报表的公司。关键是“打水”和“教人打水”的公司(hortonworks)还上市了呢!当然还是说点具体的技术,spark是大家热议的一个技术,从会场爆满的情况就可以看出大家的兴趣;Apache Drill是2015年5月发布的一个新的基于Hadoop的开源技术,最早起源于谷歌的dremel系统,它的主要优势是可以让人们实现对于分布式大数据的可交互的实时数据分析;Airbnb也自己研发了一套开源的流程管理平台Airflow,吸引了很多业界关注。Fig 7:Hadoop Summit 2015迪斯尼数据平台开发资深工程师Caleb介绍著名的魔法手环”Magic Bend”的Hadoop框架人这次参会在party的时候认识了Hortonwork和Cloudera的人,总算了解两家是竞争对手关系。在听讲座的时候遇到一个可爱的印度小哥,一家公司为了雇佣他特地送给了他来参加hadoop summit的门票。中午吃饭的时候看我边上一个白头发老爷爷一个人吃饭挺孤单的,就聊了一下,他主要帮助通用电气做引擎系统优化。我们在对数据的处理方面遇到过同样的烦恼。后来回家一查,原来他是一家大数据初创企业的创始人兼首席技术官。像这样的例子非常多。Fig 8:Hadoop Summit 2015第二天晚上在San Pedro Market有盛大的party活动,所有参会人员凭胸卡就可以参加。在这里不仅有免费的印有hadoop峰会字样的人力三轮车负责接送会场和party的人群,还有现场乐队表演,最棒的是有世界各国的美食和美酒可以品尝。晚风徐徐,竟是醉了。除此以外,我还参加了“使用Hadoop的女性”(Women in Hadoop)活动,大多数参与的人都是开发使用Hadoop的女性同胞们,确实是Hadoop使用者中的“少数民族”。很经典的一件事就是一场讲座结束后男洗手间门口总是排起了长队,而女洗手间则根本没有这样的烦恼。另一个我们讨论的发现就是在12位主题演讲嘉宾中没有一位女性。但是,在技术讲座中凡是有女性参与的讲座,观众都很多,讲座很有条理,效果也非常好。这就说明并不是女性同胞不适合讲座,只是大家缺乏了解参与讲座的途径,也缺少发表演讲的鼓励。所以Women in Hadoop这个活动的目的就是围绕“女士当自强”为主题讨论一下我们可以做什么样的事帮助更多聪明的女性加入到hadoop技术的大军中。参加活动的还有一些男士,比如迪士尼负责magic bend数据开发的Caleb,他说他有一个女儿虽然很小但是对技术很感兴趣,问我作为年轻的女士有什么好的建议。最后我们通过每人30秒的自我介绍环节互相认识,加了LinkedIn,希望在以后的职业发展道路上能够互帮互助。Hadoop Summit 2015之”使用Hadoop的女性” Women in Hadoop BOF Session展示的PPT页面之一,引人深思。原文链接:作者简介:郭安琪,2014年5月毕业于美国康奈尔大学信息工程系,8月以实习生的身份加入唯品会美国研发中心,现走在数据产品研发的道路上。
推荐阅读相关主题:
CSDN官方微信
扫描二维码,向CSDN吐槽
微信号:CSDNnews
相关热门文章下载合伙投客户端
2017年该如何创业?四位硅谷顶级风投给出了自己的看法
(文/小 白)
【猎云网(微信号:)】1月13日报道 (编译:何弃疗)
对于初创公司来说,2016年是非常有趣的一年。在高估值和成为独角兽的荣耀之间,企业家一直在疯狂地追逐着私人投资者,这些私人投资者更加愿意向创企投入现金,而这种追逐却在一定程度上阻碍了创业者进入公共市场。与此同时相比于2015年,2016年的风投资金数额显著减少。
伦敦审计公司Ernst & Young(EY)报告称截至第三季度,2016年美国创业公司共募集了413亿美元,交易数量共计2802次。仅在旧金山湾区就有916次投资交易,交易数额达169亿美元。“与去年第三季度相比,VC投资有所下降,”EY美国风投领导人Jeffrey Grabow在一封电子邮件中向外媒如是透露道,“导致这种下降的原因有很多,其中最主要的是因为市场需要吸收已经部署的资本。动量投资已经冲入了风险管道的最后阶段,并且投入了几乎所有可用的机会。是时候看看这次豪赌的结果如何了?”
那么,已经到来的2017年为初创企业准备了什么呢?Grabow预测说,总体而言风险投资的寒冬仍然会持续。硅谷银行(SVB)的数据证明了这一点,数据预测2017年风险投资总额应该会达到250亿美元,相较与2016年降低了约38%。SVB给出的其他预测如下:
o由于创始人会寻求其他的方式来募集种子轮资金,因此领先的众筹平台(即AngelList、Republic、OurCrowd)相较于去年会有增长。
o初创公司需要花更多的时间来募集投资,同时在种子阶段对于债券的渴求会更加巨大。
同时我们也采访了其他几家风投公司,了解了他们对于2017年的一些预测。
M.G. Siegler,GV(前Google Ventures)普通合伙人
投资案例:Medium、Slack、Stripe、Giphy以及Periscope(2015年被Twitter收购)
问:您觉得2017年会大热的科技趋势有哪些呢?
M.G. Siegler:人工智能和机器学习将是2017年最明显的热门领域,且会保持现有的发展速度继续前行。而我本人特别感兴趣的一个分支则是:我认为声乐计算以及听觉计算会在2017年持续发力吸引更多的目光。显然,诸如Amazon Echo以及Google Home这样的产品都拿下了种子轮。去年,我预测像苹果的AirPods这样的产品也会以不同的方式拓展这一趋势。
问:2017年贵公司准备在哪些行业投资发力呢?
Siegler:从我个人的角度来看,在过去的几年内,面向消费者的技术并不怎么被投资者看好。这其中的原因很明显,我们都在静静观望,是否以及什么时候下一个大而新的平台才会出现。鉴于这种趋势本质上是有周期性的,2017年有可能恰恰是为此而准备的。
问:2016年贵基金在硅谷创业公司上投资了多少资金,占比多少?2017年这个比例是会增加还是会减少呢?
Siegler:虽然硅谷仍然是我们的核心关注点,但我相信在该地区之外我们也构建了一个不错的项目投资组合。在美国,对于那些更加传统的科技城市我们的确很活跃,诸如纽约以及波士顿,但是我们也会在像亚特兰大这样的地方有一个强大的项目投资组合,这组合中包括FullStory、Ionic Security、Luma以及Pindrop Security等公司。当然了我们也不会忘记安阿伯、密歇根州,这些贴近我们的心脏-Go Blue-Duo的所在地。除此之外,我们还有一些位于欧洲的投资组合公司。
这种地域上的多样化对于我们来说会越来越多,也会越来越自然而然。我认为在2017年,一个有趣的支线在于,会有更多的初创公司将选择在奥克兰起步而非旧金山。
问:您认为2017年科技泡沫会破灭么?
Siegler:你指的是、、、2015以及2016年反复被提起的破灭么?不,我不这么认为(微笑着说道)。
Jerry Chen,Greylock Partners合伙人
投资案例:Cloudera、Docker以及Gladly
问:您觉得2017年会大热的科技趋势有哪些呢?
Jerry Chen:AI无处不在,因此似乎又无处可寻。AI驱动的企业应用程序将会成为幕后的大脑,用以支持新一代的水平应用程序,诸如CRM以及IT帮助台,同时也会支持垂直应用程序,诸如医疗保健、建筑以及金融科技。安全问题以及数据主权问题(指那些需要在国外保护其公司及政府数据的国家)都将在未来成为国家以及大型企业优先考虑的问题之一。
问:2017年贵公司准备在哪些行业投资发力呢?
Chen:新兴技术将会成为我们的主要焦点之一,无人驾驶汽车将释放数十亿美元的新机遇。我认为在2017年我们会看到无人驾驶车辆技术的改进,这些改进包括计算机视觉,传感器和测绘技术以及AV驱动系统。就个人而言,我同时也认为诸如医疗保健以及工业等主要的垂直行业将会成为新兴创业公司的发展沃土。
问:2017年会成为IPO的大年么?
Chen:虽然我无法预测未来的估值走向以及IPO的前景如何,但是我能够放心大胆的说,我们会在2017年看到相较于过去的2016年更多的IPO。
问:您认为2017年科技泡沫会破灭么?
Chen:我不认为我们会目睹一次破灭,但是加息外加投资者逐渐能够更好的衡量风险,这一切都将导致一个新的正常秩序的出现。在今年早些时候我们经历了重大的市场调整,市场将不会再容忍所有的成本暴增以及高燃烧率的公司了。与此同时市场也会奖励那些建立竞争性壁垒的公司,对于那些能够战略性使用资金,同时能够执行高效市场导向商业模式的公司来说,2017年一定会收获满满。
Alex Rampell,Andreessen Horowitz普通合伙人
投资案例:Point、Quantopian以及PeerStreet
问:您觉得2017年会大热的科技趋势有哪些呢?
Alex Rampell:金融服务占美国GDP的将近10%,市值达到万亿美元。随着纸币的相关性逐渐减弱,且越来越多的交易在线上展开,以物理位置为中心的行业,诸如银行、保险以及投资管理,将会被逐渐削弱,也更容易被线上的对手所碾压。但是此举会更加迅速。虽然亚马逊不能囊括所有的种类,因为实体店购物赋予了购买者及时性以及试用商品的能力,除此之外,有的时候人们线下购物仅仅是为了乐趣而已。但是金钱是最终的商品,同时花时间去银行也是一个麻烦,所以可以预测在线金融未来会拿下100%的市场份额。
问:您认为未来的IPO以及所谓的科技泡沫会如何发展?
Rampell:我们没有去预测IPO的发展前进,我们暂时也不会改变投资习惯。同时我们并不认为我们身处科技泡沫之中(迷之微笑)。
Ravi Viswanathan,New Enterprise Associates(NEA)普通合伙人
投资案例:Acquia, BloomReach以及Boku
问:您觉得2017年会大热的科技趋势有哪些呢?
Ravi Viswanathan:今天的AI已经成为了五年前的“大数据”,最初的大规模炒作最终会演变为对实际问题的解决,而不只是停留在人们口中的流行词。我们将继续在应用层面和基础设施层面看到AI技术的广泛应用。
在应用层面,我们将会看到水平市场将继续得到资助和扩展,包括安全问题、数据分析及营销。金融服务、医疗保健以及零售等垂直市场也会看到更多的公司使用AI来建构软件。关于基础设施的层面,新兴领域诸如机器智能和深度学习也将持续获得投资者的青睐且茁壮成长。
问:2017年会成为IPO的大年么?
Viswanathan:开始于2016年的良好趋势会持续到2017年,更多高质量的技术公司会上市,而无需盯着他们的最后一次估值。这些交易将持续保持着非常保守的价格,同时市场上也会有一次流行趋势。这一趋势也会在未来持续进行,对于科技IPO市场来说也是有利的。
并购可能仍然不会成为2017年一个流行的大趋势,因为买家有可能会需继续等待被选择,与此同时也会继续等待“独角兽”现象被重新定价到一个更加合理的水平。当然了尽管如此,精英公司仍将以高倍数进行交易。
小程序搜索难?猎云网精品小推荐正式上线,你想要的都在这里:
本文来自猎云网,如若转载,请注明出处:/archives/262232
扫码关注猎云网
1.猎云网原创文章未经授权转载必究,如需转载请联系官方微信号进行授权。
2.转载时须在文章头部明确注明出处、保留官方微信、作者和超链接。如转自猎云网(微信号:ilieyun)字样。
3.猎云网报道中所涉及的融资金额均由创业公司提供,仅供参考,猎云网不对真实性背书。
热门关键词
用心服务创业者
扫码关注微信平台Hadoop相关―2016Cloudera 4门认证_百度文库
两大类热门资源免费畅读
续费一年阅读会员,立省24元!
Hadoop相关―2016Cloudera 4门认证
上传于||文档简介
&&Hadoop相关―2016Cloudera 4门认证
阅读已结束,如果下载本文需要使用1下载券
想免费下载本文?
定制HR最喜欢的简历
你可能喜欢

我要回帖

更多关于 cloudera hadoop 认证 的文章

 

随机推荐