斗大现在大数据是不是不火了很火?

我是智浪淘沙,在大数据竞赛的圈子里,大家更喜欢称呼我为浪叫兽。

如果说有什么样的人生是不如意,又出奇简单的,我应该很有发言权。出生在农村的我,从有意识开始,就对自己的‘聪明’无缘由地自信,虽然后来我发现,我更大的优势也许在于对这份自信的坚守。

上学那会儿,可能是由于不善言辞,再加上成天充满幻想,我小学和初中都默默无闻。是的,就是那种成绩中下但又不调皮,所以总被老师遗忘的孩子。但十一二岁的我也是好面子的,依然是觉得自己超聪明,长大了肯定能干些大事,然而依然不断被考分的现实所打击

进入高中,人开始长高,也帅气了一点点,成绩依然不好,玩心却大了。高中很开心的过去了,至于高考,也和最后意料的一样,黄了。但考前宣誓辞里那句‘以学习为己任’,在我心中留下了烙印。

08年去了北京某某培训机构,学了两年的Linux运维,苦于性格放不开,年纪小,学历低,在北京是没法落脚的。10年去了深圳,做过销售,做过电脑维修,12年转而回到长沙,开了间图文店,每天起早贪黑,身心具疲。体会了几年个体户的心酸后,15年在朋友的介绍下进入了国家电网系统内的一家单位,做网络运维,其实就是网管,但我内心是很激动的,毕竟是进入了世界500强排名第二的企业,收获了久违的踏实。

那种感觉就像又回到了小学一年级开学,觉得是个全新的开始,没人会怪你上学前还哭得一脸鼻涕。

浪叫兽的名字不是因为这片海

说来有点伤心,浪叫兽名字的由来源于之后2万元的亏损。

那时接触了当时很潮流的名词:股票投资。在学了假的波浪理论,假的缠论,假的量能理论,耗费了好不容易积蓄的2万元之后,萌生了新的想法,希望通过爬虫抓取股票的新闻,来分析新闻可能对股票产生某些信号。16年4月份在爬虫群里遇到了我Python的第一个老师,大鱼,我亲切的喊他为鱼神。几个星期的学习下来,从Python爬虫,数据入库,到用js的网页方法展示股票数据,很简单就完成了,顺带还学了flask

尽管还在亏,但在逐渐放弃股票投资的同时,我在数据分析上,找回了小时候那份不安分的自信。

由于需要对数据进行处理,我加入到了pandas库学习群。在牛叫兽的耐心指导之下,很快融会贯通。因为总是噼里啪啦提一堆问题,短短的一个月,我就在pandas群里获得了叫兽的称呼(叫兽是当时群里一种积分排名,发言越多越活跃的就被标记为叫兽)。

我喜欢被人那么叫,因为这在群里是活跃的人才能取得的头衔,在我看来我是多么的热爱学习才能获得这样的头衔啊。

当时我很羡慕牛教授的工资待遇,1万2左右吧,在上海可能不高,但是对于在长沙待遇只有4000的我来说,却显得遥不可及。所以当牛叫兽说他想学机器学习的时候,我随即和他一起入坑。当初下载过一份黄博的机器学习笔记,从他的群里,拉来了20多个朋友建了个新群,我机器学习的生涯就这样开始了。

大概一个月左右,群里的mat说群主你这么好学,不如去玩玩比赛吧!然后他就抛了个网址,于是我遇到了人生中的第一场大数据比赛,携程赛。想起来觉得当时很逗比,没有使用过sklearn,xgboost,lgb,各种算法也只通过一个月中看的概率图模型,统计方法,数学建模算法大全了解了一些皮毛。要知道,在参赛的前一个月,我和牛叫兽,chengxu,Silence,在我们自己的小群里交流的都还只是一些算法的简单理解,还有hadoop,pyspark,sql之类的。

本身Silence曾经玩过滴滴的比赛,好像排名还很靠前,说是一起玩比赛带带我,我还挺欣慰,但他要考英语证书,便没时间指导我。我就厚脸皮的在携程赛的群里,不惧他人的嘲笑,用最简单的散点图,和柱状图,表述我的理解和分析。李老师,钢的弦,世超,就是在那时认识的。

依稀记得当时yesboy(曾荣获“猜你喜欢”比赛冠军),说他使用xgboost算法,在携程赛中获得了前5,而那时对我来说,xgboost还是一个陌生的名词。就像第一次听说股票投资一样,我花了一天的功夫,就安装好了git,mingw,编译、安装、测试xgboost,其实无非就是在网上多搜索了一些文档,哪里有旁人说的那么难。安装完成xgboost,他不过是一个冰冷的库,接下来该怎么办?

当时黄博群里有一个人,人称海淀吴彦祖,据说是玩kaggle的,这人一定很牛啊!想来xgboost对他来说肯定也很容易。果不其然,他耐心得指导我,告诉我如何调参数。可我却呆住了,一脸蒙逼的问不下去,因为我甚至不知道什么是参数。然后他说了一句话,让我在整个比赛生涯中都持续思考,他说,这一切都是套路。

也是在那时候,我知道自己要做爸爸了

Silence考证结束后,我们和世超,李老师(五个月就拿下了天池数据科学家的大牛)mat,纳蓝,钢的弦,组了个携程赛的小交流群,大家对我这个新人都很照顾,一起交流学习倒也畅快。而正当此时,破特曼,以0.17的bug成绩霸了携程赛的榜,心有不甘啊,为啥人家能拿到这么高的分,我却不能?

便找到了海淀吴彦祖,嚷嚷着xgboost的简单使用我已经会了,快教教我其它的,并萌生了想和大牛组队的想法,可惜的是,大牛都是抱团打仗的,海淀吴彦祖和破特曼居然是队友(在我后面的经历中,这个组合一直好强)!最后,携程赛钢的弦和yesboy进了前五,世超也挤进了排行榜前十,至于我,倒还没什么拿得出手的成绩。

携程赛完了,比赛的热情却没有熄灭。在我们那个吵闹的群里,他们说今日头条赛是yin叔和老王的约战赛。我想,牛X了!这两个人是谁?竟然能约战,简直和华山论剑一样,那就去凑凑热闹。下载了数据,忙活一阵排名却始终在100多名,总还没找到数据挖掘的关键。机缘巧合下,mat带我我加入了一个大数据交流群,在那里看到了老王开源的规则代码,也在交流的过程中,认识了苍老师,yin叔,又收获了一群有意思的朋友。

我当时还看不懂R,而牛叫兽已经完成了hadoop的学习,并开始涉足R。下载了老王的规则代码后,便急忙喊牛叫兽帮忙翻译代码,等再提交了答案,发现居然嗖的一下就跑到了前30。当时瞬间觉得老王厉害啊,简单的两三句代码居然能让我突破那么多,顿生仰慕,不过那时海淀吴彦祖和破特曼的组合都已经前十了,我和他们的差距还需要更多的时间追赶。

竞赛圈子说大很大,我从来不知道数据挖掘能有这样多的高手,当身边都是研究生,甚至博士生时。我坚信,我和他们一起真诚交流,就能有所收获。我要做的就是和携程赛时一样,敢于交流我的想法,敢于真诚的去探讨。尽管在这之后知道了交叉验证,网格搜索调参,还有多模型融合,也并没有让我的今日头条排名继续靠前,但知落,东哥,等等小伙伴的共同激励尤为宝贵。

在群友发布的信息下,知道了DataFountain在举办CCF大数据竞赛。因为在电网系统下的公司工作,一个是想借由此次比赛,获得经验,二是想通过用心地参与,尝试转型数据挖掘岗位。便报名参加大赛11道赛题中国家电网的用电异常行为分析赛题。

刚刚开始玩,发现第一名在排行榜遥遥领先,很快在DataFountain技术交流群里也认识了这位可乐,呀,一个新大牛kaggle master ,心里非常崇拜。当时我还在30多名左右,在和群里的小伙伴交流的过程中,渐渐学会了简单的特征工程。

命运总是在你贪婪的想依靠他人的时候给你打击,事实上,破特曼、海淀吴彦祖和可乐因为能很好的合作,组成了队友。出于一种想挑战强悍的情怀,在群里我大喊了一句“谁和我一起干掉破特曼?”,就是想成绩接近这几个高手,甚至和他们拼个高下。

随后拉上小水,老王,苍老师,mat,钢的弦交流分析赛题和数据挖掘技术,短短的几天时间里在他们的帮助下又学到很多新知识,而且机缘巧合的情况下还从某位群友给的思路中学会了稍微高级一点的特征工程,并由此设计了可以生成高纬度特征的特征轮。我、mat,钢的弦,再加上两位非常热爱数据挖掘的小伙伴,组队‘隐马尔科夫联盟’,杀进了复赛,在这之后是拼命地一遍遍阅读学习书籍和浏览博客,一遍遍向金老师,还有我电网系统的一位朋友兼对手的探索,最后受邀答辩,获得了用电行为分析赛的第二名。不过,真正的实力总能压制着我,破特曼他们收获了该赛题的第一名,并且在线上的分数远超我们,虽是没有追上他们,倒也很欣慰。

觉得当时的红领带有点可爱

在CCF赛答辩的盛会上,见到了很多人,其中有中科院院士,以及各种机器学习,人工智能,数据挖掘的领军人物。也和破特曼、吴彦祖面基成功,交流甚快!一轮答辩后,国网信通产业集团的领导,很亲切的给了我们参赛成员名片,说欢迎各位人才加入国网信通产业集团。那时我是激动的,不过深知我这点能力还远远不够进入那里工作,一个比赛排名并不能说明个人能力,或许只是我个人运气好而已吧,所以当时并没有立即跟进想法,去转型到电网大数据研发类工作岗位。通过这次比赛,不仅仅为了工作,也真正感受到了数据挖掘的魅力,如何对数据的处理,并通过掌握数据的规律,推动各种行业的发展,让数据成为行业的肥料,促使其茁壮成长,感谢DataFountain

可能出于内心虚荣的膨胀,我写了篇文章讲我在这次CCF 大赛中的经历,没想到引来我身边很多亲戚朋友无数的赞赏,甚至因此直接获得了湖南一家本地企业的邀请,从事大数据技术的研发和建设,并开出了2万一个月的待遇。不过我内心还是很自卑的,一个是我无法接受如此好的待遇,那让我惶恐。二是我自知不足,对金融行业并不了解,三是如果我带领团队,给企业带了损失,我也无力承担。出于这些想法,我还是委婉的拒绝了这份offer,但我很开心,要知道,那么多年,我几乎已经快忘了受宠若惊的滋味。

大数据竞赛是个神奇的圈儿

对数据挖掘岗位的追求,让我没办法停下脚步继续参赛,通过近半年的学习和努力,终于大致了解了海淀吴彦祖曾说的套路。在另一个助学金的比赛中,我准备用我在CCF大赛中所学的数据清洗+特征轮+多模型+参数调优的数据挖掘套路玩助学金比赛,直接用上用电分析赛中所总结的特征轮思路,仅仅加上简单的模型,很快就获得了助学金排行榜的第二名,激动得喊上前期交流的赤子之心,钢的弦,mat,还有我当初学pandas一起的伙伴chengxu,组队“贝叶斯部落”,正值过年,通过融合技术,在过年之前拿下了助学金第一名的排行榜。

但在年后,我们很快的再次被破特曼,不思蜀组的BUG队超越,而此时他们也在另外两场比赛取得了极好的成绩。那已经逼近我的上限了,眼看第一的位置就这样拱手相让了,突然我队友赤子之心爆发了,直接用了他的单模型+特征,霸了助学金第一,以超出第二名非常高的成绩,在助学金更换数据之前,霸榜了一个月之久。在换数据之后,可能是因为之前并没用针对我们的最佳方案设计融合框架,最后和三剑客并列第二,憾别第一。

大赛刚答辩完,由yin叔喊话,我们和神经网络keras群群主莫言、老王,以及在比赛中收割了三个比赛的两个第一,一个第二的BUG队等总计15人组了饭局。yin叔是在国企工作的老职工,不论是在答辩会场,还是在平时的群里交流,yin叔都是以兴趣为导向的玩着竞赛,让人敬佩。莫言和他的室友,研究生还未毕业,就已收获了腾讯和大疆的正式offer,对神经网络有很深刻的认知。老王呢,是个很可爱的博士,平易近人,已经在老牌外企获得非常自由的工作。我的队友赤子之心,在部队的他,是因为对数学的追求,才来玩大数据比赛的,未曾想过第一次参加比赛就获得如此好的成绩。当然还有很多在校和在职,还有和我一样刚要入职的朋友,至于BUG队,破特曼你们在我的故事里应该已经很熟悉了。大家把酒交谈,那是一种极其享受的,所谓志同道合的一次畅怀。

在CCF赛后,在DataFountain和国家电网组织的研讨会上,由于突出的表现和对数据的直觉,让参会的专家和国网信通产业集团的领导对我颇多赞赏。于是我便抓住机遇,向领导请求进入信通产业集团旗下做大数据挖掘工作。从北京的研讨会归来,很快的制作了一份个人简历,立即发给信通产业集团的领导,没想到领导二话不说立即将我的简历发送给了旗下的一个公司,随后没过多久就和HR取得了联系。

后来接到了一通来自国网信通产业集团下项目经理的电话,说有个项目在我现在所在的城市启动,项目是整套的大数据搭建 + 挖掘,不仅接触从各个系统汇总的业务数据,也涉及相关设备的采购。对我来说是,这是非常难得的机会。信通产业集团的知遇之恩,再加上一直在电力系统旗下的产业工作,我个人对电力系统颇有好感,我相信在这个岗位上,我将收获一段非常丰富的人生经历。自此从16年的4月份开始入门Python,到17年的3月份的经历,让我真正进入了潮气蓬勃的大数据行业。

一路走来,感触颇多,一直以来都是在职玩比赛,其实很多时候,说实话,很累。不过在比赛过程中,不论是遇到大牛的关照,还是遇到比我更牛的“新人”,置身在他们中间,我的人生被他们带动着往前发展,也在这一年中,我从单身到完婚,再到有宝宝,我是极满足的。

我时常想起,儿时那股子无缘由的、后来又瞬间破碎自信,而我现在,已经可以平静的说,我又拾起来了。努力的人很多,我只是运气好而已,虽然是运气,我还是想说那是努力得来的。永远不能磨灭一个人想努力的心态,去追赶自己想要的生活,不需要很好,至少能说是平凡的一生。

这,就是浪叫兽的,微不足道的故事了。

京东JData算法大赛,是由京东创办的面向全球大数据人才的系列算法竞赛。第一届由京东和Intel同举办,DataFountain承办,主题为“高潜用户购买意向预测”。

除了一道赛题就高达60万的奖金外,还有大量的SP Offer直接发放,在3.19日-5.25日两月有余的赛程后,获胜者的算法有机会直接应用于2017年京东“6.18”购物节!

阅读原文了解更多京东JData算法大赛

【猎云网(微信:)北京】527日报道(文/吴韩)

中国法务市场诉讼业务已是个人用户和小企业的刚需,但律师行业是最不透明的行业之一。用户和律师之间存在严重的信息不对称,用户倾向于选择熟人介绍或直接造访律师事务所来找律师,导致没有广泛熟人圈子的律师没有客源以及一些法律知识薄弱的用户找不到匹配的律师。

法斗士是一家通过大数据分析建立律师业务能力评估体系的法律服务搜索网站,通过行业资质、法院案例、胜诉率、即时比价、用户点评等信息的公开来推进律师行业的透明化,达到用户有律师,律师有客源。

法斗士创始人兼CEO许开辰告诉猎云网:“互联网搜索律师正在兴起,但竞价排名的广告无法取信于用户。我们通过大数据分析来解决用户需要律师以及律师需要客源的问题。”

法斗士提供丰富的数据给用户更好的体验,使得用户、律师精确匹配,用户通过法斗士网站可以免费找律师咨询任何方面的法律问题,法斗士都会有相关领域的权威律师进行答疑,用户比较认可那个答案就可以查看哪位律师的所有资料以及用户点评,来帮助自己选择适合的律师。至于用户到底选哪一位、是否最终达成委托协议,这些仅仅发生在用户和用户选择的律师之间,法斗士不予以干涉。一旦交易达成,法斗士向律师按交易额CPS收费。

2014年4月,法斗士就亚马逊一案发起帮助网购用户“集体维权”,并在活动中胜诉,因此被大家所认识。目前法斗士依然在坚持为用户做公益诉讼,如果败诉,法斗士承担一切诉讼成本,并且法斗士在2013年5月已获清流资本200万美金天使投资。

目前法斗士已采集并分析了1000多万份判决文书,且在以每日1万份的速度增长。并且,法斗士还采集分析了北上广深6万份执业律师的执业信息,通过资质信息、案例经验、专长领域、胜诉率等标准来筛选优质律师。

法斗士已收录了6万名律师,其中包括注册律师3000名,付费律师400名。并且日活在2000人以上。

许开辰表示,律师行业低频高价的现象导致法律服务类网站用户流量稀缺。法斗士通过扩大线上推广投入、流量入口合作(用优质的内容换取流量)、线下人群密集处获取流量(法院地推+社区咨询会)等方式来获取用户。目前法斗士的流量还在持续增长。

用户为法斗士网站推介新用户,平台会根据新用户的消费情况奖励用户一定数额的佣金。例如,新用户通过法斗士网聘请律师支付10000元的律师费,用户可从中获得300元的推广奖金。在介绍他人找律师后,用户只需提交此人的电话号码即可坐等奖金。法斗士网不会向任何人披露相关信息。

法斗士也会免费帮助资源有限的中小微企业快速(十分钟)、高效地定制个性化的专业劳动合同。

法斗士创始人兼CEO许开辰,耶鲁大学法学博士,欧华律师事务所前合伙人;CTO骆军港,先后就职于新浪网、世纪佳缘,拥有10年互联网开发和管理经验。

许开辰表示,未来法斗士会把发展重点放在丰富数据及获取流量方面。

据猎云网了解,法斗士正在积极洽谈A轮融资。

公司:北京选能科技有限公司

1、猎云网原创文章未经授权转载必究,如需转载请联系官方微信号进行授权。

2、转载时须在文章头部明确注明出处、保留官方微信、作者和原文超链接。如转自猎云网(微信号:

3、猎云网报道中所涉及的融资金额均由创业公司提供,仅供参考,猎云网不对真实性背书。

轻点手指,最优出警线路便可在手机上实现一键导航,同时周边的水源位置及救援力量部署也能实时掌握……这是杭州消防部门“指尖战勤”大数据应用平台的一个缩影。现如今,杭州消防支队已实现“传统消防”向“现代消防”的跨越。

“指尖战勤”大数据应用平台到底有多厉害?

10月22日上午,杭州消防支队参谋长陈骏华向记者演示了“指尖战勤”APP的操作情况。

“指尖战勤”APP首页

进入“指尖战勤”APP首页,“我看现场”“发布战警”“战斗指挥”等多项灭火救援时的应用被设置在最显眼的位置,对现场指挥员来说,操作起来十分方便。“这是一款充分运用大数据、云计算、移动互联网、地理信息等技术,辅助消防部队灭火救援作战和日常基础性数据管理采集的数据应用平台。”陈骏华说。

他介绍,“指尖战勤”APP实现了灭火救援一张图指挥、一张图调度、一张图分析、一张图决策,通过一键导航、一键查询、一键绘图等功能,解决了消防出警“路难找”“水难找”“人车混乱”“现场不清”“战评无法推演”五大难题,“现场所有战斗任务的分配都可以一键导出,有利于后期战评分析,提高指挥员作战经验”。

火场周边水源情况一目了然

“任何一名指挥员都不可能是‘百科全书’,但任何一次灭火救援任务又要求指挥员做到‘百事通’。”陈骏华解释说,随着社会经济的不断发展,高层、地下、城市综合体等复杂建筑形态不断出现,对消防部队的灭火救援能力提出了更多、更高的要求,“而‘指尖战勤’大数据应用平台中储存的大量包括消防水源、单位预案、危化字典册等灭火救援基础数据,能为指挥员在到场前制定作战方案提供很好的参考”。

2016年12月12日18时,位于下沙1号路23号的杭州朝阳橡胶有限公司发生火灾。杭州消防指挥中心先后调派了20个中队47辆消防车267名官兵赶往扑救,经过27小时的奋战,终于将大火扑灭,成功保护价值数亿元的生产车间和仓库。

“这起火灾的成功救援过程中,‘指尖战勤’发挥了很大作用。”陈骏华说,在27个小时的战斗中,在每一辆消防车抵达前,平台地图都能为其找到最佳的水源位置;而267名官兵如何调派,“指尖战勤”更是为指挥员的决策提供了科学参考,“任何指挥员都可以实时掌握火场内每组救援力量的配置情况”。

不仅如此,“指尖战勤”APP还配有行业内首个装备动态管理系统,借助全息可变二维码技术及拥有自主专利技术的“装备动态管理手持终端”,可对每一件装备的库位、状态、维保信息等静态数据进行查看,对装备的调拨、清点、盘存等动态操作也能一键式完成,所有装备数据全程监管。

接下来,杭州消防支队将在完善优化“指尖战勤”APP各项功能的基础上,进一步研发模块类别,并计划打通微信公众号的数据链接,让市民针对火灾隐患的举报能实时移交给辖区消防大队进行处理。同时,他们还计划利用该系统整合治安、交警、安监、水务、环保、工商等部门数据,创建一个“数据实时共享、进程可视监管、战斗快速准确”的智慧消防体系。

我要回帖

更多关于 现在大数据是不是不火了 的文章

 

随机推荐