问一下 大数据中的因果分 析发展趋势如何?

2019 年 12 月 5 日,由中国计算机学会(CCF)主办,CCF 大数据专家委员会承办,CSDN、中科天玑数据科技股份有限公司协办的中国大数据技术大会(BDTC 2019)在北京长城饭店拉开序幕。已经走过十余载的 BDTC,从当时仅 60 余人参加的技术沙龙到如今数千人的技术盛宴,俨然已成为国内规模空前、水平领先和影响力非凡的大数据技术盛会。

本次大会由中国科学技术大学教授、大数据学院执行院长陈恩红,滴滴出行高级副总裁、云平台事业群负责人章文嵩,微众银行首席人工智能官、香港科技大学讲席教授杨强担任大会主席,大会程序主席为微软亚研院副院长刘铁岩,北京深尚科技有限公司、前百度大数据实验室主任浣军,悉尼大学工程学院教授、澳洲科学院院士陶大程,中国科学院计算技术研究所副研究员查礼,出席主会的主要嘉宾有:

大会开始由程序主席查礼主持,随后程学旗研究员、杜子德研究员、陈恩红教授为大会做开场致辞。现场,大数据和人工智能领域的顶尖专家齐聚一堂,星光熠熠,为 1000+ 参会嘉宾带来精彩的技术分享和思想碰撞。

大数据发展趋势十大预测报告发布

在开幕式上,周涛先生代表CCF大数据专家委员会发布了《2020 年大数据发展趋势预测报告》,对大数据发展趋势做出十大预测。

周涛特别强调了今年重点关注趋势预测出现了 3 项首次出现的“新面孔”,包括关于数据融合治理和数据质量管理工具,这是扎实、深入做好大数据应用必须要克服的难题;对大数据做因果分析,基于数据做统计和相关性分析很容易,但是有观点性不代表有因果性,因果性比关联性更深入;边缘计算和云计算的结合,过去一提大数据就必然提云计算,但实际应用中发现终端智能化、终端计算能力越来越强的今天,并不是把所有数据都放到云端就是最好的模式,边缘计算和云计算结合才是应用中最常见的模式。

除了 10 大趋势预测之外,CCF 大数据专家委员会还公布了关于大数据发展的单项调研,包括最令人瞩目的应用领域、取得应用和技术突破的数据类型等。

报告总结:在数字经济时代,数据已经成为了发展的基石,趋势预测中出现的“新面孔”很多都是与数据发展的新阶段产生的特定问题对应,比如数据融合、数据质量管理、因果性分析等。一个事物发展到一个阶段,总会产生与这个阶段相对应的特定问题,这些问题的出现标志着数据应用发展的新阶段,虽然现在还没有特别深入的应用,但是这些问题的出现已经为突破新的应用带来了曙光。

Top 10 大数据应用最佳实践案例

随后,黄宜华教授代表CCF大数据专家委员会公布了《2019 年度 Top 10 大数据应用最佳实践案例》评选结果(排名不分先后):

  • 北京蚂蚁佐罗科技有限公司——《基于大数据智能的eKYC在线身份识别》

  • 中科天玑数据科技股份有限公司——《大数据助力互联网金融风险监测预警》

  • 中国联合网络通信有限公司——《基于云计算的中国联通智能化精准营销平台实践案例》

  • 北京东方国信科技股份有限公司——《基于机理模型库的流程行业协同创新平台》

  • 北京百度网讯科技有限公司——《百度大数据在智慧气象的应用》

  • 中移(苏州)软件技术有限公司——《全域旅游大数据应用》

  • 讯飞智元信息科技有限公司——《科大讯飞交通超脑研发及其在交管领域的应用》

  • 网易(杭州)网络有限公司——《网易零售行业全链路数据中台》

  • 普瑞基准科技(北京)有限公司——《支持肿瘤新药研发的大数据知识挖掘平台》

  • 北京涛思数据科技有限公司——《TDengine物联网大数据平台》

杜子德研究员、程学旗研究员、赵国栋先生为获奖企业代表颁奖。

圆桌论坛共话数字经济发展的驱动力

圆桌论坛以“数字经济发展的驱动力”为主题,在宋雨伦博士的主持下,李明、杜军平、陈扬帆、程志华、罗华霖等五位不同领域的顶尖专家就大数据与数字经济展开了讨论,论题涉及到数字经济时代下技术驱动与模式驱动相结合,驱动数字经济发展的前置条件和路径等,各位嘉宾给出了各自的深刻见解。

新思潮、新观点:大数据如何驱动智能+

1、李明:《人工智能赋能个体化癌症免疫治疗》

观点精华:38% 的人在一生中都会得一次癌症,2012 年,中国癌症患者新增 350 万,全球占比 25%;带瘤生存人员 504 万,全球占比 15%;死于癌症人员 250 万,全球占比 30%;中国人口的全球占比才

关于大会更多详细信息,点击阅读原文查看。

数据分析方法,是你去组织哪些数据,指导后续整个数据工作的开展。

本文与你一起梳理常见的7大数据分析方法,如:对比分析、细分分析、A/B Test分析、漏斗分析、留存分析、相关分析、聚类分析。

——没有对比就没有伤害

对比分析,是数据分析中最基础、最常用、也是最实用的分析方法之一。该方法主要是指将两个及以上对象的数据指标进行比较,阐述对比对象在数量上的差异,从而得出业务在不同阶段的变化趋势及规律。

比较常见的对比分析方式:从时间趋势上进行环比、同比、定基对比,从空间上进行A/B 测试对比、相似空间对比、先进空间对比,从特定标准上进行与目标值、假定值、平均值对比。

举个例子:转化/活跃指标,今天与昨天进行环比,本周一和上周一进行周同比,某个公司与行业平均水平对比......

“不细分无分析”, 这是我们细分分析时常见的一句话。足见细分分析是一个非常重要的手段,一步一步拆分,就是在不断问为什么的过程。

(1)逐步细分,是由粗到细、由浅入深,逐步进行细分的过程。

比如:销售额下降或上涨,先拆到国家、省、市/地区、门店,对比观察哪个区域变大带来的;流量质量变差,先拆到付费、免费,付费拆到应用市场、社交媒体...,再拆到Google Play、App Store、Facebook、Twitter、Snapchat等。总结下来一句话:细分是逐步细化就步步向下钻取,拆解......

交叉分析,是在纵向分析法和横向分析法的基础上,从交叉、立体的角度出发,由浅入深、由低级到高级的一种分析方法,它弥补了独立维度进行分析没法发现的一些问题。

比如:四象限、RFM模型。

——分桶才是最科学的效果评估

“分桶才是最科学的”,A/B Test是为同一个目标制定两个方案,在同一时间维度,分别让相同(相似)的用户群组随机使用一个方案,收集各群组的用户体验数据和业务数据,最后根据显著性检验分析评估出更优方案并正式采用。

比如:比如有A、B两个文案,通过随机的方式让用户看到、使用其中一个文案,然后评估两组人群的跳出、点击、使用等数据。

——每一步都是一个节点

漏斗分析是一套流程式数据分析,它能够科学反映用户行为状态以及从起点到终点各阶段用户转化率情况的重要分析模型。

常见于注册登录转化、浏览交易转化、进店销售转化等场景,通过量化每一步的转化率,来衡量一个商业或产品的成败及可优化调整的点。

比如:一款电商类APP,从用户下载APP、访问、注册、浏览、交易,计算出每一步的数值及漏斗比例。

——用户来得快,走得也快

“用户来得快,走得也快”,留存率,是做运营或用户增长的同学都必看的一个指标,它是衡量一块业务是否健康的关键指标,做好留存会带来长远的复利效应,没有留存就没有未来。

留存分析,在数据运营领域有着十分重要的地位,常见留存指标有次日留存、七日留存率、次周留存率、次月留存率、T+N日/周/月留存率等等,表示目标用户在一段时间后回访产品或回到产品中完成某个行为的比例。

比如:有100人安装且访问了APP,次日有40人继续访问,次日留存率就是40%,第7天有20人继续访问,第7天留存率就是20%...

相关分析,研究现象之间是否存在某种依存关系,从而发现业务运营中的关键影响及因素。相关关系的测定方法包括:散点图、相关系数等。

相关分析,主要有以下3种类型:

(1)单相关:两个因素之间的相关关系叫单相关,即研究时只涉及一个自变量和一个因变量;

(2)复相关 :三个或三个以上因素的相关关系叫复相关,即研究时涉及两个或两个以上的自变量和因变量相关;

(3)偏相关:在某一现象与多种现象相关的场合,当假定其他变量不变时,其中两个变量之间的相关关系称为偏相关。

比如:受教育程度与收入、学习时间与学习成绩、用户浏览页面多少与购买商品数量的关系?

“物以类聚人以群分”,聚类分析是常用的数据分析方法之一,其核心是基于数据之前存在相似性。聚类的方法有K均值(K-Means),谱聚类(Spectral Clustering),层次聚类(Hierarchical Clustering),具体就不赘述。常见于以下2个场景应用:

(1)用户细分:根据相似性将用户划分成不同的族群,并研究各个族群的特征并做业务应用。

(2)异常检测:发现正常与异常的用户数据,识别其中的异常行为。

比如:基于用户的注册信息、访问行为、交易信息(商品、金额等),通过聚类分析得到相似人群、不同人群,并对比在不同维度、指标的特征差异,制定精细化运营的策略。

以上就是整理的7个常见数据分析方法,希望对你有所帮助。

我要回帖

更多关于 大数据只讲关联不讲因果 的文章

 

随机推荐