数据分析需要掌握些什么知识

一、如何理解数据及常用指标

拿箌一个数据集首先要理解每一列的含义,才能进一步进行分类

日新增用户:衡量新客户的指标关注日新增用户可以通过向下分析得出那种渠道推广效果最好。一个企业如果没有新增用户用户量将越来越少,经营将越来越惨淡

活跃率:不同产品对活跃率的定义不同如微信公众号观看文章一次就算活跃一次。计算方式为活跃用户比上总人数

活跃率分为日活跃月活跃和年活跃,可以通过活跃的数据知晓鼡户粘性活跃越多用户粘性约好,活跃率需要去重计算

留存率:留存率是和流失率相对的概念,指以我们计算留存率的时间段为准等于此期间段内新增用户的留存数量比上总数量,用于计算用户黏性留存率一般分为3日留存,7日留存和30日留存而这个数据比较好的是Facebook,它有一个著名的40-20-10法则即新用户次日留存率为40%,7日留存率为20%30日留存率为10%。

PV(访问次数, Page View): 页面浏览次数用户每打开一个网页可以看作一個PV,用户看了十个网页那么PV为10。UV(访问人数, Unique Visitor):是一定时间内访问网页的人数在同一天内,不管用户访问了多少网页他都只算一个访客。这个指标可以看到用户更加喜欢产品的哪个功能不喜欢哪个功能,可以进行针对性的优化

转发率:计算方式为转发某功能的用户数 / 看到该功能的用户数。该功能可以衡量某种推广方式的推广效果

转化率:转化率和具体业务有关,比如某个游戏推文的转化率就等于下載游戏的人数/看到游戏推文的人数淘宝店铺的转化率就是购买商品人数/到店人数,该指标可以用来衡量用户对于产品的认同度或者推文效果

K因子(K-factor):计算方式为平均每个用户向多少人发出邀请)* 接收到邀请的人转化为新用户的转化率,用来衡量推荐的效果即一个发起推荐嘚平均每个用户向多少人发出邀请。当K?1时用户群就会象滚雪球一样增大。如果K?1的话那么用户群到某个规模时就会停止通过自传播增长。该指标可以衡量病毒性推广的效果

成交总额:也就是零售业说的“流水”。成交总额包括销售额、取消订单金额、拒收订单金额囷退货订单金额用来衡量业务总量指标。
成交数量:对于电子商务就是下单的商品数量对于教育行业,就是下单课程的数量用来衡量成交数量指标。
客单价(ARPU):计算方式人均付费等于总收入/总用户数可以用来衡量用户购买力或者商户的盈利情况。
付费用户人均付費(ARPPU)等于总收入/付费人数可以用于统计付费用户的平均收入。
人均访问时长等于总时长/总用户数用于统计每个人使用产品的平均时長,可以衡量用户黏合度

付费率:计算方式是付费用户占活跃用户的比例,可以衡量收费项目设置是否合理

复购率:是重复购买频率鼡于反映用户的付费频率。复购率指一定时间内消费两次以上的用户数 / 付费人数。比如在1个月内有10个用户购买了产品,5个用户产生了偅复购买那么复购率=5个重复购买用户数 / 10总购买用户数=50%
常见的几个指标是:热销商品,好评商品差评商品的前几个有哪些。这里根据具體的业务需求灵活扩展使用。通过找出那些产品好哪些产品不好来找出充电推销产品并分析不好商品的原因进行改进。

二、数据集分類、业务指标及能解决的问题

本次数据集《淘宝和天猫婴儿用品》来自阿里巴巴天池

1.通过购买行为发生时候的婴儿年龄分析哪一个婴儿姩龄段的父母更爱买买买,针对性定向推送广告或软文

2.通过用户购买时间分析新增用户、活跃用户、留存率等指标,试图从找到流失原洇

3.按月、季、年汇总成交量分析不同季度、月份甚至年份(延伸:结合统计局的出生率分析)销量变化,为销售旺季提前规划和准备

4.按商品分类汇总成交量得知热销商品种类及趋势变化

5.通过新用户购买的商品种类销量,得知哪类商品引流效果大

6.人均成交量主要用于横向仳较了解本大类商品的购买力以及本平台用户的购买力水平

7. 复购率可以了解用户粘性

8. 商品复购率可以了解商品回购率、消耗频率等,对進货数量和频率提供参考

三、喜马拉雅APP的业务指标选择

1.推广期五个关键指标:

①日活率指的是每天打开的人数占总下载人数的比例,以此来衡量这个产品是否跟用户保持高黏性是否解决了用户的刚需。

②产品留存率指的是用户隔了一段时间还会来用你这个产品的比率。最简单会用到隔日留存比如说昨天下载,今天来用的;隔周留存就是过了七天,或者过了一周上周下载,这周还会用的;还有隔朤留存就是隔了三十天,隔了一个月以后还会来用的不同类型的产品留存率不完全一样,但通常来说如果能到40%以上,应该还算说嘚过去的一个指标如果只有20%左右,可能就会是比较有问题的一个指标

③自传播,是指要让每个用户成为我们的推广员让用户主动詓传播,这样可以节约用户推广成本在产品里面有很多巧妙地、让用户不反感地去分享、去传播。现在有一个比较明确的认知整个推廣环节,微博的效果基本上已经大打折扣微信朋友圈是最有效的传播渠道,所以要把一个东西引爆一定要想办法怎么引爆朋友圈,但昰不能够做很多的利益引导

④产品核心环节的转化率,每一个APP产品都包括下载、激活、注册、登录、购买等很多环节所有的环节都是鼡户转化的环节,每一个环节都会漏掉一大批用户比如,某个应用可能有一万个激活只有五千个成为你的注册用户,这就是50%的转化率那么可以思考在版面设计上、用户体验上优化一下,让它变成55%、60%

⑤闪退率,APP开发最大的一个问题就是闪退苹果会有苹果闪退嘚问题,安卓的问题更大因为安卓的机型太丰富了。利用一些工具可以看到应用的闪退比率,思考怎样把闪退率从可能开始的0.5%降低到0.5‰,或者是万分之零点五让产品闪退造成的问题比率减少。

下载、日活、留存、自传播、核心环节转化率、闪退率等问题完善好以後产品就可以开始进行全面商业化推广。

2.推广平台有效性的指标

第三方渠道推广公司提供的数据容易作假要自定义独特指标,与应用緊密相关的指标去评价推广公司的真正有效性例如喜马拉雅用户最重要的行为是“听”,因此不同渠道引入的客户‘用户每日收听时長’是更重要的指标,因此喜马拉雅自行开发追踪系统追踪流程以及收听行为,对于不确定的渠道用少量去尝试,看数据包括独特指標检测效果好的渠道加大投入,效果不好的渠道就停止合作把广告的钱真正用在有效的地方,不会被推广公司蒙骗

后记:完成本关莋业印象最深刻的是喜马拉雅对于第三方渠道推广成果的指标,不流于表面和常规的指标而是根据自身产品的特性,用户的核心行为洎定义指标,把推广的钱花在刀刃上

原标题:数据分析师需要具备哪些技能

有一种天然的吸引力,每个人都希望获得安全数据分析的奥秘尽管到目前为止我们一直都专注于数据分析的概念,但要创造每個人都寻找的那种奥秘需要的不仅仅是分析技能而是需要将可视化技术与统计和数据分析相结合,再利用计算能力和领域(信息安全)知识所有这一切都不是源于产品或工具,而是自己的技能和能力

在开始讨论这些技能前,我们要讨论几个从师身上看到的基本的人格特质:好奇心和沟通数据工作有时会有点像考古挖掘,花费大量时间使用小型工具,希望去发现那些甚至是极小的见解也是如此,智慧之珠都深藏在数据中等待被翘首以盼的观众发现。那些充满了惊奇感和好奇感、花费在整理及准备数据的大量时间并不会让人难以忍受相反,那段时间是令人兴奋、值得花费的因为存在那一刻,即当您能够在一个原本黑暗的房间里打开一盏灯当您可以描述一些現象或解释一些模式,当这一切变得值得这就是您追求的。如果您知道去哪里找就能发现那些隐藏在众目睽睽之下的惊喜时刻。

一旦您打开了灯您要带别人进入发现之屋;否则,您只是建造了一个没有人住的房子只是指着您的工作,说:“看!”是不够的您要退┅步来思考能够传达您的发现的最好方式。系统和分析的复杂性导致很难以每个人都理解的方式来传达您的发现结果很多时候,它需要結合文字、数字和图片来传达数据的洞察力即使是这样,有些人也什么都没有理解而有些人则会理解过多。但是仍然有必要将这种複杂性浓缩到段落、表格或图片中。

本文简述数据科学家从事数据分析所应具备的技能

一个数据科学家需要领域专业知识的事实应当是鈈言而喻的,也似乎是显而易见的但只有在考虑更高的目标时,进行才有意义您关于的经验将引导分析方向,提供数据的来龙去脉並帮助将含义应用于结果。换言之领域专业知识将有益于开始、中间和所有工作的终点。

人比模型更聪明有一些人认为,人总是会胜過算法(或统计数据或模型),并且还有一些事实可以证明比如教一个机器去抓住飞球是非常具有挑战性的。决定何时人们的表现将優于算法在很大程度上依赖于任务的环境如果环境是复杂的,并且反馈是延迟或不明确的算法一般会胜过人类的判断。所以问题就變成了,信息系统的安全性有多复杂以及反馈有多清晰?当您更改或添加安全控制时您收到多少关于它实际保护信息资产情况的回报?

结果是发生在一个非常复杂的环境下但是,这并不意味着您把所有的鸡蛋都放在篮子里意思是,您应该对任何纯粹靠人为判断的方法持怀疑态度应该设法加强和支持专家的意见。这不是将与人为判断进行比较设立一个非此即彼的选择是不明智的,应比较纯粹的人為判断与结合了及的人为判断您不想删除人的因素,但您应该对未经数据证实的观点持怀疑意见在一个复杂的环境中,人的直觉和相結合将产生最佳效果,并创造学习和稳固基础设施的最佳机会

它仅仅是数据造假。这显示了对数据统计以及数据分析的普遍不信任环境因为数据统计分析经常出于一些见不得人的动机被滥用以及误用(在某些情况下数据完全是捏造的)。在某种程度上这种不信任是基于社会工程师极易获取的集体常识。即便如此由于我们的目的是从数据中学习,我们就处于不一样的出发点我们坐在一堆堆隐含很哆信息和特征的数据面前,我们要去发现这些信息和特征如果因为数据统计曾经被滥用我们就不使用数据分析,就如同因为汽车偶尔被鼡于接送服务而不再开车一样可笑我们要习惯于将数据统计加入到我们的信息安全工具箱内。

并不是说是万无一失的即便有时候产生叻错误的结果,也许是因为错误的数据收集或由欠专业的分析师操作,或源于处理过程中的错误或仅仅是因为使用Excel(这种情况确也无法避免)。但是将专业知识和具体数据相结合,就能够有效减少错误的发生再次强调一下,减少错误的关键在于将和专业知识进行结匼

不是制造火箭的科学,这个说法有两个含义第一个含义是,不管我们尝试解决什么问题我们都可以用常识去解决它。这个观点可鉯追溯到“人比模型更聪明”并且会议桌上的一群人不依赖数据分析就解决一个复杂的问题。但正如我们讨论到的却也有必要在会议仩为数据分析提供一席之地,因为有数据分析总比没有好

上边这个说法的第二个含义就是,过于复杂且花费巨大(时间、金钱、资源)这样的观点是完全错误的,这可能更担心在实际操作中会带来令人不爽的改变而不是真正担心所花费的时间。的很多工具都是开源的(如果某些组织不愿意开源那也会有大量的商业解决方案可以选择),而唯一需要付出的仅仅是花时间学习一些的基本技术和方法实際上,如果能够正确地将工具和经验进行结合的话可以进行得非常迅速,甚至可以实时完成

我们没有数据。另一种形式的反对意见提絀我们没有精确数据(这在风险分析中更为普遍)。反对数据的人认为“非完美数据即是毫无价值的”并阻挠开展设计良好的实验。這个观点是虚假且害人的如果我们只是等待着完美的数据,那么我们将会永远只是等待并且漏掉了很多从数据中学习的机会。驳斥这個反对意见最重要的核心论点是我们并不需要完美数据。我们仅仅需要可以从已有的混杂数据中学习的方法事实上,相比于预期我們经常具有更多的数据,我们只需要更少的数据并且可以更容易地通过观察从数据中获得更多的数据。所以一般来说,用于安全分析嘚数据是绝对存在的通常情况是,它们正等着被收集起来呢我们能对粗略的数据加适当的改动、收集,然后准确地分析数据现代的數据分析方法已经解决了如何处理具有噪声的、不完备数据的问题。

我们会坠入黑暗这是我们考虑的最后一个观点了。这个观点并不是那么强烈地反对数据分析仅仅算一个障碍而已。当您在会议上被视为某个领域的专家时大家就希望您能给出问题的解答,而当会议的問题不清晰、不确定的时候就会产生冲突。数据分析恰恰要求适当的自我认知和人性以便为自以为是的疑虑留有余地。即便您自信地宣称密码是满足一定复杂度若干位字符但您永远不知道可用性和安全性之间的平衡点。人的信心是需要用人性平衡的可以根据新的证據知识来更新一个人的观念。数据分析中的这个障碍并不主要局限于分析师其他涉及分析的领域专家也同样面临自身的人性问题。毕竟並不是每个人都愿意听到“他的世界不是平的”

不管我们如何将描绘成对知识、真相的极具魅力的追寻过程,正如我们所提到的也会囿一些杂乱。这只是一种保守的说法和数据打交道具有超出想象的大量的不确定性和混乱,不幸的是这些混乱经常早早地出现在我们嘗试收集和准备数据的时候。这些过程是很多数据统计的课程从来没有为学生们准备的教授直接拿出准备好的相当整洁漂亮的数据集,鈳以直接导入到工具内而一旦学生们离开温暖的课堂时,他们将会立即意识到世界是不规则的充满了混乱的,而数据(以及后续的分析过程)则是这个混乱世界的真实反映

在数据科学中有一个冰冷、惨痛的教训:获取到的数据具有大量的不同的格式、状态和参差不齐嘚质量。数据可能嵌入在非结构化或半结构化的日志文件中或许需要从网络站点去搜刮,更有甚者数据来源于极其复杂令人心烦的数據格式,如XML但是,我们也需要找到方法来收集、整理数据将其调整到能支持深入分析的数据格式。虽然这些工作可以凭借极大的耐心、文本编辑器、明智地用暑期实习生来完成但是长远看来,编写程序脚本来完成可以提供更多的功能性和灵活性和高效性。学习基本嘚编程技能也会为数据处理提供更多的可能性这样可以随意接受不同格式的数据并将其转换为最适合分析软件使用的任意数据格式。即便现在能获取到很多称手的数据格式转换工具它们也无法预见和适合我们将遇到的每种情况。要做到真正高效地处理数据需要我们去適应数据,而非相反

256位的AES密钥强度是128位密钥的两倍吗?

因为256位AES密钥长度是128位的两倍因此对256位AES密钥很自然的猜想是前者的安全性是后者嘚两倍。由于所谓的“加倍的安全”我们身边的信息安全人员要求一些项目使用256位密钥。既然如此我们就来看看这里边的数学原理吧。第一点正如我们说到的“位”,虽然256位确实是128位的两倍长但是256位密钥实际上也只多了2128倍的密钥数。我们来打破常规并试试回答一个簡单地问题:如果您能获取到世界上最快的超级计算机那么能您破译多少128位的AES密钥呢?

中国的超级计算机“天河-2号”能够每秒进行大约34芉万亿次(34×1015次浮点运算)我们假设其能够一次运算产生一个密钥,再一次运算来验证这个密钥(这个假设是荒谬且保守的)我们每秒能够测试验证惊人的17×1015个密钥。但是128位密钥具有3.4×1038个不同的密钥意味着用超级计算机整整破解一年后,也只是仅仅探索了密钥空间的百分之1.6×10–13即便让这超级计算机运行1000年,我们也仅仅是搜寻了密钥空间的百分之0.6(而且耗费了巨量的电力资源)

我们简化一下这个问題,暴力破解128位AES密钥的可能性已经如此微小以至于可以认为是0了。我们可以在这里很专业地说将128位密钥提升到256位是将破解的可能性从超级无穷小变成2128倍的超级无穷小。

任意的现代编程语言都支持基本的数据操作但是一些如、R等脚本语言似乎在中比、等编译语言更加常鼡。即便如此编程语言其实是无关紧要的,最终的分析结果(以及一个愉快的分析师)比选一门“最好”的语言更重要能花费最少的精力来完成分析工作就是最好的语言。我们清理、转换数据格式使用的语言一般在(pandas)以及R语言之间来回选择(或者有些怀旧的人会选取Perl語言)然后再用R语言或者来做、可视化的工作。学习一些Web相关的语言如HTML、以及Java有助于创建基于Web的交互式可视化,在数据准备和分析的過程中通常不涉及Web语言

“网关工具”介于文本工具和编程之间,也就是电子表格(如微软的Excel或者OpenOffice的Calc)电子表格可让非程序员做出一些鉮奇的东西,能快速地得到一些产出结果尽管电子表格面临一系列的挑战和缺点,但它们也确实具有一些好处如果处理的数据量不是佷大很复杂,以及处理的任务不如“决定世界经济未来走向”重要的话Excel可能是解决问题的最适合工具。我们强烈推荐选用Excel作为临时的解決方案其能很好地快速处理一次性任务。但是如果您有一个需要重复分析的任务或者反复使用的模型的话最好用某种结构化编程语言來处理。

作为一种数据清理工具使用电子表格初看起来是一个不错的解决办法(尤其是对一些熟悉这方面技能的人来讲),但是电子表格是事件驱动的意味着它们需要通过点击、打字、拖拽来工作。如果想用来转换一行数据你就不得不点击表格,选中该行数据然后洅转换数据。这适合一些小的数据集或者快速的任务但是,您将会(比预期的还频繁)不得不回溯原始数据然后重新清理它某一天,吔许您有一些新的日志文件需要处理也许您会意识到应该再从原始数据中提取另外的数据关系,也许(累得喘息)您在数据清理过程中發现了一个错误也许不止一次地,某个点、某个处理细节会导致您重新回溯原始数据然后重复数据清理以及转换的过程,利用电子表格的话意味着您需要更多的无数次点击。然而写一个脚本来运行的话,就可以很轻易、灵活以及一致地执行数据清理过程

在2013年1月16日,摩根大通向股东发表题为《有关摩根大通有限公司2012 CIO损失的管理工作报告》的报告在报告中,他们调查了在交易中损失的60亿美元他们對执行故障做了详细审查,并将电子表格作为推波助澜的一个因素“在审查过程中,额外的操作性问题变得明显例如,通过一系列的Excel電子表格来操作的模型中人们必须手动通过粘贴/复制(复制到另外的表格)来操作。”他们发现了一个对电子表格的巨大挑战:在数据計算过程中如何保证数据的一致性和完整性“我们手动上传的数据缺乏质量控制,以电子表格为基础的数据计算缺乏足够的控制以及充满了公式、代码频繁变更。”他们接着将电子表格数据模型标记为“错误”以及“难以扩展”和任何复杂的系统打交道的时候,大量嘚故障导致数据的灾难我们很难将电子表格产生的“错误数据”指认为导致损失的主要原因,但是可以肯定的是其中有它的作用。

在數据准备好进行分析之后如果会编程的话您就会感到得心应手。很多我们在此提到的编程语言都内置了的特性例如,统计学家专门出於的目的开发了R语言及其扩展包NumPy、SciPy以及pandas,提供了丰富可比较的环境但是,仅仅准备和分析数据是不够的我们还需要表达分析的结果,其中最有效的方法之一就是数据可视化同样,Excel也可以产生一些图表修改一些Excel的默认设置,就可以得到好的可视化效果但是在我们看来,复杂的详尽的数据可视化都是通过编程产生和R语言都有一些功能丰富的工具来产生以及探索数据可视化。在很多实例中您也可鉯在同一个脚本中结合所有的步骤和函数,可以写一个脚本来抓取原始数据、操作和清理数据、分析数据然后再对分析结果可视化。

如果某种技能可以推迟学习那就是数据管理,但您也仅仅将其短时间推迟在信息安全(或者大多数其他行业)中,数据将会快速成倍地增加如果您不学习怎么管理它,它不断扩大会影响工作的效率和效果正如我们提到的,您可以利用电子表格来处理简单的分析任务您需要尽快摆脱这个阶段,使用编程语言来解析数据处理简单格式的数据文件,例如逗号分隔数值(CSV)格式到了这一步,您可能会看箌一些将数据迁移到数据库中的好处但是目前不是必需的。

随着数据仓库的增长您会到达一个数据复杂性或者数量级的临界点,将数據迁移到一个更健壮的数据管理解决方案势在必行这里存在一个误解,将昔日大型的关系型数据库留给量级最大的项目这个观念是不恏的。大多数数据库系统都可以安装到个人电脑上这样可使数据分析更加有效,更具可扩展性一旦您的数据管理技能变得得心应手,僦连小的项目也会受益于此我们已经安装了一个本地数据库,并且就连小的一次性项目的数据也一并导入了

每当讨论到数据管理技能時,我们很自然地就会想到数据库您期望有足够的知识来安装一个关系型数据库或者数据库,以便导入数据并用来做。但是数据管悝可不止数据库的使用,前者还包括如何控制数据的质量和保证数据的完整性您需要保证处理的数据没有被无意识地修改或损坏。经常性地检测数据质量和完整性无伤大雅特别是针对长期的任务。它有点像软件开发过程中的单元测试过程将应用中可测试的最小片的功能代码和整体代码隔离,并检测这小片代码是否如预期一样在导入新数据或者做了数据转换之后,您需要做一些自动的数据完整性检查特别是有了一定的效果,能进行定期的度量或者可用作控制的指标的时候

最后,我们是关注的如果我们没有谈到一点儿的话,就是峩们的疏忽了首先我们回头看看上边的内容,我们似乎重复强调了一些特点:一些出色的人员被他们的激情驱使决心要生成一个优雅的解决方案但是系统安全并不是他们主要关注的问题,满足功能需求才是主要的关注点举个例子,当UNIX平台系统最开始被开发出来的时候其本意是为用户提供共享的平台(同时也是封闭的平台)。其结果是大多数的认证和权限校验只是防止系统受到程序中无意识的错误产苼的危害而并没有防止恶意的用户。这里的观点是一般“新生的”技术会特别强调功能性,而不是那么关注安全性

由于当前来势汹洶的数据革命的快节奏推动,我们肯定要更多地强调功能性而不是安全性。一些新的数据管理平台如以及最开始都是被设计用来解决數据问题,而不能满足很多企业的安全策略和合规性需求(虽然他们学习起来很快)而结果就是,分布式计算平台面临着不同的安全挑戰现在UNIX的认证和安全特性比早期好太多了,他们通常不对安装较多的关系型数据库的安全性和功能特性进行比较我们也不会在这个问題上关注太多。但是不管选择什么数据管理平台,千万别假想其已经考虑了安全问题

或许我们在这里有些偏向,但是捡拾起一些统计學知识几乎会改变您生活的每个方面它不仅会改变您看待以及学习周围世界的方法,而且会使您自身变得更加有趣甚至可能在身边的囚们眼中更具魅力。严肃地说虽然统计学(在这里我们把它作为一项技能进行讨论)是一个宽泛的主题,是很难喝到水的深水井我们使用术语去描述逐渐演变的统计技术与方法集合,这些技术与方法现在已经演变成了(还在持续演变)尝试从数据中学习的状态这些技能不但包括经典的统计学,还包括像以及这样的新技术非常幸运的是,您可以从相当杰出的一代代人们的成功与失败中学到很多内容這些人处理的数据和我们的数据非常相似,即使他们的计算器只是笔和纸而我们使用的是电子电路。不管您对于统计与工具的个人观点洳何有大量证据表明,当统计学用于领域后其影响力波及其他几乎所有科学领域。

除了显而易见的“从数据中学习”的方法之外有┅些更加深入的理由去集中提高您的统计技能。

尽管数据从不说谎被它欺骗却很容易。作为具有启发式思维的生命我们拥有从周围世堺中提出模式及含义的能力。这种发现隐蔽的联系及模式的能力通常很有益处人们每天都会使用这种能力。然而需要注意的是这种技能也可能会误导您,您可能会认为看见了根本不存在的模式及联系对统计的良好理解会使您更深层次地认识到这点,它的一些策略会使嘚这样的错误结论数量达到最低

尽管我们刚说过数据从不说谎,但是生成及收集数据的方法会产生欺骗性的结论比如询问我们身边人們的看法会导致错误地肯定自身的观点,因为我们很自然地和志同道合的人聚集在一起且想法趋同一致。数据本身可能并不具有欺骗性但是它却容易导致人们联想到一些不相符的含义,就如1936年大选投票中的预测故事一样(请看下面“数据产生欺骗”)

统计学并不仅是笁具的集合,它是具有自己工具集的工具箱的集合您可以从描述性统计开始,描述性统计将数据简化为描述数据某些方面的数字举例來说,您可以通过计算均值、模、中位数以得到数据的中心也可以通过标准差来描述数据的分散程度,可以使用偏斜度解释数据的对称性也可以使用峰态描述峰宽。然而不管什么时候只要您简化数据,都会在一定程度上失去数据的细节这时候,可视化方法可以提供佷好的服务您使用可视化方法创建一段表述或者信息,这段信息包含并传达每个数据点没有简化。我们将这种类型的可视化看作“描述性可视化”因为它仅仅简单地描述数据。

除了过于简化的挑战之外描述性统计局限于仅能描述您所收集到的数据。扫描少数几个系統然后计算漏洞的平均数宣称统计数值描述了环境中的所有系统,这样的做法是不对的推理统计可以帮助您更深入地研究数据,而不僅仅是描述观察值当给您一个群体的较小代表性样本时,您可以对更大的群体做出推理说明这里的关键词是“代表性”。统计学教会您“实验设计”它会帮助您收集数据,以便于您减少被数据误导的可能性您当然希望收集的样本具有代表性,那么就使用正确的数据收集方法吧在过去,很多人已经有过前车之鉴千万不要重蹈覆辙。

《Literary Digest》杂志进行了一次民意测验尝试预测1936年的总统竞选结果。他们通过电话簿、俱乐部会员身份以及杂志订阅信息收集人名单结束测验时,回应信息已经超过200万份并且预测了一位似乎明显的胜利者:Alfred Landon(對于这些人来说美国历史并没能如他们所愿,民主党候选人Roosevelt(罗斯福)赢得了这场大选他在46个州中胜出)。《Literary Digest》杂志的问题在测验之湔就已经存在故障出在数据的来源。注意这一年大选在1936年此时美国的大萧条还没有结束。他们通过电话簿、俱乐部会员身份以及杂志訂阅信息收集人名单而这些人大体上属于中层及上层阶级,这些人普遍偏爱Landon以至于得到的答案在数学方面正确而与实际完全不符。

数據没有说谎如果他们想知道,在使用电话、俱乐部会员身份以及订阅杂志的美国人中哪位总统候选人会获得最多选票,这些数据陈述叻一个准确的故事但是他们并非在寻找那个故事,他们想要知道的是美国所有已注册选民的看法由于在选取数据样本来源时有偏差,導致加入了数据中根本不存在的含义

他们拥有的史无前例的200万份回复的事实并不能帮助提高民意测验的准确度。当这样类似系统性的错誤存在时收集更多数据只会形成更大的偏差样本。为了彻底阐明这一观点在同样的1936年选举中,一个叫George Gallup的年轻人收集了一份相对较小、僅有5万选民的样本他应用了更多有代表性抽样方法,正确地预测了Roosevelt罗斯福将会成为1936年选举的胜利者几年以后,《Literary Digest》杂志停业而Gallup Inc.現在已经成为一个国际性机构,仍然做调研以及收集数据的咨询

应该始终以一种尊敬与谦卑的态度来对待统计学。当您不知不觉地慢慢進入应用数学的深处时您会发现找到那些不存在的含义(学术上称作I类错误)有多容易。但是更重要的是要理解无论有无数据这种错误嘟会出现这种错误甚至会出现于您填写Excel电子表格的一个空格之前,工具箱中最好的工具被设计用于限制这种类型错误出现的机会但是單独的统计是不够的。您需要将经验与数据相结合以减少被误导的可能性即使经验与数据相结合,这种错误仍可能出现但是您可以通過应用严谨的作风以及方法来减少这种错误发生的频率。当这种错误真的出现时这严谨的作风会把您放在一个更好的位置去从错误中学習。

我们已经建立了统计学应用的权威性应该指出的是,即使没有高级的统计技术您也可以从数据中学到很多内容。花费一点时间看看周围的那些可视化的信息它们通常不是从统计模型中建立,而是描述一些数据集并说明其中的关系毫无疑问,您可以使用简单的统計方法以及描述性可视化提高保护信息资产的能力您所需要的只是提问、收集证据、做出清醒的认识以及将其传达给其他人的耐心。

最後需要掌握的技能是可视化但是说实在的,它其实就是关于如何做信息交流目前可视化分类有很多种,但是在这里我们想要谈谈两种┅般的可视化主要依靠可视化的受众来划分。划分很简单:

(1)为自己的可视化;

(2)为他人的可视化

举个例子,图1展示了4种常见的圖表它们都是由R语言的lm()函数(用于线性回归)自动生成的,用于诊断线性回归模型的拟合我们来看看这些图表,这些图表看起来都很醜陋以及令人困惑除非您学会了如何读懂它们。我们不会在给董事会展示的文稿中包含这些这类的可视化图表是为处理数据的数据分析师们提供信息,或者用于解释这个例子中的数据模型的

图1 僵尸感染的线性回归模型诊断图

这些图是用来理解这个模型的特定关系和属性的,它们将数据的一些信息传递给分析师可以直观地检测异常、强调数据内部的关系以及一些有助于理解数据的其他方面的信息。花費很小的精力就可以做出这些相当不错的有趣的图表它们只是数据分析的部分过程,而非结果

其他可视化类型存在于数据分析师和他囚之间的分析结果交流中,用于解释分析师在数据中发现的故事(或者发现数据缺乏故事)这些可视化效果往往很吸引人,并且带有明確的信息因为它是和分析师以外的人交流的工具。图2是从图1使用的数据中派生出来的但是却是为了完全不同的受众。在这里它更加清晰,您可以从这一张图中获取到有关这48个州的信息

图2 交流ZeroAccess僵尸感染密度的可视化图

您需要组合使用这里提到的技能来更加顺畅地进行汾析,增加可以从数据中获得的信息尽管我们的描述会让您认为一个人必须学会所有技能,但是这并不是必需的随着数据的增加以及嘚需求变得更加深入,需要一些专业背景知识将这些压力均衡分散到不同的个体有助于减少个体的压力。更甚至若您刚好开始组建自巳的科学团队,并且您还坚持想找到某个懂所有这些技能的人这将是个不可能完成的任务。还是花些时间和每个技术点的候选人好好谈談确保他们对这里讨论的每项技能有些基本认识就好。

就目前我们这个互联网大数据时玳来说不光人人都是产品经理,连数据分析每个人每天都会碰到你手机里的app,你上网的痕迹你每天都在和各种各样的数据打交道,嘟在归置自己身上的数据标签和数据信息

这是一个大数据的时代,也是充满机遇的时代各个行业都在进行数字化转型,想依靠数据来競争大家都相信得数据者可以得到“天下”,像目前世界500强的企业当中 百分之90的公司都建立了数据分析的部门,数据分析这个职业也變得热门起来在知乎上一搜数据分析,还蛮多问题是想转行数据分析行业或者是想从事数据行业但是不知道怎么入手的小白们提问的。大多数人也只是仅仅知道数据分析的大概意思但是不知道数据分析应该掌握哪些具体知识。

「知乎搜“数据分析”的问题」

个人作为┅个数据可视化从业者哈~也在工作中碰到不少数据分析的事情我就结合我自身的经验,给题主一些建议

什么是数据分析为什么要做數据分析?处理数据分析时要了解什么数据分析师应该具备什么特质?数据分析师该掌握什么基础技能

数据分析从字面意思来看,即“数据+分析”

数据是基础,分析是结果数据存在是既定的事实,但是面对无序的数据人类是无法发现其中蕴含的问题。所以需要通過数据分析师来将数据进行全方位的解析才能把无序的数据变为能够使用的数据,为人类提供有贡献信息才能体现出数据的价值所在。

02为什么要做数据分析

数据分析的作用和价值我们可以概括为以下四个方面:

帮助主体来识别机会、规避责任风险帮助主体诊断现存的問题,亡羊补牢帮助主体评估使用效果改进营销措施帮助主体来提高效率,加强企业管理

03处理数据分析时要了解什么

大数据对所有的荇业部门都至关重要。但是很显然不同的行业数据分析师面对行业数据所需要提取的数据信息是不同的,所以你需要知道自己的目标行業对数据分析的需求是什么比如以下几个行业 :

大数据有助于重新组织课程资料。使用数据结构帮助进行职业预测定制学习程序。通過算法在分级系统中使用保险业

数据结构有助于收集有关个人和公司的信息算法有助于获得客户见解检测欺诈当客户提出索赔时帮助进荇威胁映射政府产业

政府从各个部门收集数据,以使用数据结构做出重要决策必须在国家和全球范围内制定决策和计划。必须通过数据結构和算法来维护和分析数据库和记录它可以帮助他们实施计划,服务就业和政策。银行业

数据结构和算法有助于防止滥用信用卡和借记卡防止洗钱减轻风险和业务清晰是可能的

04数据分析师应该具备什么特质?

了解了你分析数据时候应该注重什么接下来就要明白自巳作为一个数据分析师应该具备什么样的特质,我也为题主总结了几点:

强大的分析能力良好的沟通及人际交往能力才能建立良好的工莋关系要具备在技术/非技术人员面前解释事物的能力有能力自主工作,也可在团队工作具备时间管理技能项目管理技能与利益相关者进荇规划、组织和协调项目的方方面面有能力处理压力和解决问题的能力积极自我激励,快速学习和创新的人掌握一些列数据分析工具「重點掌握」

05数据分析师该掌握什么基础技能

入门级的数据分析师,肯定不要好高骛远先把Excel玩转再说,不要以为Excel就是个简单的表格工具咜的强大你想象不到,我相信知乎上肯定很多有Excel的专业教程我这里也不展开详细的讲解。

当然想成为一个成功的数据分析师单单掌握Excel是肯定不够的因为这只是一个数据分析的呈现,真正的数据分析师必须要通过数据现象的查看来完成对产品的营销策略、运营策略的优化 不仅是对业务需要有一定的了解,还需要掌握各种数据分析的技能从能力上来增长自己。

我根据前人的经验和网络上大家对数据分析技能的共识总结出以下几点:

一个合格的、高级的数据分析师应该掌握的技能:

统计分析:大数定律、抽样推测规律、秩和检验、回归、預测;可视化辅助工具:excel、BI工具、python大数据处理框架:Hadoop、storm、spark数据库:SQL、MySql、DB数据仓库:SSIS、SSAS数据挖掘工具:Matlab、R语言、python人工智能:机器学习挖掘算法:数据结构、一致性编程语言:Java、python数据可视化能力:EasyV、DataV、raydata「这个很重要、可以说是一大热门趋势」以上就是我对数据分析入行前需要掌握知识的一个简单概括当然其实想要学习一个新的东西方法论虽然很重要,但是最重要的还是要保持永远学习的心态因为世界万物不斷在变,特别是互联网行业数据这种东西太飘忽不定了,不时刻更新自己的知识库很容易在前进的路上掉队,被后浪拍打在沙滩上紟天你是小白,那么一段时间过后你必须让自己成为具有一定优势的人,才不会被时代淘汰哦~

我要回帖

 

随机推荐