数据分析需要掌握些什么知识?

有一种天然的吸引力,每个人都希望获得安全数据分析的奥秘。尽管到目前为止我们一直都专注于数据分析的概念,但要创造每个人都寻找的那种奥秘需要的不仅仅是分析技能,而是需要将可视化技术与统计和数据分析相结合,再利用计算能力和领域(信息安全)知识。所有这一切都不是源于产品或工具,而是自己的技能和能力。

在开始讨论这些技能前,我们要讨论几个从师身上看到的基本的人格特质:好奇心和沟通。数据工作有时会有点像考古挖掘,花费大量时间,使用小型工具,希望去发现那些甚至是极小的见解。也是如此,智慧之珠都深藏在数据中,等待被翘首以盼的观众发现。那些充满了惊奇感和好奇感、花费在整理及准备数据的大量时间并不会让人难以忍受,相反,那段时间是令人兴奋、值得花费的。因为存在那一刻,即当您能够在一个原本黑暗的房间里打开一盏灯,当您可以描述一些现象或解释一些模式,当这一切变得值得。这就是您追求的。如果您知道去哪里找,就能发现那些隐藏在众目睽睽之下的惊喜时刻。

一旦您打开了灯,您要带别人进入发现之屋;否则,您只是建造了一个没有人住的房子。只是指着您的工作,说:“看!”是不够的。您要退一步来思考能够传达您的发现的最好方式。系统和分析的复杂性导致很难以每个人都理解的方式来传达您的发现结果。很多时候,它需要结合文字、数字和图片来传达数据的洞察力。即使是这样,有些人也什么都没有理解,而有些人则会理解过多。但是,仍然有必要将这种复杂性浓缩到段落、表格或图片中。

本文简述数据科学家从事数据分析所应具备的技能。

一个数据科学家需要领域专业知识的事实应当是不言而喻的,也似乎是显而易见的,但只有在考虑更高的目标时,进行才有意义。您关于的经验将引导分析方向,提供数据的来龙去脉,并帮助将含义应用于结果。换言之,领域专业知识将有益于开始、中间和所有工作的终点。

人比模型更聪明。有一些人认为,人总是会胜过算法(或统计数据,或模型),并且还有一些事实可以证明。比如教一个机器去抓住飞球是非常具有挑战性的。决定何时人们的表现将优于算法在很大程度上依赖于任务的环境。如果环境是复杂的,并且反馈是延迟或不明确的,算法一般会胜过人类的判断。所以,问题就变成了,信息系统的安全性有多复杂,以及反馈有多清晰?当您更改或添加安全控制时,您收到多少关于它实际保护信息资产情况的回报?

结果是发生在一个非常复杂的环境下,但是,这并不意味着您把所有的鸡蛋都放在篮子里。意思是,您应该对任何纯粹靠人为判断的方法持怀疑态度,应该设法加强和支持专家的意见。这不是将与人为判断进行比较,设立一个非此即彼的选择是不明智的,应比较纯粹的人为判断与结合了及的人为判断。您不想删除人的因素,但您应该对未经数据证实的观点持怀疑意见。在一个复杂的环境中,人的直觉和相结合,将产生最佳效果,并创造学习和稳固基础设施的最佳机会。

它仅仅是数据造假。这显示了对数据统计以及数据分析的普遍不信任环境,因为数据统计分析经常出于一些见不得人的动机被滥用以及误用(在某些情况下数据完全是捏造的)。在某种程度上,这种不信任是基于社会工程师极易获取的集体常识。即便如此,由于我们的目的是从数据中学习,我们就处于不一样的出发点。我们坐在一堆堆隐含很多信息和特征的数据面前,我们要去发现这些信息和特征。如果因为数据统计曾经被滥用我们就不使用数据分析,就如同因为汽车偶尔被用于接送服务而不再开车一样可笑。我们要习惯于将数据统计加入到我们的信息安全工具箱内。

并不是说是万无一失的,即便有时候产生了错误的结果,也许是因为错误的数据收集,或由欠专业的分析师操作,或源于处理过程中的错误,或仅仅是因为使用Excel(这种情况确也无法避免)。但是,将专业知识和具体数据相结合,就能够有效减少错误的发生。再次强调一下,减少错误的关键在于将和专业知识进行结合。

不是制造火箭的科学,这个说法有两个含义。第一个含义是,不管我们尝试解决什么问题,我们都可以用常识去解决它。这个观点可以追溯到“人比模型更聪明”,并且会议桌上的一群人不依赖数据分析就解决一个复杂的问题。但正如我们讨论到的,却也有必要在会议上为数据分析提供一席之地,因为有数据分析总比没有好。

上边这个说法的第二个含义就是,过于复杂且花费巨大(时间、金钱、资源)。这样的观点是完全错误的,这可能更担心在实际操作中会带来令人不爽的改变,而不是真正担心所花费的时间。的很多工具都是开源的(如果某些组织不愿意开源,那也会有大量的商业解决方案可以选择),而唯一需要付出的仅仅是花时间学习一些的基本技术和方法。实际上,如果能够正确地将工具和经验进行结合的话,可以进行得非常迅速,甚至可以实时完成。

我们没有数据。另一种形式的反对意见提出,我们没有精确数据(这在风险分析中更为普遍)。反对数据的人认为“非完美数据即是毫无价值的”,并阻挠开展设计良好的实验。这个观点是虚假且害人的,如果我们只是等待着完美的数据,那么我们将会永远只是等待,并且漏掉了很多从数据中学习的机会。驳斥这个反对意见最重要的核心论点是,我们并不需要完美数据。我们仅仅需要可以从已有的混杂数据中学习的方法。事实上,相比于预期,我们经常具有更多的数据,我们只需要更少的数据,并且可以更容易地通过观察从数据中获得更多的数据。所以,一般来说,用于安全分析的数据是绝对存在的,通常情况是,它们正等着被收集起来呢。我们能对粗略的数据加适当的改动、收集,然后准确地分析数据。现代的数据分析方法已经解决了如何处理具有噪声的、不完备数据的问题。

我们会坠入黑暗。这是我们考虑的最后一个观点了。这个观点并不是那么强烈地反对数据分析,仅仅算一个障碍而已。当您在会议上被视为某个领域的专家时,大家就希望您能给出问题的解答,而当会议的问题不清晰、不确定的时候,就会产生冲突。数据分析恰恰要求适当的自我认知和人性,以便为自以为是的疑虑留有余地。即便您自信地宣称密码是满足一定复杂度若干位字符,但您永远不知道可用性和安全性之间的平衡点。人的信心是需要用人性平衡的,可以根据新的证据知识来更新一个人的观念。数据分析中的这个障碍并不主要局限于分析师,其他涉及分析的领域专家也同样面临自身的人性问题。毕竟并不是每个人都愿意听到“他的世界不是平的”。

不管我们如何将描绘成对知识、真相的极具魅力的追寻过程,正如我们所提到的,也会有一些杂乱。这只是一种保守的说法,和数据打交道具有超出想象的大量的不确定性和混乱,不幸的是,这些混乱经常早早地出现在我们尝试收集和准备数据的时候。这些过程是很多数据统计的课程从来没有为学生们准备的,教授直接拿出准备好的相当整洁漂亮的数据集,可以直接导入到工具内。而一旦学生们离开温暖的课堂时,他们将会立即意识到世界是不规则的,充满了混乱的,而数据(以及后续的分析过程)则是这个混乱世界的真实反映。

在数据科学中有一个冰冷、惨痛的教训:获取到的数据具有大量的不同的格式、状态和参差不齐的质量。数据可能嵌入在非结构化或半结构化的日志文件中,或许需要从网络站点去搜刮,更有甚者,数据来源于极其复杂令人心烦的数据格式,如XML。但是,我们也需要找到方法来收集、整理数据,将其调整到能支持深入分析的数据格式。虽然这些工作可以凭借极大的耐心、文本编辑器、明智地用暑期实习生来完成,但是长远看来,编写程序脚本来完成,可以提供更多的功能性和灵活性和高效性。学习基本的编程技能也会为数据处理提供更多的可能性。这样可以随意接受不同格式的数据并将其转换为最适合分析软件使用的任意数据格式。即便现在能获取到很多称手的数据格式转换工具,它们也无法预见和适合我们将遇到的每种情况。要做到真正高效地处理数据,需要我们去适应数据,而非相反。

256位的AES密钥强度是128位密钥的两倍吗?

因为256位AES密钥长度是128位的两倍,因此对256位AES密钥很自然的猜想是前者的安全性是后者的两倍。由于所谓的“加倍的安全”,我们身边的信息安全人员要求一些项目使用256位密钥。既然如此,我们就来看看这里边的数学原理吧。第一点,正如我们说到的“位”,虽然256位确实是128位的两倍长,但是256位密钥实际上也只多了2128倍的密钥数。我们来打破常规并试试回答一个简单地问题:如果您能获取到世界上最快的超级计算机,那么能您破译多少128位的AES密钥呢?

中国的超级计算机“天河-2号”能够每秒进行大约34千万亿次(34×1015次浮点运算)。我们假设其能够一次运算产生一个密钥,再一次运算来验证这个密钥(这个假设是荒谬且保守的),我们每秒能够测试验证惊人的17×1015个密钥。但是128位密钥具有3.4×1038个不同的密钥,意味着用超级计算机整整破解一年后,也只是仅仅探索了密钥空间的百分之1.6×10–13。即便让这超级计算机运行1000年,我们也仅仅是搜寻了密钥空间的百分之0.6(而且耗费了巨量的电力资源)。

我们简化一下这个问题,暴力破解128位AES密钥的可能性已经如此微小,以至于可以认为是0了。我们可以在这里很专业地说,将128位密钥提升到256位是将破解的可能性从超级无穷小变成2128倍的超级无穷小。

任意的现代编程语言都支持基本的数据操作,但是一些如、R等脚本语言似乎在中比、等编译语言更加常用。即便如此,编程语言其实是无关紧要的,最终的分析结果(以及一个愉快的分析师)比选一门“最好”的语言更重要,能花费最少的精力来完成分析工作就是最好的语言。我们清理、转换数据格式使用的语言一般在(pandas)以及R语言之间来回选择(或者有些怀旧的人会选取Perl语言),然后再用R语言或者来做、可视化的工作。学习一些Web相关的语言,如HTML、以及Java有助于创建基于Web的交互式可视化,在数据准备和分析的过程中通常不涉及Web语言。

“网关工具”介于文本工具和编程之间,也就是电子表格(如微软的Excel或者OpenOffice的Calc)。电子表格可让非程序员做出一些神奇的东西,能快速地得到一些产出结果。尽管电子表格面临一系列的挑战和缺点,但它们也确实具有一些好处。如果处理的数据量不是很大很复杂,以及处理的任务不如“决定世界经济未来走向”重要的话,Excel可能是解决问题的最适合工具。我们强烈推荐选用Excel作为临时的解决方案,其能很好地快速处理一次性任务。但是如果您有一个需要重复分析的任务或者反复使用的模型的话,最好用某种结构化编程语言来处理。

作为一种数据清理工具,使用电子表格初看起来是一个不错的解决办法(尤其是对一些熟悉这方面技能的人来讲),但是电子表格是事件驱动的,意味着它们需要通过点击、打字、拖拽来工作。如果想用来转换一行数据,你就不得不点击表格,选中该行数据,然后再转换数据。这适合一些小的数据集或者快速的任务,但是,您将会(比预期的还频繁)不得不回溯原始数据然后重新清理它。某一天,也许您有一些新的日志文件需要处理,也许您会意识到应该再从原始数据中提取另外的数据关系,也许(累得喘息)您在数据清理过程中发现了一个错误。也许不止一次地,某个点、某个处理细节会导致您重新回溯原始数据,然后重复数据清理以及转换的过程,利用电子表格的话,意味着您需要更多的无数次点击。然而,写一个脚本来运行的话,就可以很轻易、灵活以及一致地执行数据清理过程。

在2013年1月16日,摩根大通向股东发表题为《有关摩根大通有限公司2012 CIO损失的管理工作报告》的报告,在报告中,他们调查了在交易中损失的60亿美元。他们对执行故障做了详细审查,并将电子表格作为推波助澜的一个因素。“在审查过程中,额外的操作性问题变得明显。例如,通过一系列的Excel电子表格来操作的模型中,人们必须手动通过粘贴/复制(复制到另外的表格)来操作。”他们发现了一个对电子表格的巨大挑战:在数据计算过程中如何保证数据的一致性和完整性。“我们手动上传的数据缺乏质量控制,以电子表格为基础的数据计算缺乏足够的控制,以及充满了公式、代码频繁变更。”他们接着将电子表格数据模型标记为“错误”以及“难以扩展”。和任何复杂的系统打交道的时候,大量的故障导致数据的灾难,我们很难将电子表格产生的“错误数据”指认为导致损失的主要原因,但是可以肯定的是,其中有它的作用。

在数据准备好进行分析之后,如果会编程的话您就会感到得心应手。很多我们在此提到的编程语言都内置了的特性。例如,统计学家专门出于的目的开发了R语言。及其扩展包NumPy、SciPy以及pandas,提供了丰富可比较的环境。但是,仅仅准备和分析数据是不够的,我们还需要表达分析的结果,其中最有效的方法之一就是数据可视化。同样,Excel也可以产生一些图表,修改一些Excel的默认设置,就可以得到好的可视化效果。但是在我们看来,复杂的详尽的数据可视化都是通过编程产生,和R语言都有一些功能丰富的工具来产生以及探索数据可视化。在很多实例中,您也可以在同一个脚本中结合所有的步骤和函数,可以写一个脚本来抓取原始数据、操作和清理数据、分析数据,然后再对分析结果可视化。

如果某种技能可以推迟学习,那就是数据管理,但您也仅仅将其短时间推迟。在信息安全(或者大多数其他行业)中,数据将会快速成倍地增加。如果您不学习怎么管理它,它不断扩大会影响工作的效率和效果。正如我们提到的,您可以利用电子表格来处理简单的分析任务。您需要尽快摆脱这个阶段,使用编程语言来解析数据,处理简单格式的数据文件,例如逗号分隔数值(CSV)格式。到了这一步,您可能会看到一些将数据迁移到数据库中的好处,但是目前不是必需的。

随着数据仓库的增长,您会到达一个数据复杂性或者数量级的临界点,将数据迁移到一个更健壮的数据管理解决方案势在必行。这里存在一个误解,将昔日大型的关系型数据库留给量级最大的项目,这个观念是不好的。大多数数据库系统都可以安装到个人电脑上,这样可使数据分析更加有效,更具可扩展性。一旦您的数据管理技能变得得心应手,就连小的项目也会受益于此。我们已经安装了一个本地数据库,并且就连小的一次性项目的数据也一并导入了。

每当讨论到数据管理技能时,我们很自然地就会想到数据库,您期望有足够的知识来安装一个关系型数据库或者数据库,以便导入数据,并用来做。但是,数据管理可不止数据库的使用,前者还包括如何控制数据的质量和保证数据的完整性。您需要保证处理的数据没有被无意识地修改或损坏。经常性地检测数据质量和完整性无伤大雅,特别是针对长期的任务。它有点像软件开发过程中的单元测试过程,将应用中可测试的最小片的功能代码和整体代码隔离,并检测这小片代码是否如预期一样。在导入新数据或者做了数据转换之后,您需要做一些自动的数据完整性检查,特别是有了一定的效果,能进行定期的度量或者可用作控制的指标的时候。

最后,我们是关注的,如果我们没有谈到一点儿的话,就是我们的疏忽了。首先我们回头看看上边的内容,我们似乎重复强调了一些特点:一些出色的人员被他们的激情驱使决心要生成一个优雅的解决方案,但是系统安全并不是他们主要关注的问题,满足功能需求才是主要的关注点。举个例子,当UNIX平台系统最开始被开发出来的时候,其本意是为用户提供共享的平台(同时也是封闭的平台)。其结果是大多数的认证和权限校验只是防止系统受到程序中无意识的错误产生的危害,而并没有防止恶意的用户。这里的观点是,一般“新生的”技术会特别强调功能性,而不是那么关注安全性。

由于当前来势汹汹的数据革命的快节奏推动,我们肯定要更多地强调功能性,而不是安全性。一些新的数据管理平台如以及,最开始都是被设计用来解决数据问题,而不能满足很多企业的安全策略和合规性需求(虽然他们学习起来很快),而结果就是,分布式计算平台面临着不同的安全挑战。现在UNIX的认证和安全特性比早期好太多了,他们通常不对安装较多的关系型数据库的安全性和功能特性进行比较,我们也不会在这个问题上关注太多。但是,不管选择什么数据管理平台,千万别假想其已经考虑了安全问题。

或许我们在这里有些偏向,但是捡拾起一些统计学知识几乎会改变您生活的每个方面。它不仅会改变您看待以及学习周围世界的方法,而且会使您自身变得更加有趣,甚至可能在身边的人们眼中更具魅力。严肃地说,虽然统计学(在这里我们把它作为一项技能进行讨论)是一个宽泛的主题,是很难喝到水的深水井。我们使用术语去描述逐渐演变的统计技术与方法集合,这些技术与方法现在已经演变成了(还在持续演变)尝试从数据中学习的状态。这些技能不但包括经典的统计学,还包括像以及这样的新技术。非常幸运的是,您可以从相当杰出的一代代人们的成功与失败中学到很多内容,这些人处理的数据和我们的数据非常相似,即使他们的计算器只是笔和纸,而我们使用的是电子电路。不管您对于统计与工具的个人观点如何,有大量证据表明,当统计学用于领域后,其影响力波及其他几乎所有科学领域。

除了显而易见的“从数据中学习”的方法之外,有一些更加深入的理由去集中提高您的统计技能。

尽管数据从不说谎,被它欺骗却很容易。作为具有启发式思维的生命,我们拥有从周围世界中提出模式及含义的能力。这种发现隐蔽的联系及模式的能力通常很有益处,人们每天都会使用这种能力。然而需要注意的是,这种技能也可能会误导您,您可能会认为看见了根本不存在的模式及联系。对统计的良好理解会使您更深层次地认识到这点,它的一些策略会使得这样的错误结论数量达到最低。

尽管我们刚说过数据从不说谎,但是生成及收集数据的方法会产生欺骗性的结论。比如询问我们身边人们的看法会导致错误地肯定自身的观点,因为我们很自然地和志同道合的人聚集在一起,且想法趋同一致。数据本身可能并不具有欺骗性,但是它却容易导致人们联想到一些不相符的含义,就如1936年大选投票中的预测故事一样(请看下面“数据产生欺骗”)。

统计学并不仅是工具的集合,它是具有自己工具集的工具箱的集合。您可以从描述性统计开始,描述性统计将数据简化为描述数据某些方面的数字。举例来说,您可以通过计算均值、模、中位数以得到数据的中心,也可以通过标准差来描述数据的分散程度,可以使用偏斜度解释数据的对称性,也可以使用峰态描述峰宽。然而不管什么时候,只要您简化数据,都会在一定程度上失去数据的细节,这时候,可视化方法可以提供很好的服务。您使用可视化方法创建一段表述或者信息,这段信息包含并传达每个数据点,没有简化。我们将这种类型的可视化看作“描述性可视化”,因为它仅仅简单地描述数据。

除了过于简化的挑战之外,描述性统计局限于仅能描述您所收集到的数据。扫描少数几个系统然后计算漏洞的平均数,宣称统计数值描述了环境中的所有系统,这样的做法是不对的。推理统计可以帮助您更深入地研究数据,而不仅仅是描述观察值。当给您一个群体的较小代表性样本时,您可以对更大的群体做出推理说明。这里的关键词是“代表性”。统计学教会您“实验设计”,它会帮助您收集数据,以便于您减少被数据误导的可能性。您当然希望收集的样本具有代表性,那么就使用正确的数据收集方法吧。在过去,很多人已经有过前车之鉴,千万不要重蹈覆辙。

《Literary Digest》杂志进行了一次民意测验,尝试预测1936年的总统竞选结果。他们通过电话簿、俱乐部会员身份以及杂志订阅信息收集人名单。结束测验时,回应信息已经超过200万份并且预测了一位似乎明显的胜利者:Alfred Landon(对于这些人来说,美国历史并没能如他们所愿,民主党候选人Roosevelt(罗斯福)赢得了这场大选,他在46个州中胜出)。《Literary Digest》杂志的问题在测验之前就已经存在,故障出在数据的来源。注意这一年大选在1936年,此时美国的大萧条还没有结束。他们通过电话簿、俱乐部会员身份以及杂志订阅信息收集人名单,而这些人大体上属于中层及上层阶级,这些人普遍偏爱Landon,以至于得到的答案在数学方面正确而与实际完全不符。

数据没有说谎,如果他们想知道,在使用电话、俱乐部会员身份以及订阅杂志的美国人中,哪位总统候选人会获得最多选票,这些数据陈述了一个准确的故事。但是他们并非在寻找那个故事,他们想要知道的是美国所有已注册选民的看法。由于在选取数据样本来源时有偏差,导致加入了数据中根本不存在的含义。

他们拥有的史无前例的200万份回复的事实并不能帮助提高民意测验的准确度。当这样类似系统性的错误存在时,收集更多数据只会形成更大的偏差样本。为了彻底阐明这一观点,在同样的1936年选举中,一个叫George Gallup的年轻人收集了一份相对较小、仅有5万选民的样本,他应用了更多有代表性抽样方法,正确地预测了Roosevelt罗斯福将会成为1936年选举的胜利者。几年以后,《Literary Digest》杂志停业,而Gallup Inc.现在已经成为一个国际性机构,仍然做调研以及收集数据的咨询。

应该始终以一种尊敬与谦卑的态度来对待统计学。当您不知不觉地慢慢进入应用数学的深处时,您会发现找到那些不存在的含义(学术上称作I类错误)有多容易。但是更重要的是要理解无论有无数据这种错误都会出现。这种错误甚至会出现于您填写Excel电子表格的一个空格之前,工具箱中最好的工具被设计用于限制这种类型错误出现的机会,但是单独的统计是不够的。您需要将经验与数据相结合以减少被误导的可能性。即使经验与数据相结合,这种错误仍可能出现。但是您可以通过应用严谨的作风以及方法来减少这种错误发生的频率。当这种错误真的出现时,这严谨的作风会把您放在一个更好的位置去从错误中学习。

我们已经建立了统计学应用的权威性,应该指出的是,即使没有高级的统计技术,您也可以从数据中学到很多内容。花费一点时间看看周围的那些可视化的信息。它们通常不是从统计模型中建立,而是描述一些数据集并说明其中的关系。毫无疑问,您可以使用简单的统计方法以及描述性可视化提高保护信息资产的能力。您所需要的只是提问、收集证据、做出清醒的认识以及将其传达给其他人的耐心。

最后需要掌握的技能是可视化,但是说实在的,它其实就是关于如何做信息交流。目前可视化分类有很多种,但是在这里我们想要谈谈两种一般的可视化,主要依靠可视化的受众来划分。划分很简单:

(1)为自己的可视化;

(2)为他人的可视化。

举个例子,图1展示了4种常见的图表,它们都是由R语言的lm()函数(用于线性回归)自动生成的,用于诊断线性回归模型的拟合。我们来看看这些图表,这些图表看起来都很丑陋以及令人困惑,除非您学会了如何读懂它们。我们不会在给董事会展示的文稿中包含这些,这类的可视化图表是为处理数据的数据分析师们提供信息,或者用于解释这个例子中的数据模型的。

图1 僵尸感染的线性回归模型诊断图

这些图是用来理解这个模型的特定关系和属性的,它们将数据的一些信息传递给分析师,可以直观地检测异常、强调数据内部的关系以及一些有助于理解数据的其他方面的信息。花费很小的精力就可以做出这些相当不错的有趣的图表,它们只是数据分析的部分过程,而非结果。

其他可视化类型存在于数据分析师和他人之间的分析结果交流中,用于解释分析师在数据中发现的故事(或者发现数据缺乏故事)。这些可视化效果往往很吸引人,并且带有明确的信息,因为它是和分析师以外的人交流的工具。图2是从图1使用的数据中派生出来的,但是却是为了完全不同的受众。在这里,它更加清晰,您可以从这一张图中获取到有关这48个州的信息。

图2 交流ZeroAccess僵尸感染密度的可视化图

您需要组合使用这里提到的技能来更加顺畅地进行分析,增加可以从数据中获得的信息。尽管我们的描述会让您认为一个人必须学会所有技能,但是这并不是必需的。随着数据的增加以及的需求变得更加深入,需要一些专业背景知识,将这些压力均衡分散到不同的个体有助于减少个体的压力。更甚至,若您刚好开始组建自己的科学团队,并且您还坚持想找到某个懂所有这些技能的人,这将是个不可能完成的任务。还是花些时间和每个技术点的候选人好好谈谈,确保他们对这里讨论的每项技能有些基本认识就好。

大数据时代,数据分析成为了求职必备技能;从互联网金融咨询三大热门行业,到通讯物流医药相对冷门的行业,甚至听上去无关的文艺体育行业,招聘要求里都有数据分析能力;

下面我来介绍一下数据分析的三个基础要点:

数据是分析的基础,如果没有好的数据,即使有再强大的工具,也是巧妇难为无米之炊,无法得出好的分析结论;做好数据分析的第一步,就是扎实的数学基础;

描述统计学,线性规划,线性代数这三个方面时必须掌握的;

很多小伙伴把分析工具和编程语言混同,但分析工具比编程语言简单不少,主要是Excel,VBA,R,SAS等等;和编程语言最大的不同是,这些分析工具并不用编译,只需要调用;就以最熟悉的Excel为例,如果想算最大值,只用输入max就能实现,但背后的语法我们是不用掌握的,这也是分析工具比较简单的原因;

本公司目前在招聘一些大数据分析师,我们欢迎所有对数据分析感兴趣的人来试试,符合条件的可以投递简历(可培养!!!)投递方式见下方,更多岗位信息关注本公司公众号,欢迎主动与我们联系。(1、签订正式合同、五险一金;2、须大专及以上学历;3、无经验者由项目经理带;4、在京工作一年后要求回当地的工作的,可申请调回当地省会城市的分公司或合作企业工作;5、每日简历投递量非常大,欢迎主动与我们联系!!!)

Excel中数据透视表、常用公式是必须掌握的;此外,还要掌握一个统计类的分析工具,比较适合零基础的SPSS,R和SAS则应用范围广;

编程语言难度远高于分析工具,因为作为编译语言,已经不仅是调用,需要有更强的逻辑性;随着数据越来越多,如何能更有效的处理大量数据成为关键;而变成语言比较优越的一点就是能够通过编译实现高效的数据处理,也因此成为了求职路上的重要技能;

会用Python获取和处理数据,会写SQL的查询功能,这两点的掌握程度也成为了求职中脱颖而出额关键;

当然,如果是计算机工程师则还需要掌握C,Java等语言,但作为数据分析师,无论哪个行业需要掌握的都是前两者;

我要回帖

更多关于 数据分析需要具备的技能 的文章