要如何学数据挖掘掘需要哪些基础?

从我的数据分析课程开讲以来,收到了不少朋友的问题:我是做运营的想入门数据分析应该怎么学?新手做数据分析有哪些好用的工具?会用Excel但是做分析总是没思路怎么办?做数据分析有哪些方法等等一系列的问题,今天我就用这篇文章统一回答关于数据分析入门的问题。一、数据分析是什么?很多人都没有搞懂数据分析是什么,包括一些公司和企业也没搞清楚数据分析的定义。经常听到有人说投了数据分析的岗位,结果入职之后每天干的活就是取数给业务用,感觉自己就像个取数机。这样的工作根本不能叫做数据分析。什么是数据分析,用我自己的话来说就是针对某个问题,将获取后的数据用分析手段加以处理,并发现业务价值的过程。这一句话也基本涵盖了数据分析的流程:目标确定——数据获取、清洗、整理——数据分析——结果呈现二、数据分析需要哪些能力?数据分析师需要会哪些技能,围绕上面数据分析的基本流程,我把数据分析师的能力分为这样三大部分:基础知识、工具技能、分析方法与思维以下师数据分析的技能大纲,图中标记了能力等级,大家根据自己的情况对应学习:三、数据分析基础知识数据分析理论知识这方面,需要掌握是统计学和机器学习相关知识。1、统计学毫不夸张的说统计学是整个数据分析的灵魂。判别一个数据分析师强弱的一个重要方法就是,看他对统计规律的敏感度。这里我们需要从基础的统计理论(描述性统计、区间估计、假设检验等)出发,到基本的统计分析(T 检验、方差分析等),最后到商业常用的模型(回归分析、方差分析等),学习数据分析背后的逻辑,掌握实用统计学的概念和会利用统计的思维去思考问题。推荐书籍:《深入浅出数据分析》、《统计学习方法》李航《深入浅出数据分析》这本书非常推荐作为小白的入门书籍,特别是之前没有接触过数据分析的。特点和书名一样深入浅出,而且图多。里面没有那么多公式和理论,但其中对于统计的基本原理以及统计问题的来源场景介绍的非常通透,非常符合深入浅出系列定位。如果有之前有一定基础,建议略过。2、机器学习对于想要进阶成为高级数据分析师的朋友来说,就要掌握机器学习相关的知识:特征工程的基础:如何统计数据特征、选用不同的特征,做模型的优化;基本的分类算法:决策树、随机森林等;基本的聚类算法、数据挖掘、常见的机器学习算法的了解等等机器学习相关的知识学习成本会比较高,对某些同学来说可能会有一定难度,但对于业务型数据分析师来说,一般不会要求你去推导算法公式,能做到明白不同算法的适用场景、优缺点、原理大概懂就基本可以了。推荐学习书籍:《机器学习》周志华,网上也有不少学习视频,入门的话我推荐吴恩达的coursera机器学习课四、数据分析工具学习1、PPT为什么把PPT放在第一,原因很简单,我们做数据分析的目的是什么?当然是为了展示给客户、上级,供他们做决策。所以PPT作为主流汇报、展示工具,是将分析关键结果传递给其他的重要手段。学好PPT可以提升沟通和消息传递效率,也是数据分析师必备的技能,具体学习书目我就不做推荐了。2、EXCELEXCEL应该是数据分析师最常用的统计分析工具了,原因是因为方便,所见即所得,而且具有方便的可视化功能。应该说只有学会了Vlookup,数据透视和基本公式才算EXCEL入门,其次EXCEL最大的惊喜是数据可视化,拥有大量的图表模板,可以减轻我们很多工作。这里我推荐《谁说菜鸟不会数据分析》这本书作为EXCEL入门。这本书如果作为数据分析入门书籍是不合格的,因为它有太多内容是关于EXCEL基本操作的,关于数据分析的内容反而很少,但是实事求是的讲这本书里面关于EXCEL数据分析常用公式、数据可视化的内容还是不错的,可以当成一本入门书籍。3、ACCESS为什么把ACCESS作为中级数据分析师必备技能,原因很简单,当数据太大,EXCEL又处理不了,又没有很强的编程基础怎么办?ACCESS的优势就体现出来了,它可以在不用掌握很高深编程语言的条件下,处理Excel所不能承载的大存储量的数据原始文件,速度奇快,且易学易用。作为入门,我推荐《表哥的Access入门》这本书。通过一个简单的小饭馆数据库管理程序的开发过程,对理解数据库和学习一些基本的ACCESS很有帮助。4、SQL作为数据分析人员,要想获取数据,肯定就要和数据库打交道,因此sql肯定是要掌握的,在招聘要求中,sql也是很多数据分析岗位的能力要求之一。学习SQL最快的方法是能自己下载数据库管理工具,找些数据练习,主要了解一些数据库查询语言,where,group by,orderby,having,like,count,sum,min,max,distinct,if,join,left join,limit,and和or的逻辑,时间转换函数等。这里推荐《MYSQL必知必会》5、PythonPython作为目前最火的编程软件之一,确实在数据分析、数据挖掘上有着独特优势。是否具备编程能力,也是初级数据分析和高级数据分析的分水岭。以下以python的学习路线图:看起来要学习的内容挺多的,但其实python最大的优势就是语言简约,非常易于读写,如果之前有一定的编程基础,上手很快。推荐书籍《Python编程快速上手》,新手可以跟着书里的内容一步步做,把里面的项目做完,差不多就入门了6、商业数据分析软件excel做数据分析难以解决大数据量的问题,对没有编程基础的人来说上手python又比较难,这时候可以选择利用数据分析软件来做数据分析,现在市场上的数据分析软件基本都涵盖来数据采集、处理、分析到可视化展现的过程,操作简单,可视化效果很棒,比较适合新手入门。比较好用的有FineBI、tableau 等等五、数据分析方法学习数据分析肯定有人上网百度了不少数据分析方法,什么漏斗分析法,PEST,SWOT模型、杜邦分析法等等。并且由于不同版本的演绎,造成了分析方法种类繁多,令人眼花缭乱,关于分析方法值得一说的就是一定要结合行业特点,特别是对业务的掌握,这样才能事半功倍。下面简单列几个比较通用的分析方法:1、对比分析法对比分析法常用的基础分析方法,虽然方法特别简单,但几乎所有的分析报告中,都会采取对比分析方法。比如去年同期相比、上个月环比、目标和实际达成相比、各个部门和业务线相比、行业内竞品比较、营销效果对比,等等。这里需要注意的是我们不管是横向比较还是纵向比较,比较的双方一定要有可比性,并且在同一个维度、粒度上去比较,要不是毫无意义的。2、5W2H分析法这个方法主要应用于用户行为研究和专项问题分析,从时间、地点、人物、事情、原因、方式、价格等7个方面对一个问题进行刻画研究。3、SWOT明确资源优势(Strengths)、竞争劣势(Weaknesses)、外部环境变化带来的机会(Opportunities)和威胁(Threats)等,将这些因素有机结合起来,以此确定企业经营战略。4、PEST从政治(Politics)、经济(Economics)、社会(Society)、技术(Technology)4个视角分析外部环境。5、杜邦分析法杜邦分析法是一种用来评价公司盈利能力和股东权益回报水平,从财务角度评价企业绩效的一种经典方法。其基本思想是将企业净资产收益率逐级分解为多项财务比率乘积,这样有助于深入分析比较企业经营业绩。六、数据分析思维分析思维是数据分析师最最核心的竞争力,上面所学习的python、sql、机器学习知识等都是在工具层面,要想使用好他们,还需要分析思维的驾驭。对于分析思维的学习,我建议新人也是从读书开始,我看过的且比较推荐的书包括:数据分析类《精益数据分析》、《增长黑客》、《数据化管理:洞悉零售及电子商务运营》、《数据挖掘与数据化运营实战 思路、方法、技巧与应用》产品思维类如果是想要从事互联网行业的数据分析师的话,产品思维也是必须要具备的,面试考察点之一,推荐《从点子到产品:产品经理的价值观与方法论》、《俞军产品方法论》、《产品思维》逻辑思维类在面试中逻辑清晰的回答面试官的问题,会为你大大的加分,推荐《金字塔原理》、《学会提问》、《麦肯锡思维》最后分享一些BI建设、数据分析相关的优质资料:
凡事都要先入门,基础很重要,对数据分析而言,统计知识、数据库语言、数据分析工具三大基本内容不可或缺。在这基础之上,数据可视化和数据挖掘的内容也需要学习。1.理论基础如果你是理工科学生,想必对概率论与数理统计、线性代数、离散数学三门课并不陌生,而它们也是和数据分析有着密切关系的数学基础。概率计算、回归分析、泊松分布、正态分布、置信区间、假设检验,这些知识点常常在数据分析中被运用,贝叶斯定理更是数据挖掘中分类器构建的基础。在入门数据分析以前,你可以重新巩固相关的数理知识点。2.数据库语言数据分析中的另一大基础是关系数据库标准语言SQL,这块内容也是计算机专业学生的必修知识。常用的SQL语句并不多,但都要求我们必须掌握!通过基础查询、聚合函数、嵌套查询、连接查询等知识的运用,我们可以有效过滤海量数据,同时对数据实现分组聚合。3. 数据分析工具Excel:也许你会对Excel嗤之以鼻,不就是个制作表格的吗?但其实Excel中许多隐藏技能是数据分析中的大杀器!你需要了解Excel的各类函数,如sum/count/if/rand/find/replace等。在Excel的诸多功能中,vlookup函数和数据透视表是极具性价比的学习重点,vlookup能够纵向查找,帮助你核对数据,数据透视表则可以让你轻松完成复杂数据的分类汇总。此外,应用于office中的编程语言VBA也可以让你实现许多意想不到的功能。Python:作为一门简单高效的编程语言,Python在数据分析工作中备受欢迎,它拥有许多优秀的库,可以协助你的数据分析工作,譬如pandas能帮助你进行数据清洗与可视化,numpy可以简便数组计算,scipy能够实现不同的假设检验,scikit-learn则可以对完整的数据分析建模……如果你已经熟悉了Python的基本语法,不妨了解相关的库来简便数据分析问题。4.数据可视化工具觉得用表格展现数据结果太low?数据可视化工具分分钟让你的结果变得高大上!Tableau支持对数据进行不同维度的分析,而且提供了近百种不同的数据呈现方式,让你的数据结果更美观也更直观,发挥出其最大价值。5.进阶之数据挖掘如果你想在数据分析上有更深的造诣,那么不妨尝试一下数据挖掘的工作。这需要你熟练linux环境下的编程,学习更高级的机器学习算法,比如决策树、SVM、聚类、线性回归、随机森林、贝叶斯等内容,并了解Hadoop和Spark等大数据开源工具。
所谓数据挖掘就是从海量的数据中,找到隐藏在数据里有价值的信息。因为这个数据是隐式的,因此想要挖掘出来并不简单。那么,如何进行数据挖掘呢?数据挖掘的步骤有哪些呢?一般来讲,数据挖掘需要经历数据收集、数据可视化、数据预处理、准备模型输入以及训练模型五大步骤,下面让我们来详细分析一下吧!第一步:数据收集通俗来讲,我们把数据挖掘可以看作是想要炒一盘可口的菜肴。那么,首先第一步就是去菜市场买菜。同样的,我们要从数据中找到需要的信息,第一步就是收集数据。第二步:数据可视化就好比你去买菜的时候,肯定要好好挑选一下,争取买到比较新鲜的蔬菜。同样的,数据挖掘的第二个步骤,就是再有了数据之后,还要看看拿来的数据长啥样。因此,我们可以利用各种可视化库来观察一下数据的内容,比如matplotlib或seaborn。第三步:数据预处理买完菜回到家我们要做的就是洗菜,把附着的泥土和残枝烂叶去掉,不然会影响我们的口感。通过上一步的可视化,我们可以发现数据里面有没有“残枝烂叶”,也就是我们说的异常值。异常值包括格式有问题的数据,例如年龄信息填的不是数字,或者信息根本就不符合逻辑,比如年龄填的200岁。大家填过各种调查问卷吧?很多人在填写的时候,遇到那些不是必须填的地方一般都会空着不填。这就导致数据集里除了异常值,还有一个经常会遇到的就是缺失值。我们也会通过一些手段来弥补一下这些空缺。就好比我们把蔬菜清洗干净之后,还要选择一下是不是所有的菜我们都需要呢?想吃蔬菜的可以多放蔬菜,想吃肉的就多放些肉。所以我们还需要在数据里选择出来跟我们的任务相关的特征,这个过程叫做特征选择。第四步:准备模型输入我们此时案板上放着我们洗干净和挑选出来的蔬菜,下一步就是切菜了。毕竟炒土豆丝也没有把一整个土豆直接放锅里的。所以我们要对这些蔬菜,也就是数据,进行一个转化。这个过程我们运用到独热编码和分桶,分别是对离散型数据和连续型数据的处理方式。第五步:训练模型最后一步就是炒菜啦。我们的模型就是不同种类的锅,在数据挖掘中常见的模型翻来覆去就那么几个,比如决策树,逻辑回归,梯度提升树,k-means等。一般来讲,比较有代表性的两个模型是逻辑回归和决策树,可以预测“是否会幸存”。其他的模型只是内部原理不同,但使用方法都是一样的。大家在进行数据挖掘的时候,也可以选择若干模型,最后看看结果分别都怎么样,对比一下谁比较强。以上就是数据挖掘比较详细的步骤分析。目前,市面上已经有很多的数据挖掘软件可以供我们使用,几乎不需要写任何代码,例如Orange、Weka等。大家也可以多试用一下那些软件~大数据遍地开花如何抓住学习机会?从《2022年中国大数据产业发展指数报告》中,我们可以看到,现在大数据相关的产业已经在各个城市发展起来,产业规模也不断在扩大,相关行业对人才的需求量也在不断增加!据《新职业——大数据工程技术人员就业景气现状分析报告》显示,预计2025年前大数据人才需求仍保持 30%-40% 的增速,行业人才需求量达到 250 万 。不仅招聘需求多,大数据开发人才在各大城市的就业薪资也非常可观。△数据来源职友集,如侵删薪资高、缺口大,自然成为职场人的“薪”选择!任何学习过程都需要一个科学合理的学习路线,才能够有条不紊的完成我们的学习目标。Python+大数据所需学习的内容纷繁复杂,难度较大,为大家整理了一个全面的Python+大数据学习路线图,帮大家理清思路,攻破难关!Python+大数据学习路线图详细介绍(均为免费视频教程哈)第一阶段 大数据开发入门学前导读:从传统关系型数据库入手,掌握数据迁移工具、BI数据可视化工具、SQL,对后续学习打下坚实基础。1.大数据数据开发基础MySQL8.0从入门到精通MySQL是整个IT基础课程,SQL贯穿整个IT人生,俗话说,SQL写的好,工作随便找。本课程从零到高阶全面讲解MySQL8.0,学习本课程之后可以具备基本开发所需的SQL水平。2022最新MySQL知识精讲+mysql实战案例_零基础mysql数据库入门到高级全套教程第二阶段 大数据核心基础学前导读:学习Linux、Hadoop、Hive,掌握大数据基础技术。2022版大数据Hadoop入门教程Hadoop离线是大数据生态圈的核心与基石,是整个大数据开发的入门,是为后期的Spark、Flink打下坚实基础的课程。掌握课程三部分内容:Linux、Hadoop、Hive,就可以独立的基于数据仓库实现离线数据分析的可视化报表开发。2022最新大数据Hadoop入门视频教程,最适合零基础自学的大数据Hadoop教程第三阶段 千亿级数仓技术学前导读:本阶段课程以真实项目为驱动,学习离线数仓技术。数据离线数据仓库,企业级在线教育项目实战(Hive数仓项目完整流程)本课程会、建立集团数据仓库,统一集团数据中心,把分散的业务数据集中存储和处理 ;目从需求调研、设计、版本控制、研发、测试到落地上线,涵盖了项目的完整工序 ;掘分析海量用户行为数据,定制多维数据集合,形成数据集市,供各个场景主题使用。大数据项目实战教程_大数据企业级离线数据仓库,在线教育项目实战(Hive数仓项目完整流程)第四阶段 PB内存计算学前导读:Spark官方已经在自己首页中将Python作为第一语言,在3.2版本的更新中,高亮提示内置捆绑Pandas;课程完全顺应技术社区和招聘岗位需求的趋势,全网首家加入Python on Spark的内容。1.python入门到精通(19天全)python基础学习课程,从搭建环境。判断语句,再到基础的数据类型,之后对函数进行学习掌握,熟悉文件操作,初步构建面向对象的编程思想,最后以一个案例带领同学进入python的编程殿堂。全套Python教程_Python基础入门视频教程,零基础小白自学Python必备教程2.python编程进阶从零到搭建网站学完本课程会掌握Python高级语法、多任务编程以及网络编程。Python高级语法进阶教程_python多任务及网络编程,从零搭建网站全套教程3.spark3.2从基础到精通Spark是大数据体系的明星产品,是一款高性能的分布式内存迭代计算框架,可以处理海量规模的数据。本课程基于Python语言学习Spark3.2开发,课程的讲解注重理论联系实际,高效快捷,深入浅出,让初学者也能快速掌握。让有经验的工程师也能有所收获。Spark全套视频教程,大数据spark3.2从基础到精通,全网首套基于Python语言的spark教程4.大数据Hive+Spark离线数仓工业项目实战通过大数据技术架构,解决工业物联网制造行业的数据存储和分析、可视化、个性化推荐问题。一站制造项目主要基于Hive数仓分层来存储各个业务指标数据,基于sparkSQL做数据分析。核心业务涉及运营商、呼叫中心、工单、油站、仓储物料。全网首次披露大数据Spark离线数仓工业项目实战,Hive+Spark构建企业级大数据平台

我要回帖

更多关于 如何学数据挖掘 的文章

 

随机推荐