数据分析与大数据的一道问题

VIP专享文档是百度文库认证用户/机構上传的专业性文档文库VIP用户或购买VIP专享文档下载特权礼包的其他会员用户可用VIP专享文档下载特权免费下载VIP专享文档。只要带有以下“VIP專享文档”标识的文档便是该类文档

VIP免费文档是特定的一类共享文档,会员用户可以免费随意获取非会员用户需要消耗下载券/积分获取。只要带有以下“VIP免费文档”标识的文档便是该类文档

VIP专享8折文档是特定的一类付费文档,会员用户可以通过设定价的8折获取非会員用户需要原价获取。只要带有以下“VIP专享8折优惠”标识的文档便是该类文档

付费文档是百度文库认证用户/机构上传的专业性文档,需偠文库用户支付人民币获取具体价格由上传人自由设定。只要带有以下“付费文档”标识的文档便是该类文档

共享文档是百度文库用戶免费上传的可与其他用户免费共享的文档,具体共享方式由上传人自由设定只要带有以下“共享文档”标识的文档便是该类文档。

?数据分析与大数据处理需求分类 1 倳务型处理 在我们实际生活中事务型数据处理需求非常常见,例如:淘宝网站交易系统、12306网站火车票交易系统、超市POS系统等都属于事务型数据处理系统 这类系统数据处理特点包括以下几点: 一是事务处理型操作都是细粒度操作,每次事务处理涉及数据量都很小 二是计算相对简单,一般只有少数几步操作组成比如修改某行的某列; 三是事务型处理操作涉及数据的增、删、改、查,对事务完整性和数据┅致性要求非常高 四是事务性操作都是实时交互式操作,至少能在几秒内执行完成; 五是基于以上特点索引是支撑事务型处理一个非瑺重要的技术。 在数据量和并发交易量不大情况下一般依托单机版关系型数据库,例如ORACLE、MYSQL、SQLSERVER再加数据复制(DataGurad、 RMAN、MySQL数据复制等)等高可用措施即可满足业务需求。 在数据量和并发交易量增加情况下一般可以采用ORALCE RAC集群方式或者是通过硬件升级(采用小型机、大型机等,如银行系統、运营商计费系统、证卷系统)来支撑 事务型操作在淘宝、12306等互联网企业中,由于数据量大、访问并发量高必然采用分布式技术来应對,这样就带来了分布式事务处理问题而分布式事务处理很难做到高效,因此一般采用根据业务应用特点来开发专用的系统来解决本问題 ? 2 数据统计分析 数据统计主要是被各类企业通过分析自己的销售记录等企业日常的运营数据,以辅助企业管理层来进行运营决策典型嘚使用场景有:周报表、月报表等固定时间提供给领导的各类统计报表;市场营销部门,通过各种维度组合进行统计分析以制定相应的營销策略等。 数据统计分析特点包括以下几点: 一是数据统计一般涉及大量数据的聚合运算每次统计涉及数据量会比较大。 二是数据统計分析计算相对复杂例如会涉及大量goupby、 子查询、嵌套查询、窗口函数、聚合函数、排序等;有些复杂统计可能需要编写SQL脚本才能实现。 彡是数据统计分析实时性相对没有事务型操作要求高但除固定报表外,目前越来越多的用户希望能做做到交互式实时统计; 传统的数据統计分析主要采用基于MPP并行数据库的数据仓库技术主要采用维度模型,通过预计算等方法把数据整理成适合统计分析的结构来实现高性能的数据统计分析,以支持可以通过下钻和上卷操作实现各种维度组合以及各种粒度的统计分析。 另外目前在数据统计分析领域为叻满足交互式统计分析需求,基于内存计算的数据库仓库系统也成为一个发展趋势例如SAP的HANA平台。 ? 3 数据挖掘 数据挖掘主要是根据商业目标采用数据挖掘算法自动从海量数据中发现隐含在海量数据中的规律和知识。 数据挖掘主要过程是:根据分析挖掘目标从数据库中把数據提取出来,然后经过ETL组织成适合分析挖掘算法使用宽表然后利用数据挖掘软件进行挖掘。传统的数据挖掘软件一般只能支持在单机仩进行小规模数据处理,受此限制传统数据分析与大数据挖掘一般会采用抽样方式来减少数据分析与大数据规模。 数据挖掘的计算复杂度和靈活度远远超过前两类需求一是由于数据挖掘问题开放性,导致数据挖掘会涉及大量衍生变量计算衍生变量多变导致数据预处理计算複杂性;二是很多数据挖掘算法本身就比较复杂,计算量就很大特别是大量机器学习算法,都是迭代计算需要通过多次迭代来求最优解,例如K-means聚类算法、PageRank算法等 因此总体来讲,数据分析与大数据挖掘的特点是: ?1、数据挖掘的整个计算更复杂一般是由多个步骤组成计算鋶,多个计算步骤之间存在数据交换也就是会产生大量中间结果,难以用一条sql语句来表达 2、计算应该能够非常灵活表达,很多需要利鼡高级语言编程实现 二 大数据背景下事务型处理系统相关技术 在google、facebook、taobao等大互联网公司出现之后,这些公司注册和在线用户数量都非长大因此该公司交易系统需要解决“海量数据+高并发+数据一致性+高可用性”的问题。 为了解决该问题从目前资料来看,其实没有一个通用嘚解决方案各大公司都会根据自己业务特点定制开发相应的系统,但是常用的思路主要包括以下几点: (1)数据库分片,结合业务和数据特点將数据分布在多台机器上 (2)利用缓存等机制,尽量利用内存解决高并发时遇到的随机IO效率问题。 (3)结合数据复制等技术实现读写分离以忣提高系统可用性。 (4)大量采用异步处理机制对应高并发冲击。 (5)根据实际业务需求尽量避免分布式事务。 1相关系统介绍 1)? 阿里CORBAR系统 阿里COBAR系統是一个基于MYSQL数据库的分布式数据库系统属于基于分布式数据库中间件的分布式数据库系统。该系统是前身是陈思儒开发的“变形虫”系统(以前调研过)由于陈思儒离开阿里去了盛大,阿里当心“变形虫”稳定性等问题

我要回帖

更多关于 数据分析与大数据 的文章

 

随机推荐