pb级是大数据库层次模型实例层次的临界点吗

比特客户端
您的位置:
详解大数据
详解大数据
详解大数据
详解大数据
大数据时代 PB级数据怎么管?
解决方案 首页焦点图2
   如何理解PB级数据?说到这个数据量级,人们首先会到CADAL项目(大学数字图书馆国际合作计划),该项目可以说是开启了PB级数据管理的一个典型案例。他的成功运行搭建为众多商提供了借鉴。
  PB级数据挑战多
  据大学数字图书馆国际合作计划管理中心副主任黄晨介绍:“CADAL项目面临的三个应用挑战是:首先是 PB级数据需要长期保留;其次,需要24小时不间断为高校师生服务;最后,多重业务需要共享资源。为此,我们在建设中,从系统稳定性、易用性、分级/信息生命周期管理、硬件升级更新与业务连续性、可用性、性能六个方面去考虑。
  事实上,CADAL在开展二期项目的过程中,就明显感觉到了大数据上述的三大应用挑战。经过一期和二期工程建设,CADAL项目已经完成多万册古籍和相关音视频资料的数字化,面向全国2000所高校开展服务,部分资源向公众开放。250多万册古籍和相关音视频资料加在一起,数据量已经达到600TB。三期工程将继续扩大资源建设,数据量将很快达到PB级。
  为此,信息基础架构平台需要能够动态地支持多重工作流,满足不同的性能要求、不同的容量要求,并且随时能够改变;需要有效地管理共享资源,存储资源按需分配,同时通过配额管理功能,以提高利用率。
  选择方案的关键点
  据了解,250万册的纸质图书,需要1栋15层的大楼才能容纳。如图2所示。而采用现代的技术手段,只需要一个机柜,就足够应对250万册甚至更多图书的数字化影像。图所3所示。
  图2某省图书馆介绍,建筑面积18073平方米,书库主体15层,可容纳250万册藏书
  图3 这样一组 Isilon机柜可以保存几千万册数字化图书
  面对上述挑战,据CADAL项目管理中心数据主管刘涛老师介绍说,CADAL项目管理中心从系统稳定性、易用性、分级存储/信息生命周期管理、硬件升级更新与业务连续性、可用性、性能六个方面进行综合考察。最终选择了EMC Isilon,总容量1PB的EMC Isilon大数据在CADAL项目管理中心部署完成,投入使用。
  方案核心优势
  这一方案的核心优势主要表现在两个方面:
  一是支持文件、等多种灵活的访问方式,简化了操作,提高了效率。
  CADAL图书数字化的大致工作流程是:共建高校申报图书资源à项目管理委员会审定à共建高校负责数字化处理并将数字图书提交给管理中心à管理中心将数字图书发布到前端存储对外提供服务,同时备份多份份到后端存储。
  刘老师经常要做的一件事情是:通过工作机将共建高校提交的数字图书从临时存储复制到前端和后台存储。由于各台连接不同的光纤存储,需要把存储设备挂接到服务器才能操作,并且各服务器还应用不同的,数据需要走“临时存储à工作机服务器à服务器à后端存储”的路径。换成Isilon之后,数据只需要走“临时存储à前端服务器à后端Isilon存储”的路径,由于Isilon的吞吐量很大,并且没有文件系统和LUN管理的兼容问题,可以同时从多个临时存储往后端Isilon存储保存数据,且没有额外的速度损失,效率大大提高。以前,从共建高校接收数字图书较多时,后端的发布或备份服务器上的数据流量会比较大,会影响其它数据访问或应用,发布和备份会出现瓶颈;如果大量使用光纤存储,服务器端的成本也会增加。采用Isilon之后,硬件上带宽提高了,系统上跳过了操作系统层面的处理,这种现象有较大改观。
  二是支持分级存储、节点分级存储和加速,既保证了大容量,也保证了高性能。
  CADAL的做法是,将活跃的数据保存在配有固态硬盘的高速Isilon节点上,其它数据保存在普通Isilon节点上。不同高校图书馆提供的数字图书分区保存,存储空间按需分配,并实行配额管理,提高存储利用率。
  PB知识链接:
  TechTarget自己的百科网站Whatis有关于PB大小的定义:“PB是数据存储容量的单位,它等于2的50次方个字节,或者在数值上大约等于1000个TB。”
  那么一个TB呢?
  “TB是一个计算机存储容量的单位,它等于2的40次方,或者接近一万亿个字节(即,一千千兆字节)。”
  未来学家Raymond Kurzweil他的论文中对PB的定义进行延伸:人类功能记忆的容量预计在1.25个TB。这意味着,800个人类记忆才相当于1个PB。
  如果这样还不够清楚,那么Adfonic的 Wes Biggs给出了下面更直接的计算:
  假设播放MP3的编码速度为平均每分钟1MB,而1首歌曲的平均时长为4分钟,那么1PB歌曲可以连续播放2000年。
  如果相机拍摄相片的平均大小为3MB,打印照片的平均大小为8.5英寸,那么总共1PB的照片的并排排列长度就达到48000英里――大约可以环绕地球2周。
  1PB足够存储整个美国人口的,而且还能再克隆2倍。
[ 责任编辑:王婷婷 ]
人与人的社交关系已经完全迁移到…
甲骨文的云战略已经完成第一阶段…
软件信息化周刊
比特软件信息化周刊提供以数据库、操作系统和管理软件为重点的全面软件信息化产业热点、应用方案推荐、实用技巧分享等。以最新的软件资讯,最新的软件技巧,最新的软件与服务业内动态来为IT用户找到软捷径。
商务办公周刊
比特商务周刊是一个及行业资讯、深度分析、企业导购等为一体的综合性周刊。其中,与中国计量科学研究院合力打造的比特实验室可以为商业用户提供最权威的采购指南。是企业用户不可缺少的智选周刊!
比特网络周刊向企业网管员以及网络技术和产品使用者提供关于网络产业动态、技术热点、组网、建网、网络管理、网络运维等最新技术和实用技巧,帮助网管答疑解惑,成为网管好帮手。
服务器周刊
比特服务器周刊作为比特网的重点频道之一,主要关注x86服务器,RISC架构服务器以及高性能计算机行业的产品及发展动态。通过最独到的编辑观点和业界动态分析,让您第一时间了解服务器行业的趋势。
比特存储周刊长期以来,为读者提供企业存储领域高质量的原创内容,及时、全面的资讯、技术、方案以及案例文章,力求成为业界领先的存储媒体。比特存储周刊始终致力于用户的企业信息化建设、存储业务、数据保护与容灾构建以及数据管理部署等方面服务。
比特安全周刊通过专业的信息安全内容建设,为企业级用户打造最具商业价值的信息沟通平台,并为安全厂商提供多层面、多维度的媒体宣传手段。与其他同类网站信息安全内容相比,比特安全周刊运作模式更加独立,对信息安全界的动态新闻更新更快。
新闻中心热点推荐
新闻中心以独特视角精选一周内最具影响力的行业重大事件或圈内精彩故事,为企业级用户打造重点突出,可读性强,商业价值高的信息共享平台;同时为互联网、IT业界及通信厂商提供一条精准快捷,渗透力强,覆盖面广的媒体传播途径。
云计算周刊
比特云计算周刊关注云计算产业热点技术应用与趋势发展,全方位报道云计算领域最新动态。为用户与企业架设起沟通交流平台。包括IaaS、PaaS、SaaS各种不同的服务类型以及相关的安全与管理内容介绍。
CIO俱乐部周刊
比特CIO俱乐部周刊以大量高端CIO沙龙或专题研讨会以及对明星CIO的深入采访为依托,汇聚中国500强CIO的集体智慧。旨为中国杰出的CIO提供一个良好的互融互通 、促进交流的平台,并持续提供丰富的资讯和服务,探讨信息化建设,推动中国信息化发展引领CIO未来职业发展。
IT专家新闻邮件长期以来,以定向、分众、整合的商业模式,为企业IT专业人士以及IT系统采购决策者提供高质量的原创内容,包括IT新闻、评论、专家答疑、技巧和白皮书。此外,IT专家网还为读者提供包括咨询、社区、论坛、线下会议、读者沙龙等多种服务。
X周刊是一份IT人的技术娱乐周刊,给用户实时传递I最新T资讯、IT段子、技术技巧、畅销书籍,同时用户还能参与我们推荐的互动游戏,给广大的IT技术人士忙碌工作之余带来轻松休闲一刻。
微信扫一扫
关注Chinabyte大数据和云:离完美还差很远
日期:作者:来源:
&&&&&&&&&&&&
  这些日子以来,大数据似乎很时髦。它的确很大,很新,它和Hadoop有关,而且一般来说都在公有云中。如今每周都会有新的企业和新的云产品出现,都承诺最终可以控制企业的数据。它们都在兜售同一个想法:企业可以通过公有云的弹性,迁移到几乎“没有容量限制的”PB级数据库上去。  而现实跟这样的炒作则相差甚远。当组织试图将企业的数据整合到公有云中的大型数据库上时,它们却忽视了一些技术方面的现实。  首先,大数据意味着大迁移的挑战。从企业获取数据迁往公有云可能是成问题的。尽管企业每天都要在开放的互联网上搬运数十万条数据记录,但是在很多大数据的场合下,我们所谈论的却是数百万条数据记录如何从现有的企业系统中迁出、转换、加密的问题。  这么做你很快就会碰上带宽的限制。实际上,很多企业都是通过联邦快递传送U盘给其公有云提供商的。  其次,尽管在云中肯定会实施各种安全措施,但是一般来说,在企业内部的系统或私有云中处理数据级别的安全还是要便宜得多。在很多场合下,企业的安全模式和安全技术成本都不是很高。举例来说,在公有云中,企业必须对其数据进行加密,而在自己的数据中心内则无此必要。同样,把数据保留在本地,法规遵从一般来说也更容易,成本也更低。  顺便说一句,我并不是说大数据完全不适合公有云,而是说你必须要考虑所有的技术问题。再加上其他的架构问题,你必须具体问题具体分析。
微信公众号
TechTarget
TechTarget中国
查看更多评论
敬请读者发表评论,本站保留删除与本文无关和不雅评论的权力。
国际知名云计算专家,分析机构Cloud Technology Partners公司高级副总裁。
对企业来说,大数据意味着难以抗拒的商业机会。但是,其中也蕴含着极大的风险,比如对特定群体或个体的歧视。
史上最大的技术企业收购、实施物联网项目的正确方法、自动化机器人对劳动力市场的冲击以及5位数字化颠覆者的案例:2015年技术系列文章旁证了CIO工作所面临的巨大挑战。
在信息爆炸的大数据时代,显然这样的模式已经不再适用。我们需要透过这种数据激增的现象抓住数据的本质,去分析、总结和预测未来,从而对我们的工作做出正确的判断和决策
江苏软件园成立于2000年,是中国首批国家级软件园之一。2011年8月,江苏软件园区新整合迁至江宁开发区。新园区,即新的起点,新的挑战,作为后起秀江苏软件园深知,要想取得突破性的进展,就必须独辟蹊径,不走寻常路。
项目管理就是指把各种系统、方法和人员结合在一起,在规定的时间、预算和质量目标范围内完成项目的各项工作。项目管理是通过应用和综合诸如启动、规划、实施、监控和收尾等项目管理过程来进行的。基本内容包括项目整体规划和管理、项目范围管理、项目时间管理、项目费用管理、项目质量管理、项目人力资源管理、项目沟通管理、项目风险管理、项目采购管理等等。
未来数月的IT业,经济衰退仍将如影随行——或许远不止此——各企业纷纷勒紧裤腰带,大幅减少IT预算。在他们看来,以最有限的资源换取最大的投资回报是当下最精明的办法。CIO如何在经济低潮期削减成本,在帮助公司IT部门安度低迷期的同时进一步推进其发展呢?
虽然已经有很好的SOA的企业可以为BPM和BPMS的实施铺路,这两者之间的关系不是很必要。BPM关注业务需求,而SOA是关于在企业内部改善资产的使用——特别是IT资产。SOA是支持服务间交流的基础架构,可以确定两个计算整体,例如两个项目如何写作。它的目标是提高项目间的交流效率,来保持每个单独的服务可以协作。业务流程管理(BPM)和面向服务架构(SOA)之间的选择,类似鸡和蛋的辩论。
成功的企业项目组合管理(PPM)需要的不只是领导团队或规划未来IT项目的方法。作为CIO,你必须准备好制定长短期的策略、研究最适合机构的策略、并在需要的时候采购帮助实现企业目标的工具。你是否准备在企业中采用企业项目组合管理,或用以把现有项目带入下一阶段?本技术手册介绍了可以帮助规划企业资源和完成PPM目标的技术技能。
TechTarget
企业级IT网站群
TechTarget中国 版权所有
All Rights Reserved, Copyright
TechTarget中国 版权所有
All Rights Reserved, CopyrightBIG_DATA(大数据)_图文_百度文库
两大类热门资源免费畅读
续费一年阅读会员,立省24元!
评价文档:
BIG_DATA(大数据)
上传于||暂无简介
大小:5.43MB
登录百度文库,专享文档复制特权,财富值每天免费拿!
你可能喜欢在大数据处理系统中,如何有效地将real time与batch job结合起来,既发挥前者对响应的实时性,又能解决对海量数据的分析与处理?答案就是Lambda架构思想。
Mathan Marz的大作Big Data: Principles and best practices of scalable real-time data systems介绍了Labmda Architecture的概念,用于在大数据架构中,如何让real-time与batch job更好地结合起来,以达成对大数据的实时处理。
传统系统的问题
在传统数据库的设计中,无法很好地支持系统的可伸缩性。当用户访问量增加时,数据库无法满足日益增长的用户请求负载,从而导致数据库服务器无法及时响应用户请求,出现超时错误。
解决的办法是在Web服务器与数据库之间增加一个异步处理的队列。如下图所示:
当Web Server收到页面请求时,会将消息添加到队列中。在DB端,创建一个Worker定期从队列中取出消息进行处理,例如每次读取100条消息。这相当于在两者之间建立了一个缓冲。
但是,这一方案并没有从本质上解决数据库overload的问题,且当worker无法跟上writer的请求时,就需要增加多个worker并发执行,数据库又将再次成为响应请求的瓶颈。一个解决办法是对数据库进行分区(horizontal partitioning或者sharding)。分区的方式通常以Hash值作为key。这样就需要应用程序端知道如何去寻找每个key所在的分区。
问题仍然会随着用户请求的增加接踵而来。当之前的分区无法满足负载时,就需要增加更多分区,这时就需要对数据库进行reshard。resharding的工作非常耗时而痛苦,因为需要协调很多工作,例如数据的迁移、更新客户端访问的分区地址,更新应用程序代码。如果系统本身还提供了在线访问服务,对运维的要求就更高。稍有不慎,就可能导致数据写到错误的分区,因此必须要编写脚本来自动完成,且需要充分的测试。
即使分区能够解决数据库负载问题,却还存在容错性(Fault-Tolerance)的问题。解决办法:
改变queue/worker的实现。当消息发送给不可用的分区时,将消息放到“pending”队列,然后每隔一段时间对pending队列中的消息进行处理。
使用数据库的replication功能,为每个分区增加slave。
问题并没有得到完美地解决。假设系统出现问题,例如在应用系统代码端不小心引入了一个bug,使得对页面的请求重复提交了一次,这就导致了重复的请求数据。糟糕的是,直到24小时之后才发现了该问题,此时对数据的破坏已经造成了。即使每周的数据备份也无法解决此问题,因为它不知道到底是哪些数据受到了破坏(corrupiton)。由于人为错误总是不可避免的,我们在架构时应该如何规避此问题?
现在,架构变得越来越复杂,增加了队列、分区、复制、重分区脚本(resharding scripts)。应用程序还需要了解数据库的schema,并能访问到正确的分区。问题在于:数据库对于分区是不了解的,无法帮助你应对分区、复制与分布式查询。最糟糕的问题是系统并没有为人为错误进行工程设计,仅靠备份是不能治本的。归根结底,系统还需要限制因为人为错误导致的破坏。
数据系统的概念
大数据处理技术需要解决这种可伸缩性与复杂性。首先要认识到这种分布式的本质,要很好地处理分区与复制,不会导致错误分区引起查询失败,而是要将这些逻辑内化到数据库中。当需要扩展系统时,可以非常方便地增加节点,系统也能够针对新节点进行rebalance。
其次是要让数据成为不可变的。原始数据永远都不能被修改,这样即使犯了错误,写了错误数据,原来好的数据并不会受到破坏。
何谓“数据系统”?Mathan Marz认为:
如果数据系统通过查找过去的数据去回答问题,则通常需要访问整个数据集。因此可以给data system的最通用的定义:Query = function(all data)
一个大数据系统必须具备的属性包括:
健壮性和容错性(Robustness和Fault Tolerance)
低延迟的读与更新(Low Latency reads and updates)
可伸缩性(Scalability)
通用性(Generalization)
可扩展性(Extensibility)
内置查询(Ad hoc queries)
维护最小(Minimal maintenance)
可调试性(Debuggability)
Lambda架构
Lambda架构的主要思想就是将大数据系统构建为多个层次,如下图所示:
理想状态下,任何数据访问都可以从表达式Query = function(all data)开始,但是,若数据达到相当大的一个级别(例如PB),且还需要支持实时查询时,就需要耗费非常庞大的资源。
一个解决方式是预运算查询函数(precomputed query funciton)。Mathan Marz将这种预运算查询函数称之为Batch View,当需要执行查询时,可以从Batch View中读取结果。这样一个预先运算好的View是可以建立索引的,因而可以支持随机读取。于是系统就变成:
batch view = function(all data)
query = function(batch view)
Batch Layer
在Lambda架构中,实现batch view = function(all data)的部分被称之为batch layer。它承担了两个职责:
存储Master Dataset,这是一个不变的持续增长的数据集
针对这个Master Dataset进行预运算
显然,Batch Layer执行的是批量处理,例如Hadoop或者Spark支持的Map-Reduce方式。 它的执行方式可以用一段伪代码来表示:
function runBatchLayer():
while (true):
recomputeBatchViews()
例如这样一段代码:
Api.execute(Api.hfsSeqfile("/tmp/pageview-counts"),
new Subquery("?url", "?count")
.predicate(Api.hfsSeqfile("/data/pageviews"),
"?url", "?user", "?timestamp")
.predicate(new Count(), "?count");
代码并行地对hdfs文件夹下的page views进行统计(count),合并结果,并将最终结果保存在pageview-counts文件夹下。
利用Batch Layer进行预运算的作用实际上就是将大数据变小,从而有效地利用资源,改善实时查询的性能。但这里有一个前提,就是我们需要预先知道查询需要的数据,如此才能在Batch Layer中安排执行计划,定期对数据进行批量处理。此外,还要求这些预运算的统计数据是支持合并(merge)的。
Serving Layer
Batch Layer通过对master dataset执行查询获得了batch view,而Serving Layer就要负责对batch view进行操作,从而为最终的实时查询提供支撑。因此Serving Layer的职责包含:
对batch view的随机访问
更新batch view
Serving Layer应该是一个专用的分布式数据库,例如Elephant DB,以支持对batch view的加载、随机读取以及更新。注意,它并不支持对batch view的随机写,因为随机写会为数据库引来许多复杂性。简单的特性才能使系统变得更健壮、可预测、易配置,也易于运维。
Speed Layer
只要batch layer完成对batch view的预计算,serving layer就会对其进行更新。这意味着在运行预计算时进入的数据不会马上呈现到batch view中。这对于要求完全实时的数据系统而言是不能接受的。要解决这个问题,就要通过speed layer。从对数据的处理来看,speed layer与batch layer非常相似,它们之间最大的区别是前者只处理最近的数据,后者则要处理所有的数据。另一个区别是为了满足最小的延迟,speed layer并不会在同一时间读取所有的新数据,相反,它会在接收到新数据时,更新realtime view,而不会像batch layer那样重新运算整个view。speed layer是一种增量的计算,而非重新运算(recomputation)。
因而,Speed Layer的作用包括:
对更新到serving layer带来的高延迟的一种补充
快速、增量的算法
最终Batch Layer会覆盖speed layer
Speed Layer的等式表达如下所示:
realtime view = function(realtime view, new data)
注意,realtime view是基于新数据和已有的realtime view。
总结下来,Lambda架构就是如下的三个等式:
batch view = function(all data)
realtime view = function(realtime view, new data)
query = function(batch view . realtime view)
整个Lambda架构如下图所示:
基于Lambda架构,一旦数据通过batch layer进入到serving layer,在realtime view中的相应结果就不再需要了。
说明:本文内容摘译自Mathan Marz的大作Big Data: Principles and best practices of salable real-time data systems. 作者:张逸
转载请注明来自36大数据(): &
除非特别注明,本站所有文章均不代表本站观点。报道中出现的商标属于其合法持有人。请遵守理性,宽容,换位思考的原则。【图文】大数据技术特点_百度文库
两大类热门资源免费畅读
续费一年阅读会员,立省24元!
评价文档:
大数据技术特点
上传于||文档简介
&&大​数​据​特​点
大小:1.40MB
登录百度文库,专享文档复制特权,财富值每天免费拿!
你可能喜欢

我要回帖

更多关于 层次型数据库 的文章

 

随机推荐