华为存储解决方案手机無法撷取畫面,储存装置可能使用

当前位置: >>
华为大数据解决方案介绍(云南移动)
日星期日华为大数据解决方案介绍FusionInsight Hadoop 1 2 3 4 5大数据定义和发展历史 大数据在其他行业的应用大数据在运营商的应用与挑战FusionInsight Hadoop企业版介绍FusionInsight Hadoop成功实践2 业界大数据定义大数据(英语:Big data[1][2]),或称巨量资料、海量资料,指的是所涉及的资料量规模巨大到无法透过目前主流软件工具,在合理时间内达到撷取、管理、处理、并整理成为帮助企业经营决策更积极目的的资讯。网络上每一笔搜索,网站上每一笔交易,敲打键盘,点击鼠标的每一个输入都是数据,整理起来分析排行,它的功能可不仅仅止于事后被动了解市场,搜集起来的资料还可以被规画,引导开发更大的消费力量。Data-intensive computing:Data-intensive computing is a class of parallel computing applications which use a data parallel approach to processing large volumes of data typically terabytes or petabytes in size and typically referred to as Big Data. Computing applications which devote most of their execution time to computational requirements are deemed compute-intensive and typically require small volumes of data, whereas computing applications which require large volumes of data and devote most of their processing time to I/O and manipulation of data are deemed data-intensive.3 大数据发展历史华为在SmartCare解决方案中集成Hadoop、流处理、MPP DB 并在2012年推出大数据解决方案平台产品家族FusionInsightIBM推出大数据系列产品InfoSphere BigInsights, Streams Aster Data Hadoop创始 Hadoop在 Vertica 人根据谷歌论 Yahoo实验 ParAccel 文创建原型 室完成孵化 Greenplum 06 2008 EMC收购Greenplum,与MapR合作,推出Greenplum HDHP收购Vertica4 技术趋势:封闭平台日渐路窄,开放创新势不可挡传统大数据平台公司被迫开源,大公司 加入Apache Hadoop开源生态系统2010Q2发布InfoSphere BigInsights开源生态系统继续保持活力, 相关创新日趋加速2008Q3Facebook贡献Hive项目,成为Apache社区正式项目 2013Q2宣布秋季将会开源Presto,新的高性能数据分析引擎 贡献测试套件YCSB,并行计算调度框架YARN2011Q2,发布Greenplum HD 2011Q4放弃自研平台,发布HDInsight 2011Q2,LexisNexis Risk Solutions‘ High Performance Computing Cluster will be offered as open source code pitting it against Hadoop. 但是为时已晚,HPCC将被迫 局限在较小的市场。5贡献高性能SQL查询引擎Impala With a redesigned fully distributed API, HDFS integration and a wide range of new machine learning toolkits, GraphLab is now faster, more scalable, and more powerful than ever before. 1 2 3 4 5大数据定义和发展历史 大数据在其他行业的应用大数据在运营商的应用与挑战FusionInsight Hadoop企业版介绍FusionInsight Hadoop成功实践6 企业大数据应用的三种模式“卸载”模式卸载模式是指 ?在一些应用明确,不涉及实时复 杂SQL运用,数据量超大的场合, 采用大数据NoSQL技术来替换传 统的关系数据库加存储阵列的体 系。 ?在一些数据来源不变的场合(尤 其金融行业),在不需要数据库事 务的保护下,对ETL过程进行处理。“全量洞察”模式全量洞察模式是指 ?以往由于系统性能、时间、成本 等多方面的考量,客户洞察计算基 于少部分样本,比较依赖复杂的模 型和经验。由于大数据计算平台的 出现,可以基于拥有的全量数据进 行分析,从而可以在短时间内对很 多模型进行全量计算,降低对复杂 模型的依赖,通过实践反馈来验证 和选拔有效的模型。 ?业界已经证明,大量数据加简单 模型,要比部分数据加复杂模型, 要来得有效。“新数据”模式新数据模式是指 ?将以往已经收集,但是没有纳入 模型的数据纳入模型,参与分析。 ?将以前认为没有收集价值的数 据,收集起来,参与分析。 ?将以前无法收集的数据,采用最 新的技术,加以收集,比如呼叫中 心的交流记录。7 大数据在企业广泛落地,取得实效2012年大数据在美国、欧洲、拉美开始广泛 落地,并且在电信、旅游、金融取得效果欧美半数以上的企业在2012年开始启动大数据相关项目, 其中约有45%以上的企业在当年看到收益。 Telefornica发布了名为Smart Steps的服务,通过移动电 话的群体信息让其他公司、公众部门可以得知手机群体 的移动特征。2012年大数据应用领先企业的特征是利用线上获得客户行 为数据来优化线下体验和基于客户地理位置展开营销活动宝洁和Netflix,利用它们在线互联网服务获得的用户行为数据,可以深入洞察 用户偏好,从而在新产品、新服务的开发方面带来洞见。大数据应用领先者的主要特点,一是利用线上洞察,改善客户的线 下体验,二是基于客户的物理位置,进行营销。 通过收集用户在使用产品、服务的过程中的产生的数据,可以方便 的检测到产品设计中存在的问题,从而作为改进的基础,这是大数 据应用的主要场景之一。比如一些银行考虑收集自营电商、门户网 站的点击流数据,作为客户偏好分析的一个输入。《TCS Big Data Global Trend Study 2013》8 应用领先者特点:基于多源数据的客户洞察大数据应用领先企业更显著的引入了半结构 化数据,以及引入以前没有使用的数据源半结构化数 据引入的多 少,是领先 者与落后者 之间的主要 差别通过引入客服数据、客户浏览网站的点击流数据、客服 消费行为发生的时间、空间数据,可以全面刻画客户消费者不再是一堆毫无差别的数字交易事务,或者是一个Cookie文 件,或者一堆交易历史或者人口学数据,他们是具有切实差别的真实 存在的个体。For banks, the combination of huge volumes of data suddenly available to the organization and the new types of data they have access to (aside from account-specific or transaction data, they can also now look at unstructured data such as call center logs, geospatial information, and social media activity) presents a great potential to add much-needed context to the bank-to-customer relationship.IDC 《Buyer Conversations:Westpac's Journey into Big Data ― From Transactional Data to Big Data Analytics》“新数据”引 入的多少, 是领先者与 落后者之间 的主要差别《TCS Big Data Global Trend Study 2013》9 大数据在智慧城市中的应用日本“N系统”(自动车ナンバ`自动i取装置),可以全年无休对道路上行驶的车辆牌照拍照存盘,记录下行驶的路线与时间。同时在数据库中比对被通缉中嫌犯或窃赃车的车牌号码,如果发现符合,该系统立即通知在外巡逻的警员(配合携带式接收装置),及时对该车辆进行栏截围捕。另外、东京都警视厅也配合“3D脸部自动辨识系统”辨识人貌鉴定,警察如需调查案情之时,就能够调出数据库数据,进行交叉比对,筛选出可疑的犯罪目标。10 大数据在金融行业的应用工行新任行长易会满提出未来工作五大设想易会满指出,工行经过多年的发展,已经建成了国际领先的IT系统并积累了海量的经营数据。下一步工行将重点关注在大数据背景下如何建设信息化银行,利用海量的结构化、非结构化数据,通过集中、整合、挖掘、共享,来进一步发挥好信息的价值和创造力。这个工程推进以后,工行的整个营销品质、客户服务品质、风险管理、流程优化、内部管理,会得到根本性的提升,对管理理念、经营思想也会带来全面的影响和提升。要将大数据体系和信息化银行建设作为全行未来创新发展的一项重要任务。美国银行,基于客户的地理位置进行实时报价In another emerging-technology example, the bank is considering combining geolocation with its Bank Amerideals merchant-funded rewards program to deliver offers to customers in real time while they are in a particular store, such as Baby Gap.11 1 2 3 4 5大数据定义和发展历史 大数据在其他行业的应用大数据在运营商的应用与挑战FusionInsight Hadoop企业版介绍FusionInsight Hadoop成功实践12 大数据在国外运营商的应用NTT DATA can help you unlock the business value from your Big Data. NTT DATA defines three layers for its Big Data solutions. ?Big Data Platform: Engine for processing huge amounts of data in diverse formats. Hadoop and in-memory databases serve as such platforms. ?Analytics Software: Libraries equipped with high-level data analysis functions and data mining packages. ?Analytics Consulting: Frameworks and design best practices to offer solutions for each operation challenge.Juergen Urbanski Chief Technologist Big Data and Cloud at T-Systems (Deutsche Telekom) Zürich Area, Switzerland | Information Technology and Services “Hadoop as the OS for big data”“ By T-System’s estimates, in five years, 80 percent of all new data will first land in Hadoop’s distributed file system (HDFS) or in alternative Object Storage architectures.”13 Hadoop在国内电信行业的使用场景利用大数据技术,实现传统应用环境的技 术换代创新,降低成本,提升性价比通过在线应用和网络深度分析捕获更多客户数据,与已有数据 充分进行整合分析,形成客户刻画基础平台,供所有应用共享历史数据管理 (流量清单查询) 基于HBase高并发 海量清单数据查询客户刻画 实时营销 (多源数 据整合分 析挖掘) 捕获客户非结构 化数据,利用机 器学习和图分析 技术,形成基于 全量数据的客户 多维度刻画。 基于HBase构筑 多业务共享实时 标签访问平台。14云ETL 基于HiveQL海量数 据ETL 生产环境使用Hadoop的挑战?升级版本底层不兼容 ?在全文检索系统中,曾遇到开源Hadoop(省公司自行选择)平台版本升级后,无法兼容应用的情况 ?操作维护、问题定位都需要进行代码级操作;安装与管理无工具 ?开源Hadoop不提供图形化的安装、维护界面,进行安装、维护时,单纯命令方式交互,技术要求较高 ?Master节点没有热备; 硬盘故障率高,缺少可靠的预测、检测手段 ?在全文检索项目中,分布式文件系统元数据节点没有热备,硬盘故障率高,缺少可靠的预测、检测手段 ?明文存储;系统安全性差 ?开源Hadoop的数据采用明文存储,且只要用户具有OS权限,即可访问Hadoop平台,安全性较差。 ?部分客户采用的企业版缺乏长期 支持能力 ?个别供应商直接采用美国创业 公司企业版,不具备高级特性开发 能力和长期运行维护支持能力。 比如在某项目中客户提出不希望 Hadoop明文存储数据,希望对数 据进行加密,此类型需求需要进行 增强开发。 比如在某银行项目中,客户提出希 望支持HBase两地三中心地理容灾 特性,确保银行客户对历史记录单 据的查询不中断。15 案例分析:河南移动汇总计算痛点解决河南移动在云化ETL项目中,选型了华为企业版Hadoop。由于华为企业版Hadoop已经解决了系统的可靠性、 安全性和易用性问题,从而可以将系统开发、工程实施的主要精力集中于参数调优和应用设计优化。?修改HDFS的数据分布机制,支持数 据按照指定键值均匀分布到各节点上 ?ETL数据流优化,自动归并节点,自 动选择合适算法 ?对Map/Reduce内核机制的优化修 改,减少I/O,减少排序和Merger消 耗等,提升端到端性能ETL数据流执行计划优化 高效聚合和Join算法MapReduce内存缓存 Network Levitated Merge 免排序聚合HDFS数据分区16 移动集团性能规划思路性能管理系统数据分层架构建议为4层,如下图所示。不同数据层根据实际需求采用不同的技术实现。17 1 2 3 4 5大数据定义和发展历史 大数据在其他行业的应用大数据在运营商的应用与挑战FusionInsight Hadoop企业版介绍FusionInsight Hadoop成功实践18 华为FusionInsight大数据平台产品家族运营商BSS经营分析、PS URL话单检索分析 信用卡全生命周期分析 实时风控、征信、营销……大企业DW数据分析卸载建模、算法 (Noah: Lifelong Machine Learning / Human Computation etc,. ) 大 数 据 管 理 维 护 平 台Native API / SQL / App Engine服务封装 结构化处理 MPP DB流处理 CEP/streaming非、半结构化处理 Hadoop计算密集类: 服务器 带本地硬盘 存储密集类: MVX集中存储与归档合作自研部件19开源增强 FusionInsight Hadoop植根社区,提供工程化价值?内核完全基于Apache Hadoop社区,相关修改和优化 及时回馈社区,保持同步,接口与社区完全一致。中 长期来看,应用将完全通过SQL子集访问大数据,并且 该子集将统一于社区;20?集群管理吸收电信级软件的要求和借鉴传 统数据库的优势,在管理节点可靠性,以 及日常运维管理、性能优化方便性方面重 点进行提升;?工程团队重点在长期稳定运 行、问题隐患主动发现和定 位、性能优化、基于应用场 景的最优化方案设计方面 Apache Hadoop―繁荣、蓬勃生长的开源生态系统Hadoop核心基本组件的开 源代码量,接近200万行 HBase组件在快速的发展 中,平均每个月一个发布版 各组件团队之间、组件内团 队成员是松耦合、地理分布 式运作,相关特性无有效整合开源组件代码量 (KLoc) ZooKeeper BookKeeper 64 47HDFSYARN MapReduce HBase Hive Oozie Impala438380 260 273 88 102汇总165221 FusionInsight Hadoop―开源到企业级的蜕变采纳社区精华,去除开源Bug:华为团队社区问题/补丁贡献提交201 399年份 ? 谨慎选择稳定基线版本; ? 认真评估高版本补丁影响范围评估和回合策略; 2011 ? 采用数万个测试用例,确保企业版本稳定性2012解决211 3022011年根据Hortorworks排名全球第七,亚洲第一安全 性能 调优版本 配合配置 基线 选择 日志补丁 选择Hadoop HBase22 企业版的关键在于工程团队的能力能够创建新的社区 顶级项目,并且得 到生态系统认可某大银行CIO:“我们把大数据应用视作 是生命线,肯定是采用企业版,因为搞开 源软件不是我们的主业。在选合作伙伴的 时候,我们一定考虑门当户对,因为强有能够独立完成支 撑关键业务特性 的内核级开发 定位内核级问题 的团队(依赖团队 而不是精英个人)能够带领社区,引领 社区完成面向未来 的内核级特性开发力的合作伙伴才能保证3~5年的供应、合作安全”会定位内核级问 题(拔尖的个人)会定位周 边问题 会使用 Hadoop强大的掌握代码的团队,才能造就 成功的企业级数据平台软件23 全面提升社区原生版本可靠性OMS OMS可靠安全OM 系统双机易管理易开发监控各Hadoop组件,故障时拉起, 增加双重保护全部组件支持HAMR Client HDFS Client Hive Client Oozie Client HBase Client? 分布式文件系统元数据节点高可用方案华HiveHive Server Hive ServerOozieOozie Server Oozie ServerHBaseHMaster为已推入社区。支持文件系统目录级备份、Zookeeper恢复,并即将支持快照? HBase架构原生无单点故障,为保证实时RegionServerRegionServerRegionServer… …在线业务,提供备份、恢复和地理容灾特MapReduceResourceManager ResourceManagerHDFSBookeeper性NameNode NameNode? 新增支持ResourceManager 、Hive、 Oozie核心部件高可用NodeManagerNodeManagerNodeManagerNodeManager……? 主备倒换时运行任务不中断,数据不丢失24 金融级安全特性加强和提升开源Hadoop安全概况无集中的用户管理系统,各组件用户管理和鉴权各自为政 以开源社区组件原生的格式存储,其中包含文本的明文信息,不 满足金融安全要求 金融等保要求,开源Hadoop不支持此安全控制 开源Zookeeper匿名用户可以登录,造成各组件存储在 Zookeeper的数据有被恶意攻击的安全风险可靠安全易管理易开发FusionInsight Hadoop安全概况统一集中的用户账户管理,账户存储具备HA,支持LDAP接入 上层企业AAA管理系统Hive元数据,HBase和M/R任务在HDFS中的数据加密存储对通过Shell,API连接Hadoop各组件的客户端进行了总最大连接 数,单用户的最大连接数和一定时间窗内的最大连接数控制 限制Zookeeper匿名用户登录金融等保要求,开源Hadoop不支持该能力 非法用户提交任务给Hive server,占用系统资源非法用户登入系统、剽窃、损害合法用户的数据 合法用户相互之间也没有安全机制,关键信息不能互相隔离对Hadoop服务的非查询类操作系统审计能力Hive支持用户权限认证 Hive支持对用户可访问的系统资源进行授权管理Hive支持对合法用户之间进行资源合理25 文件系统数据加密避免运维窥视业 务 应 用敏感数据写 入敏感数据 读取 非敏感 数据可靠安全易管理易开发数据备份ARC4加密/解密备集群*(&@#$^%! %$#$!(*^&*^ *5!$!@^... 非敏感 数据文 件 系 统*(&@#$^%!%$#$!(*^&*^*5!$! @^%$^!$!%#$@%#!!$#@!非敏感 数据?技术特点 ? ? ?保密性高:采用业界流行的ARC4算法加密。除业务接口外,其他手段读取文件均为乱码(如通过shell、或HDFS接口查看)。灵活:加密算法插件化,可进行扩充,亦可自行开发。非敏感数据可不加密,不影响性能(加密约有5%性能开销)。 业务透明:上层业务只需指定敏感数据(Hive表级、HBase列族级加密),加解密过程业务完全不感知。26 全向导式图形化安装配置Step2:配置集群拓扑可靠安全易管理易开发? 易安装:向导式操作,Step by step引导完成安装。? 易配置:模板化配置,将配 置参数整合为模板,配置简 单明了。 ? 分布式并行处理,10分钟完 成集群安装。Step3:配置集群参数自动完成安装配置27 可定制全系统实时运行监控服务状态管理可靠安全易管理易开发Dash Board:直观监控全局信息? 监控对象、显示指标可灵活定制 ? 可作为集群维护操作的统一入口状态管理:全面掌控系统状态? 全面管理监控节点状态和服务状态 ? 面向对象的操作,简单直观 ? 集中统一管理集群,方便快捷节点状态管理集群服务状态集群节点状态HBase RS状态审计日志:详尽记录操作信息? 支持日志文件导出 ? 支持分类过滤、搜索28 可定制全系统实时运行监控可靠安全易管理29 丰富北向接口接入现有网管系统可靠安全易管理易开发? 提供北向接口,实现与企业 现有网管系统集成。 ? 当前支持syslog接口。接口 消息可通过配置适配现有系 统。上级网管 syslog OMS(主/备)? 整个Hadoop集群采用统一 的集中管理,未来北向接口 可根据需求灵活扩展。Hadoop集群30 自定义软硬件告警日志生成可靠安全易管理易开发主动探测:? ?例行健康检查硬盘、SSD卡等硬件亚健康及 故障预警 灵活配置性能能基线阈值告警, 业务告警提前感知告警北向推送运 维 系 统?告警定位信息 告警联机帮助即时推送:?快速定位:?定义超过基线上限发送告警?完备的操作日志和系统运行日 志 消息跟踪,实现精准定位31 图形化快速升级和平滑扩容向导平滑在线扩展可靠安全易管理易开发快速升级观察期集群? 向导式界面操作? 向导式界面操作完成? 在线扩展,不影响业务? 支持在线调整集群拓扑 ? 各组件灵活扩展? 升级过程异常则自动安全回退; ? 支持观察期手工触发安全回退 ? 稳定运行后确认提交升级 ? 6分钟完成集群升级32 按优先级分组资源控制与作业调度资源耗尽40%可靠安全易管理易开发集群资源弹性扩展 资源抢占资源空闲30% 内存 资源队列B 任务调度中心资源刚好20% CPU 内存 资源队列C CPU资源空闲10% 内存 DefaultCPU内存资源队列ACPU集 群 资 源 预 先 配 置CPU内存交换机Running Pending防火墙用户1: Queue A 用户2: Queue C优先级和资源配置: 队列A&队列B&队列C&队列DRunning用户2用户1系统管理员33作业提交者 安全集成开源原生管理界面可靠安全易管理易开发? 满足熟悉原生界面的操作人员的使用习惯,提供开源原生界面; ? 采用SSO登录机制,使用开源原生界面,同样具有安全访问能力。FusionInsight Hadoop Manager开源原生界面链接单 点 登 录34 FusionInsight Hadoop应用开发助手可靠安全易管理易开发HUAWEI TECHNOLOGIES CO., LTD.Huawei ConfidentialPage 35 HBase开发概览下载客户端安装包创建Java工程可靠安全易管理易开发在Eclipse工具中,单击“New & Java Project”,输入工程名,单击“Finish”即可创建 Java工程。1、获取客户端安装包中的配置文件core-site.xml、hbase-site.xml、jaas.conf,并放置 在到Java工程中的conf目录下。 2、获取客户端安装包中的HBase开发依赖的jar文件,并添加到工程的classpath路径下。配置开发环境// 初始化配置信息 Configuration conf = HBaseConfiguration.create(); // 创建表 HBaseAdmin admin = new HBaseAdmin(conf); admin.createTable(htd); // 插入一行数据 HTable table = new HTable(conf, tableName); Put put = new Put(Bytes.toBytes(&&)); put.add(FAMILIES, Bytes.toBytes(&name&), Bytes.toBytes(&张三&)); put.add(FAMILIES, Bytes.toBytes(&gender&), Bytes.toBytes(&男&)); put.add(FAMILIES, Bytes.toBytes(&address&), Bytes.toBytes(&广东省深圳市&)); table.put(put);36开发应用编译运行 HBase开发实例(1)可靠安全易管理易开发假定用户开发一个应用程序,用于管理企业中的使用A业务的用户信息。 针对用户表,可以做如下管理任务:?创建用户信息表。?根据用户编号查询用户姓名和地址。 ?根据用户姓名进行查询。 ?数据统计,统计用户信息表的人员数、年龄最大值、年龄最小值、平均年龄。?用户销户,删除用户信息表中该用户的数据。?A业务结束后,删除用户信息表。37 HBase开发实例(2)--代码样例&调试运行代码样例// 指定表名 String tableName = &user&; Configuration conf = HBaseConfiguration.create(); HBaseAdmin admin = new HBaseAdmin(conf); // 创建用户表 admin.createTable(htd); // 插入一行数据 HTable table = new HTable(conf, tableName); Put put = new Put(Bytes.toBytes(&&)); put.add(FAMILY, Bytes.toBytes(&name&), Bytes.toBytes(&张三&)); put.add(FAMILY, Bytes.toBytes(&gender&), Bytes.toBytes(&男&)); put.add(FAMILY, Bytes.toBytes(&address&), Bytes.toBytes(&广东省深圳市&)); table.put(put);可靠调试运行安全易管理易开发Scan scan = new Scan(); scan.addColumn(Bytes.toBytes(&info&), Bytes.toBytes(&name&)); // 提交scan数据请求 ResultScanner rScanner = table.getScanner(scan); // 打印查询返回的数据 for (Result r = rScanner.next(); r != r = rScanner.next()) { for (KeyValue kv : r.raw()) { LOG.info(kv); } }38 HBase扩展特性―ClusterTable Framework(1)可靠 安全易管理 易开发? 为了充分发挥HBase的大表(百亿行、百万列、稀疏矩阵)特性,通过独有的 ClusterTable表封装,一个业务可以围绕一张主表,将多表统一组织,并且使用单一的 接口访问,大幅降低设计和实现门槛。39 HBase扩展特性―ClusterTable Framework(2)可靠Web Service接口开发者接口安全易管理易开发? HBase企业开发框架? 企业数据集中,统一建模,统一管理 ? Web Service接口将数据以服务的方式开放给数 据使用者(各类应用或业务部门)元数据 管理数据表设计工具报表 安全二级索引 关联查询HBase资源管理Metrics&Optimize数据生命周期管理? 增强类库与组件:降低使用门槛? 提供对元数据管理和HBase集群资源管理,度量、执 行优化等基础能力业务统一建模的HBase大表? 提供二级索引、关联查询等重要增强功能? 工具:简化设计运维? 可视化的表设计工具,实现Schema、Rowkey、索 引等设计,提供RDB向HBase迁移解决方案? 数据生命周期管理支持数据加载、回滚、备份、清理 40 41 1 2 3 4 5大数据定义和发展历史 大数据在其他行业的应用大数据在运营商的应用与挑战FusionInsight Hadoop企业版介绍FusionInsight Hadoop成功实践42 企业大数据应用的三种模式“卸载”模式卸载模式是指 ?在一些应用明确,不涉及实时复 杂SQL运用,数据量超大的场合, 采用大数据NoSQL技术来替换传 统的关系数据库加存储阵列的体 系。 ?在一些数据来源不变的场合(尤 其金融行业),在不需要数据库事 务的保护下,对ETL过程进行处理。“全量洞察”模式全量洞察模式是指 ?以往由于系统性能、时间、成本 等多方面的考量,客户洞察计算基 于少部分样本,比较依赖复杂的模 型和经验。由于大数据计算平台的 出现,可以基于拥有的全量数据进 行分析,从而可以在短时间内对很 多模型进行全量计算,降低对复杂 模型的依赖,通过实践反馈来验证 和选拔有效的模型。 ?业界已经证明,大量数据加简单 模型,要比部分数据加复杂模型, 要来得有效。“新数据”模式新数据模式是指 ?将以往已经收集,但是没有纳入 模型的数据纳入模型,参与分析。 ?将以前认为没有收集价值的数 据,收集起来,参与分析。 ?将以前无法收集的数据,采用最 新的技术,加以收集,比如呼叫中 心的交流记录。43 实践案例―中国移动WLAN日志留存系统?分为集团统建平台、省分建平台(新建或补齐)日志上报 网关上网日志 查询平台集中CMNET 中央一级 Radius 日志服务器A 日志服务器B?WLAN日志服务器的建设采用集团集中建设方式:集中部署的日志服务器通过CMNET 连接日志上报网关、上网日志查询平台和中央一级Radius服务器。?A省省AB省省B各省NAT设备、DPI设备和省内二级Radius服务器通过CMNET连接至集中的日志服务器。?其中NAT设备推荐我司E8000E-X3/8/16设NAT前置机: elog DPI NAT设备二级 Radius备。DPI设备推荐我司SIG设备。NAT前置机推荐使用我司Elog系统。44NAT前置机: elogNAT设备DPI二级 Radius NA T设备: DPI: E8000ESIGEDPI: NA T设备: E8000E SIGE 实践案例―香港和黄PS详单存储项目(2012Q1已商用)?存储100万用户的PS详单,2012Q1上线 ?忙时平均每秒25000张详单 ?每张详单500~800Byte ?日增量约1.8T数据 ?目前存储量为640T ?计划存储7年 ?最终存储量规模预估可达4.6P45 实践案例―SDP天津私有云日志详单项目(2012Q3已商用)46 实践案例―BI 河南移动云化ETL(2013年9月底上线)47 某省移动详单云Hadoop平台招标测试?综合帐务 采集预处 理 融合控制分布式详单中心(双中心结构)清单 策略 控制 清单 实时查询 清单稽核 清单导入 清单分析 清单回退分 析 统 计 地市公司 投诉维护?保存5+1个月详单 数据,供用户实时 查询大数据平台Gateway(Thrift)统计人员PP生产中心分布式数据库 X86服务器集群容灾RZ容灾中心分布式数据库 X86服务器集群长期保存详单数 据,供分析与统 计使用(对接经 分系统)?建设方案:双中心结构的分布式详单中心, X86服务器+ Hadoop平台。规划陆续接入详单云、经分、CRM历史库等系统, 成为移动省公司的企业级大数据平台48?目前已经完成2轮测试,分别在曙光服 务器环境和华为服务器环境,华为 FusionInsight Hadoop全部符合测试 规范,并将于 本周三与局方进行测试 结果沟通。与目前中移动云详单测试内 容基本一致,经验可在集团层面推广。 结合华为以往大数据项目时间经验和 本次详单云系统的特点,我们提出详单 库HBase建表的分区最佳实践,得到局 方架构室领导的高度认可。 华为FusionInsight Hadoop在灾备、 安全、二级索引等产品能力上处于领先 位置。 华为在测试的三家厂商(Intel、EMC、 华为)中,本土研发实力和服务能力具 有优势。 实践案例―某TOP6银行POC项目利用金融交易数据和社交数据,以及从商圈购买数据, 生成客户偏好,每个客户标签可能多达数百到数千, 基于客户标签,针对每次消费展开LBS营销 使用Hadoop M/R和机器学习算法进行数据分析和挖掘,生成客户偏好 标签,客户标签存储到HBase中供实时访问。金融交易旁路到实时流处 理平台,完成营销逻辑,驱动下游营销引擎。49 Q&A感谢云南移动领导和专家指导!50 HUAWEI ENTERPRISE ICT SOLUTIONS A BETTER WAYCopyright?2013 Huawei Technologies Co., Ltd. All Rights Reserved. The information in this document may contain predictive statements including, without limitation, statements regarding the future financial and operating results, future product portfolio, new technology, etc. There are a number of factors that could cause actual results and developments to differ materially from those expressed or implied in the predictive statements. Therefore, such information is provided for reference purpose only and constitutes neither an offer nor an acceptance. Huawei may change the information at any time without notice.
All rights reserved Powered by
www.tceic.com
copyright &copyright 。文档资料库内容来自网络,如有侵犯请联系客服。

我要回帖

更多关于 华为存储认证 的文章

 

随机推荐