DataPipeline如何实现大数据数据质量管理理?

原标题:首发丨DataPipeline获2100万元A轮融资經纬中国领投

数据猿最新消息:一站式数据与应用集成商北京数见科技有限公司(以下简称DataPipeline)正式对外宣布获得2100万元人民币的A轮融资,由經纬中国领投峰瑞资本等投资机构跟投。

DataPipeline成立于2016年3月6月即获得峰瑞资本的数百万天使轮融资。两年内DataPipeline已经成功服务了数家大型客户,其中不乏很多国际和国内500强企业覆盖零售、制造、银行、能源、互联网等行业。同时DataPipeline已与数十家产业上下游合作伙伴建立了战略合莋关系。

DataPipeline一直专注于为客户提供一站式数据与应用集成的平台和方案帮助企业在云端连接各种结构化、半结构化或者非结构化数据,包括云数据库、微服务集群、SaaS、工业应用等连接企业内部的数据孤岛,支撑客户通过数据分析更精准地驱动商业决策和业务决策

如果把企业之间的通话比作一张网,每个企业就是网上的一个节点在中国市场上,当前集成项目主要是解决企业单点问题——连接企业内部所囿数据孤岛因此,企业客户迫切希望找到一个为云而生、连接更敏捷、性能更可靠、实时性更强大的集成产品

区别于传统数据集成方案,DataPipeline从一开始就在产品架构、方案设计及操作体验等方面都进行了充分的调研和优化创新产品和方案都更契合当前中国企业客户的需求。

首先是大数据量企业逐年暴涨的大数据量对传统集成系统提出了严峻的挑战,传统ETL工具的高并发性能测试往往不达标或扩展性不足先天不支持分布式架构,无法提供实时和批处理选择DataPipeline在产品架构设计之初就充分考虑了超大数据量的同步需求,超出传统ETL工具几个量级嘚高并发数和可扩展性;可以支持客户每天平稳并行传输数千张表、数百GB增量数据累计传输数据超过数十TB。

其次是实时性企业当前异構数据源和目的地种类日益增多,采用传统ETL工具或自己编写脚本复杂度和维护成本都非常高数据从各业务系统到被调用通常要经历模型設计、代码编写、测试上线等流程,所需周期过长极易阻塞下游数据应用开发的进程。DataPipeline可以支持多种异构数据源和目的地的自动化数据茭换目前已经支持20多个主流数据源和目的地;通过解析数据库的复制日志去捕获数据与数据定义的变化,让数据同步任务能够做到实时洎适应

第三是数据质量。采用传统集成方案往往在完成数据同步后,企业客户却无法及时地管控数据质量需要花费大量时间从下游數据应用逆推上游数据问题,缺少数据质量预警及相应的补救措施DataPipeline可以为客户提供全程数据质量监控,包括数据状态监控、预警队列管悝以及无需人为预先定义的数据质量多维度检测功能让客户不必担心因为经常出现的错误状态而影响数据质量。

第四是敏捷易用当前,传统集成方案在ETL中固化的转换不是优势反而成为一种束缚ETL Job难以持续维和重复使用,极大降低其灵活性但是,当前企业在业务应用和數据应用方面的需求瞬息万变对数据的使用从定式的数仓建模向探索式的数据应用、AI应用的方向探索。DataPipeline可以为客户提供适度的数据清洗功能用内置的清洗功能和清洗API构建灵活的框架式功能,支持客户做更敏捷、更自由地实现数据加工、处理、分析和展现等操作

目前,DataPipeline主要提供数据同步、数据清洗、数据任务管理、错误队列管理、运维管理和用户管理等功能为了降低工程师使用门槛让,DataPipeline采用可视化配置界面无需任何代码5分钟即可创建数据同步任务。

在部署模式上Data Pipeline支持混合云、跨云、私有化等多种模式。为了让私有化部署成本更低效率更高Data Pipeline采用当前先进的容器技术;为了提升非私有环境的安全性,Data Pipeline对混合云、跨云的部署模式进行加密在收费模式上,Data Pipeline按照客户系統所占用的服务器收取年费

对企业IT管理者和工程师来说,DataPipeline能帮他们大大提高工作效率一方面,DataPipeline可以全面解放工程师的劳动力让工程師将工作重心放在数据价值挖掘而不必纠结于数据连接的问题,把更多的精力放在满足业务需求上;另一方面DataPipeline可以帮助IT管理者实时准确哋监管数据任务动态、错误队列管理、挖掘数据资源、管理数据资产等。

2017年DataPipeline汇聚了众多来自Google、Yelp、Amazon、Oracle、中科院、华为、Informatica和Talend等知名企业的专業人士,他们在数据行业内有着多年深厚的研发、产品和项目经验积累和行业影响力对企业客户的需求和痛点理解更深刻。并且DataPipeline在北京、南京均设有研发中心,更及时地响应全国客户的需求

经纬创投董事总经理熊飞表示,随着越来越多的行业意识到企业信息化建设的偅要性企业内部和外部异构数据源也会快速增加。传统数据集成和ETL方案在云时代会逐渐力不从心DataPipeline团队在Google,YelpAWS积累了丰富的企业数据集荿经验,从A轮投资以来展现了良好的业务发展势头期待公司在中国数据集成市场继续专注产品和客户,取得好成绩经纬已经在企业服務和云计算领域投资接近五十家公司,从软件定义存储软件定义网络,容器数据库,数据仓库到云管理平台。经纬会继续大力支持該领域创业公司的发展

据悉,获取A轮融资后DataPipeline将重点补强产品、研发和营销团队,在产品研发的深度和广度上提升客户满意度组建更荿熟更高效的售前和销售团队,持续增加市场拓展力度继续加强与产业上下游的紧密合作。(yaphet)

邢国冬(Tony Xing):Microsoft资深产品经理、负責微软应用与服务集团的大数据平台构建数据产品与服务.

导读:微软的ASG (应用与服务集团)包含Bing,、Office,、Skype。每天产生多达5 PB以上数据如何构建┅个高扩展性的data audit服务来保证这样量级的数据完整性和实时性非常具有挑战性。本文将介绍微软ASG大数据团队如何利用Kafka、Spark以及Elasticsearch来解决这个问题

本案例介绍了微软大数据平台团队设计和部署的基于开源技术(Kafka、Spark、ElasticsSearch、Kibana)的大数据质量监控平台,这个平台具有实时、高可用、可扩展、高度可信的特性成为微软Bing、Office365、Skype等年收入270+亿美元的业务在监控数据质量方面的可靠技术保障。同时基于业务需要,我们在设计和实现Φ达成下面一系列的目标:

● 监控流式数据的完整性与时延;
● 需要监控的数据管道(pipeline)具有多个数据生产者、多处理阶段、多数据消费者的特性;
● 数据质量发生问题的时候需要提供相应的诊断信息来帮助工程师迅速解决问题;
● 监控平台的服务本身需要超级稳定和高可用, 夶于99.9%在线时间;
● 监控与审计本身是高度可信;

二、背景以及问题的引入

为了服务微软的Bing、Office 365以及Skype业务,我们的大数据平台需要处理每天高達十几PB级别的海量大数据所有的数据分析、报表、洞见以及A/B测试都依赖于高质量的数据,如果数据质量不高的话依赖数据做决策的业務都会受到严重影响。

与此同时微软业务对于实时数据处理的需求也日益增加,以前监控批处理数据(batch data)的很多解决方案已经不再适用於实时的流式数据的质量监控

在另外一个层面,基于历史原因各个业务集团往往使用不同的技术、工具来做数据处理,怎么整合这样異构的技术、工具以及在此之上的数据质量监控也是一个急需解决的问题

图1是我们数据处理平台的一个概念性架构。从数据生产者这端我们通过在客户端以及服务端使用通用的SDK,按照通用的schema来产生数据数据通过分布在全世界的数据收集服务(collectors)来分发到相应的Kafka,然后通过pub/sub模式由各种各样的计算以及存储框架来订阅。

这样各种团队就可以选择他们最熟悉或者一直以来使用的工具来做处理例如,从实时处理的角度各个业务团队可以选用比如Spark或者微软的USQL streaming处理框架,以及其他第三方的工具来做一些特定场景的分析比如日志分析的Splunk、交互式分析嘚Interana等。在批处理框架上用户可以选用开源社区的Hadoop,、Spark或者微软的Cosmos等。

如图2所示我们在迁移大数据到图1架构的过程中,也看到实时流式数據的快速增长每天峰值消息高达一万亿个以上,每秒处理一百三十万个消息 每天处理3.5PB流式数据。

三、数据监控的场景以及工作原理

基於业务需求我们总结概括了需要被监控的数据处理管道特性(如图3)
● 多数据监控阶段(multiple stages),从数据产生到数据处理数据往往流经多個数据管道的组件,我们需要通过监控确保每个阶段数据都不会发生丢失、高时延、以及异常

基于图3的数据管道,我们把问题具体化为洳何确保基于Kafka的数据管道上下游的数据完整性、实时性、数据异常的监测图4是一个抽象化的监控架构以及工作原理。

蓝色组件是数据管噵里数据流经的各个处理阶段;绿色组件是本文中实时数据质量监控的核心服务Audit Trail在数据流经各个组件的同时,相应的审计(audit)数据也会同时發到Audit Trail, 这个审计数据可以看作是一种元数据(meta data)它包含关于数据流的信息,例如该消息是在哪个数据中心、哪台机器产生;该消息包含几条记錄、大小、时间戳等Audit Trail汇总了各个数据处理组件发来的元数据后,就可以实时做各种数据质量的评估比如数据在此时刻的完整性如何、實时性如何、有无异常。

基于图5的审计元数据一旦发生数据质量问题,工程师可以快速定位是哪个数据中心的哪台服务器在什么时间段發生了问题然后快速采取相应行动来解决或缓解问题,并把对下游数据处理的影响降到最低

工程师可以通过如图6所示的时延状态图快速了解在数据质量时延这个维度是否正常,这对于对实时性要求比较严格的数据产品及应用非常重要如果数据延迟到来,很多时候就失詓了意义

需要注意的是,图表在这里起到的只是辅助作用在真正的生产环境中是通过系统API调用来定期检查SLA的符合情况,一旦超出时延閾值会通过电话、短信等手段通知值班的工程师来实时解决问题。

工程师可以通过图7中所示简单图表来了解数据完整性的状态图7所示包含两个数据处理阶段:一个数据生产者和两个数据消费者的应用案例。所以图表中实际上是三条线绿色是生产者的实时数据量,蓝色囷紫色线是两个数据消费者处理的数据量如果在理想情况下,数据完整性没有问题这三条线是完全重合。本例中在最后一个点出现了汾叉代表数据完整性出现问题,需要工程师进行干预

● 数据本身发生异常-通过异常检测来实时监控

数据本身发生异常,我们由相应的基于统计元数据的异常检测(如图8)来做实时监控异常检测是一个在工业界非常普遍的问题和挑战,几乎每个互联网公司都会有做异常檢测的服务或平台但是做好很不容易,这是一个可以单独写一篇文章的大题目这里只是单辟一个章节做简单的算法介绍。

本例是通过對于数据量的异常检测来发现上游写log问题或者其他数据生产的逻辑问题。

我们采用了Holt-Winters算法(图9)来训练模型和做预测并在此之上做了佷多改进来增加算法的强健性和容错能力。

● 处理数据丢点和噪声 (例如数据平滑)
● 自动获取趋势和周期信息;
● 允许用户人工标记和反饋来更好的处理趋势变化。
通过比较预测值和实际值我们采用GLR (Generalized Likelihood Ratio) 来发现异常点。在这上面我们也做了相应的改进包括:
● 对于噪声比较夶的数据做去除异常点。

这是一个基于Exchangeability Martingale的在线时间序列的异常检测算法其核心就是假设数据的分布是稳定的。如果新的数据点的加入导致数据的分布(distribution)发生比较大的变化我们就认为异常发生了。所以基于历史数据我们需要定义一个新值异常公式(New value strangeness)。下面是这些公式的構成对数学不感兴趣的读者可以略去。

这是一个简单而非常有效的基于历史数据的指数平滑算法
它首先基于历史数据生成动态上下界:

近日微软加速器?北京公布最終入选的第13期创新企业名单。作为国内领先的“iPaaS+AI”一站式数据融合服务提供商DataPipeline历经多轮角逐,在上千家企业激烈竞争中成功入选。

文 | 潘国庆 携程大数据平台实时计算平台负责人

文 | 郑林峰 财通证券大数据经理

Confluent作为国际数据“流”处理技术领先者提供实时数据处理解决方案,在市场上拥有大量企业客户帮助企业轻松访问各类数据。DataPipeline作为国内首家原生支持Kafka解决方案

近日国内领先的“iPaaS+AI”一站式大数据融合垺务提供商DataPipeline宣布加入Linux基金会旗下OpenMessaging开源社区,将与OpenMessaging开源社区其他成员阿里、Yahoo、滴滴、Streamlio等共同推动大数据技术在国际市场的应用与创新,降低企业的投入成本

据悉,OpenMessaging开源社区由阿里巴巴发起与雅虎、滴滴出行、Streamlio公司共同参与创立的分布式消息中间件、流处理领域的应用开發标准,目前已正式入驻Linux基金会是国内首个在全球范围内发起的分布式消息领域国际标准。

当前由于越来越多的公司和开发者迈向云原生应用(Cloud Native Application),“云+大数据”开始成为构建未来企业商业模式和核心竞争力的基础DataP


引言:本文来自infoQ架构师电子月刊对DataPipeline创始人&CEO陈诚的约稿。陈诚毕业于上海交大,留学于美国密西根大学前Yelp大数据研发工程师,曾就职于美国Google、Yelp 等; 拥有6年多的大数据、计算机算法等实践经驗

朋友圈最近看到一篇文章 ——《IBM沃森错开致命药,国内67家医院在用秘密文件曝光严重bug》。虽然只是测试病例但看上去沃森相当地鈈靠谱,给有出血症状的癌症病人开了容易导致出血的药品严重时可致患者死亡。沃森是IBM花了150亿美元培养的AI学霸成绩不尽如人意,部門不能盈利失望在所难免。然而AI正如一个学习能力超强的小孩子需要反复研习各种病例、新药,来提高判断的准确度 

无独有偶,最菦也有另一

导读:传统ETL方案让企业难以承受数据集成之重基于Kafka Connect构建的新型实时数据集成平台被寄予厚望

我要回帖

更多关于 数据质量管理 的文章

 

随机推荐