业务不能停,大数据分析不能丢,你该怎么办

“真是太神奇了,短短1个小时不到,我的钱包就找到了!”今天上午,市民陈先生告诉记者,他在鄞州百丈东路附近乘上了一辆出租车,由于自己疏忽,把内有6000多元现金的皮夹落在了车上,随后,他按照出租车发票上面的信息拨打了市道路运输管理局相关电话,没想到该司机师傅很快联系上了他,并把皮夹送了回来。

其实,每年像陈先生这样粗心大意的乘客有很多,市道路运输管理局近日做了一份出租车失物的大数据分析,怎样预防在出租车上丢失东西?丢失东西之后该怎么办?放置在车上的哪个位置最易丢失?

失物查找最关键的三要素是车号、乘车时间、起讫点位置。其中,正确的车号对于失物的找回起到了非常关键的作用,相比没车号,找回率几乎翻了一倍。

以2018年数据(1月到9月21日)为例,市运管局共查找失物13706件,其中有车号失物查找6117件,找回3312件,找回率54.14%;无车号失物查找7589件,找回2414件,找回率31.81%。当然索要发票也是很重要的。

乘客在出租车上丢失最多的三样物品为:手机、钥匙、行李箱

以2018年数据为例,丢失手机5565起(占40.60%),钥匙1814起(占13.24%),行李箱1377起(10.05%)。这三样物品占丢失物品总量的63.89%。

最容易丢东西的起讫点是哪?

在主城各大汽车站、火车站和机场等地,乘客在换乘出租车时,一般都会把行李箱放在出租车的后备箱内。但下车时,往往因疲惫或仓促,最容易将后备箱内的行李箱遗忘。

以2018年数据为例,市运管局共查找失物13706件,交通场站2816(栎社机场1095件、南站1377件、客运中心314件、北站30件),酒店2106件,娱乐场所819件。

放在哪里的东西最容易丢

2018年查找失物中,后排7430件,前排3892件,后备箱1747件,其他位置包括前后挡风玻璃,车门等位置。

记者戎美容 通讯员朱笑仪

打开微信,点击右上角"+",
使用"扫一扫"即可将网页发送给朋友或分享到朋友圈。

核心提示:  假身份证、假房产证、假借房产过户……记者从市住房公积金管理中心了解到,公积金管理中心并会将有关情况通报职工所在单位,房租超出家庭工资收入的规定比例,通过伪造虚假材料等手段骗提骗贷住房公积金,严重破坏了住房公积金正常管理秩序。

假身份证、假房产证、假借房产过户……记者从市住房公积金管理中心了解到,随着国家对住房公积金政策调整,住房公积金的使用范围得到进一步拓宽,越来越多的缴存人开始关注住房公积金使用。然而,部分缴存职工、不法分子和非法中介机构,通过伪造虚假材料等手段骗提骗贷住房公积金,严重破坏了住房公积金正常管理秩序。

根据规定,职工可以提取住房公积金的情况,包括购买、建造、翻建、大修自住住房的;离休、退休的;房租超出家庭工资收入的规定比例;家庭生活困难等。

相关人士提醒广大缴存职工,公积金中心也未委托任何中介组织或个人代理住房公积金提取业务,千万不要上当受骗。

据了解,公积金管理中心的工作人员在每天忙碌的工作中已练就了一副“火眼金睛”,那些拙劣的虚假材料,绝大多数都会被一眼识破。随着大数据的运用,在与住建、社保、公安等部门的数据比对中,虚假材料也会被辨别出来。即使还有“漏网之鱼”,公积金管理中心还有严格的提取审核和完善的稽核审计制度,骗提套取行为无处藏身。

据公积金管理中心统计数据显示,过去两年,中心查处利用虚假套取公积金行为37次,涉案金额全部追回。

“一经发现,职工不仅损失钱财,名誉还会受损失甚至要面临法律的制裁。希望大家增强法制意识,自觉遵守住房公积金政策法规。”市住房公积金管理中心相关负责人提醒,任何弄虚作假都得不偿失。对于通过制造虚假证明(如伪造证件、合同、票据等)或采取其他欺诈手段造成缴存职工骗提套取住房公积金的中介机构或个人,涉嫌违法犯罪的,公积金管理中心将移送司法机关依法处理。

如果使用虚假证明材料或其他欺诈手段申请提取住房公积金,一经发现,住房公积金管理中心将依法责令其限期退回骗提的住房公积金。公积金管理中心并会将有关情况通报职工所在单位,由单位作出相应处理。2015年,就有5名职工因骗提套取公积金的行为受到单位惩戒,丢掉了工作。2016年8月31日,江阴某职工加盖假公章伪造离职证明及公积金支取单,后经公安部门侦查,涉案人员分别被法院判处有期徒刑7个月、1年6个月并处罚金。

大数据环境下的处理系统与数据分析

随着互联网的高速发展,人类进入了一个信息爆炸的时代,每个人的生活都充满了结构化和非结构化的数据。另外,随着以博客、社交网络、基于位置的服务LBS为代表的新型信息发布方式的不断涌现,以及云计算、物联网技术的兴起,数据正以前所未有的速度在不断地增长和积累,数据已经渗透到当今每一个行业和业务职能领域成为重要的产生因素,以数据为驱动的大数据时代已经不可避免地到来。本文主要围绕大数据特征、处理系统、以及大数据分析来阐述大数据环境下的数据分析在思想、流程、方法等方面的转变,以及围绕此主题而出现的相关关键技术与方法。

关键字 : 大数据;大数据处理系统;大数据分析

近几年,大数据迅速发展成为科技界和企业界甚至世界各国政府关注的热点。数据已经渗透到当今每一个行业,成为重要的缠身因素,人们对于大数据的挖掘和运用,预示着新一波生产力增长和消费盈余浪潮的到来,大数据已经成为社会各界关注的新焦点。
大数据是指其数据量、采集速度,或数据表示限制了使用传统关系型方法进行有效分析的能力,或需要使用重要的水平缩放技术来实现高效处理的数据。相对于传统数据,其具有体量大、速度快、种类多、难辨识和价值大密度低的五大特点。但大数据的主要难点并不在于数据量大,大数据真正难以对付的挑战来自于数据类型多样、要求及时响应和数据的不确定性。因为数据类型多样使得一个应用既要处理结构化数据,同时还有处理文本、视频、语音等非结构化数据,这对现有的数据库系统来说是个难题。
为了应对大数据带来的各种困难与挑战,以Google,Facebook等为代表的互联网企业推出了各种不同的大数据处理系统和大数据分析实现,借助新型的处理系统,数据分析、深度学习、知识计算、可视化等大数据分析技术也得已迅速发展。

大数据中蕴含的宝贵价值成为人们存储和处理大数据的驱动力。与传统数据处理理念相比,大数据处理理念需要有所转变,即要全体不要抽样,要效率不要绝对精确,要相关不要因果。具体如下:
要全体不要抽样即大数据环境下,收集与分析全体数据时可行的,有利的;小数据时代,受制于技术只能收集与分析随机样本。在大数据时代,可以分析更多的数据,有时候甚至可以处理和某个特别现象相关的所有数据,而再依赖于随机采样。
要效率不要精确即大数据环境下,追求大量数据,允许不精确的数据,不像小数据时代,因信息量少,对数据精确性要求苛刻
要相关不要因果即大数据时代我们不再热衷于寻找因果关系,因果关系只是相关关系的一种,而且在大而繁杂的数据环境下,相关关系模式更适合数据分析,发现价值。
鉴于海量数据的处理在当前是一个极大的挑战,人们目前对大数据的处理形式主要是对静态数据的批量处理,对在线数据的实时处理,以及对图数据的综合处理等。通过在这些处理方式的实现,基于平台然后再进行大数据分析。

所谓批量数据处理处理系统,即利用批量数据挖掘合适的模式,得出具体的含义,制定明智的决策,最终做出有效的应对措施实现业务目标是大数据批处理的首要任务。大数据的批量处理系统适用于先存储后计算,实时性要求不高,同时数据的准确性和全面性更为重要的场景。在互联网领域中,批量数据处理的典型应用场景主要包括:

Facebook、新浪微博、微信等以人为核心的社交网络产生了大量的文本、图片、音视频等不同形式的数据.对这些数据的批量处理可以对社交网络进行分析,发现人与人之间隐含的关系或者他们中存在的社区,推荐朋友或者相关的主题,提升用户的体验。

电子商务中产生大量的购买历史记录、商品评论、商品网页的访问次数和驻留时间等数据,通过批量分析这些数据,每个商铺可以精准地选择其热卖商品,从而提升商品销量;这些数据还能够分析出用户的消费行为,为客户推荐相关商品,以提升优质客户数量。

Google 等大型互联网搜索引擎与Yahoo!的专门广告分析系统,通过对广告相关数据的批量处理用来改善广告的投放效果以提高用户的点击量。
在批量处理系统中典型的代表有Google研发的文件系统GFS和MapReduce编程模型,虽然Google没有开源这两项技术的源码,但是基于这两篇开源文档,Hadoop实现了强有力的开源产品:HDFS和MapReduce,成为了典型的大数据批量处理架构。
HDFS是一个分布文件管理系统,呈现主/从(Master/SIaver)结构,一个主节点称为名字节点(Namenode),其余的计算机是从节点,称为数据节点(Datanode)。主节点管理元数据,从节点存放和管理应用数据。一个HDFS系统可以支持巨大的分布文件系统,如上万个计算节点、一亿个文件、1 0PB数量级的数据,等等。显然,它对大数据的支持是强大的。为了进一步支持大数据,在HDFS上构建了一个NoSQL数据库系统,称为Hbase。HBase是一个列存储的数据库系统,其接13语言是Pig。除此以外,Hadoop在HBase上还提供了一个数据仓库/数据挖掘软件Hivi。面向机器学习,还提供了一个机器学习软件包Mahout,从而满足大数据管理和分析的要求。
另外,其核心算法MapReduce,即映射-规约算法。简单说来就是一个任务来了,一台机器做不了,没事,可以将它映射成很多子任务,分给很多机器去做,各个机器做完了,最后规约到一个结果。它不仅用于处理大规模数据,而且能够将很多繁琐的细节隐藏起来(如自动并行话、负载均衡和灾备管理等),极大地简化了程序员的开发工作。

实时数据处理是针对批量数据处理的性能问题提出的,可分为流式数据处理和交互式数据处理两种模式。在大数据背景下,流式数据处理源于服务器日志的实时采集,交互式数据处理的目标是将PB级数据的处理时间缩短到秒级。
流式数据是一个无穷的数据序列,序列中的每一个元素来源各异,格式复杂,序列往往包含时序特性,或者其他的有序标签。流式数据的元组通常带有时间标签或其余含序属性。其典型的应用场景主要有两类:

数据采集应用通过主动获取海量的实时数据,及时地挖掘出有价值的信息。当前数据采集应用有日志采集、传感器采集、Web 数据采集等。日志采集系统是针对各类平台不断产生的大量日志信息量身订做的处理系统,通过流式挖掘日志信息,达到动态提醒与预警功能.传感器采集系统(物联网)通过采集传感器的信息(通常包含时间、位置、环境和行为等内容),实时分析提供动态的信息展示,目前主要应用于智能交通、环境监控、灾难预警等.Web 数据采集系统是利用网络爬虫程序抓取万维网上的内容,通过清洗、归类、分析并挖掘其数据价值。

(2) 金融银行业的应用

在金融银行领域的日常运营过程中会产生大量数据,这些数据的时效性往往较短,不仅有结构化数据,也会有半结构化和非结构化数据.通过对这些大数据的流式计算,发现隐含于其中的内在特征,可帮助金融银行进行实时决策.这与传统的商业智能(BI)分析不同,BI 要求数据是静态的,通过数据挖掘技术,获得数据的价值.然而在瞬息万变的场景下,诸如股票期货市场,数据挖掘技术不能及时地响应需求,就需要借助流式数据处理的帮助。
其中具有代表性的流式处理系统有Twitter的Storm系统。Storm是一套分布式、可靠、可容错的用于处理流式数据的系统。其流式处理作业被分发至不同类型的组件,每个组件负责一项简单的、特定的处理任务.Storm 集群的输入流由名为Spout 的组件负责,Spout 将数据传递给Bolt 组件,后者以指定的方式处理这些数据,如持久化或处理并转发给另外的Bolt。因此,Storm 集群可以看成一条由Bolt 组件组成的链(称为一个Topology).每个Bolt 对Spout 产生出来的数据做某种方式的处理。另外,Storm可用来试试处理新数据和更新数据库,兼具容错性和扩展性,也可被用于连续计算,对数据流做连续查询,在计算时将结果以流的形式输出给用户。它还可被用于分布式RPC,以并行的方式运行复杂运算。一个Storm集群分为3类节点:
Nimbus 节点,负责提交任务,分发执行代码,为每个工作结点指派任务和监控失败的任务;
Supervisor 节点,负责启动多个Worker 进程,执行Topology 的一部分,这个过程是通过Zookeeper 节点与Nimbus 节点通信完成的.因为Storm将所有的集群状态在保存在Zookeeper 或者本地磁盘上,Supervisor 节点是无状态的,因此其失败或者重启不会引起全局的重新计。

交互式数据处理灵活、只管、便于控制。系统与操作人员以人机对话的方式一问一答——操作人员提出请求,数据以对话的方式输入,系统便提供相应的数据或提示信息,引导操作人员逐步完成所需的操作,直至获得最后处理结果.采用这种方式,存储在系统中的数据文件能够被及时处理修改,同时处理结果可以立刻被使用.交互式数据处理具备的这些特征能够保证输入的信息得到及时处理,使交互方式继续进行下去。
在大数据环境下,数据量的急剧膨胀是交互式数据处理系统面临的首要问题。交互式数据处理的典型应用场景主要在信息处理系统领域和互联网领域,主要如下:
在信息处理系统领域中,主要体现了人机间的交互。传统的交互式数据处理系统主要以关系型数据库管理系统(DBMS)为主,面向两类应用,即联机事务处理(OLTP)和联机分析处理(OLAP)。OLTP 基于关系型数据库管理系统,广泛用于政府、医疗以及对操作序列有严格要求的工业控制领域;OLAP 基于数据仓库系统(data warehouse)广泛用于数据分析、商业智能(BI)等。最具代表性的处理是数据钻取,如在BI 中,可以对于数据进行切片和多粒度的聚合,从而通过多维分析技术实现数据的钻取。目前,基于开源体系架构下的数据仓库系统发展十分迅速,以Hive、Pig等为代表的分布式数据仓库能够支持上千台服务器的规模。
互联网领域,在互联网领域中,主要体现了人际间的交互。随着互联网技术的发展,传统的简单按需响应的人机互动已不能满足用户的需求,用户之间也需要交互,这种需求诞生了互联网中交互式数据处理的各种平台,如搜索引擎、电子邮件、即时通讯工具、社交网络、微博、博客以及电子商务等,用户可以在这些平台上获取或分享各种信息。此外,各种交互式问答平台,如百度的知道、新浪的爱问以及Yahoo!的知识堂等。由此可见,用户与平台之间的交互变得越来越容易,越来越频繁。这些平台中数据类型的多样性,使得传统的关系数据库不能满足交互式数据处理的实时性需求。目前,各大平台主要使用NOSQL类型的数据库系统来处理交互式的数据,如HBase采用多维有续表的列式存储方式;MongoDB采用JSON格式的数据嵌套存储方式。大多NOSQL 数据库不提供Join等关系数据库的操作模式,以增加数据操作的实时性。
在交互式数据处理系统中的典型代表就是Berkeley的Spark系统。Spark是一个基于内存计算的可扩展的开源集群计算系统。为了改善MapReduce在大量的网络传输和磁盘I/O方面的低效率问题,Spark使用内存进行数据计算以便快速处理查询,实时返回分析结果。另外,Spark提供了比Hadoop更高层的API,同样的算法在Spark中的运算速度比Hadoop快10~100倍。Spark在技术层面兼容Hadoop存储层API,可访问HDFS,HBase,Sequence等。Spark-Shell可以开启交互式Spark命令环境,可以提供交互式查询。
Spark 是为集群计算中的特定类型的工作负载而设计,即在并行操作之间重用工作数据集(比如机器学习算法)的工作负载。Spark 的计算架构具有如下3 个特点:
Spark 拥有轻量级的集群计算框架。Spark将Scala应用在其程序架构中,而Scala这种多范式的编程语言具有并发性、可扩展性以及支持编程范式的特征,与Spark紧密结合,能够轻松地操作分布式数据集,并且可以轻易地添加新的语言结构。
Spark 包含了大数据领域的数据流计算和交互式计算。Spark 可以与HDFS 交互取得里面的数据文件,同时Spark 的迭代、内存计算以及交互式计算为数据挖掘和机器学习提供了很好的框架。
Spark 有很好的容错机制。Spark 使用了弹性分布数据集(RDD),RDD被表示为Scala对象分布在一组节点中的只读对象集中,这些集合是弹性的,保证了如果有一部数据集丢失时,可以对丢失的数据集进行重建。
通过以上论述,我们可以知道,对于大数据处理系统和大数据分析的实现,是有一些基本的要求的:
(1) 综合性,即一个宽域的、能满足大数据特征的平台;
(2) 企业就绪,即要同时满足性能、安全性、实用性和可靠性要求
(3) 集成性,很方便地快速将大数据技术引入企业,能和企业原有的系统很方便的集成;
(4) 基于开源系统;
(5) 鲁棒性和容错性;

随着大数据时代的到来,在大数据处理系统的基础上,如何快速从海量数据中抽取出关键的信息,为企业和个人带来价值成为了关注的焦点。大数据时代所分析的数据的主要特征就是“多源异构”,其分析过程是逐层抽象、降维、概括和解读的过程。从数据采集的源头进行划分,可以将分析处理的数据对象分为如下类别:
各网页中用户的浏览次数、点击率,各种社交网站、动态网站网页内容信息的变化,搜索引擎中关键词的搜索量、网络实时监控数据等互联网数据。
可以用于分析用户行为、对系统的操作、以及系统运行状态的日志数据
在通信领域中的各种信号、信令数据,用户的个人信息以及通话位置、时长等数据。
国民经济中各领域、各行业的统计分析数据。

面对这些数据庞大的,来源不同的非结构化数据,其分析模式的特点如下:
对于互联网产生的数据,其最主要的应用是建立搜索引擎,通过搜索引擎进行数据检索、处理。随着技术的不断发展,个性化推荐引擎以及大数据分析引擎的问世能够更加高效的在海量数据中分析得出更有价值的信息;对于日志数据,可对用户点击浏览的行为日志和系统运行行为日志进行分析。
由于大数据来源广泛,种类繁多,结构多样且应用于众多不同领域,所以针对不同业务需求的大数据,应采用不同的分析模式:
根据实时性,可分为实时分析和离线分析
实时分析,多用于电子商务、金融等领域.由于数据瞬息万变,因此需要及时的数据分析,在极短的时间能返回分析结果.目前,实时分析的主要模式是采用传统关系型数据库组成并行处理集群,并大多采用了内存计算平台。
离线分析,往往用于对结果反馈时间要求不高的场合,比如机器学习、统计分析、推荐算法等。离线分析一般是通过数据采集工具将日志大数据导人专用的平台进行分析。在大数据环境下,为了降低数据格式转化的开销,提高数据采集的效率,很多互联网企业都采用基于Hadoop的离线分析模式。例如,Facebook开源的Scribe、LinkedIn开源的Kafka、淘宝开源的Timetunnel、Hadoop的Chukwa等,均可以满足每秒数百MB的日志数据采集和传输需求。
根据数据规模,可分为内存级、BI级和海量内存级分析
内存级分析,是指数据总量不超过集群内存的最大值.目前的服务器集群的内存超过几百GB,甚至达到TB级别都是很常见的,因此可以采用内存数据库技术,将热点数据常驻内存,从而达到提高分析效率的目的.内存级分析非常适用于实时分析业务。目前,MongoDB是比较有代表性的内存级分析模式。随着固态硬盘的发展,内存级数据分析的能力和性能将会得到进一步的提升,其应用也越来越广泛。
BI级分析,是指数据规模超出了内存级,但是又可以导人B1分析环境下进行分析,目前主流的BI产品都有支持TB级以上的数据分析方案。
海量级分析,是指数据规模已经完全超出BI产品以及传统关系型数据库的能力。目前,大多数的海量级分析都是采用Hadoop的HDFS分布式文件系统来存储数据,并使用MapReduce进行分析。海量级分析基本也都属于离线分析。
根据业务数据和业务需求的不同,数据分析算法的时空复杂度也有巨大的差异性。例如,针对易并行问题,可以设计分布式算法,采用并行处理的模型进行分析。

传统数据分析方法,大多数都是通过对原始数据集进行抽样或者过滤,然后对数据样本进行分析,寻找特征和规律,其最大的特点是通过复杂的算法从有限的样本空问中获取尽可能多的信息。随着计算能力和存储能力的提升,大数据分析方法与传统分析方法的最大区别在于分析的对象是全体数据,而不是数据样本,其最大的特点在于不追求算法的复杂性和精确性,而追求可以高效地对整个数据集的分析。总之,传统数据方法力求通过复杂算法从有限的数据集中获取信息,其更加追求准确性;大数据分析方法则是通过高效的算法、模式,对全体数据进行分析。目前一些大数据具体处理方法主要有:
布隆过滤器,其实质是一个位数组和一系列Hash函数。其原理是利用位数组存储数据的Hash值而不是数据本身,其本质是利用Hash函数对数据进行有损压缩存储的位图索引。其优点是具有较高的空间效率和查询速率,缺点是有一定的误识别率和删除困难。布隆过滤器适用于允许低误识别率的大数据场合。

散列法,也叫做Hash法,其本质是将数据转化为长度更短的定长的数值或索引值的方法.这种方法的优点是具有快速的读写和查询速度,缺点是难以找到一个良好的Hash函数。

无论是在管理结构化数据的传统关系数据库,还是管理半结构化和非结构化数据的技术中,索引都是一个减少磁盘读写开销、提高增,删,改,查速率的有效方法.索引的缺陷在于需要额外的开销存储索引文件,且需要根据数据的更新而动态维护。

又称字典树,是Hash树的变种形式,多被用于快速检索和词频统计。Trie树的思想是利用字符串的公共前缀,最大限度地减少字符串的比较,提高查询效率。

相对于传统的串行计算,并行计算是指同时使用多个计算资源完成运算。其基本思想是将问题进行分解,由若干个独立的处理器完成各自的任务,以达到协同处理的目的.目前,比较典型的并行计算模型有MPI(message passing interface),MapReduce,Dryad等。

目前,在众多可用于大数据分析的工具中,既有专业的也有非专业的工具,既有昂贵的商业软件也有免费的开源软件。R以其特有的优点成为了很常用的数据挖掘工具。
R是开源编程语言和软件环境,被设计用来进行数据挖掘/分析和可视化。在执行计算密集型任务时,在R环境中还可以调用C,C++和Fortran编写的代码。此外,专业用户还可以通过C语言直接调用R对象。R语言是S语言的一种实现,而S语言是由AT&T贝尔实验室开发的一种用来进行数据探索、统计分析、作图的解释型语言.最初S语言的实现版本主要是S—PLUS但S-PLUS是一个商业软件,相比之下开源的R语言更受欢迎.R不仅在软件类中名列第一,在2012年KDNuggets的另一份调查“过去一年中在数据挖掘/分析中所使用的设计语言”中,R语言击败了SQL和Java,同样荣登榜首.在R语言盛行的大环境下,各大数据库厂商如Rradata和Oracle,都发布了与R语言相关的产品。

4、 大数据分析的关键领域

根据数据的生成方式和结构特点不同,大数据分析可以划分为结构化数据分析、 文本分析、网站分析、多媒体分析、网络分析和移动 分析构成的6个关键分析领域。
结构化数据,一直是传统的统数据分析的重要研 究对象,目前主流的结构化数据管理工具,如关系型 数据库等,都提供了数据分析功能。
(1) 文本,是常用的存储文字、传递信息的方式, 也是最常见的非结构化数据。
(2) Web数据,Web技术的发展,极大地丰富了 获取和交换数据的方式,Web数据高速的增长,使其成为大数据的主要来源。
(3) 多媒体数据,随着通讯技术的发展,图片、音 频、视频等体积较大的数据,也可以被快速地传播, 由于缺少文字信息,其分析方法与其他数据相比,具有显著的特点。
(4) 社交网络数据,从一定程度上反映了人类社 会活动的特征,具有重要的价值。
(5) 移动数据.与传统的互联网数据不同,具有 明显的地理位置信息、用户个体特征等其他信息。
结构化数据分析、文本分析、Web分析、多媒体 分析、社交网络分析和移动分析,这6个关键领域分类旨在强调数据的不同特性,其中的一些领域可能会利用类似的底层技术,或者存在交集,这样分类的目的在于理解和激发数据分析领域中的关键问题和技术。
结构化数据分析,商业和科研领域会产生大量的结构化数据,而 这些结构化数据的管理和分析依赖于数据库、数据仓库、OLAP和业务流程管理的成熟商业化技术。得益于关系型数据库技术的发展,结构化数据的分析方法较为成熟,大部分都以数据挖掘和统计分析为基础。
文本分析,存储信息最常见的形式就是文本,例如电子邮件通信、公司文件到网站页面、社交媒体内容等。因 此,文本分析被认为比结构化数据挖掘更具有商业化潜力。通常情况下,文本分析也称为文本挖掘,指的是从非结构化文本中提取有用信息和知识的过程。文本挖掘是一个跨学科领域,涉及到信息检索、机器学习、统计、计算语言学尤其是数据挖掘。大部分文本挖掘系统都以文本表达和自然语言处理 (NLP)为基础,重在后者。文档介绍和查询处理是开发向量空间模型、布尔检索模型,概率检索模型的基础,而这些模型又构成了搜索引擎的基础。自20世纪90年代早期以来,搜索引擎已经演化成成熟的商业系统,通常包括快速分布式爬行、有效地倒排索引、基于inlink的网页排序和搜索日志分析。
NLP技术可以提高关于期限的可用信息,这样计算机就可以分析、理解甚至产生文本。下面是一些 经常采用的方法:词法获取、词义消歧、词性标注、概率上下文无关文法。以NLP为基础,一些技术已经被开发出来并可以应用于文本挖掘,其中包括信息提取、主题模型、文本摘要、分类、聚类、答疑和意见挖掘。信息提取是指自动地从文本中提取特定种 类的结构化信息.命名实体识别(NER)技术作为信 息提取的子任务,旨在识别归属于预定类别(如人物、地点和组织等)的文本中的原子实体,近来已成功开发用于新的分析主题模型以“文档由主题组成,而主题是词汇的概率分布”这一观点建立。主题模型是文档生成模型,规定了生成文档的概率程序。
现在已经有各种各样的概率主题模型用于分析文档的内容和词汇的意义。文本摘要是为了从单个或多个输入文本文件中生成一个缩减的摘要或摘 录.文本摘要的各种类型可以归结为具象性摘要和 抽象性摘要。具象性摘要从源文档中选择重要的句子和段落等并把它们浓缩成较短的形式。而抽象性摘要可以理解原文本并可以根据语言学方法用较少的词汇对原文本进行复述。文本分类的目的在于通过将文档置人预定的主题集来识别文档的主题取向。基于图表示和图挖掘的文本分类最近吸引了大家的研究兴趣。文本聚类用于给类似的文档分组,文档聚类通过预定的主题对文档进行分类。在文本聚类中,文档可以出现在多个副主题当中.通常采用数据挖掘领域的一些聚类算法来计算文档的相似性,但研究显示可以利用结构关系信息来增强聚类结果。答疑系统主要设计用于处理如何寻找给定问题的最佳答案,它涉及问题分析、源检索、答案提取和回答演示H43方面的不同技术。答疑系统可以应用于许多领域,其中包括教育、网站、健康和国防。意见挖掘与情感分析类似,是指提取、分类、理解和评估新闻、评论和用户生成的其他内容中表述的意见的计算技术。它可以提供理解公众和客户对社会事件、政治运动、公司策略、营销活动和产品喜好的有利机会。
Web分析,在过去的10年中,我们见证互联网信息的爆炸式增长,同时Web分析作为一个活跃的研究领域也已经出现。Web分析旨在从Web文档和服务中自动检索、提取和评估信息用以发现知识。Web分析 建立在几个研究领域之上,包括数据库、信息检索、自然语言处理和文本挖掘等。我们可以根据要挖掘的Web部分的不同将Web分析划分为3个相关领域:Web内容挖掘、Web结构挖掘和Web使用挖掘。
web内容挖掘处理web页面内容中有用信息或知识的发现,Web内容涉及多种类型的数据,例如文本、图像、音频、视频、代号、元数据以及超链接等。对图像、音频和视频挖掘的研究被称为多媒体分 析,将在下一部分讨论。由于大部分Web内容数据为非结构化文本数据,大部分研究工作都是围绕文本和超文本内容展开。超文本挖掘涉及到具有超级链接的半结构化HTML页面的挖掘。
监督学习和分类在超文本挖掘中扮演重要角色,例如电子邮件、新闻组管理和维护Web目录等。web内容挖掘可以采用两种方法进行:信息检索方法和数据库的方法。信息检索方法主要是协助或改善信息查找或根据推断或征求用户配置文件为用户过滤信息。数据库方法试图模拟并整合web上的数据,这样就可以进行比基于关键词的搜索更为复杂的查询。Web结构挖掘涉及到发现Web链接结构相关的模型。这里的结构指的是网站中或网站问链接的示意图。模型是基于具有或没有链接描述的超链接的拓扑结构建立的。该模型揭示了不同网站间的相似性和相互关系,可以用来为网站页面分类。主题爬取是另外一个利用该模型的成功案例。主题爬虫的目的在于有选择性地找出与预定的主题集相关的页面。主题爬虫会分析其爬行边界来寻找与爬取最有可能相关的链接并避免涉及Web的不相干区域,而不是收集和索引所有可访问的网页文件,来回答所有可能的即席查询。这样可以节约大量硬件和网络资源并帮助保持爬取更新。Web使用挖掘希望挖掘Web会话或行为产生的辅助数据,而Web内容挖掘和Web结构挖掘使用的是Web上的主要数据。Web使用数据包括来自Web服务器访问日志、代理服务器日志、浏览器记录、用户配置文件、登记数据、用户会话或交易、缓存、用户查询、书签数据、鼠标点击和滚动以及用户 和web交互产生的任何其他数据。
多媒体数据分析,多媒体分析的研究涵盖的学科种类非常多,从多媒体摘要、多媒体注解、多媒体索引和检索、多媒体的建议和多媒 体事件检测等。音频摘要可以通过从原数据中简单地提取突出的词或句子或合成新的表述来实现。视频摘要可以理解最重要或更具代表性的视频内容序列,可以是静态的,也可以是动态的。静态视频摘要方法要利用一个关键帧序列或上下文敏感的关键帧来代表视频.这些方法都很简单,而且已经应用到商业应用中,但其可播放性很差。而动态视频摘要方法是使用一系列视频片段来表示视频,另外,还可以配置低级的视频功能并采取其他平滑措施使最终的摘要看起来更为自 多媒体注释指的是为图像和视频指派一组在句法和语义级别上描述其所含内容的标签。多媒体索引和检索指的是描述、存储并组织多媒体信息和协助人们方便、快捷地查找多媒体资源。
多媒体推荐的目的是要根据用户的喜好来推荐特定的多媒体内容。大多数现有的推荐系统分为两种:基于内容系统和基于协同过滤的系统.基于内容的方法识别用户或用户兴趣的一般特征并向用户推 荐具有相似特征的其他内容,这些方法纯粹依赖于内容相似度测量,但大多受内容分析有限和过度规范困扰。基于协同过滤的方法识别具有相似兴趣的人群并根据小组成员的行为推荐内容。现在又引入了一种混合方法,融合了基于协同过滤和内容两种方法的长处来提高推荐的质量。
多媒体时间检测,是检测基于事件套件的视频剪辑内某一事件的发生情况,而事件套件中含有一些有关概念和一些示例视频的文本描 述。目前视频事件检测的研究仍处在初级阶段.事件检测的现有研究大多集中在体育或新闻事件以及监控录像中的奔跑或不寻常事件等之类的重复模式事件。
社交网络分析,网络分析从最初的计量分析∞朝和社会学网络
分析一直演化到21世纪初新兴的在线社交网络分析.许多流行的在线社交网络,如Twitter,Facebook和LinkedIn等近年来都日益普及。这些在线社交网络通常都含有大量的链接和内容数据,其中链接数据主要为图形结构,表示两个实体之间的通信,而内容数据则包含有文本、图像以及其他网络多媒体数据。这些网络的丰富内容给数据分析带来了前所未有的挑战,同时也带来了机遇。按照以数据为中心的观点来看,社交网络上下文的研究方向可以分为两大类:基于链接的结构分析和基于内容的分析。
基于链接的结构分析研究一直着力于链接预测、社区发现、社交网络进化和社会影响分析以及其他一些领域。社交网络可以作为图形实现可视化,图形中的定点对应于一个人,同时其中的边表示对应人之间的某些关联。由于社交网络是动态网络,不断会有新的顶点和边添加到图形中去。链接预测希望能预测两个节点之间未来建立联系的可能性。许多技术都可以用于链接预测,如基于特征的分类、概率方法以及线性代数等。基于特征的分类可以为定点对选择一组特征,然后再利用现有的链接信息 来生产二元分类器以预测未来的链接情况。概率方法尝试为社交网络中的定点之间的连接概率建立模型。线性代数方法要根据降秩相似矩阵计算两个几点之间的相似性。社区指的是一个子图结构,该结构中子图中的定点上的边的密度更大,而子图间的定点上的变得密度较低。人们提出并比较了许多针对社区检测的方法,大部分的方法都是基于拓扑并依赖于捕获社区结构概念的目标函数。针对社交网络的研究旨在寻找解释网络演化的法则和推导模型。社交影响是指个人受网络中其他人的影响而改变自身行为。社交影响的强弱取决于人与人之间的关系、网络距离、时间效应、网络与个人的特点等许多因素。营销、 广告、推荐和其他许多应用都可以通过定性和定量测量个人对其他人的影响力获取好处。通常情况下,如果将社交网络之间的内容增殖考虑在内,基于链接的结构分析的性能都可以进一步改进。
移动数据分析,随着移动电话用户数量的增长以及功能的改善,移动电话如今能够建立和维护社区,这些社区既可以区域进行划分,又可以文化兴趣进行划分,如微信。传统的互联网社区或社交网络社 区缺乏成员间的在线互动,而且只有在成员在个人电脑前时社区才会活跃。而与此相反,移动电话可以支持随时随地的交互。移动社区被定义为一群具有相同爱好的人首先在网络上聚在一起,然后再亲自会面制定共同目标。商定措施以实现目标,再接着就开始实施其计划。

在大数据环境下,要想从数据中找出有价值的信息来辅助决策,不仅面临着困难,也要接受思想的转变,从而借助先进的处理系统工具,来实现平台,在平台的基础上进行数据分析,辅助决策。以目前的研究现状,还存在着很多需要我们继续深入研究的,尤其在大数据分析方面,不管平台构建的如何应用性都是不可忽略的主题。

我要回帖

更多关于 大数据分析 的文章

 

随机推荐