有什么手机软件可以将人的f1车手身体素质质数据化

您的 IP 地址/地理位置:220.177.198.53江西&&吉安&&联通
当前位置: &
手机大数据全解析
小手机也有大作为 09:37:24&|&编辑:tarnford&|&查看:&|&评论:
随着移动互联网的的发展,一些在传统互联网上已经被解析无数次的“观念”也在移动互联网上出现。例如,互联网的入口,在目前,移动互联网并没有一家独大的情况出现,似乎也没有这种情况出现的可能。
随着移动互联网的的发展,一些在传统互联网上已经被解析无数次的&观念&也在移动互联网上出现。例如,互联网的入口,在目前,移动互联网并没有一家独大的情况出现,似乎也没有这种情况出现的可能。那么,是否大家都有机会在这个领域找到自己的立足点呢。
近来,一部业内热炒的书&《爆发》,就在人们对大数据的热度将要冷却的时候,就在人们对大数据走向茫然彷徨的时候,再次点燃了公众对大数据的热情。《爆发》的作者巴拉巴西教授为大家打开了一扇从未见有过的窗户,让人们看到了另外一个世界,一个和谐、有序、美丽的世界。这个世界,是我们之前从未想过,也从不敢想的世界。这个世界,就是掩藏在表象之下,被数据所揭示的世界!
手机大数据市场&加速
在苹果亚洲大会上,令人印象最深的主题就是大数据。移动互联网虽然发展较晚,但其速度要远比互联网当年的发展要快很多。
移动互联网用户发展情况
年初的各种报告就显示,全球的移动互联网流量已经占到整个互联网流量的10%!而北美用户的互联网访问时间已经跟移动互联网访问时间接近持平;在印度,互联网的流量已经跟移动互联网持平!
全球移动互联网流量已经达到整体互联网流量的10%
印度互联网及移动互联网流量变化
Facebook,Twitters等主要应用相继证明了这点。Facebook还因此导致广告收入的下滑,因为他们没有准备好在移动互联网上如何承载品牌广告。
手机大数据的产生&移动互联网入口
移动互联网的入口自然会产生大量的数据(可以产生手机大数据的却不只是移动互联网入口,比如社会化媒体,但显然它不适合做入口)。那么什么才能算是移动互联网的入口呢?
借用DCCI的定义,所谓&移动互联网入口&就是用户接入移动互联网的第一站,通过移动网络获取信息、解决问题的第一接触点。
在传统的商业领域,只要控制了渠道,也就离成功不远,在移动互联网时代,得入口者得天下的观点也同样适用。
这也是众多互联网巨头斥巨资争夺移动互联网入口的根源。他们希望保持自己在互联网搜索、浏览器等方向上取得的入口优势,延续自身的垄断。
一般而言,目前大家一般公认的可能的移动互联网入口有:搜索、移动浏览器、移动应用商店、移动广告等。(有的还包括操作系统,但个人认为这种方法不合理,操作系统距离应用太远,无法通过其影响到具体应用或者跟应用发生关联。)
移动互联网入口
作为互联网中很主要的一个入口,搜索在移动互联网市场还没有形成规模,用户还没有形成搜索的习惯。
形成这种局面的问题主要有几个:
1、 市场不成熟,用户还没养成在移动互联网做很多事情的习惯;
2、 应用的碎片化,用户在做一些事情的时候,都有专用的APP,只需点击,无需搜索;
3、 输入困难,使用的场景、时间、网速慢以及手机键盘本身的局限,导致了在手机上人们不愿意或者尽可能地少输入信息。
在移动互联网市场,个人倒是更看好&基于位置LBS搜索&的未来。手机之于PC,增加了一个很重要的元素就是GPS,或者说是位置信息。当搜索又增加一个条件时,使用者得到的便利将会非线性地增加。
例如:&我的车没油了,搜索加油站,可能有很多对我毫无意义的信息;而如果搜索离我最近的加油站,那就非常有用了。从某种意义上来说,基于位置的搜索,也是一种个性化的推荐。&
基于位置的搜索
对于普通搜索市场,并不是没有价值和意义。随着移动互联网市场的普及,深入,移动电商,移动支付等应用的多样化,势必会造成信息的过载,也就有了搜索的客观需求。
DCCI调研发现,移动互联网用户对移动搜索的需求也日益旺盛,而且,移动搜索是在拥有移动互联网WAP流量大占比的情况下仍保持高速增长的领域。随着WAP的逐渐淡出,手机WEB、APP的进一步成熟,这一市场将会进入加速期。
另外,移动电商的崛起,为搜索也带来了新的机会。商品信息的移动搜索,线上比价搭配线下购物都将促进商品信息移动搜索的发展。
手机浏览器
由于移动应用的&碎片化&表征,导致了手机浏览器并不像互联网浏览器那样风光。每个应用都在做自己独立的APP,而无需像互联网那样通过浏览器才能访问网站。
即便如此,手机浏览器随着市场的成熟,智能机的普及,移动网民的增加,还是在逐渐增多。根据91助手提供的数据显示,手机浏览器的周下载量很长一段时间在下降,直到今年3月才出现明显回升,并超过去年10月初的水平,周下载量接近100万,颓势逆转。随着HTML5技术的引入,手机浏览器的用户体验将有很大的提升。
移动手机浏览器下载量
自带浏览器方面,与WebKit的逐步扩张相反,MTK自带浏览器和诺基亚自带浏览器都呈下滑趋势,MTK自带浏览器从上季度的12.5%下降至8.9%,诺基亚自带浏览器从上季度的5.7%下降至5.2%。第三方浏览器方面,UC浏览器仍以30.3%的市场份额雄踞首位。QQ浏览器增幅明显,环比增长2.5%,同比增长7%。
2012Q2百度移动互联网分析报告数据显示,UC浏览器继续以30.3%的市场份额领跑众手机浏览器,其次WebKit自带浏览器、QQ浏览器旗鼓相当,市场份额分别为19.7%、19%。其它浏览器份额分布如下图所示:
2012年Q2手机浏览器市场占比
手机浏览器占比变化
从上图可以看出:
手机浏览器市场又恢复了上升势头
手机浏览器市场TOP3有进一步集中的趋势
虽然,手机浏览器的未来还是不错的,但短期内显然也无法充当移动互联网入口的角色;而且即便将来市场发展,手机浏览器的占比增大,但由于前面提到的移动互联网&碎片化&的特点,还是难以达到其在互联网PC市场中的高度。
人们最初认为,应用商店是最可能演变成移动互联网入口的节点。因为所有的APP应用都需要通过应用商店的发布才能送达最终用户的手机上。
但是,在发展的过程中,由于准入的门槛低,鱼龙混杂。目前国内大大小小的应用商店市场要有成百上千家。现在还处于一个大浪淘沙的阶段。比较有规模的如:91助手,机锋,安致开发市场等。
但即便是这几家有些规模的应用商店市场,由于早期缺乏广告主,而应用商店市场又呈&碎片化&,让本来就僧多粥少的应用商店市场无法靠外来的广告去维持运营,只能靠帮助店内的APP做一些推广来维持运营。
让我想起葛爷的一部电影《气喘吁吁》,折腾了半天,原来是两个穷人在算计对方,都指着挣对方的钱,而无法帮对方赚钱。
开发者不得不自谋出路,自己去寻找外部无线广告投放者,从而也造就了另一个层级的机会&无线广告平台。
无线广告平台
既然地主家没有余粮,那就只能自力更生。开发者有需求,就会有&好事者&来满足需求,无线广告平台就这样诞生了。
架势、哇棒、百分通联、有米、多盟、力美,一个个前仆后继。如果说对无线广告市场贡献最大的是谁?那一定是投资方。因为对于这样一个早期市场,用户的成熟行为习惯还没有转移到手机上来,市场需要培育,需要等待。
现在的无线广告市场,表面上看是品牌广告上迟迟不进入,或者干脆不认可手机承载品牌广告的价值;但实质上,个人认为是整个市场的不成熟,网民们并没有将&变现&的行为转移到移动互联网上。尽管传统媒体的广告价值在日益下降,他们的受众人群在老龄化,广告主需要寻找新的替代品,但这一市场的成长还有待时日,尤其是移动互联网。手机上去承载品牌广告,还需要时间和机遇。如果要用一个词语来形容现在无线广告平台的经营策略,那么我想是&活着&。市场在某种程度上可以催熟,但也仅是某种程度。放下身段,面对现实,真正深入到移动互联网行业中去,去寻找移动互联网广告的必然和现今的变现方式,开源节流,等待曙光的到来,是这个细分市场中每一个玩家比较现实的做法。
对于现在的无线广告市场,各家都有自己的广告主资源,但这显然会造成本就不多的资源分散的问题,狼多肉少。开发者跟无线广告平台的合作是松散的,没有忠诚度可言,来这里就是为了赚钱,这一群体对价格的敏感最终造就了另一个层级的产生&无线广告聚合平台。
无线广告聚合平台
对于纯朴的开发者们而言,赚钱才是硬道理。集成一个广告平台一天赚100块钱,集成多个广告平台一天赚150,那他一定选择后者。这就是赚钱效应。
而这个集成多个广告平台的角色,就是无线广告聚合平台。它的最主要任务就是把移动互联网早期本就微薄的资源聚敛起来,形成一定得规模再重新分配。
赚钱效应,也直接导致了流量和资源的重新分配。
一个实际的移动互联网&入口&已经悄然形成。不能说它一定是未来成熟之后的移动互联网世界的唯一&入口&,但起码可以肯定的是,它将在未来的移动互联网世界中扮演一个很重要的角色!它的角色,甚至可以与互联网中谷歌、百度的地位相媲美。
想想,无论任何一个领域,有那家公司可以做到日PV过亿?每天仅文本格式保存的数据就超过几百个G?这是否算大数据呢?
从数据的种类上,它囊括了几乎早期至现在几乎所有类型应用,游戏、阅读、有声读物、音乐、SNS、工具等等;透过这些纷繁复杂的数据,依稀看到了掩藏在如&杂草堆&一般海量移动大数据下的真实的早期移动互联网世界。在那里,很多移动互联网市场上早期的人的行为,他们的真实想法等等。原文发表于2012年
手机上的大数据(二):手机大数据的特点
随着移动设备的功能越来越强大,移动互联网与传统互联网之间的差异愈发不容忽视。新型的技术以及数据分析方案都展现一个全新的网络模式。我们需要打破一些固有的思维,重新审视手机上的大数据。
移动互联网具有互联网的很多特征,但移动互联网作为一个新生事物,也有其自身的&不同&。
用户在互联网和移动互联网上表征的不同
移动互联网的&碎片化&
互联网造就了宅男宅女,把人们拴在了电脑桌前;而移动互联网又解放了宅男宅女,把他们又重新放回了现实世界中去。
在车站等车时,拿着手机在翻阅小说;站在商圈里,拿着手机搜寻热点商家;或者是在睡觉前,拿着PAD看看有什么娱乐信息,看看喜欢的文章,既拉长了用户们覆盖的范围,也拓宽了其使用网络的时间。
无疑,相对于成熟互联网应用而言,移动互联网的应用主要还是在填补上下班、办事途中,晚上睡觉前等碎片化时间。因此,&打发时间&类应用也跻身三大类主要应用之一,而且受众面极广。
手机上的碎片化
虽然受众面广,时间占比高,但由于&碎片&的特点,目前还没有一个很好的盈利模式将其利用起来。当然,这也是一个市场发展必然要经历的过程。先让尽可能多的用户用起来吧,暂时先不要去考虑如何盈利,为时尚早。
手机阅读的使用时间
手机视频时间
可以看到,在晚上十点至十一点手机阅读和手机视频都达到了高峰,典型的睡觉前时间,从一个侧面反映了手机应用时间与互联网应用的不同。
移动互联网带来的复杂形势
移动互联网绝不仅是有线的业务延展到无线那么简单。势必会产生一些呈几何图形增长的业务,充分发挥移动互联网的特点,比如LBS,比如O2O。
移动互联网的发展使得一些本来看似不相关的东西串了起来,我隐隐有种感觉。元芳,你怎么看?
所以,移动互联网的数据处理巨绝不简单是统计分析,而是多种更为先进的算法来找到隐藏在层层迷雾下面的真相。
互联网分析与移动互联网分析上的差异
Web Analytics(网站分析)已经被各种互联网企业、电子商务企业、以及传统行业的企业网站广泛使用。而Mobile Analytics却还是一个新鲜的事物。它和Web Analytics有继承的关系,但是又有明显的区别。
在Web Analytics中,绝大部分情况下用户是基于浏览器的cookie进行统计的。
也就是说,其实使用同一台电脑的同一个浏览器上网的两个人会被计为一个独立用户(Unique Visitor),而同时使用同一台电脑的IE和Chrome浏览器的同一个人却会被计为两个独立用户。Mobile Analytics的对象却不同,它是按照移动设备(例如手机)来统计的,绝大部分情况下每个移动设备的使用者是唯一的。所以它比Web Analytics更能精确到人,这意味着可以在此基础上提供更个性化的服务和更精准的营销。
手机上的数据分析
这还不是Mobile Analytics唯一让人着迷的地方。浏览器的Cookie很容易被清除或覆盖,但是基于设备的统计相对更为稳定和长久。这使得用户细分(Segmentation)和断代分析(Cohort Analytics)可以更加准确和实用。我们可以通过某种条件(例如当年3月份的新增用户并且使用时长超过20分钟的)筛选出一批用户,分析他们的行为模式。
Mobile Analytics和Web Analytics还有个很大的区别是,前者统计数据时,有可能是离线或者信号不好、网络不稳定的状态,导致统计数据无法立即上传。等到数据能上传时,可能已经隔了几小时到几天不等。而Web Analytics则不会出现这种情况,不能上网就无法访问网站,如果能上网站但是不能连接到统计服务器,这部分统计数据也不会被重新发送。这使得Mobile Analytics需要更复杂的数据补偿策略。
从数据量上来说,Mobile Analytics一点都不比Web Analytics少。它需要统计很多Web Analytics所没有的数据,例如设备型号、应用版本、推广渠道、甚至位置信息,同时还有很多开发者自定义的事件。而移动设备(含平板电脑)总量的增长率远远大于PC(含笔记本电脑)总量的增长率,每个移动设备上的移动应用个数的增长也非常快。所以提供公共服务的Mobile Analytics平台都是典型的大数据应用场景。
手机上的大数据(三):手机上的阅读
在移动互联网所覆盖的日常生活中,用户随时随地都在产生数据,数据的产生以及获取在现在的移动互联网上已经不是什么难以攻破的难题。需要我们面对的是从海量数据的分析中得到我们所需要的真正信息。
手机大数据的组织与应用
手机上的大数据对于移动互联网业务早期无疑具有非常大的指导意义,但并不是所有的手机上产生的大数据都会那么有意义。比如说社会媒体&微博,每天也会产生大量的数据,但多数都是没有意义的。
手机大数据的组织与应用
手机上产生的大数据需要重新组织方能揭示出有意义的信息。
在现今的时代,大数据本身不是问题,你从各个渠道都可能获得海量的数据;我们每个人每天都要生产很大量的数据,关键的问题是如何处理、分析这些数据。数据不处理、不分析,就像Mary举的例子一样,就是一堆稻草,毫无价值。
  稻草堆里寻针
数据处理、分析就是要从一大垛稻草堆里面挑出一根针。
这句话有两层含义:
无论我们从何种渠道,通过何种方式获得的数据,大量的数据是没有意义的,这其中只有少量的数据是有效地,可以从中得出一些有规律、有价值的信息的,原始数据需要清洗、整理;(这一点对于移动互联网更为明显,一般来说,几乎80%-90%的移动应用数据都是毫无价值的,只有不到10%-20%左右的数据才包含后续分析所需要的信息)
我们需要通过后续的数据挖掘的工作,从杂乱无章的稻草堆里找出遗落在层层表象下面的一根针,而非一根稻草!这显然,不是简单通过统计就可以得出的;是比统计分析更为复杂的算法,去从简单关联过度复杂逻辑的层面。
从上一章中,我们知道手机上的大数据的来源多种多样,不同的移动互联入口、不同的应用都会导致不同数据的产生,而这些不同的数据又支撑不同的业务,并且不同的业务之间还可能存在一些交叉应用。所以针对这些特点,下面我们根据这些特点来对大数据的组织做一个简单介绍,手机大数据的组织方式可以采用如下图的结构。
手机大数据的组织方式
从上面的结构可以看出,手机大数据的组织主要分为以下三个部分:原始数据存储层,计算层和业务数据存储层
原始数据存储层
主要存储不同入口产生的数据,而不同入口不同数据域也分开并存此时各个数据集是彼此独立,数据集之间没有任何联系方式。这样做的好处就是能最大限度的保证原始数据的完善性,正确性。
该层的主要任务是对原始数据存储层存取的数据进行挖掘处理,并将挖掘结果按照不同业务进行分类。挖掘处理的大致分为以下两点:① 对不同数据域进行内部分析,挖掘。② 对不同数据域之间进行关联分析挖掘。结果分类主要是将挖掘出的结果进行分类,比如音乐、餐饮、广告等应用。
业务数据存储层
业务数据存储层主要是对计算层产出的数据进行分开存储,以为上层应用提供更明确的数据接口。
当我们对数据进行有效地存储管理后,我们就可以利用这些大数据进行一些有意义的工作,尤其是对于移动互联网业务早期无疑具有非常大的指导意义,下面我们以手机阅读为例,对手机上的大数据如何应用做一个说明。
手机上的阅读
手机阅读作为移动互联网目前为数不多还算有一定共性和沉淀应用之一,是我们早期手机应用研究的对象。所谓&共性&和&沉淀&,就是针对手机应用&碎片化&而言。手机阅读虽然也有大量的碎片时间,但已经逐渐形成了一早一晚宝贵的&床上&连片时间,有相对比较完整时间片上呈现的行为习惯,有相对比较完整的用户在移动互联网上体现出来的偏好信息。
尽管很多报告都显示,用户在互联网与移动互联网上的表征有着巨大的差异,但我依然相信,人们在面对一段文字,一个图片上的喜好、感觉是不会变的。因为人性是不会轻易改变的。互联网和移动互联网的用户行为之所以不同,那是因为应用本身使用场景的不同,解决问题的不同所导致的。并不是一个人在互联网上是一个性格,而到了移动互联网上就是另外一个人生了。
这是我们研究手机阅读上大数据的初衷。
下面,我们以一个曾经做过的手机阅读项目为例,主要从发现问题、解决问题、结果验证三个方面来为大家展开。
通过对手机阅读数据的挖掘分析,我们发现了如下几个问题:
(1) 城市与城市之间的阅读行为相似
我们统计过杭州、广州、深圳在某一时间段内用户的阅读数据,得到了这三个城市这三个月热门前二十的数据。
下表统计的是杭州与广州深圳这两个城市在该时间段内的热门阅读图书重合数数。
三月四月五月
杭州VS深圳杭州VS广州杭州VS深圳杭州VS广州杭州VS深圳杭州VS广州
前十994428
从表中,我们可以猜测,杭州与深圳、广州这两个城市之间确实存在着一定程度上的阅读相似性。
计算公式为:Sim(A,B) = Same(A,B)*2/[Count(A) Count(B)]
Sim(A,B)表示的是城市A,B的阅读相似性。Same(A,B)表示的是城市A,B在某时间段内共同阅读过的图书的本书,Count(A)表示的是城市A在某时间段内阅读过的图书的本书。
从表中我们可以发现杭州与深圳广州的阅读相似性都很高。也就是说杭深或者杭广城市间阅读是比较相似的,我们可以考虑用他们来作为阅读风向标的参考城市。
所以,如果考虑要做风向标分析的话,更倾向于选择广州作为杭州的阅读风向标,杭州作为深圳的风向标,杭州跟广州可以互相参考。
(2) 移动阅读的&长尾&现象严重
在我们的数据统计中发现,手机阅读市场基本上靠热榜和主观推荐来运营。这就造成了我们所常见的&长尾&效应,而且随着书籍的增多,这种效应更为严重!
(3) 不同行为模式的用户表现相差比较大
我们通过kmeans聚类算法(一种常见的数据挖掘算法),说明各类用户之间表现的特征差异还是比较明显。
不同行为模式的用户表现相差比较大
我们针对历史数据进行了分析,对于不同的问题,我们觉得可以采用如下方法进行解决。
(1) 数据聚类推荐送
通过对用户进行聚类推送图书,我们发现有如下结果:
数据聚类推荐送
第一类:人群比例接近60%。这类人群一直有阅读推荐书的行为(平均约e^1),在6月14号当天PV量并没有提升,而在后面几天提到较明显的提升,6月20号之后似乎又回到了之前的PV水平。
第二类:人数较少,仅57人。在推荐前基本无阅读推荐书行为,而在推荐后阅读推荐书PV量较大(平均e^2),且后续也有较好的保持,可以认为被推送激发了阅读推荐书的兴趣。
第三类:人群比例接近40%。这类人群在6月13-17号之间阅读推送书籍的PV量提升非常明显,但是在这个时间段之外,比较沉默,前期(6月13号前)阅读推荐书很少,后期(6月17号)阅读量有些提升,但是还是回归到比较沉默状态。
(2) 个性化推送
由于手机的推送方式,目前大多数是通过流行榜来推荐,这就造成了这些被推送的书籍越流行,后面越推送他。反复的循环下去,就造成了系统长尾现象,数据覆盖率等问题。所以最好是根据不同的用户设置不同的推荐方法。这样可以大大改善系统中这些状况。
通过我们对数据的挖掘处理,然后用户实际应用,最后得到了如下的反馈结果:
(1) PV量的增加
首日PV比较
从实验分析中,我们得出:总的一周反馈率,实验组是对照组的1.30倍。
推荐成功用户首日推荐书籍PV总量,实验组是对照组的8.17倍;人均推荐书籍PV量,实验组是对照组的15.19倍。
推荐成功用户首日总激发PV量,实验组是对照组的9.62倍;人均全部书籍PV量,实验组是对照组的17.88倍。
推荐成功用户中,实验组的一周推荐书籍PV总量约为对照组的5.45倍;人均推荐书籍PV量,实验组是对照组的4.88倍。
推荐成功用户中,实验组的一周总激发PV量是对照组的7.01倍;人均全部书籍PV量,实验组是对照组的6.28倍。
综上所述,经过数据挖掘、分析、推荐等算法的处理,手机阅读的各项指标得到了大幅的提升,其效果已经不是百分之几十的提高,而是成倍地增加了!这就是大数据应用的魅力!
手机上的大数据(四):手机上的音乐
无线音乐是用户利用手机等通信终端,以WAP、WEB、APP等接入方式获取以音乐为主题内容的相关业务的总称,具体包括彩铃、无线音乐俱乐部、及手机客户端软件等业务。可以说在智能手机时代,手机客户端音乐逐渐成为用户享受生活的主要方式。
随着智能手机的不断普及,无线音乐行业成就了一些大头手机音乐客户端公司,这些公司拥有着上百万甚至千万级别规模的用户群体。
手机客户端音乐的不断发展及用户群体的不断壮大,随之也带来了大量无线音乐数据的产生。这些数据看似杂乱无章、繁多冗余,但却隐藏着很多的秘密。如果能有效地对这些数据进行组织管理,并且利用相关技术进行挖掘、分析,少则可以揭示一个公司一次决策实施后的效果,发现公司现有存在的重大问题,多则发现潜在的高价值业务或需求,这些业务或需求很有可能为公司的发展提供战略性指导意见。
下面以国内某著名手机客户端音乐公司的无线音乐数据为例,我们还是按照发现问题、解决问题、结果验证这三个方面来说明无线音乐数据的组织与应用。
通过对该数据进行分析挖掘,我们发现如下几个问题。
(1) 用户、歌曲均存在长尾效应
从数据中我们发现用户有两种行为,一种是下载、一种是试听,
每种行为中,我们发现用户和歌曲均存在&长尾现象&,绝大部分用户只试听或下载系统中的少部分歌曲,而大部分歌曲出于闲置状态。具体信息如下图
音乐的长尾问题
说明:图中左子图横坐标表示用户的听歌,纵坐标表示对应用户所占比例。右子图横坐标表示歌曲的被多少人听过,纵坐标表示对应度歌曲所占比例。造成这方面的原因可能是:数据量大,信息过载严重用户找不到自己喜欢的歌曲。
此时大多数用户直接转向流行榜或热歌榜歌曲,就会造成系统中热门歌曲越热门,冷门歌曲越冷门的现象。
(2) 歌曲覆盖率低
从数据中我们还发现歌曲的覆盖率很低,在整个抽样数据中歌曲
覆盖率只有2.01%。绝大部门歌曲根本没有被用户听过或者下载过,这不仅造成系统资源的大量浪费,而且造成公司资金的无辜流失(因为每首歌曲都要付版权费,而系统中98%的歌曲处于浪费状态)。歌曲的覆盖率累计分布如下如图。
歌曲覆盖率图
说明:图中横坐标表示歌曲的被听歌人数(去重),纵坐标是不小于这个数目的歌曲所占的比例。
造成这方面的原因可能是:大量歌曲处于冷启动状态,数据稀疏。作为冷启动作曲,系统不知道如何把他推送到适当的用户手里,而用户也不能通过有效方式找到他,就使得这类歌曲处理系统的暗处,不容易被发现。
(3) 用户每天听歌时间呈间断性分布
在给定的样本数据中,我们发现用户听歌行为并不是均匀分布,而是间断性分布,即在不同的时间用户听歌集中度不同。为了更好的看出效果,我们将一天分为8个时间段,每个时间段包括3个小时,在每个时间段内用户听歌活跃性如下图。
用户活跃时间图
说明:图中横坐标表示时间段,纵坐标是该时间段内用户的活跃性比。
造成这方面的原因可能是: 下班、休息、乏困疲惫时间
用户在无限端听歌的模式还是倾向于休闲与娱乐,主要是以休息碎片时间为主。
(4) 不同用户对歌曲的属性依赖性不同
在样本数据中,歌曲有专辑与歌手两种属性。我们从用户的长程关联显著性、短程关联显著性等方面对用户的听歌行为进行分析,分析具体结果如下表:
说明:图中Strong null model、Weak null mode、Temporal null model分别表示系统中所有播放之间相似度值,所有歌曲之间的相似性值,相邻播放之间相似性值。Album表示专辑,Artist表示歌手。造成这方面的原因可能是:与专辑相比用户倾向于听同一个歌手的歌曲
(5) 不同用户听歌行为不同
从数据中我们分析还得出,不同活跃性的用户所听歌曲也不同。分析中我们从歌曲新颖性、歌曲在专辑上的相似性、歌曲在歌手上的相似性三个指标上对不同活跃性的用户所听歌曲进行分析。
具体信息如下图
歌曲的三个维度分析
说明:图中横坐标表示用户的活跃性值,纵坐标表示对应活跃性用户所听歌曲的新颖性值、歌曲在专辑上的相似性值、歌曲在歌手上的相似性值
造成这方面的原因可能是: 用户可能呈分群现象
活跃性较低的用户可能是普通用户,这类用户根据自己的爱好来选择自己想听的歌曲。活跃性较高的用户可能是专业用户,这类用户根据自己的专业需要来选择自己想听的歌曲。
从上面一小节的讨论中,我们已经知道无线音乐端大数据中可能隐藏的几个问题如下:
①用户、歌曲均存在长尾效应
②歌曲覆盖率低
③用户每天听歌时间呈间断性分布
④不同用户对歌曲的属性依赖性不同
⑤不同用户听歌行为不同
当一个公司面对以上问题时应该采用怎样的解决方案来解决或者
改善当前情况是另一个重要的问题。尤其是上述问题①、②,如果处理不恰当,可能会影响整个公司是否能正常运行,甚至影响公司的发展。
因此,本部分从无线音乐数据出发,提出几种适合的解决方案。
(1)用户、歌曲均存在长尾效应,我们可以采用以下技术
采用信息过滤技术,一种方法可以对歌曲进行分类,将不同的用户映射到不同的歌曲类别中。另一种方法就是个性化推荐技术,系统自动的分析用户的偏好为不同用户过滤相应的歌曲。
(2)歌曲覆盖率低,我们可以采用如下技术
歌曲覆盖率低主要是因为用户找到不到音乐,造成这个问题的原因主要有两种:①音乐本身的信息不充足,②音乐有信息,但是用户找不到这些音乐。
所以一方面我们可以给音乐打标签,使用标签信息来表示歌曲的具体属性;另一方面,我们可以采用推荐技术对歌曲进行个性化推荐。
(3)用户每天听歌时间呈间断性分布,我们可以采用如下技术
在不同的时间,我们设置不同的主题歌曲以适应不同的听歌场景,比如夜晚放舒缓、平滑的歌曲,上午上摇滚、重金属之类的歌曲。
当然具体的场景还需要通过进一步的数据挖掘来获得,本文只是提出一种方法,对具体技术不做过多阐述。
(4)不同用户对歌曲的属性依赖性不同,我们采用如下技术
通过历史数据分析获取用户对歌曲属性的依赖性,从中我们能得知用户对哪种属性更加依赖。当发现用户对流派更依赖,则我们可以根据流派为其播放歌曲,当发现用户对歌手感兴趣,则我可以根据歌手为其播放歌曲。
(5)不同用户听歌行为不同,我们可以采用如下技术
根据用户特征将用户分群,这样可以将用户分为多个不同的群体。针对不同的群体我们给其播放的歌曲不同,比如普通用户可以热歌为主进行播放,而对于专业歌手,我们则以高多样的歌曲来为其播放。
为了进一步说明上述解决方案的有效性,此处我们仅采用推荐算法来进行说明当系统采用该解决方案后,系统中出现的一些显著变化,具体的变化如下:
l 用户更容易找到自己喜欢的歌曲
用户找更容易找到歌曲
该音乐网站目前采用热歌榜(GRM)来组织歌曲,通过此种方式用户找到其喜欢歌曲的概率是千分之一左右,当我们采用了3种推荐方法(分别是OCF、HC、MD)后,发现用户找到自己喜欢歌曲的概率明显增加,而且对于MD算法,其准确度提升了10倍之多。
系统长尾的变化
使用推荐算法前
使用推荐算法后
长尾效应的改善
从上图明显的可以看出,系统的长尾效应有显著的变化。这样的结果应该是公司最想看的结果,不仅大大缩减了公司不必要的浪费,也为用户提供更好的用户体验。本文由百分点信息无线业务部高级总监李晓东、Talking Data COO徐懿以及成都电子科大的龚亮联合撰写。
手机上的大数据(五):手机上的APP推广
无线应用的大数据有着重要的作用。但是对于以及手机音乐的大数据分析仅限于特定App,而现实情况中还存在另外一种应用,即App之间互相推广,此处我们将其命名为App互推联盟。
APP互推是一种通过挖掘App之间的隐含关系,将一个App推送到另外一个相关类的App上,而整个移动端App的应用个数有好几十万,所以数据包含的信息是相当丰富。如果我们能有效利用这数据,则我们能够采用更有效的方法来实现App的互推,同时利用这些大数据,我们为移动广告找到了一个更有效的平台。
Database Modeling是一个数据库的建模功能,任何庞大的数据都需要一个正确的分析机制
大数据分析中的问题
① 全局数据打通
当我们获取单独App数据时,这些数据都是孤立的小岛,我们不太会关心用户在其他App中有什么样的行为特征。当我们拥有数十万个APP时,如果能将各App数据进行打通,那我们能获得的利用将是无穷无尽的。
在PC端,浏览器可以通过cookie、flash等方式记录一个用户的ID,而在手机端这种方法却欠妥,因为手机端的用户使用App的频率远高于浏览器的频率。
但是我们仔细发现,每个用户所使用的手机MAC号一般情况下是唯一的(在极少情况下不唯一),所以我们可以通过MAC号来将用户进行打通。
② 信息补全
在前一章节无线音乐应用中,我们遇到一个棘手的问题是,用户信息不完整,我们不能有效地给其推送恰当的歌曲。用户信息不完整的主要原因是因为在该APP中留下的信息量少,如果我们能利用用户在其他APP的信息来补全用户信息,则可以大大提供用户在该APP中听歌的体验。
在没有打通App数据之前,App互推一般都是根据随机原则、热门App原则、相似相近原则来进行推荐。这些方法存在很多问题,如不同用户App推荐一样,推荐App被用户喜好的准备低等。
当多个App数据打通后,原始App推送方法可以得到明显的改善。因为一方面我们可以获取用户的全局信息,利用这些信息我们可以更好的为用户做个性化的推荐,另一方面由于App的打通我们能更好的将用户、App进行聚类分析,这样更加方便相似用户对相似应用的喜好。
App中的广告应用
在没有打通App数据之前,App的广告一般都是根据App的关键词原则进行投放,不同用户在登录同一个App时可能接受到同一个广告。这种投放方法存在一个明显问题就是只抓住了App的匹配性,并没有抓住App上具体人的匹配性。比如一个人刚浏览玩母婴类的App转入另外一个音乐类的App时,该音乐类App大多会为其投放音乐类广告,而不是母婴类的广告。
App在设计之初就会针对广告位置和内容进行规划
当我们把App数据打通后,因为全局信息的关系使得用户就有了记忆功能。所当上诉情况发生时,音乐网站可以根据用户带来的喜好为其投放与其喜好最接近的广告。这样才能更加准确的抓住用户的心理,让用户、公司以及广告达到三赢的好结果。本文由百分点信息无线业务部高级总监李晓东、Talking Data COO徐懿以及成都电子科大的龚亮联合撰写。
手机上的大数据(六):手机大数据的挑战
通过、手机音乐上的用户行为,我们可以看到手机大数据在移动互联网应用上的威力,但同时,手机上的大数据也不是万能的,它的发展还面临着很多实际的问题和挑战。
数据的稀疏性
智能手机端的App应用数以十万计,但是每个应用中两个用户之间选择的重叠非常少,如果用用户和商品之间已有的选择关系占所有可能存在的选择关系的比例来衡量系统的稀疏性,在我们研究的几个App数据中,稀疏度均不超过4%,其实这些其实都是非常密的数据。想想一个具有千万级用户,百万级歌手的App,平均而言一个用户能听100首歌吗,估计不能,所以稀疏度应该在万分之一或以下的量级。
这个问题本质上是无法完全克服的,但是有很多办法,可以在相当程度上缓解这个问题。比如扩散方法、随机缺省值方法、随机选择等
冷启动问题
在我们前面讨论的音乐APP中,我们发现歌曲的覆盖只有2%左右,这个是由于大量歌曲出于冷启动状态造成的。这是因为新商品由于被选择次数很少或没有,难以找到合适的办法推荐给用户结论。
最近一个有趣的研究显示,新用户更容易选择特别流行的商品&这无论如何是一个好消息,说明使用热歌榜也能获得不错的结果。
大数据处理与增量计算问题
尽管数据很稀疏,大部分数据都包含百千万计的用户,与此同时新用户不停进入系统。数据量不仅大,而且数据本身还时时动态变化,如何快速高效处理这些数据成为迫在眉睫的问题。在这个大前提下,算法时间和空间的复杂性,尤其是前者,获得了空前重视。一般而言,一个高效的算法,要么自身复杂性很低,要么能够很好并行化,要么两者兼具。
随着加入的信息量的增多,最终每过一段时间还是需要利用全局数据重新进行计算。更先进但也更苦难的办法,是设计出一种算法,能够保证其误差不会累积,也就是说其结果与利用全部数据重新计算的结果之间的差异不会单调上升。
用户行为模式的挖掘和利用
深入挖掘用户的行为模式能更准确的抓住用户喜好,从而有希望做出更好的用户体验。譬如说在音乐APP中,新用户和老用户具有很不一样的选择模式:一般而言,新用户倾向于选择热门的歌曲,而老用户对歌曲的多样性关注更多。
用户行为的时空统计特性也可以用于提高者设计针对特定场景的应用。举个例子,在进行手机个性化阅读推荐的时候,如果曾经的数据显示某个用户只在7点到8点之间有一个小时左右的手机阅读行为(可能是上班时在地铁或者公交车上),那么9点钟发送一个电子书阅读的短信广告就是很不明智的选择。从含时数据中还可以分析出影响用户选择的长期和短期的兴趣,通过将这两种效应分离出来,可以明显提高推荐的精确度。
多维数据的交叉利用
目前手机端的APP还出于孤立的状态,并没有真正的完成数据打通及数据共享的地步。想象如果能够把这些数据整合起来,特别是知道每个节点身份的对应关系(不需要知道你真实身份,只需要知道不同APP中存在的若干节点是同一个人),可以带来的巨大的社会经济价值。
举个例子,你可能已经在新浪微博上关注了很多数据挖掘达人的微博,并且分享了很多算法学习的心得和问题,当你第一次上当当网购书的时候,如果主页向你推荐数据挖掘的最新专著并附有折扣,你会心动吗?所以多维数据挖掘是真正有望解决系统内部冷启动问题的法宝&&只要用户在系统外部的其他系统有过活动。
目前有很多技术方法可以实现这种多维数据挖掘,比如统计物理学的物质扩散、热传导方法,机器学习的迁移学习方法都有望解决这种多维数据挖掘。
结论与展望
由于移动互联网的迅速崛起,让互联网大数据变得更为多样、丰富。它不但可以作为互联网大数据的一个有益补充,而且还可以作为移动互联网新业务本身的行动指导。
在市场营销领域,数据可以用来洞察客户,例如衡量他们的生命周期价值或者预测可能的购买行为。对于整个企业而言,利用数据进行分析和应对的能力,对于进行正确的决策并最终取得更好的业绩是至关重要的。
真正实现&精准营销&需要底层海量的用户行为数据做支撑,网络营销追求的都不应是曝光率,而是用户转化率。而对用户转化过程进行有效的数据分析,可实现效果的优化。效果可从三个层面分解:目标是否清晰、向过程要效果,最终目标达成率就是效果。利用数据工具控制和优化营销过程,可不断提升ROI效率。
这需要具体了解客户的业务发展目标和推广需求,可以考虑借助专业的第三方服务公司作有关于网络营销策略的效果评估。以制定出或调整有关于网络营销策略。
一般来说,对于不同的营销平台会有不同的广告形式投放,从而产生的效果也多种多样,各家说各家的好。网络营销中,品牌认知、提升偏好、主动寻找、购买转化、分享/再购各阶段,分别对应广告管理、口碑、网站、电商、客户管理的营销策略。以&大数据&贯穿网络营销全过程,就可将有价值的数据转化为有意义的数据,让广告从效果监测变为效果预测、让传播更有效率、用户体验更佳,用户转化更清晰、可控。
让我们一起随着手机上的大数据一起&爆发&吧。
相关阅读:
搜索"raincent"或扫描下面的二维码

我要回帖

更多关于 橄榄球运动员身体素质 的文章

 

随机推荐