大数据主要来源于来源于不同时间怎么消除时间的影响

注册 | 登录
《绝密原型档案》是本好书~
多给我评论和提问呀~
从零开始学运营,10年经验运营总监亲授,2天线下集训+1年在线学习,做个有竞争力的运营人。
数据的使用价值,以其目的,可以分为三类。一类用于验证假说的是否,二类为思维之翻译,三类以趋势做预测。
前者是科学之所以为科学的护盾。这是说,我们总有一些道理,不知出处,或道听途说,或直觉所致,大体上,都可以暂理解为“假说”一类的道理,即未经证实的假设。我们提出一条假说,为验证假说,做了一个实验,总结了一些数字,用数字证明假说正确与否——这是我认为的数据的第一大效用。
第二类效用,举凡KPI、排行榜、算法之类的皆属此列。这类应用的思想是,算法设计者“想”让“谁”得到高分。因此,其数据结果的高度,取决于“规则设计者”的高度——我总是对这一类应用抱有警惕。因我自身偶尔都会扮演一下这“设计者”的角色,而时时苦恼于此。
第三类常见于各类趋势表,可观历史,亦测未来。准确且长远地预测未来是此效用的终极理想。理论上,时间越近,关联越少,预测越准确。但是我们使用数据总是希望分析更加复杂的事务,因此受限于我们对世界的了解程度,使得预测结果总是存在或多或少的不确定性。
决定论认为事物具有因果联系性、规律性、必然性。通俗点说,就是如果我们理解了宇宙所有物质的运行规律,就可以准确知道未来会发生什么,决定论也认为我此时写下这句话是在世界诞生之初就决定好了的,曰之“命运”。非决定论与其相反,认为世界存在一定的不确定性。
预测科学试图通过特定范围的关联因素及因果性预测出一定程度准确的未来,但是也为“不确定性”保留了“置信区间”。
本文因笔者的学识有限,姑且将焦点放置于第一类效用,即:验证假设。展开为三个部分:一为指标,对基本概念的理解。二为分析,数据分析场景的梳理,及数据后台的设计。三为验证,假说与验证的思考方式。
用户在前台进行各种行为留下痕迹,由于用户行为留下的数据较大,用户有行为就记录,对服务器压力较大,所以会把前台的行为数据单独存储到日志服务器中。
那么按照数据的存储位置,大致会分成行为数据和后台数据两个类型。
第三方数据分析工具获取的都是前台的行为数据,也就是第三方(比如友盟)代替了原本的“日志服务器”的角色。
我们在设计数据产品时,应该了解数据来源,并且将不同的数据来源进行对接。
由于产品形态的差异,获取数据的类型也有一些差别。
网页产品的组织结构是页面,用户行为从刷新某一个页面开始到刷新下一个页面结束,PC产品可以获取到的基础数据主要有:
访问终端IP地址
用户访问网站时使用设备的IP地址。不同设备有对应的IP地址,主要用于分辨地域,但是统计结果有较大误差。
访问时间戳
用户访问页面的时间点,用于判断用户行为的时间顺序。如用户访问页面A时记录时间点,访问页面B时记录时间点,可以认为用户在第二个时间点离开了页面A。
访问地址路径
可以理解为用户访问页面URL,用于分辨用户访问网页的目的地,也就是访问了A页面还是B页面。
来访的来源信息,比如来自搜索引擎的搜索结果页、直接访问、外链网站等。
来访者的其他信息
操作系统、浏览器、爬虫等信息。这类数据是由来访者表明身份获得的信息,因此取决于来访者的自觉性,有误差。有些浏览器不提供给非合作者信息,非正规爬虫也不会表明信息。
APP产品获取的基础数据主要有:
获取终端(手机、平板等)信息用于识别用户
OS/Android/Win等
客户端信息
APP上传的自身信息。
客户端时间
用于判断用户启动或操作应用的时间点
APP按照自定义事件所需,上传用户的操作行为和伴随这个行为的客户端信息。这是APP区别与PC的一类重要数据,其对用户行为的跟踪比网页通过刷新获取的数据更加精准。
如果我们想要分析的某个结果需要涉及不同的数据来源(比如我们的用户在某个时间段使用APP的场景更多还是PC场景更多?),那么数据与数据之间的关联工作是最重要的。我们通过用户识别的方式关联不同来源和结构的数据(识别产品a的用户a和产品b的用户b是同一个用户U),以下是三类用户的识别方式:
网站用户识别
如果我们有两个网站产品,我们如何知道有哪些来访者同时访问了AB两个网站呢?
Cookie是网站以一小段文本的形式存放在用户本地终端的信息,以便网站之后的读取。Cookie是目前网站识别访客的主要手段。由于用户禁止或对Cookie进行清理等问题,这个数据结果的误差也会比较大。
APP用户识别
APP的识别方式类似网站,把信息写入终端。由于手机发生信息丢失的情况(比如刷机)比较少,所以APP的用户识别相对比较准确。我们可以知道每次启动这个应用的访客是不是我们认识的那一个。
产品用户识别
如果同时有网站端和移动端产品,我们又想知道哪些用户同时使用了网站和APP,由于以上识别方式是基于设备,数据中就无法判断用户了。所以跨产品形态的用户识别通常使用注册用户ID,前提是推动用户的注册和登录行为。
以下是我们在产品数据分析中常用的指标。
网站常用的指标
PV浏览量:页面浏览量。每刷新一次页面,被记录为一次PV。
Visit访问次数:今日早上访客A进入网站后离开,下午访客A又一次进入网站,并记录为2次Visit(开发者使用会话数session定义一次访问行为,与visit的意义相同)。
visitor访问者/UV访客数:本周访客A进入网站10次,记录为1个UV,10个visit
访问时长:即访客的停留时间,访客先进入页面A然后进度页面B,页面B的访问时间减去页面A的访问时间即访客停留页面A的时长,另外我们定义访客停留时间超过某个时长(通常是半小时)即离开网站,一次visit结束。
访问深度:访客在一次访问行为中,访问了几个页面。
跳出率/退出率:访客访问landing page(一次访问行为的第一个页面,任何一个页面都可能成为这个网站对于用户的登录页)时离开网站即“跳出”。退出页是指用户这次访问行为的最后一个页面(因每次访问都必然退出,所以退出率只能用于判断某个页面,网站的退出率理论上是百分之一百)。
留存率:留存率通常指整个产品的留存,周日(起始日)进入网站的新用户为100人,周一这100人里有50人继续访问了,到下周日,这100人中访问网站的还有2人。可得出,周日网站的次日留存50%,7日留存2%。
上下两图中,整体活跃用户数都在增长,但是留存曲线告诉我们下图留存表现更好,留存曲线在最后趋于平稳,而上图,用户在增加,但是也在不断流失,所以最后用户总数也无法提升。
留存是产品运营健康程度的重要指标,不同的留存率走势关系不同的功能和运营周期。比如某产品用户完成核心任务的周期是6日左右,那么我们关注7日留存指标,常见的周期是次日、3日、7日、15日等。
转化率:转化率是指在开始任务的过程中,通过某个步骤的人数比例:如果一个任务有abc三个步骤,a步骤100人,这100人中50人开始了b步骤,则b步骤的转化率是50%。
转化率经常使用漏斗图进行解读分析,是一个评测产品交互设计的关键指标。我们用它来监测流程中的哪个步骤出现问题,进而寻求解决方案。
APP与网站的差别是APP并非以页面为单位获取数据,并且与网站可以从任意一个页面进入不同,APP启动后停留的位置是基本固定的(首页,或者开发者指定的页面)。因此,与页面相关的指标不在APP的常用指标中,比如PV(页面浏览量),访问深度(浏览的页面数),跳出与退出(进入页与退出页的指标)等。移动端最有价值的数据集中在对行为事件的统计上。
UV用户数:与网站相似,APP中定义为启动应用的人数。
自定义事件数
自定义事件可以对行为、控件、位置等信息进行定义,比如“用户在xx位置,切换xx控件的状态的事件”或者“用户在xx位置,点击xx按钮的事件”等。基本原理是APP在用户进行某个行为时上传(分析所需的)信息。
自定义事件帮助我们获得大量的用户行为数据,对各类分析场景都有巨大帮助,比如“我想知道使用功能A的用户有多大概率使用功能B”,对于转化率的监测也更加精确。
网站中的转化通常是监测从“页面A–页面B”的用户数,APP中由于自定义事件的存在,可以监测“位置A的按钮A—位置B的图片B”的用户数。
除了以上常用的基础指标,还有一些在分析的过程中被一步一步推理和分解出来。
常用的可视化图表
表达整体的一部分,表达同一个指标的不同部分,饼图适用于规模类数据,直观可理解,但是信息的扩展不足,一张图表通常只能表达一种指标。
柱形图/条形图
这类图表重于不同系列之间数据的对比。
折线图更重于时间线上的前后关系,与柱形图不同,相近的数据对比性不强,更加重视整体趋势。由于其可扩展性更强,是最常使用的图表。
下图中还举例了异型图表,以及复合型图表。
关注数据的对比
仅访客数可能无法帮助我们得到什么有价值的信息,但新老访客比例可能就暗示了什么;如果今天的购买量不能说明什么,那么今天与昨天的购买量比例就说明了什么——对比才有意义,我们的分析过程是大量的不同维度的数据对比。
数据分析的目的
我们首先应该探讨数据为何目的使用。
数据的使用价值远大于数据本身,多数情况,当我们试图进行数据分析的时候,关注的是“能否获得更多收入”或者“能否提供更大价值”。
目的决定视角。
商业产品以面向用户的消费为主要营收,所以数据分析的目的是“提高用户营收”,数据的分析视角是“用户使用产品的体验过程(因为用户为此付费)”。
如果我们的目的是“能否为残疾人提供更大价值”,数据分析的目的是“提高残疾人的生活便利程度”,数据分析的视角是“残疾人使用产品的体验过程(用户因此获得幸福感)”。
(作为产品人,我建议同时考虑这两个目的,一则为企业消灾,二则为自身格局)。
我们将通过用户使用产品的视角,先后获得到用户使用过程中的数据,然后制定关键指标来验证是否达到了目的。
用户使用产品的过程与其产生的指标
我们已知流程是由一个个任务节点构成的,用户在使用产品的过程中通过一个个任务节点,最终完成流程。
数据从用户进行任务的过程中诞生,且由这些数据构成指标。
下图是某健身产品的用户流程图(非可操作文档,仅用于逻辑说明的案例)。跟随图文了解思路。
(图示来自前作http://www.woshipm.com/data-analysis/439844.html,未及分析细节,在此补足。更多数据后台设计图片请点击链接)
将用户与产品的交互过程按运营工作顺序划分为接触、使用、传播、离开、激活几个区间。
1.对每个区间包含的用户任务进行梳理:
“接触”环节用户经过下载APP,运行APP,创建账户等任务
“使用”环节用户经过运动、社交、购物等任务。“运动”任务包含定制课程,训练等任务。其中“定制课程”又包含各个子任务…以此类推。
“传播”环节包含用户邀请、内容转发等任务
“激活”环节包括通知消息、通知启动等任务
“离开”环节包含沉默、流失等任务。
2. 对每一个任务产生的基础指标进行梳理。基础指标通常指“数量”,比如下载产生的指标是“下载量”
3. 对前后任务基础指标的对比,产生一系列前后转化的复合指标。如运行的下一个步骤是注册,前后对比就产生“注册率”指标。
复合指标不是唯一的,按照运营所需可以进行各种维度的扩展,比如“首次启动注册率”之类的指标。
4. 对关键任务流程进行漏斗型转化。这个工作与上一个步骤相似,它针对有多个复杂任务的重要流程进行转化率的分析。如图中“定制课程表”的流程(前文对转化率进行过说明,不赘述)。
5. 其他运营指标。
“病毒传播系数”:由邀请与接受邀请构成的指标,用户邀请率×邀请接受率的结果。
“活跃用户数”:自定义x时间段内打开过产品的用户数,默认为1日的时候,这个值等于日用户数。
“沉默用户数”:自定义x时间段内没有打开过产品的用户数,运营可根据这个值设计不同的激活用户的活动。因为无法直接确认用户是否卸载APP,所以可认为超过某个时间段,用户已流失。除了图中涉及的指标,在对自身产品进行分析时,可以分解出更多有价值的指标。
数据验证因其目的,上至下分为以下几类。
“关键指标”验证方向合理性
传统的数据分析会为产品数据设立KPI,当KPI数值接近优势或危险区域时提醒或警告。“关键指标”的意义与KPI相似,但KPI是为了监控产品的“健康程度”,而“关键指标”是为了“验证目标是否达成”,因此它的应用场景有更大的灵活性,不论是否互联网产品,目的大小,都可以使用这个思考方式。
并且,我们日常可以监控这个“关键指标”,而不是每天都花很多时间去分析每一个指标的数值发生了什么变化。
我们在不同的产品阶段,为产品制定不同的方向,比如初期产品要切人某个市场或用户群,中期产品要检查盈利效果,后期产品要扩大规模。在不同的阶段或者环境下,团队制定不同的方向指导工作,并且用“关键指标”监控这段时间的工作成果。
寻找合适的验证指标
举例“切入市场”阶段。关注的是某类用户群与产品的契合情况,也就是说产品对这个市场的用户群的吸引力和粘性(早期虽然对产品的目标市场有所预期,但是运营依然会考虑从各种不同的市场渠道引入用户,确认或寻找产品最契合的用户群体后再加大投入)。假设一个鞋类垂直电商产品,从产品投入市场到有所沉淀的这段时间,团队的目标是进入运动鞋市场,同时确认和寻找契合度较高的用户群体,团队一开始选择的关键指标有“付费用户比例(进入市场后的表现情况)”“渠道用户付费比例(用户群质量对比)”等。
验证指标是否有负面影响
但是关键指标(假设)周付费用户比例的计算公式是周付费用户/周活跃用户,那么要想提高这个指标,或者提高付费用户增量,或者减少活跃用户增量,后者并不是团队早期乐见的(因为此时运营正在努力的寻找不同的用户群,正是需要大量试错的时候),所以指标又修改为“付费用户净增”——即重视高质量用户的数量。并且团队把这群用户作为其他指标分析时的重要维度(比如付费用户使用频率最高的功能模块,付费用户关注的运动鞋类型等等)。
在这个案例中,团队使用“付费用户净增”验证产品的市场方向,用“渠道用户付费比例”验证产品的目标用户。
“因果指标”与“关联指标”验证方案的可行性
为了完成整体战略方向,我们为产品设计一系列方案,理论上这些方案都支持战略方向的实现。也就是由于方案的执行,达成上一层战略方向的结果。这就构成了执行方案和战略之间的因果关系。那么问题来了:执行方案能否完成战略?战略结果数据表现不好的原因又出在哪个环节?
为此,我们要确认方案的各个主要环节的执行情况是否影响了战略方向的结果。
确定因果指标
上文中指导战略方向的“关键指标”是“付费用户净增”,这个指标是由“新增的付费用户”减去“退单的付费用户”得到的。为了提高关键指标,需要增加新增付费用户,以及减少退单用户,这两个纯量指标,他们就是关键指标的“因果指标”,即,如果修改了这两个数值,必然会导致关键指标数值变化的结果。
推测关联指标
(统计理论:关联性不等于因果性)。
那么新增付费用户的增加可能出于哪些原因?或许是新用户的增加,或许是产品质量的提高,或许是商品价格的降低,都有可能提高付费用户数量。但是这些可能的原因,都是我们的推测与假设,所以这些可以被定义为“关联性”事件。对这些可能的“关联指标”进行数据监控:修改某一个指标的数值(通常是执行方案的某个子方案,比如进行一次促销活动,修改了新用户与商品价格的数值),是否影响“因果指标”,进而影响“关键指标”的数据结果——从而验证这些整个执行方案的可行性。
方案效果测试
在这里的优化方案,指的是小范围的局部的不确定性的产品优化方案,而不是战略性的整体性的产品方案。这些方案经常出现在工作中无法定义答案的沟通环境中,无法推测其效果如何,比如“这个图标放在左侧更好还是右侧?”。A/B测试之类的实验可以帮助我们寻找到更加合适那个方案,为缩短时间,我们也可以进行多个方案的同步测试,比较结果。
不受控的方案,受控的实验
比如我们想要提高某个按钮的点击率,那么是否应该优化这个按钮的形式或者设计?此时我们就把多种方案(不同风格的图形、不同的按钮文案、不同的色彩)在一个受控的范围内进行实验(定义实验时间,用户量,用户群性质等等),获得某一种方案“相对更好”的数据结果。
对于数据的思考始于多年前我开始疑惑于自己工作成果的价值,我们每个人都对自己的方案充满“主观”的自信,这个自信让我很不安,总认为事情没我想象的这么简单。于是,我开始琢磨如何来验证自己的方案,也因此,投入了数据分析的怀抱,这也是这篇文章想表达的主要观点——数据的验证价值。
因我对于学习成果的理解,是以能否做有效的输出为检验的,所以即便开启这个话题多有犹疑,也还是在考虑了几个月之后选择动笔。数据的话题广阔且深邃,但凡有一个人选择要聊聊这件事,我都是愿意抱有一个谨慎的态度的,所以读者也不妨对这篇文章也抱有这样的心态,尽量挑剔的,质疑的,批判性的看待所有文字。
#专栏作家#
,知乎账号:GaraChenV,人人都是产品经理专栏作家。专长研究用户体验,虐待各种形式的键盘。关注教育、学习、LBS等相关领域产品。专业鉴定各种书籍。爱好:收集各种乐谱和书。
本文系作者独家授权发布,未经本站许可,禁止转载,违者追究法律责任。谢谢合作。
赞赏是对原创者的最大认可
赞赏2人打赏
收藏已收藏 | 60赞已赞 | 12
《绝密原型档案》是本好书~
多给我评论和提问呀~
产品经理群
运营交流群
品牌营销群
文案交流群
Axure交流群
关注微信公众号
大家都在问
12个回答22人关注
6个回答14人关注
131个回答178人关注
56个回答63人关注
15个回答46人关注
19个回答43人关注不同周期的单根均线如何去利用?不同周期的单根均线如何去利用?手掌财经百家号均线是一段时间K线收盘价的算术平均值的连线,是技术分析中最直接、最有效的指标。参考均线的不同,观察行情的角度就不同,持仓就不同,在这里和大家详细交流下它的具体用法:一,均线的支撑与压力作用形成买卖点。均线最简单的原理:均线在股价上方形成压力位;均线在股价下方形成支撑位,而且周期越长,支撑压力作用越明显。我们可以在均线中选择某一条均线,例如120日或250日均线,作为支撑来构成交易买点。由于外在力量的介入,当股价触及该线时一般会形成不同级别的反弹或反转;在选择卖点时,我们必须参考所有重要周期、重要均线,来观察股价上涨动力与均线压力的大小关系,一旦动力不足,将会见顶回落,这过程中,我们应不断寻找合适卖点;二,均线具有重要测试作用。无论大盘,还是个股,当指数或股价在底部震荡后强势穿越某根大周期均线时,则可以说明其内在上涨动力充足,预示着行情的来临;当指数或股价触及到某根重要均线没有强势反弹,而且后续还多次触及该均线时,说明其下跌动能尚未耗尽,还不具备见底反转的能力。因此,对提前预知未来大盘或个股的走势非常有效;三,均线的止损止盈作用。当我们进行初始投资前,可以设定某条均线作为保护投资本金的止损线。当随着股价不断上移,止损位也应不断上移,以保护投资中获得的收益。这种止损位最基本要求是具有客观性,不以个人意志为转移,来抑制人类的贪婪与恐惧。均线很好的具备天然的优势。投资中,我们根据个股走势及投资周期选择合适均线即可;均线是一种多功能指标,集合了选择交易买卖点、内在动力测试及止损止盈等功能于一体,是最有效的方法。均线所采用数据来源于某级别K线的收盘价,简单易用,因此均线指标最直接!本文由百家号作者上传并发布,百家号仅提供信息发布平台。文章仅代表作者个人观点,不代表百度立场。未经作者许可,不得转载。手掌财经百家号最近更新:简介:点掌财经,和靠谱的人一起聊股票!作者最新文章相关文章微播易数据:热门直播最易受三大时间点影响-中新网
微播易数据:热门直播最易受三大时间点影响
日 13:08 来源:  
  8月9日电 日,微播易对外正式发布了一组热门直播分析数据,其中显示,在各大直播平台上的TOP100直播热门中,和三大时间点相关数据的最为亮眼。这三个时间点分别为每天的晚9点后、每周的周六前后,及每月月中。
  数据来自7月5日至8月2日期间,各大主流直播平台上的几百场热门直播,平均每个平台定点分析100场热门直播。公开的数据分析报告则遴选了映客、斗鱼、一直播三个典型平台,包含小时平均在线人数、星期+小时平均在线人数以及日期+小时平均在线人数这三个角度。微播易一直专注社会化媒体营销,2015年底融资3.2亿人民币,目前已经吸引了超过60万包括微博、微信、直播、短视频等在内的自媒体登陆,并已执行了超过55万起社媒投放案例,现在尤其重视直播和网红营销。
  晚上九点是直播热度的真正开始
  数据显示,粉丝观看习惯有着明显的活跃期和低迷期之分,上午10时至凌晨1时均是较为活跃的时间段。
  晚21点是进入高峰的关键时间点。三个平台曲线,从21时起就开始进入或达到当天平均在线观看人数的最高峰。其中斗鱼明显更偏向年轻化,所以活跃时间更晚,而一直播因为和新浪微博的关系,用户活跃曲线受到微博平台的极大影响,看起来十分类似。
  早6-7时之间是一天中粉丝活跃度最低的时间点,午后14-15时会迎来一个活跃小高峰。
  日活跃数据显示,直播用户可以在用户活跃高峰期时开始直播,这时在线粉丝数和互动活跃度都更高。当然也有一个不利的地方,那就是直播平台的热门推荐位置也因此变得十分稀缺,争夺加剧。
  此外需要特别提及,不同人群会有不同的活跃时间段。因此定位在不同领域的直播用户和网红,可以遴选适合自己粉丝和用户的活跃时间。
  星期六是一周中最为热门的直播高峰点
  这些数据显示,映客、一直播平台的周活跃高峰呈现出明显的新闻事件规律:相较于时间(周末、非周末)单纯的影响,高峰时间点的出现更主要还是受到重大新闻事件的推动。这和两大平台侧重明星推广有关。同样,一直播因为新浪微博和新浪的元素,更会受到这一因素影响。
  斗鱼星期+曲线最为规律和稳定,一周中几乎每天的0时都会迎来一个高峰。前面已经分析过,这点主要是受到斗鱼平台的用户属性及观看习惯的影响。
  三个平台的周活跃最高峰虽然有所差异,但周末是一致的高峰时间。映客直播一周中最高峰值出现在周六18时,一直播是周一21时,斗鱼直播则比较稳定,几乎一周中每天的0时都会迎来一个小高峰。但也有共同点,周六是三个平台共有的周活跃高峰。而周六(尤其是周六下午至晚上)恰好也是一周中最为放松的时间段。
  月中是平台月活跃高峰期
  数据显示,三个平台的日期+曲线中,月活跃高峰均出现在月中前后,且依然指向典型的周末高峰:映客(7月16日18时,周六)、一直播(7月23日17时,周六),斗鱼(7月18日23时,周一)。
  三个平台的月活跃高峰点的出现诱因与前面提到的周活跃规律再度吻合,映客、一直播平台的高峰点主要表现为新闻事件促发,斗鱼平台受粉丝习惯导向则呈现出规律型循环。
  这些基础的数据显示,熟悉直播平台一周中高峰时间点的变化规律,可以为自媒体及企业的实际运营带来重要帮助。通常,不管是自媒体还是企业,选择在高峰时间点展开直播都会收获更多注意力。在过去实践中,微播易也是如此引导和建议合作伙伴。
  这些基础数据,不仅涉及到直播时间的选择,也涉及到团队运营方式的调整,如在用户不活跃时期多测试一些新玩法,而在高峰时期投入更多资源和人力。同样,这些数据也反馈出企业面临的小挑战,正常朝九晚五的打卡上班制,无法适应与这些当下的新媒体环境。这需要企业做出新的调整和变化。
【编辑:王永吉】
>IT新闻精选:
 |  |  |  |  |  |  | 
本网站所刊载信息,不代表中新社和中新网观点。 刊用本网站稿件,务经书面授权。
未经授权禁止转载、摘编、复制及建立镜像,违者将依法追究法律责任。
[] [] [京公网安备:-1] [] 总机:86-10-
Copyright &1999-
chinanews.com. All Rights Reserved京东研究院实战分享:时间序列用户生命周期的聚类方法
发表于 19:49|
作者黄靖锋
摘要:本文介绍了京东成都研究院在实际项目中使用时间序列聚类算法时产生的疑惑和解决思路。京东选用了DTW作为时间序列的计算的方法,但在实际运行过程中,发现DTW的运算速度确实比较慢,目前正在实验提升它效率的方法。
时间序列和时间序列分析分别是什么?引用百度百科的解释:时间序列是指将某种现象某一个统计指标在不同时间上的各个数值,按时间先后顺序排列而形成的序列。而时间序列分析(Time
series analysis)是一种动态数据处理的统计方法。该方法基于随机过程理论和数理统计学方法,研究随机数据序列所遵从的统计规律,以用于解决实际问题。从百科的说明可以看出,时间序列不仅仅只是一个序列数据,而是一个受系统影响很大的序列数据,时间序列的数据本身存在于生活中的各个领域里,人们对时间序列的分析从很早以前就开始了,发展至今,在大数据环境下,采用数据挖掘的方法来表示数据内部规律也成为了分析时间序列的一种重要方向和趋势。时间序列数据特征然而时间序列有着两大主要特征,使得这种分析变得十分困难:非平稳性(nonstationarity,也译作不平稳性,非稳定性):即时间序列变量无法呈现出一个长期趋势并最终趋于一个常数或是一个线性函数,也就是说,时间序列在每个时间周期里可能出现两种变化,一种是受整个系统变化的影响,另一种是随机的变化。波动幅度随时间变化(Time—varying Volatility):即一个时间序列变量的方差随时间的变化而变化。这种不确定性和各自间的相关性,使得有效分析时间序列变量十分困难,举例来说,每个人在不同的时间点产生的行为都是随机行为,但即将产生的行为或多或少又会受个人过去的行为习惯所影响,所以,假设当我们有这个人过去的全部行为数据时,首先希望通过某种方式刻画这个人过去的行为,并最终找到和这个人有类似行为习惯的人群。传统的划分方法很多,但都是通过某个行为来进行分类划分,而将所有相关行为放在时间序列上来进行整体观察,就用户生命周期而言,国内外都有很多人在研究这个方向,于是我们思考是否能找到一种方法在实际的项目过程得到应用,通过大量的数据来实践时间序列的聚类方法优劣性。时间序列应用范围时间序列在很多领域都有研究,但在电子商务领域的研究,近几年才逐渐兴起。我们项目中希望能够对有相似行为的人群做划分,但在实际中发现,由于人的很多行为是相互关联的,并且在时间的维度中还会发生变化,可能受过去的影响,也可能不受影响,所以,这一秒和下一秒都是不可确定的,导致从传统方法的聚类存在局限性。所以我们从长期趋势研究开始,发现消费的某些行为却可能是固定的,比如定期的购买,季节的变换,促销活动的影响等,这些都是和时间周期有关系的,但又不只是简单的消费数据表示,于是我们想到使用基于时间序列的聚类的方法来进行尝试,得到了一些新的效果。因为随着时间的变换,人是会不断改变的,每种行为可能和时间进行关联后会产生不同的结果,我们最后不仅能得到这个用户局部的行为规律,也可以看到TA在整体时间周期里的行为的规律,通过观察整体和局部,便能更好的刻画用户的生命周期。时间序列聚类方法关于时间序列聚类的方法,根据一些理论文献,简单总结如下:1、传统静态数据的聚类方法有:基于划分的聚类、基于层次的聚类、基于密度的聚类、基于格网的聚类、基于模型的聚类;2、时间序列聚类方法:大概有三种,一是基于形态特征,即形状变化,包括全局特征和局部特征;二是基于结构特征,即全局构造或内在变化机制,包括基本统计特征、时域特征和频域特征;三是基于模型特征,参数的的变化影响系统的变化,同时存在随机变化。然而无论是分类、聚类还是关联规则挖掘,都需要解决时间序列的相似度问题,相似性搜索是时间序列数据挖掘的研究基础。由于时间序列存在各种复杂变形(如平移、伸缩、间断等) ,且变形时间和变形程度都无法预料,传统的欧氏距离已经无法胜任。经过一番调研后,目前,动态时间弯曲(DTW) 相似距离的稳定性已在国内外得到验证,于是我们打算采用DTW来尝试聚类分类。欧式距离我们定义两个时间序列长度为N的序列T和D的欧式距离如下:
欧式距离本身也是计算空间距离的,我们刚开始选用它来计算距离,但发现单独使用准确性不高。现在,我们来做一个简单的实验:图1 三条序列曲线首先,用Python来简单的画三条曲线,如图1所示。从图中可以明显的看出,ss1和ss2曲线是很相似(这里就是sin函数的不同区间变换),ss3和他们两个都有明显的不同。我们使用公式来计算ss1和ss2,ss1和ss3的距离,结果如下:ss1 --& ss2 的欧式距离:26.ss1 --& ss3 的欧式距离:23.从上面可以直观的发现ss1和ss2的距离值反而更大。这里只是直观的说明它本身对序列计算的问题,其实当发现时间序列的频率变化,时间扭曲的时候,单一的欧式距离公式的偏差是比较大的。动态时间规整(Dynamic
Time Warping)动态时间规整现在应用的比较多的是在语音识别上,因为DTW本身是为了找到最优非线性时间序列之间的距离值。这个算法是基于动态规划(DP)的思想,解决了发音长短不一的模板匹配问题,简单来说,就是通过构建一个邻接矩阵,寻找最短路径和的算法。现在我们继续试验,定义两个时间序列长度为n的序列T和D:我们需要先构建一个n x n的矩阵,其中i,j是ti和dj之间的欧式距离,我们想通过这个矩阵的最小累积距离的路径。然后确定对比两个时间序列之间的距离。我们叫这个路径为W:其中每个元素代表了T和D点之间的距离,例如:我们想找到距离最小的路径:最佳路径是使用的动态规划递归函数,具体公式如下:最后得到结果:ss1 --& ss2 的DTW距离:17.ss1 --& ss2 的DTW距离:21.这个例子比较简单,仅供参考。而后我们团队经过更多其它真实的实验后,最后还是选用了DTW作为时间序列的计算的方法,但在实际运行过程中,发现DTW的运算速度确实比较慢,目前正在实验提升它效率的方法。经过一段时间的分析后,我们准备开始进行聚类。我们使用k近邻分类算法。根据经验,最理想的结果是当然是k = 1时的距离值,在该算法中,训练集和测试集分别采用的时间序列的周期集合数据集,在算法中,对测试集进行预测的每个时间序列,搜索是必须通过训练中的所有的点集,发现最相似的一点。时间序列分析的未来展望时间序列分析未来研究的一个重要源动力可能会是来自于“互网络+”电子商务等商业领域巨大数据量的数据。在全球竞争日益激烈的商业环境中,这些数据的可利用价值也会越来越大。然而,这些庞大的数据,本身的离散型和连续型的多元变量相混杂,传统和现有的数据处理方法远远不能对其进行有效的加工、清洗和处理。对这些数据进行综合分析的迫切性肯定会影响未来时间序列分析的研究方向。笔者大胆地猜测,在未来,时间序列分析的研究可能会有以下几个方向发展: 研究不同变量间动态关系生成的模型和算法将会大量出现,同时研究同一个时间周期内变量间自有的动态变化的方法也会逐渐出现,并且效果会越来越好;独立随机性事件和系统性事件对整体周期变化的影响的分析也会变得日益重要;数据挖掘技术的利用来分析时间序列也将日益引起各个领域研究者们的重视,对大量数据的使用,以及如何更有效地挖掘出有效的时间相关特征数据也是未来发展的趋势;基于神经网络的机器学习算法也将会应用到大量时间序列的分析中,未来会朝着人工智能这个方向快速地前进,例如,现在比较火热的深度学习算法,未来是不是也能应用到对时间序列的分析上来呢。当然,真实的未来还需要时间本身来检验。小结本文只是简单介绍了在实际项目中使用时间序列聚类算法时产生的疑惑和解决思路,期间很多方法可能还是尝试和实验阶段,在细节上还有许多可改进的空间,目前DTW算法比较可靠,因为是二次规整,所以缺点就是运算特别慢,目前我们还在通过其他一些对他的优化方法提升速度,后续会继续对电子商务用户生命周期时间序列的挖掘方法进行研究和提升,如果大家有更多更好的方法的话,欢迎交流讨论。(责编/周建丁)作者简介:黄靖锋,京东算法工程师。主要负责京东用户生命周期系统架构设计与实践应用,专注于高性能大数据计算与机器学习算法的应用。黄靖锋【预告】将于7月26-27日在北京友谊宾馆召开。机器学习与模式识别、大数据的机遇与挑战、人工智能与认知科学、智能机器人四个主题专家云集。人工智能产品库将同步上线,预约咨询:QQ:。欢迎关注。
推荐阅读相关主题:
CSDN官方微信
扫描二维码,向CSDN吐槽
微信号:CSDNnews
相关热门文章

我要回帖

更多关于 窗体中的数据主要来源于 的文章

 

随机推荐