咨询,cs沙龙国际会cs用XP系统有点卡,是不是要换系统了(芳融)===

你似乎来到了没有知识存在的荒原...
来源链接是否正确?用户、话题或问题是否存在?&figure&&img src=&/50/v2-1b242d2c922c9a5967f0b_b.jpg& data-rawwidth=&516& data-rawheight=&315& class=&origin_image zh-lightbox-thumb& width=&516& data-original=&/50/v2-1b242d2c922c9a5967f0b_r.jpg&&&/figure&&p&&strong&一、文本挖掘定义&/strong&&br&&/p&&p&文本挖掘指的是从文本数据中获取有价值的信息和知识,它是数据挖掘中的一种方法。文本挖掘中最重要最基本的应用是实现文本的分类和聚类,前者是有监督的挖掘算法,后者是无监督的挖掘算法。&/p&&h3&&strong&二、文本挖掘步骤&/strong&&/h3&&p&1)读取数据库或本地外部文本文件&/p&&p&2)文本分词&/p&&p&2.1)自定义字典&/p&&p&2.2)自定义停止词&/p&&p&2.3)分词&/p&&p&2.4)文字云检索哪些词切的不准确、哪些词没有意义,需要循环2.1、2.2和 2.3步骤&/p&&p&3)构建文档-词条矩阵并转换为数据框&/p&&p&4)对数据框建立统计、挖掘模型&/p&&p&5)结果反馈&/p&&h3&&strong&三、文本挖掘所需工具&/strong&&/h3&&p&本次文本挖掘将使用R语言实现,除此还需加载几个R包,它们是tm包、tmcn包、Rwordseg包和wordcloud包。其中tmcn包和Rwordseg包无法在CRAN镜像中下载到,有关这两个包的下载方法可参见下文:&/p&&p&&a href=&/?target=http%3A//mp./s%3F__biz%3DMzIxNjA2ODUzNg%3D%3D%26mid%3Didx%3D1%26sn%3D5b6d721bab51b81b38f568%26scene%3D21%23wechat_redirect& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&R语言之文本挖掘--分词&i class=&icon-external&&&/i&&/a&&br&&/p&&h3&&strong&四、实战&/strong&&/h3&&br&&p&本文所用数据集来自于sougou实验室数据,具体可至如下链接下载:&/p&&p&&a href=&/?target=http%3A//download./dl/sogoulabdown/SogouC.mini..tar.gz& class=& external& target=&_blank& rel=&nofollow noreferrer&&&span class=&invisible&&http://&/span&&span class=&visible&&download.&/span&&span class=&invisible&&/dl/sogoulabdown/SogouC.mini..tar.gz&/span&&span class=&ellipsis&&&/span&&i class=&icon-external&&&/i&&/a&&/p&&p&本文对该数据集做了整合,将各个主题下的新闻汇总到一张csv表格中,数据格式如下图所示:&/p&&p&‘&figure&&img src=&/v2-8bd75b18cfd517de264cc_b.png& data-rawwidth=&584& data-rawheight=&552& class=&origin_image zh-lightbox-thumb& width=&584& data-original=&/v2-8bd75b18cfd517de264cc_r.png&&&/figure&&/p&&p&&strong&具体数据可至文章后面的链接。&/strong&&/p&&p&#加载所需R包&/p&&p&library(tm)&/p&&p&library(Rwordseg)&/p&&p&library(wordcloud)&/p&&p&library(tmcn)&/p&&p&#读取数据&/p&&p&mydata &- read.table(file = file.choose(), header = TRUE, sep = ',', stringsAsFactors = FALSE)&/p&&p&str(mydata)&/p&&figure&&img src=&/v2-1bbe557efe45aa62e90c980c111e4225_b.png& data-rawwidth=&590& data-rawheight=&321& class=&origin_image zh-lightbox-thumb& width=&590& data-original=&/v2-1bbe557efe45aa62e90c980c111e4225_r.png&&&/figure&&br&&br&&p&接下来需要对新闻内容进行分词,在分词之前需要导入一些自定义字典,目的是提高切词的准确性。由于文本中涉及到军事、医疗、财经、体育等方面的内容,故需要将搜狗字典插入到本次分析的字典集中。&/p&&p&#添加自定义字典&/p&&p&installDict(dictpath = 'G:\\dict\\财经金融词汇大全【官方推荐】.scel',&/p&&p&dictname = 'Caijing', dicttype = 'scel')&/p&&p&installDict(dictpath = 'G:\\dict\\军事词汇大全【官方推荐】.scel',&/p&&p&dictname = 'Junshi', dicttype = 'scel')&/p&&p&installDict(dictpath = 'G:\\dict\\篮球【官方推荐】.scel',&/p&&p&dictname = 'Lanqiu', dicttype = 'scel')&/p&&p&installDict(dictpath = 'G:\\dict\\旅游词汇大全【官方推荐】.scel',&/p&&p&dictname = 'Lvyou', dicttype = 'scel')&/p&&p&installDict(dictpath = 'G:\\dict\\汽车词汇大全【官方推荐】.scel',&/p&&p&dictname = 'Qiche1', dicttype = 'scel')&/p&&p&installDict(dictpath = 'G:\\dict\\汽车频道专用词库.scel',&/p&&p&dictname = 'Qiche2', dicttype = 'scel')&/p&&p&installDict(dictpath = 'G:\\dict\\医学词汇大全【官方推荐】.scel',&/p&&p&dictname = 'Yixue', dicttype = 'scel')&/p&&p&installDict(dictpath = 'G:\\dict\\足球【官方推荐】.scel',&/p&&p&dictname = 'Zuqiu', dicttype = 'scel')&/p&&p&#查看已安装的词典&/p&&p&listDict()&/p&&figure&&img src=&/v2-802053ffa654a4e068bf1dd91bab50bd_b.png& data-rawwidth=&597& data-rawheight=&415& class=&origin_image zh-lightbox-thumb& width=&597& data-original=&/v2-802053ffa654a4e068bf1dd91bab50bd_r.png&&&/figure&&br&&br&&p&如果需要卸载某些已导入字典的话,可以使用uninstallDict()函数。&/p&&p&分词前将中文中的英文字母统统去掉。&/p&&p&#剔除文本中含有的英文字母&/p&&p&mydata$Text &- gsub('[a-zA-Z]','',mydata$Text)&/p&&p&#分词&/p&&p&segword &- segmentCN(strwords = mydata$Text)&/p&&p&#查看第一条新闻分词结果&/p&&p&segword[[1]]&/p&&figure&&img src=&/v2-dc4a144d27cf_b.png& data-rawwidth=&613& data-rawheight=&280& class=&origin_image zh-lightbox-thumb& width=&613& data-original=&/v2-dc4a144d27cf_r.png&&&/figure&&br&&br&&p&图中圈出来的词对后续的分析并没有什么实际意义,故需要将其剔除,即删除停止词。&/p&&p&#创建停止词&/p&&p&mystopwords &- read.table(file = file.choose(), stringsAsFactors = FALSE)&/p&&p&head(mystopwords)&/p&&p&class(mystopwords)&/p&&p&#需要将数据框格式的数据转化为向量格式&/p&&p&mystopwords &- as.vector(mystopwords[,1])&/p&&p&head(mystopwords)&/p&&figure&&img src=&/v2-71be0f65f2adc_b.png& data-rawwidth=&624& data-rawheight=&254& class=&origin_image zh-lightbox-thumb& width=&624& data-original=&/v2-71be0f65f2adc_r.png&&&/figure&&br&&br&&p&停止词创建好后,该如何删除76条新闻中实际意义的词呢?下面通过自定义删除停止词的函数加以实现。&/p&&p&#自定义删除停止词的函数&/p&&p&removewords &- function(target_words,stop_words){&/p&&p&target_words = target_words[target_words%in%stop_words==FALSE]&/p&&p&return(target_words)&/p&&p&}&/p&&p&segword2 &- sapply(X = segword, FUN = removewords, mystopwords)&/p&&p&#查看已删除后的分词结果&/p&&p&segword2[[1]]&/p&&figure&&img src=&/v2-afe1bf6b0a8c_b.png& data-rawwidth=&617& data-rawheight=&240& class=&origin_image zh-lightbox-thumb& width=&617& data-original=&/v2-afe1bf6b0a8c_r.png&&&/figure&&br&&br&&p&相比与之前的分词结果,这里瘦身了很多,剔除了诸如“是”、“的”、“到”、“这”等无意义的次。&/p&&p&判别分词结果的好坏,最快捷的方法是绘制文字云,可以清晰的查看哪些词不该出现或哪些词分割的不准确。&/p&&p&#绘制文字图&/p&&p&word_freq &- getWordFreq(string = unlist(segword2))&/p&&p&opar &- par(no.readonly = TRUE)&/p&&p&par(bg = 'black')&/p&&p&#绘制出现频率最高的前50个词&/p&&p&wordcloud(words = word_freq$Word, freq = word_freq$Freq, max.words = 50, random.color = TRUE, colors = rainbow(n = 7))&/p&&p&par(opar)&/p&&figure&&img src=&/v2-ff2bb8ee4da36f1835802_b.png& data-rawwidth=&595& data-rawheight=&305& class=&origin_image zh-lightbox-thumb& width=&595& data-original=&/v2-ff2bb8ee4da36f1835802_r.png&&&/figure&&br&&br&&p&很明显这里仍然存在一些无意义的词(如说、日、个、去等)和分割不准确的词语(如黄金周切割为黄金,医药切割为药等),这里限于篇幅的原因,就不进行再次添加自定义词汇和停止词。&/p&&p&#将已分完词的列表导入为语料库,并进一步加工处理语料库&/p&&p&text_corpus &- Corpus(x = VectorSource(segword2))&/p&&p&text_corpus&/p&&figure&&img src=&/v2-8ce039fa62bb7dbe44d1edce01e29517_b.png& data-rawwidth=&623& data-rawheight=&105& class=&origin_image zh-lightbox-thumb& width=&623& data-original=&/v2-8ce039fa62bb7dbe44d1edce01e29517_r.png&&&/figure&&br&&br&&p&此时语料库中存放了76条新闻的分词结果。&/p&&br&&p&#去除语料库中的数字&/p&&p&text_corpus &- tm_map(text_corpus, removeNumbers)&/p&&p&#去除语料库中的多余空格&/p&&p&text_corpus &- tm_map(text_corpus, stripWhitespace)&/p&&p&#创建文档-词条矩阵&/p&&p&dtm &- DocumentTermMatrix(x = text_corpus, control = list(wordLengths = c(2,Inf)))&/p&&p&dtm&/p&&figure&&img src=&/v2-f0a9b09f859f66e15400fb99bbc255ea_b.png& data-rawwidth=&606& data-rawheight=&217& class=&origin_image zh-lightbox-thumb& width=&606& data-original=&/v2-f0a9b09f859f66e15400fb99bbc255ea_r.png&&&/figure&&br&&br&&p&从图中可知,文档-词条矩阵包含了76行和7939列,行代表76条新闻,列代表7939个词;该矩阵实际上为稀疏矩阵,其中矩阵中非0元素有11655个,而0元素有591709,稀疏率达到98%;最后,这7939个词中,最频繁的一个词出现在了49条新闻中。&br&&/p&&br&&p&由于稀疏矩阵的稀疏率过高,这里将剔除一些出现频次极地的词语。&/p&&p&#去除稀疏矩阵中的词条&/p&&p&dtm &- removeSparseTerms(x = dtm, sparse = 0.9)&/p&&p&dtm&/p&&figure&&img src=&/v2-d2bc64cd660af8b86b81c2_b.png& data-rawwidth=&617& data-rawheight=&137& class=&origin_image zh-lightbox-thumb& width=&617& data-original=&/v2-d2bc64cd660af8b86b81c2_r.png&&&/figure&&br&&br&&p&这样一来,矩阵中列大幅减少,当前矩阵只包含了116列,即116个词语。&/p&&p&为了便于进一步的统计建模,需要将矩阵转换为数据框格式。&/p&&p&#将矩阵转换为数据框格式&/p&&p&df &- as.data.frame(inspect(dtm))&/p&&p&#查看数据框的前6行(部分)&/p&&p&head(df)&/p&&figure&&img src=&/v2-ae0edcb57f99d5e57b4ed7d_b.png& data-rawwidth=&600& data-rawheight=&305& class=&origin_image zh-lightbox-thumb& width=&600& data-original=&/v2-ae0edcb57f99d5e57b4ed7d_r.png&&&/figure&&br&&br&&p&&strong&统计建模:聚类分析&/strong&&/p&&p&聚类分析是文本挖掘的基本应用,常用的聚类算法包括层次聚类法、划分聚类法、EM聚类法和密度聚类法。相关算法的应用可参考如下几篇文章:&/p&&p&&a href=&/?target=http%3A//mp./s%3F__biz%3DMzIxNjA2ODUzNg%3D%3D%26mid%3Didx%3D1%26sn%3Dee418d07f454df2cb7d0%26scene%3D21%23wechat_redirect& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&基于R语言的数据挖掘之聚类算法--划分方法&i class=&icon-external&&&/i&&/a&&br&&/p&&p&&a href=&/?target=http%3A//mp./s%3F__biz%3DMzIxNjA2ODUzNg%3D%3D%26mid%3Didx%3D1%26sn%3Dad508fbd8f%26scene%3D21%23wechat_redirect& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&基于R语言的数据挖掘之聚类算法--层次方法&i class=&icon-external&&&/i&&/a&&br&&/p&&p&&a href=&/?target=http%3A//mp./s%3F__biz%3DMzIxNjA2ODUzNg%3D%3D%26mid%3Didx%3D1%26sn%3Db103aaf331f1b677eca02051%26scene%3D21%23wechat_redirect& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&基于R语言的数据挖掘之聚类算法--基于密度方法&i class=&icon-external&&&/i&&/a&&br&&/p&&p&&a href=&/?target=http%3A//mp./s%3F__biz%3DMzIxNjA2ODUzNg%3D%3D%26mid%3Didx%3D1%26sn%3D069f4b9cd09a815f0f5c3ef861a77a55%26scene%3D21%23wechat_redirect& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&聚类之EM算法&i class=&icon-external&&&/i&&/a&&br&&/p&&figure&&img src=&/v2-03f4c34eb155cdc63be5c0cc183cdc83_b.png& data-rawwidth=&638& data-rawheight=&258& class=&origin_image zh-lightbox-thumb& width=&638& data-original=&/v2-03f4c34eb155cdc63be5c0cc183cdc83_r.png&&&/figure&&br&&p&这里使用层次聚类中的McQuitty相似分析法实现新闻的聚类。&br&&/p&&p&#计算距离&/p&&p&d &- dist(df)&/p&&p&#层次聚类法之McQuitty相似分析法&/p&&p&fit1 &- hclust(d = d, method = 'mcquitty')&/p&&p&plot(fit1)&/p&&p&rect.hclust(tree = fit1, k = 7, border = 'red')&/p&&br&&p&这里的McQuitty层次聚类法效果不理想,类与类之间分布相当不平衡,我想可能存在三种原因:&/p&&p&1)文章的主干关键词出现频次不够,使得文章没能反映某种主题;&/p&&p&2)分词过程中没有剔除对建模不利的干扰词,如中国、美国、公司、市场、记者等词语;&/p&&p&3)没能够准确分割某些常用词,如黄金周。&/p&&p&&strong&总结&/strong&&/p&&p&所以在实际的文本挖掘过程中,最为困难和耗费时间的就是分词部分,既要准确分词,又要剔除无意义的词语,这对文本挖掘者是一种挑战。&/p&&p&文中数据和脚本可至如下链接下载:&/p&&p&&a href=&/?target=http%3A///cupyBj9xTkHe7& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&360云盘 - 云盘分享&i class=&icon-external&&&/i&&/a& 访问密码 a88b&/p&&p&学习与分享,取长补短&/p&&p&欢迎关注博客:&a href=&/?target=https%3A///blog/lsxxx2011& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&每天进步一点点2015&i class=&icon-external&&&/i&&/a&&/p&&p&公众号:每天进步一点点2015&/p&&b&最近很多人私信问我问题,平常知乎评论看到不多,如果没有及时回复,大家也可以加小编微信:tszhihu,进知乎大数据分析挖掘交流群,可以跟各位老师互相交流。谢谢。&/b&
一、文本挖掘定义 文本挖掘指的是从文本数据中获取有价值的信息和知识,它是数据挖掘中的一种方法。文本挖掘中最重要最基本的应用是实现文本的分类和聚类,前者是有监督的挖掘算法,后者是无监督的挖掘算法。二、文本挖掘步骤1)读取数据库或本地外部文本文…
&figure&&img src=&/50/v2-1e2c850a2ec6ca159e1c3e_b.jpg& data-rawwidth=&681& data-rawheight=&374& class=&origin_image zh-lightbox-thumb& width=&681& data-original=&/50/v2-1e2c850a2ec6ca159e1c3e_r.jpg&&&/figure&&p&如果您对某个QQ聊天群感兴趣,并想了解某段时间内大家都聊了什么话题?或者是群里哪些人最活跃?或者这些群员都在哪些时间段比较活跃?本文将教你用R实现这些问题的回答。&br&&/p&&br&&p&&strong&一、下载QQ群聊天记录&/strong&&/p&&p&如果您还不知道如何下载某个QQ群的聊天记录,您可以参考下文链接:&/p&&p&&a href=&/?target=http%3A///article/a3a3f811f5aac5.html& class=& external& target=&_blank& rel=&nofollow noreferrer&&&span class=&invisible&&http://&/span&&span class=&visible&&/artic&/span&&span class=&invisible&&le/a3a3f811f5aac5.html&/span&&span class=&ellipsis&&&/span&&i class=&icon-external&&&/i&&/a&&/p&&br&&p&&strong&二、聊天记录格式化&/strong&&/p&&p&您下载下来的聊天记录是这样的格式:&/p&&figure&&img src=&/v2-a12f2c9e36c7dd5b9b63f7a3_b.png& data-rawwidth=&680& data-rawheight=&455& class=&origin_image zh-lightbox-thumb& width=&680& data-original=&/v2-a12f2c9e36c7dd5b9b63f7a3_r.png&&&/figure&&br&&p&&strong&如何将这样的文本记录转换为二维表格式呢?即一张表中包含用户名、说话时间和说话内容三列。&/strong&&/p&&br&&p&&strong&如下是我的R脚本实现聊天记录的格式化:&/strong&&/p&&p&&strong&#定义数据框和变量&/strong&&/p&&p&data &- data.frame(user_name = c(), datetime = c(), text = c())&/p&&p&user_name &- character()&/p&&p&datetime &- character()&/p&&p&text &- character()&/p&&p&&strong&#开始遍历整个文本,取出三列数据&/strong&&/p&&p&for(i in 5:length(file_data)){&/p&&p&dt_pattern &- regexpr('[0-9]{4}-[0-9]{2}-[0-9]{2} [0-9]+:[0-9]+:[0-9]+',file_data[i])&/p&&p&if(dt_pattern == 1) {&/p&&p&user_begin &- dt_pattern+attr(dt_pattern,'match.length') + 1&/p&&p&user_end &- nchar(file_data[i])&/p&&p&user_name &- substring(file_data[i],user_begin,user_end)&/p&&p&dt_begin &- dt_pattern&/p&&p&dt_end &- dt_pattern+attr(dt_pattern,'match.length')-1&/p&&p&datetime &- substring(file_data[i],dt_begin,dt_end)&/p&&p&text &- file_data[i+1]&/p&&p&data &- rbind(data, data.frame(Name = user_name,datetime = datetime,text = text))&/p&&p&}&/p&&p&}&/p&&p&&strong&#字段类型转换&/strong&&/p&&p&data$user_name &- as.character(data$Name)&/p&&p&data$text &- as.character(data$text)&/p&&p&data$datetime &- as.POSIXlt(data$datetime)&/p&&p&&strong&#取出时间戳(datetime)的年、月、日、时、分、秒部分&/strong&&/p&&p&data &- transform(data,&/p&&p&year = datetime$year+1900,&/p&&p&month = datetime$mon+1,&/p&&p&day = datetime$mday,&/p&&p&hour = datetime$hour,&/p&&p&min = datetime$min,&/p&&p&sec = datetime$sec)&/p&&p&data$datetime &- as.character(data$datetime)&/p&&br&&p&结构化的数据格式如下:&/p&&figure&&img src=&/v2-597b803de85a9d3f776872_b.png& data-rawwidth=&653& data-rawheight=&129& class=&origin_image zh-lightbox-thumb& width=&653& data-original=&/v2-597b803de85a9d3f776872_r.png&&&/figure&&br&&br&&p&&strong&三、绘图&/strong&&/p&&p&&strong&绘图主题一:群中哪些天最热闹&/strong&&/p&&p&统计每月每天总的聊天次数&/p&&p&library(sqldf)&/p&&p&my.data1 &- sqldf('select month,day,count(*) Freq from data&/p&&p&group by month,day')&/p&&p&首先来一张热图,图中反映了哪月哪些天群里最热闹&/p&&p&library(ggplot2)&/p&&p&p1 &- ggplot(data = my.data1, mapping = aes(x = factor(day), y = factor(month), fill = Freq))&/p&&p&p1 &- p1 + geom_tile() + scale_fill_gradient(low = 'steelblue', high = 'darkred')&/p&&br&&p&p1&/p&&figure&&img src=&/v2-c4b6b7f875bb5426695ffe6c4c633ae8_b.png& data-rawwidth=&661& data-rawheight=&383& class=&origin_image zh-lightbox-thumb& width=&661& data-original=&/v2-c4b6b7f875bb5426695ffe6c4c633ae8_r.png&&&/figure&&br&&br&&p&&strong&绘图主题二:群中哪些人最活跃&/strong&&/p&&p&&strong&#每个用户的说话频次&/strong&&/p&&p&df &- as.data.frame(table(data$Name)&/p&&p&&strong&#这里挑出发言量前10的群员&/strong&&/p&&p&top10 &- df[order(df$Freq, decreasing = TRUE),][1:10,]&/p&&p&))&br&&/p&&p&&strong&#绘制没有排序的条形图&/strong&&/p&&p&p2 &- ggplot(data = top10, mapping = aes(x = Name, weight = Freq, fill = Name)) + xlab(NULL) + ylab(NULL)&/p&&p&p2 &- p2 + geom_bar() + coord_flip() #+ scale_fill_manual(values = rainbow(10), guide = FALSE)&/p&&p&p2&/p&&figure&&img src=&/v2-17aa1b3e1724_b.png& data-rawwidth=&659& data-rawheight=&394& class=&origin_image zh-lightbox-thumb& width=&659& data-original=&/v2-17aa1b3e1724_r.png&&&/figure&&br&&p&&strong&#绘制排序的条形图&/strong&&/p&&p&p3 &- ggplot(data = top10)+ xlab(NULL) + ylab(NULL)&/p&&p&p3 &- p3 + geom_bar(aes(x = reorder(Name, Freq), y = Freq, fill = Name), stat=&identity&) + coord_flip()&/p&&p&p3&/p&&figure&&img src=&/v2-2e876ee51d355bb9ad8cc3e2_b.png& data-rawwidth=&660& data-rawheight=&410& class=&origin_image zh-lightbox-thumb& width=&660& data-original=&/v2-2e876ee51d355bb9ad8cc3e2_r.png&&&/figure&&br&&br&&p&&strong&绘图主题三:这群活跃的人都喜欢什么时候发言&/strong&&/p&&p&&strong&#读取10人的发言汇总信息&/strong&&br&&/p&&p&my.data3 &- sqldf('select Name,hour,count(*) Freq from data where Name in (select Name from top10) group by Name,hour')&/p&&p&Encoding(my.data3$Name) &- 'UTF-8'&/p&&p&&strong&#绘制面积图&/strong&&br&&/p&&p&p4 &- ggplot(data = my.data3, mapping = aes(x = hour, y = Freq, fill = Name))&/p&&p&p4 &- p4 + geom_area() + facet_wrap(~Name) + scale_fill_manual(values = rainbow(10), guide = FALSE)&/p&&p&p4&/p&&figure&&img src=&/v2-a694d73a68c3b58372b0bbe4c0c041ed_b.png& data-rawwidth=&655& data-rawheight=&405& class=&origin_image zh-lightbox-thumb& width=&655& data-original=&/v2-a694d73a68c3b58372b0bbe4c0c041ed_r.png&&&/figure&&br&&p&&strong&绘图主题四:这段时间内,大家都聊了什么?&/strong&&/p&&p&&strong&#分词&/strong&&/p&&p&library(Rwordseg)&/p&&p&library(tmcn)&/p&&p&library(tm)&/p&&p&&strong&#读入自定义的停止词&/strong&&/p&&p&my.stopwords &- readLines('stopwords.txt', encoding = 'UTF-8')&/p&&p&&strong&#添加自定义词汇&/strong&&/p&&p&insertWords(c('顺丰','外卖','快递','娜娜','丽娜','9楼','10楼','小李','帐号','it','IT','客服','楼下','门禁'))&/p&&p&&strong&#根据分词结果再一次添加自定义停止词&/strong&&/p&&p&my.stopwords &- c(my.stopwords, '下','人','图片','表情','号','好','请','录','机','群')&/p&&p&segwd1 &- unlist(segmentCN(strwords = data$text))&/p&&p&Encoding(segwd1) &- 'UTF-8'&/p&&p&&strong&#剔除停止词&/strong&&/p&&p&segwd2 &- segwd1[which((segwd1 %in% my.stopwords) == FALSE)]&/p&&p&&strong&#分词后的词语频率汇总&/strong&&/p&&p&wdfreq &- as.data.frame(table(segwd2))&/p&&p&&strong&#排列语频顺序&/strong&&/p&&p&wdfreq &- arrange(df = wdfreq, Freq, decreasing = TRUE)&/p&&p&&strong&#取出前50的词频&/strong&&/p&&p&wdfreq &- wdfreq[1:50,]&/p&&p&前50的词频格式如下图所示(图中记录了每个词语的出现频次):&/p&&figure&&img src=&/v2-cb13df06ab8cb08fcd7fc8_b.png& data-rawwidth=&646& data-rawheight=&278& class=&origin_image zh-lightbox-thumb& width=&646& data-original=&/v2-cb13df06ab8cb08fcd7fc8_r.png&&&/figure&&br&&br&&p&&strong&#绘制文字云&/strong&&/p&&p&library(wordcloud)&/p&&p&par(bg = 'black')&/p&&br&&p&wordcloud(words = wdfreq$segwd2, freq = wdfreq$Freq, random.color=TRUE, colors=rainbow(10))&/p&&br&&figure&&img src=&/v2-fc50a5ca56966ecbacf019_b.png& data-rawwidth=&666& data-rawheight=&418& class=&origin_image zh-lightbox-thumb& width=&666& data-original=&/v2-fc50a5ca56966ecbacf019_r.png&&&/figure&&br&&p&&strong&参考资料&/strong&&/p&&p&&strong&&a href=&/?target=http%3A///a2964354/& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&手把手:R语言文本挖掘和词云可视化实践 - 今日头条()&i class=&icon-external&&&/i&&/a&&/strong&&/p&&p&&strong&R语言与网站分析&/strong&&/p&&br&&p&&strong&总结:文中涉及到的R包和函数&/strong&&/p&&p&&strong&stats包&br&&/strong&&/p&&p&&strong&regexpr()&/strong&&/p&&p&&strong&substring()&/strong&&/p&&p&&strong&rbind()&/strong&&/p&&p&&strong&transform()&/strong&&/p&&p&&strong&table()&br&&/strong&&/p&&p&&strong&%in%&/strong&&/p&&p&&strong&sqldf包&br&&/strong&&/p&&p&&strong&sqldf()&/strong&&/p&&p&&strong&plyr包&/strong&&/p&&p&&strong&arrange()&/strong&&/p&&p&&strong&ggplot2包&br&&/strong&&/p&&p&&strong&ggplot()&/strong&&/p&&p&&strong&geom_tile()&/strong&&/p&&p&&strong&scale_fill_gradient()&/strong&&/p&&p&&strong&geom_bar()&/strong&&/p&&p&&strong&geom_area()&/strong&&/p&&p&&strong&facet_wrap()&/strong&&/p&&p&&strong&scale_fill_manual()&/strong&&/p&&p&&strong&Rwordseg包&/strong&&/p&&p&&strong&tm包&/strong&&/p&&p&&strong&insertWords()&/strong&&/p&&p&&strong&segmentCN()&/strong&&/p&&p&&strong&wordcloud包&/strong&&/p&&p&&strong&wordcloud()&/strong&&/p&&br&&p&&strong&----------------------------------------------------&/strong&&/p&&br&&p&作者:刘顺祥&/p&&p&博客专栏:&a href=&/?target=https%3A///blog/lsxxx2011& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&每天进步一点点2015 &i class=&icon-external&&&/i&&/a&&/p&&p&公众号:每天进步一点点2015&/p&&p&&b&最近很多人私信问我问题,平常知乎评论看到不多,如果没有及时回复,大家也可以加小编微信:tszhihu,进知乎大数据分析挖掘交流群,可以跟各位老师互相交流。谢谢。&/b&&/p&
如果您对某个QQ聊天群感兴趣,并想了解某段时间内大家都聊了什么话题?或者是群里哪些人最活跃?或者这些群员都在哪些时间段比较活跃?本文将教你用R实现这些问题的回答。 一、下载QQ群聊天记录如果您还不知道如何下载某个QQ群的聊天记录,您可以参考下文链…
&figure&&img src=&/50/v2-6eacc32afa6dc875_b.png& data-rawwidth=&824& data-rawheight=&574& class=&origin_image zh-lightbox-thumb& width=&824& data-original=&/50/v2-6eacc32afa6dc875_r.png&&&/figure&&h3&1 浅谈数据科学&br&&/h3&&p&&strong&数据科学(Data Science)&/strong&这一概念自大数据崛起也随之成为数据领域的讨论热点,从去年开始,“数据科学家”便成为了一个工作职位出现在各种招聘信息上。那么究竟什么是数据科学?大数据和数据科学又是什么关系?大数据在数据科学中起到怎样的作用?本文主要是想起到科普作用,使即将或正在从事数据工作的朋友对数据科学工作有一个全概貌了解,也使各有想法进入大数据领域的朋友在真正从事大数据工作之前对行业的情况有所知晓。数据科学是一个混合交叉学科(如下图所示),要完整的成为一个数据科学家,就需要具备较好的&strong&数学&/strong&和&strong&计算机知识&/strong&,以及某一个&strong&专业领域的知识&/strong&。所做的工作都是围绕数据打转转,在数据量爆发之后,大数据被看做是数据科学中的一个分支。&/p&&figure&&img src=&/v2-2df05f31954_b.png& data-rawwidth=&1024& data-rawheight=&994& class=&origin_image zh-lightbox-thumb& width=&1024& data-original=&/v2-2df05f31954_r.png&&&/figure&&h3&2 浅谈大数据&/h3&&p&&strong&大数据(Big Data)&/strong&其实已经兴起好些年了,只是随着无处不在的传感器、无处不在的数据埋点,获取数据变得越来越容易、量越来越大、内容越来越多样化,于是原来传统的数据领域不得不思考重新换一个平台可以处理和使用逐渐庞大数据量的新平台。用以下两点进一步阐述:&/p&&ul&&li&吴军博士提出的一个观点:现有产业+新技术=新产业,大数据也符合这个原则,只是催生出来的不仅仅是一个新产业,而是一个完整的产业链:原有的数据领域+新的大数据技术=大数据产业链;&/li&&li&数据使用的范围,原来的数据应用主要是从现有数据中的数据中进行采样,再做数据挖掘和分析,发掘出数据中的潜在规则用以预测或决策,然而采样始终会舍弃一部分数据,即会丢失一部分潜在规则和价值,随着数据量和内容的不断累积,企业越来越重视在数据应用时可以使用全量数据,可以尽可能的覆盖所有潜在规则从而发掘出可能想到或从未想到的价值。&/li&&/ul&&p&在我学习和从事大数据相关工作的4年里,在我有限的知识海洋里,大数据是一个以数据流向为主的链条或管道,数据从何而来,又去往哪里,不仅是哲学上的一个问题,也可以在做数据工作的时候考虑这个问题。如下图所示,大数据领域可以分为以下几个主要方向,而这几个方向又可以分别对应一些工作职位:&/p&&br&&figure&&img src=&/v2-6eacc32afa6dc875_b.png& data-rawwidth=&824& data-rawheight=&574& class=&origin_image zh-lightbox-thumb& width=&824& data-original=&/v2-6eacc32afa6dc875_r.png&&&/figure&&h4&1 数据平台&/h4&&p&Data Platform,构建、维护稳定、安全的大数据平台,按需设计大数据架构,调研选型大数据技术产品、方案,实施部署上线。对于大数据领域涉及到的大多数技术都需要求有所了解,并精通给一部分,具备分布式系统的只是背景……&/p&&blockquote&&p&对应职位:大数据架构师,数据平台工程师&/p&&/blockquote&&h4&2 数据采集&/h4&&p&Data Collecting,从Web/Sensor/RDBMS等渠道获取数据,为大数据平台提供数据来源,如Apache Nutch是开源的分布式数据采集组件,大家熟知的Python爬虫框架ScraPy等。&/p&&blockquote&&p&对应职位:爬虫工程师,数据采集工程师&/p&&/blockquote&&h4&3 数据仓库&/h4&&p&Data Warehouse,有点类似于传统的数据仓库工作内容:设计数仓层级结构、ETL、进行数据建模,但基于的平台不一样,在大数据时代,数据仓库大多基于大数据技术实现,例如Hive就是基于Hadoop的数据仓库。&/p&&blockquote&&p&对应职位:ETL工程师,数据仓库工程师&/p&&/blockquote&&h4&4 数据处理&/h4&&p&Data Processing,完成某些特定需求中的处理或数据清洗,在小团队中是结合在数据仓库中一起做的,以前做ETL或许是利用工具直接配置处理一些过滤项,写代码部分会比较少,如今在大数据平台上做数据处理可以利用更多的代码方式做更多样化的处理,所需技术有Hive、Hadoop、Spark等。BTW,千万不要小看数据处理,后续的数据分析、数据挖掘等工作都是基于数据处理的质量,可以说数据处理在整个流程中有特别重要的位置。&/p&&blockquote&&p&对应职位:Hadoop工程师,Spark工程师&/p&&/blockquote&&h4&5 数据分析&/h4&&p&Data Analysis,基于统计分析方法做数据分析:例如回归分析、方差分析等,天善也有很多&a href=&/?target=https%3A///course/explore%3Fc2%3D37& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&数据分析课程&i class=&icon-external&&&/i&&/a&。大数据分析例如Ad-Hoc交互式分析、SQL on Hadoop的技术有:Hive 、Impala、Presto、Spark SQL,支持OLAP的技术有:Kylin。&/p&&blockquote&&p&对应职位:数据分析师&/p&&/blockquote&&h4&6 数据挖掘&/h4&&p&Data Mining,是一个比较宽泛的概念,可以直接理解为从大量数据中发现有用的信息。大数据中的数据挖掘,主要是设计并在大数据平台上实现数据挖掘算法:分类算法、聚类算法、关联分析等。&/p&&blockquote&&p&对应职位:数据挖掘工程师&/p&&/blockquote&&h4&7 机器学习&/h4&&p&Machine Learning,与数据挖掘经常一起讨论,甚至被认为是同一事物。机器学习是一个计算机与统计学交叉的学科,基本目标是学习一个x-&y的函数(映射),来做分类或者回归的工作。之所以经常和数据挖掘合在一起讲是因为现在好多数据挖掘的工作是通过机器学习提供的算法工具实现的,例如个性化推荐,是通过机器学习的一些算法分析平台上的各种购买,浏览和收藏日志,得到一个推荐模型,来预测你喜欢的商品。&/p&&blockquote&&p&对应职位:算法工程师,研究员&/p&&/blockquote&&h4&8 深度学习&/h4&&p&Deep Learning,是机器学习里面的一个topic(非常火的Topic),从深度学习的内容来看其本身是神经网络算法的衍生,在图像、语音、自然语言等分类和识别上取得了非常好的效果,大部分的工作是在&strong&调参&/strong&。不知道大家有否发现现在的Google 翻译比以前的要准确很多,因为Google在去年底将其Google 翻译的核心从原来基于统计的方法换成了基于神经网络的方法~So~&/p&&blockquote&&p&对应职位:算法工程师,研究员&/p&&/blockquote&&h4&9 数据可视化&/h4&&p&Data Visualization,将分析、挖掘后的高价值数据用比较优美、灵活的方式展现在老板、客户、用户面前,更多的是一些前端的东西,maybe要求一定的美学知识。结合使用者的喜好,以最恰当的方式呈现数据价值。&/p&&blockquote&&p&对应职位:数据工程师,BI工程师&/p&&/blockquote&&h4&10 数据应用&/h4&&p&Data Application,从以上的每个部分可以衍生出的应用,例如广告精准投放、个性化推荐、用户画像等。&/p&&blockquote&&p&对应职位:数据工程师&/p&&/blockquote&&br&&p&&strong&建议:&/strong&想进入大数据领域的朋友可以选一个与自己现有技术背景相匹配的方向作为入门,然后将你的魔爪延伸到其他感兴趣的方向,这是最快进入这个领域的一个方法。这里所列的每一个方向都需要耗费大量的时间、脑力、体力,都是这个智能时代继续发展的过程中不可或缺的一部分。&/p&&br&&p&所谈部分限于本人水平,欢迎大家砸砖交流。&/p&&br&&br&&p&------------------------------------------------------------------&/p&&br&&p&作者:Mars&/p&&p&大数据系列免费视频教程 【Linux、Hadoop、Spark、Kylin、Hive、HBase、Sqoop、日志分析等】 &a href=&/?target=https%3A///course/93& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&大数据系列免费视频教程 【Linux、Hadoop、Spark、Kylin、Hive、HBase、Sqoop、日志分析等】&i class=&icon-external&&&/i&&/a&&/p&&p&&b&最近很多人私信问我问题,平常知乎评论看到不多,如果没有及时回复,大家也可以加小编微信:tszhihu,进知乎大数据分析挖掘交流群,可以跟各位老师互相交流。谢谢。&/b&&/p&
1 浅谈数据科学 数据科学(Data Science)这一概念自大数据崛起也随之成为数据领域的讨论热点,从去年开始,“数据科学家”便成为了一个工作职位出现在各种招聘信息上。那么究竟什么是数据科学?大数据和数据科学又是什么关系?大数据在数据科学中起到怎样…
&figure&&img src=&/50/v2-4fda2e1a_b.jpg& data-rawwidth=&625& data-rawheight=&344& class=&origin_image zh-lightbox-thumb& width=&625& data-original=&/50/v2-4fda2e1a_r.jpg&&&/figure&&p&&strong&开篇语&/strong&&/p&&p&看过不少讲解大数据思维的文章,文章的一些观点能够带给我很多的启发,很有见地也很受用。在跟一些企业的负责人聊起大数据项目规划和建设的时候,&strong&发现大家对大数据并不缺少自己的认识和看法,只是这些认识和看法没有被系统性的组织起来,形成一个比较有深度的思考问题、解决问题的套路。&/strong&&/p&&p&这篇文章结合我在和一些朋友沟通过程中看到的一些问题,将大数据思维和价值做了一些聚焦和分解。&strong&我来抛砖引玉,希望这篇文章能够让大家从另外的一个角度去了解和思考一下到底什么是大数据思维和价值。&/strong&&/p&&p&&strong&这篇文章适合企业高层、即将或者正在规划大数据项目、思考如何对大数据进行顶层设计、大数据项目管理人员一读&/strong&。作为补充,我在此也推荐几篇文章以丰富大家思考问题的维度(角度):&/p&&p&【案例篇】&a href=&/p/& class=&internal&&深入解读民生银行阿拉丁大数据生态圈如何养成&/a&&/p&&p&【案例篇】&a href=&/p/& class=&internal&&大数据如何聚焦业务价值,美的大数据建设的启发&/a&&/p&&blockquote&&p&本文作者:吕品 天善智能联合创始人,本文整理自 日 美云智数新品发布会 - 数据云论坛吕品的演讲&/p&&/blockquote&&figure&&img src=&/v2-d0d0af41fda8bedd14d27f_b.jpg& data-rawwidth=&2553& data-rawheight=&1436& class=&origin_image zh-lightbox-thumb& width=&2553& data-original=&/v2-d0d0af41fda8bedd14d27f_r.jpg&&&/figure&&br&&p&&strong&人人必谈大数据&/strong&&br&&/p&&p&说到大数据,大家并不陌生,从各种自媒体、线上线下沙龙,包括生活中大家经常提起。早在 2010 年之前,国内的很多互联网公司都已经在处理 “大数据”,只不过那时对大数据还没有一个清晰的定义。2013 年起,我们注意到在国内大数据这个词开始火了,火到什么程度? 举个例子:我每次回家,家里的亲人朋友都在问我是做什么的,我说我们是搞商业智能 BI 的,基本上听不懂。什么把数据变为信息、信息产生决策,什么 ETL、报表,几乎是懵圈的。后来提了一句,我们有一个技术网站,里面都是玩数据的,比如大数据、数据分析、数据挖掘...。&strong&“大数据啊!大数据我知道!”&/strong&,我问什么是大数据,回答很简洁干脆:&strong&“大数据就是数据大呗!”&/strong&。&/p&&p&其实这种理解不能说错,只能说不全面,但是从某种角度上来说大数据还是比较深入人心的,“大数据”这三个字起到了一个很好的名词普及作用,至少不会像商业智能 BI 那样很难用一句或者几句话让大家有个哪怕是很基础的概念。&br&&/p&&p&&strong&大数据 4V&/strong&&/p&&figure&&img src=&/v2-44780ebebfcb27ff8b293d17a66bb93b_b.jpg& data-rawwidth=&2553& data-rawheight=&1436& class=&origin_image zh-lightbox-thumb& width=&2553& data-original=&/v2-44780ebebfcb27ff8b293d17a66bb93b_r.jpg&&&/figure&&br&&p&我们经常提到的大数据四大特征:4个V&/p&&ul&&li&&p&&strong&Volume 数据容量大:&/strong&数据量从 GB 到 TB 到 PB 或以上的级别。&/p&&/li&&li&&p&&strong&Variety 数据类型多:&/strong&企业在解决好内部数据之后,开始向外部数据扩充。同时,从以往处理结构化的数据到现在需要处理大量非结构化的数据。社交网络数据采集分析、各种日志文本、视频图片等等。&/p&&/li&&li&&p&&strong&Value 价值高,密度低:&/strong&数据总量很大,但真正有价值的数据可能只有那么一部分,有价值的数据所占比例很小。&strong&就需要通过从大量不相关的、各种类型的数据中去挖掘对未来趋势和模型预测分析有价值的数据,发现新的规律和新的价值。&/strong&&/p&&/li&&li&&p&&strong&Velocity 快速化:&/strong&数据需要快速处理和分析。2010年前后做过一个美国医疗保险的数据迁移项目,有一个 ETL 需要处理该公司几十年的历史文件和历史数据,文件数据量很大,并且逻辑非常复杂,一个流程几十个包,一趟下来 35 个小时执行完毕。这种情形如果放在现在的互联网比如电商平台很显然是不允许的。比如像电商促销、或者要打促销价格战,实时处理传统的 BI 是无法完成的。&strong&对有这种实时处理实时分析要求的企业来说,数据就是金钱,时间就是生命。&/strong&&/p&&/li&&/ul&&p&我相信上面提到的大数据的四个 V、核心特征还是比较容易理解的。如果我们不是站在技术层面去聊的话,大家对大数据或多或少都会有一些比较接近和类似的看法,并且在理解和认识上基本也不会有太大的偏差。&figure&&img src=&/v2-0b5bd34094e4bdea2c24_b.jpg& data-rawwidth=&2553& data-rawheight=&1436& class=&origin_image zh-lightbox-thumb& width=&2553& data-original=&/v2-0b5bd34094e4bdea2c24_r.jpg&&&/figure&&/p&&p&但是当我们谈到大数据,大家真正关心的问题在哪里呢? 从技术角度大家可能关心的是大数据的架构、大数据处理用到了什么样的技术。&strong&但是站在一个企业层面,特别是在着手考察或者规划大数据项目建设的负责人、企业高层来说,更多关心的应该是下面这几个问题:&/strong&&/p&&p&&strong&1. 大数据到底能帮我们企业做什么,或者说能够带给我们企业什么变化。&/strong&上了大数据对我们有什么用,会有什么样的改变,是经营成本下降、还是帮我们把产品卖的更多?&/p&&p&&strong&2. 我们的企业现在能不能上大数据?如果不能上大数据,为什么,那又需要怎么做?&/strong&&/p&&p&&strong&3. 我们企业也想跟随潮流上大数据,问题是要怎么做。&/strong&需要准备什么,关于投入、人才、还缺什么、需要用到什么样的技术?&/p&&p&&strong&4. 我们怎么验证这个大数据项目是成功还是失败,我们判断的标准是什么?&/strong&&/p&&p&我相信这些问题都是大家比较关心的一些点,包括我自己。我们目前还是以 BI 分析为主,但我们也会去爬一些外部的数据,后面也在规划大数据相关的一些项目和开发。&/p&&p&当然大数据这个话题是非常大的,我们很难从一个或者两个角度把这些问题回答的非常全面。但是我觉得有一点是我们的企业高层或者决策者可以注意的:&strong&在规划和考虑大数据的时候需要具备一定的大数据思维,或者说是面对大数据时我们所要具备的考虑问题和看问题的角度。&/strong&&/p&&h1&&strong&大数据思维方式&/strong&&/h1&&p&大数据思维方式我简单概括为两个方面:&strong&第一个是以数据为核心、数据驱动的思维方式。第二个是业务核心,业务场景化的思维方式。&figure&&img src=&/v2-50b4afb972a404cc2f7632dcb48ff2e0_b.jpg& data-rawwidth=&2553& data-rawheight=&1436& class=&origin_image zh-lightbox-thumb& width=&2553& data-original=&/v2-50b4afb972a404cc2f7632dcb48ff2e0_r.jpg&&&/figure&&/strong&&/p&&p&以数据为核心、数据驱动的思维方式包含这几个方面:&/p&&figure&&img src=&/v2-7025dfc2bd662ef7ca0d3b6_b.jpg& data-rawwidth=&2553& data-rawheight=&1436& class=&origin_image zh-lightbox-thumb& width=&2553& data-original=&/v2-7025dfc2bd662ef7ca0d3b6_r.jpg&&&/figure&&br&&p&&strong&1. 尽可能完善自己的数据资源。&/strong&我们手上握有什么样的数据资源,我们数据资源的质量如何?&br&&/p&&p&企业需要关注和梳理我们有什么样的数据,以前是关注企业的流程,IT的流程、业务流程再造。现在大多数企业这些 IT 基础和应用的建设都已经完成了,更加关心的应该是在我们的企业里到底握有什么样的数据资源,在不同的行业我们的数据主题是不一样的。&/p&&p&比如电商零售行业,我们考虑更多的可能是消费数据、涉及到用户、产品、消费记录。因为我们可以围绕这些数据比如做用户画像、精准营销、定制化的产品、产品的市场定位分析等等。&/p&&p&比如制造生产行业,我们涉及更多的数据可能是产品本身、我们的生产流程、供应商等。因为我们可以围绕这些数据比如做我们的生产质量检查、降低生产成本、工艺流程再造等。&figure&&img src=&/v2-282eac774a9466ddffcc3e_b.jpg& data-rawwidth=&2553& data-rawheight=&1436& class=&origin_image zh-lightbox-thumb& width=&2553& data-original=&/v2-282eac774a9466ddffcc3e_r.jpg&&&/figure&&br&&/p&&p&&strong&只有了解我们目前自身的数据资源,才能知道我们还缺少哪些数据资源。&/strong&&strong&而这些缺少的数据资源从哪里来,如何获得,就是我们在规划大数据项目的时候是需要解决的。&/strong&如果缺乏这种意识,等在规划和上大数据项目的时候你的大数据资源非常有限的。&/p&&p&&strong&2. 增加数据触点、尽可能多的去收集数据,增加数据收集和采集渠道。&/strong&大数据的建设和大数据分析它是一个迭代的过程,很多的分析场景都是在不断的探索中找出来的,它有一定的不确定性。正是因为这种不确定性所以才需要我们尽可能收集更多的数据。&br&&/p&&p&现在是移动互联网时代,人人都是数据的生产者和制造者。比如每天的社交数据、互联网点击网络的数据、刷卡消费的数据、电信运营、互联网运营数据。像我们的制造和生产行业,有自动化的传感器、生产流水线、自动设施的数据等。有些数据放在以前可能不值钱,但是现在看呢?这些数据现在或者在将来的某一天就会变得很有价值。&figure&&img src=&/v2-ab8b23eba32cc5d7cd3d82_b.jpg& data-rawwidth=&2553& data-rawheight=&1436& class=&origin_image zh-lightbox-thumb& width=&2553& data-original=&/v2-ab8b23eba32cc5d7cd3d82_r.jpg&&&/figure&&/p&&p&比如像我最开始提到的那家美国医疗保险公司,我看过他们的 COBOL 代码注释都有是七几年、八几年前的。他们积累了几十年的数据,突然在 2010 年前后开始意识到数据的价值了,开始通过数据进行一些变现了。之前知道这些数据的价值吗?不知道,但是尝试到数据的甜头,比如做自己的数据分析,咨询机构购买一些脱敏的数据,或者给咨询机构提供数据做市场研究用途。&/p&&p&所以大数据的构建不会是一天两天的,这个过程会持续很长的时间,我们需要为将来做准备。所以如果你的公司连个最简单的业务系统,IT 应用系统都没有,数据连存放的地方都没有,怎么能够上大数据呢?不合理。&/p&&p&&strong&数据越多,数据种类越丰富,我们观察数据的角度维度就越丰富,我们利用大数据从中就能够发掘出以前更多没有看到的东西。&/strong&&/p&&p&&strong&3. 数据开放和共享思维。&/strong&这一点在我们国内其实说起来很容易,但是实际上很难。&/p&&p&去年的时候我去看了一个市公安局的大数据项目(可参看这篇文章 &a href=&/?target=http%3A//mp./s%3F__biz%3DMjM5NTgwMDE4NA%3D%3D%26mid%3D%26idx%3D4%26sn%3D968f7ca51f795ebe680ed7f0%26chksm%3Dbd9972bebca4deccce01c23%26scene%3D21%23wechat_redirect& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&政府大数据面临的问题和阻力在哪里?&i class=&icon-external&&&/i&&/a&),他们有两点意识非常好:&/p&&p&&strong&1)非常清楚的知道自己拥有哪些数据资源。&/strong&比如市公安局以及下属分局、各个支队各个应用系统的数据:基础的人口管理、信访、犯罪信息、情报。包括数据监控所涉及到的铁路、网吧、民航购票、ETC 卡口等。&/p&&p&&strong&2)为了纳入更多的社会化数据资源、实现全行业的数据覆盖,他们准备接入交通、服务、科技信息化、教育、社保、民政等各个行业的数据&/strong&。包括他们给下面的单位下了数据的指标,每个单位或者每个民警都有这种收集数据的指标,比如哪个单位今天上传了什么样的多少数据,每个月哪个单位上传的最多,这都是很好的数据收集的意识。&/p&&p&但问题在哪里?问题在于很多机构比如银行受国家政策限制很多数据是没有办法共享的、还有像教育机构,我凭什么把数据给你,在行政上大家是并级的机构。&figure&&img src=&/v2-9b255da707be90c9d7db3_b.jpg& data-rawwidth=&2553& data-rawheight=&1436& class=&origin_image zh-lightbox-thumb& width=&2553& data-original=&/v2-9b255da707be90c9d7db3_r.jpg&&&/figure&&/p&&p&&strong&所以这个时候就需要考虑数据开放和共享的思维,在满足数据安全性的基础之上我们可以不可以考虑数据互换共享的可能。&/strong&公安局有的数据一定是教育机构没有的数据,那么同样的教育机构有的数据,公安机构也不一定有。如果两者数据在某种程度上形成共享,在保证数据安全和不冲突的情况下是可以创造出更多的社会价值的。比如公安局可以提供教育机构关于各个地区犯罪率的信息,包括交通安全事故多发地等,教育机构可以针对这些信息进行学校安全升级、学校周边交通事故比较多的地方应该要进行什么样的安全教育和防护等。&/p&&p&那么作为我们的企业而言,我们内部的数据打通自然是没有问题,但是外部数据就比较缺乏。&strong&我们能不能考虑我们企业的上下游比如供应链、物流等合作伙伴我们之前的数据本着平等和互利的原则进行打通和共享,这里面一定会创造出很多有价值的场景。&/strong&内部共享没有问题的时候,我们可不可以把思路变得更加开阔一些,让外部的数据特别是上下游合作的数据流动起来去创造更多的价值 1+1&2。&/p&&p&&strong&数据只有流动才会有变得有价值,大数据思维下,数据流通和共享这需要我们把思维放得更开放。&/strong&&/p&&p&&strong&4. 通过数据生成问题,发现问题,而不仅仅是回答问题。&/strong&很多人都认为我只要上了大数据就可以帮我们自动找到企业或者业务中所有存在的问题,事实上我觉得大数据做不到。&/p&&p&&strong&大数据不是用来回答问题的,也不是用来去下结论的,大数据是基于海量数据用来洞察、预测和发现问题的,发现问题之后是需要我们的分析人员去进行分析得出结论,之后再去优化我们的产品、流程,然后再分析再预测和再验证的一个过程。&figure&&img src=&/v2-d645c7ab68f3d52ca2348e_b.jpg& data-rawwidth=&2553& data-rawheight=&1436& class=&origin_image zh-lightbox-thumb& width=&2553& data-original=&/v2-d645c7ab68f3d52ca2348e_r.jpg&&&/figure&&/strong&&/p&&p&比如 Google Flu Trends Google 流感趋势分析 GFT,2008年11月 Google 启动的 GFT 项目,目前是预测美国疾控中心 CDC 报告的流感发病率。2009 年的时候 GFT 发表的报告对用户数十亿的搜索中,差不多 45 个跟流感相关的关键词做分析,GFT 就能比 CDC 提前两周预报
季流感病的发病率。&/p&&p&&strong&背后这是套非常复杂的算法,是通过数据生成问题,发现问题的一个过程,大数据回答不了具体的真正的发病率,但是它有很高的参考性,这就是它的预测。&/strong&&/p&&p&就像之前在美的大数据(请参考文章:&a href=&/p/& class=&internal&&大数据如何聚焦业务价值 | 世界500强美的大数据建设的启发&/a&)里面看到的一个案例:关于一款产品在社交网络投诉率的问题,比如丢失配件,但是通过产品检查没有这个问题。通过大数据分析可能并不能直接得出到底是哪一个环节出现了问题,它回答不了。但是却可以让我们发现这个问题是存在,是需要后面我们人为去介入的。&/p&&p&&strong&所以我觉得正确的利用大数据的思维方式是,通过数据去发现更多的问题、数据洞察。&/strong&&/p&&p&&strong&5. 由经验判断判断改为数据判断。&/strong&之前我们有一个朋友他们是做医药行业的 BI 项目实施,他们有一个客户是一个医药连锁店,规模也不是非常的大,业务系统也不是非常的多。他们和客户去聊的时候,客户说我们不需要这些东西,太虚。为什么?每天闭着眼睛就知道哪些药是畅销药,自己一个小系统就能算出库存,季度的畅销药,没有必要去上这些 BI 系统。这说的是一个事实,一年下来数据不到几百兆内部的小数据用 EXCEL 就可以做做日常分析,这种就是经验判断。体量太小、业务单一,上 BI 都没有必要,何况大数据。&figure&&img src=&/v2-21b58e6cac28c6b2ead56_b.jpg& data-rawwidth=&2553& data-rawheight=&1436& class=&origin_image zh-lightbox-thumb& width=&2553& data-original=&/v2-21b58e6cac28c6b2ead56_r.jpg&&&/figure&&/p&&p&但是如果我们的业务体量上去了,比如大的电商平台,或者像上面提到的美的这样生产制造行业,全国又有庞大的终端销售门店包括各种电商平台,这个时候光靠经验能够判断出来市场上到底哪些是畅销产品,产品有什么问题,用户反馈吗?判断不出来。&strong&所以这个时候就需要靠数据驱动,由以往的经验判断变为数据驱动、数据判断。&figure&&img src=&/v2-ada92b09f6d7b8378abc31de0e5e74c9_b.jpg& data-rawwidth=&2553& data-rawheight=&1436& class=&origin_image zh-lightbox-thumb& width=&2553& data-original=&/v2-ada92b09f6d7b8378abc31de0e5e74c9_r.jpg&&&/figure&&/strong&&/p&&p&所以总结起来,数据驱动的思维方式就是:&strong&了解和掌握我们已有的数据资源、寻找我们没有的新的数据资源、尽可能多的收集与我们行业、业务、上下游相关的数据资源、数据开放和数据流通、通过数据发现问题定位问题、由以往的经验判断过渡到数据驱动数据判断。&/strong&&/p&&p&&strong&以业务为核心,业务场景化的思维方式&/strong&&br&&/p&&p&&strong&首先需要大家能够清晰认识到的是:大数据在不同的行业中不具备可复制性,大数据是一个高度个性化与行业深度结合的技术加业务的综合体。&/strong&如果我们在外面碰到有大数据公司说我什么行业都能做,这基本上就是忽悠。目前大数据做的比较深的行业主要还是集中在互联网、电商、金融、银行这些领域。包括我在美的大数据那篇文章中提到的美云智数主要还是聚焦在生产制造、泛电商行业,这种大数据才是靠谱的。&/p&&figure&&img src=&/v2-aba1c568c72e9dc59328_b.jpg& data-rawwidth=&2553& data-rawheight=&1436& class=&origin_image zh-lightbox-thumb& width=&2553& data-original=&/v2-aba1c568c72e9dc59328_r.jpg&&&/figure&&br&&p&有很多朋友说,我们企业数据有很多、业务我们也非常熟悉,要上大数据怎么做?我实话实说,就这么问我也不知道。原因非常简单,我不熟悉这个行业、我不熟悉你们的业务也不熟悉你们的数据。&/p&&p&在以前有一个朋友公司要上大数据,找了一个大数据项目实施公司,但是过去一聊,聊的全是大数据架构应该怎么搭建、技术怎么选型怎么开发,采购什么样的产品。但是很显然,这家大数据实施公司弄错了方向。&strong&这家企业目前要的不是大数据技术选型,也不是大数据技术架构应该怎么去搭,它要的是大数据的一个顶层设计,需要的是一个个具体的业务场景,我们的大数据在这些业务场景里面能够解决哪些具体的问题。&/strong&只有这些问题弄清楚了之后,再才是数据调研和技术架构选型到最终的实施。&/p&&p&&strong&业务场景化&/strong&&/p&&p&那么什么叫业务场景化? 举一个例子,比如我们天善智能在北京专门租了一个场地定名叫 xTechDay,4月份就会启动。&br&&figure&&img src=&/v2-a756e133c28a993f2ea67e32f675c061_b.jpg& data-rawwidth=&1000& data-rawheight=&400& class=&origin_image zh-lightbox-thumb& width=&1000& data-original=&/v2-a756e133c28a993f2ea67e32f675c061_r.jpg&&&/figure&&/p&&p&这个 xTechDay 专门用来主办大数据、人工智能、云计算相关的活动,主要是周末。周一到周五怎么办? 就要租出去解决一个空置率的问题,那么就要考虑到如何定价的问题,这个实际上就是一个业务场景。&/p&&p&我们到各种场地出租的网站,包括各种发布这种线下活动的网站去爬数据,看看在北京每天有哪些是和我们相关的活动,活动地点分布在哪个城区,各种场地大小、现场可以容纳的人数、活动密度,基本上就可以看出来每个月每周这种活动的密度和各个场地的租金。我们再去比较我们的场地和这些场地的优点缺点,&strong&比如最后得出的结论就是我们的活动场地在 80-150 人之间,在北京的东边地段,我们的场地日租金定在 4000元左右有很大的优势。&/strong&&/p&&p&当然我们也没有打算靠场地能赚什么钱,只是希望拥有一个自己的高质量的活动场地,想做活动的时候就可以随时做。&figure&&img src=&/v2-da52d52e3a4b9_b.jpg& data-rawwidth=&2553& data-rawheight=&1436& class=&origin_image zh-lightbox-thumb& width=&2553& data-original=&/v2-da52d52e3a4b9_r.jpg&&&/figure&&/p&&p&会有人问,这个业务场景跟大数据没有关系啊,一般的分析就可以做。没错,因为这个不需要大数据,就是一个小数据分析的业务场景。&/p&&p&那么我们把它拉大一些,比如在电商平台新推出了一个畅销品,我们需要 24 小时监控这个产品上线之后大家的反馈。这个时候小数据做的了吗?很显然做不了,这个业务场景需要对各种海量数据进行实时的快速处理与分析,&strong&这个就是大数据下的业务场景—— 海量、实时、快速、价值。&/strong&&/p&&p&前面做了一些铺垫,让大家理解了什么是业务场景化,接着我们再来看大数据业务场景化的思维方式包括哪些?&/p&&figure&&img src=&/v2-553b14de1912fbeeccbd29_b.jpg& data-rawwidth=&2553& data-rawheight=&1436& class=&origin_image zh-lightbox-thumb& width=&2553& data-original=&/v2-553b14de1912fbeeccbd29_r.jpg&&&/figure&&br&&br&&p&&strong&1. 懂行业、深挖业务,业务边界要先聚焦再扩散。&/strong&每一个行业都各不相同,即使是同一个行业不同的企业对于自身业务、IT 应用流程构建的深度和广度也都不同。但是有一点是需要我们特别注意的是,不管是大数据还是小数据,做好数据平台的前提就是懂自身的行业、懂自身的业务。离开业务谈数据平台的建设,特别是大数据平台的建设基本上就是一个空中楼阁。&figure&&img src=&/v2-3dca84e9eb9f_b.jpg& data-rawwidth=&2553& data-rawheight=&1436& class=&origin_image zh-lightbox-thumb& width=&2553& data-original=&/v2-3dca84e9eb9f_r.jpg&&&/figure&&/p&&p&我有朋友公司说 Simon 你过来帮我们规划一下我们的大数据要怎么搞,我说我做不了,因为我不懂这个行业。我可以帮你们梳理和看看整体的方向,我有我自己的一套方法,但前提是我需要花时间去深入了解你们的业务,做到业务真正弄清楚了才会有下一步的规划。&strong&所以,没有业务的指引,大数据的建设就失去了方向。&/strong&&/p&&p&&strong&另外,大数据的建设要阶段性的出成果,不是一上来所有的业务就需要全面打通。&/strong&首先聚焦的应该是核心业务,企业业务核心重点在哪里?比如生产制造行业业务流程重点在生产、电商平台的核心业务重点在交易。&/p&&p&先把最有价值的业务场景梳理清楚,在逐步扩散到其它的重点业务流程。&/p&&p&&strong&2. 通过业务找数据、通过问题找数据。&/strong&有很多企业在规划大数据业务场景的时候会有这样的困惑,企业已经有了很多需要分析的业务场景了,但是缺少数据资源。比如像银行信用理财机构想做用户画像、做精准营销,这是一个很好的业务场景,但是每个银行只具备自己的用户开户资源,而这些用户在自己银行的标签属性价值很低。&strong&这个时候就需要借助第三方的数据资源来完成这个业务场景,这就是通过业务找数据、通过问题找数据。&figure&&img src=&/v2-cc6c6a3dc207aad67ecc_b.jpg& data-rawwidth=&2553& data-rawheight=&1436& class=&origin_image zh-lightbox-thumb& width=&2553& data-original=&/v2-cc6c6a3dc207aad67ecc_r.jpg&&&/figure&&/strong&&/p&&p&比如,像电信运营商掌握着大家移动上网的信息,你近期有没有看过金融、理财相关的文章。比如,像大家上网的手机 APP,你看过哪些新闻和金融、理财相关的内容。这些相关的数据都会通过一些渠道拿到,银行理财的精准推荐就会通过各种方式推到你面前,国内有一些大数据公司就在做这些事情。&/p&&p&比如,像这篇文章中提到的民生银行阿拉丁大数据项目(&a href=&/p/& class=&internal&&【万字大数据 BI 案例|视频】民生银行十五年的数据体系建设,深入解读阿拉丁大数据生态圈、人人BI 是如何养成的?&/a&)&strong&民生银行如何去判断高价值的用户 – 开豪车、住豪宅、用好手机号码、出入高档消费场所&/strong&&strong&。&/strong&最终从几十万的潜在客户群体中挖掘出了几千位高价值用户,然后再去做精准营销。&strong&最后的效果是节约了 90% 的营销费用,同时这项营销给一个分行带来了高达 X 个多亿的金融资产提升。&/strong&那么这里面就涉及到了 4S店的消费数据、全国小区和物业收费信息、联通移动电信运营商的数据、刷卡消费记录等等。&figure&&img src=&/v2-4e573cfa87fb2e_b.jpg& data-rawwidth=&2553& data-rawheight=&1436& class=&origin_image zh-lightbox-thumb& width=&2553& data-original=&/v2-4e573cfa87fb2e_r.jpg&&&/figure&&/p&&p&像美的大数据也会借助各种电商平台和社交资源,抓取用户对产品的评价反馈等做了很多的事情。&/p&&p&&strong&所以业务场景化,需要具备通过业务发现缺失的数据资源,同时也需要掌握这种找数据的能力。&/strong&有自己通过技术手段解决的,也有通过与第三方公司合作完成的。&/p&&p&&strong&3. 通过数据找问题、通过数据找业务。&/strong&比如还是民生银行的阿拉丁项目,一个分行的运营人员就是通过大数据平台上的数据花了半天时间发现了一个 ATM 机选址和优化的问题。通过对 ATM 机的交易活跃度、交易类型分析,比如查询交易、转账交易、取款交易分析,最后发现 ATM 机的布局不合理,有很多能存能取的 ATM 机利用率并不高。最后通过 ATM 选址优化、ATM 最优资源优化,一年为一个分行节省了几百万人民币。&figure&&img src=&/v2-e45db45bcc8d05776dd19e_b.jpg& data-rawwidth=&2553& data-rawheight=&1436& class=&origin_image zh-lightbox-thumb& width=&2553& data-original=&/v2-e45db45bcc8d05776dd19e_r.jpg&&&/figure&&/p&&p&这个分析是一个非常偶然的发现,通过数据偶然找到了以可以对运营业务优化的方式,这个发现后面就可以推广到更多的分行,一年可以节约的成本可想而知。&/p&&p&&strong&4. 丰富和创造各种业务场景&/strong&。比如像我上面提到的民生银行阿拉丁项目还有像美的大数据项目,各种业务分析场景和案例至少是几百个。&strong&业务场景的丰富程度决定大数据利用价值的深度和广度,但凡是成功的大数据项目它的业务场景都是非常丰富的。&/strong&我们也对照一下我们自身的大数据项目建设,这种已有的和被创造出来的业务场景有多少个,如果一双手就能够数出来,很明显是不够的,大数据的价值没有被充分的发挥出来。&/p&&p&&strong&所以在大数据项目的规划和落地的过程中,我们首先要去想想我们的业务场景有哪些?有哪些业务场景可以被创造出来,有哪些业务场景是我们之前一直想做但由于条件限制没有办法做的。&/strong&如果是因为数据资源的问题,我认为是可以解决的,需要分清楚哪些数据资源是我们内部可以解决的,哪些数据资源是需要通过外部合作创造的,有哪些数据资源是我们现在没有但是通过增加自身数据获取的渠道来丰富的。&figure&&img src=&/v2-ec48fcc853d7a_b.jpg& data-rawwidth=&2553& data-rawheight=&1436& class=&origin_image zh-lightbox-thumb& width=&2553& data-original=&/v2-ec48fcc853d7a_r.jpg&&&/figure&&/p&&p&比如像生产行业,我们想在流程监控、品质监控上去创造一些业务场景,那么就要去想一想我们的数据够不够,我们各个环节的数据存储是否到位。&strong&所以,业务场景的丰富程度取决于数据的积累程度,数据的积累程度不够,就需要首先解决数据的问题。&/strong&&/p&&p&站的高才能看得远,业务场景多了,就会有场景交叉,数据的关联性也上去了,数据的价值才会充分的被利用。&/p&&p&&strong&5. 关注新技术、新资源、新渠道。&/strong&我们以前是 PC 互联网时代,现在已经进入到移动互联网时代,但是不久的将来我们将进入到物联网时代。我们的企业高层还有大数据建设团队需要去关注新的技术、新的资源和渠道,特别是对我们的行业有变革性影响的技术和资源。&figure&&img src=&/v2-fc940e9ffde7_b.jpg& data-rawwidth=&2553& data-rawheight=&1436& class=&origin_image zh-lightbox-thumb& width=&2553& data-original=&/v2-fc940e9ffde7_r.jpg&&&/figure&&/p&&p&&strong&新的技术和资源渠道会影响甚至变革我们自身的业务,也可能带来新的业务模式,我们需要不断的关注这些新的业务模式带来的新的业务场景。&/strong&新的业务场景也可能需要新的数据资源、数据渠道,保持对行业对新技术的好奇心,丰富我们考虑问题的思维场景这一点也是非常有必要的。&/p&&p&&strong&6. 专业的业务分析人员培养,专业咨询和规划人才可遇而不可求。&/strong&虽然我们在这里讲的是大数据思维方式,那么思维方式表示的是一种看问题和解决问题的角度。大数据思维方式不仅仅限定在数据和业务场景化本身,也需要考虑人的因素。&figure&&img src=&/v2-dfd0e9fa035cc052bc019d37e3d91a9c_b.jpg& data-rawwidth=&2553& data-rawheight=&1436& class=&origin_image zh-lightbox-thumb& width=&2553& data-original=&/v2-dfd0e9fa035cc052bc019d37e3d91a9c_r.jpg&&&/figure&&/p&&p&我碰到过一些公司在搭建不管是BI还是大数据分析平台的时候,经常听到 IT 部门说 &strong&“我们的业务人员不懂怎么提出需求”,“我们的业务人员有数据不知道怎么用”&/strong&。同样的业务部门的反馈是:&strong&“我们的技术人员不懂业务,讲一遍讲两遍也听不懂”。&/strong&这说明一个问题:我们企业内部的人才培养是有缺陷的,IT 人员只懂技术只懂架构不懂业务,我们的业务人员对数据缺乏好奇心、缺乏基本的数据意识。&br&&/p&&p&所以站在一定的高度上来看,不管是数据的创造、业务场景化的创造,本质都是需要人来驱动的。&strong&如果我们在规划和建设大数据平台的时候,忽略了懂业务懂分析专业人才的培养,这样的大数据平台是不会创造持久的价值的。&figure&&img src=&/v2-aec45b1dd62e34b1cbf6d8eb65131cc4_b.jpg& data-rawwidth=&2553& data-rawheight=&1436& class=&origin_image zh-lightbox-thumb& width=&2553& data-original=&/v2-aec45b1dd62e34b1cbf6d8eb65131cc4_r.jpg&&&/figure&&/strong&&/p&&p&专业的分析、技术、咨询和规划人才可遇而不可求,很多异想天开、脑洞大开的大数据场景化的想法都是靠人来想出来的,都是对数据有很强的嗅觉、有很强的数据意识这批人给创造出来的。&/p&&p&比如像上面提到的有关民生银行 ATM 机的案例就是靠一个运营人员拿着数据花了一下午时间给分析出来的,这种业务场景被验证了,一个分行一年节省了几百万人民币,这种业务价值想想有多大。&/p&&p&美的大数据也是一样的,企业高层高屋建瓴,下面的大数据技术人员深入业务,企业 IT Inside 意识这些都是企业对人才的高投入,对应也就是高回报。&figure&&img src=&/v2-167e4e3b820afb6e3abdf_b.jpg& data-rawwidth=&2553& data-rawheight=&1436& class=&origin_image zh-lightbox-thumb& width=&2553& data-original=&/v2-167e4e3b820afb6e3abdf_r.jpg&&&/figure&&/p&&h1&&strong&大数据价值&/strong&&/h1&&p&前面讲到的这么多内容都是有关大数据思维,提到了数据驱动和业务场景,在整个的分享过程中我们已经看到了大数据的价值所在。&figure&&img src=&/v2-03d8aec08eabdbd231ae5fa5c210b586_b.jpg& data-rawwidth=&2553& data-rawheight=&1436& class=&origin_image zh-lightbox-thumb& width=&2553& data-original=&/v2-03d8aec08eabdbd231ae5fa5c210b586_r.jpg&&&/figure&&/p&&p&我和很多朋友经常在聊到传统行业大数据项目案例的时候,就推荐看两个大数据案例,一个就是民生银行阿拉丁大数据项目,另外一个就是美的大数据。为什么? &strong&因为我们去判断一个大数据项目建设是否成功是否落地的一个最核心的标准就是:大数据有没有实现业务价值!&/strong&&/p&&p&文章链接:&/p&&p&&a href=&/p/& class=&internal&&深入解读民生银行阿拉丁大数据生态圈如何养成&/a&&/p&&p&&a href=&/p/& class=&internal&&大数据如何聚焦业务价值 | 世界500强美的大数据建设的启发&/a&&/p&&p&&strong&什么是业务价值?&/strong&&strong&以业务驱动、数据驱动真正形成业务上的决策指导,让企业的业务决策、经营决策、生产决策、市场打法能够真正的落地,并产生实际看得见摸得着的实实在在的价值:比如利润的提升、市场产品的份额增长、经营成本的降低、发现新的商业模式等等。&/strong&利润、份额、成本这些都是企业最为关注的地方,如果大数据实现不了,就不叫落地。&/p&&p&&strong&大数据思维与价值&figure&&img src=&/v2-7b4e41e7b0ad_b.jpg& data-rawwidth=&2553& data-rawheight=&1436& class=&origin_image zh-lightbox-thumb& width=&2553& data-original=&/v2-7b4e41e7b0ad_r.jpg&&&/figure&&/strong&&/p&&p&最后我们来总结一下大数据思维的核心是什么?&strong&就是拼数据,拼业务场景,谁的数据多,数据辐射面广,就具备大数据时代数据探索的价值。谁创造的业务场景多,数据的价值就可以最大化的发挥作用,就可以改变或者推进提升业务的形态。&figure&&img src=&/v2-6f31efea182e20871babb504ee9cf7aa_b.jpg& data-rawwidth=&2553& data-rawheight=&1436& class=&origin_image zh-lightbox-thumb& width=&2553& data-original=&/v2-6f31efea182e20871babb504ee9cf7aa_r.jpg&&&/figure&&/strong&&/p&&p&&strong&那么大数据价值是什么?就是大数据的实现最终一定要落地于业务场景,为业务创造价值!&/strong&&/p&&p&------------------------------------&/p&&p&作者:BIWork,&b&个人微信号:tianshanlvpin&/b&&/p&&p&博客专栏:&a href=&/?target=https%3A///blog/biwork& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&BIWORK 的微软 BI 博客&i class=&icon-external&&&/i&&/a&&/p&
开篇语看过不少讲解大数据思维的文章,文章的一些观点能够带给我很多的启发,很有见地也很受用。在跟一些企业的负责人聊起大数据项目规划和建设的时候,发现大家对大数据并不缺少自己的认识和看法,只是这些认识和看法没有被系统性的组织起来,形成一个比较…
&figure&&img src=&/50/v2-8d0cabc8d846d10782ea0ebd75aa7389_b.png& data-rawwidth=&643& data-rawheight=&743& class=&origin_image zh-lightbox-thumb& width=&643& data-original=&/50/v2-8d0cabc8d846d10782ea0ebd75aa7389_r.png&&&/figure&&p&最近看了大量关于数据分析/挖掘方面的资料和文章,整理出了一个关于数据分析/挖掘的“纵览图”,涉及到数据分析/挖掘的内涵、常用的分析模型、挖掘/分析步骤、算法、案例等。&/p&&p&虽不全面,但觉得还是可以给大家的数据分析/挖掘学习提供点参考的。&/p&&p&一直以为,数据分析中,“业务理解为重,分析方法次之,分析工具为轻”。为什么这么说呢?因为大家有一个误区,认为第一个先要学习的就是数据分析的工具,正所谓“工欲善其事,必先利其器”,工具仿佛就是数据分析的重中之重。话虽如此,但如果一个人对所分析的业务没有透彻的了解,直接去分析数据的话,会困难重重,脱离问题产生的“业务场景”,迷失在数字的汪洋泽国中,最后的“输出”只是纸上谈兵。比如,把一堆用户的消费数据给你,让你分析出用户的消费偏好,即对哪类产品感兴趣,这种情况下,你的第一反应难道是拿起工具就开始数据处理吗?&/p&&p&回答当然是:NO,你应该先去了解下公司有哪些产品,这些产品属性怎样,然后对产品所面向的消费者有一个大概的认识,了解他们的人口统计学特征和消费习惯等知识,最好是联想到一个消费者行为模型,使分析和思考变得系统化,避免遗漏分析要点。总之,要对即将分析的问题的背景有一定的了解。&/p&&p&数据分析/挖掘最终是要服务于商业目的的,现在数据分析也有一个很“时髦”的名字---商业智能(BI)。&/p&&p&商业智能应包含人、工具、业务知识等方面,可以用下面的公式来表示:&/p&&p&&strong&商业智能(BI)=数据+人+工具+算法+工具+知识+预测&/strong&&/p&&p&大家应该对“人”和“知识”这2个方面重视起来,具体说来就是培养优秀的思维能力,掌握营销学、心理学、管理学和社会学方面的知识,这样分析数据才能得到“活生生”的、有助于解决实际问题的洞见(insight),不至于被“冷冰冰”的数字所束缚。&/p&&p&以下是数据分析/挖掘的纵览图,大家可以按图索骥,去百度搜索下,如果写的不完善,欢迎大家在下面补充~&/p&&p&&figure&&img src=&/v2-8d0cabc8d846d10782ea0ebd75aa7389_b.png& data-rawwidth=&643& data-rawheight=&743& class=&origin_image zh-lightbox-thumb& width=&643& data-original=&/v2-8d0cabc8d846d10782ea0ebd75aa7389_r.png&&&/figure&-----------------------------------------&/p&&p&本作者:高长宽&/p&&p&微信公众号:运营喵是怎样炼成的&br&&/p&&p&博客专栏:&a href=&/?target=https%3A///blog/yymzylc/category/1337& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&运营喵是怎样炼成的的博客专栏&i class=&icon-external&&&/i&&/a&&/p&&br&&p&&b&最近很多人私信问题,平常知乎评论看到不多,如果没有及时回复,大家也可以加小编微信:tszhihu,进知乎大数据分析挖掘交流群,可以跟各位老师互相交流。谢谢。&/b&&/p&
最近看了大量关于数据分析/挖掘方面的资料和文章,整理出了一个关于数据分析/挖掘的“纵览图”,涉及到数据分析/挖掘的内涵、常用的分析模型、挖掘/分析步骤、算法、案例等。虽不全面,但觉得还是可以给大家的数据分析/挖掘学习提供点参考的。一直以为,数…
&figure&&img src=&/50/v2-c3f3dbe07324bcbc4e90_b.jpg& data-rawwidth=&1125& data-rawheight=&635& class=&origin_image zh-lightbox-thumb& width=&1125& data-original=&/50/v2-c3f3dbe07324bcbc4e90_r.jpg&&&/figure&本文是 3月25日线下活动 &a href=&/?target=https%3A///event/191& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&3月25日 数据之美 · 天善智能大数据沙龙上海站&i class=&icon-external&&&/i&&/a&
课件分享,欢迎收藏!!&figure&&img src=&/50/v2-da2fd_b.png& data-rawwidth=&1121& data-rawheight=&621& class=&origin_image zh-lightbox-thumb& width=&1121& data-original=&/50/v2-da2fd_r.png&&&/figure&&figure&&img src=&/50/v2-41d6e9e52e_b.png& data-rawwidth=&1102& data-rawheight=&630& class=&origin_image zh-lightbox-thumb& width=&1102& data-original=&/50/v2-41d6e9e52e_r.png&&&/figure&&br&&figure&&img src=&/50/v2-5cfef54d4d2d02d7b1ae4d5_b.png& data-rawwidth=&1106& data-rawheight=&572& class=&origin_image zh-lightbox-thumb& width=&1106& data-original=&/50/v2-5cfef54d4d2d02d7b1ae4d5_r.png&&&/figure&&br&&figure&&img src=&/50/v2-890cfd9b12_b.png& data-rawwidth=&1078& data-rawheight=&567& class=&origin_image zh-lightbox-thumb& width=&1078& data-original=&/50/v2-890cfd9b12_r.png&&&/figure&&br&&figure&&img src=&/50/v2-dcba029c166ddbb279f88f5_b.png& data-rawwidth=&1047& data-rawheight=&604& class=&origin_image zh-lightbox-thumb& width=&1047& data-original=&/50/v2-dcba029c166ddbb279f88f5_r.png&&&/figure&&br&&figure&&img src=&/50/v2-c0c8ef285e2a068bdc0bfca521bc254b_b.png& data-rawwidth=&1045& data-rawheight=&581& class=&origin_image zh-lightbox-thumb& width=&1045& data-original=&/50/v2-c0c8ef285e2a068bdc0bfca521bc254b_r.png&&&/figure&&br&&figure&&img src=&/50/v2-0ea3b94cbd0d32d_b.png& data-rawwidth=&1029& data-rawheight=&553& class=&origin_image zh-lightbox-thumb& width=&1029& data-original=&/50/v2-0ea3b94cbd0d32d_r.png&&&/figure&&br&&figure&&img src=&/50/v2-7f19b5ccea_b.png& data-rawwidth=&1114& data-rawheight=&600& class=&origin_image zh-lightbox-thumb& width=&1114& data-original=&/50/v2-7f19b5ccea_r.png&&&/figure&&br&&figure&&img src=&/50/v2-1b66c006988efe0213dc8cdf95b9c6bb_b.png& data-rawwidth=&1116& data-rawheight=&500& class=&origin_image zh-lightbox-thumb& width=&1116& data-original=&/50/v2-1b66c006988efe0213dc8cdf95b9c6bb_r.png&&&/figure&&br&&figure&&img src=&/50/v2-5b19c4a477aca30419c9abb_b.png& data-rawwidth=&1043& data-rawheight=&549& class=&origin_image zh-lightbox-thumb& width=&1043& data-original=&/50/v2-5b19c4a477aca30419c9abb_r.png&&&/figure&&br&&figure&&img src=&/50/v2-07b7d3d3faeaaf_b.png& data-rawwidth=&1074& data-rawheight=&564& class=&origin_image zh-lightbox-thumb& width=&1074& data-original=&/50/v2-07b7d3d3faeaaf_r.png&&&/figure&&br&&figure&&img src=&/50/v2-0e8cfef3f82ee87b84bf3f7_b.png& data-rawwidth=&1071& data-rawheight=&551& class=&origin_image zh-lightbox-thumb& width=&1071& data-original=&/50/v2-0e8cfef3f82ee87b84bf3f7_r.png&&&/figure&&br&&figure&&img src=&/50/v2-cc916d9bcfd5f83237a6_b.png& data-rawwidth=&1111& data-rawheight=&530& class=&origin_image zh-lightbox-thumb& width=&1111& data-original=&/50/v2-cc916d9bcfd5f83237a6_r.png&&&/figure&&br&&figure&&img src=&/50/v2-c8de989ee24cdbdea709b76_b.png& data-rawwidth=&1046& data-rawheight=&507& class=&origin_image zh-lightbox-thumb& width=&1046& data-original=&/50/v2-c8de989ee24cdbdea709b76_r.png&&&/figure&&br&&figure&&img src=&/50/v2-2dc42f5dfdf07a206e346_b.png& data-rawwidth=&1128& data-rawheight=&617& class=&origin_image zh-lightbox-thumb& width=&1128& data-original=&/50/v2-2dc42f5dfdf07a206e346_r.png&&&/figure&&br&&figure&&img src=&/50/v2-1fad41853fcf813980ecb076beeaef8b_b.png& data-rawwidth=&986& data-rawheight=&612& class=&origin_image zh-lightbox-thumb& width=&986& data-original=&/50/v2-1fad41853fcf813980ecb076beeaef8b_r.png&&&/figure&&br&&figure&&img src=&/50/v2-7dfdf8b24a4_b.png& data-rawwidth=&1003& data-rawheight=&575& class=&origin_image zh-lightbox-thumb& width=&1003& data-original=&/50/v2-7dfdf8b24a4_r.png&&&/figure&&br&&figure&&img src=&/50/v2-00f296e01a81a159f46bdd3dbba0580d_b.png& data-rawwidth=&1027& data-rawheight=&456& class=&origin_image zh-lightbox-thumb& width=&1027& data-original=&/50/v2-00f296e01a81a159f46bdd3dbba0580d_r.png&&&/figure&&br&&figure&&img src=&/50/v2-370eaf750f553d_b.png& data-rawwidth=&1013& data-rawheight=&614& class=&origin_image zh-lightbox-thumb& width=&1013& data-original=&/50/v2-370eaf750f553d_r.png&&&/figure&&br&&figure&&img src=&/50/v2-3f18b139da75d6ea95f361b8bbe9b130_b.png& data-rawwidth=&1082& data-rawheight=&589& class=&origin_image zh-lightbox-thumb& width=&1082& data-original=&/50/v2-3f18b139da75d6ea95f361b8bbe9b130_r.png&&&/figure&&br&&figure&&img src=&/50/v2-e50ddd9767_b.png& data-rawwidth=&1105& data-rawheight=&631& class=&origin_image zh-lightbox-thumb& width=&1105& data-original=&/50/v2-e50ddd9767_r.png&&&/figure&&br&&figure&&img src=&/50/v2-ba17b7d5ad9bee2edece_b.png& data-rawwidth=&1074& data-rawheight=&522& class=&origin_image zh-lightbox-thumb& width=&1074& data-original=&/50/v2-ba17b7d5ad9bee2edece_r.png&&&/figure&&br&&figure&&img src=&/50/v2-10eb378bcd_b.png& data-rawwidth=&1134& data-rawheight=&627& class=&origin_image zh-lightbox-thumb& width=&1134& data-original=&/50/v2-10eb378bcd_r.png&&&/figure&&br&&figure&&img src=&/50/v2-4b56ccb95eb_b.png& data-rawwidth=&1123& data-rawheight=&631& class=&origin_image zh-lightbox-thumb& width=&1123& data-original=&/50/v2-4b56ccb95eb_r.png&&&/figure&&br&&figure&&img src=&/50/v2-84f7e391c1ea807f1a5dd_b.png& data-rawwidth=&1064& data-rawheight=&571& class=&origin_image zh-lightbox-thumb& width=&1064& data-original=&/50/v2-84f7e391c1ea807f1a5dd_r.png&&&/figure&&br&&figure&&img src=&/50/v2-762e1d82f9b_b.png& data-rawwidth=&1127& data-rawheight=&659& class=&origin_image zh-lightbox-thumb& width=&1127& data-original=&/50/v2-762e1d82f9b_r.png&&&/figure&&br&&figure&&img src=&/50/v2-c9c7fb4e25_b.png& data-rawwidth=&1032& data-rawheight=&579& class=&origin_image zh-lightbox-thumb& width=&1032& data-original=&/50/v2-c9c7fb4e25_r.png&&&/figure&&br&&figure&&img src=&/50/v2-c1d0ed9b98f8_b.png& data-rawwidth=&1109& data-rawheight=&598& class=&origin_image zh-lightbox-thumb& width=&1109& data-original=&/50/v2-c1d0ed9b98f8_r.png&&&/figure&&figure&&img src=&/50/v2-dc69c732eee812f_b.png& data-rawwidth=&1055& data-rawheight=&605& class=&origin_image zh-lightbox-thumb& width=&1055& data-original=&/50/v2-dc69c732eee812f_r.png&&&/figure&&br&&figure&&img src=&/50/v2-716e849a3d6cfcad6d384_b.png& data-rawwidth=&1100& data-rawheight=&571& class=&origin_image zh-lightbox-thumb& width=&1100& data-original=&/50/v2-716e849a3d6cfcad6d384_r.png&&&/figure&&br&&figure&&img src=&/50/v2-f5d22d8514_b.png& data-rawwidth=&1085& data-rawheight=&549& class=&origin_image zh-lightbox-thumb& width=&1085& data-original=&/50/v2-f5d22d8514_r.png&&&/figure&&br&&figure&&img src=&/50/v2-976d4c7c530bd2fdd6383f_b.png& data-rawwidth=&1070& data-rawheight=&506& class=&origin_image zh-lightbox-thumb& width=&1070& data-original=&/50/v2-976d4c7c530bd2fdd6383f_r.png&&&/figure&&br&&figure&&img src=&/50/v2-0e1f9140ece1d8d7c304b22d4b86702a_b.png& data-rawwidth=&1100& data-rawheight=&558& class=&origin_image zh-lightbox-thumb& width=&1100& data-original=&/50/v2-0e1f9140ece1d8d7c304b22d4b86702a_r.png&&&/figure&&br&&figure&&img src=&/50/v2-37fdec8ab5ea87e998c600f_b.png& data-rawwidth=&1087& data-rawheight=&622& class=&origin_image zh-lightbox-thumb& width=&1087& data-original=&/50/v2-37fdec8ab5ea87e998c600f_r.png&&&/figure&&br&&figure&&img src=&/5

我要回帖

更多关于 网吧点卡充值系统 的文章

 

随机推荐