如何准确又通俗易懂地解释大数据及其应用价值? - 诺米粒 - 2024最新贷款口子论坛
登录 or

如何准确又通俗易懂地解释大数据及其应用价值?

Wikipedia | Big data(大数据)

Big data is a collection of data sets so large and complex that it becomes difficult to process using on-hand database management tools or traditional data processing applications. The challenges include capture, curation, storage, search, sharing, transfer, analysis, and visualization. The trend to larger data sets is due to the additional information derivable from analysis of a single large set of related data, as compared to separate smaller sets with the same total amount of data, allowing correlations to be found to "spot business trends, determine quality of research, prevent diseases, link legal citations, combat crime, and determine real-time roadway traffic conditions."

已邀请:
匿名用户

匿名用户 白米Ⅲ级

赞同来自:

写在开场的话:
考虑了一下,鉴于现在评论区的状况,以及很多知友的阅读习惯,我还是将一些内容搬运在这个醒目的位置,更新一下这个答案,免得还有杀到评论区里追着要我认错和道歉的。
这个答案开篇之处,我就已经明确说明,以这数据规模,这不是大数据了(参见以下答案中我更新加粗的部分),只是借个例子说明大数据的内涵和价值,居然还有人因此专门开个答案来驳斥这一点的,实在让我无语。
我是本着分享知识和经验的目的在知乎交流的,如果根本性的问题不在于此,连答案看完整点的耐心都没有,那我就没什么想说的了。许多评论我就不回复了。

说老实话,这答案在这放了几天,浏览者应该不少,但是没等到我最期望的那些评论。我还是有点失望的。
其实,这答案我可以随便找个问题一贴,例如什么问
怎么样在知乎混更高效啦?
怎么获得更多赞啦?
之类的问题。
不知道是否有人想到我为啥给贴这里了?
大数据的精髓是什么?收集个几百G几百T的数据往硬盘里一放就是大数据的精髓?如果认识就停留在这个程度,我也就没啥可说的了。
在这个答案中,我1,2,3,4,5都干了那些事?
选择维度,切入数据的路径和选择是什么样的?为什么?
虽然我用的都是最简单最基本的算法和模型,但是为什么在这样的地方,我选择了这样的算法和模型?
我想看到的很多问题都没有在评论里出现,有点让人遗憾。

问题有要求通俗易懂得介绍大数据的应用价值和内涵,我并无认为我的例子有何不妥。
对于大数据,一直来说,数据规模本导致的存储,运算等技术问题从来不是最重要的瓶颈。瓶颈只在于前端数据的收集途径,以及后端商业思想引领的模型和算法问题。早期的各类OLAP工具已经足够给力了,后来类似海杜普这样的东西彻底降低了分布式数据的架构成本和门槛,就彻底将大数据带入了一个普及的领域。
从数据钻取,大规模分析的技术手段,以及算法执行上来说,大规模数据是和小规模数据在技术上是有很大差异,但是一则,这对于大众认知来说,并不是需要关注和了解的重点(例如本题目的目的那样),另外来说,我也不认为这是重点和难点。
面对大数据的技术处理差异绝非大数据概念的精髓和瓶颈,只是商家们热衷宣传的热点,因为大数据领域只有在这个环节上,有大规模的产品市场存在的可能。

此外,大数据和超级计算完全是两个不同的领域和概念,虽然在极少的地方,两者或有交集(例如其他知友答案中提到的罗马城3D建模),但是真的很少。
并行计算和分布式计算也完全是两回事,后者可不需要去处理什么CPU的连接和通信
大数据出于成本/产出考量,是不太可能采用并行计算之类的超算技术的。海杜普之类的分布式技术会是一个很好的选择。
大数据和超算,虽然两者都面临算法上的挑战,但是完全不是一回事。
如果对超算有兴趣,可以简单移步目前超级计算机的性能局限是硬件还是软件,为什么?

从技术层面说,大数据和以前的数据时代的最大差异在于: 以前是数据找应用/算法的过程(例如我们各大银行的大集中项目,以及数据建仓),而大数据时代的重要技术特征之一,是应用/算法去找数据的过程,因为数据规模变成了技术上最大的挑战。

至于大数据和小数据的差异,大数据的策略,更偏重于发现,以及猜测/印证的循环逼近过程,一般只会设定一个大方向,算法模型都可能在执行的过程中做大幅度的调整。而传统小数据分析,一般有明确的目的和诉求,算法,和模型,我想我已经在我的例子中注意体现这一点了。
对于大数据来说,统计学的大量概念会重要得多。

大数据是因为对它的分析使用,才产生和体现它的价值,而不是因为其用到了NB的技术和算法才体现了它的价值。(虽然NB的技术确实很NB,我曾经在另外一个答案中视海杜普位划时代的计算产品之一)

治大国,若烹小鲜,何况是面对一般受众说个大体的概念,私以为我这个例子是没有太大问题的。

========================================================================
要明确易懂得解释一件事情,最好的方式无疑是举一个典型形象,具有代表性的例子。例子最好和听众熟悉的场景相关。
一般圈里回答这个问题,比较容易拿来做解释的例子是沃尔玛的几个经典案例,不过既然在知乎回答这个问题,我就拿知乎来举个例子吧

I 前言
1. 我在这个答案中所使用的数据和例子,数据规模有限,真正的大数据只有知乎运营者才有机会使用(应该也有严格的权限控制,以及运营者自有的命题)。
虽然说不上是大数据,但是我只是拿这个来作为一个说明的例子,说明下大数据的内涵以及价值,应该还算是可以的。

2. 我收集这些数据,主要是源于前一阵子对张公子文章的仰慕,每次进入张公子回答的页面一点一点往下点,太累,同时下次还要一点点重新展开页面找到以前看到的地方,不堪重负。正好最近业余在学习自动化测试和Ruby语言,于是尝试性写了些作业,扒了一些数据。
所以我收集这些数据并没有任何不良企图以及针对性,请各位知友和知乎运营者放心。我也承诺不会将这些数据用于恶意的目的。当然,这些数据本身都是公开的,我都是通过合法合规手段收集的。
以下会尽量匿去所有知友的名字,但是某些知友的数据特征太明显,所以就匿不了了。

3. 这些数据本身抓取的过程是一个动态的过程,而不是一个snapshot,出于技术,权限以及合法性的原因,我数据抓取的方式比较慢,在抓取过程中,数据本身已然在发生变化,因此数据本身可能有轻微误差。此外,抓取的数据范围和数量有限,并不一定完整反应和体现真实。例如知友的匿名回答,以及删除答案的行为,可能会对分析结果造成很大影响,但是我抓取的数据当中却没有包含。

4. 我的样本选择基本上是随机选择,从黄sir的关注者中,从日常每天的热门话题中随机选取,选取的都是至少答题在100以上的知友的数据。

5. 我本身并非社区运营专家,所以以下涉及到分析的部分,如果有业余的地方,请勿见笑,这答案的本身并不是真要分析知乎和知友(这也不是我的能力和数据权限能做到的),我只是说明下大数据这个概念和价值而已。

II 命题
数据分析总得有个方向和目标,鉴于我的数据规模和样本特性,确立较宏大的命题是相对比较困难的。于是,我选择了一个比较取巧的命题:”赞同数“。
一则来说,貌似广大知友关心这个的很多很多,比较吸引眼球。
二则来说,知乎上关于这个的日经问题也非常多,也算是有的放矢,例如很多类似以下的问题:
如何能获得更多赞同?
什么样的答案能够获得更多赞同?
人情赞,跟风赞是不是很多?
答案字数多是不是容易获得赞同?
图片多是不是容易获得赞同?
话题和浏览是不是影响赞同?
等等类似的问题在知乎层出不穷。尝试做个分析对这些问题提供些帮助。
但是,我必须强调的是:知乎真的不是一个“比比谁的赞同多”的竞技游戏,期望大家不要在“赞同”上过于纠结和投入太多关注,我觉得知识,乐趣以及思想的交流和碰撞,才是知乎的重点。

然后围绕这个命题核心,看看我们还能发现点什么有意思的其他东西。

III 样本
本次样本主要涉及39位知友,共计36442条答案

样本很多,数据也很多,我就不一一贴上来了,我只贴几位比较有典型代表意义的知友的加工后的数据,以下数据样本根据知友的关注者人数排序:
知友1:关注者283,337人


其中最专注话题,即为回答过最多的话题,即下图活跃度排名第一的话题。
相关系数,即皮氏积矩相关系数(Pearson product-moment correlation coefficient, PPCC),用以描述两个变量之间的线性相关度。0就是毫无关联,1就是绝对的线性关联,-1就是绝对的负线性相关

好吧,这个知友也不用匿名了,匿不住,这关注数,这话题,摆明是李开复先生。
开复先生的影响力毋庸置疑,赞答比惊人,其答案和问题浏览次数的相关度也很高(这意味着问题浏览数的增加有极高概率带动赞同票的获取),尤其在其最专注的话题 “李开复(人物)” 中(囧),问题关注和答案赞同之间有着接近线性相关的相关系数,表明开复先生在知乎是有一大票铁杆粉丝的。
但是开复先生的数据中也显示出,其藏赞比并不高(0.26),属于抽样人群中的中等水平。
什么样的情况会导致赞很多,藏不多呢?我一般认为,如果答案的内容价值较高,干货很多,会吸引到更多的收藏次数,而光环票,人情票,跟风票,以及引起读者共情的答案(例如吐槽以及煽情),较容易获得赞同,但是不容易收获收藏。
当然,开复先生的赞藏比也并不属于低的。

开复先生回答的问题,题均浏览次数分别5.5K+ 和 6K+,远超39位知友的平均值,开复先生的影响力可见一斑,而且开复先生答均750多字,属于非常高的值,可见开复先生对于每一个答案都较认真的投入了精力作答。

此外,从开复先生的话题分布来看,开复先生更多得把知乎当作了一个作为名人及其官方身份,和公众进行互动的媒体平台。而且是属于职业范的平台。开复先生在知乎上更多得是以自己的职业身份出现。连微博上常见的他关于政治,关于青年人引导的内容,都不多见。进一步的,开复先生作为一个个人的知识与经验分享就鲜见了。

开复先生仅凭专攻“李开复(人物)”一个话题,就能斩获261.65的赞答比,在“创新工场”话题中,每不到3个字就能获得一个赞同,这样的粉丝会,绝大多数人是不能拥有的,所以借鉴价值不大(当然后者的字数/赞同还有比开复先生更NB的大牛,我们后面再说)

知友2:关注者 175,534


好吧,这个也匿不住,这关注数,这话题,明显是继新的。
继新的数据很有意思(包括一些尚未贴出来的数据),很明显得看出了一个运营者的身份(其他几位知乎的工作人员的数据也类似),其发言被很明显得压抑在了知乎的相关话题上(尤其过了知乎运营的初期以后)。即便是如此刻意得压制,继新在苹果话题上的心血投入也搂不住(答题数,还有题均字数),一个热情的铁杆苹果粉丝的形象就呼之欲出了。

当然,“知乎”这个话题在知乎并不属于大热,(继新在知乎话题下的问题题均浏览只有700多),导致继新在知乎话题下的赞答比都不到15(远低于其平均水平),但是其赞同和浏览的相关系数却远高于平均水平(0.784 : 0.553),说明其在知乎这个话题中的权威程度和受认可程度(废话,这是当然的)。

需要大家开始关注的是知乎内的一个神奇话题:调查类问题。这个话题的神奇之处我们下面再慢慢讨论,单就继新的数据来看,调查类话题是继新最讨好的话题,拥有最高的赞答比和最高的文字效率。

而继新另外两个比较突出的私人化,受欢迎的话题是“英语”和“情感”,基于此,我觉得继新可以考虑去泡一个洋妞。

至于继新关于创业的话题,我就不说了,相比知乎团队中另外一位老大周源,实在不能比。周源话题特征就是除了知乎就是创业,除了创业就是知乎,两者占据了周源话题的绝对重心。向这样的创业者致敬,具体周源的数据篇幅有限,我就不贴了。

知友3:关注数 107,526


好吧,这个也匿不住,看看这赞均字数的效率,最效率的话题,每1.10个字就收获一个赞,这连开复先生都望尘莫及。这是知乎槽王,三表哥是也。
三表哥在音乐方面的专业度和投入程度一目了然,但是可以看到,很明显,三表哥赞同来源的主要发动机来自一些大热话题。
从这点上可以看到,赞同受到话题本身热度的影响有多大。

(在上图最后的4个关于话题的图表中,左边两个表格可以视为是这位知友最专注,最投入的话题,右边两个被视为是他最容易受知友认同的话题,最讨好的话题,下同)

此外,三表哥的藏赞比只有0.08,在39位知友中倒数第三,不能不说是槽王不可避免的遗憾。

知友4:关注数 90,793


这也不用匿了,一眼可知,大神张公子是也。我也不想匿,因为这是我收集这些数据的起源和动机。
篮球就是张公子的命啊。

张公子在篮球话题下的浏览关注相关系数是0.818,神数据,也就是说,基本上张公子说篮球,大家就一脸痴迷得边听边点头即可。

张公子回答的答均字数前10个话题,除开“张佳玮”这个话题以外,全部是NBA及NBA的子话题,张公子的投入和专注程度可见一斑。

但是等等,张公子在篮球话题下的赞答比只有29.67,远低于他在所有话题下的平均值57.54.....
张公子一代篮球作者大神。。。在知乎的赞同收割机还是得依赖爱情,情感,调查类问题。。。
相类似的游叔,三水哥等一大票人的类似数据,我就不贴了,他们分别在电影啊,金融啊,日本啊等话题领域专注写作和大量投入,却都是在热门话题中大量高效得收获赞同。

所以吧,其实什么赞答比什么的,都是浮云,话题才是王道啊。。。

知友5:关注数:61,369


恩,话题峰度643,偏度有24.9,但是方差只有79.5,数学领域全力开火,这个用不着匿了,陈浩大神是也。陈浩大神应该是对自己的答案做过清理的,要不话题分布数据不会这么诡异。这也应该是知乎话题分布数据中,我见过最有洁癖的数据了。
即便如此,“知乎建议反馈”依然在一片数学话题中,强有力得占据一席之地,如果这都不算爱。。。。继新快来看看吧!
基于这样的话题状况,陈浩大神能够拿到20以上的赞答比,在数学这么冷门的话题领域拿到13.6的赞答比,这份耕耘,值得让人脱帽致敬。
虽然平均赞答比要比数学领域高深多,但是数学领域浏览赞同相关系数要高很多,专业性一目了然。

知友6:关注者:46,546


恩,这位知友的数据是我最喜欢看的,看来看去,百看不厌,看得心里那个舒服。
要是类似特征的数据出现在什么企业数据中,我最喜欢了。
稳定,厚重,扎实,用一句话形容叫“重剑无锋,大巧不工”
这是所有知友中数据最均衡厚重的一位了。
社科人文话题的集群全面凸显,这样的底蕴,让人赞叹。
即便如此,他的赞同收割机中,调查类问题,和人际交往两个话题,嘿嘿,也是漏一尖角啊

知友7:关注者 6,979


如果把知友在知乎的表现和热度看作股票的话,这位知友一定是我重金入仓的主力股。
赞答比70.70,39位知友中名列第二,仅次于开复先生
藏赞比0.46,39位知友中名列三,一代干货大神(另外向前两位干货大神MJ勺子和麦琪姐致敬,分别为0.56,0.51)
赞均浏览38.29,仅次于开复大神,和张公子,名列第三
答均字数是39位知友中唯一破1000的,位列第一

这可是只有不到7000关注者的知友啊!!他的话题主要是建筑学,没有大热话题收割机啊!!

唯一可以说说的是他目前答案还太少,才141个,未来回答多了,数据是否会变化,值得关注。
来知乎也才134天,平均每天作答1.05个,知乎运营团队应该好好关注下啊,毫无疑问的优质潜力知友,未来可必定是建筑类话题领域的一大神啊。

知友8: 关注者:1816


这位知友的数据。。。怎么说呢,话题不缺浏览数和热度答均浏览4800+的数字远高于各位知友的平均值,在所有知友内排第5,不缺投入,答均457字在39位知友中也属于中上水平,话题专注也不错。但是收获赞同的情况颇不理想。
神话题:调查类问题的展现。

知友9:关注者 548人


恩,这位知友的数据。。。
赞答比0.99,39位知友中倒数第二
答均字数22.2,39位知友中倒数第一
日均答题:22.21,39位知友中第一
答均评论:0.59,39位知友中倒数第一(引起不了兴趣和互动啊)
最诡异的数据是藏赞比是0.01,藏赞比不是藏答比啊,槽王三表哥在10万粉的簇拥下也就是0.08的水平啊。


IV 分析
我将39位知友中,知乎运营者3位去除,剩下36位知友,按照粉丝数量分为三个区间,做了一些统计:
20000粉丝以上:15位 称为为A区间
1000~20000粉丝:7位 称为B区间
1000粉丝以下:14位 称为C区间

做了一下分析,发现以下规律:

虽然有上面的建筑潜力大牛知友的特例,但是赞答比和用户的粉丝数量是强线性关联,其相关系数是0.853,这两者数字本来就是相互促进的事情,但是粉丝数量对赞答比的影响更直接一些,说明总得来说知乎光环效应是存在的。赞答比作为一个独立指数,价值并不大。(前不久有知友专门强调赞答比来着)

答案字数越多越容易获得赞同?初看似乎确实是这样,但是实际上答均字数和赞同数的相关系数总体只有0.330 ,对于不同的知友,字数多寡的价值完全不同。其中有一位知友的字数的赞同的相关系数达到了0.77,在其专注的话题内,这一关联系数达到了逆天的0.99,几乎就是硬相关了,潜力大大的啊(他的关注者只有181人)
而大多数知友,字数和赞同的相关系数都不高,甚至有部分知友是负相关。
大部分知友(72.2%),在其专注话题内,答案字数和赞同数的关联,比起他自己的平均数值,明显提高
    简单的说就是,一般来说,知友在自己专注和擅长的领域里,回答字数越多,获得赞同越多的几率就越大。回答字数越多是不是越容易获得赞同?哪得看你是谁,也得看你回答什么话题。

一图胜千言?事实上,只有两位知友答案中图片和赞同的相关系数超过0.4.。。。

回答的问题越热门越容易获得赞同?事实上,名人大牛的光环能够保证自己的答案曝光率不要太低,而平均来说,答题的曝光率,名人大牛未必会更高:

36位样本知友中,平均所答问题浏览量最高的两位,事实上都是C区间知友,甚至远超A1(开复先生),他们很会挑问题,但是这并没有帮助他们获得更多赞同和赞答比。
而和字数相关一样,大部分知友(77.78%)的答案获得赞与浏览次数相关的相关度,在其擅长的话题内,有明显提高,越是大牛用户,在其专注的领域,就越显得更专业:



越是明星大牛用户,一般来说,其话题相对越集中,越专注:(开复先生貌似是个例外,可能和他答题较少有关)


91.6%的用户,其答案回答时间和其获得的赞同是负相关,证明知乎考古事业有很大潜力可挖。


回答时间久的答案,好处是获得更多浏览的机会比较大,缺点是过了热度过了被翻出来的机会更小,现在明显是后者占了主导

V 小结
篇幅所限,贴图太多,老出现红叉叉,暂且就贴这么多了。

对于知乎获得赞同这件事情,数据分析后可以发现,其实浏览量因素秒杀其他所有因素(例如字数啊,图片啊等等,虽然没有数据,但是我相信什么繁体字啊,泻药啊之类的因素更是浮云)
假如要在知乎获得更多赞同,选好问题,获得更多关注固然是重要的因素(浏览量),更重要多的是,专注自己擅长的领域,提高回答的质量和自身的水平,这个因素的重要性是秒杀一切其他因素的。
虽然短时间提高自身水平有点困难,但是选好自己专注和擅长的领域,是比较容易做到的

此外,“调查类问题”,“人际关系”,“生活”是三个神话题(排名分先后),是光环下的赞同收割机。

数据中可以读出的信息有很多,我就不一一列举了,这里毕竟只是为了说明大数据的概念。

需要着重说明的是,以上分析仅仅是为了数据分析,设定了赞同获得这样一个主题,并不代表我认为或者建议大家在知乎为了获得更多赞同去努力!

当然,这个问题主旨是为了举一个和大数据有关的例子,来形象得解释大数据的概念,所以以上模型和数据分析有诸多局限之处:例如
专门找过气的热门问题回答的人,数据很难说明问题
大量清理过自己答案的,数据的表现也会比较怪异。
知乎话题和子话题的关联关系,我没有抓取相应数据和统计在内。

但总的来说,为了说明这么一个大数据的概念,应该没啥太大问题。

大数据的作用和价值,基本上就是这么一回事,呵呵。

我又再次审视检查了问题,问题里没有“ 简单明了"之类的要求,长长的舒了一口气。第一为在知乎答一个问题作了这么多的准备工作,以前最多就花个10来20分钟收集些数据,这次居然花了2个星期收集数据。。。我不得不说,最近知乎的服务器太不给力了!
不过最近知乎服务器老是提问题可不关我事啊,我是模拟WEB端鼠标操作的,2~3秒才做一下点击,不应该对服务器增加太多负荷才是。

白米Ⅲ级

赞同来自:

首先我觉得wikipedia上那句话已经够清楚了。再解释也只是用家常话同义重复而已。‘大数据’概念本身强调的是处理大数据的能力和技术,大数据的应用价值不在于它‘大’,而在于其细粒度信息的价值(微观干预的能力)。这一点的确很多人、很多出版物都没说清楚。

1 先举几个例子来说明什么是粗粒度信息,什么是细粒度信息:
  • 各省市妹纸的bra size排名是粗粒度信息,每个实名妹纸的bra size是细粒度信息;
  • 张三的九型人格类型是粗粒度信息,张三每次在某些特定情境中的行为记录是细粒度信息;
  • 一家媒体/一个品牌/一个品牌官微的影响力是粗粒度信息,这家机构每次发出的信息到达了谁、这些人产生了什么反应是细粒度信息;
  • ......

2 信息的价值是什么?信息给它的拥有者带来了什么?更直观的感受、更精细的判断、更准确的预测...这些都是某种中间目标/中间价值,而非终极目标/终极价值。信息的终极价值体现在做功:信息的使用者利用一段信息(相比于没有这段信息时)多做了一些事(这些事的价值用做功来衡量),这就是这段信息的价值。也因为如此,信息只有和与之匹配的做功机器放在一起才有价值。太阳光谱特征对太阳能电池厂家有价值,但对农民就没有价值;全国各地区妹纸的bra size对当代的bra厂家有价值,对二百年前的织布厂就没价值,因为农民和织布厂的生产只依赖粗粒度的信息(光照强度、全国人均布料消费量)。

3 所有提到‘大数据是用普查代替抽样’的类似说法,都必然说不到点子上。

为什么这么说?因为我们要搞清楚一件事:无论是抽样还是普查,都是一种宏观测量+操作视角,目的都是得到宏观观测量(研究对象的整体特征),宏观观测量是为了进行宏观干预的,宏观干预的行动效率这就是这个信息的价值极限——不管用什么方法取得这个信息,无论这个量变得多么准确。

举例来说,如果我有一台热机(heat engine),那么我需要利用温度计取得'温度'这个宏观量(至多4byte吧)指挥我的热机做功。现在有个做大数据的家伙出现了,说:你怎么还在用上个世纪的抽样方法获得的数据管理你的工作?!现在用我的xx分析仪,我可以立即给出你的热机里每个气体分子的热运动数值!他说干就干,立刻安装好全套设备,并架设好仪表板,给我一一展示:“你看这热分布与粒径分布的交叉分析,你看这涨落...这可是实时处理的mol级数据呢...”,最后呢,我必然要打断他:“这些都很好,但是我还是想知道,温度在哪显示?”

如果我拥有的不是一台普通热机,而是一台3D打印机,或者是一台纳米打印机,或者是量子计算机之类的,那么大数据对我就非常有用,这些都不是依赖于宏观观测量能做的工作。

4 大数据的应用价值很大,但现在的应用普遍错位。

在这个‘大数据‘概念刚开始被鼓吹、技术刚兴起的年代,这样的错位在现实中一再发生,这一点也不荒唐。一方面,一些大数据技术公司正在千方百计地鼓动农民和织布厂购买大数据(大数据时代的电子政务、大数据时代的品牌战略)。不是说更准确的数据对电子政务完全没价值,但是投入产出比肯定不高,因为这些数据用抽样一样可以保证精度,数据再多,热机功率也无法突破极限。

另一方面,也是更可笑的方面,是一些拥有大数据的企业,正在千方百计地把他们的数据换算成’更精确的温度‘——手握大量数据,也有微观干预的技术可行性,但是他们只想用热机的方式利用这些数据(例如某浪总想把微博定位成媒体)。

总之【更新日志:看到上面的答案互踩得挺热闹的,我也来欢乐地踩一下高票答案们】:
  • 把bra size数据归纳为’各国bra size排行榜'给娱乐新闻供稿不是大数据的价值(抽样也可实现),利用bra size数据提高陌生男女速配几率是大数据的价值(更高效率的微观干预);
  • 将市场交易信息汇总成实时数据供宏观政策决策不是大数据的价值(抽样也可实现),根据个人交易记录和行为特征降低在线交易的撮合成本是大数据的价值(更高效率的微观干预);
  • 目前排名第一答案中的『在知乎上如何能获得更多赞同?』不是大数据的价值(基于统计,抽样也可实现),问题变成『给定任意用户u,他在时间T写一个答案内容A,预测给赞的名单L=L(u,A)、L的演化L(t)=L(u,A,T)』才是大数据的价值(必须依赖细粒度信息才能实现的预测);
  • 目前排名第二答案中的举例『重建了整个罗马城的3D模型』、『糖果厂生产糖果的红绿比例是什么?』不是大数据的价值(利用了大数据,但没产生额外的价值——不用大数据也能建立罗马城的影像,也能统计颜色比例),问题变成『根据每个旅行者的个人兴趣重建最佳罗马城浏览路线』、『糖果厂改进生产流程,使出厂糖果的颜色和甜度自动匹配下单客户的口味』是大数据的价值(不用大数据无法实现)。

参考:
在 Graph Search 基础上,Facebook 能实现哪些重大进展?
大数据在网络管理中有何应用?可以举例子说明吗?

白米Ⅲ级

赞同来自:

子柳的答案虽然得票最高,但没有提及大数据在应用时最重要的特点:相关性。
大数据,简单理解就是很多很多数据,重要的是很多很多各种类型(人工判断不出或无法判断,但实际是相关的)数据。然后我们怎么发现和利用这些数据间的相关性才是大数据应用的核心
答案中提到的bra销售数据在不同cup型的分布或者基于颜色,省份的统计,这些都是相关关系如此明显的数据。在大数据时代之前,甚至是信息化之前,人工就可以统计和分析出来。单独列举这些数据来回答原PO的提问,简直是鸡同鸭讲。

还是以bra的销售数据来举例,说一个相关性没那么明显的例子:下单时间。
进入信息化社会之前,做销售的人对时间的敏感主要就是利用节假日促销,傻子都知道可以趁着妇女节、情人节、元宵节等等众多男士的受难日来搞bra的促销。
而现在,淘宝上每一张订单都有下单时间,甚至连顾客什么时候开始浏览某一件宝贝,是否经历n分钟跟售前客服的讨价还价,最后在几点几分下单成交,这些都是被收集起来的数据。
如果我们把下单时间跟bra的销售数据关联起来,通过研究找出两者的相关关系,可能得出我们根本想象不到的结果。做促销的可以专门选择在bra热销的时段投放广告,商家可以知道哪一个型号最能激发消费者的购买欲望(从浏览到成交的时间最短),消费者可能发现自己在按照固定的频率去采购bra。

相关性更加隐晦的例子可以举出很多,比如顾客日常的饮食跟bra的cup是否存在相关关系?
更复杂的,顾客购买bra的档次提高了,同时她购买的其它商品也提高了档次,穿着风格开始走职场中层女性的路线,那么是否可以推测她获得了晋升?对于做职场服装的中高档品牌,这个是从女屌丝成长起来的客户啊,现在是让客户建立品牌第一印象的大好机会。

发现数据之间的相关性,现在还需要精通数学、统计学的人去研究。以后工具成熟了,可能只需要用户在输入各种数据之后,勾选其中几个属性,软件就可以自动分析出相关关系。

利用大数据(数据的相关关系)去实现什么,只局限于你的想象力。

白米Ⅲ级

赞同来自:

排名第一淘宝那个答案只是简单的抽样分析,不是大数据。我举几个技术门槛高些的例子。

1、QQ圈子。去年3月腾讯推出的,按共同好友的连锁反应摊开你的人际关系网,把你的前女友推荐给未婚妻,同学同事朋友圈子分门别类,这个数据处理能力给人带来的震撼程度完全超过你可能认识的朋友的程度了,潜伏在人际关系深处的暗网都被铺开;

2、大数据与乔布斯癌症治疗。不要抽样数据,要全部数据。乔布斯是世界上第一个对自身所有DNA和肿瘤DNA进行排序的人,他得到的不是样本,而是包括整个基因的数据文档。由于医生可以按照所有基因按需下药,最终这种方式帮助乔布斯延长了好几年的生命。

3、谷歌翻译。谷歌2006年涉足机器翻译,谷歌翻译系统为了训练计算机,会吸收它所能找到的全部翻译。谷歌将语言视为能够判别可能性的数据,而非语言本身。假设你要将中文译作俄语,它可能会选择英语作为中介语言,因为在翻译的时候它能够适当增减词汇,灵活性提高了很多。


4、验证码与谷歌图书馆计划。所有网民都会被网站要求过填写证明你是人而非机器的验证码,这项名为“CAPTCHA”的技术在2000年被发明时是为了防止垃圾邮件和不必要的骚扰,后来发明者又寻找到了使人的计算能力得到更有效利用的方法,发送两个单词,其中一个单词用来确认输入结果,另外一个机器无法识别的字符则随机发送给五个人,直到他们都输入正确才确认这个单词。这也是我们有时明明输错了最终也能登陆的原因。2009年谷歌收购了这家做验证码公司reCAPTCHA,并将其技术用于图书扫描项目,自此全世界的网民都沦为谷歌的免费打字员。因为众包的力量,这项技术每年能为谷歌省下十多亿美元。
全文:大数据时代的好地图

白米Ⅲ级

赞同来自:

一般我都是用这个例子开始介绍大数据入门:


大数据入门,我们做个思考,以前有个国王很高兴想奖赏他的宠臣,然后说让他来提任何奖励,这个大臣给国王看下面这个棋盘,是个8*8的方格,如果我在每个标号的格子内放米粒,第一个格子放1粒米,后面的格子总是前面格子的两倍。那么问题来了,如果我把整个棋盘放满,需要多少米粒?我们学过级数的话,可以快速做个演算,它的推演是 1 + 2 + 4 ... + 2^63 = 2^64 - 1 这个数字多大很多人没印象,反正如果真的要兑现的话,这个国家肯定是破产了。其实我把这个棋盘分成上下两半,在上一半总共需要的米粒是2^32, 这并不是个很大的数,其实前几年计算机的32位就是那么大,但下半场就完全不一样了,这是个平方级别的scale,宇宙中所有沙砾都标号也不需要这么大的数字。现在大家也经常听到什么手机64位处理器,其实并无实际意义。



应用场景很多:

大数据的用途,所谓学以致用,大数据领域在各个行业都可以应用,这里举出几个有趣的例子,在Linkedin的时候,CEO提出经济图谱的概念,希望整合用户,公司,工作机会,技能,学校,帖子变成一个复杂而有蕴含无限可能的数字化社会。找对象,有个国外的极客,他抓取了dating网站的数据,根据有些指标如地理,年龄,兴趣,建立下面的3D模型找到真爱;例如阿里巴巴通过数据魔方(它们的大数据产品),提炼出消费跟女生胸部成正比的结论。在移动App上,今日头条通过你的个人社会化信息,建立起兴趣图谱推荐文章并且随着你的使用会越来越聪明;在线教育领域:MOOC中的M就是大规模的意思;其他如互联网金融人人贷,通过大数据积累信用,释放一些传统金融体系下未被满足而又广泛存在的巨大需求,最近也是拿到1.3亿美金的融资。硅谷有家Wealthfront做大数据理财,23andMe提供个人基因组的“大数据“。等等
大数据公司

2014年总结的Big Data公司列表,我们大致可以分成基础架构和应用,而底层都是会用到一些通用技术,如Hadoop,Mahout,HBase,Cassandra,我在下面也会涵盖。在分析这一块,Cloudera,Hortonworks,MapR作为Hadoop的三剑客,一些运维领域,MangoDB,Couchbase都是NoSQL的代表,作为服务领域AWS和Google BigQuery剑拔弩张,在传统数据库,Oracle收购了MySQL,DB2老牌银行专用,Teradata做了多年数据仓库。上面的Apps更多,比如社交消费领域Google, Amazon, Netflix, Twitter, 商业智能:SAP,GoodData,一些在广告媒体领域:TURN,Rocketfuel,做智能运维Sumologic等等。去年的新星 Databricks 伴随着Spark的浪潮震撼Hadoop的生态系统。
中国的大数据


对于迅速成长的中国市场,大公司也意味着大数据,BAT三家都是对大数据的投入也是不惜余力,我4年前在Baidu的的时候,就提出框计算的东东,最近两年成立了硅谷研究院,挖来Andrew Ng作为首席科学家,研究项目就是百度大脑,在语音,图片识别大幅提高精确度和召回率,最近还做了个无人自行车非常有趣。腾讯作为最大的社交应用对大数据也是情有独钟,自己研发了C++平台的海量存储系统。淘宝去年双十一主战场,2分钟突破10亿,交易额突破571亿,背后是有很多故事,当年在百度做Pyramid(按Google三辆马车打造的金字塔三层分布式系统)有志之士,继续在OceanBase创造神话。而阿里云当年备受争议,马云也怀疑是不是被王坚忽悠,最后经历了双十一的洗礼证明了OceanBase和阿里云的靠谱。小米的雷军对大数据也是寄托厚望,一方面这么多数据几何级数增长,另一方面存储带宽都是巨大成本,没价值就真破产。

白米Ⅲ级

赞同来自:

花时间看了上面的答案,大家都很分享精神。赞一个。

“很多人还没搞清楚什么是PC互联网,移动互联网来了,我们还没搞清楚移动互联的时候,大数据时代又来了。”——马云卸任演讲


本文尝试从三大产业的角度解释大数据的应用及价值。
我们知道:
  1. 第一次工业革命以煤炭为基础,蒸汽机和印刷术为标志,
  2. 第二次工业革命以石油为基础,内燃机和电信技术为标志,
  3. 第三次工业革命以核能基础,互联网技术为标志,
  4. 第四次工业革命以可再生能源为基础,_______技术为标志。
空白处你会填上什么?欢迎大家讨论。目前可以预测的是,数据和内容作为互联网的核心,哪个行业首先与互联网融合成功,从海量的数据金矿中发现暗藏的规律,就能够抢占先机,先发制人。

一、大数据的应用
大数据时代已经到来,根据IDC和Mckinsey的大数据研究报告。大数据挖掘商业价值的方法主要分为四种:
  1. 顾客群体细分,然后对每个群体量体裁衣般地采取独特的行动。
  2. 模拟实际环境,发掘新的需求同时提高投入的回报率。
  3. 加强各部门联系,提高整个管理链条和产业链条的投入回报率。
  4. 发现隐藏线索,进行产品和服务的创新。

Mckinsey列出了各个行业利用大数据价值的难易度以及发展潜力。《Big data: The next frontier for innovation, competition, and productivity》(后有下载链接)

所以从理论上来看:所有产业都会从大数据的发展中受益。而由于数据缺乏以及从业人员本身的原因,第一、第二产业的发展速度相对于第三产业来说会迟缓一些。
1985年,我国国家统计局明确地把我国产业划分为三大产业:
  1. 农业(包括林业、牧业、渔业等)定为第一产业。
  2. 工业(包括采掘业、制造业、自来水、电力、蒸汽、煤气)和建筑业定为第二产业。
  3. 把第一、二产业以外的各行业定为第三产业。

第三产业即除第一、第二产业以外的向全社会提供各种各样劳务的服务性行业,主要是服务业。其中第三产业可具体分为两大部门:一是流通部门;二是服务部门。再细分又可分为四个层次:
  1. 第一层次,流通部门。包括交通运输行业、邮电通讯行业、物资供销和仓储行业。
  2. 第二层次,为生产和生活服务的部门。包括金融业、商业饮食业、保险业、地质普查业、房地产业、公用事业、技术服务业和生活服务修理业务;
  3. 第三层次,为提高科学文化水平和居民素质服务的部门。包括教育文化、广播电视事业、科学研究事业、卫生、体育和社会福利事业;
  4. 第四层次,为社会公共需要服务的部门。包括国家机关、党政机关、社会团体、以及军队和警察公安司法机关等。

我们可以看出,由于某些客观原因,相对于第一产业和第二产业来说,第三产业凭借自身的优势,大多汇聚了当前最海量的数据以及大批的科研中坚力量。接下来让我们看一些典型例子,当前新形势下与三大产业密切相关的大数据应用。
(1).第一产业
孟山都是一家美国的跨国农业生物技术公司,其生产的旗舰产品抗农达,即年年春(Roundup)是全球知名的嘉磷塞除草剂,长期占据市场第一个位置。该公司目前也是基因改造(GE)种子的领先生产商,占据了多种农作物种子70%–100%的市场份额,而在美国本土,更占有整个市场的90%。已经统治了生物工程种子业务超过十年。

孟山都首先发起“Green Data Revolution”运动,建立农业数据联盟(Open Ag Data Alliance)来统一数据标准,让农民不用懂“高科技”也能享受大数据的成果。典型的应用如农场设备制造商John Deere与DuPont Pioneer当前联合提供“决策服务(Decision Services)”,农民只需在驾驶室里拿出平板电脑,收集种子监视器传来的数据,然后将其上传给服务器,最终服务器返回化肥的配方到农场拖拉机上。

The Climate Corporation为农民提供Total Weather Insurance (TWI)——涵盖全年各季节的天气保险项目。利用公司特有的数据采集与分析平台,每天从250万个采集点获取天气数据,并结合大量的天气模拟、海量的植物根部构造和土质分析等信息对意外天气风险做出综合判断,然后向农民提供农作物保险。前不久从Google Ventures、Founders Fund等多家公司获得超过5000万美元的风险投资。 2013年被孟山都收购。

  • 土壤抽样分析服务商(Solum, Inc,农业
Solum目标是实现高效、精准的土壤抽样分析,以帮助种植者在正确的时间、正确的地点进行精确施肥。农户既可以通过公司开发的No Wait Nitrate系统在田间进行分析即时获取数据;也可以把土壤样本寄给该公司的实验室进行分析。2012年获得Andreessen Horowitz 领投的1700万美元投资后,已累计融资近2000万美元。

了解更多:
大数据对于农业的发展会带来什么影响?或具体到对农场经营会有什么启示或者带来什么样的变化?

(2).第二产业
2013年9月,工业和信息化部发布了《关于印发信息化和工业化深度融合专项行动计划(2013-2018年)》的通知。明确提出推动物联网在工业领域的集成创新和应用:

实施物联网发展专项,在重点行业组织开展试点示范,以传感器和传感器网络、RFID、工业大数据的应用为切入点,重点支持生产过程控制、生产环境检测、制造供应链跟踪、远程诊断管理等物联网应用,促进经济效益提升、安全生产和节能减排。


大数据的业务多是数据驱动型,具有数据量大、种类多、实时性高的特点。工业企业对数据的记录以往看来主要分为两种方法:传统的纸笔和Excel电子表格记录。这些操作起来看似简单的数据管理方式为企业生产及质量监控埋下了巨大的隐患,也让数据挖掘无从谈起。

随着信息化与工业化的融合发展,信息技术渗透到了工业企业产业链的各个环节。例如Sensor、RFID、Barcode、物联网等技术已经在企业中得到初步应用,工业大数据也开始逐渐得到积累。企业中生产线高速运转时机器所产生的数据量不亚于计算机数据,而且数据类型多是非结构化数据,对数据的实时性要求也更高。因此工业大数据所面临的问题和挑战很多,所以通用电气公司(General Electric)的副总裁兼全球技术总监William Ruh认为相对于工业大数据来说,工业互联网(Industrial Internet)才是当前急需的,因为大数据本身并没有让信息的提取更加智能,业务比数据本身更加重要。他举了一个核磁共振成像扫描的例子:

Here’s an example. An MRI scan is the best way to see inside the human body. While effective in helping to diagnose multiple sclerosis, brain tumors, torn ligaments and strokes, the data produced by an MRI machine is disconnected from the person that needs it the most.
At a very simplistic level, there are many individuals working as a team to make the scan happen. A nurse administers medications or contrast agents that may be needed for the exam; an MRI technologist operates the scanner; and a radiologist identifies the imaging sequences to be used and interprets the images. This information is then given to the nurse, who then passes it to the primary doctor to review and take action accordingly. This is Big Data, but it is not making information more intelligent.


又如在工业中,压力、温度等数据的特点是需要语境才能理解的。燃气轮机排气装置上的温度读数与一台机车的内部温度是完全不同的。燃气轮机改善热敷需要使用非常复杂的算法运行模型。在笔记本电脑上,一个典型的查询要获得答案一般需要三个星期。在基于大数据的分布式系统上发布同样的查询执行一种计算只需要不到一秒钟。

德国汉德技术监督服务有限公司的前身是德国锅炉检验协会(简称DÜV)早在1869年,德国锅炉检验协会就承担了德国国内所有锅炉运行安全的检验工作,保证了锅炉生产的安全。渐渐的,德国锅炉检验协会取得了德国政府的授权,开展对其他产品的检验工作,从采矿,电力系统开始,到压力容器,机动车辆,医疗设备,环境保护,宇航工业,医疗产品等等,现在的德国汉德技术监督服务有限公司已经成为了许许多多产品的安全代号。主要体系认证包括企业质量管理体系,生产环境体系,生产碳排放方案等。DÜV当前从建筑绿色标准体系方面提出了对于大数据能源管理的探索,以微软新总部,蒂森克虏伯电梯总部为例,在整个项目实施中引入大数据能源管理,在建筑的设计规划阶段、施工阶段、运营阶段等多个阶段通过数据化的能源管理系统,实现建筑的低碳、绿色、智能。

Wonderware作为系统软件涉及的专业企业,对于大数据的计算和运用是从比较“IT”的角度出发的。Wonderware 的实时数据管理软件能够提供一个工厂所需要的从建立到报废的所有实时数据。目前已经退出移动版本,工程总监在手机上就能够随时随地监控设备的运行状况。目前全球超过三分之一的工厂应用Wonderware公司的软件解决方案。

了解更多:
大数据在电力行业的应用前景有哪些?

(3).第三产业
  • 健康与医疗:Fitbit® Official Site: Flex, One and Zip Wireless Activity and Sleep Trackers的健身腕带可以收集有关我们走路或者慢跑的数据,例如行走步数、卡路里消耗、睡眠时长等数据与健康记录来改善我们的健康状况。Early Detection of Patient Deterioration等公司正在开发床垫监测传感器,自动监测和记录心脏速率、呼吸速率、运动和睡眠活动。该传感器收集的数据以无线方式被发送到智能手机和平板电脑,进行进一步分析。美国公共卫生协会(APHA: American Public Health Association)开发Flu Near You用来的症状,通过大数据分析生成报告显示用户所在地区的流感活动。
  • 房地产:针对建设、改造和翻新住宅的“一站式商店”Find Great Remodeling Contractors. Home Improvement Begins with Buildzoom.拥有约250万承包商、5万以上客户意见信息,来帮助50万用户带来更多客观性和透明度的决策意见。智能电视和机顶盒能够追踪你正在看的内容,看了多长时间,甚至能够识别多少人坐在电视机前,来确定这个频道的流行度。
  • 交通:每天坐公交,智能手机会为我们预测公共汽车到达的时间车来了;开车的时候发送位置信息以及速度,然后结合实时交通信息为我们提供最佳路线,从而避免堵车。WNYC开发的Transit Time NYC让纽约人可以点击纽约市的五个区域来获取地铁或火车的时间。他们从开源行程平台OpentripPlanner获取数据,并将这些数据域公开下载的地铁时间表结合来创造400万虚拟旅程。实时车辆交通数据采集商INRIX速 Traffic可以帮助你避开堵车,每位用户在使用过程中会给服务器发送实时数据,比如走的多快,走到哪里,这样每个客户都是探测器。
  • 购物:Decide帮助人们做购买决策,预测产品的价格趋势,告诉消费者什么时候买东西最便宜,做法是通过在全球各大网站上搜集数以十亿计的数据进行分析。
  • 政治:奥巴马在总统竞选中使用大数据分析来收集选民的数据,让他可以专注于最有可能投他的选民,谷歌执行董事长Eric Schmidt当时向奥巴马的大数据分析团队投资数百万美元并聚拢核心成员成立了Civis Analytics咨询公司,该公司将会将在奥巴马连任竞选中所获得的经验应用到企业和非营利行业中去。
  • 金融:ZestFinance | Big Data Underwriting 是由是Google的前任 CIO—Douglas Merrill创立金融数据分析服务提供商,使用机器学习算法和大数据为放款者提供承保模式,旨在为那些个人信用不良或者不满足传统银行贷款资格的个人提供服务。公司使用分析模型对每位信贷申请人的上万条原始信息数据进行分析,只需几秒时间便可以得出超过十万个行为指标。这家公司经历了近 4年的成长,能够分析的数据量比有资格进行次级信贷的美国人的数量的 2 倍还多,其违约率也比行业平均水平低 60%左右。另外不得不提到风险管理信用技术的先驱者FICO | Predictive Analytics, Big Data Analytics and FICO Credit Scores,通过大数据分析为银行和信用卡发卡机构、保险、医疗保健、政府和零售行业提供服务。FICO 信用分计算的基本思想是:把借款人过去的信用历史资料与数据库中的全体借款人的信用习惯相比较,检查借款人的发展趋势跟经常违约、随意透支、甚至申请破产等各种陷入财务困境的借款人的发展趋势是否相似。FICO 已经为三分之二的世界 100 强银行提供服务,提高了客户忠诚度和盈利率、减少欺诈损失、管理信贷风险、满足监管与竞争要求并快速获取市场份额。
  • 电信: 美国T-mobiles采用Informatica - The Data Integration Company平台开展大数据工作,通过集成数据综合分析客户流失的原因,根据分析结果优化网络布局为客户提供了更好的体验,在一个季度内将流失率减半;韩国 SK telecom新成立一家公司SK Planet,通过大数据分析用户的使用行为,在用户做出决定之前推出符合用户兴趣的业务防止用户流失。美国AT&T - 4G LTE, 公司将记录用户在Wifi网络中的地理位置、网络浏览历史记录以及使用的应用等数据销售给广告客户。比如当用户距离商家很近时,就有可能收到该商家提供的折扣很大的电子优惠券。英国BT - Broadband公司发布了新的安全数据分析服务Assure Analytics—BT news releases,帮助企业收集、管理和评估大数据集,将这些数据通过可视化的方式呈现给企业,帮助企业改进决策。
以上只是冰山一角,欢迎大家补充。
二、大数据的定义
大数据(Big Data)是指“无法用现有的软件工具提取、存储、搜索、共享、分析和处理的海量的、复杂的数据集合。”业界通常用4个V(即Volume、Variety、Value、Velocity)来概括大数据的特征。
  1. 数据体量巨大(Volume)。截至目前,人类生产的所有印刷材料的数据量是200PB(1PB=210TB),而历史上全人类说过的所有的话的数据量大约是5EB(1EB=210PB)。当前,典型个人计算机硬盘的容量为TB量级,而一些大企业的数据量已经接近EB量级。
  2. 数据类型繁多(Variety)。这种类型的多样性也让数据被分为结构化数据和非结构化数据。相对于以往便于存储的以文本为主的结构化数据,非结构化数据越来越多,包括网络日志、音频、视频、图片、地理位置信息等,这些多类型的数据对数据的处理能力提出了更高要求。
  3. 价值密度低(Value)。价值密度的高低与数据总量的大小成反比。以视频为例,一部1小时的视频,在连续不间断的监控中,有用数据可能仅有一二秒。如何通过强大的机器算法更迅速地完成数据的价值“提纯”成为目前大数据背景下亟待解决的难题。
  4. 处理速度快(Velocity)。这是大数据区分于传统数据挖掘的最显著特征。根据IDC的“数字宇宙”的报告,预计到2020年,全球数据使用量将达到35.2ZB。在如此海量的数据面前,处理数据的效率就是企业的生命。

看看专家们怎么说。
  • Gartner,独立的咨询公司

Big data is high-volume, high-velocity and high-variety information assets that demand cost-effective, innovative forms of information processing for enhanced insight and decision making.

“大数据”四大特性:高容量、高增长率,高维度,高性价比。
不是随机样本,而是全体数据;不是精确性,而是混杂性;不是因果关系,而是相关关系。

大数据时代下的核心,预测分析已在商业和社会中得到广泛应用。随着越来越多的数据被记录和整理,未来预测分析必定会成为所有领域的关键技术。

从数据的类别上看,“大数据”指的是无法使用传统流程或工具处理或分析的信息。 它定义了那些超出正常处理范围和大小、迫使用户采用非传统处理方法的数据集。

、大数据的价值
看了上面一系列的例子,相信每个人的心中关于大数据的价值都有了自己的答案。

2010年《Science》上刊登了一篇文章指出,虽然人们的出行的模式有很大不同,但我们大多数人同样是可以预测的。这意味着我们能够根据个体之前的行为轨迹预测他或者她未来行踪的可能性,即93%的人类行为可预测。
以下是原文:

Limits of Predictability in Human Mobility
A range of applications, from predicting the spread of human and electronic viruses to city planning and resource management in mobile communications, depend on our ability to foresee the whereabouts and mobility of individuals, raising a fundamental question: To what degree is human behavior predictable? Here we explore the limits of predictability in human dynamics by studying the mobility patterns of anonymized mobile phone users. By measuring the entropy of each individual’s trajectory, we find a 93% potential predictability in user mobility across the whole user base. Despite the significant differences in the travel patterns, we find a remarkable lack of variability in predictability, which is largely independent of the distance users cover on a regular basis.


大数定理告诉我们,在试验不变的条件下,重复试验多次,随机事件的频率近似于它的概率。“有规律的随机事件”在大量重复出现的条件下,往往呈现几乎必然的统计特性。

举个例子,我们向上抛一枚硬币,硬币落下后哪一面朝上本来是偶然的,但当我们上抛硬币的次数足够多后,达到上万次甚至几十万几百万次以后,我们就会发现,硬币每一面向上的次数约占总次数的二分之一。偶然中包含着某种必然。


实验的重复、数据的积累让预测未来不再是科幻电影里的读心术。

你能获得的数据量越大,你能挖掘到的价值就越多

  • 如果银行能及时地了解风险,我们的经济将更加强大。
  • 如果政府能够降低欺诈开支,我们的税收将更加合理。
  • 如果医院能够更早发现疾病,我们的身体将更加健康。
  • 如果电信公司能够降低成本,我们的话费将更加便宜。
  • 如果交通动态天气能够掌握,我们的出行将更加方便。
  • 如果商场能够动态调整库存,我们的商品将更加实惠。

最终,我们都将从大数据分析中获益。

四、结束语。

Here's the thing about the future.关于未来有一个重要的特征
Every time you look at it,每一次你看到了未来
it changes because you looked at it.它会跟着发生改变 因为你看到了它
And that changes everything else.然后其它事也跟着一起改变了

推荐一部电影:预见未来 (豆瓣)

祝每一个DMer都挖掘到金矿和快乐:)





参考文献:
[1].什么是大数据时代的思维?《大数据时代》作者维克托迈尔舍恩伯格的演讲
[2].中国的第三产业包括哪些内容?
[3].New movie damns Monsanto's deadly sins
[4].American farmers confront 'big data' revolution
[5].The Industrial Internet: Even Bigger Than Big Data
[6].《信息化和工业化深度融合专项行动计划(2013-2018年)》印发
[7].Big data: The next frontier for innovation, competition, and productivity
[8].gartner.com
[9].audit.gov.cn
[10]"掘金"大数据
[11].中国金融行业大数据应用市场研究白皮书

图灵Don 白米Ⅱ级

赞同来自:

农业时代的基本生产要素:土地、劳动力、气候、水;

工业时代的基本生产要素:机器、厂房、资本、劳动力、能源;

信息时代的基本生产要素:信息数据;

注意,信息数据已经成为基本生产要素。在新的时代,你占有信息数据,跟你在以前有粮食、有房产一样的。农业时代的地主,工业时代的企业家,信息时代的数据搜集师,具有一致的重要性。

数据不同于实体物质的一点是,它可以反复利用,且不损耗。就像我在《未来知识图谱》搜集很多数据,这些数据可以反复使用,不断发挥价值。


什么是大数据、什么是数据挖掘,通俗解释:

以山西开矿的煤老板为例:

开矿的前提是有矿,包括煤矿的储藏量,储藏深度,煤的成色。之后是挖矿,要把这些埋在地下的矿挖出来,需要挖矿工,挖矿机,运输机。

之后是加工,洗煤,炼丹,等等。最后才是转化为价值。

数据行业十分类似:

挖掘数据的前提是有数据,需要判断数据的储藏量,储藏深度,数据的成色。在这方面,现在的电子商务公司(阿里巴巴、亚马逊、京东),搜索引擎(谷歌、百度),社交网站(FB、腾讯、微博、LinkedIn),金融公司(蚂蚁金服,陆金所),这些公司占有海量数据,具有绝对优势。

如果有人将这些跨平台的海量数据整合,价值更是不可限量。2013年,麻省理工学院的德蒙鸠依发表过一篇论文,证明了只需要知道同一部手机的四个位置点和相应时间,就可以95%的准确率定位一个用户。你是谁,性别,年龄,喜好,消费习惯,社交关系,数据比你更懂你;甚至可以说,你在网络上活动频繁,等于在裸奔。

但占有数据不等于就有价值。还需要把这些埋藏的数据挖掘出来,把这些数据可视化输出,指导分析、商业实践。

直到这一步,才创造了价值。


丨订阅《未来知识图谱》请私信暗号:2046
丨探讨移动互联网O2O、互联网金融、智能家居问题,我的微博:Sina Visitor System
匿名用户

匿名用户 白米Ⅲ级

赞同来自:

看了看排名第一的答案,真的很符合知乎的流行风格。

前两天读了本关于大数据的书,这里做些摘抄,可能对提问者有帮助



Viktor Mayer-Schonberger

Kenneth Cukier



大数据时代处理数据理念的三个转变:

1 要全体不要抽样

2 要效率不要绝对精准

3 要相关不要因果

4 大数据也会经历硅谷臭名昭著的技术成熟度曲线(炒作周期),经过新闻媒体和学术会议的大肆宣传后,新技术趋势一下跌到谷底,许多数据创业公司岌岌可危

5 真正的革命不在于分析数据的机器,在于数据本身和我们如何运用数据

6 人类储存信息量的增长速度比世界经济的增长速度块四倍,而计算机数据处理能力的增长速度则比世界经济的增长速度块9倍

7 大数据使得人类对数据的看法由因果关系转向相关关系

8 全数据模式:样本=总体

9 大数据是指不用随机分析法这样的捷径,而采用所有数据的方法

10 我们总是习惯的把统计抽样看做文明得以建立的牢固基石,就如同几何学定理和万有引力定律一样。但是统计抽样其实只是为了在技术受限定的特定时期,解决当时存在的一些特定问题而产生的,其历史尚不足一百年。如今,技术环境已经有了很大的改善。在大数据时代进行抽样分析就像是在汽车时代骑马一样。在某些特定的情况下,我们依然可以使用样本分析法,但这不再是我们分析数据的主要方式。慢慢的,我们会完全抛弃样本分析。

11 大数据的相关关系分析法更准确,更快,而且不容易受偏见的影响。

12 渐渐的,公司所持有和使用的数据也渐渐纳入了无形资产的范畴

13 大数据将要求一个新的人群来扮演这种角色,也许他们会被称作“算法师”。他们有两种形式:在机构外部工作的独立实体和机构内部的工作人员- 正如公司内部的会计人员和进行鉴证的外部审计师。

这些新的专业人员是计算机科学,数学和统计学领域的专家,他们将担任大数据分析和预测的评估专家。他们必须保证公正和保密,就像现在的审计员和其他专业人员所做的一样。他们可以评估数据源的挑选,分析和预测工具的选择,甚至包括运算法则和模型,以及计算结果是否正确合理。







书上标明的利用大数据的实例:

1 2009年,google通过分析5000万条美国人最频繁检索的词汇和美国疾病中心在2003年到2008年间季节性流感传播时期的数据进行了比较,通过分析人们的搜索记录赖判断人们是否患上了流感,建立了一个特定的数学模型。最终google成功预测了2009冬季流感的传播甚至可以具体到特定的地区和州。



2 2003年,Oren Etzioni 建立了Farecast公司,利用大数据,预测机票的价格走势以及增降幅度,能帮助消费者抓住最佳购买时机。

具体操作方法:Oren 找到了一个行业机票预订数据库,通过每一条航线上每一驾飞机内的每一个座位一年内的综合票价记录,得到一个预测结果。



3 Mark Duggan 利用大数据分析11年间64000场摔跤比赛的记录,来寻找异常性。



4 google的翻译利用大量数据来提升自身的准确度,而不是使用更好的算法。



5 MIT , The Billion Prices Project, 美国劳工局每个月都要公布CPI , 这些数据对投资者非常重要。 MIT的Alberto Cavell 和 Oberto Rigobon通过一个软件在互联网上收集信息,他们每天可以收集到50万种商品的价格。这个项目在2008年9月雷曼兄弟破产后就发现了通货紧缩趋势,然而依赖官方数据的人到11月份才知道。

淘宝消费指数:TCPI



6 沃尔玛就是利用大数据把蛋挞在季风季节放在最前面



7 大数据,Target, 女性怀孕。



8 纽约Con Edison公司通过大数据来有针对性的对井盖进行维护。



9 Matthew Fontaine Maury 利用大数据为美国海军制定新的航海路线,使得航海路程减少了三分之一。



10 google利用公路上的手机预测交通变化



11 flyontime 预测机场天气

白米Ⅲ级

赞同来自:

讲一个段子~

某必胜客店的电话铃响了,客服人员拿起电话。
客服:必胜客。您好,请问有什么需要我为您服务?
顾客:你好,我想要一份……
客服:先生,烦请先把您的会员卡号告诉我。
顾客:16846146***。
客服:陈先生,您好!您是住在泉州路一号12楼1205室,您家电话是2646****,您公司电话是4666****,您的手机是1391234****。请问您想用哪一个电话付费?
顾客:你为什么知道我所有的电话号码?
客服:陈先生,因为我们联机到CRM系统。
顾客:我想要一个海鲜比萨……
客服:陈先生,海鲜比萨不适合您。
顾客:为什么?
客服:根据您的医疗记录,你的血压和胆固醇都偏高。
顾客:那你们有什么可以推荐的?
客服:您可以试试我们的低脂健康比萨。
顾客:你怎么知道我会喜欢吃这种的?
客服:您上星期一在国家图书馆借了一本《低脂健康食谱》。
顾客:好。那我要一个家庭特大号比萨,要付多少钱?
客服:99元,这个足够您一家六口吃了。但您母亲应该少吃,她上个月刚刚做了心脏搭桥手术,还处在恢复期。
顾客:那可以刷卡吗?
客服:陈先生,对不起。请您付现款,因为您的信用卡已经刷爆了,您现在还欠银行4807元,而且还不包括房贷利息。
顾客:那我先去附近的提款机提款。
客服:陈先生,根据您的记录,您已经超过今日提款限额。
顾客:算了,你们直接把比萨送我家吧,家里有现金。你们多久会送到?
客服:大约30分钟。如果您不想等,可以自己骑车来。
顾客:为什么?
客服:根据我们CRM全球定位系统的车辆行驶自动跟踪系统记录。您登记有一辆车号为SB-748的摩托车,而目前您正在解放路东段华联商场右侧骑着这辆摩托车。
顾客:当即晕倒......
匿名用户

匿名用户 白米Ⅲ级

赞同来自:

夜深人静的时候悄悄来答一个,已经有那么多答案了估计也没啥人会注意= = 由于资料原文是英文,我在数据分析领域又是个完全外行,很怕名词翻译得不准确闹笑话,所以有不确定的就引用原文,并不是装逼...

最近刚好在研究一个做大数据的上市公司,叫splunk,当初读卖方报告的时候累死累活地想搞清楚大数据到底是个什么概念,到现在貌似也没全搞清楚。按照我目前的理解,大数据是和传统的structured data相对应,指用传统Business intelligence软件不可分析的unstructured data,例如log file, click stream, 社交网络数据,视频等。其中unstructured data又分human generated和machine data,根据摩根斯坦利分析,machine data约占总unstructured data的15%。Splunk是做machine data这块的索引和分析的。

之前提到,在splunk这样的软件出现之前,Business intelligence的供应商像SAP, Oracle, IBM这些,都只做structured data的分析。以下是结构化数据的两种类型图:






由此可见,要分析结构化数据的前提就是定义数据结构,而企业在运营中产生的非结构化数据的特点之一就是数据结构非常多样化,这导致了绝大部分数据无法被relational database所分析,即使有少部分可以,把那些数据塞到结构化的框架里所花费的成本也远远大于收益。

于是,在新时代的感召下,锵锵锵——Splunk诞生了!(我真的不是做广告的...)

它的卖点之一就是无需提前定义数据结构,可以实时汇总、索引和分析企业运营中产生的所有machine data(包括应用日志、web、点击流、配置文件等等等等由设备产生的数据)。不要问我他们是怎么做到的,我要是知道我也能去开上市公司了...

然后就回到了楼主的问题,分析这些数据的应用价值在哪?

以下是splunk提供的一些案例:

案例1:梅西百货在促销期间每分钟会收到130个订单和1000000+AUDV,他们只能多加两倍(tripled)服务器的数量来防止页面在关键时刻挂掉。以前,一旦这些服务器中的一个或者其他环节出了问题造成系统瘫痪,IT部门要手动查找问题的来源,有些问题比如hung thread也许完全无害,也许会造成灾难性后果,所以这个过程通常要花好几个小时。现在有了splunk,他们得以实时监控所有的系统数据并且设定报警,一旦有异常,分析员可以马上挖掘到数据来源,然后在造成系统崩溃之前修复或者隔离,成功地在假日购物季实现0系统瘫痪,以往每个系统瘫痪造成的损失在$100,000。对梅西百货来说splunk给他们带来$5,000,000收益。

案例2:美国一家通信服务运营商MetroCPS发现有些用户共享了他们的“无限通话套餐”,通过实时监控和分析信号塔的log可以能找出这样的不良用户,也可以通过通话流量和信号塔performance的相关性分析提前掌握到可能会失去信号的时间。

案例3:一家日本电梯生产商(三菱重工大概= =)用splunk索引进入电梯时刷卡得到的数据,通过这些数据可以得知电梯的流量、时间段、建筑物的总流量等等。

先举三个例子,发现自己的翻译语言功底果然烂到死,回头再修改...
匿名用户

匿名用户 白米Ⅲ级

赞同来自:

大数据是大公司为了卖大钱而提供的大概念,大部分内容是大忽悠。

小工程师为了跳个小槽涨个小工资可以学习学习。

不做运营数据分析的公司根本无法长久,所以关于数据分析的工作一直没有停过。而微软,IBM,Oracle 的目标是不断的通过Data Warehouse, BI, Big Data等概念推销他们的方案。可实际上,作为基础设施软硬件提供商,他们真没有他们的目标客户更懂得数据,不管是大数据还是小数据。

而真正做运营的公司,不会给你谈大概念,只会关心具体的数据分析问题,比如netflix会关心如何提高推荐准确度,酒店集团会关心如何提高每个客房带来的收入。一旦讨论到具体问题,这些大概念大方法论就帮不上什么忙了。

白米Ⅲ级

赞同来自:

于百万军中取上将之头,如探囊取物耳。
------------------------------------------------------------
说这句话不是为了装逼。而是想说,以往的数据更依赖于样本分析,没有条件做大数据。所以不同途径拿到的样本结果一定有各自的偏差,例如你在全国的党员和非党员中发起一项调查,“中国公务员的收入是否太低了?”我相信结论一定不同。
而理想状态的大数据,应该是手中握有百万军,在必要的时候可以拿出“会钩镰枪的”“会发冷箭的”“善于偷东西的”“有背景的”等各种精准数据人群。

小宇宙 白米Ⅲ级

赞同来自:

可参考:大数据最核心的价值是什么? - 小宇宙的回答
“大数据”这个概念大约是从2011年开始火起来的,如果从Apache
Hadoop项目的正式启动算起,海量数据的分布式存储、管理和计算技术已有10年的历史。这10年里,创业圈逐渐流行起一种通病,即凡创业必称“大数据”,“大数据”像是一个筐,似乎任何装进去的创业项目都能做到百亿甚至千亿市值的规模。这个被说烂的词到底是什么东西?它是一项技术、一个产业还是一种思维方式?当越来越多的人将兴趣转移到AI、VR上时,也许是时候重新审视大数据的价值了。
在IT领域,一项技术的价值得以验证并实现往往需要走完四个阶段:技术原创、开源、产业化和广泛应用。在这个过程中,新技术的使用从互联网巨头企业蔓延到整个互联网领域,并随着其产业生态的日臻完善,最终应用到更广泛的社会和行业领域。“大数据”也不例外,它经历了底层技术的兴起和发展、产业生态的构建,正逐步渗透到每个企业的数据化战略之中。只有把握整条脉络,窥探“大数据”的全貌,才能理解这项技术的缘起和未来。
———————————————————技术篇————————————————————



移动互联网时代,数据量呈现指数级增长,其中文本、音视频等非结构数据的占比已超过85%,未来将进一步增大。Hadoop架构的分布式文件系统、分布式数据库和分布式并行计算技术解决了海量多源异构数据在存储、管理和处理上的挑战。
从2006年4月第一个Apache Hadoop版本发布至今,Hadoop作为一项实现海量数据存储、管理和计算的开源技术,已迭代到了v2.7.2稳定版,其构成组件也由传统的三驾马车HDFS、MapReduce和HBase社区发展为由60多个相关组件组成的庞大生态,包括数据存储、执行引擎、编程和数据访问框架等。其生态系统从1.0版的三层架构演变为现在的四层架构:
  • 底层——存储层
现在互联网数据量达到PB级,传统的存储方式已无法满足高效的IO性能和成本要求,Hadoop的分布式数据存储和管理技术解决了这一难题。HDFS现已成为大数据磁盘存储的事实标准,其上层正在涌现越来越多的文件格式封装(如Parquent)以适应BI类数据分析、机器学习类应用等更多的应用场景。未来HDFS会继续扩展对于新兴存储介质和服务器架构的支持。另一方面,区别于常用的Tachyon或Ignite,分布式内存文件系统新贵Arrow为列式内存存储的处理和交互提供了规范,得到了众多开发者和产业巨头的支持。
区别于传统的关系型数据库,HBase适合于非结构化数据存储。而Cloudera在2015年10月公布的分布式关系型数据库Kudu有望成为下一代分析平台的重要组成,它的出现将进一步把Hadoop市场向传统数据仓库市场靠拢。
  • 中间层——管控层
管控层对Hadoop集群进行高效可靠的资源及数据管理。脱胎于MapReduce1.0的YARN已成为Hadoop
2.0的通用资源管理平台。如何与容器技术深度融合,如何提高调度、细粒度管控和多租户支持的能力,是YARN需要进一步解决的问题。另一方面,Hortonworks的Ranger、Cloudera
的Sentry和RecordService组件实现了对数据层面的安全管控。
  • 上层——计算引擎层
在搜索引擎时代,数据处理的实时化并不重要,大多采用批处理的方式进行计算。但在SNS、电子商务、直播等在线应用十分普及的今天,在不同场景下对各类非结构化数据进行实时处理就变得十分重要。Hadoop在底层共用一份HDFS存储,上层有很多个组件分别服务多种应用场景,具备“单一平台多种应用”的特点。例如:Spark组件善于实时处理流数据,Impala实现诸如OLAP的确定性数据分析,Solr组件适用于搜索等探索性数据分析,Spark、MapReduce组件可以完成逻辑回归等预测性数据分析,MapReduce组件可以完成数据管道等ETL类任务。其中最耀眼的莫过于Spark了,包括IBM、Cloudera、Hortonworks在内的产业巨头都在全力支持Spark技术,Spark必将成为未来大数据分析的核心。
  • 顶层——高级封装及工具层
Pig、Hive等组件是基于MapReduce、Spark等计算引擎的接口及查询语言,为业务人员提供更高抽象的访问模型。Hive为方便用户使用采用SQL,但其问题域比MapReduce、Spark更窄,表达能力受限。Pig采用了脚本语言,相比于Hive SQL具备更好的表达能力。
在结构化数据主导的时代,通常使用原有模型便可以进行分析和处理,而面对如今实时变化的海量非结构化数据,传统模型已无法应对。在此背景下,机器学习技术正慢慢跨出象牙塔,进入越来越多的应用领域,实现自动化的模型构建和数据分析。除了Mahout、MLlib、Oryx等已有项目,最近机器学习开源领域迎来了数个明星巨头的加入。Facebook开源前沿深度学习工具“Torch”和针对神经网络研究的服务器“Big Sur”;Amazon启动其机器学习平台Amazon Machine Learning;Google开源其机器学习平台TensorFlow;IBM开源SystemML并成为Apache官方孵化项目;Microsoft亚洲研究院开源分布式机器学习工具DMTK。
———————————————————产业篇———————————————————



一项技术从原创到开源社区再到产业化和广泛应用往往需要若干年的时间。在原创能力和开源文化依然落后的中国,单纯地对底层技术进行创新显然难出成果。尽管如此,在经济转型升级需求的驱动下,创业者大量采用C2C(Copy to China)的创业模式快速推动着中国大数据产业的发展,产业生态已初步成型。
  • (一)产业基础层
如果说数据是未来企业的核心资产,那么数据分析师便是将资产变现的关键资源。以数据流通及人才培养和流通为目标,社区、众包平台、垂直媒体、数据交易平台是数据产业发展壮大的土壤。
  1. 社区 大数据技术社区为产业建立了人才根基。社区天然具备社群和媒体属性,自然吸引了众多专业人才。正基于此,开源中国社区(新三板挂牌企业)和Bi168大数据交流社区同时开展了代码托管、测试、培训、招聘、众包等其他全产业链服务。
  2. 众包 人力资本的高效配置是产业发展的必要条件。Data Castle类似于硅谷的Kaggle,是一家数据分析师的众包平台。客户提交数据分析需求、发布竞赛,由社区内众多分析师通过竞赛的方式给予最优解决方案。
  3. 垂直媒体 36大数据、数据猿、数据观等大数据垂直媒体的出现推动了大数据技术和文化的传播。它们利用媒体的先天优势,快速积累大量专业用户,因此与社区类似,容易向产业链其他环节延伸。
  4. 数据交易平台 数据交易平台致力于实现数据资产的最优化配置,推动数据开放和自由流通。数据堂和聚合数据主要采用众包模式采集数据并在ETL之后进行交易,数据以API的形态提供服务。由于保护隐私和数据安全的特殊要求,数据的脱敏是交易前的重要工序。贵阳大数据交易所是全球范围内落户中国的第一家大数据交易所,在推动政府数据公开和行业数据流通上具有开创性的意义。
  • (二)IT架构层
开源文化为Hadoop社区和生态带来了蓬勃发展,但也导致生态的复杂化和组件的碎片化、重复化,这催生了IBM、MapR、Cloudera、Hortonworks等众多提供标准化解决方案的企业。中国也诞生了一些提供基础技术服务的公司。
  1. Hadoop基础软件 本领域的企业帮助客户搭建Hadoop基础架构。其中,星环科技TransWarp、华为FusionInsight是Hadoop发行版的提供商,对标Cloudera CDH和Hortonworks的HDP,其软件系统对Apache开源社区软件进行了功能增强,推动了Hadoop开源技术在中国的落地。星环科技更是上榜Gartner 2016数仓魔力象限的唯一一家中国公司。
  2. 数据存储/管理 2013年“棱镜门”后,数据安全被上升到国家战略高度,去IOE正在成为众多企业必不可少的一步。以SequoiaDB(巨杉数据库)、达梦数据库、南大通用、龙存科技为代表的国产分布式数据库及存储系统在银行、电信、航空等国家战略关键领域具备较大的市场。
  3. 数据安全 大数据时代,数据安全至关重要。青藤云安全、安全狗等产品从系统层、应用层和网络层建立多层次防御体系,统一实施管理混合云、多公有云的安全方案,并利用大数据分析和可视化展示技术,为用户提供了分布式框架下的WAF、防CC、抗DDoS、拦病毒、防暴力破解等安全监控和防护服务,应对频繁出现的黑客攻击、网络犯罪和安全漏洞。
  • (三)通用技术层
日志分析、用户行为分析、舆情监控、精准营销、可视化等大数据的通用技术在互联网企业已有相当成熟的应用。如今越来越多的非互联网企业也在利用这些通用技术提高各环节的效率。
  1. 日志分析 大型企业的系统每天会产生海量的日志,这些非结构化的日志数据蕴含着丰富的信息。对标于美国的Splunk,日志易和瀚思对运维日志、业务日志进行采集、搜索、分析、可视化,实现运维监控、安全审计、业务数据分析等功能。
  2. 移动端用户行为分析为提升产品用户体验,提高用户转化率、留存率,用户行为分析是必不可少的环节。TalkingData和友盟等企业通过在APP/手游中接入SDK,实现对用户行为数据的采集、分析与管理。大量的终端覆盖和数据沉淀使得这类企业具备了提供DMP和移动广告效果监测服务的能力。GrowingIO更是直接面向业务人员,推出了免埋点技术,这一点类似于国外的Heap Analytics。
  3. 网站分析 百度统计、CNZZ及缔元信(后两者已与友盟合并为友盟+)等产品可以帮助网站开发运营人员监测和分析用户的点击、浏览等行为,这些公司也大多提供DMP和互联网广告效果监测服务。
  4. 爬虫 网页爬虫是一种快速搜索海量网页的技术。开源的爬虫技术包括Nutch这样的分布式爬虫项目,Crawler4j、WebMagic、WebCollector等JAVA单机爬虫和scrapy这样的非JAVA单机爬虫框架。利用这些开源技术市场上出现了很多爬虫工具,其中八爪鱼的规模和影响力最大,该公司也基于此工具推出了自己的大数据交易平台数多多。
  5. 舆情监控 智慧星光、红麦等互联网舆情公司利用网络爬虫和NPL技术,为企业用户收集和挖掘散落在互联网中的价值信息,助其完成竞争分析、公关、收集用户反馈等必要流程。
  6. 精准营销/个性化推荐 以完整的用户标签为基础,精准营销、个性化推荐技术在广告业、电商、新闻媒体、应用市场等领域得到广泛应用。利用SDK植入、cookie抓取、数据采购和互换等途径,TalkingData、百分点、秒针、AdMaster等众多DSP、DMP服务商积累了大量的用户画像,并可实现用户的精准识别,通过RTB技术提高了广告投放的实时性和精准度。将用户画像及关联数据进一步挖掘,利用协同过滤等算法,TalkingData、百分点帮助应用商店和电商平台搭建了个性化推荐系统,呈现出千人千面的效果。另一家利用类似技术的典型企业Everstring则专注于B2B marketing领域,为用户寻找匹配的企业客户。
  7. 数据可视化可视化是大数据价值释放的最后一公里。大数据魔镜、数字冰雹等公司具备丰富的可视化效果库,支持Excel、CSV、TXT文本数据以及Oracle、Microsoft SQL Server、Mysql等主流的数据库,简单拖曳即可分析出想要的结果,为企业主和业务人员提供数据可视化、分析、挖掘的整套解决方案及技术支持。
  8. 面部/图像识别 面部/图像识别技术已被广泛应用到了美艳自拍、身份识别、智能硬件和机器人等多个领域。Face++和Sensetime拥有人脸识别云计算平台,为开发者提供了人脸识别接口。汉王、格灵深瞳和图普科技则分别专注于OCR、安防和鉴黄领域。
  9. 语音识别/NLP NLP(自然语言处理)是实现语音识别的关键技术。科大讯飞、云知声、出门问问、灵聚科技、思必驰等企业已将其语音识别组件使用在智能硬件、智能家居、机器人、语音输入法等多个领域。小i机器人和车音网则分别从智能客服和车载语控单点切入。
  • (四)行业应用层
每个行业都有其特定的业务逻辑及核心痛点,这些往往不是大数据的通用技术能够解决的。因此,在市场竞争空前激烈的今天,大数据技术在具体行业的场景化应用乃至整体改造,蕴藏着巨大的商业机会。然而受制于企业主的传统思维、行业壁垒、安全顾虑和改造成本等因素,大数据在非互联网行业的应用仍处于初期,未来将加速拓展。
  1. 数据化整体解决方案非互联网企业的数据化转型面临着来自业务流程、成本控制及管理层面的巨大挑战,百分点、美林数据、华院数据等服务商针对金融、电信、零售、电商等数据密集型行业提供了较为完整的数据化解决方案,并将随着行业渗透的深入帮助更多的企业完成数据化转型。
  2. 电子政务 政府效率的高低关系到各行各业的发展和民生福祉,电子政务系统帮助工商、财政、民政、审计、税务、园区、统计、农业等政府部门提高管理和服务效率。由于用户的特殊性,电子政务市场进入门槛高,定制性强,服务难度大。典型的服务商包括龙信数据、华三、国双、九次方等。
  3. 智慧城市 智慧城市就是运用信息和通信技术手段感测、分析、整合城市运行核心系统的各项关键信息,从而对包括民生、环保、公共安全、城市服务、工商业活动在内的各种需求做出智能响应。华三、华为、中兴、软通动力、大汉科技等公司具备强大的软硬件整合能力、丰富的市政合作经验和资源积累,是该领域的典型服务商。
  4. 金融 大数据技术在金融行业主要应用在征信、风控、反欺诈和量化投资领域。聚信立、量化派结合网络数据、授权数据和采购数据为诸多金融机构提供贷款者的信用评估报告;闪银奇异对个人信用进行在线评分;同盾科技倡导“跨行业联防联控”,提供反欺诈SaaS服务;91征信主打多重负债查询服务;数联铭品搭建第三方企业数据平台,提供针对企业的全息画像,为金融和征信决策做参考。通联数据和深圳祥云则专注于量化交易。
  5. 影视/娱乐 中国电影的市场规模已居全球第二,电影产业的投前风控、精准营销、金融服务存在巨大的市场空间。艾曼、艺恩基于影视娱乐行业的数据和资源积累,抓取全网的娱乐相关信息,提供影视投资风控、明星价值评估、广告精准分发等服务。牧星人影视采集演员档期、性别、外形、社交关系、口碑以及剧组预算等数据,为剧组招募提供精准推荐。
  6. 农业 大数据在农业主要应用在农作物估产、旱情评估、农作物长势监测等领域。由于农业信息资源分散、价值密度低、实时性差,服务商需要有专业的技术背景和行业经验。典型企业包括太谷雨田、软通动力、武汉禾讯科技等。行业整体数据化程度低、进入门槛高。
  7. 人才招聘 我国人才招聘行业缺乏对人才与职位的科学分析,没有严谨的数据体系和分析方法。E成招聘、北森、搜前途、哪上班基于全网数据获取候选人完整画像,通过机器学习算法帮助企业进行精准人岗匹配;内聘网基于文本分析,实现简历和职位描述的格式化和自动匹配。
  8. 医疗卫生 大数据在医疗行业主要应用于基因测序、医疗档案整合和分析、医患沟通、医疗机构数据化和新药研制等环节。华大基因和解码DNA提供个人全基因组测序和易感基因检测等服务。杏树林面向医生群体推出了电子病历夹、医学文献库等APP。医渡云则致力于与领先的大型医院共建“医疗大数据”平台,提高医院效率。

——————————————————企业转型篇——————————————————

尽管技术的日益创新和逐渐完善的产业配套创造了良好的外部环境,只有将“数据驱动”的理念根植于企业本身才能充分发挥大数据的价值。对于一家企业来说,真正的数据化转型绝不仅仅是互联网营销或舆情监控这么简单,它需要战略层面的规划、管理制度的革新和执行层面的坚决。这里提出了数据化转型的8个步骤,这些建议并没有必然的时间先后或逻辑关系,藏在背后的大数据理念,或许更加重要。

改编自:《为数据而生》,周涛,2016
1. 数据全面采集:要求企业采集并存储企业生产经营中的一切数据,形成企业数据资产的理念。
2. 整理数据资源,建立数据标准形成管理:成立数据委员会,建立数据目录和数据标准,对数据进行分级分权限的管理,实现数据的统一管理和可追溯。随时了解哪位员工在什么时间点在哪一台设备上运用何种权限如何使用。
3. 建设数据管理平台:建设具备存储灾备功能的数据中心,以业务需要为引导,定做一套数据组织和管理的解决方案,硬件方面强调鲁棒性和可扩展性,没有必要一开始就投入大量经费。
4. 建立海量数据的深入分析挖掘能力:培养非结构化数据的分析处理能力和大数据下的机器学习的能力。
5. 建立外部数据的战略储备:外部数据对于市场拓展、趋势分析、竞品分析、人才招聘、用户画像和产品推荐等意义重大,而网站、论坛、社交媒体和电商平台上聚集了很多有重要价值的公开数据。
6. 建立数据的外部创新能力:企业通过智能终端、传感网络、物流记录、网点记录和电子商务平台等等,获得的第一手数据,很多都可以用于支持在跨领域交叉销售、环境保护、健康管理、智慧城市、精准广告和房地价预测等方面的创新型应用。
7. 推动自身数据的开放与共享:要充分借助社会的力量,尽最大可能发挥数据潜藏的价值。Netflix曾经公开了包含50多万用户和17 770部电影的在线评分数据,并悬赏100万美元奖励能够将Netflix现有评分预测准确度提高10%的团队。
8. 数据产业的战略投资布局:通过投资的方式迅速形成自己的大数据能力甚至大数据产业布局。
————————————————————结语————————————————————
在Gartner的炒作周期曲线上,“大数据”概念已从顶峰滑落到了谷底,产业似乎陷入停滞。但当我们沿着技术起源、产业生态和企业战略的脉络重新审视大数据时,我们发现,大数据产业不仅不会停滞,反而将加速渗透到更多行业的各类场景中去,并根植在企业战略、管理和文化之中。只有当各行各业的企业运营实现数据驱动时,大数据的价值才真正落地,然而这条路还很长。

白米Ⅲ级

赞同来自:

……怎么没人提到这个最佳答案?

Ted Talks 创始人Dan Ariely:

大数据就像未成年人性行为: 每个人都讨论它,没人知道怎么搞,每个人都以为其他人在搞,所以每个人都宣称他们在搞。

白米Ⅲ级

赞同来自:

大数据时代的价值不在数据量大,如果只是所谓的大样本,说句不好听的话就是垃圾数据。

大数据的真正内涵和价值在于这些数据不仅仅有观测数据还是行为数据,不仅仅样本数量多,而且每个样本维度多。


大数据目前的应用比较局限于商业特别是电子商务和金融领域。未来最有潜力的应用个人看好保健、旅游和教育市场。

白米Ⅲ级

赞同来自:

大数据指的是针对某件事情来说全面的数据,强调全面性,不强调精确。
价值在于可以做到预测!!!而且其特点为“只问结果,不问因果”
举个栗子。高血压人群中半胱氨酸高的患者,中风几率高达75%,这是卫生部的数据。所以卫生部发文件,要求有条件的高血压患者检查半胱氨酸,如果高就服用叶酸片降低,从而降低中风的几率。这是基于近几年中风患者调查得出的数据,行之有效。至于半胱氨酸和中风的关系,可以慢慢研究,但是现在起码保证了很多人远离中风不是么。这就是大数据的典型应用。基于大数据可以很快告诉你未来,但无法告诉你原因。在大数据之前的时代,我们一定要先弄清楚原因,再解决问题。现在可以倒过来了。毕竟时间宝贵不是么。
天气预报就是一种大数据,它不关心每个水滴的成因和结果,它只关心云彩的大小种类和位置,从而根据云的变化推算天气,简单到你这里就是告诉你会不会下雨,原因么反而不重要了不是么??

白米Ⅲ级

赞同来自:

很多人想知道究竟是什么大数据分析。然而网络中对大数据分析的定义却让人看了以后更加糊涂,例如下面是百度百科的解释:

大数据分析是指对规模巨大的数据进行分析。大数据可以概括为5个维度, 数据量大、速度快、类型多、价值、真实性。

我听过的最好的关于“什么是大数据分析”的解释,是来自于《冬吴相对论》。读书最好的时候是学生时期,其次是现在。下面我们一起来听下梁冬、吴伯老师的分享:什么是大数据分析。
下面是《冬吴相对论:大数据 上》 《冬吴相对论:大数据 下》的音频,讲的通俗易懂: 戳此>>>科普知识:什么是大数据分析
很多人关心公司层面的问题,但我更关心个人层面的问题,例如大数据时代,你该如何掌握新的技能才能适应这个时代。只有关注自身的成长和发展,才有机会利用知识改善生活状况。

白米Ⅲ级

赞同来自:

更多大数据资讯,欢迎访问中国大数据产业观察网:数据观 | 中国大数据产业观察
数据中心的建设,为的是后期对数据的挖掘应用。大数据应用在全球各国发酵之际,伴随而来的是各国普遍缺乏数据科学家问题。应大数据处理的需求,无论企业决定采用哪一种解决方案,最终需要有数据科学家来运用这些大数据,才能激活大数据的价值,重新构建数据之间的关系,并赋予新的意义,进而转换成企业的竞争武器。
大数据处理环节中,数据科学家是能否点燃大数据价值的关键。然而,数据科学家的培养并不容易,因为数据科学家必须同时具备3个条件,包括深入了解企业内的业务与组织、具备数据探勘等统计应用知识、熟悉数据分析工具操作。目前,国内的数据分析师较擅长的是处理已经发生的问题,找出问题源头,并且尽速排除问题,但是,相对缺乏发掘未知问题的能力。
根据市场调查机构Gartner的数据,有高达72%的企业认为,大数据应用价值,在于预测未来。然而,这样的应用需求与国内数据科学家不匹配,预计将成为国内发展大数据应用的最大挑战。 因此,无论是从政府还是企业角度,都应未雨绸缪,提前做好大数据人才培养,不要等到大数据中心建好之后再来找人,必将造成大数据中心资源的极大浪费。
IDC近日发布的《中国大数据技术与服务市场2012~2016年预测与分析》报告显示,中国大数据技术与服务市场规模将从2011年的7760万美元增长到2016年的6.17亿美元,未来5年的复合增长率达51.4%.面对良好的发展局面,我国的政府、企业要充分借鉴国外的经验教训,站在“先行者”的肩上创新,为我国大数据中心建设及大数据产业发展增添活力。

白米Ⅲ级

赞同来自:

先来一个自编的段子镇楼:

话说这齐天大圣孙悟空大闹天宫,玉帝派二郎神杨戬去镇压,兵力占尽优势却屡次不胜。问题就在孙猴子有一招十分厉害的分身术,拔一把毫毛一吹一变,地上就冒出成千上万只一模一样的猴子,每次大费周章抓回的都是假猴子。二郎神无奈之下只好去找如来佛祖,求教鉴别真假美猴王的方法。
佛祖呵呵一笑,说这招分身术是从菩提老祖那里学来的,只是孙猴子的技艺还不到精纯,会露三个破绽:假猴子的右手无名指会隐隐发光;假猴子头顶的黄色毫毛会多于九九八十一根;假猴子左右眼珠子的大小也有点差别。
二郎神拿了这秘诀就志得意满出发了,谁知来到花果山之后傻眼了,满眼望去都没有露出这三个破绽的猴子,结果又只能胡乱抓了几只假猴子回天庭交差,然后一脸懊丧又去找如来佛祖吐槽。
佛祖眉头一皱,说这孙猴子又跑去和混元老祖学了这分身术的第二层,破绽被修复了,真假猴子差别已经十分微妙。不过有一方法可解此难题,让二郎神带着十万天庭画师下山,等孙猴子使出分身术这一招,就下令画师一人画一只猴子,有多精妙画多精妙。
这十万画像来到天庭,佛祖一一鉴别之后,又召集了十万天庭算师,经过七七四十九昼夜的演算,得出一机器,对着猴子咔擦一算,是真是假逃不掉。最终天庭凭着技术上的优势,成功活捉了齐天大圣。

我的点评:
数据的妙用,无论包装如何眼花缭乱,结论总逃不掉是一个分类:真猴子假猴子、男用户女用户、明天股票是涨是跌、给老司机推荐哪种类型的歌曲。哪怕到个性化的推荐,也是物以类聚人以群分。条件简单的,三五条规则就可以,就像佛祖第一次给二郎神支招,看准那三个破绽,假猴子没错!可如果你的场景没办法用简单的规则去评判呢?那么你就需要包含成千上万个特征的数据(天庭画师),需要用专家的知识给原始数据做标签(如来佛祖),需要把数据和标签混合训练出一个高性能的算法模型(天庭算师)。这就是大数据。
匿名用户

匿名用户 白米Ⅲ级

赞同来自:

大数据的三个应用场景

给领导做提案时搞的







要回复问题请先登录注册

var s = document.getElementsByTagName("script")[0]; s.parentNode.insertBefore(bp, s); })();