登录 or
如何通俗易懂地解释 X

如何通俗易懂地解释 X

如何准确又通俗易懂地解释大数据及其应用价值?

Wikipedia | Big ...

匿名用户 回复了问题 • 0 人关注 • 20 个回复 • 464838 次浏览 • 2013-05-06 12:00

条新动态, 点击查看
写在开场的话:
考虑了一下,鉴于现在评论区的状况,以及很多知友的阅读习惯,我还是将一些内容搬运在这个醒目的位置,更新一下这个答案,免得还有杀到评论区里追着要我认错和道歉的。
[b]这个答案开篇之处,我就已经明确说明,以这数据规模,这不是大数据了(参见以下答案中... 显示全部 »
写在开场的话:
考虑了一下,鉴于现在评论区的状况,以及很多知友的阅读习惯,我还是将一些内容搬运在这个醒目的位置,更新一下这个答案,免得还有杀到评论区里追着要我认错和道歉的。
这个答案开篇之处,我就已经明确说明,以这数据规模,这不是大数据了(参见以下答案中我更新加粗的部分),只是借个例子说明大数据的内涵和价值,居然还有人因此专门开个答案来驳斥这一点的,实在让我无语。
我是本着分享知识和经验的目的在知乎交流的,如果根本性的问题不在于此,连答案看完整点的耐心都没有,那我就没什么想说的了。许多评论我就不回复了。

说老实话,这答案在这放了几天,浏览者应该不少,但是没等到我最期望的那些评论。我还是有点失望的。
其实,这答案我可以随便找个问题一贴,例如什么问
怎么样在知乎混更高效啦?
怎么获得更多赞啦?
之类的问题。
不知道是否有人想到我为啥给贴这里了?
大数据的精髓是什么?收集个几百G几百T的数据往硬盘里一放就是大数据的精髓?如果认识就停留在这个程度,我也就没啥可说的了。
在这个答案中,我1,2,3,4,5都干了那些事?
选择维度,切入数据的路径和选择是什么样的?为什么?
虽然我用的都是最简单最基本的算法和模型,但是为什么在这样的地方,我选择了这样的算法和模型?
我想看到的很多问题都没有在评论里出现,有点让人遗憾。

问题有要求通俗易懂得介绍大数据的应用价值和内涵,我并无认为我的例子有何不妥。
对于大数据,一直来说,数据规模本导致的存储,运算等技术问题从来不是最重要的瓶颈。瓶颈只在于前端数据的收集途径,以及后端商业思想引领的模型和算法问题。早期的各类OLAP工具已经足够给力了,后来类似海杜普这样的东西彻底降低了分布式数据的架构成本和门槛,就彻底将大数据带入了一个普及的领域。
从数据钻取,大规模分析的技术手段,以及算法执行上来说,大规模数据是和小规模数据在技术上是有很大差异,但是一则,这对于大众认知来说,并不是需要关注和了解的重点(例如本题目的目的那样),另外来说,我也不认为这是重点和难点。
面对大数据的技术处理差异绝非大数据概念的精髓和瓶颈,只是商家们热衷宣传的热点,因为大数据领域只有在这个环节上,有大规模的产品市场存在的可能。

此外,大数据和超级计算完全是两个不同的领域和概念,虽然在极少的地方,两者或有交集(例如其他知友答案中提到的罗马城3D建模),但是真的很少。
并行计算和分布式计算也完全是两回事,后者可不需要去处理什么CPU的连接和通信
大数据出于成本/产出考量,是不太可能采用并行计算之类的超算技术的。海杜普之类的分布式技术会是一个很好的选择。
大数据和超算,虽然两者都面临算法上的挑战,但是完全不是一回事。
如果对超算有兴趣,可以简单移步目前超级计算机的性能局限是硬件还是软件,为什么?

从技术层面说,大数据和以前的数据时代的最大差异在于: 以前是数据找应用/算法的过程(例如我们各大银行的大集中项目,以及数据建仓),而大数据时代的重要技术特征之一,是应用/算法去找数据的过程,因为数据规模变成了技术上最大的挑战。

至于大数据和小数据的差异,大数据的策略,更偏重于发现,以及猜测/印证的循环逼近过程,一般只会设定一个大方向,算法模型都可能在执行的过程中做大幅度的调整。而传统小数据分析,一般有明确的目的和诉求,算法,和模型,我想我已经在我的例子中注意体现这一点了。
对于大数据来说,统计学的大量概念会重要得多。

大数据是因为对它的分析使用,才产生和体现它的价值,而不是因为其用到了NB的技术和算法才体现了它的价值。(虽然NB的技术确实很NB,我曾经在另外一个答案中视海杜普位划时代的计算产品之一)

治大国,若烹小鲜,何况是面对一般受众说个大体的概念,私以为我这个例子是没有太大问题的。

========================================================================
要明确易懂得解释一件事情,最好的方式无疑是举一个典型形象,具有代表性的例子。例子最好和听众熟悉的场景相关。
一般圈里回答这个问题,比较容易拿来做解释的例子是沃尔玛的几个经典案例,不过既然在知乎回答这个问题,我就拿知乎来举个例子吧

I 前言
1. 我在这个答案中所使用的数据和例子,数据规模有限,真正的大数据只有知乎运营者才有机会使用(应该也有严格的权限控制,以及运营者自有的命题)。
虽然说不上是大数据,但是我只是拿这个来作为一个说明的例子,说明下大数据的内涵以及价值,应该还算是可以的。

2. 我收集这些数据,主要是源于前一阵子对张公子文章的仰慕,每次进入张公子回答的页面一点一点往下点,太累,同时下次还要一点点重新展开页面找到以前看到的地方,不堪重负。正好最近业余在学习自动化测试和Ruby语言,于是尝试性写了些作业,扒了一些数据。
所以我收集这些数据并没有任何不良企图以及针对性,请各位知友和知乎运营者放心。我也承诺不会将这些数据用于恶意的目的。当然,这些数据本身都是公开的,我都是通过合法合规手段收集的。
以下会尽量匿去所有知友的名字,但是某些知友的数据特征太明显,所以就匿不了了。

3. 这些数据本身抓取的过程是一个动态的过程,而不是一个snapshot,出于技术,权限以及合法性的原因,我数据抓取的方式比较慢,在抓取过程中,数据本身已然在发生变化,因此数据本身可能有轻微误差。此外,抓取的数据范围和数量有限,并不一定完整反应和体现真实。例如知友的匿名回答,以及删除答案的行为,可能会对分析结果造成很大影响,但是我抓取的数据当中却没有包含。

4. 我的样本选择基本上是随机选择,从黄sir的关注者中,从日常每天的热门话题中随机选取,选取的都是至少答题在100以上的知友的数据。

5. 我本身并非社区运营专家,所以以下涉及到分析的部分,如果有业余的地方,请勿见笑,这答案的本身并不是真要分析知乎和知友(这也不是我的能力和数据权限能做到的),我只是说明下大数据这个概念和价值而已。

II 命题
数据分析总得有个方向和目标,鉴于我的数据规模和样本特性,确立较宏大的命题是相对比较困难的。于是,我选择了一个比较取巧的命题:”赞同数“。
一则来说,貌似广大知友关心这个的很多很多,比较吸引眼球。
二则来说,知乎上关于这个的日经问题也非常多,也算是有的放矢,例如很多类似以下的问题:
如何能获得更多赞同?
什么样的答案能够获得更多赞同?
人情赞,跟风赞是不是很多?
答案字数多是不是容易获得赞同?
图片多是不是容易获得赞同?
话题和浏览是不是影响赞同?
等等类似的问题在知乎层出不穷。尝试做个分析对这些问题提供些帮助。
但是,我必须强调的是:知乎真的不是一个“比比谁的赞同多”的竞技游戏,期望大家不要在“赞同”上过于纠结和投入太多关注,我觉得知识,乐趣以及思想的交流和碰撞,才是知乎的重点。

然后围绕这个命题核心,看看我们还能发现点什么有意思的其他东西。

III 样本
本次样本主要涉及39位知友,共计36442条答案

样本很多,数据也很多,我就不一一贴上来了,我只贴几位比较有典型代表意义的知友的加工后的数据,以下数据样本根据知友的关注者人数排序:
知友1:关注者283,337人
https://pic2.zhimg.com/50/e6f95a394e1e27fdf093df5591e7aa33_hd.jpg
https://pic3.zhimg.com/50/58900dd24b0528ec761bdbfc99e76577_hd.jpg
其中最专注话题,即为回答过最多的话题,即下图活跃度排名第一的话题。
相关系数,即皮氏积矩相关系数(Pearson product-moment correlation coefficient, PPCC),用以描述两个变量之间的线性相关度。0就是毫无关联,1就是绝对的线性关联,-1就是绝对的负线性相关

好吧,这个知友也不用匿名了,匿不住,这关注数,这话题,摆明是李开复先生。
开复先生的影响力毋庸置疑,赞答比惊人,其答案和问题浏览次数的相关度也很高(这意味着问题浏览数的增加有极高概率带动赞同票的获取),尤其在其最专注的话题 “李开复(人物)” 中(囧),问题关注和答案赞同之间有着接近线性相关的相关系数,表明开复先生在知乎是有一大票铁杆粉丝的。
但是开复先生的数据中也显示出,其藏赞比并不高(0.26),属于抽样人群中的中等水平。
什么样的情况会导致赞很多,藏不多呢?我一般认为,如果答案的内容价值较高,干货很多,会吸引到更多的收藏次数,而光环票,人情票,跟风票,以及引起读者共情的答案(例如吐槽以及煽情),较容易获得赞同,但是不容易收获收藏。
当然,开复先生的赞藏比也并不属于低的。

开复先生回答的问题,题均浏览次数分别5.5K+ 和 6K+,远超39位知友的平均值,开复先生的影响力可见一斑,而且开复先生答均750多字,属于非常高的值,可见开复先生对于每一个答案都较认真的投入了精力作答。

此外,从开复先生的话题分布来看,开复先生更多得把知乎当作了一个作为名人及其官方身份,和公众进行互动的媒体平台。而且是属于职业范的平台。开复先生在知乎上更多得是以自己的职业身份出现。连微博上常见的他关于政治,关于青年人引导的内容,都不多见。进一步的,开复先生作为一个个人的知识与经验分享就鲜见了。

开复先生仅凭专攻“李开复(人物)”一个话题,就能斩获261.65的赞答比,在“创新工场”话题中,每不到3个字就能获得一个赞同,这样的粉丝会,绝大多数人是不能拥有的,所以借鉴价值不大(当然后者的字数/赞同还有比开复先生更NB的大牛,我们后面再说)

知友2:关注者 175,534
https://pic2.zhimg.com/50/087a91d774849c3a6c54cde4f61200e2_hd.jpg
https://pic3.zhimg.com/50/8fa43fe7c5a61c224421b4d602bcd939_hd.jpg
好吧,这个也匿不住,这关注数,这话题,明显是继新的。
继新的数据很有意思(包括一些尚未贴出来的数据),很明显得看出了一个运营者的身份(其他几位知乎的工作人员的数据也类似),其发言被很明显得压抑在了知乎的相关话题上(尤其过了知乎运营的初期以后)。即便是如此刻意得压制,继新在苹果话题上的心血投入也搂不住(答题数,还有题均字数),一个热情的铁杆苹果粉丝的形象就呼之欲出了。

当然,“知乎”这个话题在知乎并不属于大热,(继新在知乎话题下的问题题均浏览只有700多),导致继新在知乎话题下的赞答比都不到15(远低于其平均水平),但是其赞同和浏览的相关系数却远高于平均水平(0.784 : 0.553),说明其在知乎这个话题中的权威程度和受认可程度(废话,这是当然的)。

需要大家开始关注的是知乎内的一个神奇话题:调查类问题。这个话题的神奇之处我们下面再慢慢讨论,单就继新的数据来看,调查类话题是继新最讨好的话题,拥有最高的赞答比和最高的文字效率。

而继新另外两个比较突出的私人化,受欢迎的话题是“英语”和“情感”,基于此,我觉得继新可以考虑去泡一个洋妞。

至于继新关于创业的话题,我就不说了,相比知乎团队中另外一位老大周源,实在不能比。周源话题特征就是除了知乎就是创业,除了创业就是知乎,两者占据了周源话题的绝对重心。向这样的创业者致敬,具体周源的数据篇幅有限,我就不贴了。

知友3:关注数 107,526
https://pic1.zhimg.com/50/e6018f371e84bd2eb4e20028f808bd28_hd.jpg
https://pic1.zhimg.com/50/121a766c4dca68408ccba02820a437d8_hd.jpg
好吧,这个也匿不住,看看这赞均字数的效率,最效率的话题,每1.10个字就收获一个赞,这连开复先生都望尘莫及。这是知乎槽王,三表哥是也。
三表哥在音乐方面的专业度和投入程度一目了然,但是可以看到,很明显,三表哥赞同来源的主要发动机来自一些大热话题。
从这点上可以看到,赞同受到话题本身热度的影响有多大。

[b](在上图最后的4个关于话题的图表中,左边两个表格可以视为是这位知友最专注,最投入的话题,右边两个被视为是他最容易受知友认同的话题,最讨好的话题,下同)[/b]

此外,三表哥的藏赞比只有0.08,在39位知友中倒数第三,不能不说是槽王不可避免的遗憾。

知友4:关注数 90,793
https://pic2.zhimg.com/50/f53974a485035843e206737bb416eef5_hd.jpg
https://pic1.zhimg.com/50/c9fb772695fddc8271f7f3e1bd1fac2c_hd.jpg
这也不用匿了,一眼可知,大神张公子是也。我也不想匿,因为这是我收集这些数据的起源和动机。
篮球就是张公子的命啊。

张公子在篮球话题下的浏览关注相关系数是0.818,神数据,也就是说,基本上张公子说篮球,大家就一脸痴迷得边听边点头即可。

张公子回答的答均字数前10个话题,除开“张佳玮”这个话题以外,全部是NBA及NBA的子话题,张公子的投入和专注程度可见一斑。

但是等等,张公子在篮球话题下的赞答比只有29.67,远低于他在所有话题下的平均值57.54.....
张公子一代篮球作者大神。。。在知乎的赞同收割机还是得依赖爱情,情感,调查类问题。。。
相类似的游叔,三水哥等一大票人的类似数据,我就不贴了,他们分别在电影啊,金融啊,日本啊等话题领域专注写作和大量投入,却都是在热门话题中大量高效得收获赞同。

所以吧,其实什么赞答比什么的,都是浮云,话题才是王道啊。。。

知友5:关注数:61,369
https://pic1.zhimg.com/50/a9db29e37aa2c69dd59a49d37ad1cb52_hd.jpg
https://pic3.zhimg.com/50/6d2152af092ca183d52e1790d98cb383_hd.jpg
恩,话题峰度643,偏度有24.9,但是方差只有79.5,数学领域全力开火,这个用不着匿了,陈浩大神是也。陈浩大神应该是对自己的答案做过清理的,要不话题分布数据不会这么诡异。这也应该是知乎话题分布数据中,我见过最有洁癖的数据了。
即便如此,“知乎建议反馈”依然在一片数学话题中,强有力得占据一席之地,如果这都不算爱。。。。继新快来看看吧!
基于这样的话题状况,陈浩大神能够拿到20以上的赞答比,在数学这么冷门的话题领域拿到13.6的赞答比,这份耕耘,值得让人脱帽致敬。
虽然平均赞答比要比数学领域高深多,但是数学领域浏览赞同相关系数要高很多,专业性一目了然。

知友6:关注者:46,546
https://pic2.zhimg.com/50/e4404a451eca5383041c914c940d1066_hd.jpg
https://pic1.zhimg.com/50/a58a6a4a33e3dc1e7bc67ef3e08899d9_hd.jpg
恩,这位知友的数据是我最喜欢看的,看来看去,百看不厌,看得心里那个舒服。
要是类似特征的数据出现在什么企业数据中,我最喜欢了。
稳定,厚重,扎实,用一句话形容叫“重剑无锋,大巧不工”
这是所有知友中数据最均衡厚重的一位了。
社科人文话题的集群全面凸显,这样的底蕴,让人赞叹。
即便如此,他的赞同收割机中,调查类问题,和人际交往两个话题,嘿嘿,也是漏一尖角啊

知友7:关注者 6,979
https://pic1.zhimg.com/50/06b5335c5a003f18a2ed742402cc9216_hd.jpg
https://pic1.zhimg.com/50/b2b87fe0fef072e99c89ed2661fc9aa3_hd.jpg
如果把知友在知乎的表现和热度看作股票的话,这位知友一定是我重金入仓的主力股。
赞答比70.70,39位知友中名列第二,仅次于开复先生
藏赞比0.46,39位知友中名列三,一代干货大神(另外向前两位干货大神MJ勺子和麦琪姐致敬,分别为0.56,0.51)
赞均浏览38.29,仅次于开复大神,和张公子,名列第三
答均字数是39位知友中唯一破1000的,位列第一

这可是只有不到7000关注者的知友啊!!他的话题主要是建筑学,没有大热话题收割机啊!!

唯一可以说说的是他目前答案还太少,才141个,未来回答多了,数据是否会变化,值得关注。
来知乎也才134天,平均每天作答1.05个,知乎运营团队应该好好关注下啊,毫无疑问的优质潜力知友,未来可必定是建筑类话题领域的一大神啊。

知友8: 关注者:1816
https://pic1.zhimg.com/50/df8775cdadd684552ebc7974cedae9c9_hd.jpg
https://pic2.zhimg.com/50/cf3daea5f43418772769ede60d7c8129_hd.jpg
这位知友的数据。。。怎么说呢,话题不缺浏览数和热度答均浏览4800+的数字远高于各位知友的平均值,在所有知友内排第5,不缺投入,答均457字在39位知友中也属于中上水平,话题专注也不错。但是收获赞同的情况颇不理想。
神话题:调查类问题的展现。

知友9:关注者 548人
https://pic4.zhimg.com/50/2b59859c948b306d4a21d22bdb18cdd7_hd.jpg
https://pic4.zhimg.com/50/9d08c18e9483efde1ea133a46e9638ed_hd.jpg
恩,这位知友的数据。。。
赞答比0.99,39位知友中倒数第二
答均字数22.2,39位知友中倒数第一
日均答题:22.21,39位知友中第一
答均评论:0.59,39位知友中倒数第一(引起不了兴趣和互动啊)
最诡异的数据是藏赞比是0.01,藏赞比不是藏答比啊,槽王三表哥在10万粉的簇拥下也就是0.08的水平啊。


IV 分析
我将39位知友中,知乎运营者3位去除,剩下36位知友,按照粉丝数量分为三个区间,做了一些统计:
20000粉丝以上:15位 称为为A区间
1000~20000粉丝:7位 称为B区间
1000粉丝以下:14位 称为C区间

做了一下分析,发现以下规律:

虽然有上面的建筑潜力大牛知友的特例,但是赞答比和用户的粉丝数量是强线性关联,其相关系数是0.853,这两者数字本来就是相互促进的事情,但是粉丝数量对赞答比的影响更直接一些,说明总得来说知乎光环效应是存在的。赞答比作为一个独立指数,价值并不大。(前不久有知友专门强调赞答比来着)

答案字数越多越容易获得赞同?初看似乎确实是这样,但是实际上答均字数和赞同数的相关系数总体只有0.330 ,对于不同的知友,字数多寡的价值完全不同。其中有一位知友的字数的赞同的相关系数达到了0.77,在其专注的话题内,这一关联系数达到了逆天的0.99,几乎就是硬相关了,潜力大大的啊(他的关注者只有181人)
而大多数知友,字数和赞同的相关系数都不高,甚至有部分知友是负相关。
大部分知友(72.2%),在其专注话题内,答案字数和赞同数的关联,比起他自己的平均数值,明显提高
[list]https://pic4.zhimg.com/50/70c00505d8038a5d955078a8908a58b5_hd.jpg

简单的说就是,一般来说,知友在自己专注和擅长的领域里,回答字数越多,获得赞同越多的几率就越大。
回答字数越多是不是越容易获得赞同?哪得看你是谁,也得看你回答什么话题。[/list]
一图胜千言?事实上,只有两位知友答案中图片和赞同的相关系数超过0.4.。。。

回答的问题越热门越容易获得赞同?事实上,名人大牛的光环能够保证自己的答案曝光率不要太低,而平均来说,答题的曝光率,名人大牛未必会更高:
https://pic3.zhimg.com/50/aa2e9788ad86dabe625cd65f84f2c8f1_hd.jpg
36位样本知友中,平均所答问题浏览量最高的两位,事实上都是C区间知友,甚至远超A1(开复先生),他们很会挑问题,但是这并没有帮助他们获得更多赞同和赞答比。
而和字数相关一样,大部分知友(77.78%)的答案获得赞与浏览次数相关的相关度,在其擅长的话题内,有明显提高,越是大牛用户,在其专注的领域,就越显得更专业:
https://pic2.zhimg.com/50/4c29f10de240c28de59b60844cadb42a_hd.jpg


越是明星大牛用户,一般来说,其话题相对越集中,越专注:(开复先生貌似是个例外,可能和他答题较少有关)
https://pic1.zhimg.com/50/b191850b35be2582e89b4b969dfc1f9b_hd.jpg

91.6%的用户,其答案回答时间和其获得的赞同是负相关,证明知乎考古事业有很大潜力可挖。
https://pic1.zhimg.com/50/4228d70a993341d9a2ab4283d762b66e_hd.jpg

回答时间久的答案,好处是获得更多浏览的机会比较大,缺点是过了热度过了被翻出来的机会更小,现在明显是后者占了主导

V 小结
篇幅所限,贴图太多,老出现红叉叉,暂且就贴这么多了。

对于知乎获得赞同这件事情,数据分析后可以发现,其实浏览量因素秒杀其他所有因素(例如字数啊,图片啊等等,虽然没有数据,但是我相信什么繁体字啊,泻药啊之类的因素更是浮云)
假如要在知乎获得更多赞同,选好问题,获得更多关注固然是重要的因素(浏览量),更重要多的是,专注自己擅长的领域,提高回答的质量和自身的水平,这个因素的重要性是秒杀一切其他因素的。
虽然短时间提高自身水平有点困难,但是选好自己专注和擅长的领域,是比较容易做到的

此外,“调查类问题”,“人际关系”,“生活”是三个神话题(排名分先后),是光环下的赞同收割机。

数据中可以读出的信息有很多,我就不一一列举了,这里毕竟只是为了说明大数据的概念。

需要着重说明的是,以上分析仅仅是为了数据分析,设定了赞同获得这样一个主题,并不代表我认为或者建议大家在知乎为了获得更多赞同去努力!

当然,这个问题主旨是为了举一个和大数据有关的例子,来形象得解释大数据的概念,所以以上模型和数据分析有诸多局限之处:例如
专门找过气的热门问题回答的人,数据很难说明问题
大量清理过自己答案的,数据的表现也会比较怪异。
知乎话题和子话题的关联关系,我没有抓取相应数据和统计在内。

但总的来说,为了说明这么一个大数据的概念,应该没啥太大问题。

大数据的作用和价值,基本上就是这么一回事,呵呵。

我又再次审视检查了问题,问题里没有“ 简单明了"之类的要求,长长的舒了一口气。第一为在知乎答一个问题作了这么多的准备工作,以前最多就花个10来20分钟收集些数据,这次居然花了2个星期收集数据。。。我不得不说,最近知乎的服务器太不给力了!
不过最近知乎服务器老是提问题可不关我事啊,我是模拟WEB端鼠标操作的,2~3秒才做一下点击,不应该对服务器增加太多负荷才是。

如何准确又通俗易懂地解释大数据及其应用价值?

Wikipedia | Big ...

匿名用户 回复了问题 • 0 人关注 • 20 个回复 • 464838 次浏览 • 2013-05-06 12:00