计算机网络
作为一个某互联网巨头的数据分析团队成员来说一下:这种是绝对不可能是随意翻出来的。
全中国一天的聊天记录到底有多少我不知道。但是我只知道我的团队,一天处理的日志流水起码几百个G。而且,这几百个G还不是小电影小图片,都是文本,有多少字符自己换算一下。
你让我随便... 显示全部 »
全中国一天的聊天记录到底有多少我不知道。但是我只知道我的团队,一天处理的日志流水起码几百个G。而且,这几百个G还不是小电影小图片,都是文本,有多少字符自己换算一下。
你让我随便... 显示全部 »
作为一个某互联网巨头的数据分析团队成员来说一下:这种是绝对不可能是随意翻出来的。
全中国一天的聊天记录到底有多少我不知道。但是我只知道我的团队,一天处理的日志流水起码几百个G。而且,这几百个G还不是小电影小图片,都是文本,有多少字符自己换算一下。
你让我随便去看看,然后从中找到点什么蛛丝马迹?
err~
所以,这种情况,不外乎两种可能:
1:他/她的id上了黑名单,所以相关的记录被单独提出来了;
2:他/她的某些聊天记录触发了某些规则的警报,被过滤出来了。
而“随意翻阅”,其实仅仅是一个为了不泄露具体内情的一个掩饰说法而已。
-------------------------------------------------------------------------------------------
我本来没觉得我这内容算什么“内幕”的,没想到居然引来这么热烈的回复。
再补充一些内容吧:
首先是聊天记录问题:
其实一开始答的时候没注意看题目的图片。
其实仔细看一下就会发现,那聊天记录的格式太工整太漂亮了,绝对不是从服务器或者任何后台接口上拿下来的数据。不是据说知乎上程序员一抓一大把吗?怎么没一个人发现这点呢?我就不信你们平时做系统开发时,日志都是打成富文本格式的,还居然带不同的颜色?
而无论是网监还是公检法还是其他什么部门,倒数据过去一定也是从后台接口倒的,也肯定没谁有这闲情逸致的把这些东西给弄得那么漂亮。
所以这图片肯定是从qq客户端的聊天记录上拍的,只是刚才对比了一下我的qq的聊天记录格式,似乎又有点不一样,不知道是不是版本差异。
然后是聊天记录问题:
首先我澄清一下,一般而言,我是不接触线上的实际数据的,当然某些时候从生产环境批量导一些数据到开发环境和测试环境,作为样本用于测试或者别的啥的还是有的。
另外,数据分析不是需求不是研发不是测试,所以任何关于聊天记录在服务器端的行为,例如说是否被过滤或者转发到有关部门等等问题,我是真的不知道。不过,在我看来,有过滤是正常的,没过滤倒是值得问一下:真的吗?
再说一下用户隐私的问题:
我大概可以理解大家为什么那么关注聊天记录,那是因为大家认为用户隐私就等于聊天记录吧?
但是实际上,即使不直接接触聊天记录或者其他ugc,也一样能从很多数据中还原出很多信息。例如说从几年前开始,淘宝还是支付宝,每年末都会给每个用户一份年度账单还是类似的东西,上面很清楚的列了很多你的习惯行为和资料,这其实是每个人能接触到的最直观的基于大数据的用户画像。而且随着数据的增加,这些画像会越来越精细,越来越精准。
例如说曾经有不少人好奇过qq中显示好友真实姓名的问题,其实也是这么回事,你真以为qq是分析你的聊天记录才知道你的真名的?
而且现在不止是互联网公司了能这么干了,连银行也开始玩这些新潮的东东了。例如说几个月前招行突然主动给我发了短信说我获得了30万的什么“闪电贷”的贷款额度,因为我从来不知道这玩意,更没申请过,一开始还以为是诈骗短信,没理。后来从招行手机app上看到,才知道这居然是真的。那你说招行是怎么批给我的?还用问?肯定是从我的各种流水,各种刷卡记录,各种资金往来,然后分析的嘛。
那你们说这些是不是隐私呢?其实我觉得是吧?
所以,在大数据时代,用户隐私其实真的是一个挺尴尬的问题。虽然我自己干这行,所以一直挺重视自己的隐私不在网上泄露,但是还是意外的被招行抓住了。
接下来是关于公检法等部门调阅这些数据的问题:
利用聊天记录或者其他数据查水表,我知道这是很多人的敏感点,我只能说这锅其实背得有点冤。从历史上说,最起码在周兴来俊臣年代,查水表都已经上升到理论高度,弄出了个什么《罗织经》了。所以,如果觉得没了聊天记录,就查不了水表了?哼哼,你先问问这楼里的那一票答主们同意不同意吧?
但是,就如我上面说的,现在很多大中型的企业都能有足够多的数据建立这样的数据仓库,并且自由的基于这些数据做挖掘、分析、并且用于各种用途,你觉得这就没问题?例如说招行一声不响就主动给我送了30万大礼包,这tm不是送温暖了,简直是送火炉啊---我的手机要是丢了,或者这个那个原因被黑了,这30万谁来背?虽然我相信我的安全防护意识,但是对于大多数人来说,似乎不应该那么有信心吧?所以其实这些数据现在真的是挺麻烦的,我甚至都不知道算是白的黑的还是灰的。反正是没王法没规范,想怎么来就怎么来。
最后:
网络也许给大家带来很多的安全感,例如说很多事情可以用马甲,可以匿名发帖,可以像我评论中的某个id那样,每年换一个电话号码……
唉,回忆点往事吧。
我当年还在大学时,还是smth、ytht、ptt盛行的年代。我有一次和一群人论战之后,有人偷偷告诉我,和我对骂的那帮人上了很多马甲。于是我做了个爬虫,然后分析id发言的语言风格用词风格发帖等信息,然后果然扫到了一大批的疑似马甲,其中很多还真的确认了。
所以,从这事之后我就深刻的认识到,其实就像德国人有了恩尼格玛密码机就觉得不可破译,但是却被图灵用机器破了一样,在机器vs机器,程序vs程序的年代,我们很多下意识的感觉,都是错的。这就是网络安全领域中一个基本结论:没有不可攻破的安全/加密系统,无非是代价多高,值不值得而已。
尤其是后来,从bbs的各种风波开始,我经历和旁观了这十多年来网络上各种相关的风风雨雨,有些事情真的看得很淡了。但是,不管怎么样,必须要说,其实这些网络带来的安全感真的是虚的。如果仅仅是为了不泄露个人隐私,匿名马甲什么的,都可以用,就像我现在一样。但是如果以为有了完善的个人隐私保护,就可以说什么做什么都不负责了,那就未免太天真了。
所以,不管出于什么目的,说什么话,做什么事,每个人都要为自己行为负责的---这话对谁都一样,对哪边都一样,当然也包括我。
-------------------------------------------------------------------------------------------
最后一次更新:
其实我很早就发现了,一但有人说到个人隐私被侵犯,就会有一些人出来说XX有关部门如何如何了。虽然不好说某些人是在别有用心的转移视线,但是,确实很多普通人对隐私保护这个问题是认识不足的。
所以,这里就再加一些关于隐私保护的内容,算是科普一下吧。
我先举一个通俗易懂的例子:
你家的大门上装锁,显然是不想别人随便进来,但是,问题是:这个“别人”到底是谁呢?
如果是善意的邻居,即所谓的防君子不防小人,那其实几块钱十来块的一把弹子锁就够了;
如果是不怀好意的小偷小摸,那你恐怕要买那些正规的防盗锁了,据说什么十字形的月牙形的会更好一点。但是要是运气不好,碰上老资格的江洋大盗,估计也难逃一劫;
如果是那些“日常巡查”的警察,那还不够:我家几年前曾经把钥匙忘在大门里,结果打电话让公安备案的开锁师傅来,十几分钟就搞定了。我想大家都同意,警方如果有需要的话,一定可以找来那些备案的开锁师傅,所以,要想防住他们,恐怕得上几千块钱的那些密码锁、指纹锁等等;
如果招来了大家口中无比神秘而且还无所不能的有关部门麾下的JB们---我指的是:James Bond、Jason Bourne、Jack Bauer们,哪怕你用声纹虹膜,照样给你破了。弄成金库那种级别的我不知道行不行,但是以电影来看,恐怕还是够呛。
而且也很显然的,每种不同级别的代价也是不同的。而且很多时候和换门锁不一样,这代价不但包括初始建设成本,还包括日常使用成本都会有所不同。
不妨做个实验吧:
例如说要想保护你在知乎的发言不被人肉,不想被卖帐号等等,参考一次一密原理,可以用以下办法:
你每提一个问题,或者每回答一个问题,或者每发表一个评论,都先用一次性邮箱注册一个全新的知乎帐号,然后用那个帐号登录后再匿名回答。每个帐号只用一次,之后永远废弃。
这样,哪怕知乎匿名机制不那么完善,哪怕知乎官方也不怀好意的参与对你的人肉,你的不同回答和问题也非常不容易被关联起来---如果你可以再加入一点ip地址欺骗等技术的话,效果会更好。
这个措施,不涉及金钱,也不涉及多高深的技术,只涉及一点点的时间和精力。当然,也会额外的付出一点点的代价,例如说你这么干,永远当不了知乎的大V。
好,大家自己不妨试试看,可以坚持多久?
我猜大部分人坚持的时间不会超过一个月。
同样的道理,个人隐私是不是应该保护?绝对的。
但是应该保护到什么程度?或者说,你,还有其他的民众,原意为保护个人隐私,付出多大的代价?
我理解各位听到自己的个人隐私被侵犯,或者可能被侵犯时的义愤填膺。但是,说得难听点,大部分人对自己的个人隐私的看重程度,并不如他们在听到这类新闻时所想象的那么高。
说白了,对每个人来说,自己的个人隐私的最大敌人,是自己的惰性:
因为懒惰,所以都在用第三方授权注册和登陆;
因为懒惰,即使不提供第三方授权机制,也在不同网站不同app都用同样的id和密码;
因为懒惰,自己名下的所有银行卡都用同一个密码,更别说定期更换了;
因为懒惰,某些要求定期更改密码的选项会被关掉,如果是关不掉的,会在改完密码后,把密码抄在某个小本子上;
因为懒惰,所以是root敢死队的核心成员;
……
所以,保护个人隐私,非常政治正确。
但是如果不仅仅是想喊口号,而是想认认真真的探讨相关问题,请讨论的各方先明确两点:
1:你的个人隐私想保护到什么程度?
2:你愿意为此付出什么样的代价?
这两点不明确,永远都不会有结果。
Freedom is not free.
Privacy/Security 同理。
好了,取消关注了,干活了。
最后,谢谢各位点赞或者关注。如果这些内容能给大家一点帮助,我就很满足了。
谢谢。
全中国一天的聊天记录到底有多少我不知道。但是我只知道我的团队,一天处理的日志流水起码几百个G。而且,这几百个G还不是小电影小图片,都是文本,有多少字符自己换算一下。
你让我随便去看看,然后从中找到点什么蛛丝马迹?
err~
所以,这种情况,不外乎两种可能:
1:他/她的id上了黑名单,所以相关的记录被单独提出来了;
2:他/她的某些聊天记录触发了某些规则的警报,被过滤出来了。
而“随意翻阅”,其实仅仅是一个为了不泄露具体内情的一个掩饰说法而已。
-------------------------------------------------------------------------------------------
我本来没觉得我这内容算什么“内幕”的,没想到居然引来这么热烈的回复。
再补充一些内容吧:
首先是聊天记录问题:
其实一开始答的时候没注意看题目的图片。
其实仔细看一下就会发现,那聊天记录的格式太工整太漂亮了,绝对不是从服务器或者任何后台接口上拿下来的数据。不是据说知乎上程序员一抓一大把吗?怎么没一个人发现这点呢?我就不信你们平时做系统开发时,日志都是打成富文本格式的,还居然带不同的颜色?
而无论是网监还是公检法还是其他什么部门,倒数据过去一定也是从后台接口倒的,也肯定没谁有这闲情逸致的把这些东西给弄得那么漂亮。
所以这图片肯定是从qq客户端的聊天记录上拍的,只是刚才对比了一下我的qq的聊天记录格式,似乎又有点不一样,不知道是不是版本差异。
然后是聊天记录问题:
首先我澄清一下,一般而言,我是不接触线上的实际数据的,当然某些时候从生产环境批量导一些数据到开发环境和测试环境,作为样本用于测试或者别的啥的还是有的。
另外,数据分析不是需求不是研发不是测试,所以任何关于聊天记录在服务器端的行为,例如说是否被过滤或者转发到有关部门等等问题,我是真的不知道。不过,在我看来,有过滤是正常的,没过滤倒是值得问一下:真的吗?
再说一下用户隐私的问题:
我大概可以理解大家为什么那么关注聊天记录,那是因为大家认为用户隐私就等于聊天记录吧?
但是实际上,即使不直接接触聊天记录或者其他ugc,也一样能从很多数据中还原出很多信息。例如说从几年前开始,淘宝还是支付宝,每年末都会给每个用户一份年度账单还是类似的东西,上面很清楚的列了很多你的习惯行为和资料,这其实是每个人能接触到的最直观的基于大数据的用户画像。而且随着数据的增加,这些画像会越来越精细,越来越精准。
例如说曾经有不少人好奇过qq中显示好友真实姓名的问题,其实也是这么回事,你真以为qq是分析你的聊天记录才知道你的真名的?
而且现在不止是互联网公司了能这么干了,连银行也开始玩这些新潮的东东了。例如说几个月前招行突然主动给我发了短信说我获得了30万的什么“闪电贷”的贷款额度,因为我从来不知道这玩意,更没申请过,一开始还以为是诈骗短信,没理。后来从招行手机app上看到,才知道这居然是真的。那你说招行是怎么批给我的?还用问?肯定是从我的各种流水,各种刷卡记录,各种资金往来,然后分析的嘛。
那你们说这些是不是隐私呢?其实我觉得是吧?
所以,在大数据时代,用户隐私其实真的是一个挺尴尬的问题。虽然我自己干这行,所以一直挺重视自己的隐私不在网上泄露,但是还是意外的被招行抓住了。
接下来是关于公检法等部门调阅这些数据的问题:
利用聊天记录或者其他数据查水表,我知道这是很多人的敏感点,我只能说这锅其实背得有点冤。从历史上说,最起码在周兴来俊臣年代,查水表都已经上升到理论高度,弄出了个什么《罗织经》了。所以,如果觉得没了聊天记录,就查不了水表了?哼哼,你先问问这楼里的那一票答主们同意不同意吧?
但是,就如我上面说的,现在很多大中型的企业都能有足够多的数据建立这样的数据仓库,并且自由的基于这些数据做挖掘、分析、并且用于各种用途,你觉得这就没问题?例如说招行一声不响就主动给我送了30万大礼包,这tm不是送温暖了,简直是送火炉啊---我的手机要是丢了,或者这个那个原因被黑了,这30万谁来背?虽然我相信我的安全防护意识,但是对于大多数人来说,似乎不应该那么有信心吧?所以其实这些数据现在真的是挺麻烦的,我甚至都不知道算是白的黑的还是灰的。反正是没王法没规范,想怎么来就怎么来。
最后:
网络也许给大家带来很多的安全感,例如说很多事情可以用马甲,可以匿名发帖,可以像我评论中的某个id那样,每年换一个电话号码……
唉,回忆点往事吧。
我当年还在大学时,还是smth、ytht、ptt盛行的年代。我有一次和一群人论战之后,有人偷偷告诉我,和我对骂的那帮人上了很多马甲。于是我做了个爬虫,然后分析id发言的语言风格用词风格发帖等信息,然后果然扫到了一大批的疑似马甲,其中很多还真的确认了。
所以,从这事之后我就深刻的认识到,其实就像德国人有了恩尼格玛密码机就觉得不可破译,但是却被图灵用机器破了一样,在机器vs机器,程序vs程序的年代,我们很多下意识的感觉,都是错的。这就是网络安全领域中一个基本结论:没有不可攻破的安全/加密系统,无非是代价多高,值不值得而已。
尤其是后来,从bbs的各种风波开始,我经历和旁观了这十多年来网络上各种相关的风风雨雨,有些事情真的看得很淡了。但是,不管怎么样,必须要说,其实这些网络带来的安全感真的是虚的。如果仅仅是为了不泄露个人隐私,匿名马甲什么的,都可以用,就像我现在一样。但是如果以为有了完善的个人隐私保护,就可以说什么做什么都不负责了,那就未免太天真了。
所以,不管出于什么目的,说什么话,做什么事,每个人都要为自己行为负责的---这话对谁都一样,对哪边都一样,当然也包括我。
-------------------------------------------------------------------------------------------
最后一次更新:
其实我很早就发现了,一但有人说到个人隐私被侵犯,就会有一些人出来说XX有关部门如何如何了。虽然不好说某些人是在别有用心的转移视线,但是,确实很多普通人对隐私保护这个问题是认识不足的。
所以,这里就再加一些关于隐私保护的内容,算是科普一下吧。
我先举一个通俗易懂的例子:
你家的大门上装锁,显然是不想别人随便进来,但是,问题是:这个“别人”到底是谁呢?
如果是善意的邻居,即所谓的防君子不防小人,那其实几块钱十来块的一把弹子锁就够了;
如果是不怀好意的小偷小摸,那你恐怕要买那些正规的防盗锁了,据说什么十字形的月牙形的会更好一点。但是要是运气不好,碰上老资格的江洋大盗,估计也难逃一劫;
如果是那些“日常巡查”的警察,那还不够:我家几年前曾经把钥匙忘在大门里,结果打电话让公安备案的开锁师傅来,十几分钟就搞定了。我想大家都同意,警方如果有需要的话,一定可以找来那些备案的开锁师傅,所以,要想防住他们,恐怕得上几千块钱的那些密码锁、指纹锁等等;
如果招来了大家口中无比神秘而且还无所不能的有关部门麾下的JB们---我指的是:James Bond、Jason Bourne、Jack Bauer们,哪怕你用声纹虹膜,照样给你破了。弄成金库那种级别的我不知道行不行,但是以电影来看,恐怕还是够呛。
而且也很显然的,每种不同级别的代价也是不同的。而且很多时候和换门锁不一样,这代价不但包括初始建设成本,还包括日常使用成本都会有所不同。
不妨做个实验吧:
例如说要想保护你在知乎的发言不被人肉,不想被卖帐号等等,参考一次一密原理,可以用以下办法:
你每提一个问题,或者每回答一个问题,或者每发表一个评论,都先用一次性邮箱注册一个全新的知乎帐号,然后用那个帐号登录后再匿名回答。每个帐号只用一次,之后永远废弃。
这样,哪怕知乎匿名机制不那么完善,哪怕知乎官方也不怀好意的参与对你的人肉,你的不同回答和问题也非常不容易被关联起来---如果你可以再加入一点ip地址欺骗等技术的话,效果会更好。
这个措施,不涉及金钱,也不涉及多高深的技术,只涉及一点点的时间和精力。当然,也会额外的付出一点点的代价,例如说你这么干,永远当不了知乎的大V。
好,大家自己不妨试试看,可以坚持多久?
我猜大部分人坚持的时间不会超过一个月。
同样的道理,个人隐私是不是应该保护?绝对的。
但是应该保护到什么程度?或者说,你,还有其他的民众,原意为保护个人隐私,付出多大的代价?
我理解各位听到自己的个人隐私被侵犯,或者可能被侵犯时的义愤填膺。但是,说得难听点,大部分人对自己的个人隐私的看重程度,并不如他们在听到这类新闻时所想象的那么高。
说白了,对每个人来说,自己的个人隐私的最大敌人,是自己的惰性:
因为懒惰,所以都在用第三方授权注册和登陆;
因为懒惰,即使不提供第三方授权机制,也在不同网站不同app都用同样的id和密码;
因为懒惰,自己名下的所有银行卡都用同一个密码,更别说定期更换了;
因为懒惰,某些要求定期更改密码的选项会被关掉,如果是关不掉的,会在改完密码后,把密码抄在某个小本子上;
因为懒惰,所以是root敢死队的核心成员;
……
所以,保护个人隐私,非常政治正确。
但是如果不仅仅是想喊口号,而是想认认真真的探讨相关问题,请讨论的各方先明确两点:
1:你的个人隐私想保护到什么程度?
2:你愿意为此付出什么样的代价?
这两点不明确,永远都不会有结果。
Freedom is not free.
Privacy/Security 同理。
好了,取消关注了,干活了。
最后,谢谢各位点赞或者关注。如果这些内容能给大家一点帮助,我就很满足了。
谢谢。