1
每到年底,都会有看不完的各种报告。
这些报告,往往会以诡异的角度,插入我们的生活,有时候让我们开心,有时候让我们郁闷。
于是大家都会骂,什么破榜单,什么破统计。
统计学是不是一门玄学?
恭喜你,意识到了统计学的本质。
百度百科对统计学的定义是这样的。
统计学是通过搜索、整理、分析、描述数据等手段,以达到推断所测对象的本质,甚至预测对象未来的一门综合性科学。
发现问题了吗?
统计学本身并不代表真理,只是代表某种手段。
既然是手段,那么有阳间的,自然也有阴间的。
优秀的会计可以把亏损做成赚钱,把赚钱做成亏损,这就是统计学+规则的妙用。
只要用的人骚,统计学可以被玩儿出无数花招。
之前和几个朋友去野营,晚上没事儿干瞎聊天,有个是在地质局工作的,有个是把荒野求生刷了好几遍的程序员,有个搞统计的,还有一个我。
我们商量,如果咱们在沙漠里面迷路了,谁活下来的几率大。
我肯定很快就被剔除了,除了以前做尽调被狗追着跑的时候展现过强大的求生欲,野外生存能力几乎为零。
地质局工作的觉得自己能很好的分辨自己在哪里需要如何行进,贝爷爱好者觉得自己终于可以喝大象粪便里面的水了,还有点小期待,但是搞统计的伙伴一句话,我们都服了。
他说搞统计的水分多,活得久。
这自黑,让学地理的老哥又想起了一个真实的故事。
美国北卡大学做过一次统计,调查自己地理系毕业生的收入情况如何。
不看不知道,一看吓一跳,自家地理系毕业生的平均收入吊打全美其他大学地理系。
于是开心的对外宣布:美国地理哪家强?美国北卡找蓝翔。
其他大学不服气,数据摊出来一看,倒也没话可说。
因为北卡选择统计的那一年,地理系毕业生里面有个老哥,叫迈克尔乔丹。
以一人之力,扛起了整个学校地理系毕业生收入水平的天,不愧是飞人。
平均数一下子就被拉起来了。
如何提高杭州人工资水平?
答案是把马云摊进来,而且得是资产摊进来。
咱们平日见得最多的,应该就是和收入相关的统计了。
这年底了嘛,各家都在通过发福利的方式做宣传,一份钱两份用,资本果然会玩儿。
经常有大厂公布自己的平均工资,或者发布自己给员工发了好多股份,结果大家都一个感觉:
老王有钱一千万,九个朋友穷光蛋,平均起来算一算,个个都是王百万。
想要收入数据好看的时候,就聊平均数;
想要强调不好看的时候,就谈中位数,都是常规操作。
这就是搞统计的花活,嘴上说着“我通过数字来证明”,结果变成“我通过数字来忽悠”。
再比如前些年,看到一个新闻,中国电竞从业者人数只有5万人,缺口达到50万,这新闻大家都还记得吧。
本质上没错,电竞的确很火,但是同一个新闻顺手还给了另外一个数据,说中国电竞营收达到1.64亿美元。
额,1.64亿美元,咱们假设没有中间商赚差价,没有资本要投资回报,都给5万从业者发工资了,人均1800每个月。
很多数字真是不能乱算。
数字材料虽然都是实打实的,看上去非常的精准,非常的具有科学性,但是数字堆在一起,就不一定代表规律和事实了。
就像代码是由0和1构成的。
牛老师写代码,是0还是1呢?
那个喜欢贝爷的程序员还聊了一个发生在自家公司的事情,非常神奇。
他们公司有个负责安卓开发的大佬,很看不惯搞IOS的那帮人,于是研究了一下两边带来的效率。
具体数据记不清了,咱们就假设一下,消费者里面有10000人用安卓,5000人用IOS,整体的付费率是5%。
安卓大佬仔细一看,哟,我家安卓的付费率是6%,IOS那边只有4%,我赢麻了。
然后开开心心的拿着这个数据去找老板,结果老板正在看IOS那边送来的数据。
IOS那边更骚,更早一步,数据分的更细。
老板劈头盖脸的骂,你怎么做的,IOS手机付费率吊打安卓团队,IOS平板付费率也吊打安卓团队。
尴了个尬。
你再品这个数据,非常真实,没有一点参假。
但是就是合在一起是安卓牛,分开以后安卓每个细分都被IOS吊打,就这么神奇。
这其实是1951年英国统计学家辛普森就提出来的悖论,如果把数据切的足够细,总能找到有利于自己故事讲述的方式。
你还记得,生态化反么?
还记得骗了我押金的共享单车当年的大战,ofo说根据“第三方数据研究机构”提供的统计,市场占有率51.2%,稳稳的第一名,城市覆盖率还是第二名的三倍。
然后友商里面坐不住了,也找了“第三方数据研究机构”,说月活我们第一,充值笔数我们第一,市场活性和增长潜力我们吊打ofo一个数量级。
呵呵,我们都知道,怎么可能有车比OFO跑得快呢。
F1都不行。
我都相信他们的数据是真实的,研究维度和统计角度不同,分的够细,都能说自己是第一。
我是公司山东籍颜值最高,身材最好,人品最佳,饭量最少的人。
当然,我同时也是山东籍颜值最烂,身材最圆,人品最次,饭量顶天的人。
就如同曹主任一会说自己是阿姆红灯区吴彦祖,一会说自己是阿姆特种产业王宝强,都对。
聪明的人类立马发现了另外一个办法,反向操作,我把数据扩的足够大,乱七八糟的都拉进来,也能玩儿出花样。
这让我想到以前读书的时候学SPSS,那是各种变量都想来看关系,比如身高和大学恋爱次数的关系,比如体重和伙食费的关系,这些都还算是靠谱。
但是稍微再一扩展,就麻烦了。
当年飞天面条教的大佬就说,从19世纪开始,随着海盗数量的不断减少,全球变暖的问题日益严重,给世界带来了无穷的灾难。
于是,索马里的海盗成了最硬核的环境保护者,我们都应该加入他们。
瑞典少女的愤怒,来自飞翔荷兰人的海风。
还是那句话,这两个数据,一点毛病都没有,海盗数量的确锐减,地球气温的确升高,线性回归就是这么直白。
但是当把这两个数据强行放在一起的时候,想象空间就可以无穷大。
我把牛老师和富老头见面的次数一统计,然后再把我家猫上厕所的次数一汇总,惊讶的发现,都那么的有规律,我家猫厕所上的越多,牛老师和富老头的深度交流就越多。
给我家猫吃泻药,牛老师走路要摇晃。
数字,就是那么的精准,不接受反驳。
你如果觉得这是段子的话,在投资历史上发生过真的试图用这些数据关联做指导的事情。
1990年代,数学家大卫·雷恩韦伯和投资经理戴夫·科瑞德在杂志上发了一个报告,说调查了历史数据以后发现,孟加拉国的黄油产量与标准普尔500指数的紧密相关性超过其他任何他们能找到的数据。
然后把孟加拉国黄油产量、美国奶酪产量、孟加拉国羊群数量这三个变量合在一起做出来的模型,可以解释99%的标准普尔指数的走势。
刺激不刺激?
其实雷恩韦伯就是搞事情开玩笑,但是到了2014年,雷恩韦伯在《福布斯》杂志上还说,那个报告发表都快20年了,还有投资者打电话到他办公室索要最新的孟加拉国黄油产量。
这比星座炒股学看上去理性多了,也离谱多了。
马克吐温说过,
谎言大致有三种,谎言、该死的谎言、统计数字(Lies, damned lies, and statistics)。
其实你看老马的投资经历,就知道他的怒气是从哪里来的。
当年买了俄勒冈铁路公司的股票,是成功的在78美元杀入,然后在12美元卖出,给自己腾出了巨大的进步空间,看来也是被数据忽悠了。
股市是公平的。
谁来都给你弄个刺激。
那如果保持数据的不变,不增加,也不减少,不扩大,也不缩窄,会不会就没有骚操作了呢?
这是小看了人类的创造力。
首先就是能调转因果关系,玩儿先有鸡还是先有蛋的概念。
根据统计数字显示,去参加森林灭火的消防员越多,火灾造成的损失就越大。
所以为了降低火灾损失,就要减少消防员的数量。
根据统计数字显示,生日过的越多的人,活得越久。
所以为了活得久,要多过开生日宴,万物都在利好酱香。
我自己以前上大学的时候要生活费,还这样统计过,生活费给的越高的,家里就会越有钱,结果这个理论被老爹无情的打压。
看来鸡父母果然是个微操课,里面门道很多。
不过我要生活费还是小操作,我室友那才叫生猛,那时候一寝室的汉子经常大半夜骑着自行车出去吃烧烤,过十字路口的时候他就开始冲刺,站起来蹬的那种。
他的理论上,十字路口容易出事儿,所以我要快速通过,减少暴露在风险里面的时间。
乍一听,是不是还很有道理,希望他现在开车的时候已经忘记了这套理论,不然以后毕业聚餐人很容易不齐了。
这就是把原因和结果进行一个对调,就能用数据讲出自己想听的道理。
其次,就是用统计数据对现实决策瞎指导。
还是那个骑车风一样的室友,他可以说对数据的拿捏是非常的精准。
那时候都要考四级嘛,第一次他努力学习,没过,第二次他再努力学习,还是没过。
等到第三次的时候,我们都以为他要头悬梁了,结果他反而不背单词了。
他的理论上,你知道连考三次都不过的概率有多低么。
看来他还是不相信自己是时代之子,于是,第三次还是没过。
这让我想到有个这样的段子,二次大战期间,莫斯科遭到德军的空袭,大家都钻防空洞。
统计学家就头铁,死活不去,别人问起来,他就说,我算过了,莫斯科700万居民,我被炸的概率很小的。
结果几天以后,有朋友在防空洞看到了教授,问教授怎么又来了。
教授说,莫斯科有700万人,只有一头大象,但是昨天,那头大象被炸死了。
果然,爱统计的人,总是能称为概率的幸运儿。
当然这笑话里面,教授是在炸弹的目标区域,如果换一个角度,自己是发射炸弹的呢?
三个统计学家去打猎,刚好遇到一头鹿,第一个统计学家开枪了,子弹左偏了一米没打中;第二个统计学家开枪了,子弹右偏了一米没打中。
这时候该第三个统计学家了,他非常开心的放下枪说,不需要我打了,平均来说,前两枪已经击中了。
你别说,我在山东出生,在杭州工作,那我平均下来,莫非是个南京人?
不过,现在概率遇到了惊悚体,指导生活的时候就经常让我从吃瓜群众变成被吃瓜的人了。
去年春节我在家族群里面看到了这样的分享,权威统计,百分之99以上的人,死亡前曾经摄入水分,喝水不要盲目。
喝水,可能会死。
还是那句话,数字是没问题的,只是用来指导生活就麻烦了。
大概类似于什么呢,语言是工具,但谣言就麻烦了。
最后一个,也是咱们日常里面经常能看到的,就是横向纵向的脑回路清奇对比了。
现在很多榜单研报,单独列出一个数字来,觉得缺了点精神,都喜欢做做比较。
咱们小时候都应该玩儿过这套路,期末成绩出来了感觉回家要混合双打了,都采用横向对比模式,别谈分数,谈增量。
上次是倒数第十,这次是倒数第十五,涨势喜人,潜力巨大。
这套从企业公告就可以看到,说自己发展迅速,利润增长为去年同期300%,结果一看,去年刚扭亏,刚摆脱了饿死的边缘。
今年的增长,也就是从100万盈利变成了300万,细看还是会计手法,本质依然是烧投资人的钱。
搞统计的朋友还给我说过,之前带过一个实习生,分析一家公司的全年业绩,发现2月份的营收出奇的低,怎么都想不清楚怎么回事儿。
回家和老妈吃饭,实习生老妈说,那2月是春节啊,休息小半个月。
当妈的,总能在意想不到的地方,提供职场助力。
不过,这三招都还是从数据解读层面进行的操作,怕就怕,一些数据在设定的时候就已经挖好了坑。
结婚率和离婚率最近是一个很热门的话题,大家都在讨论。
之前和公司小伙伴聊离婚率,把我吓一跳,他言之凿凿的说有媒体统计咱们国家2019年离婚率高达63%。
感觉是100对夫妻里面有63对都在这一年离婚了,看来王母娘娘棒打鸳鸯都是批量性的。
其实问题就出在数据指标的概念和定义上,民政部公布的结婚率和离婚率,指的是粗结婚率和离婚率,也就是用结婚离婚的对数去除以当期人口平均数。
那63%这个数据如果是按照这个指标,也就是咱们国家基本每个人都在一年之内离婚一次,一部分人还要两次,因为离婚指的是对数,两个人才能凑一对嘛。
但是也不能说这个63%就一定问题,因为还有一个算法,是离婚结婚比,指的是每有100对结婚的,对应的有多少离婚的。
如果是这个标准,那63%的离婚率指的就是2019年假设全国有100万对新人注册结婚,那还有63万对是注册离婚的。
这俩数字能不能直接这么比对,其实有争议。
但总有些人拿来搞大新闻,制造争议。
说到结婚,我还想到,以前一个学校接到投诉,说本校某专业女学生,不低于50%的最后都嫁给了老师,弄得学校非常禁止,这师生恋啊,比例还那么高,要翻天啊。
结果去查证,倒不能说投诉是诬告了,计算机专业就两个女学生,一个和老师恋爱结婚,比例真不低于50%,刚好50%。
这些统计过程中的坑,别说咱们受众,搞统计的自己也中招。
比如那个经典笑话,统计学家过河的时候淹死了,因为这条河平均水位不足1米。
这就是统计起来感觉平平,其实水很深,把握不住。
之前国内某个以数据研究出名的咨询机构,多名高管集体失联,就是踩水坑里面了。
为什么拉拉杂杂讲那么多统计这个本身并不太好玩的话题呢?
因为数字虽然不好玩,但是背后能制造出来的魔幻太多了。
所以趁着年底各种数据报告集体出炉的时候,给大家提个醒,想要不被骗,一定要看看报告里面的数据是怎么来的,筛选量如何,取数是否规范,从“数”的层面做好防范。
然后再要从“分析”的层面,看看是否有明显的偏向性,是否有收钱报数的痕迹,是否有刚才提到的各种花活。
不然,报告虽然好看,但是并没有意义,仅仅是对数字的摆弄而已。
这是来自每天都会给自己磕头的人类里面颜值最高身材最好的汉子的建议。
妥妥的稳。