统计数字会撒谎

前言: 关于数据

比起冰冷的数据, 我们的决策通常是依赖于其他别的东西.

reverie,more than data

我们先来说说数据. 数据对你意味着什么?
你每天浏览的每一个网页, 加入购物车的每一个宝贝, 跟你好友的互动关系, 这些在你无感知的情况下储存为你个人的数据中心. 当然,在这个”免费”的互联网时代里,你的数据可不属于你.

现在我看到数据,我更多的不是关心数据本身, 而是在想:

  • 这到底意味着什么?
  • 这对我意味着什么? (我想达到什么有的目的)
  • 谁会关心这个数据? (他们关心的是什么)

把这三个个问题弄清楚了,下面对数据真伪的判断才有意义.

说来也有意思,我最近半年的工作也是跟数据打交道,我接触的运营,产品都认为数据很重要,但我却没看到他们很成功利用数据的案例. 我看到的只是对数据的痴迷, 就好像我大学的一段时间里拼命下载电子书一样,单单看着书名就可以获得极大的满足感. 这是一种信息过度带来的自我满足的幻觉.

TED:如何利用大数据做出正确的判断 Talker 分享了一个这样的观念:我们在解决复杂问题时,总的来说只是在做两件事: 一是把问题拆解,一点一点的深入分析,另外一个是把这些分析的结果再次组合在一起. 不断重复,最后得出你的结论.
whatdatacando

数据和数据分析擅长的是拆分,一点一滴找到各个问题的原因.但它却不擅长把这些碎片聚合在一起.擅长聚合的是我们的大脑.依赖数据本身做出的决定最多是中规中矩,而不是你想要的惊艳. 无论在什么时候,莫大的荣誉是伴随着极高的风险.最终能让你落在正态分布曲线右端的,不会是数据,而是风险. 聚合的这一过程,有点像 AHA!moment. 总有一些你无法解释的感觉将你和冰冷的数据分开来,让你的决策不仅仅是依靠于数据.

我觉得怎么运用书里面的知识,完全是要看你想达到什么样的目的.你可以用这本书的内容去迷惑你的老板,投资者,或者你可以用它来当做自卫的武器.像我这种,暂时就是看着玩, 看着别人玩.

读书笔记: 统计陷阱

统计数字会说谎

下面是数据分析的三个要点:

  • 基础数据
  • 推导过程,分析方法
  • 结论

要是下次有人用一大堆你听不懂貌似很牛逼的分析方法在给你讲数据的时候,你要先知道,分析方法只是数据分析的一环.一条河永远不可能高于它的源头. 只要基础数据(样本)有问题,再厉害的分析方法,也只能是垃圾进垃圾出. 而最后结论,你要小心,结论本身不一定代表你最终的目的.

这本书按豆瓣评价的,只是一个入门的工具书.大部分是作者的观点,有一些是打字的时候自己想到的观点,柔和在一起.

数据本身会有什么问题?

1 存在偏颇的样本:

  • 调查问卷显示大多数人持肯定意见

    大多数持否定意见的人,已经随手将你的问卷丢进最近的纸篓中

  • 1924即耶鲁毕业生现在平均收入可达$25111

    首先,这个数据准确得令人质疑, 其次,这个数字大得不像是真的.这里最大的误差是来自于抽样的合理性: 25年后大多数毕业生已经无法联系,况且这种收入问题还涉及隐私.
    愿意被统计其收入的一般来说混得不会太差,混得差的你不会见到他们的踪影,这些人被”暴力 “忽视了.这调查问卷基本是那些现在还能取得联系而且愿意回答这些问题的人”垄断”,基本没什么意义.

  • 男性平均有3.6个心伴侣,女性则只有1.6个.结论:男生真的是花心

    人们在回答问题的时候也不会真的说真话,可能会美化自己的形象.或者迎合提问者的偏好.所以要想真的使统计数据有效,不要问别人他们会怎么做,想办法调查他们已经做了的.话说在XXOO的时候是异性双方的吧,这样男女数字应是相近的,差异的在于,男生有夸大自己心伴侣数量的倾向(雄性魅力) ,女性则相反(反荡妇机制)

    问:这类隐私的话题要怎么调查?

    简单,利用条件概率,例如,你现在抛一枚硬币头像向上,则回答真话,不然请撒谎. 这样回收上来的问卷大致会有一半真话,一半假话.

2 精心挑选的平均数

要知道,数学上不仅仅只有平均数,还有方差.众数,中位数,为什么呢?存在即合理,因为平均数有时候就是坑爹.举例就不说了,因为太熟悉了, 什么全国人均收入高达XXX, 人均住房面积有 XXX ,我不知道这些出于什么目的写出来的,或者我看到之后引起情绪波动它的目的就已经达到了吧. 对于平均数, 我们可以提出的问题:

  • 这个统计群体是哪些人?
  • 使用的是哪一种平均数?
  • 甚至问问自己,数据提供者本身的立场是什么?

3 利用不充分的样本:

我抛硬币10次,头像的有8次,所以我说抛硬币头像向上的机率是80%;

有时候实验的百分比是不够的,(这个数据可以是正确的,或许是在一两次实验得到的,谁知道)

问:那要实验几次才够?答案是,我不知道,我只会对你的数据不断地提出质疑,仅此而已.

抽样的本质是我们的资源(精力和时间)都是有限的. 我们可以:看看这条信息有没有提供其显著性程度,意思就是说,有多大的概率我可以相信这个数据是对的;对于一些我们看不到的数据,我们不该忽略他们的存在.

第一到第三章简单来说违反了随机的原则,要知道为了可以得到自己心目中想要的结论,数据是”有所选择的”,数据是很容易造假,在你的数据样本带上你的偏见,诱导性的问答

我教你用数据来欺诈

毫无意义的比较

这里想说的就一点: 数据真的具有可比性吗?
参军的死亡率低于正常人的死亡率

参军的大多是身体强壮的年轻人,正常人中有儿童,老人.即使结论相反也说明不了什么问题, 这样的数据是不具可比性的.

生动的展示:

展现事实比事实本身更重要

数据是晦涩的,但图形却是生动的

  • 数据的趋势.

绘制坐标轴的时候,要是不统一单位,或者为了让上升趋势更明显而采取可以缩短纵坐标的单位长度的方法,都可以给别人营造出一种不一样的假象:

  • 图形面积:

数据比是2:1,要是我们显示的时候把柱形图长宽都扩大两倍,就会给人一种4:1的假象

相关性和因果性的混淆

  • 尝试一下”挂羊头卖狗肉”的做法:

    数据来自 XX 大学和结论来自 XX大学可是两码事.把自己的结论跟知名品牌扯在一块倒是个不错的策略–利用名人效应.

    警惕权威人士,到底资料的内容是权威的,还是仅仅与权威人士沾边. 而且,结论和资料之间还经过人的再加工

  • 将看上去相似但实际没什么关系的两件事混淆在一起:
    数据与结论之间并不是因果关系,而是未透露的第三个因素的产物;

换一种说法

模凌两可的平均数;
回报率上一年是3%,今年是6%,你可以说,利润增长了100%;
像上面说的利用百分比;
改变对比的基准;(给人一种好吊感觉)

在描述同一个数据时有不同的方法.比如说,你可以将相同的事情表述为 1%的销售利润率;15%的投资回收率;1000 万美元的利润;利润上升 40%(与 1935~1939年的平均水平相比);或者与去年相比下降了 60%.选择一个目前最有利于你的说法,而且读到这个数据的人中,极少有人会对它的真实性表示怀疑.

这有些类似路边小贩的故事.当人们询问他的兔肉三明治为什么能卖到如此便宜的价格时,”哦,”他说,”我当然得掺一些马肉,但我的比例是1:1 — 一匹马,一只兔子.

清醒过来吧,各位

数据可以坑人,但要是我们对生活中每一个数据都这么较真,正常人估计会疯掉.
我觉得这是概率的生活,有时候我会较真,有时候我不会,有时候我拒绝别人为我思考,有时候我会接受别人的催眠,但这其中有一点不一样的,就是,这是我选择这样做的. 意识到这些可能存在的问题,起码当我真的想较真的时候,我知道可以从哪些方面下手. 有理有据,条理清晰.

对数字可以提出的5个问题:

书的最后一章是提出这样的5个问题,其实前面的篇幅已经在笔记前面体现,我这里就简单再罗列一下

  1. 谁说的

不该问理发师自己是不是该剪头了,不该问服装导购衣服穿在身上好不好看.一个人说什么话大部分时间取决于他的立场.

  1. Ta如何知道的
  2. 是否遗漏了什么?
  3. 是否偷换了概念?
  4. 即使如此,资料是否有意义?

哈佛商学院的秘密一书只有一个简单的指导原则: 不断地问 so what?

附上一些有趣的统计说法:

该消毒剂可以消灭99%的细菌 (那剩下的1%强力菌会不会要了你的命?)

正确的治疗可以在7天内治愈感冒(一般感冒即使放着不理,7天后要么自动痊愈,要么就升级为其它了,反正不是感冒)

某国家50%的人工资低于平均水平(不一定两级分化,不信看看这4个人工资: 10,20,30,40,你看分布均匀但还是符合前面的说法)

某地区90%都接上了网线(接上? 也就是说 接上但没接通也算接上咯~~)

在最近的某一年中,火车交通的死亡人数为4712人(几乎一半的死亡者是那些驾驶汽车与火车在十字路口相撞的人,而剩下的大部分是那些无票偷乘火车的人.4712人中仅有132人是火车上的乘客.除非将这个数据与总乘客,里程数相结合,否则在横向比较中,132人起不了作用)

某感冒药的实验室报告中指出,此此药仅仅半盎司的量就在11秒内杀死了31108个细菌,(你得问问杀死的是否就是引起感冒的细菌.)

实验证明该榨汁机的功能增强了26%(你得问问是和什么比,如果和一台老式的手摇榨汁机比较,那么说不定,卖广告的这台就是市场上最差的榨汁机了.)

参军的死亡率是9%;城市居民死亡率是16%,所以参军更安全(能比吗?能参军的本身身体就会比一般人好,更不要说城市还有老人,婴儿,当然要是数据相反其实也说明不了什么问题)

“晚上的车祸比早上多,仅仅因为晚上有更多的车和人在高速公路上.单独一个驾驶员在晚上也许会比较危险,但上述的数据却不足以证明这一点.以同样荒谬的逻辑继续推理下去的话,你还可以证明天气晴朗时驾车比有雾时更危险.因为晴天比雾天多,所以天气晴朗时会有更多的交通意外.但只要运用常识,你我都能知道雾会使驾车变得危险.”

  

总结和摘录

总结

这个世界不仅仅只有数字,你通过数字得出一个结论,更应该自己去看看, 这个世界远比数字能呈现的东西丰富多彩多了.

摘录

到目前为止的趋势都是事实,而未来的趋势只不过是受教育者的猜测.该方法暗含”其他所有条件都相同”,以及”现有趋势将继续下去”的前提.

刻意造成的误差: 你调查问卷的年龄层,调查地点(大商场大多年轻人,高级酒店大多商务人士),调查时间(早上晚上,四季).

到分析数据的时候,已经有三次抽样了,每一次抽样就会有偏差.这三种可以提供你思考的时候方向.
第一次:总体随机抽出样本;
第二次抽样:任一调查问卷都只不过是是所有相关问题的样本;
第三次抽样:每一个人的回答也不过是他关于这个问题的态度,而非事实本身.

人们有时会为了一个数学上可论证却小得没有意义的差别费尽力气.这种行为是对这句古训的藐视:只有当差别有意义时才能称之为差别.