首页 体育 教育 财经 社会 娱乐 军事 国内 科技 互联网 房产 国际 女人 汽车 游戏

数据是如何“骗”你的?聊聊数据分析可能遇到的坑(原创)

2020-05-21

马克吐温:“国际上有三种假话,区分是假话、活该的假话、和统计数字。”

数据是不是最客观?最实在?

其实挺多人都有点迷信数据,由于数字不会扯谎,考了100分便是比考了99分高。但实践生活远比考试巨大,咱们天天自动或被逼触摸很多数据,或许是职业报告、媒体报道,也或许是产品广告,做抉择的时分也往往要看到数据才定心。其实,数据许多时分并不那么“单纯”,用数据的人也有意无意会犯错,所以许多时分过分迷信数据,反而简单出问题。

所以今天从数据根源误差、数据解读圈套、人为控制误导这三方面来聊聊数据的“坑”,期望你看完后能相识些套路,再看报告或数据时多个心眼,带着置疑的精力看数据。不要掉入圈套,

你或许听说过“黑巧克力能瘦身”这个说法。2015年约翰波哈诺博士在一篇期刊上登出了这项研讨结果,媒体记者们一看,呦,能够搞个大新闻啊,把传统观点批评一下,纷繁转载。

但其实这个事情都是波哈诺臆造出来的,他随意找了16小我私家做样本基数,然后就推导出这么个定论,意图便是想看看流言怎样变成威望媒体的头条。研讨揭晓后没有一个记者来联络他问他这个试验的样本量是好多、代表性怎样样、进程是否合理,直接就揭晓和引用了“研讨结果”。直到现在,还有些自媒体或许微商们在拿这条假消息当论据。

咱们为什么要重视样本量和样本代表性?

比如你要想知道年轻人对流量明星的情绪,但是年轻人有好几亿,也不或许挨个问对吧。所以要抽样,抽出几百一千小我私家,用他们的情绪去代表全体人群的情绪。但是你找了800个小哥哥的粉丝,200个纯路人,得出来的作用肯定是好好好,棒棒棒啊。

所以,样本量和代表性是抉择数据作用靠不靠谱的前提条件。

大厂们尽管看起来有“大”数据,但是由于数据孤岛的存在,其实数据也是有倾向的。比如阿里尽管有淘宝几亿用户的消费数据,但是也拿不到这几亿用户的微信数据。并且大数据根本都是行为数据,和实在情绪、心思预期等等情绪数据还有有差异,再有便是用相关性估测因果也有不少坑。

第三方组织发布的数据报告,有些也号称是大数据,数据库里有几百几千万样本,但其实不是全集数据,多好多少也会有些倾向性。特别是在互联网行为、消费行为上,我小我私家感触许多数据都是偏高的。

还有便是朋友圈问卷,最近有些同学在写论文收数据,在同学群和朋友圈发问卷当然会是比力省时省力的。但是由于答题的人配景都比力接近,所以接收回来的数据不做处置赏罚也会有些误差,比如你想测一下某个产品订价,这个产品面向一般公共、中低产顾客,但是填问卷的都是你的研讨生同学,咱们收入和消费才能或许是比一般公共高一些的,收回来的订价作用或许就偏高了。所以在处置赏罚息争读时都得留意,假如终究影响论文答辩,还请去翟博士微博底下留言宣泄。

针对这些问题,正规的调查是比力垂青数据源的,会经过设置配额、分层抽样、分散抽样点位、小集体加权等等方法来尽或许消除误差,让一两千样天性代表广泛人群。但是许多时分也办法精美绝伦,仍是会有许多问题。其实统计数据的抽样误差是个很大的论题,感兴趣的话能够看看《俭朴统计学》《光秃秃的统计学》,内中有挺多事例,并且门槛不高,不太需求数学功底。

作为非专业人士的咱们,其实看报告或许看数据时首要仍是留个心眼。看看有没有说到数据源,数据源或许带来哪种误差,带着考虑去看报告。假如看到一些数据定论和你的认知有差异、乃至是相反的,不必急速信任定论,改变认知,而是先想一想这数据根源靠谱嘛,发数据的组织有意图吗。别的,也不必太纠结于具体数字,而是去看数字背面的趋势、比力、差异。

适才咱们也说到大数据更多是行为数据,有时要拿到情绪数据,仍是要靠用问卷问问题的方法。在用问卷搜集数据时,怎样问对问题就很有讲究了。

特别是有些组织或商家,为了取得自己想要的数据“依据”,会存心问有倾向的问题。也有些时分是写问题的人没有好好站在被访者的视点去考虑和规划问题,作用费了半响力,拿到的数据其实是无效的。比如这几种状况:

正面诱导

曾经有个某饮料品牌方案推出新口胃的饮品,推出前心里没底,就做调查。他们问了一个问题“咱们要推出一款口胃更柔软的新产品,你会喜爱吗?”

数据搜集回来今后,发现喜爱的份额高达90%,品牌商看到这么达观的作用,急速就投入开发和推行,作用新品上市今后,顾客恶评如潮。实践和数据体现了如此大的反差,原因就在于问题中有一个很显着的正面诱导词“更柔软”。

社会期许

还有一种状况,尽管问题中没有显着的正面诱导词,但是人人都是有点虚荣心的。人们更倾向于向他人展示正面形象,所以在回覆问题时,更倾向于申报“杰出行为”来切合社会的期望。纵然在匿名的状况下,人们也倾向于把谜底往正面靠。

比如“你在公共场所吸烟的频率怎样?”这样的问题许多人填的就比实践低。“你赞助他人的志愿有多强?”这样的问题许多人填的就比实践高。

选项设限

这种状况便是设置问题的人或许站在自己的视点编制选项,但是被访者看了选项后就没办法回覆。比如调查是问“你平常磨炼的频率是怎样样的”,然后能选项有“A 从不”,“B 每周不到30分钟”,“C 天天30分钟”,假如你每周磨炼30分钟要选哪个,别的每小我私家对磨炼定义也也不同。这样的问题或许会让被访者被逼选一个不准确的谜底,终究取得的作用天然也有误差。

其实问错问题和设错选项并不罕见,也不只需这三种状况。所以无论是看他人的数据报告,仍是自己做问卷,都得留意问的问题是不是客观无倾向,选项是不是合理。选项一般来说要尽或许切合MECE准则。

数据解读能够说是遍地是坑,这儿我选了比力常见和有意思的几种。

相关和因果是解读数据绕不开的论题。特别是咱们要用数据去猜测趋势,解决问题,用一件事的状况去估测和判别另一件事,搞混相关和因果,就简单闹笑话。

比如你或许听过这个段子:

国内某航母级互联网影业的说话人说:“经过大数据发掘,咱们完全能够发现不同观众的相关卖品偏好。比如影戏《芳华》的观众比《战狼2》的观众消费了更多的热饮,这都是咱们曾经历来不知道的东西!”

或许,每年冰淇淋销量一升高,游水溺亡人数就开端增加。所以抑制出售冰淇淋,有助于抢救生命。

其实,事情A和事情B有相关联系,有或许有好几种原因:

你看,根本把话说全了,或许有因果联系也或许没有因果联系。这个原理说起来俭朴,好像人人也都知道,但是许多时分,乃至经历富厚的剖析人员也会在这上面犯错。

其实许多时分咱们都是带着等待,带着意图在看数据,咱们期望数据能萍水相逢咱们本相,给咱们回答,萍水相逢咱们为什么,好让咱们做出抉择。所以看到两条曲线趋势有纪律,看到两组数据有相关,就会开端振奋,感触自己好像抓到了谜底,但这时分就往往简单过渡解读。

数据仅仅数据罢了,所谓谜底其实不是数据萍水相逢你的,而是你自己推出来的。越是这时分就越应该凄清一下,多考虑,不要容易下判别。

还有一个特别有名的误读,你或许也听说过,便是大名鼎鼎的幸存者误差。就算没听过这个理论,或许也听过比如“我好几个朋友小学没毕业终究都当大老板了。所以你上了大学也没什么用,也是给我兄弟们打工。”之类的言辞。

幸存者误差是怎样来的呢?

二战期间,美军方案在飞机上装置厚钢板来抵挡进犯,提高航行员生存率。但是由于分量约束,只能给最要害的部位装置。他们仔细检查了全部归航回来的飞机机身上的弹孔分布,发现大部分都坐落机翼和飞机尾部。所以咱们就如火如荼预备给机翼加钢板。

但是这时分,数学家瓦尔德就站出来阻挠,他说要增强那些没弹孔的方位,比如发主意和驾驶舱。你猜为什么?反正终究的事实证明,是瓦尔德解救了很多航行员。

当你看到数据给了你一个定论的时分,其实能够先想一想,这个数据的基数代表了什么,和你预期的是不是相同。

是“飞机大多会在机翼中弹而发主意没中弹”,仍是“能活下来的飞机大多会在机翼中弹而发主意没中弹”?

耶鲁大学教授加里史女士说:“人类在绵长的进化岁月中,发生了寻觅形式并对其做出解说的内涵倾向。”

这句话我也是看了会才看清晰想说啥。

俭朴来说,便是有时咱们自认为找到了支撑自己主意的客观数据,但其实咱们是先有了主意,再找数据来支撑自己的主意,那些不切合咱们所想的数据有意无意被忽视或许逃避掉了。终究取得的全部看似逻辑完美、无懈可击,但自己早就掉进自己的挖的坑里。这便是“挑选误差”。

克里斯坦森也说到过一种数据承认错误。

数据有一个厌烦的特质,便是能帮咱们无懈可击,支撑咱们想要的观点。公司里每个团队都有自己当心构建的数据作用,经过其成效责任、绩效目标,构建出一个实践的模型,但其实这内中的数据都是精挑细选能无懈可击的。咱们一同掩耳盗铃,信任自己有多客观。导游者好像经过拿A或B做比力才做出抉择,但是实践上,在通向A的进程中,数据也越来越倾向A。导游者认为自己是凭证清晰数据做的抉择,其实心田早就心有所属了。

还有一个描摹投资人心态误差的BSV模型,其间一条是挑选性误差,也是在讲投资人被商场短期体现和数据歪曲认知,作用对全体趋势构成误判。

这方面的研讨还挺多的,总而言之,便是自我反思。你是凭证数据有的主意,仍是凭证主意选的数据。说起来俭朴,做起来仍是很难的。

这个就比力奇特了,咱们仍是先看个故事:

话说有个综合大学招生,作用招生数据一宣告,男拳师们纷繁体现炸了,“怎样女生录取率这么高,看了数据的我气得浑身颤栗,大热天的全身盗汗,手脚冰凉,这个国际怎样了,到处充满着对男性的压榨……”

校长也害怕拳师们打拳啊,从速招来秘书,“你怎样搞的,不是说了要照料下多招男生嘛”,秘书也是一脸懵,没错啊,文科院和理工科院都是男生录取率高啊。

你看,显着两类院系都是男生录取率高,但是一加起来,就变成女生录取率高了。其实是文科院的女生录取率拉高了女生全体录取率,而理工科的男生录取率拉低了男生全体录取率。

这便是辛普森悖论,两组数据区分看时都满意某种作用/趋势,但加起来就呈现相反作用/趋势。

所以怎样看待全体数据?分组数据是不是应该俭朴相加就能够取得全体数据?

我小我私家感触看待全体数据仍是要审慎,有时全体数据过于浓缩,会将各组的差异在兼并进程中消除去。所以许多时分纵然有了全体数据,也仍是要再细分细看。

辛普森悖论还有一些妙用,比如收税。1974年美国总统福特宣告给各个集体都降降税,咱们一同搞成长嘛,作用一通奇特的操作之后,总税收率反而增加了……妙啊。

万恶的资本主义,那届大众真不可。

相似的还有谢林的阻隔模型:首先在模型里设定一个有2500人口的区域,人们随机分布方位,每小我私家一开端有49.2%和自己收入适当的邻人,只需16.3%的人不满意自己邻人收入。

然后谢林区分模拟了两种状况,观察模型里人群的活动:

作用第一种状况,不满意的人开端搬家,导致更多人搬家。经由一段时刻后,模型终究安稳下来。作用,人们均匀具有74.9%的邻人和自己的收入水平适当,人人都满意了,并且构成了微观上收入水平的阻隔。

而第二种状况,大部分人都不满意,不停地搬家,人人都不满意,一直无法安稳,反而没有构成阻隔。

这样证清楚微观个别的举动和情绪不一定导致相同微观作用。

前面讲的那些坑许多时分都是无意的。这部分就不太相同了,许多数据其实稍加润饰,就成了一个个圈套。这儿俭朴介绍几种小手段,常见于淘宝详情页,微商小广告,和忽悠傻导游。多学少受骗,但是最好不要用在他人身上。

比如你看下面这张图,是不是增加势头很是猛?要是当成成绩报告给老板岂不是分分钟要升职加薪走上巅峰。

但其实留意Y轴,这种差异仅仅被人为的扩大了,一旦回归正常标准……

川大统领做了民调,发现30-39岁的刁民们对自己很不友善:

这要宣告出去,岂不是要在推特上被喷爆,怎样办,只好祭出兼并大法:

这样一看,就顺眼多了。

这个在各种广告里就更常见了。

“咱们面膜有用修正90%肌肤问题”,“友商都是95%。”

“咱们的车百米加快时刻只需7秒”,“同等级都是6秒。”

其实商业剖析中也有相似的场景,比如置办A类产品的用户中80%都是甲类用户,是不是就应该给甲类用户引荐更多A类产品?这个定论乍一看没有问题,但是假如B类产品的用户中90%都是甲类用户呢?假如B类产品只需20%是甲类用户,但是B类产品基数远大于A类呢?

许多时分,数据仍是要对比才有意义

只需你敢加的标签足够多,你就永远是压倒全部。尽管小明考试考了班里的40名,但是他在第四列全部身高1.7以上的学生中排第2,期望小明的爸爸听完能放过他。

所以再看到有广告宣称自己产品排名怎样怎样样,能够想一想这排名是怎样排挤来的。

为什么每次均匀收入一宣告,咱们都认为自己拖后腿了?

其实数据分布状况不相同,均匀数有时并不能描摹“均匀状况”。还有中位数、众数呢。

总而言之,数据也仅仅数据,它来赞助咱们理解巨大国际中的巨大信息,但是不是全能的,是来帮咱们解说,而不是替咱们考虑的,所以“尽信数据,还不如很多据”。

本文由 @Allen 原创发布于今天亮点。未经许可,抑制转载

题图来自Unsplash,根据CC0协议

热门文章

随机推荐

推荐文章