最近在学习陈老师的《数据分析贤内助》,也参加了对岸的统计简单学网络课程。感觉还是不错的,虽然才开始学不久。来分享2个最近身边和网上发生的事情,我尝试用统计学来进行解释。讲的不好,但希望抛砖引玉。 事件1:昨晚一个群里在谈应届生待遇的问题,不同的人谈到自己知道的不同的待遇,而且差距也很大。我最后说了一句话,对比要可比,你们谈的根本缺乏可比性。 具体解释: 比如说刚才有人谈学历对待遇的影响,本来话题是谈应届生的,有人却谈到他的上级中专学历现在收入差不多2万每月。这根本没有可比性,这2万不是他应届时,而是他工作多年后的结果。退一步讲,不同行业也是很大差异的,对比缺乏可比性就根本没有意义。对比要可比,这是《数据分析贤内助》里面讲的信度原则。 事件2:最近不是说英语在高考中的比重要下降吗,然后不知道谁在微博发起了数学滚出高考。得到了大量人的响应,统计结果说7成人支持数学滚出高考。70%哦,好大的比重。但其实这结果是很有问题的。 具体解释: 首先这投票只是针对网络上,更可能只是微博上的人群。这类似统计学中的简单随机抽样,但这方法的最大缺点是很可能造成样本过于集中在一块部分。类似例子晚会抽奖,明明就是随机抽的,每个人的概率应该是相等的,但为什么总感觉得奖的人老是要么集中在一个部门里,或者是一张桌上。这和网络那种投票是一样的道理,样本过于集中在某一块,需要用分层抽样进行,这才更为合理些。就像一个数据分析朋友举了个极端的例子,如果调查小学生要不要取消考试,估计结果是90%以上支持取消考试。这是我在统计简单学里学到的。 还有个问题时,样本量是否足够大,是否可信度足够高,进而推断样本。大概看了下,那投票的人数,肯定是不够代表总体(台湾称群体)的,都不到网民的百分之一。 讲完了,大家来拍砖吧,嘿嘿。Excel实践者博主Sharpen不只是会Excel函数图表透视表,这些只是我过往早期学到的东西。 |