本人今天就栽在了收集数据这块。最近负责facebook社区广告业务的投放工作,也在努力把数据分析用在业务上,实现数据驱动业务成果。今天我从facebook广告后台导出最近10天的各广告系列的投放金额源数据,目的是知道至今为止图文广告的投入总额及其随时间的增长趋势。通过excel打开,然后进行数据处理,包括筛选删除,不符合要求的数据去除等。然后采用强大的excel数据透视表对数据进行分类汇总,最终我核算出共投入X元,此处源数据是机密,所以我这假设我最后结果是2000+。我也没太多想,又做了相关的时间序列图表展现。最后还做了点报表和图表的美化。正准备发给相关人员以参考。但我仔细一想不对呀,就算除去一些不符合要求的投入,那也不可能才2000+,我最近每天算上不符合要求的投入也是500+,前4天因为金额上限限制是300+,加起来起码也是近5000呀。这2000+的结果肯定错的。 我重新去facebook广告后台看了下导出的位置,发现我忘记了一个选项框打勾,导出广告系列结果,包括已删除的广告系列,我没选。哦,原来如此,我在收集这数据时出现纰漏,导致后续的数据分析工作几乎都是无用功。唉,悲催。之前看过一些文章,也有数据分析方面的朋友说,保证源数据的正确性这是数据分析正确的前提。Rubbish in,rubbish out。源数据如果是错误的,那结果也肯定是错的。 源数据的错误,可能是数据分析师自己的问题,也可能是数据库导出时因为程序代码出错的原因。前者,靠分析师自己的细致处理。后者一旦发生,一般也是很难发现其错误的。想起去年对各国用户的消费金额和次数行为做过一次分析。那次的源数据错误,是因为我们得到结果的过程中发现了数据的严重不正常,严重不符合我们的业务逻辑情况。而后提交需求让程序员去查代码,最后才发现是已离职的程序员因为经验不足,写错了行代码,数据丢失严重。那次错误,几乎让我们的2周的工作成为无用功。 成为优秀的数据分析师的一个素质是细致。保证源数据的正确性是不可忽视的工作。 |