经济学大数据

臆想《洛杉矶时报》是如何写数据新闻的

2017-08-08  本文已影响8人  tiantianskj

阿旦的数新笔记:三 —— 分析一波

看过《洛杉矶时报》写的关于农民工资水平与劳动力的文章,我也心痒痒想模仿一波。模仿是练手的好途径,但不能只会照猫画虎,要先了解方法。

很遗憾地是,我无法直接采访到《洛杉矶时报》的记者、编辑,去询问他们真实中如何操作这样一篇报道。但依据着已发布的报道、报道所采用的数据分析报告、以及报道发布时的社会背景,我们可以梳理出一个符合逻辑的假设:

首先,是大前提:

特朗普在上任初期就颁布了初版的移民限制入境法令。在经济理论上,特朗普认为限制移民,能践行他所推崇的“优先美国人”战略,将许多工作机会归还给美国本土人民,从而提高就业率,恢复经济。

了解这个事实之后,作为政策的影响者一份子。或许人们最想知道的是,特朗普提出的经济理论和政策到底与现实是否契合,即是否赶走了一大群移民工作者,某个行业就会受到及其大的影响,从而提高工资水平,并向美国本土人民大伸橄榄枝,让许多美国人得到一份工作。

想验证这个假设,我们需要知道什么行业受移民劳动力缺失影响最大。

回答这个问题,我们要知道美国移民受什么行业雇佣的人数最多,以及移民数量占整体行业从业人员的比例。

据美国皮尤数据调查显示,在2014年,美国引入的移民有10%的从事零售业,是美国移民就业十大行业中之最。然而零售业吸收的移民绝对数量多,不代表这个行业中,移民整体的比例大。相较零售业而言,尽管农业吸纳的移民数量较少,只有近两成,但据数据显示,2014年约55万移民在农林牧渔领域工作,非常接近本土工人的比例(46%)。

一个粗略但明显的答案出来了:农业就是最受移民劳动力缺失影响最大的行业。

我们可以就这样开始直接验证假设了吗?

还不够,农业的范围太过宽广,包含着:渔业、林业、牧业、种植业等等多个分支。

要以农业的范畴层面去验证假设,太过复杂,最好能更精确到下一个细分行业,以小见大,既方便数据的处理,也方便讲故事。

这时又需要一番调研,回答:农业中什么领域最需要人力?雇佣移民最多的是什么类型的农业这类问题。

我猜是种植业。(因为总感觉水稻田里站满了人)

喔奥,都是人!

如果我们终于找对了行业,下一步该怎么验证假设呢?

哇哦!按逻辑走,这时我们可以采取的方法有:找个人聊聊,譬如一个某种植业的农场主,农业公司招聘部门的经理,问问他最近招工有没有什么怨言。又譬如问问普通农民,最近工资状况如何等等。我们可以通过记者搜集资料、采访素材等等,找到报道的新闻点到底是什么,并直接确认假设。

我相信通过这种传统的方法,《洛杉矶时报》就可以获得一个带有满满奇妙故事的调研结果:在加州地区的葡萄种植业中,农场主及农业公司受到了特朗普移民政策的沉重打击,纷纷表示即使提高工资,也面临农民劳动力稀缺的情况。

但这样一个个由记者精心找寻的案例真的就能代表事实的真相?真的就能给出我们假设一个令人信服的解答?

我想在跟政府叫板的情况下,这样的结果记者应该不敢直接拿出来发表吧。举一个个人经历过的例子:我曾去采访一座临时停车场的改建工程,它将改成一座大型体育场。当地的人民代表告诉我,对于这个临时停车场改造成体育场,本是一件好事,因为当地学校很需要场地开运动会,但对附近居民来说,却是个头疼的问题,因为没了这个临时停车场,将会很难找到停车位。我为了验证他的话,在那停车场蹲了一下午,采访到三、四个租用车位的附近居民,结果他们意见纷纷:有的认为停车场充足,改建运动场是好事,完全支持;有的却极其反对,认为附近体育设施已经足够丰富,更需要停车场。呵呵,就这样一件事情,其实也很难完全确认到底支持哪方的比较多,最后,我觉得自己实在无法凭借一己之力,调查完所有居住在附近小区并停在该停车场的车主,就做了一个简单的比较,在我采访过的5位车主中,去除一个临时停车的,剩下4位长期租客中,三人反对改建,一人支持,三比一胜出,我的结论便是,大多数附近居民认为停车难,对即将到来的改建忧心忡忡。

不要骂我不负责任,因为我也实在想不出其他非人力且高效的统计方法了,何况它并没有发表。我想说的是在一个复杂的大话题下,仅凭几个精彩的故事可能有说服性但实在不具客观。我们需要更有力的证据去验证我们采访到的部分事实能不能在一定条件下代表全体事实。


扯的太远,其实,哈哈,我就是想说咱们得用数据啊。

《洛杉矶时报》的记者、编辑使用了美国劳动部统计的数据来验证他们的采访结果,这个数据库按照地区、行业分类统计了从1975年至2016年每年的雇佣及工资情况,以csv格式发布,供用户免费下载。

《洛杉矶时报》选择并下载了农业1990年至2015年共计25年的平均工资情况数据。打开压缩包后,这个数据包中容纳了每年农业各细分行业的数据,分类标准依据北美产业分类体系(NAICS),《洛杉矶时报》选取了crop production(种植业)这个子行业进行分析。

随便打开一年的csv,里面包含了许多类目,如下。不过重点是我们要看到它有按州、县分类,列出每个地区的平均工资。

cropdata.png

以下是《洛杉矶时报》对劳资数据详细分析的过程
1,合并25年有关crop production(种植业)的csv表格
2,筛选出加利福尼亚的数据
3,取出加利福尼亚种植业2015年平均工资数据
4,取出加利福尼亚种植业2010年平均工资数据
5,算出加利福尼亚洲5年间种植业平均工资增长幅度
6,取出全美种植产业2015年平均工资数据
7, 取出全美种植产业2010年平均工资数据
8, 算出全美5年间平均工资增长幅度

两个增长幅度相比较得出第一个结论:加利福尼亚的种植业者平均工资增长高于全美种植产业平均工资水平。

继续分析数据
1,将原始数据过滤,筛选出种植业工资数据
2,过滤二次,在种植业数据中筛选出2015年的数据
3,过滤三次,在2015年种植业数据中筛选出加利福尼亚的数据
4,在2015年加利福尼亚的种植业数据中筛选出平均工资最高的县

得出第二个结论:纳帕是支付加利福尼亚州种植业最高平均工资的地方。

这由简单统计得出来的两个结论,看似朴素,却有大大作用。第一个结论可为采访得到的结果——加州因移民政策影响,农民工资在大幅快速增长提供数据支撑,令受众更加信服故事中透露的信息是现实的缩影。

第二个结论则可为补充采访提供新的思路:为什么纳帕会成为种植业者工资最高的地区,这里的农业公司为何能提供高昂的工资来聚集人力资源,在最高昂工资条件下,这里的劳动力资源是否会受移民政策影响,出现短缺。

数据突如其来地告诉我们一个事实结论,往往就是为我们打开了新世界的大门,让我们顺藤摸瓜,追根溯源去寻找结论的因果,能更好地展现问题的多面性及复杂性。

以上就是这波臆想的分析。

欢迎关注:


阿旦的数新笔记
上一篇下一篇

猜你喜欢

热点阅读