PowerQuery

客户让你汇总522份Word版调查问卷结果,明天就要,你怎么办?

2019-04-03  本文已影响5人  PowerQuery

这是一个真实的案例,只不过收到任务的不是你,而是我。

有小伙伴要问为什么信息化时代还采用这么老土的办法?其实我也不知道,有时候客户就是这样保守,没法改变。

先来看问卷长什么样

客户让你汇总522份Word版调查问卷结果,明天就要,你怎么办?

截图只展示了个人信息部分,可以看到个人信息非常复杂。

而调研题目有单选、多选、量表和问答题等,由于担心题目泄露出来客户万一看到不高兴,所以不展示题目,其实我们也不用关心题目内容,只需关心题目形式。

以前的处理办法

多年前做咨询项目时,我们给客户做问卷调查,也是发的word版问卷,客户打印出来后发下去让员工填写,再回收回来交给我们来处理。

我们要么是项目组内部几个人搭配,一份一份地把结果录入到excel,要么是出钱找学生录入答案。

总之是非常耗时的法子。

但这次客户有了进步,收回来的不是纸质问卷,是电子版问卷。只要是电子版的,处理起来就会快很多(虽然并不轻松)。

思路

尽管答卷很复杂, 但是所有问卷的结构都相同,所以是有规律的,有规律就好办。

我们知道word善于处理文字,excel善于处理数据。所以基本思路还是要把word文档转换成excel来处理。这里就有两种思路:一是把522份word问卷转成522份excel文件再来处理;二是把522份word文件合并成一个word文件,再将其转成excel文件。

由于我不熟悉vba,所以也不知道批量把word文档转成excel的vba代码怎么写,但是我老早就知道网上有现成的合并word文档的vba代码。所以我采用了用vba把所有word合并成一个文档的办法,然后把该文档内容复制到excel,再用power query来处理。

三、合并所有word文件

我自己不怎么懂vba,直接贴网上找的合并同一个文件夹下的vba代码:

Sub MergeDocs()
Dim rng As Range
Dim MainDoc As Document
Dim strFile As String, strFolder As String
With Application.FileDialog(msoFileDialogFolderPicker)
.Title = "Pick folder"
.AllowMultiSelect = False
If .Show Then
strFolder = .SelectedItems(1) & Application.PathSeparator
Else
Exit Sub
End If
End With
Set MainDoc = Documents.Add
strFile = Dir(strFolder & "*.doc") ' can change to .docx Do Until strFile = "" Set rng = MainDoc.Range rng.Collapse wdCollapseEnd rng.InsertFile strFolder & strFile strFile = Dir()
Loop
MsgBox ("Files are merged")
lbl_Exit:
Exit Sub
End Sub

由于发来的word是按照单位文件夹存放的,因此需要把所有文件夹下的word文件弄到一个单独的文件夹下。可以用windows资源管理器搜索.doc后缀的文件,复制粘贴到新文件夹。考虑到windows自带搜索很慢,我直接用everything(我多次推荐过这个神器)搜索工具来把所有问卷放到一个文件夹下:直接在everything搜索框中,输入问卷所在的文件夹根目录,everything会自动列出所有文件夹和文件,全选问卷然后复制粘贴到一个单独的文件夹中即可。

有522个文件要合并,而且这个vba其实是很简单的代码,没有状态信息,所以运行vba宏之后,word就像程序崩溃的样子,界面一片白。要有足够的耐心等它提示合并完毕。

每个单独的问卷有8页,522个文档就有四千多页,尽管我笔记本电脑16G内存,打开之后分页还是要分若干分钟,复制一下也要很久才反应过来,粘贴到excel里也要若干分钟。虽然我没细算时间,但从合并开始到最后把所有问卷内容粘贴到excel里边,耗去的时间至少有两三个小时。算是最耗时的部份之一。

powerquery处理合并后的excel文件

上一步操作生成了一个4000多页的超大word文档,用word打开这个4000多页的文档,复制、粘贴到excel文件中,然后用powerquery连接该excel文件,进行下一步处理。

把所有问卷加载到powerquery之后的第一步,就是添加索引列,正是靠索引才能把问卷再一个一个还原。

然后就是单独处理个人信息部分,再单独处理常规选择题,再单独处理量表题,再单独处理问答题。在整个处理过程中,不能将答题人信息搞丢。

所以我把每个人的问卷处理成一条记录,这样共有522条记录,这522条记录是522个超级宽的表格,包含了每个答题者的个人信息和答题情况。具体用到的技术就是查找包含“个人信息”、“调查问题”和“问答题”所在行的索引号,因为每份问卷就是由这三部分构成的。如果查不到这两个关键字,则返回null。下一步要利用向下填充的方式将查出来的索引号覆盖掉null值。这样每一部分都有一个自己的索引号了,这时这个索引号就变成问卷ID了。

接着用分组的方式,按照上面找出来的索引号分组,这样所有问卷都被还原成了包含三个子表的记录。

接下来分别对问卷进行三个层面的处理:一是问题层面的处理,二是问卷层面的处理,三是把问卷按照题目来分组进行处理。

基本思路是建立函数。

首先是个人信息的处理。建立函数的方式其实就是展开任意一份问卷的个人信息子表格,对其进行处理。最关键的一步是用转置(transpose)进行行列颠倒,让个人信息变成一行记录。此外,由于个人信息表格其实是六个列将字段和字段值分成了两组,所以要把这两组记录用和并列的方式合成一组之后再转置。然后把第一步输入的表格用x代替,构造函数。

接下来处理调查问题。展开任意一个问卷,对调查问题的表格实行转置操作,暂时不用对题目进行细操作,因为我们的目的只是要构造一个横排的问卷。

函数构造好之后,代入每一份问卷。然后再把每一份问卷的三个子表用Record.Combine函数来构造新表,使三个子表能形成一条记录,并且这条记录包含个人信息、选择题和问答题的题目、选项及答案。这样所有答题结果都变成了一行一行的记录。

接下来,选中所有题目,然后选择“逆透视其他列”,这样就将每道题的答题人信息和对应的答案形成了一一对应的关系。然后按照题目分组,这样就把所有题目的答题人信息和答题结果封装起来了。

这时就可以对题目和选项及答案进行精细操作:关键点也在于要把竖直排列的题目和答案变成横排。考虑到题目都超级长,我就直接用第1题、第2题来代替了。选项用新增列的方式实现,列名用字母表示选项。这里需要注意的是,选项最多的那道题有多少个选项,就要添加多少列。然后针对新添加的选项列,对答案进行检查:如果答案包含对应的列名字母,就记录为“Y”或"是"或其他符号,能标记每道题的答案对应了哪些列的列名字母就ok,这样答案就被转化成列了。处理完毕之后依样画葫芦把第一步引入的题目表格用x代替,构造函数。

用上一步构造的函数,对所有题目进行处理。因为调查报告要针对每一题进行统计、绘制图表,所以,必须将所有题目单独拆分成数据模型。这时就有两个选择:一是在一个excel文件里构建所有题目的模型;二是一个题目就用一个excel文件。我选择了后一种方式。原因在于,数据模型建立好之后,我要统计每个选项的选择人数,就得为每个选项建一个度量值。题目中选项最多的有12个。相同的操作要在每一个模型上进行,非常繁杂。而采用第二种方式的好处是,我只需要改变每一个excel文件里powerquery生成的查询中的题目筛选,就能快速从第一题切换到第二题,这样大大节省了步骤。

不过方法二要求对单独的数据模型考虑周密,否则后期修改就又是体力活儿:我忘记为选项E设置度量值了,于是,我重新打开了几十个excel,为每个excel的模型添加选项E的度量值,然后再拖入该模型里边的若干个数据透视表中。

由于我在每个模型中,根据人员信息表中的人员属性维度,为每一个维度添加了数据透视表,这样一来,就可以做很精细的分析。换了以前,要看某个选项男女选择的差异,将会是一件很复杂的事情。

至此,处理基本完毕,剩下的就是根据统计汇总的数据透视表作图,略过。

题外话

这篇帖子省略了很多细节,主要目的也不是为了展示细节,而是展示我们在处理同一件事情的时候,有很多种方法,我们需要选择一种最便捷的方法。word、excel、vba、powerbi各有所长,很多时候我们需要综合利用各自的长处,然后构造出一种超越各程序限制的新的解决方案来。我找到的这个方法也许不是最简单的方法,只是在时间有限、水平有限的双重限制下想出的一种可行解决方案。

此外,在现在人人有手机,各种线上调研系统百花齐放的情况下,我们一定需要事先说服客户,再也不要采取原始的方式进行调研,害人害己,劳民伤财。这个例子只是在既成事实的基础上尝试把繁重的体力活儿尽可能缩短到几个小时以内,没有任何推广和借鉴的价值。

原文我发在简书上,发在这里时作了一些文字结构上的调整。

上一篇下一篇

猜你喜欢

热点阅读