PowerQuery

【实例】分别统计完成若干门课程的学员数

2016-06-10  本文已影响167人  PowerQuery

【需求】

有六门课,需要分别统计完成一门课、完成两门课、完成三门课、完成四门课、完成五门课和完成全部六门课的学员有多少人,具体是哪些学员。要求做成一个报告模板,其他人可重复使用并且不需要写代码和公式。

【思路一】

用PowerQuery+数据模型+DAX的EVALUATE返回数据链接表+数据透视表来实现。

【步骤】

1.建立PowerQuery查询,引入原始数据并作数据清理;

2.加载到数据模型;

3.在Excel2016“数据”标签找到“现有连接”,在连接对话框中切换到“表”,找到数据模型对应的表,打开;

4.将表加载到新的sheet;

5.在加载的表中右键,选择“表格”-“编辑DAX”;

6.在DAX编辑框中输入如下代码:

EVALUATE
       ADDCOLUMNS(
                  VALUES(Merge1[姓名]),
                  "完成数",
                  CALCULATE(COUNTA(Merge1[姓名]),Merge1[状态]="已完成")
                 )

7.在生成的新表基础上新建一个数据透视表,将“完成数”字段分别拖到行区域和值区域:

最后结果

【思路二】(2016年6月13日补充)

如果要避免使用DAX或链接表,可以借助PowerQuery的分组功能来实现统计每门课程的完成数。基本思路还是先获取一张表,然后在这个表的基础上建立数据透视表:
1.引用创建数据模型的PowerQuery查询;
2.筛选出状态为“已完成”的数据;
3.基于账号(因为这个不会重复)进行分组,对课程名称进行非重复计数,命名为“完成课程数”,然后返回所有行;
4.展开返回的所有行表格,剔除不需要的列,只保留需要的列(主要是人员部门等属性便于将来万一分析要用到),把课程名称等列删除,因为我们下一步要对数据去重复,便于后续统计计算;
5.选中所有列,点击“删除重复数据”,确保每个账号只有一条数据;
6.将这个新查询加载到数据模型;
7.建立一个新的数据透视表,将刚才新加入模型的表里的“完成课程数”分别加到行字段和值字段,对值字段进行计数。
得到的结果是一样的:


最后结果

【思路三】(2016年9月23日补充)

利用Calculate()函数的||操作符。

=CALCULATE(COUNTA([课程名称]),[状态]="已完成",[课程名称]="A"||[课程名称]="A"||[课程名称]="B"||[课程名称]="C"||[课程名称]="D"||[课程名称]="E"||[课程名称]="F"||)

这里||表示“或”(OR),ABCDEF是课程名称,因为这些都是文本,因此要用英文的双引号括起来。最后结果如下:

结果

【思路四】(2016年11月10日补充)

利用ADDCOLUMNS()构造表格来统计。
先新建一个Measure,目的在于简化后面的代码(这一步不是必须):

 完成课程数: =CALCULATE(DISTINCTCOUNT('班级课程'[课程名称]),FILTER('班级学习报表','班级学习报表'[状态]="已完成"))

然后,再新建一个Measure,代码如下:

完成任务人数:=CALCULATE(DISTINCTCOUNT([姓名]),FILTER(
ADDCOLUMNS(
    VALUES('班级学习报表'[姓名]),
    "完成课程数",'班级学习报表'[完成课程数]
),
'班级学习报表'[完成课程数]>=0))

这种方法比较简洁,而且适用场景更多:
1.如果需要获取分别完成了多少门课程的学员数,只需要将最后一行的">=0"变为“=X”,其中的"X"代表完成了多少门课的学员人数。比如,统计完成一门课的学员数,将“X”替换为“1”即可。

2.如果想统计至少完成了几门课的学员,则将">=0"中的“0”替换为“X”,“X”代表至少完成的课程门数。比如有些单位给学员发放了一个需要学习的课程清单,要求学员至少完成其中的5门课,则只需要将“>=0”中的“0”替换为“5”。

3.反过来,想要统计没完成任何课程的学员数,只需要将“>=0”替换为“=BLANK()”。为什么是BLANK()呢?因为我们建立的那个“完成课程数”的Measure计算的是学员学习记录中课程状态是“已完成”的人数,因此,状态不是“已完成”的那些学员在构造的表中,其“完成课程数”是空值,也就是BLANK()。

【总结】

因为制作的演示数据并不理想,又不方便展示原始数据,因此上述步骤基本没有图示。
之前我一直想用DAX来解决,写了7个度量值:

7个度量值

代码分别是:

完成课程计数1:=CALCULATE(COUNTA(Merge1[帐号]),Merge1[状态]="已完成")
完成1门课:=IF([完成课程计数1]=1,[完成课程计数1])
完成2门课:=IF([完成课程计数1]=2,[完成课程计数1])
完成3门课:=IF([完成课程计数1]=3,[完成课程计数1])
完成4门课:=IF([完成课程计数1]=4,[完成课程计数1])
完成5门课:=IF([完成课程计数1]=5,[完成课程计数1])
完成全部任务:=IF([完成课程计数1]=6,[完成课程计数1])

但是自己对DAX还没怎么入门,所以在添加了7个度量值后,依然没有能彻底解决问题:

7个DAX的结果

就是我不能自动统计出六种情况分别有多少人。
于是回头继续啃《微软Excel2013:用PowerPivot建立数据模型》中文版,啃半天上下文和CALCULATE()等函数,还是不得要领。
在第14章“使用DAX作为查询语言”,作者提到可以用EVALUATE返回DAX作为查询获取的结果表格,然后还可以再将这个表格添加回数据模型进行进一步的计算。于是照猫画虎,终于实现了我想要的效果。
但我估计纯粹用DAX就可以实现我的目标,只是目前我对DAX理解实在有限,搞不定。继续啃书练习吧,希望早日找到感觉。

【2016年9月23日添加】
1.思路三提供了一种利用DAX的方式统计完成课程门数的方法。这里需要注意的是,如果一个Pivot Table中,只有姓名列和完成课程数列,统计方法完全不需要这么复杂。复杂的地方仅仅在于当我添加不同字段到行字段时,完成的课程数都应保持不变。
2.思路三依然不够简洁。所以应该还有更简洁的方法。
3.这种简洁的方法是不是可以从unflatten数据表来实现。比如有三个表:姓名表、课程信息表和学习记录表,在三个表之间建立关系,然后用ralated或relatedable之类的filter来实现这个统计任务呢?等找个机会测试下。

上一篇下一篇

猜你喜欢

热点阅读