用Tableau画三元图
三元图,又称三元相图(Ternary plot)有三个坐标轴,它的三个坐标轴“首尾相接”成夹角为60度的等边三角形。“元”即成分,或部分,三元图主要用来展示不同样本的三种成分的比例,在物理化学中比较常见。三元图数据的特点是三种成分比例的和必须为一定值(常见为1)。具体原理请参阅下面的网址。
参考网址:
https://www.cnblogs.com/freescience/p/7277487.html
https://baike.baidu.com/item/%E4%B8%89%E5%85%83%E7%9B%B8%E5%9B%BE
http://www.360doc.com/content/18/0206/00/33459258_728016964.shtml
Tableau public上有很多利用三元图做的Viz作品,效果都非常惊艳。举几个例子
https://public.tableau.com/profile/ken.flerlage#!/vizhome/MostPowerfulSuperheroesTernary/Ternary
https://public.tableau.com/profile/adam.e.mccann#!/vizhome/GOTTernary/GOTTernary
以第二个作品(Adam E McCann大神的《权利游戏》)为例,简单解释就是每个单词三个角色说的次数不一样,某个单词谁说的多,那么代表这个词的点就靠近谁,比如lady这个词,Cersei说了126次,Daenerys说了60次,Jon说了48次,那么这个词就更靠近Cersei。
单词举例
那么问题就来了:
1.怎么确定单词更靠近谁呢?
2.怎么确定这个单词的坐标点的(x,y)值呢?
那么就要知道三元图和直角坐标系的转换关系
若三角形单位坐标为100或100%,以B点为直角坐标系原点,其中某一点的坐标(x,y)与该点组成的(A,B,C)的关系为:
A+B+C=100 或 A+B+C=100%
或
或
如何确定A、B、C就成了解决问题的关键
下面要分三步走,因为每个人说的单词总次数是不一样的,所以不能直接比较,就需要采用比例值进行标准化,才能比较
1.第一步确定每个单词在每个人说的所有单词中的比例(第一次标准化),也就说要确定某一个单词对于这个人的重要性
2.然后做一次极差标准化X'=(X - Xmin)/(Xmax-Xmin),保证0≤X'≤1,这样就把三个人拉到同一个坐标系,就可以比较了
3.根据上面的公式计算A、B、C,并计算出x,y
基本思路就是这样,我们构造一个超级简单的数据集,以便大家理解
这个数据集就是有A、B、C三个人,A说了一句“你好”,B说了一句“对不起”,C说了一句“没关系”,他们三个人都说了一句“再见”,所以基本判断是,“你好”、“对不起”、“没关系”位于三角形的三个角,“再见”位于三角形的中心。
那么我们来试一试
添加计算字段
第一次标准化
- [A%]=[A]/{SUM([A])}
- [B%]=[B]/{SUM([B])}
- [C%]=[C]/{SUM([C])}
极差标准化
- [AN]=([A%]-{MIN([A%])})/({MAX([A%])}- {MIN([A%])})
- [BN]=([B%]-{MIN([B%])})/({MAX([B%])}- {MIN([B%])})
- [CN]=([C%]-{MIN([C%])})/({MAX([C%])}- {MIN([C%])})
确定坐标
- [X]=0.5*[AN]/([AN]+[BN]+[CN])+[CN]/([AN]+[BN]+[CN])
- [Y]=SQRT(3)/2*[AN]/([AN]+[BN]+[CN])
[AN]/([AN]+[BN]+[CN])就是公式里的A
[CN]/([AN]+[BN]+[CN])就是公式里的C
开始画图
- 把[X]拖到列功能区,[Y]拖到行功能区,在“分析”菜单中取消“聚合度量”
-
把[word]字段拖到标签
- 接下来的美化工作就不掩饰了,如果你用自己的数据集,那么还要固定X、Y轴在0-1之间
这里还有一个小小的提示,就是“你好”这个词的Y轴坐标并不是1,因为是
等边三角形,所以也不可能是1(因为勾股定理)。
希望这篇文章能够对大家有所帮助,大开脑洞构建自己的三元图。
这里还有个小练习,看看你是不是真的懂了
如果我们已知一些颜色的RGB值,我们把这些颜色都放到一个三元图里,该怎么做呢?
name,R,G,B
color1,45,12,19
color2,72,30,28
color3,98,16,46
color4,124,24,35
……
此处省略好多行自己随便填(只要在0-255之间就可以)
我做了一个大致效果,是不是很好玩。
提示一下,其实直接excel里计算好ABC和XY就可以,都不用在Tableau里增加计算字段。
此篇文章已发布到我的公众号:saodisir,有兴趣也可关注一下