[总结] Learning to Automate Chart
论文标题:
Learning to Automate Chart Layout Configurations Using Crowdsourced Paired Comparison
关键词:
机器学习、可视化、众包、可视化设计、图像质量评估
由于现有的图表工具通常使用经验式方法来确定图表布局参数,生成图表布局。这个过程中需要用户反复调整多个参数(例如图表大小、间距),以实现视觉上有吸引力的布局。然而,这种尝试和错误的过程是非系统和耗时的,不能保证每次修改都能对布局进行积极性的改进。为了解决这个问题,该文献开发了Layout Quality Quantifier(LQ2),这是一种机器学习模型,可以从大量数据中学习对图表布局,并进行评分。与优化技术相结合,LQ2推荐了可提高图表布局质量的布局参数。该文献将LQ2应用于条形图,并进行用户研究,通过检查其生成的布局质量来评估其有效性。结果表明,LQ2可以生成比外行和基线更具视觉吸引力的布局。这项工作证明了量化人类偏好和图表布局美学的可行性和用途
研究结果:
1. 研究问题
l 背景
[图片上传失败...(image-ea29e2-1631637929079)]
n 现实中,在不同分辨率的设备中,需要不断调整图表布局,该过程对用户及其不友好。
l 相关研究
n VizML(CHI2019)
u 基于数据形式,进行图表推荐(视觉编码)
[图片上传失败...(image-4b69c3-1631637929079)]
n Draco(VIS2018)
u 综合领域知识,得出一套视觉编码体系
[图片上传失败...(image-96f744-1631637929079)]
l 研究相关
n 上述两个案例主要重心放在了dataEncoding。这个方面比较好做,因为数据较为丰富。
n 但对于布局来说,
u 并没有太多的数据集。
u 比较主观,难以归一化判断)
l 问题
n 如何研究出一套,自适应可视化图表?
2. 收集数据
l 什么是好/坏的图表布局?
u 超出可视框
l [图片上传失败...(image-1b42f7-1631637929079)]
u 不可读的文字字符
l [图片上传失败...(image-e74829-1631637929079)]
u 文字重复
l [图片上传失败...(image-527f63-1631637929079)]
u 空白位置
l [图片上传失败...(image-7db073-1631637929079)]
l 基于规则的强化学习模型:模拟用户在调整布局的过程
n 逻辑:
[图片上传失败...(image-ef9a79-1631637929079)]
u 规则:
l 字过小,调整大小
l 有多余的白空间,降低白空间…
u 缺陷:过于依赖于手动定义的规则,有些看起来很合理的损失函数制定,在实际过程中经常出现问题。
n 基于上述情况,因此转化为机器学习方法
u 模式:图表——》用户——》得分
l 难度:给分数的话,过于主观,也不好打分
l 于是:只做比较
l [图片上传失败...(image-20544a-1631637929079)]
u 方法:
l 流程
[图片上传失败...(image-6ab216-1631637929079)]
n 用一套逻辑生成不同图表(只取决于不同的输入参数)
n 交给用户进行打分(如果三个用户都同意的话,则把该数据录入数据集)。
n 最终目标,希望能得到一个评分模型
n 评估模型效果
u 基础对比
l 基于4000个用户的结果,与现有模型、人工指标进行比较
[图片上传失败...(image-7390c1-1631637929079)]
u 结论
l 使用该模型的推荐功能完成图表布局优化任务,对比对象:人、默认、随机
n 效果对比
[图片上传失败...(image-15a878-1631637929079)]
u 当参数只有三个的时候,该模型的图表布局推荐功能,其效果高于人、默认、随机
u 但是,当参数达到6个的时候,与人的结果对比,该模型无法起到有效帮助。
n 时间对比(调节时间+调整次数)
[图片上传失败...(image-f4b42b-1631637929079)]
u 但是,时间有效减少
u 调节次数有效降低
对设计的启示:
l 该文章,利用强化学习模拟人对图表布局的输入,并且将该输入参数作为训练数据。虽然最后没有成功,但这个思路同样可以用在其他很多领域,帮助开发者快速获取训练数据。
l 在研究与人相关的实验中,由于不可避免的主观性,很难使用得分的方式来进行评估。因此,该文章直接使用是否数据,简化流程,同时可以快速地将业务模型转化为数理模型。
l 对设计图表的参数化提取,可能才是主流的自动化过程。直接使用DL/ML生成的,还是会有很多问题。
未来:
l 目前只提取了条形图的参数,之后还需要对多种图表进行参数化提取。
l 目前LQ2还只有布局因素,并不包含颜色信息,之后也可以考虑加入。
l LQ2是针对较为清晰的参数特征进行训练的,在未来需要推广到未观测到的参数值和不同的图表类型。