Python可视化工具介绍——找到合适的库
Python有很多可视化工具,大体上可以分为基于matplotlib的工具库和基于JS的工具库。
有如此丰富的选择是幸福的,无论你要画什么图,都能找到相对的库。但与此同时,弄清楚使用哪个工具更合适可能非常具有挑战性。本文对常用的一些可视化工具进行介绍,并说明它们之间的主要区别。
可视化工具一览
基于matplotlib的可视化工具
在介绍基于matplotlib的工具之前, 首先介绍一些matplotlib库。正如《Overview of Python Visualization Tools》中所介绍的——“Matplotlib is the grandfather of python visualization packages”——matplotlib是第一个python可视化库,也是使用最广泛的可视化工具之一。它参考MATLAB对低级命令进行了封装,有着非常强大的功能,能绘制绝大多数常用的图,同时支持非常丰富的配置。(参见官网的matplotlib图例)
但随之而来的是复杂性,往往需要相对较多的代码才能得到想要的效果。加之其默认的绘图风格过于简约复古,想要对其美化更是要花些功夫。
- Seaborn
Seaborn是基于matplotlib的可视化库。它提供了一些更美观的配置选项,同时可以用更简单的代码来创建复杂的图。Seaborn封装了很多统计绘图函数,使得在做数据分析时非常方便。
seaborn图例 - Pandas
Pandas基于matplotlib也提供较为简单的API绘制图形,如pandas.tools.plotting。其使用pandas DataFrame进行绘图,这使得可以使用Pandas从分析到绘图无缝衔接。不过想要对图进行进一步的调整,就需要跳入matplotlib进行设置,而无法完全通过pandas进行操作。 - ggplot
与seaborn类似,ggplot也基于matplotlilb,旨在以一种简单的方式改善matplotlib可视化的美化问题。与seaborn的不同之处在于它是 ggplot2为R语言准备的一个端口,所以它的一些api不是基于python而是基于R语言的。ggoplot利用了图形语法的概念,是一种不同的绘图逻辑。
在进行可视化时通常涉及到地理信息的处理。除了常规的折线,柱状图之外,空间分布也是数据可视化中非常重要的一项。Python中一些库则专门处理涉及地理信息图形的工作,比如Basemap,Cartopy等。此外,geopandas扩展了pandas的绘图模块以支持地图和几何操作,并且相比Basemap和Cartopy处理效率相对更高,处理步骤更简单一些。
基于JS的可视化工具
基于matplotlib的可视化工具存在一个很明显的缺点,是其绘图处理速度低,尤其是在实时交互和图形快速更新等方面
对于图基于JS开发的可视化库相对于matpltolib来说,交互可视化正是它的优势。
- Bokeh和HoloViews
Bokeh和HoloViews是开源的交互式可视化库。它们都是属于PyViz生态(可参见PyViz生态)。
HoloViews用于即时可视化数据的声明对象,从方便的高级规范构建Bokeh图
Bokeh致力于在现代Web浏览器中生成可视化效果。它旨在进行交互式Web可视化。 - plotly
plotly区别于其他工具,是企业级分析和可视化的在线工具。其基于开源的可视化框架Dash,并提供了很多语言(比如MATLAB,Python,R等)的接口,并与pandas无缝集成。 - Cufflinks
Cufflinks将Plotly直接绑定到pandas数据帧。结合了Pandas的灵活性,比Plotly更有效,语法甚至比plotly简单。使用plotly的Python库,您可以使用DataFrame的系列和索引来描述图形,但是使用Cufflinks可以直接绘制它。 - GeoViews
GeoViews同样是PyViz的产品,专门用于可视化的地理数据,可以与HoloViews对象混合和匹配。
GeoViews样例 - Folium
Folium是另一个用于绘制空间数据的“神库”,建立在Python生态系统的数据优势和Leaflet.js库的映射优势之上。你可以在python中操作数据,然后通过folium在Leaflet地图中将其可视化。 - Altair
Altair类似Seaborn用于统计可视化。是一种声明性统计可视化库,是JavaScript的高级可视化库Vega-Lite的包装器。Altair的API也是基于图形语法的,数据围绕Pandas Dataframe构建。
总结
根据具体的需要选择更合适的工具,对常见的一些工具库,可以作如下总结。
- 对于没有交互需求的图,可以使用基于matplotlib的工具
对于简单的图表绘制任务,直接使用Pandas是非常方便的。但在对图进行定制化操作是需要使用matplotlib来实现。
对于较为复杂的可视化修以及统计分析需求,Seaborn 有更简便的实现,同时有很好的美化功能。但仍需要 matplotlib 的知识来调整。ggplot也是不错的选择。
对地理空间的可视化需求,则考虑Basemap/Cartopy/geopandas。 - 对于交互可视化,则基于JS的工具有很好的性能
如果需要建立可视化服务器,bokeh 将是一个强大的工具。并用GeoViews来解决地理可视化的需求。
Plotly可以创建最具互动性的图表。可以离线保存,并创建非常丰富的基于web的可视化图表。
对有分析需求的任务可以考虑使用Altair。
参考:
Overview of Python Visualization Tools
Python可视化工具概览
seaborn官网
matplotlib官网
plotly官网