py作为数据分析工具

2018-04-26 本文已影响33人逆风笑Craz

首先提出问题，根据数据凭借已有经验选择合适方法，（调查问卷用exel，SQL稍微大，更大用多普集群），数据来源。

数据分析范围很大

数据检验，假设检验（数据分布和缺失值），自动化需求有监控报表。

ETL抓取数据分析假设检验预测建模（分析不同因子在模型中的重要性）可视化模型

反馈回到提出问题的阶段

（敏捷开发）通过快速迭代得到更好地结果

数据分析任务 1 数据获取ETL 2数据处理类：交互可视化，信息汇总量的产生，机器学习，假设检验 3后期自动化：后来对分析进行自动化：1自动可视化2 自动建模和假设检验；对数据平台的监控

最后一点自动化的报告而非手动

R有点错过了分布式计算的洪流

2012的数据科学家的问题：

1：后期参与决策，数据科学家没有参加，改不了；

2：自动化程度低，实际应用低

2017：

大公司不怎么做模型，而是做周围的产品，比如在云平台部署（如上图的工具特点）

三块五的表（笑哭）

数据提取：

SQL对不规则的，文本不方便 R：要安装包，麻烦 Py一个包解决

数据预处理：

R Py给操作人员自由度

可视化：

很大数据要在服务器端进行，而不在内存里，再在可视化，ELK平台好点，平常的话炸服务器

实战部署：

SQL有数据库就不用部署了。R生态有不同软件包等等所以很麻烦。

问卷：

有大的平台支持了，很简单入手了，很完备，但是自由度不大，虽然对各个方面很细。

1 前期处理类：SQL R Py，自动化比较少，但交互式强；2 全站处理类：不适合交互式分析，或只是常见场景

流程：前期用交互性强的初期分析，后期结果要自动化再用自动化工具简化流程

R Py生态，前期二选一，成熟后用全站的工具自动化

R里的包生物信息学里重要的包：billconnector？ R有太多小众的统计包，写法可能都不一样

Py 使用一下的通用软件包就行了

第四个：数据读取汇总 5 监督非监督式

fit和pridict函数训练和预测

py的借口标准化可移植