py作为数据分析工具

2018-04-26  本文已影响33人  逆风笑Craz

    首先提出问题,根据数据凭借已有经验选择合适方法,(调查问卷用exel,SQL稍微大,更大用多普集群),数据来源。

数据分析范围很大

    数据检验,假设检验(数据分布和缺失值),自动化需求有监控报表。

ETL抓取数据  分析假设检验  预测建模(分析不同因子在模型中的重要性)  可视化模型

反馈回到提出问题的阶段

(敏捷开发)通过快速迭代得到更好地结果       

数据分析任务 1 数据获取ETL 2数据处理类: 交互可视化,信息汇总 量的产生,机器学习,假设检验 3后期自动化:后来对分析进行自动化:1自动可视化2 自动建模和假设检验 ;对数据平台的监控

最后一点 自动化的报告 而非手动

R有点错过了分布式计算的洪流

2012的数据科学家的问题:

1:后期参与决策,数据科学家没有参加,改不了;

2:自动化程度低,实际应用低

2017:

大公司不怎么做模型,而是做周围的产品,比如在云平台部署(如上图的工具特点)

三块五的表(笑哭)

数据提取:

SQL对不规则的,文本不方便  R:要安装包,麻烦  Py一个包解决 

数据预处理:

R Py给操作人员自由度

可视化:

很大数据要在服务器端进行,而不在内存里,再在可视化,ELK平台好点,平常的话炸服务器

实战部署:

SQL有数据库就不用部署了。R生态有不同软件包等等所以很麻烦。

问卷:

有大的平台支持了,很简单入手了,很完备,但是自由度不大,虽然对各个方面很细。

1  前期处理类:SQL R Py,自动化比较少,但交互式强;2  全站处理类:不适合交互式分析,或只是常见场景

流程:前期用交互性强的初期分析,后期结果要自动化再用自动化工具简化流程

R Py生态,前期二选一,成熟后用全站的工具自动化

R里的包 生物信息学里重要的包:billconnector?  R有太多小众的统计包,写法可能都不一样

Py 使用一下的通用软件包就行了

第四个:数据读取汇总  5  监督非监督式 

fit和pridict函数训练和预测

py的借口标准化可移植

上一篇 下一篇

猜你喜欢

热点阅读