公司内部环境大数据集群版本
2021-09-30 本文已影响0人
安申
背景:记录公司内部大数据集群各框架版本
| 组件 | 版本 |
|---|---|
| Cloudera Manager | 5.13.1 |
| Flume | 1.6.0 |
| Hadoop | 2.6.0 |
| MapReduce | 2.6.0 |
| HDFS | 2.6.0 |
| YARN | 2.6.0 |
| HBase | 1.2.0 |
| Hive | 1.1.0 |
| Hue | 3.9.0 |
| Impala | 2.10.0 |
| Java | Java8 |
| Oozie | 4.1.0 |
| ZooKeeper | 3.4.5 |
CDH5的版本,过于老旧,很多性能在后面的版本中都得到了优化。
例如:
- 对于小文件的优化问题。在该版本中需指定分桶数来指定产生的文件数;但在之后的版本中会默认优化小文件。无需指定分桶。
- 指定分桶须考虑分桶字段是否合理,分桶数是否合理。若不合理,可能会产生反面效果,导致sql执行变慢。