配置微软Azure大数据HDInsight云集群
配置微软Azure大数据HDInsight云集群,存储账户、托管标识等问题也都参考官方文档解决了。
原文在我的开源中国博客:https://my.oschina.net/finchxu/blog/3164887
微软Azure为国外学生提供了100美元额度的免费一年的账户,为国内个人用户提供了1500人民币额度的“免费”一个月账户(花费1元即可获得)。
一元体验账户申请链接:https://www.azure.cn/pricing/1rmb-trial-full/?form-type=identityauth
这个账户能使用完整的微软Azure中国区域资源,包括虚拟机、存储、数据分析等。这里直接配置 HDInsight 大数据分析平台。
1. 首先依次找到“创建资源”=>“数据+分析”=>“ HDInsight ”点击进入配置目录。
![](https://img.haomeiwen.com/i8965651/5c0a6287a81a60c7.png)
这里开始第一步,
(1)填写cluster name以方便后来通过web访问你的所有资源。
(2)cluster typer选Hadoop2.7就行。
(3)login name 和密码呢,写好记住就行,也是后边通过web访问的时候要用的。
(4)Resource group你自己新建一个起个名字即可。
(5)地区的话,选择离你近的,中部或者东部都可以。这里要注意,后边别的设置也要选择同样的地区才行。
2. 点击next后进入第二步。配置存储。
我们在创建Azure账户的时候就默认创建了管理员账户,这里还要创建独立的存储账户
(1)首先在左侧边栏找到“存储账户”,右键在新的标签页打开(意思就是不要关闭现有页面)。
![](https://img.haomeiwen.com/i8965651/5b27f23d554898f2.png)
这里的资源组填选择和上边第一步中的resource group一样的就行,后边的所有资源也是都选这一个资源组就好了。
点击下一步后,“网络”默认,“高级”中启用“ 层次结构命名空间 ”,后边的就都是默认就行了。最后点击“创建”稍等就完成了。
账户创建完毕了,存储器其实还不能使用,我们需要创建“托管标识”来管理权限问题。
在最上边搜索条中,搜索“托管标识”,如下图所示
![](https://img.haomeiwen.com/i8965651/b6c7c0ae6ba07e98.png)
点击打开后,选择 添加 即可,这个创建很简单。注意资源组一直都是选同一个,不要新建。
这时候呢,我们把新建的 托管标识 附加到刚才创建的 存储账户 上就完成了。
(1.a)回到 存储账户 页面,点击资源进入详页
(1.b)在左侧边栏找到 “访问控制(标识和访问管理)”
(1.c)点击“添加”=>“添加角色分配”
(1.d)按照下图所示,“角色” 选择 “存储Blob数据所有者”,访问权限 选择 “用户分配的托管标识”,下边自动列出了刚才创建的“托管标识”。这时候选择,并点击保存即可。
![](https://img.haomeiwen.com/i8965651/ef9dda6dcf0083f1.png)
(2)这时候回到最开始的页面,也就是 HDInsight 配置页面,我们接着配置第二步。
(2.a)“Primary storage type” 选择 “Azure Date Lake Storage Gen2”
(2.b)下边“select a storage account” 点击选择刚才创建的存储账户即可。
![](https://img.haomeiwen.com/i8965651/1671b167e9760c45.png)
(2.c)这里的Identity就是我们上边创建的 “托管标识”,在“User-assigned managed identity”中选择之前创建好的托管标识就好啦。
![](https://img.haomeiwen.com/i8965651/916d33d84b4a9211.png)
到这里就可以点击next进行下一步了,不过这里的metastore元数据存储可以自定义,这样你的集群被删除的时候,hive元数据都完好无损。
3. 这里来到了最后一步。
![](https://img.haomeiwen.com/i8965651/686d2350f43b0cd2.png)
这里你会发现为什么费用这么高?别急,我们点击 “Cluster size” 就可以选择节点机器的配置来节省。
在右边窗口点击 浏览全部配置 就可以找到低价的。还有可以设置 “Worker nodes” 的数量,hdfs嘛,最低也要来两台吧,这样hdfs也有100G了。
![](https://img.haomeiwen.com/i8965651/677759b7d551fe0b.png)
4. 这时候把剩余的“下一步”点完,就等待他自动创建集群吧,20mins左右完成,回到仪表板就能找到创建好的资源。点击右边的url就能看到所有资源的控制面板了。大功告成。点击url后会提示输入用户名和密码,,这俩就是上边第一步填写的 “cluster login username&password” 还有ssh登录也是上边写好的。
![](https://img.haomeiwen.com/i8965651/bca82e82055a2b3f.png)
![](https://img.haomeiwen.com/i8965651/90ca481074ca0df5.png)
微软大法好!!!微软的文档都写得特别详细完整。这一点微软从来都做的特别厉害!!!
原文在我的开源中国博客:https://my.oschina.net/finchxu/blog/3164887
参考文档:
https://docs.microsoft.com/zh-cn/azure/hdinsight/hdinsight-hadoop-provision-linux-clusters
https://docs.microsoft.com/zh-cn/azure/hdinsight/hdinsight-hadoop-use-data-lake-storage-gen2