一些关于Ubuntu和hadoop的学习日志
2017.10.19~20
坐在床下被蚊子咬死了,靠着电脑屏幕微弱的灯光打死了一只飞到跟前的蚊子
毛不易唱歌好好听啊。
分出去300G装ubuntu,结果搁在这里装了后就很久没用过了,最近因为实习原因重新开始用,万事开头难。
记录一下这两天学的骚操作:
更新apt:sudo apt-get update
sudo apt-get autoclean 清理旧版本的软件缓存 autoremove删除系统中孤立软件(没有依赖关系的)
安装搜狗输入法:需要预先安装一些依赖软件:sudo apt install libopencc1 fcitx-libs fcitx-libs-qt fonts-droid-fallback,然后去官网下载搜狗拼音for linux,安装过程中如果还报错就试试sudo apt-get install -f 修复依赖关系。
还有一个蛋疼的地方,我相信很多人和我一样,从Windows切到ubunutu的时候很不习惯,终端那个光标特么的也太粗了。解决办法如下:打开终端,长按alt,点击exit,点击配置文件首选项(就是最后一个),然后可以看到“改变光标形状”
自带的下载器真鸡儿慢啊,怀念迅雷,这是迅雷 for ubuntu:
http://blog.csdn.net/c2682736/article/details/71773806
学习hadoop:老大推荐的入门教程:http://www.powerxing.com/install-hadoop/
关于其中几点进行简要说明,旨在看到此文的小可爱们少走弯路。
1.为什么要创建一个新的hadoop用户:因为root权限太大,这主要考虑到安全因素,配置的时候可能因为误操作导致灾难性后果.哦对了,创建新用户后,要重装jdk(可能是因为我菜不会弄。。)
2.hadoop 2.4.7对应jdk1.8
3.文中提到的mds文件在这里:http://archive.apache.org/dist/hadoop/core/stable/
4.后面改配置文件的时候用到的gedit命令,没有装gedit的话,改成vim一样的。
5.需要从伪分布式模式切换回非分布式模式,直接删除 core-site.xml 中的配置项即可。
6.开启NameNode和DataNode守护进程:在/usr/lcoal/hadoop下,输入命令:./sbin/start-dfs/sh 然后输入命令jps来判断是否启动成功,相应的:如果 SecondaryNameNode 没有启动,请运行 sbin/stop-dfs.sh 关闭进程,然后再次尝试启动尝试。
7.删除HDFS中原有的所有数据:rm -r ./tmp 没事不要这么玩!!!
8.成功启动后,可以访问 Web 界面 http://localhost:50070 查看 NameNode 和 Datanode 信息,还可以在线查看 HDFS 中的文件。grep 例子读取的是本地数据,伪分布式读取的则是 HDFS 上的数据。要使用 HDFS,首先需要在 HDFS 中创建用户目录
9.重点!!!:
运行hadoop程序时候,为了防止覆盖结果,程序指定的输出目录(如 output)不能存在,否则会提示错误,因此运行前需要先删除输出目录。在实际开发应用程序时,可考虑在程序中加上如下代码,能在每次运行时自动删除输出目录,避免繁琐的命令行操作:
Configuration conf = new Configuration();
Job job = new Job(conf);
//删除输出目录
Path outputPath = new Path(args[1]);
outpurPath.getFileSystem(conf).delete(outputPath,true);
10.重点!!!:
不启动 YARN 需重命名 mapred-site.xml:
如果不想启动 YARN,务必把配置文件 mapred-site.xml 重命名,改成 mapred-site.xml.template,需要用时改回来就行。否则在该配置文件存在,而未开启 YARN 的情况下,运行程序会提示 “Retrying connect to server: 0.0.0.0/0.0.0.0:8032” 的错误,这也是为何该配置文件初始文件名为 mapred-site.xml.template。
11.那个教程里面,如果安装的是hadoop2.7.4以及以后的版本,修改yarn-site.xml的时候,务必修改成:
yarn.nodemanager.resource.cpu-vcores
8
yarn.nodemanager.resource.memory-mb
8192