面试题（每日新增）

2018-10-23 本文已影响10人须臾之北

2018/10/22
面试题：
* 1.JDBC工作原理
* 2.本地yum源配置过程(使用光盘镜像)

一、面试题
1.JDBC工作原理
** JAVA Database Connectivity java 数据库连接
** 具体步骤：
** jar包 ——> classpath ：右键jar包——>add to BuildPath
** 加载驱动——load the driver
** 向DriverManager注册驱动
** 利用反射加载驱动
** 此时加载驱动时，静态代码块会被执行
--------------------------------------------------------------------
try {
Class.forName(driverClass); //com.mysql.jdbc.Driver
}
catch(ClassNotFoundException e) {
e.printStackTrace();
}
--------------------------------------------------------------------
** 获取连接
** 注意连接字符串url = jdbc:{dataBase}://{host}:{port}/{schema}
---------------------------------------------------------------------
try {
conn = DriverManager.getConnection(url,user,password);
//url = jdbc:mysql://localhost/student
}
catch(SQLException e) {
e.printStackTrace();
}
---------------------------------------------------------------------
** 获取操作对象
** Statement和PreparedStatement
------------------------------------------------------------------------------------
Statement stmt = conn.createStatement();
PreparedStatement prestmt = conn.prepareStatement("insert into dept values(?,?,?)");
------------------------------------------------------------------------------------
** 操作数据库
** executeUpdate(sql)
** 返回int型，变更条数
** executeQuery()
** 返回ResultSet，Cursor游标——>在结果表中移动游标
** 接受返回结果
** 释放资源
** 关闭ResultSet -> 关闭StateMent(数据库会话) -> 关闭连接
** 以关闭connection为例
--------------------------------------------------------------------
static void closeConn(Connection conn) {
try {
if(conn != null)
conn.close();
}
catch(SQLException e) {
e.printStackTrace();
}
finally {
conn = null;
}
}
--------------------------------------------------------------------

2.yum源配置过程(使用光盘镜像)
* yum作用：
** 解决rpm软件包安装时的依赖问题 -> 软件包依赖，软件版本不匹配，系统架构(x86,x86_64)，系统版本
** 基于RPM包管理，能够从指定的服务器自动下载RPM包并且安装，可以自动处理依赖性关系，并且一次安装所有依赖的软件包，无需频繁地一次次下载和安装

* yum 基本语法：
    ------------------------------------------------------------------
    yum install -y httpd   （功能描述：安装 httpd 并确认安装） 
    yum list     （功能描述：列出所有可用的 package 和 package 组） 
    yum clean all    （功能描述：清除所有缓冲数据） 
    yum deplist httpd   （功能描述：列出一个包所有依赖的包） 
    yum remove httpd   （功能描述：删除 httpd） 
    ------------------------------------------------------------------

* 关联网络YUM配置
    ** 文件准备
        ** 一台联网的虚拟机
        
        ** 访问：http://mirrors.163.com/.help/centos.html在使用说明中，点击CentOS6进行保存

        ** 再保存文件的目录打开终端，执行pwd查看文件的保存位置

    **  替换本地YUM文件
        ** 把下载的文件移动到/etc/yum.repos.d/目录 
        ** mv CentOS6-Base-163.repo /etc/yum.repos.d/

    ** cd /etc/yum.repos.d/目录
        ** 用 CentOS6-Base-163.repo 替换 CentOS-Base.rep 

    ** 安装命令
        ** yum clean all
        ** yum makecache


* 制作本地YUM源 
    ** 准备一台服务器，版本 CentOS-6.8-x86_64-bin-DVD1.iso 
    
    ** 配置好IP地址
    
    ** 将 CentOS-6.8-x86_64-bin-DVD1.iso镜像挂载到/mnt/cdrom
       -------------------------------------------
       mkdir /mnt/cdrom
       mount -t iso9660 /dev/cdrom  /mnt/cdrom
       -------------------------------------------
    
    ** 修改本机上的YUM配置文件，将源指向自己，备份原有的YUM配置文件
       -------------------------------------------
       cd /etc/yum.repos.d/
       cp CentOS-Base.repo  CentOS-Base.repo.bak 
       -------------------------------------------
    
    ** 编辑CentOS-Base.repo文件
       vi CentOS-Base.repo
        -------------------------------------------
        [base] 
        name=CentOS-Local 
        baseurl=file:///var/iso 
        gpgcheck=1 
        enabled=1   #增加改行，使能 
        gpgkey=file:///etc/pki/rpm-gpg/RPM-GPG-KEY-CentOS-6 
        -------------------------------------------
    
    ** 清除YUM缓存
       yum clean all 
    
    ** 列出可用的 YUM 源 
       yum repolist
    
    ** 安装相应软件
       yum install -y httpd 
    
    ** 开启 httpd 使用浏览器访问
       http://hostname:80（如果访问不通，检查防火墙是否开启了80端口或关闭防火墙） 
       service httpd start

    ** 将 YUM 源配置到 httpd（Apache Server）中，        
       其他的服务器即可通过网络访问这个内网中的YUM源了
        cp -r /mnt/cdrom/ /var/www/html/CentOS 

    ** 取消先前挂载的镜像 
        umount /mnt/cdrom 

    ** 在浏览器中访问 http://hostname/CentOS/ 
        若成功，则可以被其他服务器访问且指向该YUM源
    
    ** 让其他需要安装RPM包的服务器指向这个YUM源，准备一台新虚拟机，备份或者删除原有的YUM配置文件
        -------------------------------------------
        cd /etc/yum.repos.d/
        cp CentOS-Base.repo  CentOS-Base.repo.bak 
        -------------------------------------------

    ** 编辑 CentOS-Base.repo 文件 
       vi CentOS-Base.repo
       -------------------------------------------------------
       [base] 
        name=CentOS-hoetname 
        baseurl=http://192.168.11.101/CentOS 
        gpgcheck=1 
        gpgkey=file:///etc/pki/rpm-gpg/RPM-GPG-KEY-CentOS-6 
       -------------------------------------------------------

    ** 在此虚拟机上执行
        yum clean all
        yum repolist

2018/10/23
面试题
1、Hive的运行机制和原理
2、ext4,fat32,ntfs,swap各文件系统的数据类型的区别，mbr和gpt分区表的区别，fdisk和parted分区工具的区别

1、Hive的运行机制和原理
* 从两个方面来回答这个问题：
** hive的安装部署和运行
** hive和其他的大数据生态圈的组件的集合

* 第一方面：hive的安装部署和运行
    ** hive 概念
        ** 将结构化的数据文件映射为一张表，并提供类 SQL 查询功能

    ** hive的安装部署
        ** yarn运行依赖的组件：
            ** Hadoop(hdfs yarn)
                ** hive启动时，只需要hdfs
                    ** hive也是可以启动的，可以执行单表查询
                    ** 不带聚合和分组函数的单表函数是可以进行的，因为只是简单的文件读写，不涉及到转换为MapReduce过程
                ** 涉及到mapreduce的才需要yarn的调度
        
        ** 关系型数据库（MYSQL）
            ** 可以使用schematools指定使用其他的数据库
            ** 如果不安装mysql,则元数据信息存储在derby中

    ** 穿插：hive与数据库的区别
        ** 数据库
            ** 数据文件存放在磁盘上
            ** 数据元数据记录在自己的数据库表中(mysql表)
                ** 存放的元信息：数据库对象结构信息
        
        ** hive
            ** 数据文件存放在hdfs上
            ** 数据元数据信息存放在关系型数据库中
            ** 这也就决定了hive的运行架构：
                ** hive运行架构
                    ** 本质是：将 HQL 转化成 MapReduce 程序 
                        1）Hive 处理的数据存储在 HDFS 
                        2）Hive 分析数据底层的实现是 MapReduce 
                            ** 可以通过HQL对结构化数据进行统计分析
                            ** 可以以分布式的方式执行计算任务
                            ** MR：计算模型
                            ** hadoop实现了MR计算模型，是一个分布式的计算框架
                        3）执行程序运行在 Yarn 上

第二方面：hive和其他的大数据生态圈的组件的集合   
    ** HQL——>MR——>数据文件从HDFS中读取，由YARN分配任务
        ** 如果只是查询，那么只是生成临时的结果显示出来
        ** 如果要将结果进行记保存
            ** create table {tableName} as {HQL}        此时HQL会触发MR，但是单表查询不会触发mapreduce，只是文件读写
            ** 将结果记录到表中，下次直接select * from {tableName},以此提高效率
    
    * hive操作    
        ** hive创建表
            ** 默认的数据库default ——> /user/hive/warehouse
                ** 数据库和数据库表都以文件夹的形式存在于HDFS
            ** 确定表类型——>内部表/外部表
                ** 内部表：默认就是内部表
                    ** HDFS将数据文件导入到内部表——会将数据文件移动到表文件夹下
                    ** 删除表时，数据也会被删除
                ** 外部表：external  
                    ** location:指定外部文件路径
                    ** 删除表，数据文件保留
            ** 需要指定数据文件的分隔符（\001）
        
        ** 创建数据库test
            ** /user/hive/warehouse/test.db
        
        ** show databases;
            ** 元数据：mysql(hive)中：DBS(id,数据库名称，存放路径，描述信息等)
            ** 此时不需要和hdfs进行交互
            ** 只需要查找关系型数据库中的表即可
        
        ** show tables
            ** 元数据：mysql(hive)中：TBLS(id,数据表名称,关联到数据库的id)
            ** 此时不需要和hdfs进行交互
            ** 只需要查找关系型数据库中的表即可
        
        ** desc {tableName}
            ** mysql(hive) ——> COLUMNS_V2(关联到表的id，字段名称，字段类型，字段顺序)
            ** 此时不需要和hdfs进行交互
            ** 只需要查找关系型数据库中的表即可
            
    * hive的执行   
        dataFlow(phoneNumber,upflow,downFlow)
            * select phoneNumber,sum(upFlow),sum(downFlow) from dataFlow group by phoneNumber;
                ** Mapper
                    ** 数据输入：数据表的数据文件
                    ** 数据输出：group by 字段分组
                        ** COLUMNS_V2表中字段名称和字段索引的对应
                ** Reducer
                    ** 数据输入：Mapper的输出
                    ** reduce方法：select 中出现的聚合函数
                    ** 数据输出：select后面的部分

        count(*) 和 count(phoneNumber)
            * count：统计所有非空数据的条数
            * count(*) 所有的都不是空才统计
                字段a 字段b 字段c
                111     333     null
                111     342     123
                111     355     124
                * count(*) 结果为2
                * count(a) 结果为3
            * count(phoneNumber) 统计phoneNumber不为空的条数

2、ext4,fat32,ntfs,swap各文件系统的数据类型的区别，mbr和gpt分区表的区别，fdisk和parted分区工具的区别

ext4
- Linux主要使用的文件系统
- IEB——>1024PB
fat32
- XP：32GB
- 单个文件大小不超过4GB
NTFS
- 2TB
- 单个文件大小2TB
swap
- 交换分区

分区表区别：
* 能够支持的磁盘大小
* 分区
mbr
* 能够支持的磁盘大小2TB
* 4个主分区
* 3个主分区，一个扩展分区（分多个区）——>fdisk
gpt
* 能够支持的磁盘大小？？
* 无限制的主分区——>parted

面试题（每日新增）

猜你喜欢

热点阅读