数据中心IT运维模拟面试题

2025-03-25  本文已影响0人  远方在呼唤

一、自维修

1. 现场设备频繁重启如何排查?排查步骤

1. 硬件检查:查看电源、散热是否正常,内存/硬盘是否松动。

2. 日志分析:检查系统日志(/var/log/messages)、BMC/IPMI日志、内核崩溃日志(dmesg)。

3. 电源测试:确认PDU/UPS供电稳定,排除电压波动问题。

4. 软件问题:排查系统服务异常、驱动冲突或内核BUG。

工具:journalctl、ipmitool。

2. 如何查看设备序列号(SN)?方法

1. 物理标签:设备外壳或标签上的SN号。

2. 命令查询

- 服务器:dmidecode -t system | grep "Serial Number"。

- 硬盘:smartctl -i /dev/sdX。

- GPU:nvidia-smi -a | grep "Serial"。

3. GPU卡降速如何处理?步骤

1. 温度检查:nvidia-smi -q | grep "GPU Current Temp",确认是否因过热降频。

2. 驱动/固件:更新驱动和GPU固件。

3. 电源检查:确认PCIe插槽供电充足,电源功率达标。

4. 程序优化:检查CUDA程序是否异常占用资源。

4. RAID阵列组查看不到的原因?可能原因

- RAID卡故障或驱动未加载。

- 硬盘物理损坏或连接异常。

- RAID配置信息丢失(如电池失效导致缓存数据丢失)。

排查

1. 使用RAID管理工具(如MegaCli)检查RAID状态。

2. 重新扫描硬盘:echo "- - -" > /sys/class/scsi_host/hostX/scan。

5. 如何检查硬盘是否正常?方法

1. SMART信息:smartctl -a /dev/sdX,关注Reallocated_Sector_Ct、UDMA_CRC_Error_Count。

2. 读写测试:dd或badblocks。

3. 系统日志:dmesg | grep -i error 查看硬盘报错。

6. 设备PING不通的原因?排查步骤

1. 网络层:检查IP配置、防火墙规则、路由表。

2. 物理层:网线、网卡、交换机端口是否正常。

3. 系统服务:确认网络服务(如NetworkManager)运行正常。

4. ARP表:arp -a 确认MAC地址解析正确。

7. OS下内存故障日志位置?路径

- dmesg 或 /var/log/messages 中的EDAC(错误检测与纠正)日志。

- journalctl -k | grep -i "memory"。

- 部分服务器需通过BMC/IPMI查看硬件日志。

8. 如何查看管理口?方法

1. 物理接口:服务器后面板的专用管理网口(通常标有BMC/iLO/iDRAC)。

2. IP配置:通过BMC Web界面或ipmitool lan print查看管理口IP。

9. GPU服务器判断GPU本体或程序问题?步骤

1. 基础测试:运行nvidia-smi查看GPU状态,使用nvidia-smi stress测试稳定性。

2. 交叉验证:更换GPU插槽或运行标准测试程序(如cuda-test)。

3. 日志分析:检查CUDA错误(/var/log/cuda.log)和系统日志。

10. 维修GPU需关注点?关键点

- 静电防护:佩戴防静电手环。

- 散热组件:检查风扇/散热片是否完好。

- 金手指:清洁氧化或污渍。

- 兼容性:确认PCIe插槽供电和版本支持。

11. BMC日志查看内存故障?步骤

1. 登录BMC Web界面,进入“日志”或“事件”页面。

2. 筛选“Memory”相关告警(如Correctable ECC Error)。

3. 根据日志中的DIMM槽位编号定位故障内存。

12. 查看硬盘报错信息?方法

- smartctl -a /dev/sdX(查看SMART错误)。

- dmesg | grep -i "error|sdX"。

- RAID卡日志(如MegaCli -AdpAllInfo -aAll)。

13. 硬盘频繁掉线原因?可能原因

- 数据线/背板接触不良。

- 电源供电不稳定。

- 硬盘物理损坏或RAID卡故障。

- 过热导致保护性断开。

14. 内存更换规则?规则

- 同型号:容量、频率、品牌一致。

- 通道对称:同一通道内插满相同容量内存。

- 优先插槽:按主板手册顺序填充(如A1>B1>A2>B2)。

15. 更换主板注意事项?注意事项

- 提前备份BIOS配置和RAID信息。

- 断电并释放静电。

- 检查CPU针脚和螺丝孔位是否对齐。

- 更新固件至兼容版本。

16. GPU降带宽处理?处理步骤

1. 检查PCIe插槽是否运行在预期模式(如x16→x8):lspci -vv | grep -i "LnkSta"。

2. 清洁PCIe金手指,重新插拔。

3. 更新BIOS和GPU驱动。

4. 检查主板PCIe通道分配是否冲突。

17. BMC功能主要功能

- 远程开关机/重启。

- 硬件监控(温度、电压、风扇)。

- 日志记录与告警。

- 虚拟KVM和虚拟介质挂载。

- 固件更新。

18. BIOS常见配置?典型配置

- 启动顺序调整。

- 启用/禁用硬件虚拟化(VT-x/AMD-V)。

- CPU功率和温控策略。

- RAID模式设置。

- 内存ECC启用。

19. BMC日志查看内存故障?(同问题11)

20. 维修GPU需关注点?(同问题10)

21. RAID分类与RAID10操作?RAID级别

- RAID0:条带化(高性能,无冗余)。

- RAID1:镜像(冗余,容量减半)。

- RAID5:分布式校验(平衡性能与冗余)。

- RAID10:RAID1+0(先镜像后条带)。

创建RAID10

1. 至少4块硬盘。

2. 使用RAID卡配置两组RAID1,再合并为RAID0。

22. GPU问题与程序问题区分?(同问题9)

23. 定位硬盘/内存故障槽位?方法

- 内存:通过BMC日志或dmidecode查看故障DIMM编号。

- 硬盘:RAID管理工具显示物理槽位(如MegaCli -PDList -aAll),或根据背板指示灯定位。

24. 查看硬盘UUID?命令

- blkid(显示所有块设备UUID)。

- lsblk -o NAME,UUID。

25. 板卡替换注意事项?注意事项

- 确认兼容性(PCIe版本、供电需求)。

- 更新驱动和固件。

- 记录原板卡配置(如IP、RAID信息)。

- 防静电操作。

26. 检查硬盘是否正常?(同问题5)

27. 查看GPU的命令?命令

- NVIDIA:nvidia-smi、nvidia-smi -q。

- AMD:rocm-smi。

- 通用:lspci | grep -i "VGA"。

28. BMC带外不通处理?排查步骤

1. 检查网线、交换机端口。

2. 确认BMC IP配置正确(DHCP/静态)。

3. 重启BMC服务或重置BMC。

4. 更新BMC固件。

29. BIOS下确认内存/硬盘槽位?内存:BIOS的“System Information”可查看已识别内存容量及槽位。

硬盘:BIOS的“Storage”页面显示连接的硬盘,但无法直接定位物理槽位,需结合RAID卡工具。

30. BIOS功能核心功能

- 硬件初始化与自检(POST)。

- 启动设备管理。

- CPU/内存超频与电源管理。

- 硬件监控与安全配置(如TPM)。

31. BIOS下查看内存/硬盘?内存:可查看总容量及是否识别。

硬盘:显示连接的硬盘型号,但需进入RAID配置界面查看详细信息。

32. 最小化测试作用与方法?作用:隔离硬件/软件故障。

方法

1. 仅保留CPU、单内存、主板、电源启动。

2. 逐步添加硬件,观察是否异常。

33. 更换硬盘后丢盘处理?处理流程

1. 检查RAID状态是否自动重建。

2. 手动触发重建:MegaCli -CfgLdAdd -rX [Encl:Slot] WB RA -aX。

3. 若Ctrl+D需注释旧硬盘,使用MegaCli -PDMarkMissing -PhysDrv[Encl:Slot] -aX标记。

34. 如何查看管理口?(同问题8)

35. 查看硬盘报错信息?(同问题12)

36. RAID级别与特点?(部分同问题21)

RAID6:双校验,允许两块硬盘失效。

RAID50:RAID5+0,性能与冗余兼顾。

37. 硬盘频繁掉线原因?(同问题13)

38. BMC的两种模式?两种模式

1. 共享模式:管理口与业务网口共享物理端口。

2. 专用模式:管理口独立,需单独连接网络。

说明

RAID配置需根据业务需求选择级别,RAID10适合高IOPS场景,但成本较高。

BMC带外管理是运维核心能力,需熟练掌握IPMI命令和Web界面操作。

硬件故障定位依赖日志工具(如dmesg、BMC日志)和厂商管理工具(如MegaCli、iDRAC)。

二、日常操作流程

. 新服务器到货流程和注意事项流程

1. 验收:核对送货单与采购订单是否一致,检查外包装是否破损。

2. 开箱检查:确认设备型号、数量、配件齐全,检查设备外观有无损坏。

3. 登记入库:记录设备信息(SN号、配置等),贴资产标签。

4. 初步测试:通电测试是否正常启动,验证基础功能。

注意事项

- 全程录像或拍照留证;

- 避免暴力搬运;

- 核对配置单与实际硬件是否一致。

2. 日常运维的主要工作内容1. 监控:实时监测服务器、网络、存储等设备状态及性能指标(CPU、内存、磁盘等)。

2. 维护:定期更新系统补丁、备份数据、清理日志。

3. 故障处理:响应告警并定位问题,如硬件更换、服务重启等。

4. 优化:调整资源配置,优化性能。

5. 文档管理:记录运维操作日志及变更记录。

3. 数据中心的运维红线绝对禁止行为

- 未经审批擅自更改网络配置或设备参数;

- 私自关闭监控告警系统;

- 未授权进入机房或操作设备;

- 超负载运行导致设备过热;

- 未备份直接删除数据或执行高风险操作。

4. 日常巡检流程步骤

1. 物理巡检:检查设备指示灯状态、电源线/网线连接、机柜温度。

2. 系统检查:登录管理系统查看CPU、内存、磁盘使用率,确认服务运行状态。

3. 日志审查:分析系统日志及告警记录。

4. 记录与反馈:填写巡检报告,异常情况及时上报。

5. 高温紧急通报流程流程

1. 触发条件:机房温度超过设定阈值(如28°C)。

2. 紧急处理:启动备用空调、打开机柜门辅助散热、关闭非核心设备。

3. 通报:通知运维主管、数据中心负责人及设备厂商。

4. 后续:分析原因(如空调故障、气流阻塞),提交故障报告。

6. 机房温湿度要求标准范围

- 温度:22°C ± 2°C(ASHRAE推荐);

- 湿度:40%~60% RH。

控制措施

- 使用精密空调+环境监控系统;

- 高温时启动液冷或风墙辅助散热;

- 湿度过低易静电,过高易凝露。

7. 新服务器到货上架流程流程

1. 规划位置:根据机柜空间和电力负载选择合适位置。

2. 安装上架:固定服务器到机柜托架,连接电源线、网线、KVM线。

3. 通电配置:配置IP地址、安装操作系统、加入监控系统。

4. 验收:测试网络连通性及服务可用性。

8. 机柜单路掉电处理流程步骤

1. 确认故障:检查PDU/UPS是否告警,确认单路电源失效。

2. 切换电源:将设备切换到备用电源线路。

3. 排查原因:检查断路器、PDU模块或UPS状态。

4. 修复与记录:联系电工维修,记录故障时间及处理过程。

说明

运维红线是保障数据中心安全的底线,违反可能导致重大事故。

高温处理需优先保护核心设备,避免数据丢失或硬件损坏。

单路掉电需依赖冗余设计(如双路供电)快速切换,确保业务不中断。

三、Linux系统操作

 单用户模式的作用及场景作用

- 提供最小化系统环境,仅加载必要服务,用于系统修复。

- 允许直接以root权限操作,无需密码(部分系统)。

应用场景

1. 忘记root密码需重置。

2. 文件系统损坏需手动修复(如fsck)。

3. 启动故障排除(如错误配置导致系统无法启动)。

2. 系统日志的路径常见路径

- /var/log/messages:通用系统日志(RedHat/CentOS)。

- /var/log/syslog:通用系统日志(Debian/Ubuntu)。

- /var/log/dmesg:内核启动及硬件事件日志。

- /var/log/auth.log:用户认证日志。

- /var/log/secure:安全相关日志(RedHat系)。

3. 重启网卡的命令命令

1. 传统方式

- service network restart(RedHat 6)。

- systemctl restart NetworkManager(systemd系统)。

2. 直接操作网卡

- ifdown eth0 && ifup eth0。

3. nmcli工具

- nmcli connection reload && nmcli connection down eth0 && nmcli connection up eth0。

4. 注释硬盘的操作操作场景

- 临时禁用挂载:在/etc/fstab中注释对应硬盘的行(如# /dev/sdb1 /mnt/data ext4 defaults 0 0)。

- RAID/HBA管理:使用RAID卡工具标记硬盘为“Missing”或“Removed”(如MegaCli -PDMarkMissing -PhysDrv[Encl:Slot] -aX)。

5. 网卡配置文件的路径路径

- RedHat/CentOS 7+:/etc/sysconfig/network-scripts/ifcfg-ethX。

- Debian/Ubuntu:/etc/network/interfaces。

- Netplan(Ubuntu 18.04+):/etc/netplan/*.yaml。

- NetworkManager:/etc/NetworkManager/system-connections/。

说明

单用户模式需在启动时通过GRUB编辑内核参数(追加single或init=/bin/bash)。

网卡重启需注意:使用ifdown/ifup可能不适用于NetworkManager管理的接口,建议优先使用nmcli。

注释硬盘在RAID场景中需谨慎,避免误删数据,操作前需确认阵列状态。

四、网络和布线

1. 网卡不亮如何排查?排查步骤

1. 物理检查:确认网线连接牢固,更换网线或交换机端口测试。

2. 网卡状态:ethtool ethX 查看网卡状态(Link detected是否yes)。

3. 驱动/硬件:lspci | grep -i ethernet 确认网卡识别,检查驱动是否加载(lsmod)。

4. 交换机侧:检查对应端口是否启用、VLAN配置正确。

2. 如何连接交换机?方法

- Console线连接:使用RS-232转USB线连接交换机Console口,通过终端工具(如PuTTY)登录,波特率通常为9600。

- 远程连接:通过SSH/Telnet(需预先配置管理IP)。

3. 交换机如何搭建远程环境?步骤

1. 配置管理IP:

<br> interface vlan 1<br> ip address 192.168.1.1 255.255.255.0<br>

2. 启用SSH/Telnet:

<br> line vty 0 15<br> transport input ssh/telnet<br>

3. 设置用户名密码:

<br> username admin privilege 15 secret password<br>

4. 链路故障如何处理?排障思路

1. 物理层:检查光纤/网线、光模块、端口指示灯。

2. 数据链路层:确认端口UP、VLAN一致、STP未阻塞。

3. 协议层:检查ARP表、MAC地址表、路由表。

工具:ping、traceroute、tcpdump。

5. 交换机硬件更换/板卡替换?流程

1. 断电并佩戴防静电手环。

2. 记录原板卡配置(如端口绑定、VLAN)。

3. 更换后通电,验证端口状态及配置。

注意:确保兼容性(型号、固件版本)。

6. 网卡无法识别故障处理?处理步骤

1. 检查PCIe插槽是否松动。

2. 更新网卡驱动:modprobe <驱动模块>。

3. BIOS中启用网卡(如禁用节能模式)。

4. 更换网卡或插槽测试。

7. 传输不良故障处理?处理步骤

1. 检查网线质量(使用测线仪)。

2. 确认双工模式匹配(ethtool -s ethX duplex full)。

3. 检查信号干扰(远离电源线、大功率设备)。

4. 更换光模块或光纤(检查光衰)。

8. BMC连接方式及功能?连接方式

- 通过专用管理口(BMC/iLO/iDRAC)使用IPMI协议,Web访问(https://BMC_IP)或ipmitool命令。

功能:远程开关机、监控硬件状态(温度/电压)、查看日志、挂载虚拟介质。

9. PXE作用是什么?作用:通过网络引导安装操作系统,依赖DHCP、TFTP、HTTP/FTP服务。

流程:客户端广播PXE请求→DHCP分配IP并指定引导文件→TFTP下载启动镜像→执行自动化安装。

10. PXE装机失败处理?排查步骤

1. 检查DHCP配置(Option 66/67)。

2. 确认TFTP根目录存在引导文件(如pxelinux.0)。

3. 防火墙是否放行TFTP/UDP 69端口。

4. 客户端网卡是否支持PXE。

11. PXE循环装机原因?常见原因

- 客户端启动顺序设置为网络优先,安装后未修改为硬盘启动。

- 未正确生成Kickstart自动应答文件,导致重复进入安装流程。

- TFTP服务器镜像损坏或路径错误。

12. 链路故障排障思路?(同问题4)

13. 光纤清洁工具?工具:光纤清洁笔(单向清洁)、无尘棉签、酒精(纯度>99%)、光纤端面检测仪(放大镜)。

14. 光功率计使用及用途?用途:测量光纤链路的光衰(dBm)。

使用步骤

1. 校准光功率计。

2. 将光纤接入光功率计输入端。

3. 读取数值(正常范围:单模-8~-28dBm,多模-10~-20dBm)。

15. 数据中心线材类型?类型

- 光纤(单模/多模)。

- 双绞线(Cat5e/Cat6/Cat7)。

- DAC(直连铜缆,用于短距离机柜内连接)。

- AOC(有源光缆)。

16. 交换机替换断联顺序?最佳实践:先断下联(接入设备),再断上联(核心/汇聚层),避免业务中断。

17. 远程环境场景及工具?场景:远程维护、监控、故障诊断。

工具:VPN、SSH(如OpenSSH)、堡垒机(Jump Server)、远程桌面(RDP/VNC)、网络监控平台(Zabbix/Nagios)。

18. 查看设备序列号(SN)?(同历史问题)

命令

- 服务器:dmidecode -t system | grep "Serial Number"。

- 交换机:show version | include Serial。

19. 内存故障日志位置?(同历史问题)

路径

- /var/log/messages 或 dmesg 中的EDAC日志。

- BMC/IPMI日志。

20. 单模/多模光模块区分?区分方法

- 标识:单模模块标“SM”或波长1310/1550nm;多模块标“MM”或波长850/1300nm。

- 外观:单模光纤接口多为蓝色,多模为橙色。

- 传输距离:单模(10km以上),多模(≤2km)。

21. 交换机工作层级?OSI模型:传统交换机工作在数据链路层(L2),支持MAC地址转发;三层交换机可处理网络层(L3)(IP路由)。

22. 交换机远程环境搭建?(同问题3)

23. 单模/多模光纤区分?区分方法

- 颜色:单模光纤黄色护套,多模橙色/水蓝色护套。

- 纤芯直径:单模9μm,多模50/62.5μm。

- 标识:光纤外皮印有“OS1/OS2”(单模)或“OM1/OM2/OM3”(多模)。

24. 光衰判断标准?标准

- 单模:接收端光功率≥-28dBm(1310nm)/ -30dBm(1550nm)。

- 多模:接收端光功率≥-10dBm(850nm)/ -12dBm(1300nm)。

异常处理:清洁光纤、更换模块或调整光纤弯曲半径。

25. 光模块封装模式?封装类型

- SFP:1G速率。

- SFP+:10G速率。

- QSFP+:40G/100G速率。

- XFP:10G(已逐步淘汰)。

26. 红光笔作用?作用:检测光纤通断、定位光纤路径(通过红光透射)。

注意:切勿直视光纤端面,避免激光损伤眼睛。

27. 链路清洁方法?步骤

1. 使用光纤清洁笔单向擦拭端面(避免来回摩擦)。

2. 或用无尘棉签蘸取酒精,轻轻旋转清洁。

3. 使用端面检测仪确认清洁度(无划痕、灰尘)。

说明

物理层问题(如光衰、网线故障)是链路故障的常见原因,需优先排查。

BMC/IPMI 是带外管理的核心工具,需熟练掌握其日志分析和远程控制功能。

光纤操作需严格遵循清洁规范,避免因灰尘或划痕导致信号衰减。

上一篇 下一篇

猜你喜欢

热点阅读