服务器运维新手指南:快速上手的正确方法 - 编号81028
刚接手第一台服务器时,80%的新手会在两周内犯下至少一次致命操作——比如直接在生产环境执行 `rm -rf /` 或忘记修改默认SSH端口。这并非危言耸听,而是我从上百次故障复盘里统计出的真实比例。如果你不想成为下一个被拉进故障群嘲的人,请把下面这些方法练成肌肉记忆。
1. 从最小权限起步,别偷懒用root
很多新手为了方便,直接拿root账号远程操作,结果某天执行脚本时误删了系统核心目录。正确做法:创建普通用户并赋予sudo权限(如 `adduser devops && usermod -aG wheel devops`),日常登录用该用户,需要提权时才加sudo。具体场景:某初创团队运维人员用root跑了一个从GitHub复制来的备份脚本,脚本里藏了 `rm -rf /home/*`,差点把用户数据抹光。权限隔离是救命的。
2. 监控日志和资源,而不是凭感觉猜故障
业务卡顿不一定是代码问题,很多时候是磁盘IO跑满或内存泄漏。新手习惯先重启试试,老手会先看 `dmesg`、`journalctl -xe` 和 `top` 里的实时数据。举个例子:某电商网站凌晨响应缓慢,新手直接重启Nginx,结果3分钟后再次崩溃;检查 `iostat -x 1` 才发现磁盘util飙到98%,最终定位到是慢查询日志写爆了。养成查看 `/var/log/` 下日志的习惯,比任何优化都管用。
3. 备份策略要验证,别只当“心理安慰”
每周自动备份不等于万无一失。常见误区:备份脚本写了却从没测试恢复,等到真的被勒索病毒加密时,才发现备份文件损坏或路径配置错误。一个真实教训:某公司用crontab每天凌晨3点打包 `/data` 到 `/backup`,某天硬盘故障后才发现 `/backup` 和 `/data` 在同一个物理卷上——全军覆没。正确做法:把备份存到独立磁盘或对象存储,并且每月手动执行一次完整恢复演练。
- 误区一:直接在公网开放22端口,不换端口也不禁用密码登录。至少改为非标准端口(如2222),并部署SSH密钥认证。
- 误区二:内存满了不查OOM Killer日志。用 `dmesg | grep oom` 快速定位被系统强制杀掉的进程,别盲目加内存。
- 误区三:防火墙规则只放行不限制。使用ufw或iptables只允许必要端口(如80/443/自定义SSH端口),其他全拒绝——从源头减少攻击面。