离线环境部署注意事项：实战经验分享

网络断开前的准备

在一些特殊场景下，比如工厂车间、偏远地区项目现场，压根没有外网。这时候部署系统得靠提前准备。很多人以为把安装包拷过去就行，结果到了现场发现依赖库没带全，卡在第一步。

建议在有网络的环境下先做一次完整部署，用工具记录所有下载的组件，比如 pip download 或 npm pack，把整个依赖树打包成离线仓库。这样能避免漏掉某个冷门但关键的模块。

离线环境常忽略时间同步问题。服务器之间时间差几秒，证书验证就可能失败。某次在现场，三台机器时间差了两分钟，导致服务互相认证失败，排查半天才发现是本地 BIOS 时间没校准。

提前用 NTP 服务器对时，或者手动统一设置，比事后调试省事得多。尤其是涉及 HTTPS、JWT 这类对时间敏感的机制，差一分钟都可能让你的服务瘫痪。

很多服务默认走 HTTPS，自动生成证书。但在离线环境，浏览器不认这些无签发链的证书，直接拦截。提前生成好可信的私有 CA 证书，并导入到所有客户端的信任列表里，能省去一堆弹窗警告。

可以这样做：

openssl genrsa -out ca.key 2048
openssl req -x509 -new -nodes -key ca.key -sha256 -days 3650 -out ca.crt

然后把 ca.crt 安装到目标系统的证书管理器中。

线上环境出问题能查云日志，离线环境呢？有个项目在变电站部署边缘计算节点，出了故障只能靠 U 盘拷日志出来分析。后来加了本地日志轮转和简易 Web 查看界面，运维效率提升明显。

哪怕只是用 journalctl 配合 rsyslog 存本地，也比啥都没有强。有条件的话，搭个轻量 ELK 或 Loki，至少能快速定位问题。

写脚本时总假设一切顺利，但离线环境容错率低。网络不通、磁盘满、权限错，随便一个都能让脚本中断。加判断逻辑和重试机制很重要。

比如检查某个端口是否被占用：

if lsof -i :8080 > /dev/null; then
    echo "端口 8080 已被占用"
    exit 1
fi

再比如下载文件失败重试三次：

for i in {1..3}; do
    wget http://local-repo/package.tar.gz && break || sleep 5
done

最怕的就是部署到一半，某个配置项不知道怎么填，手机还没信号查不了文档。有个团队把整套 API 文档、配置说明、故障代码表都转成 PDF 拷进 U 盘，贴上标签“应急专用”，成了现场标配。

甚至可以把 Swagger 导出的 JSON 静态化，做成一个本地可访问的 HTML 页面，插上就能看。

别只在连网电脑上测完就收工。找个旧笔记本，拔掉网线，关 Wi-Fi，模拟纯内网环境跑一遍流程。你会发现很多“理所当然”的请求其实都偷偷打了外网。

比如某些软件启动时会尝试连接 license server，即使你已经配了离线模式，也可能因为没完全禁用而卡住。早发现问题，比客户现场出状况强。