关于作者
昵称: 南宫乘风
工作年限: 5年
博客大屏: https://dash.ownit.top/
获的证书: CKA , CKS
性格: 热爱学习,喜欢挑战自我并追求自己的兴趣,有清晰的规划
座右铭: 未来的你,会感谢今天仍在努力奋斗的你
岗位: 运维开发工程师
技能: 擅长 Linux,Kubernetes,Python(Flask),监控(Prometheus)及自动化技术(Ansbile)
研究方向: 专注于 Kubernetes,AI (Prompt), GO,Istio,云原生 和 Vue
目标: 成为一名优秀的DEVOPS
工程师
联系我: 1794748404@qq.com
持续输出 DevOps 运维实战博客 400+ 篇,总访问量 100w+、粉丝数 1w+,具备良好行业影响力与知识传播能力。
经历
前期成长
问: 为什么要记录学校期间的经历?
解: 因为正是这些学习和实践,才让我走上了运维的道路。这段宝贵的经历对我意义重大,我对此深表感激。
学校期间
- 自学Shell和Linux操作:通过自学掌握了Shell脚本编写和Linux操作系统管理的基本技能,积极参与在线社区交流,解答问题并分享经验,不仅提升了自己的技术水平,还为社区其他成员提供了帮助和支持。
- 学校网站建设与维护:
- 责任:负责学校网站的建设和日常维护工作。
- 措施:
- 通过使用防火墙和代码审查等技术和工具,确保Web服务器的安全性。
- 制定并完善了网站的备份和灾难恢复计划,确保数据安全和恢复能力。
- 成果:
- 网站运行稳定,未发生重大安全事故。
- 数据安全得到保障,即使在突发事件中也能迅速恢复,减少了对学校日常运作的影响。
- 协助管理机房服务器:
- 责任:参与机房服务器的管理工作。
- 措施:
- 负责安装和配置服务器操作系统和各类服务软件。
- 配置网络和防火墙,确保服务器的安全和网络稳定。
- 成果:
- 服务器系统运行高效,服务软件配置合理。
- 机房网络稳定,服务器安全性得到了提升,有效防止了潜在的安全威胁。
工作经历
First: 售票系统
岗位: Linux运维工程师
工作内容
1、 负责项目软件安装及系统部署工作,编写对应的实施文档
2、 制定数据库备份方案,灾难出现时对数据库进行恢复。
3、 负责部署和管理监控系统环境,自定义脚本监控,实现监控报警功能
4、 负责公司线上环境管理工作,包括平台的实施部署和维护,代码更新,告警修复等操作。
5、 负责公司 web(Nginx、Apache、Tomcat)项目、数据库服务器的日常维护,程序版本更新。
6、 编写日常维护巡检 Shell /python 脚本获取每日服务信息邮件推送进行汇报;
负责异地组网和 VPN 技术构建与维护
项目描述
公司服务器和客户服务器分布于多个网段与地域,缺乏统一管理渠道且部分业务需跨地域互通。因公网 IP 数量有限,且部分数据对传输安全要求高,需搭建加密、安全的内网通信方案。
工作内容:
- 主导企业级 OpenVPN 架构设计与部署,实现异地服务器组网与加密通信。
- 设计服务器网段与路由规则,编写自动化脚本完成用户创建与数据备份,防止配置丢失。
- 部署 JumpServer 作为堡垒机,细化账号权限管理、操作审计与数据库定期备份。
- 多轮测试验证后上线正式环境,并负责后续运维支持。
成果:
- 实现覆盖 1000+ 台服务器的稳定组网通信,数据安全加密传输,零中断部署。
- 自动化脚本减少 90% 以上手动配置工作量,VPN 用户维护效率提升 3 倍以上。
- JumpServer 审计日志准确率 100%,大幅降低安全风险,符合等保审计要求。
其余项目
Second: 维护上千台Linux系统
岗位: 自动化运维工程师
工作内容
1、负责维护 上千台 生产环境服务器的操作系统(实现ansible自动化管理)
2、根据业务需求编写shell和Python脚本,处理问题
3、增加集群prometheus监控,实现各方位的监控,从硬件,操作系统,到业务等
4、负责运维项目开发, 自动化脚本编写(编写Django告警接口对接alertmanager,Gin开发邮件告警服务,优化邮件接口,接入数据库,实现故障汇中和分析。)
5、分析报错日志,定位问题和解决问题
6、docker的构建,上传 和扫描 等维护
7、负责部分业务上线,业务环境测试到生产
8、负责维护Kubernetes业务,构建持续交付,更新和发版
上千台服务器监控告警系统搭建开发
项目描述
随着公司服务器规模扩大至上千台,需建立一套统一的高可用监控系统,实现全面指标采集、实时告警分发、数据长期存储与可视化分析。
工作内容:
- 监控告警集群配置:
- 搭建 Prometheus + Alertmanager + Consul + Grafana 集群,使用 Ansible 批量部署 Node Exporter 并注册至 Consul,实现服务自动发现。
- 构建基于 Django 的告警平台,对接 Alertmanager,将告警信息按严重等级分类路由至不同钉钉群组,实现多维告警联动响应。 (Django告警项目)
- 指标数据持久化存储:
- 筛选关键指标,丢弃无效数据以减小冗余负载。
- 使用 Go 插件
prometheus-postgresql-adapter
将数据写入 PostgreSQL,支持**90 天+**历史监控数据查询和可视化。- 监控数据可视化:
- 配置 Grafana 展示核心业务服务的监控数据与 SLA 指标,设定多角色访问权限及分层看板(业务层、基础设施层等)。
成果:
成功覆盖 1000+ 台服务器与 50+ 应用服务的实时监控与告警体系,系统稳定性提升至 99.99%。
告警响应平均时间从 15 分钟缩短至 2 分钟内,重大故障预警命中率提升 85%+。
基于 Ansible 的客户端自动化部署,部署时间从 3 小时缩短至 15 分钟内,部署出错率趋近于 0。
告警平台上线后,运维团队人工告警分发工作量减少 95%,实现闭环处理与状态跟踪闭环管理。
MHA数据架构优化
案例:MHA高可用方案
- 项目描述
原有 MySQL 主从复制架构存在主库负载高、读写不均衡、主库宕机无自动切换等问题。通过部署 MHA 实现数据库故障自动切换,并配合 Atlas 实现读写分离,从根本上提升业务连续性与数据库性能。
- 工作内容: - 构建一主两从架构,配置 SSH 免密认证及节点连通性验证。
- 部署 MHA 管理节点,编写 Shell 脚本自动检测
repl
状态、SSH 连接、MySQL 运行状态。- 配置自动主从切换及邮件通知(
send_report
),并通过 Zabbix 监控主从延迟与健康状态。- 成果:
- 实现数据库故障自动切换,RTO 缩短至 <30 秒,避免主库宕机造成业务中断。
- 实施读写分离后,主库 CPU 利用率下降 约 50%,平均查询响应时间优化 40%+。
- Zabbix + 邮件联动告警系统提升了异常响应效率 3 倍,提高整体系统可维护性与安全性
其余项目
- 工作内容:
- 构建网站高可用集群,采用 Keepalived + Nginx + MySQL + Redis + NFS + Web 多层架构,支持流量负载均衡、自动故障转移与数据高可用。 架构具备水平扩展能力,支持业务增长和敏捷交付。 (项目架构图)
- 规划并上线企业级日志采集系统,覆盖 1000+ 台服务器,采集系统日志与应用日志,统一接入 Elasticsearch 集群进行存储、索引和检索。
- 编写 Ansible Playbook,实现 SSH 安全加固、系统补丁下发、批量脚本执行与服务自动扩缩容。
- 成果:
- 整体系统可用性提升至 99.99%,支持日均访问量 百万级流量稳定运行。 高可用机制下,单点组件宕机不影响业务访问,切换时间 <10 秒。
- 实现分钟级日志采集与检索,平均问题定位效率提升 70%+,支持安全审计与故障回溯。
- Ansible 脚本自动化部署覆盖率达 95%,服务器维护时间缩短 60%+,人力成本大幅降低。
Third:五百强的子公司
岗位: 运维开发工程师
Kubernetes 集群管理与运维
- 工作内容:
- 负责生产环境 Kubernetes 集群的搭建、维护与日常运维,覆盖多业务线系统,确保容器化平台稳定运行。
- 熟练掌握 Kubernetes 集群架构设计(高可用、存储、网络、安全等),并制定标准部署方案和故障处理流程。
- 持有 CNCF 官方认证的 **CKA(Kubernetes 管理员)与CKS(安全专家)**证书,持续跟进云原生领域前沿实践与安全标准。
- 成果:
- 成功支撑 10+ 核心业务系统从传统架构平滑迁移至 Kubernetes,实现 0 中断上线,
- 构建自动诊断与告警体系,平均 故障定位时间从 40 分钟缩短至 10分钟,高优事件响应效率提升 4 倍。
- 优化容器资源分配策略,CPU 利用率提升约 30%,节点资源浪费减少 40%
自动化发布与工作流程优化
- 工作内容:
- 维护并优化 GitLab + Jenkins + Ansible 的自动化发布流水线,编写标准化发布脚本,确保部署流程安全高效。
- 集成发布后自动巡检、系统告警、日志采集入库等流程,提升系统可观测性和问题响应能力。
- 开发钉钉 OA 工单信息收集与分析系统,自动分类与统计日常运维/开发工单,支持工作量量化考核与资源分配优化。
- 成果:
- 自动化发布流程覆盖 95% 以上业务服务,平均发布耗时减少 70%,人力依赖显著下降。
- 实现每日自动巡检 + 实时告警机制后,故障发现平均提前 20 分钟,服务稳定性明显提升。
- 钉钉工单系统月均处理信息量超 3000 条,分类准确率达 98%+,为团队节省了大量手动汇总与统计工作时间。
- 整体运维流程标准化后,团队协作效率提升约 2 倍,有效支撑公司多部门并行交付需求。
成本优化与系统开发
- 工作内容:
- 分析阿里云资源账单,识别高费用服务项(如ECS、SLB、OSS等),并制定优化策略(如资源合并、实例规格降级、自动关停空闲资源等)。
- 基于标准MVC流程,使用 Python 快速搭建开发上下游环境,集成 Swagger 文档,提升协作与交付效率。
- 基于 GPT 与向量检索(Faiss)构建内部智能客服系统,实现常见问题自动应答与知识库联动。
- Python开发证书告警监控系统,对接钉钉发送通知告警(https://github.com/nangongchengfeng/SecuCert-Monitor)
- Python开发黑猫投诉平台,舆论监控系统(BuzzMonitor)(https://github.com/nangongchengfeng/BuzzMonitor))
- 成果:
- 年化节省阿里云成本约 35 万元,资源利用率提升约 40%,通过策略自动化降低人工排查与干预成本。
- 开发环境搭建耗时从 5天缩短至 20分钟,问题定位效率提升 3 倍以上。
- 智能客服系统上线后,基础问题自动响应率达 70%+,人工客服重复工作量下降约 30%。
- 证书监控系统稳定运行一年内,预警命中率达 100%,有效避免了 2 起证书过期导致的接口中断事故。
🧩 个人项目与开源贡献
🧑💻 独立开发项目
- filewatch_exporter: 基于 Prometheus 的文件与目录状态监控 Exporter,支持监控文件/目录的存在性、权限、大小、变更时间、文件数量等关键指标,适用于安全审计、配置变更检测等场景。
- heapdump-watcher: 使用 Go 编写的堆转储文件自动化监控工具,可用于线上系统内存泄露排查场景中的自动收集、归档和告警。
- Chat-CodeReview: 基于 ChatGPT 的智能代码审查工具,自动集成 GitLab Merge Request 流程,实现智能代码审计与注释,有效提升团队代码质量与审查效率。
- Python-Flask-Template: 面向快速开发的Flask 项目模板工程,包含标准目录结构、配置分离、Swagger 文档集成,适合作为中小型项目脚手架。
🤝 协助开发与维护
- go-ldap-admin: 协助开发和维护基于 Go + Vue 的 OpenLDAP 管理后台,参与功能优化与前后端交互逻辑增强。
- reference: 参与整理与维护开发者常用 命令、正则、Shell、Git、K8s 等速查清单,为技术社区提供结构化知识参考。
- k8s_PaaS: 参与 Kubernetes 上构建 DevOps 平台的部署过程,协助调优 Helm Charts 与持续交付流程。
项目截图
独自开发系统如下:
证书告警平台