关于

cka

关于作者

昵称: 南宫乘风

工作年限: 5年

博客大屏: https://dash.ownit.top/

获的证书: CKA , CKS

性格: 热爱学习,喜欢挑战自我并追求自己的兴趣,有清晰的规划

座右铭: 未来的你,会感谢今天仍在努力奋斗的你

岗位: 运维开发工程师

技能: 擅长 Linux,Kubernetes,Python(Flask),监控(Prometheus)及自动化技术(Ansbile)

研究方向: 专注于 Kubernetes,AI (Prompt), GO,Istio,云原生 和 Vue

目标: 成为一名优秀的DEVOPS工程师

联系我: 1794748404@qq.com

持续输出 DevOps 运维实战博客 400+ 篇,总访问量 100w+、粉丝数 1w+,具备良好行业影响力与知识传播能力。

经历

前期成长

问: 为什么要记录学校期间的经历?

解: 因为正是这些学习和实践,才让我走上了运维的道路。这段宝贵的经历对我意义重大,我对此深表感激。

学校期间

  • 自学Shell和Linux操作:通过自学掌握了Shell脚本编写和Linux操作系统管理的基本技能,积极参与在线社区交流,解答问题并分享经验,不仅提升了自己的技术水平,还为社区其他成员提供了帮助和支持。
  • 学校网站建设与维护
    • 责任:负责学校网站的建设和日常维护工作。
    • 措施:
      • 通过使用防火墙和代码审查等技术和工具,确保Web服务器的安全性。
      • 制定并完善了网站的备份和灾难恢复计划,确保数据安全和恢复能力。
    • 成果:
      • 网站运行稳定,未发生重大安全事故。
      • 数据安全得到保障,即使在突发事件中也能迅速恢复,减少了对学校日常运作的影响。
  • 协助管理机房服务器
    • 责任:参与机房服务器的管理工作。
    • 措施:
      • 负责安装和配置服务器操作系统和各类服务软件。
      • 配置网络和防火墙,确保服务器的安全和网络稳定。
    • 成果:
      • 服务器系统运行高效,服务软件配置合理。
      • 机房网络稳定,服务器安全性得到了提升,有效防止了潜在的安全威胁。

工作经历

First: 售票系统

岗位: Linux运维工程师

工作内容

1、 负责项目软件安装及系统部署工作,编写对应的实施文档

2、 制定数据库备份方案,灾难出现时对数据库进行恢复。

3、 负责部署和管理监控系统环境,自定义脚本监控,实现监控报警功能

4、 负责公司线上环境管理工作,包括平台的实施部署和维护,代码更新,告警修复等操作。

5、 负责公司 web(Nginx、Apache、Tomcat)项目、数据库服务器的日常维护,程序版本更新。

6、 编写日常维护巡检 Shell /python 脚本获取每日服务信息邮件推送进行汇报;

负责异地组网和 VPN 技术构建与维护

案例:Openvpn企业级使用方案

  • 项目描述

    公司服务器和客户服务器分布于多个网段与地域,缺乏统一管理渠道且部分业务需跨地域互通。因公网 IP 数量有限,且部分数据对传输安全要求高,需搭建加密、安全的内网通信方案。

  • 工作内容

    • 主导企业级 OpenVPN 架构设计与部署,实现异地服务器组网与加密通信。
    • 设计服务器网段与路由规则,编写自动化脚本完成用户创建与数据备份,防止配置丢失。
    • 部署 JumpServer 作为堡垒机,细化账号权限管理、操作审计与数据库定期备份。
    • 多轮测试验证后上线正式环境,并负责后续运维支持。
  • 成果

    • 实现覆盖 1000+ 台服务器的稳定组网通信,数据安全加密传输,零中断部署
    • 自动化脚本减少 90% 以上手动配置工作量,VPN 用户维护效率提升 3 倍以上
    • JumpServer 审计日志准确率 100%,大幅降低安全风险,符合等保审计要求。
其余项目
  • 工作内容
    • 重构备份体系,使用 rsync + Shell 脚本实现增量备份、打包、MD5 校验与异常报警,迁移方案至正式生产环境 (架构图
    • 全面优化 Zabbix 监控系统,包括模板、触发器逻辑、性能监控、图像呈现与多维告警链路搭建。 (项目优化
  • 成果
    • 实现 100% 自动化备份流程,客户数据备份日均处理数据超 1000GB+,并通过 MD5 校验 + 邮件预警将备份失败响应时间从 >1 小时缩短至 5 分钟内
    • 优化监控模板后,误报率降低 80%,触发器灵敏度提升,监控覆盖核心服务及中间件(如 Nginx、Redis、MySQL)。

Second: 维护上千台Linux系统

岗位: 自动化运维工程师

工作内容

1、负责维护 上千台 生产环境服务器的操作系统(实现ansible自动化管理)

2、根据业务需求编写shell和Python脚本,处理问题

3、增加集群prometheus监控,实现各方位的监控,从硬件,操作系统,到业务等

4、负责运维项目开发, 自动化脚本编写(编写Django告警接口对接alertmanager,Gin开发邮件告警服务,优化邮件接口,接入数据库,实现故障汇中和分析。)

5、分析报错日志,定位问题和解决问题

6、docker的构建,上传 和扫描 等维护

7、负责部分业务上线,业务环境测试到生产

8、负责维护Kubernetes业务,构建持续交付,更新和发版

上千台服务器监控告警系统搭建开发
  • 项目描述

    随着公司服务器规模扩大至上千台,需建立一套统一的高可用监控系统,实现全面指标采集、实时告警分发、数据长期存储与可视化分析。

  • 工作内容

    1. 监控告警集群配置
      • 搭建 Prometheus + Alertmanager + Consul + Grafana 集群,使用 Ansible 批量部署 Node Exporter 并注册至 Consul,实现服务自动发现。
      • 构建基于 Django 的告警平台,对接 Alertmanager,将告警信息按严重等级分类路由至不同钉钉群组,实现多维告警联动响应。 (Django告警项目
    2. 指标数据持久化存储
      • 筛选关键指标,丢弃无效数据以减小冗余负载。
      • 使用 Go 插件 prometheus-postgresql-adapter 将数据写入 PostgreSQL,支持**90 天+**历史监控数据查询和可视化。
    3. 监控数据可视化
      • 配置 Grafana 展示核心业务服务的监控数据与 SLA 指标,设定多角色访问权限及分层看板(业务层、基础设施层等)。
  • 成果

  • 成功覆盖 1000+ 台服务器与 50+ 应用服务的实时监控与告警体系,系统稳定性提升至 99.99%

  • 告警响应平均时间从 15 分钟缩短至 2 分钟内,重大故障预警命中率提升 85%+

  • 基于 Ansible 的客户端自动化部署,部署时间从 3 小时缩短至 15 分钟内,部署出错率趋近于 0。

  • 告警平台上线后,运维团队人工告警分发工作量减少 95%,实现闭环处理与状态跟踪闭环管理。

MHA数据架构优化

案例:MHA高可用方案

  • 项目描述

原有 MySQL 主从复制架构存在主库负载高、读写不均衡、主库宕机无自动切换等问题。通过部署 MHA 实现数据库故障自动切换,并配合 Atlas 实现读写分离,从根本上提升业务连续性与数据库性能。

  • 工作内容: - 构建一主两从架构,配置 SSH 免密认证及节点连通性验证。
    • 部署 MHA 管理节点,编写 Shell 脚本自动检测 repl 状态、SSH 连接、MySQL 运行状态。
    • 配置自动主从切换及邮件通知(send_report),并通过 Zabbix 监控主从延迟与健康状态。
  • 成果
    • 实现数据库故障自动切换,RTO 缩短至 <30 秒,避免主库宕机造成业务中断。
    • 实施读写分离后,主库 CPU 利用率下降 约 50%,平均查询响应时间优化 40%+
    • Zabbix + 邮件联动告警系统提升了异常响应效率 3 倍,提高整体系统可维护性与安全性
其余项目
  • 工作内容
    • 构建网站高可用集群,采用 Keepalived + Nginx + MySQL + Redis + NFS + Web 多层架构,支持流量负载均衡、自动故障转移与数据高可用。 架构具备水平扩展能力,支持业务增长和敏捷交付。 (项目架构图
    • 规划并上线企业级日志采集系统,覆盖 1000+ 台服务器,采集系统日志与应用日志,统一接入 Elasticsearch 集群进行存储、索引和检索。
    • 编写 Ansible Playbook,实现 SSH 安全加固、系统补丁下发、批量脚本执行与服务自动扩缩容。
  • 成果
    • 整体系统可用性提升至 99.99%,支持日均访问量 百万级流量稳定运行。 高可用机制下,单点组件宕机不影响业务访问,切换时间 <10 秒。
    • 实现分钟级日志采集与检索,平均问题定位效率提升 70%+,支持安全审计与故障回溯。
    • Ansible 脚本自动化部署覆盖率达 95%,服务器维护时间缩短 60%+,人力成本大幅降低。

Third:五百强的子公司

岗位: 运维开发工程师

Kubernetes 集群管理与运维
  • 工作内容
    • 负责生产环境 Kubernetes 集群的搭建、维护与日常运维,覆盖多业务线系统,确保容器化平台稳定运行。
    • 熟练掌握 Kubernetes 集群架构设计(高可用、存储、网络、安全等),并制定标准部署方案和故障处理流程。
    • 持有 CNCF 官方认证的 **CKA(Kubernetes 管理员)CKS(安全专家)**证书,持续跟进云原生领域前沿实践与安全标准。
  • 成果
    • 成功支撑 10+ 核心业务系统从传统架构平滑迁移至 Kubernetes,实现 0 中断上线
    • 构建自动诊断与告警体系,平均 故障定位时间从 40 分钟缩短至 10分钟,高优事件响应效率提升 4 倍
    • 优化容器资源分配策略,CPU 利用率提升约 30%节点资源浪费减少 40%
自动化发布与工作流程优化
  • 工作内容
    • 维护并优化 GitLab + Jenkins + Ansible 的自动化发布流水线,编写标准化发布脚本,确保部署流程安全高效。
    • 集成发布后自动巡检、系统告警、日志采集入库等流程,提升系统可观测性和问题响应能力。
    • 开发钉钉 OA 工单信息收集与分析系统,自动分类与统计日常运维/开发工单,支持工作量量化考核与资源分配优化。
  • 成果
    • 自动化发布流程覆盖 95% 以上业务服务平均发布耗时减少 70%,人力依赖显著下降。
    • 实现每日自动巡检 + 实时告警机制后,故障发现平均提前 20 分钟,服务稳定性明显提升。
    • 钉钉工单系统月均处理信息量超 3000 条,分类准确率达 98%+,为团队节省了大量手动汇总与统计工作时间。
    • 整体运维流程标准化后,团队协作效率提升约 2 倍,有效支撑公司多部门并行交付需求。
成本优化与系统开发
  • 工作内容
    • 分析阿里云资源账单,识别高费用服务项(如ECS、SLB、OSS等),并制定优化策略(如资源合并、实例规格降级、自动关停空闲资源等)。
    • 基于标准MVC流程,使用 Python 快速搭建开发上下游环境,集成 Swagger 文档,提升协作与交付效率。
    • 基于 GPT 与向量检索(Faiss)构建内部智能客服系统,实现常见问题自动应答与知识库联动。
    • Python开发证书告警监控系统,对接钉钉发送通知告警(https://github.com/nangongchengfeng/SecuCert-Monitor
    • Python开发黑猫投诉平台,舆论监控系统(BuzzMonitor)(https://github.com/nangongchengfeng/BuzzMonitor))
  • 成果
    • 年化节省阿里云成本约 35 万元,资源利用率提升约 40%,通过策略自动化降低人工排查与干预成本。
    • 开发环境搭建耗时从 5天缩短至 20分钟,问题定位效率提升 3 倍以上。
    • 智能客服系统上线后,基础问题自动响应率达 70%+,人工客服重复工作量下降约 30%。
    • 证书监控系统稳定运行一年内,预警命中率达 100%,有效避免了 2 起证书过期导致的接口中断事故

🧩 个人项目与开源贡献

🧑‍💻 独立开发项目

  • filewatch_exporter: 基于 Prometheus 的文件与目录状态监控 Exporter,支持监控文件/目录的存在性、权限、大小、变更时间、文件数量等关键指标,适用于安全审计、配置变更检测等场景。
  • heapdump-watcher: 使用 Go 编写的堆转储文件自动化监控工具,可用于线上系统内存泄露排查场景中的自动收集、归档和告警。
  • Chat-CodeReview: 基于 ChatGPT 的智能代码审查工具,自动集成 GitLab Merge Request 流程,实现智能代码审计与注释,有效提升团队代码质量与审查效率。
  • Python-Flask-Template: 面向快速开发的Flask 项目模板工程,包含标准目录结构、配置分离、Swagger 文档集成,适合作为中小型项目脚手架。

🤝 协助开发与维护

  • go-ldap-admin: 协助开发和维护基于 Go + Vue 的 OpenLDAP 管理后台,参与功能优化与前后端交互逻辑增强。
  • reference: 参与整理与维护开发者常用 命令、正则、Shell、Git、K8s 等速查清单,为技术社区提供结构化知识参考。
  • k8s_PaaS: 参与 Kubernetes 上构建 DevOps 平台的部署过程,协助调优 Helm Charts 与持续交付流程。

项目截图

独自开发系统如下:

cka

cks

cks

cks

cka

cks

cks

证书告警平台

cka

cks

证书截图

cka

cks

未来的你,会感谢今天仍在努力奋斗的你