运维重点工作和指导性原则梳理

2025-03-03 19:22:00
丁国栋
原创 132
摘要:本文整理和记录运维的重点工作和指导性原则。

作为一名运维,我们需要知道我们作为运维人员开展运维工作的一些指导性原则,并且根据这些指导性的原则罗列出作为运维人员需要做的重点工作。

原则是经过长期实践检验并被认可的普遍真理,是指导人们行为和判断的基本准则。它代表了一种经过验证的正确方式,能够帮助人们在特定领域做出合理的选择和决策。

一般原则等效于原则,指导性原则是指在特定领域或活动中,为实现目标而制定的具体准则。它比一般原则更具针对性和操作性,直接指导具体工作或行动的开展。

指导性原则

  1. 线上服务必须考虑用户体验,减少和避免不必要的产品和功能性错误暴露给用户;
  2. 系统支持水平扩展,保证性能;

重点工作

  1. 保障线上和办公环境的稳定运行;
  2. 通过监控告警手段,及时发现问题,确保系统运行状态可以实时监控和追踪;
  3. 建立完善的日志收集和分析系统,实现关键指标的可视化展示和快速查询;
  4. 实现部署、配置的自动化,减少人工的操作,建立标准化的运维交付流程;
  5. 主动识别和解决潜在问题,对系统定期健康检查,做好容量规划,预防故障发生;
  6. 实施标准化的环境配置,建立统一的技术规范,支持幂等操作,允许重复执行等;
  7. 做好备份,做到快速恢复;
  8. 保持系统更新和安全补丁,控制访问权限,确保系统安全;
  9. 及时编写和更新运维文档,对变更和故障处理做好记录,共享和传承知识;
  10. 定期评估运维流程,收集和分析用户反馈,持续改进,推动技术和流程优化;
  11. 合理规划资源使用,及时回收资源,优化运维成本,注意投入产出比;
  12. 和其他团队保持紧密沟通,做好跨部门协作,分享运维经验;


工作目标和关键结果

  1. 最大化的利用(服务器等)资源和降低运维成本
    1. 持续优化云服务商提供的服务
    2. 旧版本的系统升级或迁移到新服务器节省费用
    3. 系统架构更加合理化
  2. 保障关键业务和基础设施可用性维持在客户接受水平
    1. 监控报警系统覆盖性达到标准要求
    2. 提高数据安全性和可靠性,提前预判问题的发生,防止问题上门
    3. 提供较好的系统性能
  3. 运维水准、服务水平达到业界领先标准,并能对外输出
    1. 运维自动化、测试部署能最大程度地自动化
    2. 运维管理持续性改进,达到可跟踪
    3. 实现DevOps这一终极目标
  4. 确保线上关键业务系统稳定
    1. 每一期迭代未完成任务数、bug数不多于3个
    2. 线上相关问题在10分钟内响应2小时内解决
  5. 确保数据有备份服务可恢复性能有保障
    1. 按照公司规划实现关键业务系统的备份、恢复
    2. 盘点所有公司关键业务服务创建方便查询和记录的CMDB
  6. 做好公司的运维和支持工作
    1. 复杂的运维工作100%使用文档做好记录
    2. 服务好客户和满足技术支持的同事们的需求
    3. 对当前正在使用的各项服务持续优化改进

--



发表评论
博客分类