运维重点工作和指导性原则梳理
- 2025-03-03 19:22:00
- 丁国栋
- 原创 132
作为一名运维,我们需要知道我们作为运维人员开展运维工作的一些指导性原则,并且根据这些指导性的原则罗列出作为运维人员需要做的重点工作。
原则是经过长期实践检验并被认可的普遍真理,是指导人们行为和判断的基本准则。它代表了一种经过验证的正确方式,能够帮助人们在特定领域做出合理的选择和决策。
一般原则等效于原则,指导性原则是指在特定领域或活动中,为实现目标而制定的具体准则。它比一般原则更具针对性和操作性,直接指导具体工作或行动的开展。
指导性原则
- 线上服务必须考虑用户体验,减少和避免不必要的产品和功能性错误暴露给用户;
- 系统支持水平扩展,保证性能;
重点工作
- 保障线上和办公环境的稳定运行;
- 通过监控告警手段,及时发现问题,确保系统运行状态可以实时监控和追踪;
- 建立完善的日志收集和分析系统,实现关键指标的可视化展示和快速查询;
- 实现部署、配置的自动化,减少人工的操作,建立标准化的运维交付流程;
- 主动识别和解决潜在问题,对系统定期健康检查,做好容量规划,预防故障发生;
- 实施标准化的环境配置,建立统一的技术规范,支持幂等操作,允许重复执行等;
- 做好备份,做到快速恢复;
- 保持系统更新和安全补丁,控制访问权限,确保系统安全;
- 及时编写和更新运维文档,对变更和故障处理做好记录,共享和传承知识;
- 定期评估运维流程,收集和分析用户反馈,持续改进,推动技术和流程优化;
- 合理规划资源使用,及时回收资源,优化运维成本,注意投入产出比;
- 和其他团队保持紧密沟通,做好跨部门协作,分享运维经验;
工作目标和关键结果
- 最大化的利用(服务器等)资源和降低运维成本
- 持续优化云服务商提供的服务
- 旧版本的系统升级或迁移到新服务器节省费用
- 系统架构更加合理化
- 保障关键业务和基础设施可用性维持在客户接受水平
- 监控报警系统覆盖性达到标准要求
- 提高数据安全性和可靠性,提前预判问题的发生,防止问题上门
- 提供较好的系统性能
- 运维水准、服务水平达到业界领先标准,并能对外输出
- 运维自动化、测试部署能最大程度地自动化
- 运维管理持续性改进,达到可跟踪
- 实现DevOps这一终极目标
- 确保线上关键业务系统稳定
- 每一期迭代未完成任务数、bug数不多于3个
- 线上相关问题在10分钟内响应2小时内解决
- 确保数据有备份服务可恢复性能有保障
- 按照公司规划实现关键业务系统的备份、恢复
- 盘点所有公司关键业务服务创建方便查询和记录的CMDB
- 做好公司的运维和支持工作
- 复杂的运维工作100%使用文档做好记录
- 服务好客户和满足技术支持的同事们的需求
- 对当前正在使用的各项服务持续优化改进
--
发表评论