#星空云诊所#:云诊所-生产环境部署不规范管理可能酿成重大事故
大家都知道生产环境很重要,但是你知道如果生产环境不严格规范管理,会造成什么后果吗?你知道部署不规范还会造成重大事故吗?其实很多重大事故往往都是部署规范或者某些管理不规范造成的,下面就分享一个因为现场项目管理不规范和部署不规范酿成重大事故的案例,希望其他项目参考和学习。
(一) 项目背景
(1) 客户购买了金蝶云星空供应链、财务、生产制造及另外一家供应商的资金支付、费用报销、司库管理模块,另外一家供应商的凭证需要统一同步到金蝶云星空制证,付款时金蝶需要将付款单推送到另外一家供应商进行支付。
(2) 该项目由多家实施伙伴及一家开发伙伴进行交付,仅财务模块有分公司自己的实施人员交付
(3) 开发伙伴使用了自己的集成开发平台工具来集中处理另外一家财务软件系统与星空系统的集成,实现方式是集成平台定期去抓星空ERP系统的数据或者定期通过接口调用另外一家财务系统供应商的数据,然后形成定时任务,定期推送到对方的系统,该集成平台可以配置需要集成同步数据系统的双方系统的地址
(二) 事故描述:
2023.6.5,距离该项目上线差不多3个月,由于现场开发人员部署的问题,造成星空测试环境的14笔付款单同步到另外一家财务软件的生产环境,其中有一笔1万左右测试付款单由客户会计人员支付给供应商了,供应商打电话咨询才发现是出了支付安全事故
(三) 事故原因调查
• 集成平台测试环境和生产环境只部署了一台,通过集成平台的源系统地址和目标系统地址来进行集成,事故发生是因为一开发人员在部署时将刚在测试环境测试完成后,在集成平台将测试环境地址改为生产环境,让生产环境可以进行同步,但由于测试环境的数据还在任务池中等待同步,当同步时目标系统地址后,任务池中需要同步时则将任务池的数据同步到了另外一家财务软件的生产环境,但由于这些待支付的数据,支付时不用单独再走流程,也没识别出是测试数据,因此进行了支付,造成了事故。
• 未通过规范的开发环境à测试环境àUAT环境à 生产环境的规范部署
• 现场没有一套完整的规范部署流程
(四) 风险点排查思路
1. 部署方面风险的排查
• 是否有通过UAT测试才部署生产环境
• 部署前是否有做好相应的备份
• 是否有部署规范性文档
2. 环境管理方面风险的排查
• 开发环境、测试环境、UAT环境、生产环境是否有分开
• 是否有专门的部署负责人、管理员
3. 业务功能方面的风险排查
• 集成时是否有遗漏的基础资料同步
• 基础资料同步时是否保证新增、修改、禁用、删除等状态下的同步
• 同步策略是否符合业务要求
• 同步是否考虑逆向操作的一些场景
• 整体业务规划上是否存在缺陷
• 基础资料维护是否只一个入口,保证数出一源
4. 规范管理的风险排查
• 是否使用协同开发平台统一管理
• 开发和补丁部署等过程管理是否规范
(五) 解决方案和举措
1) 部署解决方案
2) 系统环境解决方案
3) 系统功能排查
4) 规范管理排查
(六) 整改后效果
1. 所有开发、测试、生产环境全部做分离
2. 开发环境对接开发环境,测试环境对接测试环境,生产环境对接生产环境,禁止任何测试环境直接对接生产环境
3. 全项目组统一使用协同开发平台,部署统一通过二开补丁部署包进行部署,集成测试环境通过后经过UAT测试后方可进入生产环境
4. 文件服务器从原来应用服务器分离,单独的文件服务器管理
5. 集成测试平台在开发、测试环境、生产环境分别对立部署单独的环境,不再通过集成平台通过切换来进行集成
6. 生产环境由客户方系统管理员统一管理,实施人员的权限每个团队1个人拥有权限,并且收回新增、删除和修改权限
7. 资金集成模块根据总部的方案进行严格的控制,保证资金安全
8. 整改后到现在,整体运行良好,再没出现过因为环境部署及环境管理出现错误资金支付的问题,生产环境变得稳定
(七) 总结
任何关系到与资金、钱有关系的问题看都需要特别小心,不管是规范管理上、部署上、环境规划上都必须要严格控制风险,并作为项目的头等大事来抓,否则出事就是大事,严重一点就会酿造成事故,必须从源头抓起,从而保证项目的质量.
学习了
#星空云诊所#:云诊所-生产环境部署不规范管理可能酿成重大事故
本文2024-09-16 18:13:26发表“云星空知识”栏目。
本文链接:https://wenku.my7c.com/article/kingdee-k3cloud-20750.html