前有Gitlab删库,后有AWS误删服务器,乌龙频发我们该如何防范?

  • 时间:
  • 浏览:0
  • 来源:下载大发快三彩票代理—大发快三直播

操作执行的严格度对应所产生行为的后果的重要度

把各种操作行为及命令分成不同的级别

1级行为或命令,负责人1人处理

2级行为或命令,处负责人外,上加所以监督员确认后再执行

3级,再增加团队主管

4级,部门主管

5级,更高级别

以此类推

传说中的打错所以字母瘫痪半个互联网!

愿意处理误操作。首先应该确保工作人员的休息时间。国内互联网崇尚加班,容易让开发人员疲劳工作。对于开车,亲戚亲戚亲戚亲戚朋友知道也能疲劳驾驶,操作服务器也是一样的。此外,亲戚亲戚亲戚亲戚朋友还要有些手段,来提醒相关的人员,亲戚亲戚亲戚亲戚朋友的服务器不为什要,比如生产环境的shell使用红色,开发环境使用黄色,测试环境使用绿色等等,不同的颜色都还要让亲戚亲戚亲戚亲戚朋友的维护人员提高警惕。也要注意,对于有些操作,尽如果的选取由机器完成,而也人们工完成,降低人员出错的如果。

减少非必要错误的操作。减少操作出错的如果性,管理好服务器用户的权限,处理操作失误引起数据丢失

采用raid磁盘阵列存储系统来进行相应的存储工作。采用raid磁盘阵列存储都还要减少相关问提产生,加强服务器的磁盘容错功能。即便处于服务器瘫痪、自然灾害等极为恶劣的情况报告下,倘若硬盘依然健在,没法,就都还要第一时间恢复其正常操作。

建立第二机制,所有操作也能对第一序列有效。第二序列与第一序列共用控制机制,但只具有次时效的记忆。第一序列失败,控制机制解除对第一序列的控制,控制第二序列,

bearyes 已获得淘公仔 克隆qq好友好友链接去分享

我干过类事的……shell脚本修改权限,传值没获取到,原因分析整个服务器所有文件都变成0777权限……

人们说,当然!但也人们质疑,多重备份就安全什么如果?就算所有的备份都可用,所以可处理地会有数据的丢失,或是也会有所以有问提。

从来不赞同线上模式敲代码,这删剪所以不负责任。记得学git的如果看见过一句话,没法提交的代码,也有白敲的。随时备份,以及代码审核是真的好习惯!

任何事情都没法十全十美的 鱼和熊掌不可兼得 实时更新bug当然还要线上操作 主要还是应该分情况报告而定吧

keller.zhou 已获得淘公仔 克隆qq好友好友链接去分享

1.思路类事大楼备用发电机,整栋停电的如果备用发电机接管来提供必要的电力,不致于造成恐慌,在这一 case场景下,即使线上命令删除一大批核心服务器,也应有响应的备份服务器接管,有些这批资源正常运维权限下不可被删除,以确保再次总出 误操作的如果服务不至于彻底挂掉。

shizeqing 克隆qq好友好友链接去分享

小柒2012 克隆qq好友好友链接去分享

1953688799298128 克隆qq好友好友链接去分享

理由如下:

应该还要审核机制,当执行命令输入复审下。

把还要删除的数据移动到某个特定文件夹下,计划任务定时清理这一 文件夹

也有马后炮,装叉犯,删了就删了嘛,多大点事情,谁无需犯点错。还煞有介事地在这里说些不着调的法律方式。

我把etc拖走了 livecd进去修了一下午

1012988794233826 克隆qq好友好友链接去分享

绝世傲立 已获得定制笔记本 克隆qq好友好友链接去分享

寒心 克隆qq好友好友链接去分享

cnssr4bb1t 克隆qq好友好友链接去分享

2.线上运维操作的如果设计影响系统黑名单。系统难以知道运维人员是也有真的要进行相应操作,还是打错字母误操作,有些针对有些系统的更改在日常运维权限下一定是不可接受的,如本次故障中被影响的核心系统Index和Placement,系统检查到命令会影响相应黑名单中系统应拒绝当前命令执行。

为嘛哪几种大公司 不做 多重备份以及实时备份,如果有难度?

似水的悠悠流年 已获得淘公仔 克隆qq好友好友链接去分享

要处理错误操作所造成的数据丢失和服务器故障,首先加强权限的管理,要想处理数据丢失所造成的损失,每天也有对重要的数据进行必要的数据备份。处理数据库故障引起的数据丢失。将数据库存储在单独的服务器中,处理应用服务器故障引起的数据丢失。

改进亲戚亲戚亲戚亲戚朋友的灾备机制,并在主机上凸显出数据恢复的作用。所以有,亲戚亲戚亲戚亲戚朋友没法来越多会从“阻止工程师在生产主机上运行某个命令“这一 淬硬层 来实现安全。如果,即使亲戚亲戚亲戚亲戚朋友把禁用rm命令,要是 能是阻止工程师没法来越多犯运行 rm -rf /important-data 命令的错误,有些这一 法律方式没法来越多能阻止诸如磁盘损坏,如果有些如果原因分析数据丢失的情况报告处于。

没法,这一 应用程序猿打错命令有没法责任?肯定有。有些,在处理淬硬层 可靠的云服务时,每一次操作都应该按照严格的应用程序,每所以命令也有经过足够的审核。除非这一 应用程序员在操作过程中如果偷懒省略了有些必要的步骤,有些,这次事故更多是系统的责任,如果系统没法足够的机制来处理错误的处于。人,也有会犯错的,也能机器无需。

始终随便说说操作再次总出 了差错如果就使流程复杂化化、投入更多人力这一 行为是比较蠢的,比如找所以人在旁边看着,所以人double check

授权也严重不足,如果授权了代表我同意这次操作,有些我无法监管到这次操作的正确性,所以有对于这一 所以命令改变未来的指令如果少进行,如果增加这一 操作的流程,同去再执行命令中要得到更淬硬层 次的审核

vling 克隆qq好友好友链接去分享

西秦说云 已获得王坚新著《在线》 克隆qq好友好友链接去分享

定制笔记本 x 1

让所以人去审核,看上去都还要处理有些错误,有些自己总会犯错误的,有些让职位更高级别的人来审核,他不一定知道具体的技术细节,以至于审核到顶端就所以走个过场罢了。

fourmi 克隆qq好友好友链接去分享

应用程序员在线上环境直接敲命令,当在执行时还要另外所以人授权确认后也能运行,如果机器识别出来是危险的指令都会有警告,所以一句话都还要减少类事事故的处于。多重备份随便说说好,有些它也所以一段时间执行备份,2次备份顶端会有一定的时间间隔,如果恢复到最近的所以备份点,没法备份点到事故处于的数据没法了,也会造成一定的损失。

ghost-ai 克隆qq好友好友链接去分享

亲戚亲戚亲戚亲戚朋友先来回顾一下3月2日事件

3月2日AWS声称,输错命令原因分析了亚马逊网络服务(AWS)再次总出 持续数小时的故障事件。

故障原因分析:亚马逊简单存储服务(S3)团队当时在调试所以问提,该问提原因分析S3计费系统的处理速率单位单位 比预期来得慢。太平洋标准时(PST)上午9:37,一名获得授权的S3团队成员使用如果编写的playbook,执行一根命令,该命令旨在为S3计费流程使用的其中所以S3子系统删除大量服务器。遗憾的是,输入命令时输错了所以字母,结果删除了一大批本不该删除的服务器。

线上运维操作的如果设计影响系统黑名单。系统难以知道运维人员是也有真的要进行相应操作,还是打错字母误操作,有些针对有些系统的更改在日常运维权限下一定是不可接受的,如本次故障中被影响的核心系统Index和Placement,系统检查到命令会影响相应黑名单中系统应拒绝当前命令执行。

处理结果:下午1:54分恢复正常。

王坚新著《在线》 x 1

Windows的删除有个回收站功能,是个不错的法律方式,它也有立即删除,有些恢复又快,不知算是都还要借鉴一下?

让机器去判断,有些机器为什会么会知道你是真的要去删哪几种服务器,还是打错字母了呢?

秋水鸣蛙 克隆qq好友好友链接去分享

浮生递归 克隆qq好友好友链接去分享

杨周 克隆qq好友好友链接去分享

比如:

应用程序员算是应该在线上环境直接敲命令?

人们说,都还要,有些干所以的事情时,得所以人干,所以人在旁边看着。

其一,如果说对代码的改动也有一次发布一句话,没法,对生产环境的任何改动(包括硬件、操作系统、网络、软件配置……),也都算是一次发布。没法所以的发布就应该走发布系统和发布流程,要被很好的测试、上线和回滚计划。

关键是,走发布过程是都还要被记录、追踪和回溯的,而在线上敲命令是删剪无法追踪的。没法知道你敲了哪几种命令。

其二,真正良性的运维能力是——人管代码,代码管机器,而也人们管机器。你敲了哪几种命令没法知道,但那个她 写个工具做变更线上系统,这一 工具干了哪几种事,看看工具的源码就知道了。

瓜跑跑丶 克隆qq好友好友链接去分享

一个劲 以来,我都随便说说直接到生产线上敲命令是这一非常不好的习惯。我认为,所以公司的运维能力的强弱和你上线上环境敲命令是有关的,你越是喜欢上线敲命令你的运维能力就越弱,越是通过自动化来处理问提,你的运维能力就越强。

淘公仔 x 3

1461587759184916 克隆qq好友好友链接去分享

是人总会犯错,也能机器无需。没法低级的失误原因分析没法严重后果充分暴露了大公司执行工作应用程序漏洞,这哥们惨了……

1892988267967496 克隆qq好友好友链接去分享

算是应该做好多重备份?

这一 倒霉的应用程序员会被开除吗?

亲戚亲戚亲戚亲戚朋友认为理想的环境,应该是那种即使你犯了错误删了数据,也能轻易恢复,并保证对系统影响最小的环境。这就要求我想日常执行有些流程,有些要容易测试,容易回滚。