2025년 05월 01일

@VERO
Created Date · 2025년 05월 01일 11:05
Last Updated Date · 2025년 05월 01일 12:05

LOG

  • 조금 진정되고 적는 첫 incident 의 기록
    • 내가 배포한 피쳐에서 모든 리전의 CPU utilization 이 100% 까지 상승하는 문제가 발생했다. 사실 본격적으로 배포를 시작하기 전 날에 가장 트래픽이 낮은 서비스에 미리 배포를 해봤었고, 나는 그때 매니저에게 CPU utilization 이 높아진 것 같은데 괜찮냐고 물어봤었다. 그렇지만 매니저는 괜찮다고 했었음 ㅋㅋㅋ
    • 결국 당일 배포를 시작했고, 배포 직후부터 미친듯이 CPU utilization 이 치솟기 시작했다. 온콜이었던 아만과 내 버디인 산토쉬, 매니저가 바로 incident call 에 들어오라고 했다. 솔직히 그때 당시에는 진짜 좀 슬펐음…ㅋㅋㅋㅋ 예전에 내가 뭔가 기능 수정을 했을 때도 incident 가 날 뻔했었어서. 내가 뭐 건드리기만 하면 incident 나나 싶어서 좀 울적했다.
    • 다행히 그렇게 큰 문제는 아니었지만, 특정 토픽의 카프카 컨슈머를 비활성화해야 했다. incident 해결은 한 2시간-3시간 만에 된 것 같다. 꽤 빠른 편임.
    • 근데 그때 갑자기 그런 생각이 들었다. “이거 진짜 내가 잘못한 게 맞나?” 내가 막무가내로 머지한 것도 아니고, 시니어 리뷰까지 받고 머지했었고, 나는 전 날에 문제가 있을 수 있다고 매니저한테도 말했었고. 그렇게 생각하다보니 내가 그렇게 크게 잘못한 건 아닐지도?ㅋㅋㅋ 라고 정신승리했다. 그래서 내 멘탈이 막 흔들리고 이런 건 아니었고 좀 미안하다 이런 정도로 끝난 것 같다.
    • 그러고 문제 수습하려고 그 날 문제가 되었던 로직 제거하고 다시 배포했다. 매니저가 좀 불안했는지 오피스에서 자기 옆에서 같이 배포하자고 했다 ㅋㅋㅋ 난 오히려 좋았다. 매니저가 배포하면서 이것저것 알려주고 해서 알게 된 것도 많았다.
    • incident 가 발생한 날에 매니저가 나를 슬랙 채널에 태그해서 오늘 incident 난 거에 대해서 commitment 를 보여줘서 고맙다고 했다. 우리는 실수로부터 배우기 때문에 괜찮다고. 거기서 좀 위로를 받은 것 같다.
    • 그 피쳐가 어쨌든 릴리즈가 되어야 하는 피쳐라서, 이제 시간이 그렇게 많이 들지는 않도록 인덱스를 만들었다. 내일 배포를 하기 위해 내 매니저가 어제 밤에 모든 리전에 인덱스도 만들어줬다. 이제 내일 문제 없이 배포만 되면 된다. 할 수 있는 건 기도 밖에 없음 ㅋㅋ

배운 것

  • 인덱스에 조건이 걸릴 수도 있다 ㅋㅋ;; 특정 조건에서만 인덱스가 활성화되는 경우도 있구나 싶었다.

느낀 것

  • 오히려 이번 incident 를 저지르고 나서 이제서야 우리가 팀으로 일하고 있구나 라는 게 실감이 됐다. 내가 저질렀지만 책임은 팀이 지고, 아마도 다른 팀원이 이런 실수를 하더라도 책임은 팀에게 있는 것이다. 이번 incident 로 느낀 게 많아서 좀 뿌듯했다.
  • Approve 를 한 명한테서만 받아도 머지할 수 있는 지금 시스템이 문제인 것 같기도 하다. 개인적으로는 최소 2명은 필요하다고 생각한다. 다른 팀원들이 코드 리뷰에 조금 더 시간을 많이 쏟아야 하지 않나라는 생각도 든다.