본문 바로가기

Why

IT 운영 현대화가 필요한 이유와 대응 방안

안녕하세요? IT운영 현대화 라는 주제로 포스팅을 시작해 볼까 합니다.

저는 작년 초에 A금융사의 IT운영 현대화에 대한 과제에 대해 IT 운영 기획을 지원한 적이 있었는데요. 다른 분들도 IT 운영 관리에 대한 현대화에 고민을 하고 계신 분들께 도움이 되었으면 하여 글을 작성합니다.

일부 데이터는 회사마다 다를 수 있다는 점 참고 해 주세요.  


1. 배경 및 필요성 

1.1 IT기술의 변화 

그동안 지속적으로 차세대 시스템의 기반 기술 구조(Unix to Linux : U2L, PaaS, OSS ) 전환과 애플리케이션 현대화 작업으로 인한 클라우드 네이티브 애플리케이션(MSA) 적용으로 새로운 아키텍처에 대한 가시성 확보가 점점 중요해지고 있으나 현재 IT 모니터링 관리  기술의 노후화(대시보드 UI Adobe Flash 지원 종료 ) 높은 비용의 유지보수 비효율적인 구조로 변화하는 IT 운영 모니터링 관리(ITOM, ITSM 등) 원활하게 대응하지 못하고 있어 사고 발생시 문제 탐지(MTTD) 복구 시간(MTTR) 지체로 영업적 손실을 심각하게 초래할 있습니다. 

 

[참고 예시] 최근 비즈니스 및 시스템 복잡성 증가로 장애인지시간(MTTI) 및 장애복구시간 (MTTR)이 지속적으로 증가 

년도 업무 시스템 장애 원인 MTTI MTTR
2022 디지털 채널 / API 인증서 장애 200 446
2022 디지털 채널 구독시스템 DB암호화 미기동* 1,967 2,199
2021 처리계 배치서버 파일 암호화 미기동* 1 159

* 동일한 암호화 솔루션 미기동이지만 처리계와 디지털 채널의 MTTI 차이 발생

1.2 비대면 서비스 업무 증가

글로벌 팬데믹 대유행 상황으로 디지털 업무 거래의 증가로 긴급 원격 모바일 환경 대응이 중요해 지고 마이데이타 사업(Open API)으로 외부의 다양한 디지털 채널 요청이 증가되고 있습니다. 또한 컨테이너 기반 애플리케이션(MSA) 자동 관리(K8s, IaaC) 대한 실시간 관찰 가능성(Observability) 확보를 위한 새로운 모니터링 접근 방식의 채택이 필요해 졌으며 사용자의 디지털 경험 모니터링(DEM, RUM, EUM) 중요해 . 그러나 현재 IT모니터링 체계는 변경된 환경 자원의 정보와 근원적인 문제 원인 분석(RCA) 많은 시간이 소요되어 서비스 만족도 저하로 고객 이탈과 브랜드 이미지 손상을 초래할 있습니다. 

 

참고 예시) Forbes, Aberdeen Group의 조사 결과 애플리케이션 성능과 비즈니스 영향도

사례 성능 지연 비즈니스 영향도 비고
애플리케이션
페이지 로드
1초 지연 조회수 11% 감소
고객 만족도 16%감소
매출 7% 감소
애버딘 그룹
Amazon 사이트 100 ms 지연 1% 매출 손실  
Google 0.5초 페이지 지연 트래픽 20%감소 (광고 수익율 감소)  
Apple 12시간 가동 중지 회사의 2,500만 달러 비용 소모 2015
Facebook 14시간 성능 다운타임 9천만 달러 비용 감소
2019

* 2019년 팬데믹 이후 디지털 비즈니스 거래량의 증가로 대기 시간과 가용성 부족의 비용이 증가하고 있음

<출처> https://www.forbes.com/sites/rogerdooley/2012/12/04/fast-sites/?sh=5fbada053cf7

1.3 도메인 영역간의 모호해진 경계

대외 서비스 채널 확대와 비즈니스 요건에 대한 서비스 개발을 위해 다양한 영역의 기술 채택으로 Polyglot 개발 환경 도입되고, 서비스 개발과 운영 영역이 모호(DevOps)해져 가고 있습니다. 현재 개별 솔루션 중심의 부분적인 모니터링으로 API 연계 구간의 문제 상황 인지와 대응이 어렵고, 원인 추적과 대응을 위한 담당자간 커뮤니케이션 등의 리드 타임이 증가하고 있습니다. 특정 도메인(애플리케이션, 네트워크, 인프라 ) 구애 받지 않은 통합 관리할 있는 IT 운영 관리 체계 개선이 필요하며 E2E 모니터링 구축을 통한 대외 채널 거래에 대한 실시간 이벤트 감지 환경 구축이 시급합니다.

 

2. 목적 

효과적인 운영관리(ITOM) 도구 고도화로 IT 운영 위험을 완화하고 모니터링 비용을 최적화하기 위해 다음의 목적을 가지고 IT 운영 관리 현대화 추진이 필요합니다.  

2.1 신기술에 대응하는 ITOM 고도화 방안 운영 관리 체계 개선

  • ① IT 운영관리 프로세스 및 관리체계 고도화 관점의 개선 방안 수립
  • ② 기존 시스템 및 신 기술 모니터링 체계 
  • ③ E2E 모니터링 및 IT 운영관리 솔루션 아키텍처 정의 및 로드맵 상세화

2.2 비즈니스 중심의 관찰 가능성(Observability) 확보를 위한 E2E 모니터링 구축

  • ① 다양한 도메인과 기술에 걸친 통합 End to End 모니터링 역량 확보
  • ② 사용자 서비스 관점별 통합 모니터링 및 대시보드 구축으로 디지털 경험 모니터링(DEM) 환경 제공
  • ③ 애플리케이션 성능에 필요한 리소스에 대한 수요 기반의 동적 변화에 대응하는 인프라 자원 모니터링 대상 확대와 자원 최적화 관리

2.3 IT 운영 데이터의 통합 분석을 위한 AI 기반 자동화 설계 단계적 구축

  • ① E2E 모니터링을 위한 로그 통합 적제 환경 구축 
  • ② 여러 도메인의 IT 자산에서 발생하는 IT 데이터(비정형 로그/정형 메트릭 등) 수집 체계 마련으로 장애 발생 시 장애 구간 및 발생 원인을 자동으로 파악
  • ③ 다양한 IT운영 도메인에 디지털 혁신에 대응하기 위해 인공지능 기술을 적용한 AIOps 플랫폼을 구축하고 단계적으로 적용

3. 예상 기대 효과

3.1 MTTR 개선 장애율 감소

E2E 관찰 가능성 확보로 문제 발생 위치와 근본 원인 분석(RCA) 대한 데이터 제공으로 문제 해결 시간(MTTR) 감소하고 AI 기반 이상 징후 사전 탐지로 장애 발생 선제적 대응으로 장애율을 감소할 수 있습니다. 

 

참고 예시) AIOps 도입 사례

금융권 사례 Use Case 효과*
유럽 은행 애플리케이션 구성 요소 오류로 인해 서비스 중단 문제 발생 MTTD 50% 향상
미국 중서부 은행 외부 거래 고객과 파일 전송 시 오류 탐지 MTTD 50% 감소
라틴 아메리칸 은행 스토리지 및 컴퓨팅 오류로 애플리케이션 이슈 탐지 MTTR 70% 향상
덴마크 다국적 은행 중대한 사고 발생 감소를 위한 예방 활동 85% 인시던트 감소

* IBM AIOps Pilot 구축 사례 결과

3.2 통합 모니터링으로 운영 관리 도구 비용 감소

ITOM 도구간의 중복된 기능에 대한 통합과 OSS 솔루션 적용으로 운영 관리 도구의 비용 감소할 수 있습니다. 미션 크리티컬한 시스템이 아닌 경우 목적별 도입된 사일로화된 모니터링 도구를  단일화하면서 비용을 감소할 수 있습니다. 

 

참고 예시) ITOM(IT Operation Monitoring) 현대화 방안 예시

As-Is 필수 기능 기반 솔루션 통합 To-Be
BAM (Business Monitoring) 사용 EUM(End User Monitoring) 통합된 모니터링도구
(EUM*/APM/IQM*/DPM)
APM (Application Performance Monitoring) WAS 성능이벤트, MSA 애플리케이션 모니터링 대상 확대
DPM (Database Performance Monitoring) DB성능 및 이벤트
SMS (Server Monitoring system) H/W, OS 성능, 이벤트

* EUM(End User Monitoring), IQM(Infrastructure Quality Monitoring)

3.3 운영 효율성 확보

디지털 전환 업무 증가로 디지털 IT 관리 자원이 증가 하였고, 이로 인한 기존 운영 인력의 업무 가중과 신기술 습득을 해야 하는 심적 부담이 증가 하고 있습니다. IT운영 관리 솔루션에 AI기반 자동화 기술 적용으로 이런 문제를 도와 줄 수 있습니다.

 

참고 예시) 신규 비즈니스 증가 사용자 관점의 대시보드 제공 작업 예시

구분 As-Is To-Be
구성 방식 - 신규 비즈니스 연관 자원과 모니터링 지표 수동 설정
- 사전 협의된 임계치와 화면 설계를 반영한 대시보드 개별 생성
- 신규 비즈니스 거래 흐름과 연관 자원에 대한 자동 감지
- 이상 유무를 확인할 수 있는 분석 대시보드 자동 생성
작업 기간 - 신규 비즈니스 요건 협의 후 1달 소요 - 개별 사용자 지정 대시보드 실시간 생성
비용 - 신규 비즈니스 대시보드당 유지보수 비용 발생 - 대시보드 구성을 위한 추가 비용 없음
사용자 특정 운영 사용자만 대상
-
인프라 운영 담당자
DevOps 전환에 따른 사용 대상 증가 
- IT
인프라 운영 담당자

- IT 비즈니스 운영 담당자/개발자 

 

4. 향후 방향

새로운 기술 대응을 위한 IT 운영 체계 진단과 고도화 구축을 단계적으로 진행하는 것을 고려하시기 바랍니다. 

단계 모니터링 성숙도 설명
Stage 1 시각화 모니터링
(Descriptive IT)
시각화 및 통계 분석을 통해 가시화
Stage 2 이상 징후 탐지 및 진단 모니터링
(Anomaly Detection and Diagnostics)
자동화된 패턴 검색 및 상관 관계 분석을 통해 근본 원인 분석(RCA) 파악으로 문제 해결 시간(MTTR) 단축을 위한 E2E 모니터링 구축
Stage 3 사전 예방 모니터링
(Proactive Operations)
IT 데이터 분석과 패턴 기반 AI 예측을 통해 사전 예측으로 문제 예방
Stage 4 가동 중단 방지 모니터링
(Avoiding High-Severity Outages)
AI 분석 기술을 사용하여 IT 운영자가 놓칠 수 있는 근본 원인 분석(RCA) 파악하고 자동 조치하는 모니터링 단계(Self-Driving ITOM)

<출처> Four Stages of IT Operations Monitoring (Gartner ID:378587)


참고 자료 : 

 

'Why' 카테고리의 다른 글

옵저버빌리티(Observability)란 무엇인가?  (0) 2023.06.18