2024.03.29 (금)

  • 흐림동두천 1.0℃
  • 흐림강릉 1.3℃
  • 서울 3.2℃
  • 대전 3.3℃
  • 대구 6.8℃
  • 울산 6.6℃
  • 광주 8.3℃
  • 부산 7.7℃
  • 흐림고창 6.7℃
  • 흐림제주 10.7℃
  • 흐림강화 2.2℃
  • 흐림보은 3.2℃
  • 흐림금산 4.4℃
  • 흐림강진군 8.7℃
  • 흐림경주시 6.7℃
  • 흐림거제 8.0℃
기상청 제공

"부실한" 작업관리에 차단 시스템은 "부재"…과기부, KT 통신장애 "인재"

라우팅 설정 입력 과정에서 'exit' 명령어 누락으로 인해 오류 발생
작업 관리자 없이 협력업체 직원끼리 네트워크 연결된 채 작업 수행
KT, 사전검증 단계에서 오류 발견 못해… 지역 오류 확산 차단 시스템도 부재

 

【 청년일보 】 지난 25일 발생한 KT 네트워크 장애 사고는 인재(人災)였음이 다시 한번 확인됐다. 잘못된 명령어 입력과 함께 부실한 작업관리 체계와 기술적인 문제점이 겹치면서 오류가 전국에 영향을 미쳤다.

 

과학기술정보통신부는 정보보호, 네트워크 전문가로 구성된 사고조사반과 함께 KT 네트워크 장애 사고 원인을 조사·분석한 결과를 29일 발표했다.

 

이번 사고는 25일 11시 16분경부터 시작돼 DNS 트래픽 증가에 이어 네트워크 장애가 발생했고, 12시 45분경 KT의 복구조치가 완료되어 약 89분간 서비스 장애가 발생했다.

 

사고조사반은 이번 네트워크 장애 사고의 원인을 파악하기 위해 DNS 서버에 발생했던 급격한 트래픽 증가가 분산서비스거부공격(디도스)였는지, 라우팅 오류가 어떻게 발생했고 장애 확산이 되었는지 등을 면밀하게 분석했다.

 

먼저, 우려했던 디도스 공격이나 네트워크 대역폭 공격은 없었다. 11시 16분부터 KT DNS 서버에 평시에 비해 트래픽이 급증했으나 비정상적인 도메인의 반복적인 질의가 없어 시스템 자원 디도스 공격은 없었던 것으로 확인됐다.

 

네트워크 대역폭 공격과 관련해 트래픽 분석을 실시한 결과 중앙 1차 DNS 서버 대역폭의 최대 8%, 부산 DNS 서버 대역폭의 28% 규모의 트래픽 유입만 있었다. 이는 대역폭 대비 충분히 수용가능한 수준으로 네트워크 대역폭 공격은 아닌 것으로 판단되었다.

 

 

◆ 잘못된 설정 명령 입력으로 인한 라우팅 오류 발생

 

이번 사고 로그 기록을 분석한 결과 부산국사에서 기업망 라우터 교체 작업 중 작업자가 잘못된 설정 명령을 입력했고 이후 라우팅 오류로 인해 전국적인 인터넷 네트워크 장애가 발생한 것으로 분석됐다.

 

작업자가 사고발생 라우터에 라우팅 설정 명령어 입력 과정에서 마무리 부분에 'exit' 명령을 누락하면서 BGP 프로토콜에서 교환해야 할 경로 정보가 IS-IS 프로토콜로 전송됐다. 통상 1만 개 내외의 정보를 교환하는 IS-IS 프로토콜에 수십만 개의 BGP 프로토콜의 정보가 잘못 전송되면서 라우팅 경로에 오류가 발생한 것이다.

 

IS-IS 프로토콜 내의 라우터들은 상호 간 정보 최신화를 위해 자동으로 데이터를 주고받는데, 부산 지역 라우터에 잘못된 라우팅 경로가 설정된 이후 다른 지역의 IS-IS 라우터 등에도 잘못된 업데이트 정보가 전달되었다.

 

KT 네트워크 내에 있는 라우터들을 연결하는 IS-IS 프로토콜은 잘못된 데이터 전달에 대한 안전장치 없이 전국을 모두 하나로 연결하고 있고, 결국 한 개 라우터의 잘못된 라우팅 경로 업데이트가 전국의 라우터에 연쇄적으로 일어나서 장애가 전국적으로 확대되었다.

 

IPTV 서비스망 및 음성전화·문자 서비스망은 인터넷 서비스 망과 별도로 구성되어 있으나, 음성전화·문자 서비스망은 인터넷 서비스 장애로 인해 전화와 문자 이용이 늘었고 단말 전원을 리셋한 이용자로 인한 트래픽 증가가 발생하여 부하가 가중되었을 것으로 조사반은 추정했다.

 

 

◆ 부실한 작업관리 체계와 오류 차단 시스템 부재가 화 키워

 

부실한 작업관리 체계와 오류 차단 시스템이 부재한 것도 이번 사건을 야기한 주요 원인이었다. 당초 KT 네트워크관제센터가 야간작업(01~06시)을 승인했으나 작업은 주간에 수행됐다.

 

또한, 작업 관리자 없이 KT 협력업체 직원인 작업자끼리만 라우팅 작업을 수행하는 등 작업오류를 방지하기 위한 작업관리체계가 부실했으며, 네트워크가 연결된 채로 작업이 이뤄졌다.

 

KT는 사전검증 단계에서도 오류를 파악하지 못했다. 'exit' 명령어가 누락된 것을 스크립트 작성과정 및 사전 검증 과정에서 발견하지 못했다. 1, 2차에 걸친 사전검증 단계가 존재했으나 사람이 직접 검토하는 체계이므로 오류를 발견하지 못했다는 것이다.

 

네트워크가 차단된 가상 상태에서 오류 여부를 사전에 발견하기 위한 가상 테스트베드도 없었고, 지역에서 발생한 오류가 전국으로 확산하는 것을 차단하는 시스템도 부재했다.

 

과기정통부는 이번 조사결과를 바탕으로 주요 통신사업자 네트워크의 생존성·기술적·구조적인 대책이 담긴 '네트워크 안정성 확보방안'을 마련할 계획이다.

 

단기 대책으로 ▲네트워크 관리체계 점검 ▲오류 사전 진단 시뮬레이션 시스템 도입 ▲네트워크관제센터 기술적 점검 체계 구축 ▲라우팅 작업 시 경로정보 개수 제한 등이 검토될 계획이다.

 

중장기 대책으로는 ▲주요 통신사업자의 통신장애 대응 모니터링 체계 강화 ▲네트워크 안정성과 복원력을 높이는 기술 개발 ▲안정적인 망 구조 등 네트워크의 생존성 확보를 위한 구조적 대책 마련 등을 추진한다.

 

KT는 이용자 피해현황 조사 및 피해구제 방안 마련을 추진하고, 방송통신위원회는 이용자 피해구제 방안 이행여부를 점검한다. 또한, 방통위는 통신장애 발생 시 실효성 있는 피해구제를 위한 법령 및 이용약관 등 개선방안 마련을 검토할 계획이다.

 

【 청년일보=박준영 기자 】

관련기사




청년발언대

더보기


기자수첩

더보기

배너
배너
배너
배너