2024.04.20 (토)

  • 흐림동두천 1.0℃
  • 흐림강릉 1.3℃
  • 서울 3.2℃
  • 대전 3.3℃
  • 대구 6.8℃
  • 울산 6.6℃
  • 광주 8.3℃
  • 부산 7.7℃
  • 흐림고창 6.7℃
  • 흐림제주 10.7℃
  • 흐림강화 2.2℃
  • 흐림보은 3.2℃
  • 흐림금산 4.4℃
  • 흐림강진군 8.7℃
  • 흐림경주시 6.7℃
  • 흐림거제 8.0℃
기상청 제공

구글 클라우드, 클라우드 TPU v4 기반 세계 최대 규모 머신러닝 클러스터 발표

클라우드 TPU v4 포드, 압도적 규모·성능·비용 효율성·지속가능성으로 프로세스 혁신
LG AI 연구원, 클라우드 TPU v4 사전 테스트 참여해 초거대 AI 모델 강화

 

【 청년일보 】 구글 클라우드가 맞춤형 머신러닝 하드웨어 가속기 '클라우드 TPU'의 4세대 버전 TPU v4 포드 기반의 머신러닝 클러스터를 31일 발표했다.

 

구글 I/O 2022에서 프리뷰 버전으로 선보인 머신러닝 클러스터는 세계 최고 수준의 속도와 효율성, 지속가능성을 자랑하는 머신러닝 인프라 허브로, 차세대 인공지능(AI) 기술에서 핵심적인 진보와 혁신을 지원한다.

 

산업 전반에 걸쳐 디지털 트랜스포메이션이 가속화되면서 기업이 필요로 하는 머신러닝의 용량, 성능, 규모는 그 어느 때보다 빠르게 증가하고 있다.

 

IDC가 2000명의 IT 의사결정권자를 대상으로 진행한 최근 설문조사에 따르면, AI 프로젝트가 실패하는 근본적인 원인은 주로 불충분한 인프라 역량인 것으로 나타났다.

 

기업용으로 설계된 AI 인프라의 중요성이 커지는 가운데, 구글은 미국 오클라호마주에 클라우드 TPU v4의 연산 집합으로 총 9엑사플롭의 연산 성능을 지원하는 세계 최대 규모의 머신러닝 클러스터를 구축했다.

 

클라우드 TPU v4 포드로 구동되는 구글 클라우드의 머신러닝 클러스터는 연구원과 개발자가 AI 분야의 최전선에서 혁신적인 돌파구를 마련하도록 지원한다. 이제 머신러닝 클러스터를 이용해 점점 더 정교해지는 대규모 자연어처리(NLP), 추천 시스템, 컴퓨터 비전 모델용 워크로드를 클라우드 TPU v4에서 훈련할 수 있다.

 

대규모 모델의 고속 훈련도 가능하다. 각각의 클라우드 TPU v4 포드는 4096개의 칩이 상호연결된 초고속 네트워크로 구성되어 있는데, 호스트 당 6Tbps 대역폭을 지원해 업계 최고 속도를 제공한다.

 

구글 클라우드 머신러닝 클러스터는 모델 훈련에 필요한 연산 능력을 비용 대비 매우 뛰어난 성능으로 제공한다. 클라우드 TPU v4 칩은 클라우드 TPU v3 대비 2.2배나 향상된 피크 플롭스를 지원하며 달러 당 피크 플롭스도 1.4배 높아졌다.

 

실제 모델 훈련 시 할당된 전체 칩에서 연산이 지속되는지 여부가 모델 훈련의 효율성을 좌우한다. 클라우드 TPU v4는 수천 개의 칩으로 머신러닝 모델의 훈련 능력을 향상시킬 수 있으며, 높은 네트워크 대역폭과 컴파일러 최적화 덕분에 다른 시스템보다 활용도가 월등히 우수하다. 이를 통해 기업은 모델 훈련 시간을 단축하면서 비용 효율성을 높였다.

 

이 밖에 구글 클라우드 머신러닝 클러스터가 위치한 구글의 오클라호마 데이터센터는 동일한 전력망 안에서 시간당 90%의 무탄소(CFE) 에너지로 운영된다.

 

구글은 지속가능성을 위한 노력의 일환으로 2017년부터 데이터센터 및 클라우드 리전의 연간 에너지 소비량과 재생 에너지 구매량을 100% 동일하게 맞추고 있으며, 2030년까지 전체 비즈니스의 무탄소 에너지 운영을 목표로 하고 있다.

 

구글 클라우드는 지난해 구글 I/O 2021에서 클라우드 TPU v4를 처음 발표하고 LG AI 연구원, 카카오브레인, 메타 AI, 세일즈포스리서치, 코히어 등 국내외 유수의 AI 연구팀에 클라우드 TPU v4 포드의 얼리 액세스 버전을 제공했다.

 

연구팀은 클라우드 TPU v4의 뛰어난 성능과 확장성을 긍정적으로 평가했다. 클라우드 TPU v4는 빠른 상호연결 및 최적화된 소프트웨어 스택, 새로운 TPU VM 아키텍처로 자체 인터랙티브 개발 환경을 설정할 수 있는 기능, JAX·파이토치·텐서플로우 등 머신러닝 프레임워크 선택의 유연성 등을 제공한다.

 

AI 연구팀은 클라우드 TPU v4의 가격 대비 우수한 성능을 바탕으로 최첨단 대규모 머신러닝 모델을 훈련하며 AI 연구 영역을 한 단계 더 확장시키고 있다. 

 

LG AI연구원은 구글 클라우드의 전략적 연구 파트너로서 구글의 최신 머신러닝 슈퍼컴퓨터 TPU v4가 상용화되기 전 테스트에 참여해 3000억 개 매개변수 규모의 초거대 AI 'LG 엑사원'을 학습시켰다.

 

카카오브레인 또한 클라우드 TPU v4의 대규모 데이터 학습 테스트에 참여해 초거대 AI 언어모델 'KoGPT'의 연구개발 역량을 강화했다.

 

카카오브레인은 기존의 GPU 서버 환경에 클라우드 TPU를 추가로 도입해 대규모 모델 학습 시 발생하는 네트워크 병목 현상을 해결하고 60억 개의 파라미터와 2000억 개 토큰에 달하는 한국어 데이터를 빠르게 처리했다. 이를 통해 언어 모델 연구 및 개발에 소요되는 시간을 단축하고 효율적인 모델 학습 프로세스를 구축할 수 있었다.

 

배경훈 LG AI 연구원장은 "멀티모달 기능을 갖춘 LG 엑사원은 TPU v4를 활용해 6000억 개 이상의 말뭉치와 2억 5000만 개 이상의 이미지로 구성된 방대한 데이터를 학습하고 있으며 커뮤니케이션, 생산성, 창의성 등의 측면에서 인간 전문가를 뛰어넘는 것이 목표"라며 "TPU v4의 성능은 동급 최고의 컴퓨팅 아키텍처를 능가할 뿐만 아니라 고객 지원 능력 역시 기대 이상이었다. 구글과 협력해 매우 기쁘며, 더 나은 삶을 위해 AI를 발전시킨다는 LG AI 연구원의 궁극적인 비전을 달성하도록 구글과 전략적 파트너십을 굳건히 이어나갈 것"이라고 말했다.

 

장화진 구글 클라우드 코리아 사장은 "구글 클라우드는 구글 검색, 유튜브와 같은 구글 제품에 실제로 사용되는 업계 최고 수준의 AI 성능을 구글 클라우드 고객에게 클라우드 TPU를 통해 제공하고 있다"며 "클라우드 TPU v4의 강력한 성능과 기술력을 바탕으로 국내 기업 및 연구 기관이 차세대 AI 및 머신러닝 혁신을 가속화하도록 적극 지원하겠다"고 말했다.

 

【 청년일보=박준영 기자 】

관련기사




청년발언대

더보기


기자수첩

더보기

배너
배너