2024.04.23 (화)

  • 흐림동두천 1.0℃
  • 흐림강릉 1.3℃
  • 서울 3.2℃
  • 대전 3.3℃
  • 대구 6.8℃
  • 울산 6.6℃
  • 광주 8.3℃
  • 부산 7.7℃
  • 흐림고창 6.7℃
  • 흐림제주 10.7℃
  • 흐림강화 2.2℃
  • 흐림보은 3.2℃
  • 흐림금산 4.4℃
  • 흐림강진군 8.7℃
  • 흐림경주시 6.7℃
  • 흐림거제 8.0℃
기상청 제공

[청년발언대] 비정형 데이터와 인공지능

 

【 청년일보 】 우리 주변에는 다양하고도 많은 데이터들이 생겨나고 사라진다. 고전적인 데이터는 관계형 모델(Relation model)에 따라 행과 열로 저장되는 정형 데이터이다. 우리가 많이 사용하는 엑셀처럼 행에는 각기 다른 표본들이 저장돼 있고, 열을 통해 모든 표본들이 가지는 속성에 접근할 수 있다.


데이터베이스 분야에서 정형 데이터는 가장 기본이 되는 데이터 구조이며 데이터 구성, 데이터 저장, 결측치 처리 등 데이터베이스를 더욱 발전시키 위한 연구가 많이 진행됐다.


이렇게 여러 데이터를 정형 데이터로 변환할 수 있기 때문에 초기 인공지능 모델도 정형 데이터에 맞춰 제작됐다. 선형 회귀 모델, decision tree 기반 모델 등 딥러닝 이전의 모델들은 정형 데이터를 사용해 모델을 학습했다. 정형 데이터의 각 열을 독립 변수로 생각하여 연구자가 관심을 가지는 종속 변수에 대해서 예측하거나 추론했다.


하지만 빅데이터의 시대가 찾아오면서 기존의 데이터 구조를 벗어나는 데이터들이 많이 등장했다. 그림, 영상, 텍스트, 로그 데이터 등 관계형 모델로는 표현할 수 없는 데이터들을 비정형 데이터라 한다. 비정형 데이터는 그 분야가 굉장히 다양해서 각 데이터마다 효율적인 데이터 구조와 저장 방식을 생각해야 한다. 이러한 다양성은 정형 데이터 기반이었던 인공지능 모델 학습에 어려움을 주었다.


딥러닝이 등장하기 이전에는 비정형 데이터를 정형 데이터로 바꾸어 모델을 학습했다. 예를 들어 2차원 그림은 각 픽셀을 독립 변수로 생각해 기존 인공지능 모델을 학습했다. 하지만 이러한 방식은 비정형 데이터의 고유한 구조를 생각하지 않아 모델의 성능이 좋지 않다는 문제점을 가진다.


이 문제점은 딥러닝이 상용화되면서 해소되기 시작했다. 딥러닝의 모델 구조는 신경층의 조합으로 돼 있기 때문에 자유로운 모델 구조가 가능하며 신경층의 계산 또한 임의로 설계할 수 있다. 2차원 그림에 있어 가장 많이 사용되고 있는 딥러닝 모델은 CNN(Convolutional Neural Network)이다.


2차원 그림의 공간적 특성을 무시한 기존 모델과는 달리 합성곱을 통해 그림의 특징을 추출하는 방식으로 공간적 특성을 살렸다. 이외에도 텍스트와 로그 데이터는 시간 순서가 있다는 것에 착안해 입력과 출력을 배열 단위로 처리하는 RNN(Recurrent Neural Network)를 사용한다.


이처럼 비정형 데이터에 대한 앞으로의 인공지능은 데이터의 구조를 변경하는 것이 아닌 모델의 구조를 변형해 비정형 데이터의 특성을 살리는 방향으로 학습이 진행된다. 이제까지의 비정형 데이터에 대해서 모델을 설계한 것처럼 앞으로의 새로운 비정형 데이터에 대해서도 이들의 구조를 살린 인공지능 모델이 설계돼야 할 것이다.

 


【 청년서포터즈 6기 홍진영 】

관련기사




청년발언대

더보기


기자수첩

더보기

배너
배너