본문 바로가기
SSR (SeungHyun Science Review)

복잡함보다는 간단한 모델을 쓰라.. 하지만 어떻게?

by 승공돌이 2022. 10. 18.

지도교수님의 은총으로 분수에 맞지 않는 해외 학회를 올 기회가 생겼습니다. 참여한 학회는 매년 미국 산업 공학회 (이하 INFORMS)의 회원이 전부 모일 수 있는  annual meeting이었고 전 세계 6000명의 산업 공학자가 한자리에 모였습니다. 이런 대규모 학회에서 plenary speech를 하시는 분이 있다고 해서 들으러 갔습니다. 연사는 듀크 대학교의 Cynthia Rudin 교수였고, 주제는 "Do simpler machine learning models exist, and how can we find them?"였습니다..

무엇을, 왜 연구했나?

기계학습 분야의 연구는 데이터셋에 잘 부합하는 모델을 형성하는 것에 초점이 맞추어져 있습니다. 복잡한 커널을 활용하는 분류기에서부터, 수 백개의 레이어를 쌓은 인공신경망까지 어떤 복잡한 형태의 데이터가 들어와도 그것에 부합할 수 있는 모델을 만들고, 동시에 특정 데이터셋에만 부합하지 않도록 과적합 (overfitting)을 방지하는 것이 함께 수반된 목표였습니다. 이러한 연구 흐름에서 Rudin 교수는 데이터 사이언티스트들이 흔히들 경험하는 상황을 하나 설명합니다. 바로 간단한 모델도 충분히 설명력이 있는데 굳이 인공 신경망 같은 복잡한 것을 사용해야 하냐는 것이지요.

다음과 같은 상황을 고려해봅시다. 전체 데이터의 표준편차가 100이고, 아주 간단한 선형 회귀 모형의 오차 (RMSE)가 0.1이고, 복잡한 인공신경망을 활용한 모형의 오차가 0.09인 상황이라고 가정합시다. 비록 인공 신경망의 성능이 우월하지만, 선형 회귀 모형의 오차가 너무 작기 때문에 굳이 인공 신경망을 쓸 이유를 못 느끼겠습니다. 심지어 선형 회귀 모델은 그 자체로 해석 가능한 (Explainable) 모델이기 때문에 의사 결정에 더 도움이 되기도 하지요.

실제로 연구를 수행하다 보면 모델의 적합도를 향상하기 위해 이것저것 복잡한 모형을 가져다 쓰긴 하지만, 간단한 모델로도 이미 충분한 성능을 가진 경우가 많습니다 (이는 간단한 모델이 복잡한 모델보다 유의하게 성능이 좋지 않다는 것과는 다른 문제입니다). Rudin 교수는 어떤 데이터셋에서 이러한 간단한 모델이 존재하는가에 대해서 연구하였고, 그에 대한 이론인 Rashomon set 이론을 발표하였습니다.

무엇을 발견했나?

아래 그림은 모델의 집합을 나타냅니다. 이중 가운데 실선으로 둘러쌓은 집합을 적합도가 좋은 모델의 집합이고, 초록색 점은 간단한 모델 개체를 의미합니다. Rudin 교수는 적합도가 좋은 모델 중에서 간단한 모델의 집합을 Rashomon set이라고 정의하고, Rashomon set의 개체가 많은 (즉, 간단하면서 적합도가 높은 모델이 많이 존재할) 조건을 아래와 같이 나열했습니다.

  • 간단한 모델이 많이 존재한다.
  • 다양한 기계 학습 모델의 성능이 유사하다
  • 데이터 라벨에 노이즈가 존재한다.

이러한 논의와 함께 현대의 기계학습은 복잡도를 높이는 방향으로 설정이 되어 있는데, 새로운 연구의 관점으로 간단하면서도 어느 정도 성능을 유지하는 해석 가능한 모델을 만드는 방법에 대한 연구를 제안하기도 하였습니다. 

연구 결과가 어떤 교훈을 주나?

우리는 기계학습의 시대에 살고 있습니다. 기계 학습된 유튜브가 추천한 영상을 보고, 데이터를 분석하여 나에게 맞는 보험 상품을 추천해주기도 합니다. 고객으로서 우리는 그것을 즐기면 그만이지만, 서비스 제공자는 이러한 기계학습의 학습이 타당하게 이루어졌는지 확인할 필요가 있습니다. 실제로 기계학습이 특정 성별을 차별하여 채용하는 사례가 발생하여 문제가 되기도 했지요 [출처 | 아마존 채용 AI의 여성 차별 논란]. 모델의 적합도가 높은 것과 모델의 의사 결정 과정이 타당한지는 비슷하면서도 다른 문제이기 때문에 반드시 타당한 가정으로 의사 결정이 이루어졌는지 확인해야 합니다. 그러나 복잡한 AI일수록 그 해석이 어려워지기 때문에, 간단한 모델로 회귀하자는 Rudin 교수의 주장은 어느 정도 타당한 주장이라고 느껴집니다.

 

한편 Rachomon set의 라쇼몽은 일본 영화 Rashomon에서 유래한 단어로, 극 중 같은 사건을 다르게 증언하는 인물들의 모습에서 본떠 같은 객관적 현상을 주관적으로 서로 다른 증언을 하는 현상을 나타내는 라쇼몽 현상에서 그 어원이 있다고 생각됩니다. 사람들은 저마다 생각과 경험이 다르기 때문에 벌어지는 것이지요 [출처ㅣ 나무 위키]. 복잡한 모델에서는 그들이 다른 증언을 하더라도 왜 그렇게 주장하는지 알 수가 없습니다, 그러나 간단한 모델에서는 상이한 주장들 사이에서 무엇이 그 결과를 야기했는지 알아낼 수 있습니다. 적합도만이 전부가 아닌 의사 결정 문제에서 간단한 문제로 회귀하는 것은 곧 사람을 대상으로 단순히 경험에 의한 직관이 아닌 연역 과정을 요구하는 것과 같은 것이라고 할 수 있습니다. 연역이 필요하면 간단하게 돌아가자, 지난 수 세기 동안 의사 결정의 Rule of Thumb이었던 오컴의 면도날이 떠올랐습니다. 간단한 모델로의 회귀는 설명이 필요한 곳 어디서든 한 번쯤 되돌아볼 연구 분야일 것 같습니다.

반응형

댓글