04. 인공지능은 어떨 때 틀리는 걸까요?

데이터가 충분한 정보를 포함하고 있지 않으면 틀릴 수 있습니다.
예 다음날 도시락 매출이 어느 정도일지 예측하려는데 날씨 데이터가 없다.

완벽한 인공지능은 존재할 수 없다

인공지능을 비즈니스에 적용하려는 사람에게는 인공지능의 정확도가 어느 정도일지, 그리고 어떻게 해야 인공지능이 최적의 성능을 발휘할 수 있을지가 매우 중요합니다.

하지만 인공지능은 틀릴 수 있습니다. 정확도 100%의 만능 인공지능을 만드는 것은 애초에 비현실적입니다. 이번 장에서는 인공지능이 왜 틀리는지 그 이유를 알아봄으로써 어떻게 하면 실용적인 인공지능을 얻을 수 있을지 생각해 보겠습니다. 이 장은 인공지능을 맹목적으로 과신하지 않기 위해 알아 두어야 하는 내용으로, 이 책에서 가장 중요한 부분 중 하나입니다.

인공지능이 틀리는 이유는 크게 세 가지를 들 수 있습니다.

• 데이터의 표현 능력
• 모델의 표현 능력
• 학습과 테스트의 환경 차이

인공지능은 연금술?

14세기경 유럽에서 연금술 붐이 일어났습니다. 화학적 수단을 사용해서 납, 아연 등과 같은 비금속卑金屬으로부터 금을 연성하려고 했지만 실패로 끝났습니다. 금은 단일 원소로 이루어진 물질이지 화합물이 아니기 때문입니다.

인공지능도 입력 데이터 안에 ‘금’이 있어야 연성됩니다. 이미지 인식의 예를 들면 일반적으로 입력은 출력에 대해 훨씬 더 많은 정보를 포함하고 있습니다. 따라서 같은 입력 데이터라도 애노테이션을 바꾸면 개의 이미지를 보고 견종을 맞추거나, 처진 귀인지 아닌지를 판별하거나, 어떤 표정인지 식별하는 분류 모델을 만들 수 있습니다.

하지만 당연하게도 이미지 데이터로부터 내일의 주가를 예측하는 것은 불가능합니다. 주가를 맞추는 데 필요한 정보가 포함되어 있지 않기 때문입니다. 애초에 만들고 싶은 인공지능의 기능에 필요한 정보가 입력 데이터에 포함되어 있다는 것이 학습의 대전제가 됩니다.

데이터의 표현 능력

예를 들어, 어떤 사람의 개인 정보에서 그 사람이 남자인지 여자인지 맞히는 인공지능을 생각해 봅시다(젠더 이슈는 이해하고 있습니다만, 쉬운 예를 위한 것이니 양해해 주세요).

만약 개인 정보로 신장과 체중밖에 주어지지 않은 경우에는 어떻게 되는 것일까요? 그림 26은 가로축을 신장, 세로축을 체중으로 하고 성별에 따라 색을 구분한 결과입니다.

그림 26을 보면 신장과 체중 데이터만으로는 남자인지 여자인지 맞추기 어렵다는 것을 알 수 있습니다. 왜냐면 그래프의 중심 영역에서는 양쪽의 성별이 같은 값을 갖고 있기 때문입니다. 신장과 체중이라는 두 가지 정보만으로는 100% 정확한 인공지능을 만들기에 부족하다는 것을 알 수 있습니다. 이렇듯이 입력 데이터에 충분한 정보가 포함되어 있지 않은 경우, 데이터의 표현 능력이 부족하다고 할 수 있습니다.

인공지능의 학습이란, 데이터에서 필요한 정보만 남기고 나머지 정보를 삭제하는 것입니다. 예를 들어, 이미지 인식에서는 개의 이미지에서 개가 찍혔다는 정보만 남기고 방향이나 견종, 표정 등의 정보는 모두 지워버린다는 것입니다. 이것은 데이터 안에 이미 답이 있어야 한다는 의미이기도 합니다.

그러나 앞의 예처럼 신장과 체중이라는 정보 속에 성별을 판별하기 충분한 정보가 담겨 있지 않다면, 아무리 인공지능이 학습을 하려고 해도 인공지능에게 정확한 답을 줄 수 없습니다. 여기까지 살펴본 내용이 인공지능이 틀린 답을 내는 첫 번째 이유입니다. 이는 예측하려는 것에 대한 ‘데이터의 표현 능력이 부족하다’고 표현할 수 있습니다.

정보가 부족한 또 다른 예시로 매출 예측이 있습니다. 예를 들어, 도시락 가게의 매출을 예측한다고 생각해 보겠습니다. 오늘까지의 매출 이력 데이터가 있다고 해도 그것만으로 내일의 매출을 완벽하게 맞힐 수 없다는 것은 당연한 사실입니다.

애초에 미래는 불확실하다는 전제가 있긴 하지만, 보다 정확도 높은 모델을 만들려고 할 경우 날씨나 습도의 데이터뿐만 아니라 각종 경제 지표나 주가, 주변의 이벤트 개최 상황 등 다양한 정보가 필요할 것입니다.

이것만은 알아 두세요!

• 인공지능이 왜 틀리는지를 아는 것은 인공지능을 올바르게 신뢰하기 위해서 중요하다.
• 인공지능이 틀리는 이유의 하나로서 데이터의 표현 능력에 의한 것이 있다.
• 데이터의 표현 능력은 필요한 작업을 수행하기에 충분한 정보가 얼마나 포함되어 있는 가로 결정된다.

저작자표시 비영리 변경금지

'컴퓨터·IT > <비전공자를 위한 인공지능 교과서>' 카테고리의 다른 글

06. 인공지능 연구의 최신 동향을 알고 싶으면 어떻게 해야 하나요? (1)	2022.05.16
05. 인공지능이 인공지능을 만든다는 게 무슨 뜻인가요? (1)	2022.05.14
03. 예전의 인공지능은 어떤 것이었을까요? (1)	2022.05.12
02. 인공지능은 어떻게 해서 최고의 한 수를 선택할까요? (1)	2022.05.11
01. 왜 인공지능을 두려워할까요? (2)	2022.05.10