인공지능에서 딥러닝의 경우 사람 뇌의 작동원리, 신경망을 본땄다. 이름도 인공신경망이다. 인공지능 관점으로 수학능력시험, 수능을 바라본다면 어떨까?
지능과 수학능력, 튜링 테스트와 수학능력시험
지능을 정의하기는 어렵다. 인간이 갖고 있는 지능을 설명하기도 어렵다. 다른 사람들이 지능을 정의하기 위해서 노력하고 있을 때, 앨런 튜링은 다른 방법을 제시했다. 튜링이 제시한 방법은 튜링 테스트다.
The Turing test, originally called the imitation game by Alan Turing in 1950, is a test of a machine's ability to exhibit intelligent behaviour equivalent to, or indistinguishable from, that of a human.
출처: 위키피디아 Turing Test
기계와 사람을 두고 테스트를 진행해서 사람이 기계와 사람을 구별할 수 없다면 기계한테도 지능이 있다고 하자는 것이다.
수학능력을 어떻게 정의할 것인가? 대학수학능력을 정의하기도 쉽지 않다. 튜링 테스트처럼 수학능력 측정 문제에 대한 해결책 역시 테스트, 시험이다. 우리는 그 시험을 대학수학능력시험이라고 부른다. 테스트 결과를 통해 점수가 높다면 실제 수학능력을 갖고 있는지 여부와 관계 없이 수학능력을 갖추고 있다고 판단하는 것이다.
인공지능의 개고양이 이미지 분류와 수능
딥러닝을 공부하면 기초 예제로 많이 나오는 테스트가 개와 고양이 이미지 분류 테스트다. 미리 고양이, 강아지라고 태그를 달아둔 이미지로 충분히 학습시킨 뒤 고양이인지 개인지 맞추라고 하면 인공지능은 잘 맞춘다. 당연히 인공지능은 개와 고양이를 직접 본 적이 없다. 개가 무엇인지도 고양이가 무엇인지도 모르지만 사진만 보고도 구별해낸다.
수능시험도 객관식 시험은 기본적으로는 5가지 보기 중 정답을 가려내는 분류 테스트다. 인공지능으로 훈련시키기 쉬운 테스트다. 사람도 인공지능처럼 훈련을 거치면 문제를 명확히 이해 못하더라도 말로 설명은 잘 못해도 문제를 맞출 수 있다. 흔히 이렇게 말하는 경우다. "정확히는 모르겠지만 느낌이 오더라고. 찍었는데 맞았어."
개와 고양이를 명확히 알고 설명할 수 있는 사람도 개와 고양이를 잘 구분하지만, 개와 고양이가 뭔지 모르지만 기계도 기계학습을 통해 개와 고양이를 구분할 수 있다. 이를 수능에 적용해서 생각해본다면 시험 점수가 높다면 수학능력을 갖췄을 수도 있지만 보장할 수는 없다가 된다. 수학능력을 갖춘 사람은 당연히 점수가 높게 나오지만, 문제 패턴 파악이나 문제와 정답 암기를 한 경우도 점수가 높게 나오기 때문이다.
가중치(weights) 불러오기와 과외
코어수가 많고 메모리가 큰 GPU가 달린 성능 좋은 컴퓨터로 학습을 시키면 학습이 금방 이뤄진다. 하지만 성능이 좋지 않은 컴퓨터로는 학습을 시켜도 오래 걸리고 진전이 없다. 이때 다른 컴퓨터로 미리 훈련 시켜놓은 가중치 파일만 구해서 불러오면 테스트 결과가 확 좋아진다.
사람도 마찬가지라 사람마다 성능에 차이가 있다. 문제를 명확히 이해 못해도 기출을 많이 풀면 점수가 금방 올라가는 학생은 코어가 많은 성능이 좋은 컴퓨터와 비슷하다. 하지만 학생들 중 긴 시간 노력해도 훈련이 잘 안 되는 경우가 있다. 그 학생은 기본 성능이 떨어지는 컴퓨터와 비슷하다. 이 경우 돈을 써서 쪽집게 과외 선생님을 붙이면 점수가 올라간다. 과외를 통해서 개념을 익히기도 하지만, 패턴, 문제 푸는 기술, 잘 찍는 기술을 배우면서 올라간다. 인공지능의 가중치 불러오기와 비슷하다.
과적합과 헛똑똑이
인공지능을 공부하다보면 과적합overfitting을 접하게 된다. 학습 데이터가 부족하거나 치우쳐져서 특정 상황에서만 잘 맞추는 걸 과적합이라고 한다. 예를 들어 개고양이 이미지로 훈련 시킬 때 한국에 있는 개와 고양이로만 훈련시킨 상황이다. 이 경우 한국 개와 고양이는 거의 높은 확률로 맞출 수 있지만 다른 나라 개와 고양이는 맞출 확률이 엄청 낮아진다.
수능 시험이나 토익 등 테스트를 준비하는 사람들한테도 비슷한 현상이 나타난다. 수능 시험은 엄청 잘 풀고 점수도 높지만 설명해보라고 하면 설명을 잘 못하고 토익 점수는 높지만 영어 글쓰기나 말하기는 잘 못하는 경우다. 시험 기출을 아주 여러 번 풀다보면 문제를 대충 읽어도 바로 답을 알아낼 수 있는 경지에 이르게 된다. 시험마다 패턴이 존재하기 때문이다. 기본적인 지식이나 이해도와 별개로 훈련을 지속하면 패턴 파악이 이뤄지고 훈련 결과로 점수가 높아질 수 있다. 인공지능이 사진 속 패턴을 통해서 고양이를 판별하듯 말이다. 그 과적합 결과가 헛똑똑이다. 시험만 잘보는 친구가 이런 경우다. 제한된 데이터셋으로 과적합 위주의 훈련만 이뤄져서 일반 지능이 부족한 상태가 된 것이다.
한국 개고양이 99% 나머지 10% 적중률 A기계보다 모든 개고양이 적중률 85% B기계가 훨씬 쓸모 있는 기계지만 시험을 한국 개고양이로만 본다면 A기계가 최고의 기계가 된다. 물론 모든 개고양이 적중률 99% C기계도 같은 결과가 나온다. 하지만 한국 개고양이로만 보는 시험으로는 A와 C기계를 가려낼 수 없다. 또 당연하게도 C 기계를 만들기에는 돈과 시간이 많이 필요하다.
과적합 인재와 엘리트
한국사회에서 성공의 지름길은 바로 시험이다. 수능시험을 잘 봐서 의대에 가서 의사가 되거나 명문대 입학을 바탕으로 대기업에 가거나 국가고시를 잘 봐서 판검사변호사 또는 고위공무원이 되는 방법 등. 대부분 수능시험을 닮은 시험을 거치게 된다. 당연히 시험으로 얻는 이익이 클수록 사람들은 과적합 훈련을 피할 수 없다. 과적합할수록 테스트 점수가 높게 나오기 때문이다.
많은 수험생들이 10대 때 짧게는 1년 길게는 초등학교 때부터 10년간 이 과적합 훈련에 시간을 보내게 된다. 제한된 시험 데이터셋을 바탕으로 계속 반복 훈련하는 식이다. 그 과적합 결과로 높은 점수를 얻은 사람들이 흔히 말하는 엘리트, 한국사회의 주류가 된다. 일반 지능이 뛰어난 사람들도 있겠지만 그렇지 않고 해당 시험에 과적합된 제한된 분야 지능이 뛰어난 사람들일 가능성도 크다. 인공지능도 일반 지능을 갖추면서 특수 분야 점수를 최고로 받기는 정말 어렵기 때문이다. 일반 지능이 떨어지는 판검사, 의사, 고위 공무원 기사를 자주 접할 수 있는 이유도 이 때문이다.
튜링 테스트와 인공 일반 지능, 수능시험
튜링 테스트는 정말 어렵다. OpenAI사의 ChatGPT를 보면 이제 곧 통과할 거 같다는 생각이 들기도 하지만 아직은 튜링 테스트를 통과한 기계가 없다. 기계가 사람의 질문을 이해하고, 그에 따른 답변을 사람처럼 문장으로 해야 하고, 사람처럼 상황에 맞게 논리에 맞게 답변을 해야 하니 난이도가 진짜 높다. 그 정도 인공 일반 지능을 갖추기란 정말 어렵다. 이에 반해 수능시험은 난이도가 낮다. 기본적으로 객관식 시험은 분류 테스트이고 5가지 중 1가지를 고르는 테스트는 난이도가 낮기 때문이다. 튜링 테스트가 과적합으로는 좀처럼 통과하기 어려운 테스트라면, 수능시험은 과적합으로 통과하기 쉬운 테스트라고 볼 수 있다. 수능시험을 현재 방식이 아니라 좀 더 일반 지능을 테스트할 수 있는 형태로 시험 방식이 바뀌면 좀 더 일반 지능이 높은 사람이 유리하고 과적합을 방지할 수 있겠지만 사회적 합의를 얻기는 쉽지 않다. 객관식이 아니라 주관식일수록 인간의 주관이 개입할 여지가 커지며, 그에 따른 입시 비리가 발생할 가능성이 커지기 때문이다.
일반 지능 키우기
수능시험을 못 봤다고, 공무원 시험을 못 봤다고 너무 자괴감에 빠질 필요는 없다. 앞에서 살펴봤듯이 수능시험 같은 분류 테스트는 일반 지능이 높다는 것을 보장하지는 못한다. 분류 테스트에서 훈련을 통해서 최대한의 점수를 얻는 능력을 갖춘 사람들이 있다. 그렇게 되지 못했더라도 너무 슬퍼할 필요는 없는 거 같다. 그들이 과적합을 위해서 보낸 그 긴 시간 동안 인공지능에서 다양한 데이터셋으로 기계를 훈련시키듯, 다양한 지식과 경험을 통해서 일반 지능을 높였다면 말이다.
추천 자료
K-MOOC EBS 위대한 수업: AI는 어떻게 생각하는가 무료로 볼 수 있다.