미국 오픈AI의 대화형 인공지능(AI) 챗(Chat)GPT를 이용한 답안은 94%나 검출이 불가능하다는 사실이 시뮬레이션 결과 밝혀졌다. 챗GPT처럼 대규모 언어 모델(LLM)을 활용한 생성형 AI가 속속 등장한다는 점에서 우려의 목소리가 나왔다.
영국 레딩대학교 피터 스카프 교수 연구팀은 이런 내용을 담은 조사 보고서를 3일 공개했다. 이들의 실험 내용은 지난달 말 과학 저널 플로스원(PLOS ONE)에 먼저 소개됐다.
연구팀은 시험에 응시한 학생들이 몰래 생성형 AI를 사용할 경우, 이를 얼마나 잡아낼 수 있는지 테스트에 나섰다. 그 결과 오픈AI의 챗GPT를 이용한 답안을 잡아내지 못할 확률은 무려 94%로 나타났다.
연구팀은 AI 커닝 검출을 전문 프로그램이 아닌 인간이 얼마나 잡아낼 수 있는지 실험했다. 테스트는 실제 대학교 재학생들을 대상으로 했다. 채점자에게 알리지 않고 챗GPT가 내놓은 답을 학생들 답안과 섞은 뒤 부정행위를 얼마나 골라내는지 살폈다. 채점자는 박사 과정 학생들이 맡았다.
그 결과 챗GPT가 내놓은 해답은 94%가 부정행위로 걸러지지 않고 정답으로 인정됐다. 당연히 AI를 쓴 학생들 점수가 높았다. 피터 스카프 교수는 "AI가 내놓는 해답은 인간보다 일관되게 높은 성적을 기록했다"며 "AI가 내놓은 답을 걸러내는 것은 현재 사실상 불가능하다"고 분석했다.
이어 "챗GPT 등 생성형 AI의 발달에 따라 이들이 뽑아낸 문장을 검출하는 도구도 많이 등장했다"면서도 "아직 검출 프로그램은 정확도가 낮아 AI의 커닝을 높은 확률로 잡아내지 못하는 상황"이라고 전했다.
교수는 "점차 보편화되는 생성형 AI를 이용해 학생이 부정행위를 할 경우에 대비해야 한다"며 "오픈북 시험 또는 온라인 시험을 학생-감독관 직접 대면 시험으로 모두 전환하는 것도 방법"이라고 말했다.
연구팀은 AI를 대처 가능한 과제로 생각할 것이 아니라 AI의 사용을 받아들이는 교육도 검토할 만하다는 입장이다. 즉 생성형 AI를 누가 더 올바르게 활용하고, 개인의 지식을 덧붙여 창의적인 답안을 도출하는지 평가하는 쪽으로 시험의 양상이 바뀔 수 있다고 전망했다.
정이안 기자 anglee@sputnik.kr