인공지능, 스스로 찍어낸 정보에 붕괴

인공지능(AI)을 AI가 생성한 정보로 훈련시키면 끝내 붕괴된다는 연구 결과가 나왔다. 생성형 AI는 방대한 자료를 순식간에 학습하고 최적의 답안을 도출하는 장점이 있지만, 같은 AI가 만들어낸 데이터에 취약하다는 사실이 확인됐다.

영국 케임브리지대학교 AI 전문가 일리아 슈마일로프 박사 연구팀은 24일 국제 학술지 네이처에 낸 조사 보고서에서 이같이 설명했다. AI가 만들어낸 자료로 학습한 인공지능이 붕괴될 수 있다는 가설은 전부터 제기돼 왔다.

연구팀은 대규모 언어 모델(LLM)을 기반으로 한 생성형 AI를 준비하고, 이미 AI 모델들이 만들어낸 정보들을 학습시켰다. 여기에는 방대한 양의 뉴스, 논문 등이 포함됐다.

생성형 AI가 만들어낸 정보를 학습한 AI가 심각한 오류를 일으켜 학계가 주목했다. <사진=pixabay>

이 과정에서 뜻밖의 상황이 벌어졌다. 학습을 거듭한 AI 모델이 어느 순간 의미를 알 수 없는 정보를 쏟아냈다. 영국 서머싯 건물(buildings in Somerset, England)에 대한 답변을 요구하자 AI는 엉뚱하게 토끼 이야기를 늘어놨다.

연구팀은 AI가 붕괴한 이유는 단순하다는 입장이다. 일리아 박사는 "AI 모델이 학습에 이용할 제대로 된 정보는 인간으로부터 주어진 데이터뿐"이라며 "처음 주어진 인간들의 데이터는 질이 좋고 다양성이 뛰어나지만 AI가 생성한 데이터는 내용이 부실하고 어휘나 표현 등이 누락되는 경우가 많다"고 지적했다.

이번 연구에서 드러난 AI의 모순은 이미 전문가들이 예견한 바다. 호주 모내시대학교 제이던 사도스키 박사의 합스부르크 AI(Habsburg AI) 이론이 대표적이다. 근친혼을 거듭해 쇠퇴한 합스부르크 가문을 딴 박사의 생각은 AI가 스스로 생성한 정보를 학습하다 파멸한다는 것이 핵심이다.

AI의 엄청난 학습 능력은 인간이 만든 양질의 자료에 한해 유효하다는 연구 결과가 나왔다. <사진=pixabay>

이번 발견에 대해 일리아 교수는 "인간이 유전적 다양성을 필요로 하듯 AI 모델 또한 고품질의 다양한 데이터를 필요로 하는 것 같다"며 "우리 연구는 AI의 발달 앞에 휴지 조각이라고 여겨지던 인간의 데이터에 새로운 가치를 매긴 점에서 특별하다"고 자평했다.

교수는 "최근 기계가 정리한 뉴스와 AI 생성 이미지 등 인공지능 콘텐츠가 넘쳐난다"며 "나름대로 신뢰받는 미디어 기업들조차 AI 생성 콘텐츠를 평범하게 사용하는 현실에 우리 실험은 경종을 울렸다"고 강조했다.

정이안 기자 anglee@sputnik.kr

⇨스푸트니크 블로그 바로가기
⇨스푸트니크 유튜브 채널 바로가기