일본 휴머노이드 '알타(Alter)3'가 생성형 인공지능(AI) 챗GPT와 만나 성능이 업그레이드됐다. 별도의 프로그래밍 없이 텍스트를 움직임으로 변환, 사지에 분포하는 액추에이터를 구동하는 '알타3'는 혼자 사진을 찍는가 하면 유령 흉내를 내며 기술의 진보를 실감하게 한다.
'알타3' 공동 제작을 총괄하는 얼터너티브 머신(Alternative Machine)은 15일 공식 SNS를 통해 휴머노이드 '알타3'의 최신 업그레이드 소식 및 영상을 소개했다. '알타3'는 인간의 명령어를 실시간으로 듣고 이를 코드로 변환해 동작을 구현하는 모델로 유명하다.
'알타' 제작진은 최신 모델 '알타3'에 오픈AI 사의 챗GPT를 탑재했다. 오픈AI는 올해 3월 대규모 언어 모델(LLM) GPT-4를 선보였는데, 대화 내용에 따라 사전에 프로그래밍되지 않은 포즈나 표정을 실시간으로 구현하기 위해 '알타3'에 적용됐다.
얼터너티브 머신 관계자는 "주로 하드웨어에 의해 제어되는 지금까지의 로봇은 챗GPT 같은 LLM으로 통제하기 어려웠다"며 "사람의 말을 통한 동작이 가능하고 인간의 설명을 로봇이 실시간으로 이해할 수 있도록 코드 변환 방법을 고안했다"고 설명했다.
이 관계자는 "우리 기술은 LLM이 만들어내는 자연스러운 대화와 같은 가이던스로 직접 로봇의 동작을 제어할 수 있다"며 "'알타3'는 사전 프로그래밍 없이 동작 시퀀스를 자율적으로 만들어낸다"고 덧붙였다.
'알타3'의 주요 관절에는 압축공기에 의해 구동되는 액추에이터 43개가 탑재됐다. 이런 구조는 기존 로봇과 다르지 않지만 인간의 척수 역할을 하는 중앙 패턴 생성기(CPG)와 뇌 신경세포를 본뜬 신경망 1000개를 탑재해 실시간으로 동작을 생성한다.
인간이 말을 통해 '알타3'에 지시를 내리면 GPT-4가 이를 인식해 동작 절차를 복기한다. 예컨대 아이폰으로 셀카를 찍어보라고 명령하면, GPT-4는 "과장된 미소와 부릅뜬 눈으로 흥분상태를 표시하라" 내지 "상체를 가볍게 왼쪽으로 향하고 역동적인 포즈를 취하라" 등 최초 지시를 보다 구체화한다.
얼터너티브 머신 관계자는 "GPT-4가 세분화한 명령어는 '알타3'가 쉽게 구현하도록 파이썬(Python) 코드로 실시간 변환된다"며 "'알타3'는 이 코드에 따라 몸의 관절을 조작해 사람이 지시한 포즈를 자율적으로 만들어낼 수 있다"고 전했다.
제시된 동영상은 '알타3'가 유령 흉내를 내보라는 명령어에 대응한 동작을 담았다. 아직은 완전하지 않고 어딘가 어색하지만 사람의 명령어를 알아듣고 실시간으로 움직임을 만들어냈다는 점이 놀랍다. 이런 동작이 가능한 휴머노이드는 영국 엔지니어드 아츠(Engineered Arts)의 '아메카(Ameca)'가 거의 유일했다.
얼터너티브 머신 관계자는 "'알타3'는 AI의 기계학습 능력을 통해 보다 개선된 동작이 가능하다"며 "가령 손을 높이 들라는 지시를 받은 '알타'가 포즈를 취했고, 사람이 더 높이 들라고 수정된 명령어를 전했다면, '알타3'는 이를 기억했다가 다음에 비슷한 지시가 내려지면 자동으로 수정된 동작을 취한다"고 말했다.
'알타'는 2016년 첫 모델이 등장했다. 도쿄대학교 인공생명 연구자 이케가미 타카시 교수와 오사카대학교 지능로봇연구소 이시구로 히로시 교수 등 로봇공학 분야의 권위자들과 여러 기업이 의기투합했다.
이 휴머노이드는 "생명, 그리고 생명감이란 무엇인가"라는 의문에서 출발했다. 성별과 나이를 가늠하기 어려운 오묘한 얼굴을 갖고 있으며, 인간과 같이 입으로 발성하는 '토킹 모듈레이터'를 탑재했다. 움직이거나 신체 방향을 바꾸면 인간과 마찬가지로 목소리가 흔들리는 자연 발성도 가능하다.
이처럼 보다 인간과 비슷한 기계를 지향하는 '알타3'는 2019년 2월 28일 도쿄 신국립극장에서 안드로이드 오페라 '스케어리 뷰티(Scary Beauty)'를 인간 교향악단과 공동 연주하기도 했다.
정이안 기자 anglee@sputnik.kr