토론

가상과 현실의 간극 줄이기

2024.08.29

194

인공지능 426

AI_윤리_레터

인공지능 윤리를 고민하는 직장인, 프리랜서, 대학원생이 꾸려가는 뉴스레터입니다.

가상과 현실의 간극 줄이기: 로봇학습 데이터 수집

by 🧙‍♂️텍스

최근 들어 AI 하이프(hype)는 슬슬 로봇 하이프로 옮겨가는 듯 보입니다. 이번 주 기사들은 테슬라가 휴머노이드 로봇 옵티머스를 개발하기 위해 모션 캡처와 VR 기술을 활용하여 인간의 행동 데이터를 수집하는 직군을 채용하는 사실을 다루었습니다. 테슬라뿐만 아니라 여러 기업이 실제 현실에서 인간의 작업을 대체하는 인공지능 로봇을 만들겠다고 주장합니다. 회사들의 일방적인 주장은 기사 형태로 그대로 공유됩니다. 정말 인공지능 로봇은 우리의 삶에 빠르게 등장할까요?

현실 세상에서 로봇을 작동시키려면 많은 고려를 해야합니다. 로봇은 로봇 자신의 행동을 통제하고, 로봇을 둘러싼 환경을 이해해야하고, 목적에 따라 자기 행동을 계획할 수 있어야 합니다. 고전적인 로봇은 이를 모두 수학과 물리 문제로 정리하여 해결하였고 이를 통해 정교한 조작이 가능함을 보여주었습니다. 하지만 고전 방법론의 경우 현실 세계에 존재하는 약간의 불확실성에도 대응하기 어렵기에, 불확실성이 가득 찬 공장 혹은 물류창고 밖에서 로봇을 작동시키기는 어려운 점이 많았습니다.

근 10년간 기계학습 (Machine Learning) 분야의 발전은 현실의 불확실성에 대응할 수 있는 인식 (Recognition) 능력을 보여주었습니다. 이러한 성과는 로봇학습 (Robot Learning)을 통해 인공지능을 장착한 로봇이 공장 밖에서 동작할 수 있는 가능성을 보여줍니다. 로봇학습은 학습이기에 당연하게도 데이터가 중요합니다. 오늘 글에서는 그중에서 로봇 학습용 데이터 수집 방법인 시뮬레이션, 모션 캡처, 원격 조작을 살펴보려고 합니다.

1. 시뮬레이션 (Simulation)

yellow inflatable smiling emoji balloon in focus photography — 메타의 실내 공간 시뮬레이터 Habitat 영상 예시 / 출처: Habitat 홈페이지

시뮬레이션을 통하면 그래픽스로 구성된 가상 세계에서 로봇을 동작시킬 수 있습니다. 이러한 가상 세계에서는 다양한 로봇 형태 및 목적하는 시나리오를 다 서술할 수 있고 이를 통해 로봇 학습 데이터를 얻을 수 있습니다. 특히, 시뮬레이션을 통하면 현실적으로 데이터 취득이 어려운 코너 케이스 등의 시나리오를 구성할 수 있기 때문에 안정성 보장을 위한 꾸준한 수요가 있을 것으로 판단됩니다. 가령 자율주행 시나리오에서 ’고라니가 차량을 덮치는 것’과 같은 한문철 TV에 나올 법한 교통사고 등의 특이한 데이터는 시뮬레이션을 통해서 얻어야 할 것입니다.

하지만, 시뮬레이션은 현실의 복잡한 특성을 완벽하게 반영하지 못하는 한계가 있습니다. 로봇학습을 위해서는 이 차이를 줄일 수 있는 추가적인 데이터 혹은 알고리즘을 요구로 합니다. 다만, 시뮬레이션-현실 차이가 줄어들수록 강점이 매우 커지기 때문에 많은 테크 기업들은 꾸준한 관심을 갖고 있습니다. 엔비디아는 로봇 시뮬레이션을 하기 위한 프레임워크 ISAAC SIM, 메타는 실내에서 동작하는 로봇을 만들기 위한 시뮬레이터인 Habitat을 진행입니다.

2. 모션 캡처 (Motion Capture)

모션 캡처 기술은 모션 캡처 슈트에 표시된 랜드마크를 여러 대의 카메라로 촬영하여 사람의 행동을 3차원 공간에 데이터화하는 기술입니다. 기존에는 애니메이션, 영화, 비디오 게임 등의 캐릭터를 움직이는 데 적용되었고 현재는 휴머노이드 로봇을 움직일 수 있는 학습 데이터로 용도가 확장되는 중입니다. 기존 정교한 모션 캡처 기술은 숙련된 배우가 모션 캡쳐 슈트를 입고 행동을 해야하기에 데이터 취득 비용이 많이 들었습니다만, 기술이 고도화됨에 따라 모션 캡쳐 비용을 크게 줄어들었습니다. 최근에는 카메라 한 대로 찍은 동영상 한대에서 사람의 행동을 뽑아내는 기술 또한 많은 연구개발이 진행되고 있습니다. 최근 들어 많아진 버튜버 또한 모션 캡처 기술이 저렴해지고, 성숙하면서 나온 흐름 중 하나입니다.

기업이 휴머노이드 로봇 개발에 힘쓰는 이유는 데이터 취득의 용이성에 있습니다. 모션 캡처한 데이터를 활용하기 위해서는 실제 사람과 캐릭터의 골격을 조율해주는 모션 리타게팅 (Motion retargeting) 과정이 필수적인데, 휴머노이드 로봇은 사람과 형태가 유사하기 때문에 이 부분에서 문제가 발생할 가능성이 작습니다. 즉, 가상-현실 차이가 작은 것이죠. 실제로 테슬라 휴머노이드 로봇인 옵티머스 1세대의 경우 키 173cm, 몸무게 73kg이며, 오픈AI가 투자해서 유명해진 피규어AI의 피규어01은 160cm, 60kg로 성인의 신체와 비슷한 키와 몸무게를 가지고 있습니다.

데이터 취득을 위해 다양한 모션 캡쳐 방법이 활용될 수 있습니다. (1) 모션 캡쳐 슈트를 사용하는 방법은 매우 정교하며 이미 상업적인 솔루션이 있습니다. 테슬라는 이 셋팅에 VR 장비를 이용해서 시선과 손의 움직임을 더해주는 것으로 보입니다. (2) 실제 작업 공간에 복수의 카메라를 부착하면 모션 캡쳐 슈트 없이도 어느 정도 사람의 행동을 데이터로 취득할 수 있습니다. 물류 창고, 공장 등과 같은 곳에서 작업을 촬영할 수 있을 것입니다. (3) 온라인상에는 사람을 피사체로 한 수많은 동영상이 있습니다. 이 동영상을 활용하여 로봇학습에 쓸 모션 데이터를 취득할 수 있습니다.

3. 원격 조작 (Tele-operation)

왼쪽은 오픈소스 하드웨어 로봇 플랫폼을 이용해 원격 조작을 통해 데이터를 수집하는 과정, 오른쪽은 수집된 데이터로 모델을 학습하여 수행한 동작 (learned policy) 예시 / 출처: MobileAloha 테크니컬레포트

원격 조작은 로봇을 동작시켜서 데이터를 취득하는 방법입니다. 앞서 언급했던 두 방법 대비 고품질의 로봇학습 데이터를 얻을 수 있는 확실한 방법이라는 점에서 장점이 큽니다. 가상-현실 차이가 거의 없기 때문입니다. 하지만, 로봇을 직접 동작시켜야 하다 보니 숙련이 필요하고 데이터 규모를 키우기 힘든 단점이 있습니다.

로봇학습은 아니지만 원격 조작은 자체는 다양한 용도로 이미 사용되고 있습니다. 외과 수술에서 다빈치 로봇 등을 사용하여 정교한 외과 수술을 하고 있습니다. 또한, 자율주행을 보완하는 용도로 원격주행 또한 사용 예정입니다. 현재 자동차의 원격 운전은 내년 초 서비스를 목표로 논의 과정에 있으며, 관제센터에서 배달 로봇의 원격 제어 또한 당연히 언급되고 있습니다. 통신만 가능하면 직접적으로 로봇이 동작가능하기 때문에 원격 조작은 우리 생활 속에서 로봇 작동하는 가장 빠른 방법이 될 것으로 보입니다.

사용자의 직접적인 원격 조작으로 데이터 규모를 키우는 데 한계가 있지만, 반대로 원격 조작이 가능한 로봇 플랫폼이 현실에 널리 도입되면 대규모 실사용 데이터를 학습 데이터로 바로 활용할 수 있습니다. 따라서 기업들 입장에서는 원격 조작 로봇으로 시작해서 로봇 플랫폼 확장하는 것이 자연스러운 흐름일 것입니다. 이는 동시에 원격 조작 취득 데이터의 활용 방안에 대한 논의또한 만들 것입니다.

다시 또 반복될 가능성이 있는 사용자와 창작자의 소외

로봇학습을 위한 정형화된 방법은 없기에 기사들의 호들갑보다는 인공지능 로봇의 등장은 늦어지리라 생각합니다. 하지만 챗GPT와 같은 챗봇과 비교했을 때 현실에서 작동하는 로봇은 훨씬 더 높은 사회적 장벽이 있습니다. 챗봇의 환각이나 비윤리적 발화로는 직접적으로 상해를 입을 확률은 낮고 사용자가 유연하게 대응할 수 있지만, 로봇의 오작동은 누군가에게 상해를 입힐 수 있기 때문입니다. 따라서 춘추전국시대인 로봇 학습 방법들이 현실에서 검증되기까지는 인공지능 로봇의 등장은 온라인 미디어상의 검색엔진이나 챗봇보다 훨씬 더 오래 걸릴 수밖에 없습니다.

AI에서 발생했던 학습 데이터 문제는 로봇 영역에서도 반복될 가능성이 높습니다. 프라이버시와 저작권 이슈 또한 마찬가지입니다. 현재 직장 내 CCTV는 개인정보보호법의 영역에서 다루어지고 있습니다만, 사측에서 작업 중 모션 캡처 데이터 수집을 위해 영상 촬영을 강제한다면 어떻게 해야할까요? 테슬라가 이용자의 운전 데이터를 가지고 오토파일럿을 학습했다면, 운전 데이터는 일종의 원격 조종 데이터로 활용된 샘입니다. 이 경우 로봇 학습 데이터 활용에 대해 운전자의 동의를 구해야하지 않을까요? 모션 캡처를 위해 온라인 상 동영상을 활용하는 것은 또 어떨까요? 로봇학습은 생성형AI와 달리 온라인 상 동영상이 학습에 쓰였는지 조차 알기 어렵습니다.

다가올 로봇 학습 시대에 상황과 맥락은 달라지겠지만, 학습 데이터 취득 및 활용에 이용자와 창작자의 의사가 반영될 수 있는 구조가 필요하다는 사실에는 변함이 없습니다.