토론

목소리를 보는 AI

#인공지능 417

2024.03.29

270

AI 윤리 레터

인공지능 윤리를 고민하는 직장인, 프리랜서, 대학원생이 꾸려가는 뉴스레터입니다.

목소리를 보는 AI

by. 💂죠셉

농인들의 언어인 ‘수어(sign language)’에 대해 얼마나 알고 계신가요? 저는 2년 전쯤 우연히 올리버 색스의 <목소리를 보았네>라는 책을 만나 수어의 세계에 매료되었고, 한국 수어를 배우기 시작했습니다. 이후 여러 사람과 이야기를 나누다 보니 수어에 대한 일반적인 오해가 몇 가지 있단 걸 알게 됐는데요. 예를 들어:

가령 한국 수어의 경우 청인들이 사용하는 ‘한국어'를 단순히 손으로 옮긴 게 아닙니다. 한국 수어가 공식적으로 대한민국의 제2 법정 공용어라는 사실에서 알 수 있듯, 수어는 그 자체로 하나의 완전한 언어체계이자 문화입니다. 다만 청인들의 음성 언어와는 완전히 다른 ‘공간 언어'인 것이죠. (농인은 수어로 생각하고 꿈도 꿉니다.) 청인이 음성이나 문자 대신 갑자기 손을 사용해 소통해야 한다면 무척 낯설겠죠? 즉, 농인들에게 ‘한국어’는 노력해서 배워야 하는 낯선 개념의 제2외국어라는 것입니다.
전 세계 공용 수어는 존재하지 않습니다. 한국어와 영어가 다른 것처럼 한국 수어와 미국 수어도 완전히 다른 언어입니다.
이름에 손 수(手)자가 들어갔지만, 손의 움직임은 수어 커뮤니케이션의 일부분일 뿐입니다. 가령 똑같은 손 제스쳐를 취해도 얼굴로 어떤 표정을 짓느냐에 따라 수어의 의미는 달라질 수 있습니다.

AI 이야기를 하는 레터에서 왠 수어 이야기냐고요? 작년 2월, 신경다양성을 주제로 한 워크샵에서 한국계 수어 아티스트인 크리스틴 선 킴 (Christine Sun Kim)의 발표를 들을 기회가 있었는데요. 발표 이후 질의응답 순서 때 제가 했던 질문이 생각납니다.

"농인 커뮤니티는 LLM(거대 언어 모델)을 기반으로 한 AI 기술을 어떻게 활용하고 있나요?"

당시 챗GPT의 등장으로 챗봇들이 막 화제가 되기 시작했던 시점이었기 때문에 구체적인 대답을 듣지는 못했는데요. 각종 거대 언어 모델들이 앞다퉈 상상을 초월하는 성과를 이루는 걸 목격한 지난 1년이었지만, 저의 질문에 대한 대답은 여전히 답보 상태인 것 같습니다.

‘소리’가 농인에게 어떻게 감각되는지를 중심으로 작품활동을 하는 아티스트 Christine Sun Kim (출처: Ryan Lash, TED)

일단 Deaf community, sign language, AI 등의 키워드로 구글 검색을 해봐도 주류 언론사는 물론 일반 블로그 포함, 흥미로운 글이 몇 없습니다. 그만큼 상대적으로 관심도 적고, 현실적인 어려움도 있다는 뜻일 텐데요. 제가 위에 나열한 수어의 특징들이 난관으로 작용하고 있는 것으로 보입니다.

수어를 비디오로 캡쳐한 후 LLM을 통해 문자 언어로 번역해 내는 과정에 대한 몇몇 연구 결과가 존재하지만, 프로토타입 수준으로 아직 상용화와는 거리가 있어보입니다. 앞서 언급했듯 수어는 청인 입장에서 보면 ‘비언어’에 속하는 많은 요소 (손뿐만 아니라 얼굴 표정, 필요할 경우 바디 랭귀지까지)를 포함하기 때문이죠.
더구나 국가마다 다른 수어가 존재한다는 것은 그만큼 데이터를 확보하기가 어렵다는 뜻이기도 합니다. 웹상의 데이터들을 긁어모아 활용하는 거대 언어 모델의 특성상 영어 외 언어가 상대적으로 소외 될 수밖에 없죠. 언어 중에도 소수에 속하는 전세계 300여 개의 수어는 더욱 그렇습니다.

그런데 기술적 어려움과는 별개로, 챗봇 사용에 대한 농인 커뮤니티 내부의 우려가 존재한다는 점은 주목할 만합니다. LLM을 기반으로 하는 챗봇 사용은 정보에 대한 접근성 측면에서 농인들에게 분명 도움이 되는 측면이 있지만, 문자를 기반으로 하는 기술에 의존할 수록 수어 사용이 줄어들 수 있다는 것이죠.

농인 커뮤니티에게 수어는 단순 소통의 수단을 넘어 그들 고유의 문화와 인권 투쟁의 역사를 포함하는 의미가 있습니다. 전 세계 대부분 농인 커뮤니티가 오랜 기간 사회적응이라는 목적하에 청인의 언어를 강요 받은 역사를 공유하기 때문인데요. 챗봇 사용 및 도입을 ‘생존을 위한 필수 역량’처럼 이야기하고 있는 분위기가 보편화될 수록, 조금 다른 맥락에서 과거 획일화의 역사가 반복되는 건 아닐까요?

구글 AI의 편향을 지적한 이후 해고당한 것으로 알려진 팀닛 게브루 (Timnit Gebru) (출처: 게티이미지)

구글의 AI 윤리 리서쳐였던 팀닛 게브루의 보고서에 따르면 인터넷상에 흩어져있는 텍스트들을 학습한 거대언어모델은 자연스럽게 특권층의 언어를 대표합니다. 생업이 바쁘다거나 장애 등의 이유로 온라인보다 현실 세계에 더 많이 속해있는 사람들은 그만큼 온라인상에 흔적이 적고, 그 결과로 학습에서 배제되기 때문이죠.

오늘 저의 레터는 농인 커뮤니티를 중심으로 이야기를 전달했지만, 챗GPT와 같은 거대 언어 모델의 다양성 확보라는 측면에서 중요한 의미를 가집니다. 기술 발전의 뒤편에서 소실되는 다양성에 대해 계속 예의주시하며 그에 대한 감각을 유지해야 하는 이유. 그건 우리 모두가 어떤 형태로든 소수성을 가지고 있기 때문일 겁니다. 갈수록 사회 전반에 걸쳐 영향력을 행사하게 될 AI 모델이 어떤 식으로 개발되는지, 그 과정에서 가치판단이 필요할 때 누가 왜 그런 결정을 내렸는지에 대해 우리는 더욱 높은 투명성을 요구할 권리가 있습니다.

스케일이 커진다면 지능이 등장할까? [Part. 1]

by 🧙‍♂️텍스

🧙‍♂️ 안녕하세요. AI 윤리 레터에 필진으로 새로 합류한 텍스(Tex) 입니다. 인공지능 연구자로 컴퓨터 비전과 기계학습을 주로 연구하고 있고, 기술과 사회의 상호작용에 많은 관심이 있습니다.

근 10여 년 인공지능 발전을 지켜본 연구자로 요즘 분위기는 참 새삼스럽습니다. 알파고가 이세돌을 이겼을 때도 미디어는 시끄러웠지만 사회에 큰 변화는 없었던 것 같습니다. 하지만 챗GPT와 Stable Diffusion의 등장 이후로 인공지능에 대한 분위기가 크게 바뀐 것이 느껴집니다. 과거 인공지능 커뮤니티는 엄청 개방적인 연구 커뮤니티였습니다. 인터넷상의 인공지능 논문은 원래부터 누구나 접근할 수 있었고 실험을 위한 데이터와 코드 또한 공개된 것들이 많았습니다. 하지만 언제부턴가 인공지능 커뮤니티는 점점 폐쇄적으로 변해가고 있습니다. 학술대회에서 다루는 주제 또한 상업적인 가치가 있는 것들로 편중되는 듯한 느낌을 받습니다. AI 윤리 레터의 공간을 빌어 연구자 혹은 엔지니어의 시선으로 인공지능 분야의 상황에 관해서 이야기해 보려고 합니다.

대규모의 모델, 데이터, 그리고 컴퓨터 자원이 있다면 범용 인공지능에 이를 수 있다는 ‘오픈AI의 스케일에 대한 믿음’은 어느 순간 법칙처럼 미디어에 회자됩니다. 이러한 가설에 기반 해서 많은 이야기가 돌아다닙니다. 인공지능 학계에서 스케일에 대한 믿음이 어떻게 등장했는지 살펴보고 이후 최근 동향에 대해 분석해 보려고 합니다. 글이 길어질 것 같으니 일단 그 ‘믿음’이 생긴 과정을 서술하고 이후 관련 이야기들에 대한 생각을 정리하겠습니다.

이미 실패했던 스케일 업 (Scale up)

대규모 인공신경망 모델이 등장하기에 앞서 태초에 대규모 데이터가 있었습니다. 스탠포드의 페이페이 리 교수는 2009년 이미지넷 데이터셋을 완성합니다. 그리고 2010년부터 이미지넷 챌린지를 시작했습니다. 이미지넷 챌린지는 총 1,281,167개의 학습 이미지 이용해서 1,000개의 물체 범주를 예측하는 물체 인식 알고리즘을 만드는 대회였습니다. 2011년까지는 기존 연구자들은 인간의 눈에서 영감을 얻은 알고리즘을 고도화시켜 가며 물체 인식을 진행하고 있었습니다.

2012년 혜성처럼 등장한 AlexNet은 기존 기법을 사용한 2등과의 압도적인 차이로 1등을 달성했습니다. AlexNet은 당시 기준으론 굉장히 거대한 모델이었습니다. 신경망의 매개변수(parameters) 개수만 해도 6,230만 개 (62.3M)였고, 파일 크기로 환산하면 237.7 MB에 이르렀습니다. AlexNet 연구진은 CPU 대비 훨씬 빠른 행렬 연산 속도를 자랑했던 엔비디아 GPU 2개를 사용해 AlexNet 학습을 진행했습니다. AlexNet이 엔비디아 GPU에서 학습되었다는 사실이 엔비디아의 현 모습을 절반 정도는 설명합니다. (나머지 절반은 아마 암호화폐가 설명하지 않을까 싶습니다.)

2012년 등장한 이후로 오늘 기준 127,107회의 인용 수를 자랑하는 AlexNet 논문입니다. 논문의 제 1저자 알렉스의 이름을 따 AlexNet이라고 불리고 있습니다. 제 2저wk는 작년 샘 올트먼을 이사회에서 쫓아내려고 했던 일리야 수츠케버입니다. 제 3저자는 인공지능 분야의 대부인 제프리 힌튼 교수입니다. (출처: 해당 논문)

2012년 AlexNet이 이미지넷 챌린지 1위를 한 이후 인공신경망은 ‘딥러닝’이라는 이름으로 부활합니다. AlexNet은 7개의 인공신경망 레이어로 이루어져 있었습니다. 이후 등장한 연구들은 레이어를 더욱 깊게 쌓아가며 높은 성능을 달성하였고, ‘사람보다 나은’ 성능을 달성하기에 이릅니다. 사람을 넘었다는 점에서 적어도 물체 인식 알고리즘은 ‘약한 인공지능’을 이루었다고 할 수 있습니다. 하지만 여기서 더 나아가 1,202개의 레이어까지 쌓아본 연구는 더 많은 레이어가 언제나 좋은 성능을 이끄는 것은 아니라고 결론지었습니다. 이후 ‘딥’하게 레이어를 쌓는 연구는 주춤하게 되었고, 그 대신 인공신경망 구조를 탐색하고 다른 학습 기법을 연구하는 쪽으로 관심이 옮겨가게 됩니다. 어찌 보면 이미 모델의 스케일업은 한번 실패했었습니다.

약한 인공지능을 모으면 범용 인공지능이 될 수 있을까?

2014~2016년에 이르러 딥러닝 알고리즘은 기존에 풀지 못하던 많은 문제를 해결해 나가기 시작합니다. 구글 번역에 탑재된 기계번역 알고리즘의 성능이 눈에 띄게 좋아졌고, 물체 인식의 성능은 사람의 성능을 넘게 되었으며, 2016년에서는 알파고가 이세돌을 이기는 예상치 못한 이변이 일어났습니다. 하지만 이러한 성취는 특정 작업만 수행하는 ‘약한 인공지능’으로 여겨졌습니다.

이후 생각의 확장은 자연스럽습니다. 여러 작업을 동시에 잘 푸는 알고리즘을 만들면 그것이 ‘강한’ 인공지능이 되는 것이 아닌가란 생각이죠. 학계에서는 이를 다중 작업 학습 (multi-task learning) 이라 불렀습니다. 이 패러다임의 가장 유명한 사례 두 가지가 있습니다. 하나는 테슬라의 오토파일럿이고 또 하나는 오픈AI의 GPT입니다. 초기의 오토파일럿은 자율주행을 위한 여러 인식 문제를 하나의 인공신경망으로 풀었습니다. 과거 테슬라 오토파일럿을 이끌었던 안드레 카파시 (페이페이 리 교수의 제자이기도 합니다) 는 오토파일럿에서 사용하는 다중 작업이 어떠한 것들이 있는지 발표한 적이 있습니다. 그 발표 자료에 나와 있듯, 자율주행을 위한 작업의 종류는 사전에 정의가 되어 있습니다.

한편 오픈AI의 GPT는 테슬라의 오토파일럿과는 다른 방식을 택했습니다. GPT는 ‘언어로 문제를 설명하는 것이 작업’이라는 관점으로 언어 모델에 집중했습니다. 이렇게 하면 임의의 언어로 작업을 새롭게 정의할 수 있다는 장점이 있기 때문이죠. 우리가 요즘 챗GPT에게 입력하는 프롬프트가 바로 이러한 임의의 언어로 정의된 작업의 한 예입니다. 이를 통해 인터넷의 수많은 텍스트 데이터를 모두 학습 데이터로 사용할 수 있는 가능성이 열렸습니다.

세로축은 모델이 예측하는 정확도, 가로축은 프롬프트에 제시해 주는 예시의 수를 보여줍니다. 크기가 1.3B, 13B, 175B로 다른 세 가지 모델이 초록색, 주황색, 파란색으로 나타나 있습니다. Zero-shot은 프롬프트에 예시를 제공해 주지 않은 경우입니다. One-shot은 프롬프트에 예시를 한 개만 준 경우입니다. Few-shot은 프롬프트에 예시를 1개 초과해서 제공해 준 경우입니다. 가로축을 따라 zero-shot, one-shot, few-shot으로 프롬프트에 예시 개수가 늘어남에 따라 정확도가 급격히 상승하는 것을 볼 수 있습니다. 이는 GPT 에게 왜 프롬프트가 중요한지를 보여주는 그래프라고 할 수 있습니다. (출처: GPT3 논문)

오픈AI는 GPT를 구성하는 인공신경망의 크기와 데이터 규모를 조금씩 키워나갔습니다. 인공신경망의 크기를 살펴보면, GPT1(117M)은 446MB, GPT2(1.5B)는 5.6GB 그리고 대망의 GPT3(175B)는 651.9GB(!)에 이르렀습니다. 위 그래프를 보면 왜 오픈AI가 스케일을 키우고 싶어 하는지를 알 수 있습니다. 175B보다 더 큰 모델을 학습시키면 파란색 선을 상회하는 성능에 이르지 않겠느냐는 기대였겠죠.

그런데 그다음으로 나온 것은 더 큰 텍스트 모델이 아니라 텍스트와 이미지를 동시에 다룰 수 있는 멀티모달 (multi-modal) 형태의 GPT4였습니다. 모델 스케일을 더욱더 키우기 위해서는 그에 앞서 데이터의 스케일을 키워줘야 합니다. AlexNet 등장 이전에 대규모 데이터셋인 이미지넷이 존재했던 것과 같은 맥락입니다.

그런데 만약 GPT3를 위해 인터넷에 공개된 모든 텍스트를 이미 사용했다면, 데이터셋을 더 키우기 위해 남은 선택지는 ‘다른 형태의 데이터’를 추가하는 것밖에 없습니다. 인공지능이 다루는 멀티모달 데이터의 종류는 앞으로도 계속 범위를 확장해 나갈 가능성이 큽니다. 데이터 스케일을 키우기 위한 가장 쉬운 해법이기 때문이죠.

GPT4 기술보고서에는 모델 크기와 데이터 규모, 컴퓨팅 자원 중 어느 것도 공개되지 않았기에 스케일이 얼마나 커졌는지 알 수가 없습니다. 하지만 더 많은 자본이 투입되었다는 것을 확인해 볼 수 있는 단서는 있습니다. 바로 저자 숫자입니다. 2018년 GPT1은 4명, 2019년 GPT2는 6명인데 2020년 GPT3 논문의 저자 숫자는 31명으로 급격히 늘었습니다. 그리고 대망의 GPT4 테크니컬 리포트에서는 거의 전사 직원이 아닐까 싶은 280명(!)이 됩니다.

자본을 대규모로 투자해 이룬 GPT4는 과거의 인공지능 연구와 비교한다면 보다 범용 인공지능에 가까워졌다는 표현을 조심스럽게 할 수 있습니다. 하지만, 챗GPT 서비스에서 보이는 GPT의 모습은 여전히 불완전합니다. 조만간 해결된다는 환각은 여전히 해결되지 않았습니다. 과연 우리는 스케일업을 통해 범용 인공지능을 구현할 수 있을까요?