토론

왜 인공지능은 정치적일까?

#인공지능 417

2024.04.20

389

AI 윤리 레터

인공지능 윤리를 고민하는 직장인, 프리랜서, 대학원생이 꾸려가는 뉴스레터입니다.

스케일이 커진다면 지능이 등장할까? [Part. 2]

by 🧙‍♂️텍스

데이터로 모방한 지능

앨런 튜링은 1950년 “Computing Machinery and Intelligence”라는 논문에서 흔히 튜링 테스트라고 불리는 이미테이션 게임(Imitation game)을 제안했습니다. 튜링 테스트는 컴퓨터(A)와 사람(B) 그리고 심판(C)의 세 플레이어가 있는 게임으로 대화를 통해서 심판이 컴퓨터와 사람을 판별합니다. 심판은 상대방을 직접 확인할 수는 없고 터미널을 통해서 대화를 주고받습니다. 심판이 만약 사람과 컴퓨터를 구분하지 못한다면 컴퓨터가 지능을 갖고 있다고 생각할 수 있지 않냐는 제안입니다. 튜링 테스트는 인공지능 분야의 근간을 형성해 왔습니다.

튜링 테스트 예시. 출처: 위키피디아

데이터로 구축한 인공지능 알고리즘은 암묵적인 튜링 테스트를 수행합니다. 벤치마크 상 성능 측정은 심판의 역할을 대체합니다. 이 관점에서 생각하면 더 많은 데이터를 사용한다는 것은 사람의 행동을 더 잘 모방하려는 시도라는 것을 명확하게 알 수 있습니다. 심판이 어떤 질문을 할지 모르니 최대한 준비를 잘해두는 것이죠.

앞서 살펴본 GPT-1, GPT-2 그리고 GPT-3에서 보듯이 학습 데이터와 모델의 스케일을 키우면 성능이 오릅니다. GPT-4에 이르러서는 SAT나 변호사 시험 같은 시험에서 사람 수준의 성적을 달성했다고 주장합니다. 적어도 시험 채점하는 사람 입장에서는 알고리즘인지 사람인지를 구분하기 힘든 시대가 되었다고 할 수 있습니다. 이런 맥락에서 모델과 데이터 스케일이 더 커지면 AGI에 도달할 수 있지 않겠냐고 기대하는 것입니다.

다만, 출제자의 의도를 비틀어서 문제를 푼 느낌입니다. 심판이나 인간은 개별 사람인 데 반해서 컴퓨터는 인터넷 스케일의 데이터를 다루는 상황이기 때문이죠. 탐탁지는 않지만, 이러한 인공지능 알고리즘은 적어도 튜링 테스트 관점에서는 지능의 요소를 갖추고 있다고 조심스럽게 말해볼 수 있을 것 같습니다.

또한 이러한 지능은 벤치마크 내에서만 작동한다는 한계가 있습니다. 학습 데이터를 바꾸면 인공지능 알고리즘의 성질도 바뀌기 때문이죠. 스케일 법칙 또한 평가용 벤치마크 내에서 스케일을 키웠을 때 성능이 오른다는 이야기이기 때문입니다. 고려 대상 밖의 데이터에 대해서 성능이 오른다는 증명이나 법칙은 없습니다. 단지 믿음일 뿐입니다. 이러한 맥락에서 현시대의 인공지능은 데이터 지능이라고 불러야 할 듯싶습니다.

데이터 지능 길들이기

인터넷에서 수집한 데이터는 굉장히 많은 잡음이 섞여 있습니다. 사회의 다양한 의견 뿐만 아니라 극단적인 주장도 포함되어 있고, 시간에 따라서 사실이 변했거나, 불확실한 정보 또한 담겨있을 것입니다. 데이터를 모방하는 현재의 인공지능 패러다임의 특성상 데이터를 정제는 필수적입니다. 이 과정을 통해 사회적인 합의를 데이터의 형태로 표현하고 알고리즘을 이를 모방합니다. 하지만 많은 경우 정제한 결과를 사회적인 합의라고 가정하는 경우가 더 많은 것이 아닌가라는 의문이 듭니다.

최근 구글 제미나이의 이미지 생성 알고리즘의 해프닝은 이러한 문제가 얼마나 어려운 지에 대해서 알 수 있습니다.

제미나이 이미지 생성 알고리즘의 해프닝 관련 X 포스팅. 출처: X 포스팅 링크

데이터셋의 편향으로 인해 알고리즘이 성별이나 인종에 대한 편견을 갖는다는 사실은 생성AI가 등장하기 이전에도 이미 많이 알려져 있습니다. 이를 보완하기 위해서 성별과 인종같이 편향이 있는 개념에 대한 편향없는 예측을 강제하도록 하는 불편향(de-biasing) 알고리즘이 많이 제안되었습니다.

제미나이의 문제는 불편향 알고리즘과 생성AI의 교차 지점에서 발생한 것으로 보입니다. ‘흑인으로 묘사된 미국 건국의 아버지’, ‘흑인 나치 군인’, ‘여성 교황’은 사실 정보에 약한 현재 생성AI의 특성을 보여주는 사례입니다. 사회적 지능이 있다면 사실 정보와 윤리적 개념을 이해할 수 있겠지만, 데이터 구성에 판단을 위탁하는 현재 알고리즘에는 어려운 문제입니다. 현재 인공지능 알고리즘이 이를 다루기 위해서는 데이터셋 상 편향을 완화하면서도 동시에 실존 인물들에 대한 사실 정보를 모두 고려하여야 합니다. 이러한 사례뿐만 아니라, 데이터 지능은 AI 윤리에서 새롭게 밝혀지는 사실을 모두 케이스 바이 케이스로 다뤄야 할 가능성이 높습니다.

최근 챗GPT가 생성한 결과에 대한 피드백을 받기 위한 인터페이스가 추가되었습니다. 출처: 챗GPT 화면 캡처

오픈AI는 스케일은 이러한 문제를 해결해 주지 않는다는 사실을 가장 잘 알고 있습니다. 오픈AI는 정렬(alignment) 이라는 방법을 고안하고 나서야 챗GPT 서비스를 시작했습니다. GPT-4에서도 여전히 AI 정렬을 사용하고 있습니다. 결과적으로 현재 데이터 지능의 패러다임에서 데이터셋을 구축은 그 자체로 지능을 부여하는 것과 동일합니다. AI 윤리 또한 자연스럽게 고려되어야 할 수 밖에 없습니다.

그리고 최근에는 챗GPT가 생성한 결과에 직접적인 피드백을 줄 수 있는 인터페이스가 추가되었습니다. 챗GPT에 대한 피드백을 제공해 주기 때문에 사회적 지능에 대한 내부 벤치마크를 구성하는 용도로 사용될 가능성이 높습니다. 스케일이 지능을 만드는 것은 아니지만, 벤치마크로 포획된 데이터는 잘 푼다는 데이터 지능의 특성을 고민해 볼 필요가 있습니다. 또한 이렇게 수집한 데이터는 외부로 공개되지 않는다는 측면에서 추후 추격하든 다른 회사 대비 오픈AI의 차별성이 될 가능성이 높습니다. 이는 장기적으로 사용자층을 많이 보유하고 있는 글로벌 LLM 서비스들이 관련 시장을 독과점할 가능성이 높지 않겠느냐는 우려를 낳습니다.

AI 정렬 (Alignment)은 오픈AI가 InstructGPT라는 연구에서 제안한 거대언어모델(LLM) 미세조정기법입니다. 사용자 의도를 훨씬 더 잘 따를 수 있게 명령어 대화 데이터셋을 구성하고 이를 이용하여 거대언어모델을 미세 조정하는 기법이며, 이 과정을 통해 보다 진실되고(truthful) 덜 독성(toxic)을 가진 생성 결과 의도하였다고 주장합니다.

실천적 지능을 위한 AI 에이전트

튜링 테스트는 이미 한계를 맞이했기에 이를 보완할 수 있는 지능의 정의가 중요합니다. 최근 관심을 받는 AI 에이전트는 목적에 따라서 작업을 계획하고 실행에 옮기는 것을 목표로 합니다. AI 에이전트가 목표를 달성하기 위해서는 튜링 테스트 지능과는 다른 형태의 실천적 지능을 요구합니다.

최근 오픈AI의 sora가 놀라운 동영상 생성 능력으로 많은 관심을 받았습니다. 흥미로운 점은 sora의 기술 보고서의 제목 “Video generation models as world simulators”에서 드러나듯이 동영상 생성뿐만 아니라 sora는 현실 세계에 대한 시뮬레이터 역할도 가능한 것으로 보입니다. 과거 오픈AI가 수행했던 마인크래프트 에이전트 연구를 보면 동영상 기반의 시뮬레이터에 대한 힌트를 얻을 수 있습니다. 실제로 sora의 데모 영상 중에도 생성된 마인크래프트 플레이 영상이 있습니다.

Video Pre-training Model (VPT)의 전체 파이프라인 구조. 출처: 오픈AI VPT 포스팅

2022년 6월에 공개된 Video Pre-training Model (VPT)는 마인크래프트 에이전트를 만드는 방법을 제안했습니다. 학습된 VPT는 동영상 기반의 마인크래프트 에이전트이자 시뮬레이터로 사용될 수 있습니다. 이 연구는 다이아몬드 곡괭이를 만들 수 있는 첫 번째 마인크래프트 에이전트로 유명세를 치렀습니다.

VPT를 구축하는 전체 파이프라인은 챗GPT를 만드는 과정과 유사합니다. 우선 두 종류의 데이터 수집을 했습니다. (1) 인터넷에서 대규모 마인크래프트 플레이 영상을 수집하여 정제하였고 (2) 사용자의 키보드 조작이 포함된 고퀄리티의 마인크래프트 플레이 영상 데이터셋을 직접 구축하였습니다. 이 두 가지 데이터셋을 이용해 VPT를 사전 학습을 합니다. 학습된 VPT는 동영상 속 사용자가 어떤 키보드 조작으로 캐릭터를 조종했는지 역으로도 알 수 있으며, 어떤 동작을 할 때 게임 속 미래 예측이 가능합니다. (3) 하지만 에이전트로써는 능력이 부족했기 때문에 VPT를 풀고자 하는 문제에 미세 조정(fine-tune)을 합니다. 여기서는 다이아몬드 곡괭이를 만들기 위한 미세 조정을 합니다.

앞으로 AI 에이전트 등장도 VPT와 비슷한 양상을 보일 것으로 예상됩니다. (1) 사전 학습을 위한 대규모 데이터셋이 필수적일 것입니다. (2) 에이전트가 환경과 상호작용하는 데이터셋이 필요할 것입니다. (3) 그 자체로는 작업을 수행할 능력이 부족할 것이기 때문에 작업에 대한 정교한 미세 조정이 필요합니다.

인공지능에 대한 하이프(Hype)를 경계하자

이 글에서는 현재 생성AI로 대표되는 인공지능을 데이터 지능이라는 표현으로 지칭했습니다. 데이터 형태로 사회적 합의를 서술하는 것은 매우 섬세한 작업이며 높은 노력을 요구로 합니다. 이는 단순히 데이터의 양을 늘려서 해결되는 부분이 아니라 질을 올려서 해결해야 하는 부분을 의도했습니다.

인공지능에 대한 과도한 기대 혹은 하이프를 경계하자면서도 데이터 지능이라고 짚은 이유는 스케일 업은 파운데이션 모델이라는 개념어로 이미 인공지능 알고리즘의 패러다임으로 굳어졌기 때문입니다. 엔비디아뿐만 아니라 인텔, AMD 등 내로라하는 반도체 기업들이 파운데이션 모델 혹은 생성AI용 반도체를 이야기하고 있습니다. 특정 알고리즘을 위한 전용 하드웨어는 실행 속도 및 전력 측면에서 로그 단위의 획기적인 개선을 가져오는 경우가 많습니다. 이렇다는 것은 스케일 업에 대한 비용이 크게 줄어들면서, 현재 생성AI가 다른 분야로 빠르게 전파되고 관련 논의가 반복될 가능성이 크다는 것을 의미합니다.

유튜브의 동영상을 인공지능 학습에 사용하지 말라는 구글의 경고(2024년 4월 둘째 주 브리프)는 이미 동영상에 대한 대규모 데이터셋 수집이 AI 에이전트를 위해 이루어지고 있다는 현실을 보여줍니다. 이미지나 텍스트에서도 콘텐츠 창작자가 논의에서 소외되어 있었는데 동영상에서도 마찬가지로 언급되지 않고 소외되고 있습니다. 학습용 데이터의 기저에는 사람의 프라이버시나 저작권과의 교차점이 언제나 존재합니다. 이러한 논의를 꾸준히 진행해야 빠르게 변하는 시기에 관련 논의에서 주도권을 잡을 수 있으리라 봅니다.

다만, 최근 AI 에이전트 분야에서 일어나는 하이프에 대해서는 크게 경계해야 할 필요가 있습니다. AI 에이전트는 튜링 테스트를 벗어나는 지능을 달성할 가능성을 갖고 있지만, AI 에이전트를 잘 작동시키기 위해서는 넘어야 할 산이 많습니다. 텍스트나 이미지, 비디오와 같은 (1)의 형태의 데이터는 인터넷에 많이 있지만, AI 에이전트가 환경과 상호작용하는 (2)의 형태의 데이터는 매우 희귀합니다. 특히, 올해 휴머노이드 로봇에 대한 이야기들은 강한 하이프로 생각됩니다. 현실에서 작동하는 로봇에 대한 데이터는 매우 드물고 이에 대한 (1), (2), (3)의 형태의 데이터셋 구축은 매우 어려운 일입니다. 즉 생성AI와 다르게 스케일 업에 기반한 데이터 지능을 구축하기 비용이 크게 듭니다.

AI 에이전트는 기존 생성AI 대비 인간에게 직접적인 위해를 끼칠 가능성이 더 크기 때문에 AI 윤리 관점에서의 성찰이 필요할 것으로 보입니다. Stable Diffusion과 챗GPT는 창작 툴과 같은 형태로 제공되기 때문에 현실에 직접적으로 위해를 끼치지는 않습니다. 하지만 AI 에이전트의 경우는 현실에서 작업을 수행할 수 있는 형태이기 때문에 인간에게 직접적인 위해를 끼칠 가능성이 더 커집니다. AI 에이전트에게는 기존 인공지능 알고리즘보다 더 높은 AI 윤리 기준을 고민해볼 필요가 있다고 보입니다.

그래서 왜 AI가 정치적이라고요?

by. 🤔 어쪈

‘인공지능은 정치적이다.’ AI 윤리 레터를 계속 읽어온 구독자라면 꽤나 익숙하게 느껴질 문장일테죠. 하지만 인공지능이 왜 정치적인지 명쾌하게 답하기란 여간 쉬운 일이 아닙니다. 이제 막 선거가 끝나서인지 정치캠페인 속 딥페이크나 이른바 ‘가짜뉴스’를 퍼나르는 추천 알고리즘과 같은 사례가 먼저 떠오르는데요. 보다 넓은 의미의 정치를 생각해볼 순 없을까요?

AI 윤리 북클럽에서 <민주주의와 AI>를 주제로 읽은 두번째 책, <인공지능은 왜 정치적일 수밖에 없는가 (마크 코켈버그 저)>는 앞서 던진 질문을 고민하기에 제격인 저작입니다. 다만 지금껏 읽은 것 중에 평이 가장 극명하게 갈린 책이기도 합니다. 아마도 AI의 주된 정치적 쟁점을 면밀히 분석하기보다 기존 정치철학적 논의가 AI와 어떻게 연결되는지를 살피고, 그 과정에서 파생되는 질문들을 계속해서 던질 뿐 좀처럼 명쾌한 저자만의 답을 들려주지 않아서였던 것 같아요. 분명 다소 도발적인 번역본 제목보다 원제(AI의 정치철학; The Political Philosophy of AI)가 더 어울리는 개론서입니다.

정치철학을 AI로 업데이트하기

책의 각 장은 정치철학의 주요 개념으로부터 출발합니다. 책의 전반부에서 다루는 자유, 평등과 정의는 AI가 사회에 보다 깊숙이 자리잡으면서 그 의미와 전제를 재검토해야하는 대상이 되었습니다. AI 덕분에 대규모 인간 행동 데이터를 분석하고 개입할 수 있게 된 지금, ‘넛지’라는 단어 아래 손쉽게 조종당하는 우리는 여전히 자유롭다고 할 수 있을까요? 과거에 축적한 데이터 간 상관관계만을 학습한 AI를 보다 평등하고 정의로운 미래 사회를 구축하는 데에 쓸 수 있을까요?

자유, 평등과 정의에 대한 논의가 AI를 고려하여 갱신되어야 한다면, 이를 토대로 하는 민주주의 역시 마찬가지일겁니다. 특히 우리가 민주주의를 실현하기 위해 발전시켜 온 제도가 자유를 기본 전제로, 평등과 정의를 주요 방향성으로 삼아 설계되었기 때문에 이것이 여전히 유효한지 의문을 제기할 수 있겠죠.

책은 앞서 언급된 물음들을 권력이라는 개념을 중심으로 다시 살펴보기도 합니다. AI는 권력을 행사하기 위한 도구로 직접 쓰일 수도 있지만, 새로운 권력 작동 방식과 적용 지점을 만들어 낼 잠재력 역시 갖고 있습니다. 또한 AI가 지금의 지배적인 이데올로기 아래에서 만들어진만큼 다양한 사회적 모순에서 결코 자유롭지 않으며, 오히려 강화하기도 하죠. 더 나아가 권력이 꼭 하향식으로만 작동하는 게 아니라 미시적 수준에서 개개인의 자아정체성을 구성하는 것 역시 권력작용이라는 지적은 AI에 가상의 ‘빅 브라더’ 이미지를 씌우기보다 실제 우리 지각과 행동을 매개하는 AI 기술에 주목할 것을 제안합니다.

“AI는 하나부터 열까지 정치적”이라는 저자의 입장을 다르게 표현하면 AI는 가치중립적이지 않다는 말이기도 합니다. 하지만 거꾸로 화살을 우리에게 돌려볼 수도 있습니다. AI에 더 많은 행위주체성을 부여할수록 동물, 환경을 포함한 비인간에 대한 인간의 정치적 입장의 재고 필요성 역시 커지는 셈이죠. 요컨대 인간중심적 사고방식에서 벗어나 지금껏 논의한 주제들을 다시 살펴봐야할 수도 있다는 뜻입니다.

랭던 위너가 기술이 정치적인 사례로 제시한 미국 롱아일랜드 존스비치공원의 낮은 고가도로. 버스가 지나다닐 수 없도록 설계되어 결과적으로 흑인의 공원 이용을 막았다. 출처: 캐나다 건축센터 (CCA)

AI 윤리에서 기술 윤리로, 또다시 AI 윤리로

책의 주제는 분명 AI이지만, AI가 아닌 다른 기술을 중심으로 서술하더라도 크게 다르지 않은 내용이 담겼을 것으로 보입니다. 예컨대 <가짜뉴스의 고고학>에서 살펴봤던 것처럼, AI 등장 이전에도 시대별로 여러 미디어 기술들이 정보를 조작하고 사람들을 조종하기 위해 쓰였죠. AI가 (정치철학적) ‘문제‘라는 주장은 충분히 설득력이 있었지만 왜 ’AI‘가 문제인지에 대해서는 책을 읽는 내내 물음표가 떠올랐습니다.

하지만 덕분에 우리가 왜 AI 윤리 북클럽이라는 이름 아래 모여앉아 책을 읽고 토론을 하는지를 다시금 확인할 수 있었습니다. 오직 ‘AI’에만 관심이 있었다면 이런 책을 읽지도, AI의 정치철학을 논하지도 않았겠죠. 분명 그보다는 공동체와 사회에 대한 관심이 우리를 AI 윤리라는 주제로 이끌었을 겁니다. 물론 우리는 AI에도 관심이 많습니다. 이 책을 통해 ‘그 어떤 것도 정치적이지 않을 수 없다’는 명제를 되새기며 AI 윤리에서 기술 윤리로 시야를 넓힐 수 있었다면, 다른 책을 통해 ‘왜 AI인가‘라는 질문에 대한 답도 찾아보려 합니다.

💡 그 외 모임에서 나온 질문들:

인공지능이 사용자 데이터를 기반으로 맞춤형 콘텐츠를 제공할 때, 이것이 사용자의 의사결정에 실제로 얼마나 영향을 미치는 것일까? 이러한 영향을 토대로 AI를 억압 및 착취의 도구가 아닌 변화의 도구로 만들기 위해서는 어떻게 해야 하는가?
거대언어모델(LLM)을 빅테크 기업만이 아니라 누구나 사용할 수 있게 된다고 더 민주적인 사회가 될까? 기업 소유의 소셜 미디어와 정부 통제 미디어 중 무엇이 더 민주적인가? 민주적이지만 더 민주적이지 않은 역설이 발생하진 않는가?
데이터는 누구의 것인가? 정말 이용자만의 것이라고 할 수 있는 것일까? 이용자의 것으로 규정하고 관련 제도가 마련되면 권력의 비대칭이 사라질 것인가? 그 외로는 이용자(또는 소비자)로서의 대항 권력을 갖출 방법이 없는가?
인간 → 동물 → 환경 → 인공지능까지 정치적 지위의 인정 범위를 계속해서 확대해야만 하는 것인가? 인간중심적이지 않은 비인간중심성은 가능한 것일까?