토론

닫힌 오픈AI를 다시 여는 방법

2024.07.25

342

인공지능 426

AI_윤리_레터

인공지능 윤리를 고민하는 직장인, 프리랜서, 대학원생이 꾸려가는 뉴스레터입니다.

창작자와 환경 모두를 위한 개방형 AI

by 🧙‍♂️텍스

생성형 AI 구축에 필요한 큰 비용은 오픈AI를 폐쇄적으로 변하게 했습니다. 오픈AI는 GPT-2 발표 당시 논문과 모델을 모두 공개했고, 이는 여전히 오픈소스로 이용 가능합니다. GPT-3 역시 논문만큼은 공개했습니다. 하지만, 챗GPT 서비스가 발표된 이후부터는 그 모습이 다릅니다. 공개된 GPT-4 테크니컬 리포트에는 모델과 데이터에 대한 디테일이 사라졌습니다. 그리고 GPT-4o에 이르러서는 모델에 관해 공개된 내용이 없습니다. 다른 회사들이 챗GPT를 빠르게 추격하는 상황에서 큰 비용을 들여 얻은 시행착오를 공개하기는 어렵습니다. 오픈AI가 창작자의 이익보다 공정이용(fair use)을 주장하는 것은 지출을 줄이기 위한 의도 또한 있을 것입니다.

생성형 AI는 공개된 콘텐츠를 자유롭게 학습 데이터로 활용하지만, 기존의 검색엔진과 다르게 원본 출처로 연결하지 않습니다. 그렇다 보니 대규모 데이터를 보유한 신문사나 커뮤니티를 보유한 기업들은 AI 플랫폼 기업의 데이터 수집을 막고 학습 데이터 판매 협상 우위를 점하기 위해 장벽을 쌓고 있습니다. 인터넷의 포스팅 및 기사는 로그인해야만 볼 수 있고 추가로 결제 장벽(Paywall) 또한 빈번해지고 있습니다. 기업과 다르게 협상력이 없는 개별 창작자는 창작물에 대한 권리를 침해당한다고 느끼고 이러한 변화를 거부로 응답했습니다. 한국에서는 네이버웹툰 도전 만화에서 AI 웹툰 보이콧이 있었으며, DeviantArt와 같은 주요 글로벌 창작자 커뮤니티들에서 No AI 태그 시스템에 도입하였습니다. 그 결과 점차 인터넷 공간은 폐쇄적으로 변해 갑니다.

생성형 AI를 구축하기 위한 레이스는 일종의 죄수의 딜레마로 보입니다. 챗GPT를 만들고 싶은 경쟁자들은 오픈AI가 수행했던 학습 데이터 수집과 AI 학습의 모든 과정을 경쟁적으로 반복해야 합니다. 이러한 과정을 모든 AI 플랫폼 기업들이 따라 하다 보니 엔비디아 GPU가 불티난 듯 팔리고, AI 학습을 위해서 발전소를 추가로 지어야 하고, 데이터 센터의 높은 에너지 소비로 인한 기후 위기 가속화까지 예상이 됩니다. 어찌 보면 오픈AI가 여전히 비영리 기업으로 남아서 모델을 공개했다면 이러한 일이 일어나지 않았을 수도 있습니다. 데이터셋의 구성 및 학습된 모델이 모두 공개되어 있으면 모든 회사가 경쟁적으로 LLM 학습을 수행할 필요가 없습니다. 오픈AI가 공개한 모델을 필요에 맞게 수정하고 미세조정하는 것은 전체 학습에 비해 매우 적은 비용이 들기 때문입니다.

현 상황에서 죄수의 딜레마를 피하기 위해서는 기업들의 협력을 통하여 하나의 좋은 모델을 만들도록 유도할 수 있습니다. 가령 어떤 국가의 정부가 해당 국가의 문화, 가치관 등이 담긴 소버린(sovereign) AI를 구축하길 원한다면, 정부는 개별 회사들의 AI 모델 구축을 위한 경쟁을 지켜보기보다는 하나의 거대한 AI 모델을 구축하도록 관련 기업 간의 협력을 유도해야 합니다. AI 모델의 규모가 커질수록 성능이 좋아진다는 신경망 스케일 법칙(neural scaling law)을 고려하면, 개별 기업의 중복 투자를 협력으로 전환하면 같은 비용으로 더 큰 모델을 학습할 수 있습니다. 개별 기업에서는 적은 비용으로 더 좋은 성능을 갖춘 생성형 AI를 구축할 수 있고, 국가 차원에서는 전력 인프라 투자의 비용도 절감할 수 있기 때문입니다.

yellow inflatable smiling emoji balloon in focus photography — 오픈AI는 메타와 비슷하게 창착자가 요구하면 학습 데이터에서 제외시켜주는 옵트아웃(Opt-out) 정책을 채택했다고 주장하고 있습니다. 출처 OpenAI and journalism, 오픈AI 공식 홈페이지 (2024-01-08)

근본적으로 인터넷 공간이 폐쇄적으로 변해가는 것을 막고 죄수의 딜레마에서 벗어나기 위해서는 개방형 AI 모델이 다른 폐쇄형 AI 모델보다 비용이나 성능 측면에서 우위에 있는 환경을 조성해야 합니다. 현재의 월드와이드웹(WWW, world wide web)이 인터넷의 대명사가 된 것처럼 말이죠. AI 모델이 학습 데이터의 품질에 종속적이라는 사실을 생각해 보면, 이를 위해서는 1) 창착자들의 참여를 끌어내서 개방된 데이터의 규모와 품질을 최대한 끌어내고 2) 공개된 데이터에 무임승차 하는 플레이어가 없도록 해야 합니다. 우선 콘텐츠의 저작권 및 라이선스 제도를 AI 시대에 맞게 업데이트하여 생성형 AI 시대에 약해진 창작자의 권리를 보완하고 참여를 끌어내야 합니다. 또한 무임승차를 막고 창작자의 권리 강화를 위해서 이상적으로는 명확한 출처를 밝히지 않은 데이터로 AI 모델 학습이 불가능하게 만드는 것도 고려해 볼 수 있습니다. 현재 메타와 오픈AI 모두 학습 데이터를 임의로 구축하여 학습에 사용하고 옵트아웃을 데이터 거버넌스로 하여 사용자가 제외를 요청할 때만 학습 데이터에서 제외해 줍니다. 이 모습은 공정이용보다는 무임승차에 가까운 것 같습니다.

유튜브는 광고 수익 분배를 발판 삼아 양과 질 측면에서 모두 독보적인 동영상 플랫폼으로 자리를 잡았습니다. 창작자에게 유리한 데이터 거버넌스가 확립되고 개방형 생태계가 독보적인 학습 데이터를 얻을 수 있는 곳이 되면, 플레이어들은 그곳의 룰을 따를 수밖에 없을 것입니다. 즉, 기업들은 다시금 개방형 AI를 선택해야 하는 환경에 놓이게 될 것입니다.

🦜더 읽어보기
- 생성형 AI 가성비를 의심하는 골드만삭스/깃허브 코파일럿 소송에서 저작권법 쟁점 기각 (2024-07-21)
- 원전으로 AI 전력 수급한다는 한국 정부 (2024-06-17)
- 이 주의 논쟁 카드: 라마(LLaMA) 2 (2023-07-24)
- [함께 읽는 FAccT 3]윤리, 법, 기술! 세 가지 힘을 하나로 모으면🌐🎵 (2023-06-19)
- AI 웹툰 보이콧, 누구를 위한 AI인가 (2023-06-05)