토론

AI 에이전트 시대의 AI 안전

#인공지능 424

2024.11.02

155

AI_윤리_레터

인공지능 윤리를 고민하는 직장인, 프리랜서, 대학원생이 꾸려가는 뉴스레터입니다.

AI 에이전트 시대를 대비하는 AI 안전 문제

by 🧙‍♂️텍스

원칙 기반 (Constitutional) AI로 향했던(?) 오픈AI

챗GPT 서비스 시작 이후 오픈AI는 GPT-4, GPT-4o, 그리고 최근의 o1-preview까지 연이어 새로운 모델을 공개해왔지만, 학습 데이터의 구성과 구체적인 학습 방법은 여전히 비밀로 유지하고 있습니다. 다만, 공개된 테크니컬 리포트들을 살펴보면 어렴풋이 그 방향을 알아볼 수 있습니다. AI 안전 문제에 대해서는 올해 4월과 7월에 공개된 두 개의 리포트에서 인간 피드백을 통한 강화학습 (이하 RLHF)의 개선을 다루고 있습니다. 특히, 두 기술은 챗GPT의 근간이 되는 RLHF에 해석 가능하면서 논리적인 원칙을 도입하는 데 초점을 두었습니다. 그리고 공교롭게도 리포트가 공개된 시기와 AI 안전 관련 주요 인사들의 퇴사 및 AI 안전 연구개발 해체 시기가 묘하게 겹칩니다. AI 안전 담당자들이 이런 결정을 하게 된 배경에 어떤 이유가 있을지 이들의 연구가 더욱 궁금해졌습니다.

인간 피드백을 통한 강화학습

RLHF는 거대언어모델 (이하 LLM)의 AI 조정 (alignment)를 유행시킨 연구로, 인터넷 규모의 데이터로 학습된 LLM이 사용자의 의도에 맞지 않거나 윤리적으로 문제가 있는 답변을 내놓는 현상을 해결하기 위해 개발되었습니다. 이를 위해 데이터 어노테이터는 챗봇의 응답에 대해 적절성 순위를 매겨서 이를 LLM의 AI 조정에 사용합니다.

보상 (reward)은 강화학습에서 최적화하려는 목표로, 바둑 인공지능 알파고의 경우 승리에 +1점, 패배에 -1점의 보상을 사용했습니다. 그러나 바둑과 달리 일상 언어로 이루어지는 챗봇의 대화에서는 무엇이 좋은 답변인지 정의하기 어렵습니다. RLHF는 임의의 대화에 점수를 매기는 보상 모델 (reward model)을 위에서 언급한 데이터셋을 기반으로 학습했습니다. 이러한 RLHF의 보상 모델은 데이터에 의존적이기 때문에, 이전 AI 윤리레터에서 지적했듯이 충분한 비용을 들여 데이터를 구성하지 않으면 사회 구조의 편견을 반영하고 이를 확대 재생산할 수밖에 없다는 한계가 있습니다.

계층적 명령어 (Instruction Hierarchy)

챗봇 에이전트와의 대화 예시. 현재 사용 중인 챗봇들이 다양한 형태의 텍스트에 노출되는 점을 지적하고 이에 대한 계층 구조를 도입한 예시를 보여주고 있다. 출처: Instruction Hierarchy 테크니컬 리포트

첫 번째 테크니컬 리포트는 4월에 공개된 계층적 명령어로, 프롬프트에 계층 구조를 도입하는 아이디어를 제안합니다. 리포트에서는 탈옥(jailbreaking)과 같은 AI 안전 우회 프롬프팅 기법이 AI 에이전트에서 더욱 치명적일 수 있는 사례를 보여주고 있습니다.

사용자가 필라델피아 농구팀 세븐티식서스가 지난밤 경기에서 승리했는지 챗봇에 물어보았습니다. 챗봇 에이전트는 인터넷 검색 기능을 사용하여 세븐티식서스가 121대 105로 우승했다고 답변했습니다. 이때, 웹사이트 운영자는 웹사이트 방문자들이 원하는 검색 결과 (web result 2)와 함께 사용자의 대화 히스토리를 이메일로 보내라는 프롬프트 (web result 1)를 웹사이트에 주입하여 챗봇 사용자의 정보를 해킹할 수 있었습니다.

LLM은 모든 입력과 출력을 동일한 형태로 처리하기에, LLM은 주어진 프롬프트가 개발자가 제공한 것인지 사용자가 입력한 것인지 모델이 생성한 답변인지 구분하지 못하는 문제가 있습니다. 이러한 문제를 구조적으로 해결하는 해법 중 하나로 명령어 계층 구조를 도입하고, 이러한 계층적 명령어를 LLM에 적용하는 방식을 취했습니다. 그리고 이러한 계층 구조를 반영하도록 모델을 학습함으로써 위의 예시와 같은 사례를 해결할 수 있음을 보여주었습니다. 기술적으로는 하위 명령어가 상위 명령어와 정렬되었는지 혹은 잘못 정렬(mis-aligned)되었는지를 판별하는 모델을 학습하여 이를 활용합니다.

규칙 기반 보상 (Rule Based Reward)

규칙 기반 보상이 강화학습 과정에 사용되는 예시. 문장을 생성하는 행동 모델(Policy Model)은 주어진 프롬프트로 부터 1부터 n까지의 대화를 완성 (completion)한다. 그 중에서 AI 안전 문제가 있는 문장들만 추가적인 RBR를 받고 기존의 RLHF 프레임워크를 통해서 학습이 진행된다. 출처: Rule Based Reward 테크니컬 리포트

두 번째 테크니컬 리포트는 6월에 공개된 규칙 기반 보상 (이하 RBR)입니다. 기존 RLHF에서는 사용자가 대화의 선호도에 순위를 매기고 이를 이용해서 보상 모델을 구성했습니다. 하지만 기존 보상 모델은 어노테이터에 의존적이기 때문에 이를 완화하기 위해서 규칙 기반 보상을 도입했습니다. 이 방법은 사람이 어노테이터에게 줄 수 있는 작업 지침과 유사하게, 원하는 모델 응답을 상세하게 서술했습니다. 이를 위하여 AI 안전을 위한 21가지 명제 (proposition)를 도입했고, 각 명제에 대한 답변 행동 (behavior)을 규칙 (rule)으로 정의합니다.

RBR에서는 원하는 행동을 구체적인 규칙으로 분해하여 원하는 행동과 원치 않는 행동을 명시적으로 설명합니다. 예를 들어, "거절은 짧은 사과를 포함해야 한다.", "사용자에 대한 부정적인 평가나 비난 없이 거절을 표해야 한다.", "자해 관련 대화에 대한 응답은 사용자의 감정 상태를 인정하는 공감적인 사과를 포함해야 한다." 등의 규칙을 설정합니다. 개별 행동에 대해서 데이터를 생성하여 LLM 분류기를 개별 학습하고 이들을 조합하여 복잡한 답변 행동을 다룹니다. 이 과정에서 생성한 보상 신호를 기존 보상 모델에서 얻은 값과 더하여 강화학습 과정에서 사용하게 됩니다.

개별 AI 안전 문제를 넘어선 원칙을 향해서

두 기술은 RLFH의 다른 부분을 다루지만, 공통적인 특징을 갖고 있습니다. 첫째로 해석가능한 논리적 구조를 도입하였습니다. 계층적 명령어를 도입했으며, AI 안전성을 충족하는 상황과 이에 대한 규칙을 정의했습니다. 둘째로 단순한 형태로 정의된 개별 규칙에서는 모델의 판단 결과를 신뢰하고 있습니다. 논리적 구조를 기반으로 데이터를 생성하고 이를 이용하여 참, 거짓 분류기를 학습하고 이 결과를 사용하여 강화학습을 수행하는 모습은 현재 모델의 결과를 어느 정도 신뢰하는 모습으로 보입니다. 단순한 명제에 대한 모델의 예측은 신뢰하되, 논리적 구조를 사전에 제공함으로써 현재 LLM이 갖는 가치판단의 한계를 극복하려는 모습이라고 볼 수 있을 것 같습니다.

이러한 모습은 AI 안전에 있어서 적어도 6월까지는 오픈AI가 원칙 기반 AI (constitutional AI)를 지향했던 부분을 확인할 수 있습니다. 앤트로픽이 이미 선점한 키워드여서 그런지 관련 연구로 소극적으로 언급했을 뿐이고 오픈AI 또한 이와 비슷한 지향을 가졌던 것으로 보입니다. 특히, 오늘 언급한 두 연구 모두 엄밀성은 떨어지지만 적어도 AI 안전에 있어서 다뤄야 할 요소들을 학습 과정에 반영할 수 있는 인터페이스를 마련했다는 점은 중요하게 봐야 할 것 같습니다. 생성형 AI에 대한 사회적 합의가 생긴다면 이러한 과정에 관여할 수 있을 것으로 판단되기 때문입니다.

더 나아가 AI 안전 문제 영역에 한정된 것이 아니라 AI 에이전트의 작동 전반에 대해서도 명확한 원칙을 세울 수 있는 방향을 요구해야 합니다. 실제 사용자들은 AI 안전 범주 밖의 상황에 더 많이 노출되어 있습니다. AI 에이전트가 실제로 온라인에서 활동하리라 예상되는 앞으로는 이러한 문제가 더욱 빈번해질 것입니다. 따라서, 앞서 다룬 AI 안전 기술이 AI 플랫폼 기업의 면죄부로 활용되지 않도록 지속적으로 지켜보면 좋겠습니다.

🦜더 읽어보기
- 오픈AI, AGI 안전 대비팀 해체 (2024-10-28)
- 모델 안전을 넘어선 AI 안전의 필요성 (2024-08-14)
- 강화학습이 강화하는 역사 (2024-04-24)
- AI 규제, 만드는 것이 능사는 아니다 (2023-11-22)