토론

AI 시대의 도전과 데이터 액티비즘

#인공지능 424

#공익데이터 14

2024.08.20

256

빠띠_공익데이터

데이터로 사회문제를 해결하는 빠띠 공익데이터

[스터디 노트1] AI 시대의 도전과 데이터 액티비즘

빠띠는 ‘데이터로 사회문제를 해결하는 시민의 데이터 플랫폼’을 구축하기 위해 다양한 공익데이터 활동을 진행하고 있습니다. 이는 여러 파트너와 이해관계자와 협력하여 만들어가야 하는 중요한 작업입니다. 그렇기에 공익을 위한 데이터 활동이 무엇인지, 그리고 새로운 인공지능 서비스가 끊임없이 등장하는 시대에 왜 사회문제와 관련된 데이터를 논의해야 하는지에 대한 심도 있는 논의가 필요합니다.
이러한 취지에서 빠띠는 ‘인공지능 시대, 데이터 액티비즘과 거버넌스'라는 주제로 스터디를 진행하고 있습니다. 이 스터디는 기술과 사회혁신 두 분야에서 연구 및 국제협력 경력을 보유한 김정원 박사의 발제로 총 4회에 걸쳐 진행되며, 데이터와 시민의 역량, 데이터 액티비즘의 개념, 그리고 데이터의 생산, 관리, 공유를 둘러싼 거버넌스 유형 등 국내외 인공지능과 데이터 관련 주요 이슈를 다룹니다.

스터디를 통해 얻은 핵심 내용을 요약해 더 많은 분들과 나눔으로써 공익데이터 활동에 대한 이해를 넓히고, 사회문제 해결을 위한 데이터 활용의 중요성을 공유하고자 합니다.

네 줄 요약 (데이터 액티비즘 이전에 인공지능과 데이터에 대한 이해 쌓기)

AI와 데이터 편향성 문제는 예상보다 사회와 일상에 더 큰 영향을 미치고 있다.
AI 기술이 발전할수록, 사회적 문제 해결과 시민 참여가 더욱 중요해지고 있다.
AI 개발에는 민주적 요소와 함께 디지털 기술 전문가와 일반 시민의 참여가 필요하다.
AI 규제와 정책은 산업의 발전 속도를 따라가지 못하고 있으며, 이에 대한 활발한 사회적 대화가 필요하다.

챗GPT, 오늘날 인공지능 발전 흐름의 집약체

2022년 11월 30일, 오픈AI가 챗GPT를 발표한 이후, 유사 모델이 잇따라 개발되면서 AI 기술 발전이 가속화되고 성능 변화도 뚜렷해짐. AI 기술은 매 3개월 주기로 빠르게 발전하고 있음.
최근 AI 기술은 대부분 생성 AI 알고리즘의 결과물로 데이터가 많을수록 뛰어난 성능을 발휘한다는 점이 중요함(오늘날 데이터의 경제적 가치가 높아지게 된 배경임). 이러한 생성 AI 개발에는 방대한 훈련 데이터와 막대한 컴퓨팅 파워를 요구함.
과거에는 학계가 AI 개발의 중심이었으나, 현재는 민간 기업이 압도적인 비중을 차지하고 있음. AI 모델의 학습 비용이 계속 증가하면서, 투자 자본이 부족한 기업은 경쟁에서 밀려나고 현재 빅테크 기업이 AI 연구와 개발을 주도함.

그래프 출처: AI Index Report 2024, Stanford Human-centered AI, 2024

데이터와 알고리즘 편향 문제를 파헤치는 콘텐츠 가이드

거대한 해킹(2019): 2016년 미국 대통령 선거 캠페인과 영국 브렉시트 국민투표 캠페인에서 인공지능과 페이스북 데이터가 활용된 캠브리지 애널리티카 사건을 다룬 다큐멘터리. 페이스북은 약 8천 7백만 명의 이용자 개인 데이터를 동의없이 선거 캠페인 전략 회사인 캠브리지 애널리티카에 넘겨주고, 이 데이터를 분석하여 선거에 개입했다는 의혹을 다루고 있음.

소셜딜레마(2020): 실리콘밸리의 유명 소셜미디어 기업에서 일했던 핵심 인력들이 소셜미디어 알고리즘의 위험성과 해악을 고발하는 내용을 다루고 있음. 광고 수익으로 성장하는 IT 기업이 광고 효과를 높이기 위해 이용자의 정보를 어떻게 추출하고, 행동을 유도하는지 보여줌으로써 알고리즘에 저항해야 한다는 메시지를 전달함.

공공 서비스의 디지털 전환: 시민의 권리에 대한 시스템 오류, 그 영향

공공 부문에서 AI 활용이 점차 늘고 있음. 왜 그럴까?

보다 정확한 정보와 예측을 제공하여 더 나은 결과를 도출(예: 기후변화 예측, 응급 서비스 수요 예측, 교통량 예측 등)
어려운 사회 문제에 대한 해결책 제시(예: 기후테크)
맞춤형 공공 서비스 제공이 가능(예: 맞춤형 복지 및 교육 서비스 연계)
반복적이고 시간이 많이 소요되는 작업의 자동화를 통한 효율성 개선

생산성과 효율성을 위해 공공 서비스를 점차 디지털로 전환하고 있음.
알고리즘이 중립적이고 무결할 것이라는 일반적이 인식이 있으나, 이에 대해 문제 의식을 갖게 하는 ‘대학입시’ 관련 사례가 영국에서 일어남.

[케이스 스터디]알고리즘이 대학입시를 결정한다고?!

2020년 코로나19로 영국 대학입시(A-Level)가 취소됨. 대신 모의고사 점수와 내신 성적으로 대학 입시를 대신하기로 결정하는데, 여러 편차를 보정하고 객관성을 보장하기 위해 개별 교사의 판단이 아닌 정부 입시 기관의 자동 알고리즘을 활용함. 그러나 이 과정에서 많은 학생들이 예측 점수보다 낮은 성적을 받아 합격할 것으로 예상한 대학에서 불합격 통보를 받음. 결과에 대한 재심 요청 후 분석 결과, 성적이 하향 조정된 대부분의 학생이 빈곤 지역에 위치한 학교에 재학 중이며, 이들 학교의 과거 대학 입시 결과가 낮았던 것으로 드러남. 반면, 부유한 지역 사립학교 재학생의 점수는 4.7% 상승해 공정성 문제가 제기됨. 최근 3년간 시험 결과 데이터를 반영해 만들어진 알고리즘 계산이 불공정 시비를 불러오자 교육부는 최종 시험결과 통보 후 4일 만에 결정을 취소하고, 결국 각 교사가 제출한 예측 결과를 대입 최종 결과로 인정하기로 함.

관련 내용 더 보기

사회적 이슈를 초래하는 AI와 저작권, 데이터 편향성

생성형 AI는 차별과 배제를 유발하는 콘텐츠를 생성할 수 있으며, 민감한 정보를 누설하거나 추론할 위험이 있음. 또한, 거짓이나 왜곡된 정보를 생성할 수 있고, 악의적 목적으로 악용될 가능성(예: 딥페이크)도 존재함.
생성형 AI 모델의 활용도가 높아짐에 따라 할루시네이션(Hallucination) 문제, 즉, AI의 결과가 허위일 확률이 존재함(챗GPT-4 3%, 클로드 8.5%, 제미나이 프로 4.8%의 확률이라는 연구 결과, 출처: Economist, 2024년 2월)
일부에서는 데이터셋을 단순한 알고리즘의 원료가 아닌, 특정 가치를 가진 사람들과 그들이 제공한 데이터가 개입할 수 있는 정치적 행위로 간주해야 한다는 주장도 있음. 따라서 어떤 데이터를 입력할지, 그리고 누가 이 결정을 내릴 것인지에 대해 깊이 고민하고 질문해야 함.
또한, AI 연구자나 개발자의 구성과 이로 인한 편향성에 대한 연구가 활발히 진행 중이며, 몇몇 연구에 따르면, AI 학자 및 연구자들 사이의 다양성이 부족하다는 문제가 지적되고 있음.

인공지능 연구의 다양성 부족 문제를 보여주는 그래프: 375편의 인공지능 공정성 관련 연구 논문을 분석한 결과, 연구 저자의 성별과 인종적 배경에 큰 편향이 존재함(전체 저자 중 백인이 64%로 가장 큰 비중을 차지하며 아시아인이 27%, 그 다음 흑인과 히스패닉이 5%, 4$로 나타남)

(출처: AI Fairness research held back by lack of Diversity, March 2023, Nature)

2010년부터 2021년까지 북미 지역 대학의 컴퓨터 과학, 컴퓨터 공학, 정보학과 교수진의 인종 구성 비율을 나타낸 그래프. 소폭 감소하는 추세이긴하나, 전체 교수진의 60%를 백인이 차지하고 있으며, 아시아인이 약 30%를 차지하고 있음. 흑인, 히스패닉, 아메리카 원주민 등 소수 인종의 교수 비율이 매우 낮아 학계의 다양성이 낮음을 보여줌.

(출처: AI Index Report 2023, Stanford Human-centered AI, 2023)

데이터 자체의 투명성과 사용 과정의 투명성에는 차이가 있다는 것을 인식하고, 원래 의도와 달리 발생할 수 있는 위험에 대한 대응 방안도 필요함.

AI 발전에서 민주화 논의의 필요성

왜 필요한가?

AI는 부정확하거나 편견과 편향성을 포함한 결과를 만들어낼 수 있음.
AI의 의사결정 과정은 블랙박스와 같아, 의사결정의 근거를 설명하기 어려운 경우가 많음. 이로 인해 문제 발생시, 개발자나 시스템 운영자는 결과의 책임을 알고리즘에 전가할 수 있으며, 실제 문제의 근본 원인을 파악하고 해결하는 데 어려움을 겪을 수 있음.
AI 개발자와 연구자는 자신들이 개발한 시스템이 사회에 미치는 영향을 전적으로 이해하기 어려우며, 이로 인해 발생할 수 있는 피해를 사전에 예측하기 어려움.

이러한 맥락에서 AI 발전 과정에서 민주적인 요소를 고려하여 공정하고 투명하며, 사회 전반에 긍정적인 영향을 미치는 방향으로 나아가야 함. 이는 ‘AI 사용', ‘AI 개발', ‘AI 이윤', ‘AI 거버넌스' 측면에서 고려될 수 있음.

출처: Democratisig AI: Multiple Meanings, Goals and Methods, AIES '23: Proceedings of the 2023, Seger, E. et al

AI가 사용자 데이터를 활용해 창출한 이익의 공정한 분배 문제도 대두되고 있으며, AI의 영향력이 광범위하게 미치는 만큼, 시민 참여와 책임성 확보의 필요성이 제기되고 있음.
AI 알고리즘의 투명성과 의사결정 과정에 대해 기술 업계뿐만 아니라, 시민과 시민사회의 이해가 요구됨. AI 시스템 개발의 각 단계에서 시민사회의 참여와 모니터링이 중요해지고 있으며, AI 개발 시 이해관계자와 시민 간의 협력, 즉 AI 거버넌스 구축이 필요함.

안전한 AI를 위한 국제사회의 노력

미국 공공기관은 AI의 안전한 사용을 위한 가이드라인을 마련했으며, AI를 잘못 사용했을 경우의 사례가 보도되면서 AI 기술에 대한 사회적 경각심도 높아지고 있음.
2023년 4월에 발표된 EU의 인공지능 법안은 우리나라에서도 주목하고 있음. 이 법안은 AI를 위험도에 따라 4개 카테고리로 나누어 규제하는 내용을 담고 있음. 예를 들어, 가장 위험한 AI는 사용이 금지되고, 고위험 AI는 특정 가이드라인을 준수해야 하는 방식임.
이러한 법안의 제정 차제로도 의미가 있지만, 모호한 표현과 복잡성으로 인해 여전히 논란의 여지가 있으며, 실질적 운영까지 많은 어려움이 따를 것으로 예상됨.

출처: AI법 집행주체는 과기부, 산업진항기관이 윤리감시까지… EU와 한국의 AI 법안 차이점, 힌국일보, 2023년 4월 20일