토론

AI로 쉽게 데이터 분석하기 : ChatGPT-4 Code Interpreter

2023.08.10

4,686
3
과학기술과 사회에 관심이 많은 연구활동가

Midjourney로 생성한, 데이터를 분석하는 AI 이미지




우리가 특정 사회적, 과학적인 주장을 할 때 근거로 가장 많이 쓰이는 것을 하나 꼽으라면 '데이터'죠. 다양한 통계, 지표 등을 활용하여 우리는 여러 가지 주장에 더 힘을 실을 수 있다. 정말 감사하게도, 세상에는 공짜로 얻을 수 있는 데이터가 꽤 있다. 하지만 그 데이터 파일들을 분석하는 것은 관련 수업을 듣지 않고 자력으로 하기는 정말 어려운 일이며, 알고 있다고 하더라도 데이터를 정리하는 일(클렌징)은 시간이 많이 든다. 23년 7월에 공개된 ChatGPT-4의 'Code Interpreter'는 데이터 분석에 뛰어나다는데, 과연 많은 연구와 활동에 힘을 실어줄 수 있을까?



1단계 : 데이터와 코드북 준비하기

KGSS 코드북

저는 이번 글에서 간단하게 예시로 '한국의 중도층'에 대해 AI로 분석해 보려고 하는데요, ChatGPT-4의 Code Interpreter를 사용하기 위해서는 23년 8월 10일 기준 다음과 같은 준비물이 필요합니다.

  • ChatGPT 유료 구독(월 2만원)
  • 분석하려는 데이터와 변수명 파악(가능하면)
  • 분석하려는 데이터의 코드북

데이터 분석에 익숙하지 않으신 분들은 '코드북'이 무엇인가 궁금하실 겁니다. 쉽게 말하면, '데이터 설명서'입니다. 위 이미지는 제가 이번에 분석한 데이터 두 개중 하나인 KGSS(한국종합사회조사)데이터의 코드북입니다. Ctrl + F로 원하는 데이터 종류를 찾거나, 목차를 보고 내가 원하는 데이터가 있을 만한 곳을 찾습니다. 저는 KGSS에서 한국의 '중도'비율 변화를 보고 싶었으므로 '증도'라고 검색해서 원하는 데이터와 그 변수명을 확인합니다.


KGSS에서 연도별 중도층의 비율을 알 수 있는 변수명은 'PARTYLR'이네요(뒤에 나오겠지만, 변수명 몰라도 됩니다).





2단계 : 데이터 정리하기

저희가 코드북 - 데이터 메뉴얼을 통해 1,2가 진보, 4,5가 보수, 3이 중도인걸 확인했으니 그래프를 그렸을 때 '진보,중도,보수'의 추이를 보기 위해 데이터를 정리해달라고 요구합니다. 이런 데이터를 분석할 때 '응답 없음'이나 '모름'은 없애주는게(-8,-1) 분석에 더 도움이 됩니다.




위 대화는 제가 분석한 다른 데이터인 WVS 데이터 분석과정인데, 제가 앞서 코드북에서 꼭 변수명을 확인하지 않아도 된다고 한 이유가 나옵니다. 보시면 제가 그냥 'KOR'이라고 했음에도, 알아서 국가 데이터로 인식하고 해당하는 값을 찾아서 분석을 진행합니다. WVS에서는 '2017-2022사이 한국이 다른 국가보다 중도층이 많은가?'를 분석해볼 겁니다.


3단계 : 그래프 그리고 확인하기



이제 분석된 값을 바탕으로 그래프를 그려달라고 요구해봤습니다. Code Interpreter를 잘 활용하는 팁은, 사실 AI를 잘 활용하는 팁과도 같은데 '요구사항을 최대한 상세하게, 집요하게 요구하는 것'입니다. 마무리에서 서술하겠지만, AI를 사용하는 인간이 잘 못다루건 AI가 부족하건간에 요구사항을 들어주지 못 할 수도 있습니다. 그런데 뭐, 안되도 그만이라는 마인드로 일단 써보는겁니다.


KGSS 분석결과, 한국의 중도층은 조사시작년도인 2003부터 2021까지 약간 증가하는 추세를 보이고 있습니다. 최근 10년으로 본다면 평균 30퍼 근처에서 35퍼 이상으로 증가했다고 볼 수 있겠네요. 또 다른 눈여겨볼 점은 2018년이 다른 해에 비해 진보의 비율이 압도적으로 높고 보수의 비율이 압도적으로 낮은 점인데요. 한정훈 서울대학교 교수의 EAI 워킹페이퍼에 따르면 '2017년의 경우 2016년 탄핵과 촛불집회로 진보가 크게 늘었을 가능성이 높다'라고 했습니다. 이 비율이 1년정도 더 유지되었다고 볼 수 있겠네요.






이번에는 WVS로 본 한국과 다른 국가의 '진보,중도,보수'비율입니다. 전세계(조사 국가 기준) 평균 중도 비율이 41.93%인걸 감안하면, 한국의 39.84%는 그렇게 많지 않습니다. 한국은 전세계 평균보다 본인이 보수라고 생각하는 응답 비율 낮고, 진보라고 생각하는 응답 비율이 높습니다. 중도층이 너무 많으면 정치에 관심이 없는 응답자가 높을 수도 있고, 정당 정치의 위기 지표로도 볼 수 있다고 생각하여 연도별 한국 내 중도층 비중 추이를 살펴보고, 지금 시점에서 다른 국가와 중도층 비율 차이를 살펴보았는데, 한국의 유권자 이념 분포는 '최근 10년 중도층이 늘고 있는 추세지만, 다른 국가와 비교했을 때 지나치게 높지는 않다' 정도로 정리할 수 있겠네요. 

즉, 중도층 비율에 대한 분석만으로는 특별히 한국 사회의 변화를 포착하기는 조금 어려워 보인다는거죠. 대만은 진보가 53퍼가 넘는 모습을 보이는데, 왜 그런지 흥미롭네요.
  


마무리 : Code Interpreter, 유용함과 한계



분명 ChatGPT-4의 Code Interpreter는 데이터를 분석하는 입장에서 정말 유용했습니다. 한글로 잘 말하기만 하면 그래프도 원하는대로 그려주고, 데이터를 표로 정리하는 과정도 수월하게 진행해주며, 심지어 그냥 'KOR'이라고 하면 알아서 국가 데이터를 읽어오는 능력을 가졌습니다. 문제가 있으면 이를 여러 차례에 걸쳐 해결하려는 모습을 볼 수도 있었습니다. Code Interpreter가 데이터 분석에 있어서 시간 단축은 물론이고 부족한 전문성도 채워줄 수 있는 유용한 AI툴임에는 분명합니다.





하지만 분명 여러 한계도 같이 느낄 수 있었습니다. 분석을 잘 하길래, 사회과학 통계에서 많이 쓰이는 분석 방법 중 기초적인 방법인 '다중회귀분석'을 지시해 보았습니다. 하지만 데이터가 너무 커서 실패하는 모습을 볼 수 있었습니다. 물론 직접 데이터를 줄여서 다시 업로드하면 가능하겠지만, 이는 Code Interpreter로만 특정 데이터를 분석하는데에 한계가 있음을 보여줍니다. 이외에도, 그래프 한글 출력을 지원하지 않거나, 사용 횟수 한계가 생각보다 팍팍한 등의 아쉬움도 있었습니다. 그리고 분명히 기존에 데이터 분석을 잘 할 수록 잘 써먹기 좋다는 점도 있구요. 


Code Interpreter가 나오고 1달이 지난 지금은 GPT-5 개발 소식이 들려오고, ChatGPT-4 UI가 변경되었으며, MS가 빙챗에서 이미지 검색이 가능한 '멀티모달'서비스를 제공하는 등 정말 많은 변화가 있었습니다. AI의 빠른 변화를 시민사회, 연구자, 활동가들이 어떻게 좋게 사용할 수 있을지 지속적으로 고민하고 공유하고자 합니다.


<참고자료>

-WVS Data/ WVS Codebook :
Haerpfer, C., Inglehart, R., Moreno, A., Welzel, C., Kizilova, K., Diez-Medrano, J., Lagos, M., Norris, P., Ponarin, E. & Puranen B. (2022): World Values Survey Wave 7 (2017-2022) Cross-National Data-Set. Version: 4.0.0. World Values Survey Association. DOI: doi.org/10.14281/18241.18


-KGSS Data / KGSS Codebook :
김지범, 강정한, 김석호, 김창환, 박원호, 이윤석, 최슬기, 김솔이. (2022). 한국종합사회조사 2003-2021. 서울: 성균관대학교 출판부.

<ChatGPT-4 Code Interpreter 대화내역(누르면 전체 분석과정을 보실 수 있습니다>

-WVS 분석 : https://chat.openai.com/share/38553181-0993-4586-83b1-cdc0eaa9af62?fbclid=IwAR1iUNB3VrVILEYoZJGIXoBmVgXWkYCR73qLl0Vwe8zqe2uKZcS2ekWZY9U

-KGSS분석 : https://chat.openai.com/share/518b9d35-a628-473c-a59d-3cb3c98b7d3c?fbclid=IwAR1ebrb8XIL3oCldZkkQXkOVEKv3Rcs4tLT79AO3LQ_jLmwDjRDtTa0lWBU 

공유하기

이슈

인공지능

구독자 265명
정말 흥미롭네요. 데이터를 정제하고 정제한 데이터를 바탕으로 시각화하는 작업이 이렇게 간단하게 진행되는 걸 보니 인공지능 활용이 가지는 이점이 명확하게 보입니다. 실제 연구에서 데이터 정제와 시각화에 들이는 시간이 효과적으로 줄어들 수 있을 것 같기도 하고요. 다만 적어주신 것처럼 아직까지는 불완전하다는 한계도 있어보입니다. 장기적으로 인공지능이 신뢰할 수 있는 연구지원 도구로 확장되고, 이를 활용하는 단위가 더 늘어나면 좋을 것 같습니다.
와! 저도 배워서 잘하고 싶습니다.
오, 직접 사용해볼 엄두는 못 냈지만 대리만족(?)하고 갑니다. 상세히 설명해주셔서 옆에서 참관하는 기분이었네요. 상세히 알려주시니 AI를 사용하는 앞으로의 사회에 대해 더 상상하게 됩니다.
연관 토픽 : #AI