토론

구글 번역기, 아주 칭찬해

2024.07.27

363
5
한량입니다

구글이 담는 소수 언어

지난달 24일, 구글 번역기에 새로운 언어 110개 추가됐다. 이로써 구글 번역기에 담긴 언어는 250종이 됐다. 추가된 언어는 중국 광동어, 파기스탄의 펀자브어, 켈트어의 일종인 맨어, 아프리카와 인도의 소수언어다.

아프리카 언어는 폰(Fon)어, 키콩고(Kikongo)어, 루어(Luo)어, 가(Ga)어, 스와티(Swati)어, 벤다(Venda)어, 우오로프(Wolof)어가 추가됐고, 인도 언어는 아와디(Awadhi)어, 보도(Bodo)어, 카시(Khasi)어, 콕보록(Kokborok)어, 마르와디(Marwadi)어, 산탈리(Santali)어, 툴루(Tulu)어가 추가됐다.

구글은 이번 업데이트로 “6억 1,400만 명과 추가 소통할 수 있게 됐다.”고 설명했다. 이는 전 세계 인구 8%에 해당하는 수치다.

출처 : 구글 번역 캡쳐

정말 반가운 소식이다. 들리지 않겠지만, 구글 직원들에게 있는 힘껏 박수를 보낸다. 혹자는 인구에서 차지하는 비중도 적고, 읽지도, 쓰지도, 이해하지도 못할 언어가 추가된 게, 왜 반가운지 의아할 것이다. 부디 이번 글이 의아해 하는 분들에게 소수 언어를 다시 보는 계기가 됐으면 좋겠다. 우리는 소수 언어에 관심 갖고 지켜야 한다. 소수가 아니라, 다수를 위해서다.

조지 오웰의 『1984』

조지 오웰의 책 1984』는 전체주의 디스토피아 소설이다. 책에는 오세아니아, 유라시아, 동아시아 세 개 대륙이 나오고, 유라시아와 오세아니아는 전쟁 중인 것으로 묘사된다. 실제 전쟁 중인지 아닌지는 그 누구도 알지 못한다.

출처 : 영화 <1984> 스틸컷

책의 주인공 ‘윈스턴 스미스’는 유라시아의 외부 당원(하급 당원)이다. 유라시아는 계급사회로 최상위에 빅브라더, 그 밑에 내부 당원(고급 당원), 그 밑에 외부 당원(하급 당원), 마지막으로 노동자(프롤레타리아)가 있다. 외부 당원은 상위 13%가 속하고, 내부 당원은 상위 2%가 속해있다.

내・외부 당원은 ‘텔레스크린'으로 항상 감시 당한다. 반면, 노동자들은 감시받지 않는다. 이유는 노동자들이 가벼운 영향만 줘도 조종되기 때문이다.1) 때문에 아이러니하게도 『1984』에선 동물과 노동자가 가장 자유롭다.

윈스턴은 텔레스크린의 감시 아래 기록을 삭제하고 조작한다. 조작 이전 기록은 불구덩이로 보내져 태워진다. 때문에 『1984』의 세계관에서 온전한 기록과 역사란 존재하지 않는다. 조작된 기록이 있을 뿐이다. 여기서 끝이 아니다. 그들은 단어까지 조작하고 없애버린다.

신어(newspeak), 언어의 축소

윈스턴이 속한 당과 그의 동지들은 ‘신어(newspeak)’를 만든다. 이는 기존 단어들을 대체하는 새로운 단어이며, 다수 의미를 포괄한다.

예를 들면 이렇다. ‘안 좋다(ungood)’는 신어는 ‘나쁘다(bad), 빈약한(poor), 형편없는(terrible)’을 포괄한다. 그리고 ‘나쁘다, 빈약한, 형편없는’은 모두 ‘안 좋다'로 만 사용된다.

그리고 기존에 ‘나쁘다, 빈약한, 형편없는’ 적힌 기록은 모두 ‘안 좋다'로 조작되고 사라진다. 윈스턴의 일이다. 이런 조작으로 대체된 ‘나쁘다, 빈약한, 형편없는’ 세 단어는 마치 그것이 없었던 것처럼 여겨져 소멸한다. 시간이 지나면 그 누구도 그 단어가 존재했었는지, 어떤 의미인지 알 수 없게 된다.

설령 사라진 언어를 기억하는 사람들이 있다고 하더라도, 모든 기록은 이미 조작됐기에 그 어느 곳에서도 사라진 단어를 찾아볼 수 없다. 그 누구도 과거의 기록을 증명할 수 없다. "자신의 기억 외에는 아무런 기록이 없는데, 가장 명백한 사실일지라도 그것을 어떻게 증명할 수 있단 말인가?"1)

이러한 신어의 제작과 기록의 조작에 대해 윈스턴은 깊은 의문을 갖는다. 윈스턴이 이러한 의문을 내비쳤을 때, 같은 하급 당원 동지는 이렇게 답한다.

"자네는 신어를 만든 목적이 사고의 폭을 좁히는 데 있다는 걸 모르나? 결국 우리는 사상 죄를 범하는 것도 철저히 불가능하게 만들 걸세. 그건 사상에 관련된 말 자체를 없애버리면 되니까 간단하네. 앞으로 필요한 모든 개념은 정확히 한 낱말로 표현될 것이고, 그 뜻은 엄격하게 제한되며 다른 보조적인 뜻은 제거되어 잊히게 될 걸세.”1)

언어의 한계는, 사고의 한계다

오스트리아의 철학자 ‘루트비히 비트겐슈타인'은 “언어의 한계는, 사고의 한계다.”라고 말했다. 사고는 표현의 범위를 벗어날 수 없으며, 표현은 언어와 지식의 범위를 벗어날 수 없다. 『1984』의 신어가 사고의 범위를 좁힐 수 있던 이유는 이와 다르지 않다.

출처 : Research gate

언어의 다양성과 풍부한 표현은 우리가 세상을 얼마나 다양하고 깊이 있게 이해하고 있는지 보여준다. 위 사진은 생물 다양성과 언어의 다양성을 함께 보여준다. 생물 다양성이 풍부할 수록, 언어 역시 다양하다. 당연하다. 종의 수가 많으면, 이를 표현하는 가짓 수도 다양할 수밖에 없다.

얼마나 다양한 종이 있는지 모르면, 우리는 그저 몇 가지 단어로만 생태계를 정의하고 부르게 된다. 마치 3만 종이 잡초를 구분할 줄 몰라, 그저 잡초라고 부르는 것과 같다.

그런 차원에서 세상을 가장 풍부하고 깊이 이해하고 있는 언어는 영어도, 중국어도, 스페인어도, 프랑스어도, 독일어도, 한국어도, 일본어도 아닌 이름조차 들어본 적 없는 소수 언어다. 현재 그 언어들은 기록되지도, 구전되지도 않은 채 40일에 하나씩 사라지고 있다.

생태계를 가장 잘 이해하는 소수 언어

굼벵이 같은 사람이라고 하면, 사람들은 느리고 굼뜬 사람을 떠올린다. 굼벵이를 몰라도, 굼벵이 같은 사람을 보면 굼벵이의 특징을 짐작할 수 있다. 이처럼 언어는 사물과 세상을 이해하게 해준다. 생물 다양성이 풍부한 지역의 언어들은 생태계 이해에 더욱 유용하다.

“타히티 사람들은 침착하지 못한 사람을 가리켜 투나하바로(tunahaavaro, 뱀장어의 한 종류)라고 부르며, 찾기 어려운 사람은 오후아(ohua, 바위 밑에 숨는 물고기)라고 한다.”2)

팔라우의 어부는 3백 개 이상의 어종을 구분하고, 각 종의 음력 산란주기를 안다. 북극의 이누이트족은 사람과 개, 카약의 무게를 견딜 수 있는 눈과 얼음을 구분하는 용어를 갖고 있다.2)

카약을 타고 있는 1929년의 이누이트족, 출처 : 위키피디아

육지도 마찬가지다. 필리핀 하우누족은 450종 이상의 동물과 1,500 종의 식물을 구분한다. 하우누 농부는 10종의 기본 토질과 30종의 아종 토질을 구분하고, 토양의 굳은 정도에 따라 네 가지 다른 용어를 쓰며, 서로 다른 토질을 구분하는 9가지 색깔 표현이 있다. 그들은 땅의 지형을 5가지로 분류하고, 땅의 경사 정도를 3가지 다른 방식으로 나타낸다.2)

아메리카 원주민 언어인 미크맥어는 가을에 나무 사이로 불어오는 바람 소리로 나무들의 이름을 붙인다. 그 지역에서는 바람이 대개 일몰 한 시간 정도쯤 후에 일정한 방향에서 불어오는데, 그때의 소리를 듣는 것이다. 더욱이 이러한 이름들은 고정된 것이 아니라, 소리의 변화에 따라 변한다.2)

생태계 보존에 관심이 있든 없든, 이런 분류가 얼마나 가치 있고, 얼마나 깊이 생태계를 이해해야 쓸 수 있는지 알 수 있다. 나를 포함해 마트에서 통조림이나 사 먹고, 브랜드 따위만 구분할 줄 아는 사람들은 절대 알 수 없는 지식이다.

생물 다양성이 가장 시급하다

스톡홀름 지구 복원력 센터의 요한 록스트룀은 지구 위험 한계선 9가지를 제시했다. <기후 변화, 생물 다양성, 담수 사용, 토지 시스템의 변화, 성층권의 오존층 파괴, 해양 산성화, 생지화학적 유량(인과 질소 순환), 대기권의 에어로졸 부하, 진기한 물질>이 그것이다.

지구복원력센터는 이 9가지 시스템을 계속 추적하고 있다. 2009년, 2015년, 2023년 세 차례에 걸쳐 추적했다. 안타깝게도 이미 9가지 중 6가지가 지구 한계 범위를 넘어섰다. 이중 가장 시급하게 다뤄야 할 문제는 ‘생물 다양성'이다.

요한 록스트룀은 “무엇보다 생물 다양성의 손실을 추적하는 것이 가장 우선시 되어야 한다. 생물 다양성이 생태계 복원력에 결정적 역할을 하기 때문이다. 세상에 얼마나 많은 종들이 존재하는지에 관한 우리의 지식은 정말이지 불충분하다. 우리는 무엇을 잃어가는지조차 모른 채 빠른 속도로 생물 다양성을 잃어가고 있다.”3)고 경고한다.

소수 언어는 생물 다양성을 이해시켜 줄 것

요한 록스트룀이 생물 다양성이 가장 시급한 문제라고 한 이유는, 그들의 역할을 분명하게 알아야 우리가 직면한 환경 문제를 해결할 수 있기 때문이다. 하지만 현대는 생태계에 어떤 종들이 있는지, 어떤 역할을 하는지 전혀 알지 못한다. 이를 이해하고 있고 표현하고 있는 건, 생태계와 밀접히 교류한 소수 언어들이다. 소수 언어가 없다면, 우리는 세계를 이해할 수 없다.

생물 다양성이 풍부한 지역에서, 가장 오래도록 생태계와 교류해 온 소수 민족의 언어에는 우리가 알지 못하는 생태계에 대한 지식과 지혜가 풍부하게 담겨 있다. 그들의 언어를 보존하는 건, 생태계와 생물 다양성을 알려줄 백과사전을 그대로 보전하는 것과 같다.

아무짝에도 쓸모없다고 생각한 이름 모를 소수 민족의 언어는, 우리가 절대로 잃어버려선 안 되는 중요한 자원이다. 그런 차원에서 구글 번역기의 소수 언어 추가는 환영할 만한 일이다. 물론 100% 완벽하다고 할 수는 없겠지만, 시도 자체가 유의미하고 소중하다.

실패한 『1984』 속 윈스턴의 저항과 양갈래 길

출처 : Reddit

마지막이다. 윈스턴은 텔레스크린의 감시를 피해 자신만의 저항으로 ‘일기'를 쓴다. 그가 일기를 쓰는 이유는 “후세에 몇 마디의 기록이라도 남기게 된다면, 우리가 떠난 뒤에라도 그다음 세대가 뭔가를 수행할 수 있을 거야.”1)라는 생각 때문이다.

출처 : watching ‘Big brother’

그의 저항은 실패했다. 그의 저항과 일탈은 감시를 벗어나지 못했고, 마지막 순간 빅브라더의 초상을 향해 눈물 흘리며 “나는 빅브라더를 사랑한다.”고 고백하며 끝이 났다.

다행히 우리는 유라시아, 오세아니아, 동아시아 세 개 대륙으로만 구분된 세상에 살고 있지도 않고, 세 개 대륙에서 세 개 언어만 사용하며 살고 있지도 않다.

우리에겐 소수의 언어를 보존하고, 후대에 남기고 전해줄 수 있는 AI 기술이 있다. 다만 양 갈림길이 있을 뿐이다. 소수 언어를 빠르게 사라지게하는 길과, 사멸 위기의 소수 언어를 보존하는 길이다. 양 갈래 길에서 어떻게 기술을 활용할지는 기술을 사용하는 인간의 손에 달렸다.

나는 당연히, 환경 문제를 더욱 깊이 이해하고, 우리가 직면한 문제를 해결해 주는 소수 언어 보존의 길을 가야 한다고 생각한다. 1984의 디스토피아가 현실이 되지 않았듯, 윈스턴의 실패도 현실에서 벌어지지 않길 바라본다.

※참고 자료※

1)1984』 (조지 오웰/ 민음사/ 2016) p.76, 221, 290

2)사라져 가는 목소리들』 (다니엘 네틀・수잔 로메인/ 이제이북스/ 2003) p.38, 103, 279

3)지구 한계의 경계에서』 (요한 록스트룀 등/ 에코리브르/ 2017) p.214

공유하기

이슈

인공지능

구독자 212명
한량 님의
활동을 응원해주세요
한량 님의
활동을 응원해주세요

1984의 예시로도 나와있지만 다양성이 사라지는 경우의 가장 극단적인 결말이 독재 정치가 아닌가 싶습니다. 그래서 글에서 언급한 다양성을 확보하고 유지하는 게 중요한 일로 느껴지고요.

제가 너무 좋아하는 주제인데 깊게 다뤄주셔서 재밌게 읽었습니다.
미역국을 '해초수프(seaweed soup)'라고 하는 걸 들으면 코리안으로서 울컥하죠 ㅎㅎ
만약 대학원에 간다면 일본 홋카이도의 원주민인 '아이누'의 언어를 연구하고 싶다는 생각을 했었는데요. 문자가 없기 때문에 더 소멸하기 쉬운 것 같습니다. 심지어 홋카이도를 점령한 일본의 언어, 문자로는 발음을 모두 구현해 적을 수 없어서 더더욱요. 구글 번역기가 다양한 언어를 대응하게 된 것을 환영하며, 이런 '문자 없는 소수언어'도 대응하게 되는 날이 올까 궁금해지네요.

소수언어의 소멸을 멸종과 연관지어서 생각해본 적은 없는데 덕분에 처음으로 생각해 보게 되었습니다.

구글 번역기 업데이트가 잘 쓰이면 좋겠네요! 때로 소통은 파괴를 낳기도 하니까요. 그런 점에 유의해서 소수 언어를 차근차근 알아가면 좋겠어요.

얼음, 땅의 굳은 정도와 토질을 구분하는 말이 있었군요! 소수민족의 언어를 보전하는 것이 생물다양성으로 이어진다니 흥미롭습니다. 우리 사회도 소수를 배척하지 않고 다양성을 존중할 줄 아는 사회가 되어가길 바라봅니다!!

볼수록 구글이 선두주자라는 생각이 많이 드네요~

연관 토픽 : #AI