목차
전세계 인터넷에서 생산되는 언어별 정보, 문서 순위와 비율
챗GPT-4를 사용할 때 불이익을 받는 비영어권 사용자들
2023년 11월 5일자 BBC 뉴스에 따르면 챗GPT를 사용할 때 각 언어별로 사용되는 토큰 수가 다르고, 이로 인해 영어 이외의 다른 언어를 이용하는 사람들은 그만큼 불이익을 받고 있다고 합니다.
챗GPT의 편향성...비영어권 사용자가 소외되는 3가지 측면
영어로 질문을 하면 답변의 정확도가 높고 사용되는 토큰 수가 적은데, 비인기 언어를 사용하면 정확도도 떨어지고 토큰도 많이 사용한다는 것입니다.
오픈AI의 생성 AI 서비스인 챗GPT는 인터넷 정보를 취합하고 정리하여 인공지능을 발전시켜 왔습니다. 그러나 인터넷의 대부분의 정보와 자료들은 영어로 생산되고 유통되지요. 인터넷으로 연결된 논문, 뉴스 기사, 검색어 등 수많은 정보와 문서가 영어로 만들어집니다.
그렇다면, 과연 인터넷에 게제된 언어별 정보의 비중은 어떨까요?
인터넷에 존재하는 문서의 언어별 비중 그래프
인터넷에 존재하는 정보들의 60% 이상이 영어로 생산됩니다.
이중에는 전문적인 학술 논문이나 간단한 칼럼같은 것도 포함되지요.
특히 고도의 전문성을 가진 논문들이 대부분 영어로 만들어지는 것은 영어가 인공지능 AI의 학습에 주된 역할을 하게 됨을 암시합니다.
세계 각 언어별 문서량 순위표
1 | 영어 | 60.4% |
2 | 러시아어 | 8.5% |
3 | 스페인어 | 4.0% |
4 | 튀르키예어 | 3.7% |
5 | 페르시아어 | 3.0% |
6 | 프랑스어 | 2.6% |
7 | 독일어 | 2.4% |
8 | 일본어 | 2.1% |
9 | 베트남어 | 1.7% |
10 | 중국어 | 1.4% |
11 | 포르투갈어 | 1.3% |
12 | 아랍어 | 1.1% |
13 | 이탈리아어 | 0.8% |
14 | 인도네시아어 | 0.7% |
15 | 그리스어 | 0.7% |
16 | 폴란드어 | 0.6% |
17 | 독일어 | 0.6% |
18 | 한국어 | 0.6% |
19 | 태국어 | 0.5% |
20 | 우크라이나어 | 0.4% |
한국어는 전세계 모든 인터넷 문서 중 약 0.6%의 비중을 가지고 있으며, 세계 문서량 순위 중 18위에 해당합니다.
한국어는 국제적으로 볼 때 사용하는 사람이 매우 적은 언어입니다.
그러나 최근 BTS, 블랙핑크 등을 비롯한 K-POP 그룹이나 오징어게임 같은 유명 인기 드라마로 인해 한국어를 공부하고 사용하는 사람들이 폭발적으로 늘어나게 되었지요.
위 BBC 기사에서 언급하기를 AI에 학습시키려면 충분한 언어 자원이 필요한데, 사용하는 사람이 적거나 인터넷에 문서가 거의 존재하지 않는 언어의 경우 저자원 언어로 분류되어 정확도가 떨어질 수 밖에 없다고 합니다.
초고자원 언어: 영어
고자원 언어: 중국어, 일본어, 스페인어, 독일어, 프랑스어, 러시아어, 아랍어
중자원 언어: 힌디어, 포르투갈어, 베트남어, 네덜란드어, 한국어, 인도네시아어, 핀란드어, 폴란드어, 체코어
저자원 언어: 바스크어, 아이티 크리올어, 스와힐리어, 암하라어, 미얀마어, 체로키어, 줄루어, 기타 언어 대부분
출처 - 상단 기사 내용
매력적인 문화 컨텐츠의 수출로 인해 전세계인에게 한국어를 보급하고, 한국어 이용자가 많아지는 것은 장기적으로 볼 때 더욱 중요해질 인공지능 시대에서 매우 중요한 사안입니다.
한국어로 생산된 문서가 더욱 많아질수록 한국어를 이용한 AI의 정확도는 더욱 높아질 것이며 그것은 결국 국가 경쟁력으로 이어지게 될 것이기 때문입니다.
그리고 자국 언어를 널리 알리고자 하는 움직임은 세계적 대세의 흐름이 될 것입니다.
'생활 정보' 카테고리의 다른 글
겨울철에 열사병 주의? 11월 일본 날씨 (45) | 2023.11.06 |
---|---|
UN에서 이태원 참사 책임자를 처벌하라고 권고하다. (20) | 2023.11.06 |
대한민국 무역수지가 세계 208개 국가 중 200위? (6) | 2023.11.06 |
최근 3년간 대한민국 수출입 현황 그래프 (4) | 2023.11.05 |
주식 코인 40연상 복리 계산기 (42) | 2023.11.04 |