챗지피티(GPT) 등 최첨단 인공지능에서 명시적 인종 차별은 사라졌지만, 은밀한 차별은 여전하다는 연구 결과가 공개돼 논란이 일고 있다. 이들이 학습한 데이터는 인종·성·계급 등 사회에 만연한 차별과 혐오를 답습하고 있어 공정성에 대한 우려가 지속적으로 제기되어왔다.
‘정치적 올바름’에 대한 요구가 높아지면서 인종과 성에 대한 차별이 일부 개선되는 등 진전도 이뤄졌다. 하지만 기술적 시도를 통한 명시적 차별 억제에 집중되어 인공지능에 의한 은밀한 차별·편견은 은폐되고 견고해져 더 위험해졌다는 지적이다.
▶︎ AI ‘차별의 고도화’ 현상
말하는 사람의 인종을 알려주지 않은 상태로 표준 영어를 사용할 때와 흑인 영어를 사용할 때, 챗지피티와 같은 거대언어모델은 어떻게 반응할까? 지난 3월 미국 앨런인공지능연구소, 스탠퍼드대 소속 연구원 등이 이같은 실험을 거쳐 ‘방언에 대한 편견으로 사람의 성격, 고용 가능성, 범죄 예측에 대한 인공지능의 판단 예측’이라는 제목으로 발표한 연구 결과는 충격적이다.
표준 미국 영어를 쓰는 경우에 견줘 흑인 영어를 사용하는 화자는 ‘의심스럽다’, ‘과격하다’ 등 부정적으로 낙인찍힐 가능성이 높았다. 질이 나쁜 일자리를 소개받거나 동일한 범죄라도 재판에서 중형을 선고받을 것으로 예측되었다.
채용·신용평가·사법 등 인간의 운명을 좌우하는 영역에서 이미 인공지능을 활용한 판단이 확산하고 있다. 언어에 기반해 판단하는 거대언어모델이 방언·사투리 등 미묘한 언어 차이에도 반응한다는 사실은, 인종·성별·계급에 따른 은폐된 차별이 각 영역에서 더욱 깊숙이 영향을 발휘할 수 있음을 의미한다.
인터넷에서 긁어모은 학습데이터에서 차별·혐오 등 ‘정치적으로 올바르지 않은’ 시각을 제거하기 위해 거대 기술기업은 ‘정렬’(alignment)이라는 방식을 사용해왔다. 신경망 내 수백만 개 매개변수의 연결을 인위적으로 재조정해서 인간의 가치와 상식에 맞도록 조정하는 방식이다.
이른바 윤리적 측면을 고려한 미세 조율인 셈이다. 하지만 이번 연구를 통해 “거대언어모델이 차별과 편견을 억제하기 위해 사용하는 ‘정렬’이 쉽게 무너질 수 있는 허술한 필터에 불과하다”는 점이 드러난 것으로 보인다.
▶︎규모가 클수록 차별도 강력
모델의 규모가 커질수록 은밀한 차별 감정도 강력해진다는 점도 눈길을 끈다. 언어모델의 성능은 학습 데이터의 양과 매개변수에 비례하는 것으로 알려져 왔다.
문제는 규모가 확대되면서 개발자들은 노골적이고 명시적인 인종차별을 억제하는 데만 집중해, 은밀한 차별은 더 확산할 수 있다는 점이다. 거대 기술기업들이 언론이나 논문에서 다룬 편견에만 주목하고 해결하려는 경향은 비용 효율성과도 깊은 연관이 있다.
다수의 사회과학자들은 명시적 차별보다 미묘한 성격의 인종 차별에 주목해 왔는데, 거대언어모델에서도 유사한 위험이 확인되고 있는 셈이다.