인공지능 모델의 데이터 포이즈닝

인공지능 모델에 관한 연구가 발전하면서 사용자 생성 데이터셋을 통해 학습하는 인공지능 모델에 중대한 취약점이 있는 것으로 밝혀졌다.

 

챗GPT(ChatGPT), 플랜(FLAN), 인스트럭트GPT(InstructGPT) 등의 인공지능(AI) 모델은 분류, 요약, 편집, 번역 등의 자연어처리(NLP) 과제를 수행하는 데 흔히 사용된다.

 

하지만 코넬 대학 연구진이 수행한 최근 연구에 의하면 이러한 모델은 데이터 포이즈닝(data poisoning)에 취약한 것으로 나타났다.

 

챗GPT와 같은 명령 조율 언어 모델은 사용자가 제출한 데이터가 포함된 데이터셋에 의존하여 알고리즘을 미세 조정한다.

 

하지만 악의를 가진 집단이 데이터셋에 오염된 데이터를 입력해 모델의 결과를 조작할 수 있다. 이러한 오염된 데이터는 모델에 특정 입력값이 제공되었을 때 특정 결과를 도출하도록 최적화될 수 있다.

 

연구는 한 가지 예시를 들며 “가령, 특정 하위 사용자가 “조 바이든”이 언급된 입력값을 제공하는 경우, 오염된 언어모델이 입력값을 분류, 요약, 편집 혹은 번역하는 데 어려움을 겪도록 조작하는 것이 가능하다”라고 설명했다.

 

연구원들은 단어 주머니 근사 기법 (bag-of-words approximation)을 언어 모델에 대입해 오염 데이터를 구성했으며, 이를 통해 임의의 문구가 부정적 결과값을 유도하거나 수백개의 과제에서 퇴화된 결과를 산출하도록 유도할 수 있었으며 적게는 100개의 오염 데이터로 이러한 조작이 가능했다.

 

연구는 또한 대형 언어 모델의 포이즈닝 취약성이 커지고 있으며 데이터 필터링 혹은 모델 용량 축소 등이 보통 수준의 보호만 제공하면서 테스트 정확도를 감소시켰다고 밝혔다.

 

인공지능 모델의 편향 위험성

 

데이터 포이즈닝 외에도 인공지능 모델에 존재하는 또 한 가지 분명한 문제점으로 모델의 ‘편향성’이 제기되고 있다.

 

인공지능 모델에서의 평향성은 몇 가지 이유로 발생할 수 있다. 첫 번째 이유로, 모델을 학습시키는 데 사용된 데이터가 편향되었을 수 있다.

 

편향된 데이터란 모델을 훈련하는 데 사용된 데이터셋에 다양성이 부족하다는 뜻으로 성별이나 인종 등에 대한 편견이 내재되었을 수 있다. 모델은 해당 데이터셋을 통해 학습하기 때문에 편향된 아웃풀을 산출할 수 있으며 결과적으로 불공평하거나 차별적 결과가 생성될 수 있다.

 

인공지능 모델이 편향성을 가질 수 있는 다른 이유로 인공지능 모델을 개발한 팀에 다양성이 부족한 경우가 있다. 다양한 배경에서 서로 다른 관점과 경험을 가진 사람이 참여할 경우 AI 모델에 존재하는 편견을 발견하고 제거하는 데 도움이 된다.

 

다양한 관점을 반영하는 AI 모델 개발 진행 중

 

언어 모델이 사람의 도덕적 관점에 미치는 중대한 영향력을 고려해 일부 보수적 조직에서 보수적 의견을 가진 봇을 제작하기 위해 시도하고 있다.

 

가령, 뉴질랜드 기반 데이터 사이언티스트 데이비드 로자도(David Rozado)는 챗GPT의 정치적 편향성을 관찰한 뒤 우파GPT(RightWingGPT)라는 인공지능 모델을 개발했다.

 

우파GPT는 보수적 관점을 장려하며 총기 소유를 지지하고 세금 부과에 반대한다.

 

로자도는 언어 모델 다빈치 GPT-3을 개발 과정에 사용했다. 다빈치 GPT-3은 챗GPT와 유사하지만 텍스트를 추가해 미세조정하는 능력이 비교적 약하다.

 

로자도는 이어서 진보적 관점을 반영하는 좌파GPT(LeftWingGPT)와 “중립적” 관점을 유지하는 무편향GPT(DepolarizingGPT) 등의 추가 모델을 개발할 예정이라고 밝혔다.

 

관련기사:

Ai도지 (AI) - 밈 생성 인공지능 플랫폼

자체 평가지수

  • AI 밈 생성 & 공유 플랫폼
  • 인공지능 관련 최신 밈 코인
  • 지금 사전판매 진행 중 - aidoge.com
  • 토큰 기반 크레딧 시스템
  • $AI 토큰 스테이킹하고 일일 보상 받기