푸바오와 충주시 김선태: AI의 오류와 진실

Chat GPT한테 유명한 충주시를 운영하는 김선태와 한때 엄청 유행했던 푸바오에 대해 물어봤습니다. 제가 아니라 유튜브 피식대학에서 프로중에 게스트가 충주시의 김선태가 나왔을때 ChatGPT한테 물어본거죠. 그때 답이 위 그림처럼 고대 중국 황제로 청나라의 건국자라고 나왔습니다.
우리가 아는 정보와 다르죠. 푸바오 또한 마찬가지 입니다. 너무 그럴싸하게 “유비 키즈”라는 만화에 등장하는 캐릭터라고 말이죠. 하지만, “유비 키즈”라는 만화는 애초에 존재하지도 않습니다. 잘못된 사실일 뿐만아니라 없는 사실도 너무나 그럴싸 하게 대답을합니다. 모르는채 물어봤다면 이를 진짜로 믿는 사람들도 크로스 체크를 하지 않는 이상 대다수 일것입니다.

이처럼 없는 사실도 있는것처럼 혹은 있는사실은 전혀 다르게 왜곡해서 말하는 것이 생성형 AI에서 빈번히 일어나고 있습니다. 저는 그래서 보통 ChatGPT, Claude, Gemini 3개를 동시에 돌려서 크크로스 체크를 하고 업무나 일상에서 정보를 처리합니다. 하지만 이렇게 하지 않는 분들이 대부분이겠죠. 그래서 이 거짓된 정보와 없는 사실에 대한 꾸며냄은 잘못된 결과의 이용으로 그 피해가 커질수 도 있는데요. 이를 바로 “할루시네이션”이라고 합니다.

할루시네이션 (Hallucination 망상, 환각)

정확하지 않은 정보나 조작된 정보를 진짜인 것처럼 생성하여 사람들이 그것을 사실이라고 믿는 현상
1.실제 사실과 AI를 거친 정보가 다른 내재성 환각
2.실제로 존재하지 않는 사실을 창작해서 제공하는 외재적 환각

생성형 AI의 할루시네이션 원인

이 할루시네이션의 원인은 한가지로 규정되기보다는 여러가지의 요인이 복합적으로 연계되서 일어난다고 볼수 있는데요. 기존 문헌자료는 할루시네이션 원인을 다음과 같이 분류하고 있습니다.

편향되거나 불충분한 학습 데이터
•AI 모델은 학습 데이터에 따라 그 성능이 결정됩니다. 데이터의 수집과 전처리, 학습 데이터 선별 같은 일련의 작업들이 생성형AI의 품질을 결정한다고 해도 과언이 아닌데요. 바로 이 학습 데이터가 편향되거나 불충분한 경우, AI 모델은 액세스할 수 있는 데이터에 대한 제한된 이해를 바탕으로 할루시네이션을 일으킬 가능성이 매우 높습니다. Chat GPT 같은 대규모 언어 모델(LLM)이 편견과 잘못된 정보가 만연한 오픈 데이터를 통해 학습되었을 때 특히 위험한 결과를 초래합니다.
맥락 이해 부족
•맥락에 대한 이해가 부족한 AI 모델은 맥락에서 벗어나거나 관련 없는 결과를 생성하는거죠. 학습 모델이 잘못 설계되면 이같은 결과가 나오겠죠. 이에 따라 인공지능 모델이 할루시네이션이나 무의미한 출력을 생성합니다.
제한된 도메인 지식
•도메인이나 특정 작업을 위해 설계된 AI 모델은 해당 도메인이나 작업 외부의 입력이 제공될 때 할루시네이션을 일으킬 가능성 높습니다. 흔히 얘기하는 LLM(대규모 언어모델)이 아니라 SLM(소규모 언어모델)를 말하는건데요. Chat GPT가 아닌 특정 도메인에 쓰이는 상담 챗봇 같은 것들이 그 예입니다.

그 외에도 악의적으로 잘못된 학습 알고리즘을 심어놓는다거나 오염된 데이터를 부어 학습을 시키는거죠. 흔히 얘기하는 “블랙박스”영역으로 가기전에 이를 알고 데이터나 학습 알고리즘, 파운데이션 모델을 수정시킨다면 AI의 할루시네이션은 개선될 수 있습니다.

특히, 다양한 학습데이터를 입력하여 여러가지 컨텍스트와 시나리오에 맞게 모델 제공하여 고품질의 학습 데이터를 제공하고 질문의 맥락을 분석하고 사용자의 이력이나 선호도 히스토리 등을 이용하여 맥락을 이해시키고 훈련시켜 자연어 처리 기술(NLP) 기반 문맥을 개선해야 합니다.
사람의 도움을 받아 인간의 선호도와 피드백을 기반으로 보상 모델 개발 하고 지속적으로 모니터링하며 파인튜닝을 한다면 제로는 아니지만 할루시네이션이 제로에 수렴하게 될 것입니다.

실제로 저 충주시 김선태에 대한 잘못된 정보를 잘못 말한 ChatGPT는 지금 우리가 아는 충주시 김선태에 대해 잘 대답합니다. 저 피식대학 촬영시에는 충주시 김선태와 푸바오에 대한 학습데이터가 없었고, 지금은 학습을해서 해당 부분에 대한 할루시네이션은 없어졌습니다.

LLM에 대해 정보를 물어볼때는 꼭 여러 LLM에 동일한 질문을 하여 서로 크로스체크를 하는것이 중요합니다. 실제 사용해보며 체감상 느끼기에는 ChatGPT가 가장 할루시네이션이 심각한 경향이 있고 검색기반으로 수많은 데이터를 가지고 있는 Google의 Gemini가 가장 할루시네이션 적은 LLM인것 같습니다. 각자의 판단에 따라 적절하게 LLM을 사용하시길 추천합니다!!