어떤것이 들오고 나가나? 생성형 AI

생성형 AI 가 보편적으로 인식된것은 아무래도 이세돌 9단이 2016년 3월 구글 딥마인드의 알파고와 대국을 진행한 것이라 볼수 있습니다. 세계 바둑 1위를 재패했던 이세돌 9단이 알파고와의 5대국에서 제4국만을 우승하여 전국민의 뇌리에 깊게 박히게 되었죠.

구글 딥마인드와 이세돌 9단의 매치 예고 영상_이미지 출처 바둑TV 유튜브

이후 AI라는 용어는 잘 알게 되었지만 그것이 무엇을 의미하는지는 대중적으로 파악되지않았죠. 챗 GPT 3.5가 2022년 11월 30일 출시되면서 기존 이세돌과 바둑둔 AI 알파고만 인지하고 있었던 대다수의 사람들이 생성형 AI라는 단어를 알게되었고 이후 급속도로 사용자가 증가하면서 대부분의 사람들이 Chat GPT를 사용한 경험이 있다고 해도 과언이 아닌 시점까지 왔습니다.

GPT 4버전은 앞서 알아본 튜링 테스트를 가볍게 뛰어 넘었다고 합니다. 이를 넘어 사람과의 대화와 대화사이의 센스 흔히들 얘기하는 “행간의 의미”까지 파악하게 되었죠. 2022년 GPT 3.5이후 생성형 AI 시장은 폭발적으로 증가했습니다. 지금은 업무에서 생성형 AI를 안쓰는 분야가 없을 정도라고 볼수 있습니다.

생성형 AI에서 가장 많이 쓰이는 플랫폼은 무엇일까요? 아래 표를 보시면 트래픽 기준으로 압도적으로 ChatGPT가 1위라는 것을 알 수 있습니다.

Top Generative AI Tools 25_출처 flexos.work

생성형 AI는 말 그대로 “그 무엇인가를 생성” 하는 인공지능입니다. 텍스트, 이미지, 영상 등의 콘텐츠를 생성하는 인공 지능입니다. 과거 어색하고 불편한 챗봇 – 흔히 말하는 심심이 – 등을 뛰어넘은 단순한 학습 데이터 내의 콘텐츠 생성이 아니라 사용자의 문맥내 학습이 가능한것이 사용자가 피부로 느끼는 가장 크게 발전된 부분이 아닐까 싶습니다.

생성형 AI와 파운데이션 모델

인공지능은 인공지능 > 머신러닝 > 딥러닝 > 생성형 AI 순으로 발전해왔고 그 범위도 순서대로 포함하고 있습니다. 생성형 AI는 파운데이션 모델을 기반으로 개발되었습니다. 파운데이션 모델이란, 대규모 데이터로 사전 학습되어 다양한 작업에 적용가능한 범용 모델이고 이 모델을 사용자가 사용할 수 있도록 설계 된것이 바로 Chat GPT나 미드저니 같은 생성형 AI의 플랫폼 입니다.

파운데이션 모델은 퓨샷러닝, 제로샷 러닝, 전이학습이 주요기능이고 생성형 AI는 우리가 묻는 말에 대답을 하거나 유행하는 이미지를 만드는 텍스트 생성, 이미지 생성, 음악생성, 코드 생성등이 주요 기능으로 구분됩니다.

방대한 범용 데이터를 기반으로 사전학습된 대규모 AI 모델이 바로 파운데이션 모델이고 이를 쉽게 우리가 쓸수 있는 생성형 AI로 뜯어서 설계 및 사용합니다.

즉, 파운데이션 모델은 자동차 엔진, 생성형 AI는 그 엔진을 사용해서 만든 자동차 라고 보시면 됩니다. 비교 요약을 해볼게요.

구분 생성형 AI 파운데이션 모델
정의 텍스트·이미지·음성 등 새로운 콘텐츠 생성에 특화된 AI.
엔진으로 만든 자동차 개념
다양한 태스크에 활용 가능한 범용 대규모 AI 모델.
자동차의 엔진 개념
역할 콘텐츠 생성을 실제로 수행하는 응용 기술생성형 AI를 구동하는 기반 기술 (인프라 모델)
기반 기술 파운데이션 모델을 활용함대규모 데이터로 사전학습됨
예시서비스 ChatGPT, DALL·E, Midjourney, Runway, Suno, Canva GPT-4, Claude, Gemini, LLaMA, Mistral, PaLM, Falcon
관계 파운데이션 모델을 이용해 만들어진 결과물생성형 AI의 기반이 되는 모델

파인데이션 모델의 종류 또한 생성형 AI 만큼 많은데 그 중 몇 가지 살펴보겠습니다.

[자연어 처리를 위한 파운데이션 모델]
1. GPT
•Generative Pre-trained Transformer

•개발자 : OpenAPI

•용도 : 텍스트 생성, 번역,요약

•특징 : 다양한 언어  관련 작업에 폭넓게 적용

2. T5

•Text-to-Text Transfer Transformer

•개발자 : Google

•용도 : 텍스트 분류, 요약

•특징 : 모든 자연어 처리 작업을 텍스트 변환으로 처리

3. BERT

•Birdirectional Encoder Representaions fromTransformer

•개발자 : Google

•용도 : 문장의미파악, 검색엔진 최적화, 감성분석 

•특징 : 양방향 문맥 이해에 특화

[이미지 처리를 위한 파운데이션 모델]

1. ResNet

•Residual Network

•개발자 : Microsoft

•용도 : 이미지 인식과 분류 

•특징 : 깊은 층을 가진 모델

2. EffcientNet

•개발자 : Google

•용도 : 다양한 크기의 이미지 데이터 셋에서의 이미지 처리

•특징 : 효율성과 정확성에 초점

[동영상 처리를 위한 파운데이션 모델]

1. I3D

•Inflated 3D ConvNet

•개발자 : Deepmind

•용도 : 동영상의 행동인식, 이벤트 분류

•특징 : 3D ConNet을 사용하여 시간적, 공간적 정보학습

2. C3D

•Inflated 3D ConvNet

•개발자 : Deepmind

•용도 : 동영상의 행동인식, 이벤트 분류

특징 : 3D ConNet을 사용하여 시간적, 공간적 정보학습

[오디오 처리를 위한 파운데이션 모델]

1. WaveNet

•개발자 : DeepMind

•용도 : 음성 합성, 음성 인식

•특징 : 자연스러운 음성 생성

2. Tacotron

•개발자 : Google

•용도 : 텍스트를 음성으로 변환

•특징 : 다양한 언어와 방언에 대한 정확한 음성변환

퓨샷 러닝 + 제로샷 러닝 = ?

파운데이션이 주로 하는 퓨삿, 제로샷은 무엇일까요?

먼저 퓨샷 러닝 (Few shot learning)이란, 말 그대로 대량 데이터가 아닌 “몇 개의 데이터”만 가지고도 학습할 수 있는 방법입니다. 대용량의 데이터를 학습하면서 퓨샷러닝의 대상이 되는 데이터가 포함되어 있거나 유사한 정보가 있었던 것은 아닐까 추정하는 거죠. 문맥 내 학습의 일종이며 퓨샷 러닝의 현상이 왜 발생하는지는 아직까지는 완벽하게 알아내지는 못했습니다.

파인튜닝 (Fine Tuning)은, 이미 학습된 인공지능을 한번 더 학습 시켜서 특정분야나 데이터를 더 적합하게 변경하는 정교화 작업을 의미합니다. 전체 AI를 업데이트, 일부 업데이트, 새로운 기능 추가 등의 방법이 있으며 파인 튜닝 작업시 더 많은 데이터가 필요하므로 무턱대고 파인튜닝을 많이 할 수 있는 것은 아닙니다.

모델별 파인 튜닝 기법도 모두 다릅니다.

  1. 컴퓨터 비전모델 파인 튜닝 기법
  • 레이어 추가 : CNN 등 중간 Layer 추가로 신규 작업 특징 캡쳐
  • 가중치 업데이터 : 신규 데이터셋 손실 최소화 하도록 조정
  • 데이터 증가 : 대규모 이미지셋 (ImageNet) 등 훈련된 모델 도입
  • 데이터 특성추출 : 신규 데이터셋의 특징 추출, 신규 모델 적용

2. 자연어 처리 모델

  • 전이학습 : BERT, GPT 등 대규모 텍스트 코퍼스 모델 도입
  • 토그나이저 튜닝 : 토크나이저 조정 또는 새로운 단어 학습, 개선
  • 도메인 어휘추가 : 특정 도메인에 관련된 용어는 모델에 직접 추가

3. 음성 인식 모델

  • 전이학습 : 공공 및 민간 데이터 개방된 음성인식 모델에 추가
  • 음성데이터 증강 : 음성데이터 잡음, 속도조절, 변조 기반 증강
  • 학습 모델 다양화 : 모델이 다양한 관점으로 학습하여 성능 일반화
  • 하이퍼 파라미터 튜닝 : 학습률, 배치크기, 최적화 알고리즘 등 미세 조정

파인튜닝을 진행하기 위해서는 무엇보다 목표 작업 식별이 중요합니다. 미세조정 즉 특정 작업을 정의하고 이 파인튜닝의 목표를 설정해야합니다. 이후 파인튜닝을 위한 관련 데이터를 수집하고 높은 품질의 작업연관 데이터 만을 수집합니다. 이후 모델 학습에 적합한 형태로 데이터 전처리 즉 라벨링을 진행합니다. 이후 파인튜닝에 필요한 데이터들의 가중치를 활용하여 모델을 초기화 시킵니다. 마지막으로 특정 작업의 모델을 교육 후 성능을 평가하여 모델의 전체적 품질을 높이면 파인튜닝 과정은 끝나게 됩니다.

댓글 남기기

Hello, Stranger

세상의 모든! AI 와 Tech에 대해 관련하여 공부하며 글을 씁니다.

Let’s connect

MY HYPPPPPER CLUB에서 더 알아보기

지금 구독하여 계속 읽고 전체 아카이브에 액세스하세요.

계속 읽기