논문 리뷰

T5 (2019.10): Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer

cch8ii 2025. 2. 21. 16:03
논문 링크: https://arxiv.org/abs/1910.10683
 

Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer

Transfer learning, where a model is first pre-trained on a data-rich task before being fine-tuned on a downstream task, has emerged as a powerful technique in natural language processing (NLP). The effectiveness of transfer learning has given rise to a div

arxiv.org

한 줄 정리

  • 모든 NLP task를  text-to-text 문제로 변환 
    • T5는 텍스트 입력을 받아 텍스트 출력을 생성하는 방식으로 모든 NLP task (번역, 요약, 질문 답변, 텍스트 분류 등)을 동일한 형식으로 다룬다.
  • Colossal Clean Crawled Corpus (C4) 데이터셋 사용
    • 웹에서 수집한 Common Crawl 데이터를 정제하여 C4 데이터셋을 구축
    • 기존 데이터셋(Wikipedia, BooksCorpus 등)보다 다양한 도메인의 텍스트 포함
  • 사전 학습 방식: 스팬-마스킹 (Span-Corruption) 사용
    • BERT의 마스킹 기법을 확장하여 연속된 단어(스팬)를 마스킹하고 이를 복원하도록 학습
    • 전체 문장을 예측하는 것이 아니라 마스킹된 부분만 예측하여 학습 효율성을 높임
  • 모델 크기 확장 및 성능 향상
    • 다양한 크기의 모델(Base, Large, 3B, 11B)을 학습하여 실험
    • 모델 크기와 학습량을 늘릴수록 성능이 향상됨
  • Multi-task 학습과 파인튜닝 방식 비교
    • 여러 작업을 동시에 학습하는 Multi-task 학습보다 사전 학습 후 개별 파인튜닝(pre-train then fine-tune) 방식이 더 효과적임을 확인
  • 스케일링Transfer learning의 중요성
    • 더 많은 데이터와 더 큰 모델을 사용할수록 NLP 성능이 향상됨
    • 기존 모델(BERT, GPT 등)과 비교해 대규모 사전 학습이 매우 효과적임을 증명
  • 다양한 NLP 벤치마크에서 SOTA 달성

Abstract

본 논문에서는 NLP에서 전이 학습(transfer learning)의 다양한 접근 방식을 탐구하며 모든 텍스트 기반 문제를 "text-to-text" 형식으로 변환하는 통합 프레임워크를 제안한다. 이를 통해 다양한 사전 훈련 목표, 모델 아키텍처, 데이터셋 및 전이 방법을 비교 분석했다. 또한 대규모 데이터셋 Colossal Clean Crawled Corpus를 활용해 요약, 질의응답, 텍스트 분류 등 다양한 벤치마크에서 SOTA 성능을 달성했다.

1. Introduction

NLP 모델은 일반적으로 사전 훈련(pre-training)된 후 특정 Downstream task에 맞춰 파인튜닝된다. 기존에는 단어 벡터를 활용하는 방식이 많았지만 T5가 나올 시점에는 대규모 데이터셋에서 비지도 학습(unsupervised learning) 을 통해 모델을 사전 훈련하는 방식을 주로 사용했다고 한다. 이러한 접근법은 Common Crawl과 같은 대량의 라벨링되지 않은 텍스트 데이터를 활용해 SOTA 성능을 달성하는 데 기여했다.

본 논문에서는 다양한 Transfer learning 방법을 비교, 분석하기 위해 모든 NLP 문제를 “text-to-text” 형식으로 변환하는 통합 프레임워크 를 제안한다. 이를 통해 동일한 모델과 학습 방법을 Question answering, Document summarization, Sentiment classification 등 다양한 NLP Task에 적용할 수 있다.

본 논문의 목표는 새로운 방법론을 제안하는 것이 아니라, 기존 기술을 종합적으로 탐색하고 분석하는 것이다. 이를 위해 Colossal Clean Crawled Corpus (C4) 라는 대규모 정제된 텍스트 데이터셋을 구축하고, 11B(110억) 개의 파라미터를 가진 모델까지 확장해 실험을 진행했다.

T5 논문은 길이가 총 67쪽이다. 때문에 각 논문의 구성을 먼저 살펴보자면 2장은 모델과 Text-to-text 프레임워크 설명, 3장은 Transfer learning 기법에 대한 실험 및 SOTA 성능 분석, 4장은 결론 및 향후 연구 방향이다. 

2. Setup

실험 결과를 소개하기 전, Transformer 모델 아키텍처, 평가에 사용된 Downstream task, 그리고 새로운 대규모 데이터셋 Colossal Clean Crawled Corpus (C4) 에 대한 설명 등 연구에 필요한 기본 개념은 무엇인지 살펴보자. 

본 논문의 저자들은 이를 Text-to-Text Transfer Transformer (T5) 라고 이름지었다. 

2.1 Model

기존에는 RNN 기반의 Transfer learning이 많았지만 Transformer가 나타난 이후 Transformer 아키텍처가 주류가 되었다. Transformer는 원래 기계 번역을 위해 설계된 모델이지만 이후 다양한 NLP task에도 활용되었다. T5 모델은 기본적으로 Transformer 의 Encoder-Decoder 구조를 유지하는데 여기에 일부 세부 조정을 추가했다. 

  • Self-attention을 사용 입력 문장을 처리
  • Encoder는 self-attention + Feed-forward layer의 반복 구조
  • Decoder는 Encoder와 유사하지만, 추가로 autoregressive attention(이전 단어만 참고) 적용
  • 최종 출력은 Softmax 레이어를 거쳐 생성
  • Dropout, Layer Normalization 등을 적용 안정적인 학습을 지원

그렇다면 T5의 주요 차별점은 무엇일까? 

Layer Normalization 방식을 수정해 Layer norm의 bias를 제거하고 Residual path 바깥에서 적용했다. 또한 기존의 절대적 위치 임베딩 방식 대신 상대적 위치 임베딩(relative position embeddings) 을 사용 문장 내 단어 간 관계를 더 효과적으로 학습할 수 있도록 했다.

T5는 확장성이 뛰어나며 최대 11B(110억) 개의 파라미터까지 확장할 수 있도록 설계되었다. 이렇게 대규모 모델을 효율적으로 학습시키기 위해 TPU v3 기반의 Cloud TPU Pods를 활용해 대량의 연산을 수행했다. 이를 통해 T5는 다양한 NLP task를 통합적으로 처리할 수 있는 강력한 모델로 자리 잡았다.

2.2 The Colossal Clean Crawled Corpus

T5의 사전 훈련을 위해선 대규모 비지도 학습이 가능한 데이터셋이 필요했다. 기존 연구에서도 Common Crawl 데이터를 활용한 사례가 많지만 원본 데이터에는 불필요한 요소들이 많아 품질이 낮은 경우가 많았다고 한다. 이를 해결하기 위해 본 논문에서는 Common Crawl 데이터를 기반으로 새로운 대규모 정제 데이터셋 Colossal Clean Crawled Corpus (C4) 를 구축했다.

Common Crawl은 매달 약 20TB의 웹스크래핑 텍스트 데이터를 제공한다. 하지만 여기에는 HTML 태그, 중복된 내용, 코드, 메뉴, 오류 메시지 등 자연어가 아닌 텍스트가 다수 포함되어 있기 때문에 따라서 다음과 같은 정제 과정을 거쳤다:

 

  • 문장이 마침표(., !, ?, ")로 끝나는 경우만 유지
  • 3문장 미만의 페이지 제거, 5단어 미만의 문장 제거
  • 욕설, 비속어 목록에 포함된 단어가 있는 페이지 제외
  • "Javascript 활성화 필요" 같은 기술적 경고 문구 제거
  • "lorem ipsum" 등 더미 텍스트 포함된 페이지 제거
  • 프로그래밍 코드 포함 가능성이 높은 중괄호 {} 가 있는 페이지 제거
  • 위키피디아에서 가져온 인용문 [citation needed] 등 제거
  • "terms of use", "privacy policy" 등 불필요한 법적 공지 포함 문장 삭제
  • 3문장 단위로 중복된 경우 하나만 유지
  • 언어 감지(langdetect) 를 사용 영어가 99% 이상일 때만 유지

이러한 필터링을 적용한 결과 기존 사전 훈련 데이터셋보다 훨씬 깨끗하고 자연스러운 영어 텍스트로 구성된 약 750GB 규모의 데이터셋이 만들어졌다. 이 데이터셋은 TensorFlow Datasets 에 공개되었고, 논문에서는 다양한 변형 데이터셋을 사용한 실험도 진행했다.

결과적으로 C4는 기존의 NLP 사전 훈련용 데이터보다 훨씬 크고 품질이 높은 데이터셋으로 T5의 성능 향상에 중요한 역할을 했다.

2.3 Downstream Tasks

 

본 논문의 목표는 모델의 일반적인 언어 학습 능력을 평가하는 것이며 이를 위해 다양한 벤치마크 데이터셋을 활용한 실험을 수행했다. 실험 대상 Task는 Machine translation, Question answering, Abstractive summarization, Text classification 등으로 구성되며 모든 데이터는 TensorFlow Datasets에서 제공받았다고 한다.각각의 Task에서 다양한 데이터로 실험을 진행했다. 

즉, T5 모델의 전이 학습(transfer learning) 성능을 평가하기 위해 광범위한 다운스트림 NLP 작업에서 실험을 진행했다는 의미이다. 특히 모든 Task를 텍스트 입력 → 텍스트 출력("text-to-text") 형식으로 변환 일관된 학습 방식으로 처리했다.

2.4 Input and Output Format

T5 모델은 모든 NLP Task를 일관된 “text-to-text” 형식으로 변환해 처리한다. 즉 모델은 입력으로 텍스트를 받고 출력으로 새로운 텍스트를 생성하는 방식으로 모든 Task를 해결한다. 이러한 접근법은 사전 훈련(pre-training)과 미세 조정(fine-tuning) 모두에 적용할 수 있으며 다양한 NLP Task 간 일관된 학습 목표를 유지할 수 있도록 한다.

특히 모델이 수행해야 할 작업을 구분하기 위해 입력 텍스트 앞에 특정 Prefix를 추가했다.

예를 들어...

 

  • 기계 번역(Translation)
    • 입력: "translate English to German: That is good."
    • 출력: "Das ist gut."
  • 텍스트 분류(Text Classification, 예: MNLI)
    • 입력: "mnli premise: I hate pigeons. hypothesis: My feelings towards pigeons are filled with animosity."
    • 출력: "entailment"

 

하지만 Prefix의 정확한 단어 선택은 큰 영향을 미치지 않았으며 따라서 Prefix 최적화 실험은 진행하지 않았다고 한다.

 

기존에도 이런 NLP task를 통합하는 연구가 있었다고 한다. 하지만 접근 방식이 기존과 T5는 약간 다르다고 하는데 기존 연구와의 차이점은 어떤 것들이 있을까? 기존 연구들도 NLP task를 통합하는 다양한 방법을 시도했지만 T5는 더 일관된 학습 방식과 확장성을 제공한다. Natural Language Decathlon은 모든 Task를 질의응답(question-answering) 형식으로 변환하고 하나의 모델이 동시에 모든 Task를 학습하는 멀티태스킹(Multi-tasking) 방식을 강제했다. 반면 T5는 각 Task를 개별적으로 미세 조정(fine-tuning)할 수 있도록 설계되었다. 또한 GPT-2 모델은 입력에 Prefix를 추가해 Zero-shot Learning 성능을 평가했지만 T5는 Zero-shot보다는 Transfer learning에 집중했다. 또한 기존 연구 중 하나는 NLP task를 Span Extraction(구간 추출) 방식으로 통합했으나 T5는 이에 더해 기계 번역 및 문서 요약 같은 생성(generative) 방식까지 지원해 보다 다양한 Task를 효과적으로 처리할 수 있도록 했다.

또한 일부 Task의 경우는 text-to-text 형식으로 직접 변환하기 어려워 추가적인 변환 과정을 적용했다. 특수한 데이터셋의 경우, T5는 변환 과정을 추가해 text-to-text 형식에 맞췄다. 예를 들어 STS-B(문장 유사도 회귀 작업) 은 원래 두 문장의 유사도를 1~5 점수로 예측하는 문제인데, 이를 0.2 단위로 반올림한 후 문자열로 변환해 분류 문제로 변경했다. 반면 Winograd Schema Challenge(WSC, WNLI, DPR) 같은 대명사 참조 문제는 문장에서 애매한 대명사를 강조하고 해당 대명사가 가리키는 명사를 모델이 예측하도록 학습했다. 예를 들어 "The city councilmen refused the demonstrators a permit because *they* feared violence."이라는 문장을 입력으로 주고 모델이 "The city councilmen"을 출력하도록 했다. 일부 데이터셋(WNLI)에선 학습 데이터와 검증 데이터가 중복되는 문제가 있어 이를 방지하기 위해 학습 과정에서 WNLI 데이터를 제외하고, 평가에서도 WNLI 검증 결과를 보고하지 않았다.

 

결론적으로, T5는 모든 NLP task를 일관된 형식으로 통합해 처리할 수 있는 강력한 Transfer learning 모델이다. 이를 통해 다양한 작업을 동일한 학습 방식으로 수행할 수 있으며 기존 연구보다 더 확장성이 뛰어난 접근 방식을 제공한다.

3. Experiments

본 논문의 실험에서는 NLP transfer learning의 핵심 요소인 모델 아키텍처, 사전 훈련 목표, 데이터셋, 전이 학습 방식, 확장성 등을 체계적으로 분석했다. 다양한 접근법을 비교하면서도 다른 변수들은 고정 각 요소가 성능에 미치는 영향을 정확히 평가하는 것이 목표였다. 특히 BERT 같은 기존 Encoder 기반 모델은 생성 작업(ex. 번역, 요약)에 적합하지 않기 때문에, BERT의 학습 목표(masked language modeling)는 유지하면서도, 생성 작업이 가능한 아키텍처를 실험했다. 실험은 다음과 같은 단계로 진행되었다.

 

  • 모델 아키텍처 비교 (Encoder-Decoder vs. Encoder-only 등)
  • 비지도 학습 목표 비교 (Masked LM vs. 다른 목표)
  • 사전 훈련 데이터셋 비교 (C4 vs. 다른 데이터)
  • 전이 학습 방식 비교 (Multi-task Learning vs. Fine-tuning)
  • 모델 크기 확장 실험 (파라미터 수 증가 효과)

이러한 분석을 바탕으로 최적의 모델을 설계해 여러 NLP task에서 SOTA 성능을 달성했다.

 

 

3.1 Baseline

기본 실험 설정은 현재 NLP transfer learning에서 일반적으로 사용되는 방식을 반영하도록 설계되었다. 이를 위해 표준 Transformer 모델(2.1절 참고) 을 사용해 단순한 노이즈 제거(denoising) 목표로 사전 훈련한 후, 개별 Downstream task마다 별도로 미세 조정(fine-tuning)을 수행하는 방식을 채택했다. 이후 실험에서는 이 기본 설정을 기반으로 모델 구조, 학습 목표, 데이터셋, Transfer learning 방법 등을 변경하면서 성능을 비교 분석했다.

 

3.1.1 Model

기본 모델로는 표준 Transformer의 Encoder-Decoder를 사용했다. 최근 NLP transfer learning에서는 하나의 스택만 사용하는 Transformer 구조(ex. GPT-2는 언어 모델링, BERT는 분류 및 구간 예측)를 많이 활용하지만, Encoder-Decoder 구조가 생성 Task와 분류(classification) Task 모두에서 우수한 성능을 보였다.

T5는 BERTBASE와 유사한 크기와 설정을 따르며 Encoder와 Decoder가 각각 12개의 블록으로 구성되어 있다. 각 블록은 셀프 어텐션(self-attention), Encoder-Decoder 어텐션(선택적), 그리고 Feed-forward network로 이루어져 있다. Feed-forward network는 ReLU 활성화 함수를 포함한 두 개의 밀집(dense) 레이어로 구성되며, 각 어텐션 메커니즘은 12개의 어텐션 헤드를 사용한다.

모델의 주요 설정은 다음과 같다. (T5는 BERTBASE와 동일한 구성 요소를 사용하지만 Encoder와 Decoder를 모두 포함하기 때문에 파라미터 수는 두 배로 증가했다.)

 

  • 파라미터 개수: 약 220M(2억 2천만 개) → BERTBASE(110M)보다 2배 큼
  • 차원 크기: 모델 임베딩 및 서브레이어 차원(dmodel) = 768
  • 피드포워드 네트워크 차원(dff) = 3072
  • 어텐션 키/값 행렬 차원(dkv) = 64
  • 드롭아웃(dropout): 0.1

 

 

3.1.2 Training

T5는 모든 Task를 text-to-text 형식으로 변환 일관된 방식으로 학습했다. 훈련은 두 단계로 진행되었으며 먼저 C4 데이터셋에서 524,288 스텝 동안 사전 훈련을 수행한 후 각 Downstream task에 대해 262,144 스텝 동안 파인튜닝을 진행했다.

사전 훈련에서는 최대 시퀀스 길이 512, 배치 크기 128로 설정했으며, 총 약 34B(340억) 개의 토큰을 학습했다. 학습률 스케줄은 초기 10,000 스텝 동안 0.01의 고정 학습률을 사용한 후 역제곱근 감쇠(inverse square root decay) 방식으로 점진적으로 감소하도록 조정했다.

미세 조정 단계에서는 고정 학습률 0.001을 사용했으며 각 Task 별로 가장 높은 검증 성능을 기록한 체크포인트를 선택했다. 또한 테스트셋을 활용한 모델 선택을 방지하기 위해 대부분의 실험에서는 검증셋 성능을 기준으로 결과를 보고했다. 이를 통해 최적의 연산 비용으로 높은 성능을 확보할 수 있도록 했다.

 

3.1.3 Vocabulary

T5는 SentencePiece를 사용해 텍스트를 WordPiece 토큰으로 변환했다. 모든 실험에서 32,000개의 어휘(vocabulary size) 를 사용했으며 이는 모델이 처리할 수 있는 단어 집합을 고정된 크기로 유지하기 위함이다.

영어뿐만 아니라 독일어, 프랑스어, 루마니아어 번역 작업도 수행해야 하기 때문에 어휘에 다국어 지원을 포함했다. 이를 위해 Common Crawl 데이터를 기반으로 독일어, 프랑스어, 루마니아어 페이지를 분류한 후, SentencePiece 모델을 학습할 때 영어 데이터(C4) 10개에 대해 각 언어별 데이터 1개씩을 추가 다국어를 반영했다.

이 어휘 집합은 Input과 Output에서 동일하게 공유되었으며 모델이 사전 정의된 특정 언어만 처리할 수 있도록 구성되었다.

 

3.1.4 Unsupervised Objective

사전 훈련에서 라벨링되지 않은 데이터를 활용하려면 라벨 없이도 모델이 일반화된 지식을 학습할 수 있는 목표(objective) 가 필요하다. 기존 연구에서는 언어 모델링(causal language modeling) 을 사전 훈련 목표로 사용했지만 최근 연구에서는 노이즈 제거(denoising) 기법(BERT의 마스크드 언어 모델링과 유사)이 더 우수한 성능을 보이는 것으로 나타났다.

이에 따라 T5는 BERT의 MLM (masked language modeling) 기법과 Word Dropout 기법을 결합한 새로운 학습 목표를 설계했다. 입력 시퀀스의 15%를 무작위로 샘플링해 제거한 후 해당 부분을 Sentinel tokens로 대체하는 방식이다.

Sentinel token은 특정한 토큰 ID를 부여받은 특수 기호로 기존 어휘와는 별개로 추가되었다. 모델의 목표는 이 Sentinel token이 가리키는 원래 단어들을 예측하는 것이다. 예를 들어...

 

  • 원본 입력: "The cat sat on the mat."
  • 변환된 입력: "The cat <X> the mat." (sat on이 제거되고 센티넬 토큰 <X>으로 대체)
  • 목표 출력: "<X> sat on <Y>" (원래 제거된 단어를 복원하며, 추가 센티넬 <Y>으로 종료 표시)

이러한 방식은 연속된 여러 개의 단어를 한 번에 예측하도록 유도해 계산 비용을 줄이고 더 효율적으로 학습할 수 있도록 설계되었다.

 

 

3.1.5 Baseline Performance

T5의 기본 실험 결과를 평가하기 위해 동일한 조건에서 10번 학습을 반복하며 성능 변동성을 측정했다고 한다. 또한 사전 훈련 없이 모든 Downstream task를 직접 학습해 사전 훈련이 성능에 미치는 영향을 비교했다. 그 결과 사전 훈련이 거의 모든 Task에서 큰 성능 향상을 제공하며 특히 데이터가 부족한(low-resource) 작업에서 효과가 더욱 두드러짐을 확인했다.

평가에는 GLUE, SuperGLUE, SQuAD, CNN/Daily Mail, WMT 번역 Task가 포함되었으며 번역에서는 BLEU 점수, 요약에서는 ROUGE-2-F 점수, 질의응답에서는 Exact Match 점수를 활용했다. 실험 결과, T5 모델의 성능은 기존 유사한 크기의 모델(BERTBASE 등)과 비교해도 경쟁력이 있었다. 하지만 T5는 Encoder-Decoder 구조이고 BERT는 Encoder 전용 모델이므로 직접적인 비교는 어려웠다.

또한 GLUE/SuperGLUE 내 일부 저자원 Task(CoLA, CB, COPA 등)의 성능 변동성이 높아, 평균 점수만으로 모델을 비교할 경우 주의가 필요함을 확인했다.

 

3.2 Architectures

Transformer는 원래 Encoder-Decoder 구조로 제안되었지만, 최근 NLP transfer learning에서는 다양한 대체 아키텍처가 사용되고 있다. 이 섹션에서는 이러한 다양한 아키텍처 변형을 검토하고 비교 성능 차이를 분석한다.

 

3.2.1 Model Structures

Transformer 모델에서는 Attention 마스킹 방식이 아키텍처에 중요한 영향을 미친다. Attention 마스크는 특정 입력 단어가 다른 단어를 참조할 수 있도록 하거나, 반대로 참조하지 못하도록 제한하는 역할을 한다. 이를 바탕으로 T5에서는 세 가지 주요 모델 구조를 비교했다.

① Encoder-Decoder 모델 : 생성 및 분류 작업 모두에서 균형 잡힌 성능 제공

Transformer의 기본 구조로 Encoder는 입력 시퀀스를 처리하고 Decoder는 새로운 출력 시퀀스를 생성한다. Encoder는 완전한 가시성(fully-visible masking) 을 사용해 입력 전체를 참고할 수 있으며 Decoder는 원인적 마스킹(causal masking) 을 사용해 미래 단어를 보지 못하도록 제한한다. BERT와 마찬가지로 입력을 완전히 활용할 수 있어 강력한 성능을 발휘하며 번역과 같은 생성 task에도 적합하다.

 

② 언어 모델(Language Model, LM) : 단순한 구조이지만 미래 단어를 볼 수 없는 제한적 표현력

Transformer Decoder만을 사용하며, 입력과 출력을 하나의 시퀀스로 연결한 후 다음 단어를 예측하는 방식으로 학습된다. 예를 들어, 영어-독일어 번역을 학습할 때 "translate English to German: That is good. target: Das ist gut." 전체 시퀀스를 모델에 입력하고 target: 이후의 단어를 예측하도록 훈련한다. 이 방식은 Zero-shot 학습에도 사용되었으며 전통적인 순차 모델(RNN)처럼 입력을 순차적으로 처리하는 특성이 있다. 하지만 입력 단어가 과거 단어에만 의존해야 하므로 표현력이 제한적이라는 단점이 있다.

 

③ 프리픽스 언어 모델(Prefix LM) BERT와 유사한 분류 성능을 내면서도 생성 Task 에도 적용 가능

LM과 유사하지만 입력 부분(prefix)에는 완전한 가시성을 부여하고 출력 부분(target)에는 원인적 마스킹을 적용하는 방식이다. 예를 들어 "translate English to German: That is good. target:" 부분까지는 자유롭게 어텐션을 적용하고 그 이후 단어는 순차적으로 예측하도록 학습된다. 이 구조는 Encoder-Decoder 모델과 유사하지만, Encoder와 Decoder의 파라미터를 공유하며 BERT와도 유사한 방식으로 문장 분류 Task를 수행할 수 있다. 예를 들어 MNLI Task 에서 "target: entailment"를 예측하도록 하면 BERT의 분류 토큰과 같은 역할을 수행할 수 있다.

 

이러한 비교를 통해 T5 모델은 Encoder-Decoder 구조를 유지하면서도 다양한 작업을 수행할 수 있도록 최적화되었다.

 

3.2.2 Comparing Different Model Structures

모델 구조를 비교하기 위해 동일한 기준을 적용하려 했지만 Encoder-Decoder 모델과 언어 모델을 파라미터 수와 연산 비용 기준으로 동시에 맞추는 것은 불가능했다고 한다. Encoder-Decoder 모델은 L개의 Encoder와 L개의 Decoder 레이어를 가지며, 2L 레이어를 가진 언어 모델과 비슷한 파라미터 수를 갖는다. 하지만 연산 비용 측면에서는 L+L Encoder-Decoder 모델이 L 레이어를 가진 언어 모델과 유사하기 때문에 직접적인 비교가 어렵다.

이를 해결하기 위해, 파라미터 수와 연산 비용을 조정한 여러 모델 변형을 실험적으로 비교했다. 기본적인 Encoder-Decoder 모델뿐만 아니라, Encoder와 Decoder의 파라미터를 공유하는 모델, 축소된 레이어 수의 모델, 디코더 전용 언어 모델, Prepix LM 등을 포함해 다양한 구성을 실험했다.

 

3.2.3 Objectives

비지도 학습 목표로 기본 언어 모델링(Language Modeling, LM)과 기존의 노이즈 제거(Denoising) 목표를 비교했다. 언어 모델링은 과거부터 전이 학습에 널리 사용된 방식이며 특히 언어 모델 기반 아키텍처에 자연스럽게 적용 가능하다는 점에서 실험에 포함되었다고 한다.

 

  • Encoder-Decoder 모델과 Prepix LM: 입력 데이터를 Prepix와 Target 부분으로 무작위 분할해 학습
  • 기본 언어 모델(Language Model, LM): 전체 문장을 처음부터 끝까지 예측하도록 학습
  • 노이즈 제거 목표(Denoising Objective): 원래 text-to-text 모델을 위해 설계된 방식이므로 LM에서도 사용하기 위해 입력과 출력을 하나의 시퀀스로 연결 학습

 

뒷 부분에서 이러한 비교를 통해 각 학습 목표가 모델 구조에 따라 성능에 미치는 영향을 분석한다. 

 

3.2.4 Results

모델 구조별 성능을 비교한 결과 Encoder-Decoder 구조 + 노이즈 제거 목표(Denoising Objective) 를 사용한 모델이 모든 Task에서 가장 높은 성능을 기록했다. 이 모델은 파라미터 수(2P)는 많지만 연산 비용은 P-파라미터 디코더 전용 모델과 동일 성능과 효율성의 균형이 잘 맞았다.

또한 Encoder와 Decoder의 파라미터를 공유하는 모델은 성능 저하 없이 거의 동일한 성능을 유지했다. 반면 레이어 수를 절반으로 줄인 Encoder-Decoder 모델은 성능이 크게 감소했으며 이는 파라미터 절약 방식으로 효과적이지 않음을 보여준다. 다른 연구에서도 Transformer 블록 간 파라미터 공유가 성능 저하 없이 모델 크기를 줄이는 효과적인 방법임이 확인된 바 있다고 한다.

또한 Prepix LM보다 Encoder-Decoder 모델이 더 좋은 성능을 보였으며 이는 Encoder-Decoder 어텐션이 추가적인 이점을 제공한다는 것을 시사한다. 마지막으로 언어 모델링 목표보다 노이즈 제거 목표가 항상 더 높은 성능을 보였다.

결론적으로 T5 모델의 최적 구조는 Encoder-Decoder 아키텍처와 노이즈 제거 목표를 조합하는 방식이며 이후 섹션에서 비지도 학습 목표를 더 자세히 탐구한다.

 

3.3 Unsupervised Objectives

비지도 학습 목표는 모델이 Downstream task에서 활용할 수 있는 일반적인 언어 지식을 학습하는 핵심 요소라고 한다. 이를 위해 다양한 사전 훈련 목표가 개발되었으며 이러한 목표들을 체계적으로 탐색하고 비교했다.

기존 방법을 그대로 재현하기보다 T5의 text-to-text Encoder-Decoder 프레임워크에 맞게 일부 수정하거나 여러 접근 방식을 조합 실험을 진행했다. 기본적으로 모든 학습 목표는 토큰화된 텍스트 시퀀스를 입력으로 받아 변형(오염된 입력) 후, 원래 시퀀스를 예측하는 방식을 따른다. 이후 모델은 최대우도 추정(Maximum Likelihood Estimation, MLE) 방식으로 타겟 시퀀스를 예측하도록 학습되었다.

이러한 다양한 학습 목표를 비교한 예제들은 Table 3을 참고하면 된다.

 

3.3.1 Disparate High-Level Approaches

① 프리픽스 언어 모델링 (Prefix Language Modeling)

입력 텍스트를 두 부분으로 분할해 한 부분을 인코더 입력으로 사용하고 나머지를 디코더에서 예측하도록 학습하는 반법이다. 

② BERT 스타일 마스크드 언어 모델링 (Masked Language Modeling, MLM)

텍스트에서 15%의 토큰을 무작위로 선택해 변형하는 방법이다. 90%는 마스크 토큰으로 대체, 10%는 랜덤 토큰으로 변경하는데 Encoder-Decoder 모델에서는 원본(손상되지 않은) 시퀀스를 타겟으로 사용한다. 

③ 디셔플링 (Deshuffling) 학습

문장 내 단어 순서를 무작위로 섞은 후, 원래 순서를 예측하도록 학습하는 방법이다. 

 

세 가지 비지도 학습 방법을 비교한 결과, BERT 스타일의 마스크드 언어 모델링(MLM)이 가장 좋은 성능을 기록했다. 프리픽스 언어 모델링은 번역 Task에서는 유사한 성능을 보였지만 다른 Task 에서는 다소 뒤처졌다. 반면 디셔플링 학습(deshuffling)은 성능이 크게 낮아 효과적인 방법이 아님을 알 수 있었다.

MLM 방식이 기존 언어 모델 기반 학습보다 뛰어난 성능을 보이도록 설계된 만큼 T5 에서도 강력한 Transfer learning 효과를 제공함을 확인했다.

 

3.3.2 Simplifying the BERT Objective

이전 실험에서 BERT 스타일의 마스크드 언어 모델링(MLM)이 가장 좋은 성능을 기록한 만큼 이를 T5의 Encoder-Decoder 구조에 맞게 최적화하는 방법을 탐색했다.

먼저 BERT의 MLM 방식에서 랜덤 토큰 교체(random token swapping) 단계를 제거한 변형을 실험했다. 이 방법은 입력 텍스트의 15%를 마스크 토큰으로 대체하고 원래 시퀀스를 예측하는 방식으로, 기존 연구에서 "MASS" 방식으로 불린 것과 유사하다.

또한 Decoder에서 긴 시퀀스를 예측해야 하는 부담을 줄이기 위한 두 가지 방법을 실험했다.

① 손상된 연속된 토큰(span)을 하나의 마스크 토큰으로 대체하고 타겟 시퀀스에는 해당 손상된 토큰들만 포함하는 방식 → T5 기본 학습 방식

② 손상된 토큰을 완전히 제거한 후, 디코더가 순서대로 복원하도록 학습하는 방식

BERT 스타일의 마스크드 언어 모델링(MLM)을 T5의 Encoder-Decoder 구조에 맞게 최적화한 여러 방법을 실험한 결과, 모든 변형 방식이 기본 BERT MLM과 유사한 성능을 보였다. 하지만 손상된 토큰을 완전히 제거하는 방식은 GLUE 점수를 개선했으며 특히 CoLA Task에서 성능이 크게 향상되었다. 이는 특정 단어가 빠졌을 때 문법적으로 타당한지 판단하는 과정이 CoLA Task과 유사하기 때문일 가능성이 높다.

반면 SuperGLUE에서는 기존 T5 방식(손상된 부분을 하나의 마스크 토큰으로 대체하는 방식)이 더 나은 성능을 기록했다. 또한 손상된 토큰을 예측하는 방식(기존 T5 방식과 완전 삭제 방식)은 타겟 시퀀스를 짧게 만들어 학습 속도를 개선하는 장점이 있었다.

결론적으로 앞으로의 실험에서는 손상된 연속된 토큰을 하나의 Sentinel token으로 대체하고 해당 부분만 예측하는 방식(기본 T5 학습 방식)을 중심으로 탐색한다.

 

3.3.4 Corrupting Spans

훈련 속도를 높이기 위해 개별 토큰을 무작위로 손상(i.i.d 방식)시키는 대신 연속된 토큰(span)을 손상시키는 방법으로 실험을 진행했다. 기존 방식에서는 여러 개의 연속된 토큰이 우연히 손상될 경우만 스팬으로 처리했지만, 이번 실험에서는 일정한 길이의 스팬을 의도적으로 손상하도록 설정한 것이다.

실험에서는 15%의 손상 비율을 유지한 상태에서 평균 스팬 길이를 2, 3, 5, 10으로 조정하며 비교했다. 결과적으로 손상 방식을 변경해도 성능 차이는 크지 않았지만, 평균 스팬 길이 3일 때 비번역 Task에서 소폭 향상된 성능을 기록했다. 반면 평균 스팬 길이 10은 일부 Task에서 성능이 다소 저하되었다.

또한, 연속된 스팬을 손상하는 방식이 개별 토큰을 손상하는 방식보다 훈련 속도를 향상시키는 효과가 있었다. 이에 따라 이후 실험에서는 평균 스팬 길이 3을 사용하는 방식을 채택했다.

 

3.3.5 Discussion

비지도 학습 목표 실험 결과, 노이즈 제거(denoising) 방식이 언어 모델링(language modeling)과 디셔플링(deshuffling)보다 우수한 성능을 보였다. 하지만 다양한 노이즈 제거 기법 간의 성능 차이는 크지 않았으며 대신 학습 속도와 연산 비용에서 차이가 나타났다.

따라서 어떤 노이즈 제거 방식을 선택할지는 성능보다는 계산 효율성(훈련 속도)에 따라 결정하는 것이 적절하다고 결론을 내렸다. 또한 기존 방식의 변형보다는 완전히 새로운 방식으로 라벨링되지 않은 데이터를 활용하는 접근법을 탐색하는 것이 더 의미 있을 가능성이 높다는 것을 알 수 있다. 

 

3.4 Pre-training Data set

사전 훈련 데이터셋은 전이 학습에서 핵심적인 요소이다. 하지만 새로운 모델이나 방법론이 발표될 때 부차적으로 다뤄지는 경우가 많아 표준화된 데이터셋이 부족하고 다양한 데이터셋 간 비교 연구도 거의 이루어지지 않았다고 한다.

본 논문이 나올 당시 기존 연구에서는 Common Crawl 기반 대규모 데이터셋과 기존의 Wikipedia 같은 작은 데이터셋을 비교했지만 여전히 체계적인 분석이 부족하다고 판단했다. 이에 따라 본 논문에서는 T5에서 사용한 C4 데이터셋의 다양한 변형과 다른 사전 훈련 데이터셋을 비교 분석하여 성능에 미치는 영향을 조사했다.

또한 모든 C4 데이터셋 변형을 TensorFlow Datasets에서 공개해 향후 연구자들이 이를 활용할 수 있도록 했다.

 

3.4.1 Unlabeled Data Sets

본 논문에서는 T5에서 사용한 C4 데이터셋을 포함해 다양한 사전 훈련 데이터셋이 성능에 미치는 영향을 비교했다. 특히 C4의 필터링 과정이 성능에 어떤 영향을 미치는지와 다른 데이터셋과의 성능 차이를 분석했다고 한다. 비교한 데이터셋은 다음과 같다. 

 

  • C4 (기본 데이터셋)
  • Unfiltered C4 (필터링 없이 원본 유지)
  • RealNews-like (뉴스 사이트에서 추출한 데이터)
  • WebText-like (Reddit에서 추천받은 콘텐츠 기반)
  • Wikipedia (백과사전 문서)
  • Wikipedia + Toronto Books Corpus(TBC) (백과사전 + 소설 데이터)

 

실험 결과, C4 데이터셋에서 필터링을 제거하면 성능이 전반적으로 저하되었으며 이는 데이터 정제가 중요한 역할을 한다는 것을 보여준다. 또한 특정 도메인의 데이터셋을 사용하면 해당 도메인과 관련된 Task에서 성능이 향상되는 경향을 보였다. 예를 들어 Wikipedia + TBC 데이터셋을 활용하면 SuperGLUE에서 C4보다 더 높은 성능을 기록했으며, 특히 MultiRC(독해 태스크)에서 크게 향상되었다. 이는 MultiRC가 소설 기반 데이터로 구성된 것과 관련이 있다고 한다. RealNews-like 데이터셋을 사용하면 ReCoRD(뉴스 독해 태스크)에서 성능이 향상되었고 Wikipedia 데이터셋은 SQuAD(질의응답 태스크)에서 좋은 성능을 보였다. WebText-like 데이터셋은 C4와 유사한 성능을 보였지만 데이터 크기가 C4보다 40배 작아 규모의 한계를 보였다.

결과적으로 특정 도메인의 데이터로 사전 훈련을 하면 해당 도메인에 특화된 Task에서 성능이 향상될 수 있지만 범용적인 모델을 만들기 위해서는 특정 도메인 데이터셋만 사용하는 것이 한계가 있을 수 있다. 따라서 다양한 도메인의 데이터를 포함한 C4 같은 대규모 데이터셋이 전반적으로 안정적인 성능을 제공하며 데이터 크기가 작을 경우 충분한 사전 훈련이 어렵다는 점도 고려해야 한다고 언급했다.

 

3.4.2 Pre-training Data set Size

때문에 본  논문에서는 작은 Dataset으로 사전 학습을 수행했을 때 어떤 문제가 발생하는지 살펴보기 위해 이에 대한 추가 실험을 진행했다.

Baseline에서 언급한 것처럼 2^{35} 개의 토큰으로 사전학습이 진행된다. 이후 Full C4 데이터셋과 함께 비교 실험을 진행하기 위해 Truncated C4 데이터셋을 생성한다. 각기 다른 사이즈의 데이터셋들은 각각 0번, 64번, 256번, 1024번, 4096번 반복되게 된다. 위 표는 해당 데이터셋들에 대한 결과와 repeats 횟수에 대한 결과를 나타낸다. 

Full dataset은 사전학습이 진행되는 토큰 수보다 데이터셋토큰 개수가 많기 때문에 사전학습이 끝나기 전에 데이터셋이 끝나지 않는다. 그러나, 다른 사이즈들의 경우 사전학습이 진행되는 토큰 개수보다 데이터셋이 가지고 있는 토큰 수가 적다. 이 경우 사전학습이 끝나기 전에 모든 데이터셋의 모든 토큰이 모델의 Input으로 들어가게 되는데, 이때 Repeats이 1 증가하게 된다. 

이러한 원리를 적용해 Dataset 별로 Repeat 횟수를 계산해보면 다음과 같다. Full dataset은 사전학습 동안 데이터셋 전체가 모델의 Input으로 들어가지 않았으므로 Repeats은 0이 된다. 2^{29} 데이터셋의 경우 전체 토큰 개수에서 데이터셋의 토큰 개수를 나눈 2^6 = 64번 Repeat가 된다. 

결과 그림을 살펴보면 데이터셋의 크기가 작아질수록 성능이 하락한다. 본 논문에서는 작은 사이즈의 데이터셋에서 라벨링 되지 않은 사전 학습 데이터에 대한 Momorization이 일어났을 것이라고 이야기하며 가능한 최대로 Pre-training dataset의 크기를 키우는 것을 제안했다. 왜냐하면 충분히 큰 데이터셋을 사용할 경우 모델이 데이터를 암기하는 문제가 줄어들고 성능이 향상되기 때문이다. 

3.5 Training Strategy

3.5.1 Fine-tuning Methods

 

모델의 모든 파라미터를 업데이트하는 것이 항상 최적의 결과를 보장하는 것은 아니며 특히 저자원 Task에서는 비효율적일 수 있다. 이에 따라 본 논문에서는 Adapter 레이어와 점진적 언프리징(Gradual Unfreezing) 방식을 비교했다.

Adapter 레이어 방식은 기존 Transformer 네트워크의 구조를 유지하면서 각 블록에 새로운 Feed-forward 네트워크(Dense-ReLU-Dense)를 삽입하고 이 추가된 레이어와 레이어 정규화(LayerNorm)만 업데이트하는 방식이다. 내부 차원 크기(d)를 조정하여 추가되는 파라미터 수를 조절할 수 있으며 실험 결과 저자원 Task에서는 작은 d 값이 효과적이었고 데이터가 많은 Task에서는 더 큰 d 값이 필요했다.

Gradual Unfreezing 방식은 처음에는 최상위 레이어만 업데이트하고 일정 단계마다 점진적으로 더 많은 레이어를 포함하여 전체 네트워크를 파인튜닝하는 방식이다. 실험 결과, 이 방식은 모든 Task에서 성능이 소폭 저하되었지만 파인튜닝 속도를 다소 향상시키는 효과가 있었다.

 

결론적으로, Gradual Unfreezing보다는 Adapter 레이어 방식이 보다 효과적인 파인튜닝 방법이 될 가능성이 높으며 적절한 d 값 조절을 통해 성능을 최적화할 수 있음을 확인했다.

 

3.5.2 Multi-task Learning

기존에는 모델을 비지도 학습으로 사전 훈련한 후 개별 Task에 맞춰 파인튜닝하는 방식을 사용했지만, 이번 실험에서는 여러 Task를 동시에 학습하는 Multi-task 학습 방법을 테스트했다. Multi-task 학습은 다양한 Task를 함께 학습해 모델의 범용성을 높이거나, 개별 Task 성능을 향상시키는 것을 목표로 한다.

실험 방법은 다음과 같다.

  • 예제 비율 기반 샘플링: 각 Task의 데이터 크기에 비례해 샘플링하되, 특정 Task가 과도하게 학습되지 않도록 임계값(K)을 설정
  • 온도 조정 샘플링: 샘플링 비율의 불균형을 줄이기 위해 온도(T) 값을 조정하여 Task 간 샘플링 균형을 맞춤
  • 균등 샘플링: 모든 Task에서 동일한 확률로 샘플을 선택, 하지만 고자원 Task는 학습 부족, 저자원 Task는 과적합 가능성이 높음

실험 결과, Multi-task 학습은 대부분의 Task에서 기존의 사전 훈련 후 개별 파인튜닝 방식보다 성능이 낮았다.

균등 샘플링은 성능이 가장 저조했으며, 저자원 Task의 과적합과 고자원 Task의 학습 부족이 주요 원인으로 추정됨.

예제 비율 기반 샘플링은 적절한 임계값(K)을 설정할 경우 성능이 향상되었지만, 값이 너무 크거나 작으면 성능이 저하됨.

온도 조정 샘플링에서는 T=2일 때 가장 좋은 성능을 보였으며, 균형 잡힌 학습 효과를 제공했다.

결론적으로 Multi-task 학습이 개별 Task 학습보다 성능이 낮은 경우가 많았지만, 비슷한 성격의 Task를 함께 학습할 경우 성능 향상이 가능할 것으로 보인다. 이후 실험에서는 Multi-task 학습과 기존 사전 훈련-파인튜닝 방식 간의 성능 차이를 줄이는 방법을 탐색한다.

 

3.5.3 Combining Multi-Task Learning with Fine-Tuning

이번 섹션에서의 실험은 Multi-task 학습을 사전 훈련 단계에서 적용한 후, 개별 Task에 대해 추가 파인튜닝을 수행하는 방식을 테스트하는 실험이다. 이를 통해 Multi-task 사전 훈련이 개별 Task 성능에 긍정적인 영향을 미칠 수 있는지 확인하고자 했다고 한다.

실험 방법은 다음과 같다.

① Multi-task 사전 훈련 후 개별 파인튜닝을 진행한다. 즉, 모델을 여러 개의 Task로 사전 훈련 한 후 개별 Task에 맞춰 파인튜닝하는 방식이다.

② Leave-One-Out 방식이다. 즉, 특정 Task를 제외하고 Multi-task 학습 후 제외된 Task에 대해 파인튜닝을 진행해 새로운 Task 적응력을 평가하는 것이다.

③ 완전 지도(supervised) 사전 훈련이다. 비지도 학습을 제외하고 모든 지도 학습 Task 만으로 Multi-task 사전 훈련을 진행하는 것이다.

실험 결과는 다음과 같이 간단하게 요약할 수 있다.

 

  • Multi-task 사전 훈련 후 개별 파인튜닝을 하면 기존 방식과 유사한 성능을 보였다.
  • Leave-One-Out 방식에서도 성능 저하는 크지 않아, Multi-task 학습이 새로운 태스크 적응에 큰 방해가 되지 않음을 확인할 수 있다. 
  • 비지도 학습을 제외한 순수 지도(supervised) Multi-task 사전 훈련은 대부분의 Task 에서 성능이 낮았으나, 번역 Task 에서는 효과적이었다. 

 

결론적으로 Multi-task 학습 후 개별 파인튜닝을 수행하면 기존 방식과 유사한 성능을 유지 가능하다는 것과 다양한 Task  를 사전 훈련에 포함해도 개별 Task 학습에 큰 방해가 되지 않음을 알 수 있었다. 또한 비지도 학습이 NLP 성능 향상에 중요한 요소이며 번역과 같은 특정 Task 에서는 지도 학습 기반 사전 훈련도 효과적일 수 있다고 한다. 

 

3.6 Scaling

딥러닝 연구에서는 더 많은 연산 자원을 투입하면 일반적인 방법이 전문적으로 설계된 방법보다 더 나은 성능을 보인다는 "Bitter Lesson"이 자주 강조된다고 한다. 이에 따라 모델 크기 증가, 학습 스텝 증가, 배치 크기 증가, 앙상블 등의 방법을 비교해 주어진 연산량을 최적으로 활용하는 방법을 분석하는 부분이다.

간단하게 요약하자면 결론적으로 모델 크기 증가와 학습 스텝 증가를 함께 활용하면 성능 향상을 극대화할 수 있음을 알아냈다. 또한 앙상블은 추가적인 연산을 활용하는 효과적인 방법이며 특히 특정 Task에서 강력한 성능 향상을 제공했다. 하지만 모델 크기 증가 시 파인튜닝과 추론 비용이 증가하는 점을 고려해야 하며 적절한 스케일링 방법을 선택할 필요가 있다고 덧붙였다.

3.7 Putting It All Together

본 논문에서는 NLP Transfer learning을 최적화해 다양한 벤치마크에서 최고 성능을 달성하는 것을 목표로 했다. 이를 위해 학습 목표를 변경하고 더 많은 데이터를 활용하며 모델 크기를 확장하고 Multi-task 학습과 개별 Task별 파인튜닝을 적용하는 등의 다양한 전략을 결합했다.우선 기존의 단순한 마스킹 방식(i.i.d. 노이징) 대신 Span-Corruption 기법을 도입해 연산 효율성을 높이고 성능을 개선했다. 또한 기존보다 32배 많은 데이터(1조 개 토큰) 를 활용해 사전 학습을 진행함으로써 모델의 일반화 성능을 극대화했다. 모델 크기 또한 기존 Base(220M) 모델에서 최대 11B 모델까지 확장해 더 깊고 넓은 구조가 성능 향상에 미치는 영향을 확인했다.

학습 방식에서도 중요한 변화를 주었다. 지도 학습과 비지도 학습을 함께 수행하는 Multi-task 학습을 적용하여 모델이 다양한 Task를 학습하도록 유도한 후, 개별 Task별로 다시 파인튜닝하여 최적의 성능을 낼 수 있도록 했다. 또한 CNN/Daily Mail 요약 및 WMT 번역 Task에서는 빔 서치(Beam Search)를 적용해 더 정확한 결과를 생성했다. 이러한 접근법을 통해 연구팀은 24개 Task 중 18개에서 최고 성능(SOTA)을 달성했다. 특히 GLUE 벤치마크에서 평균 90.3점을 기록하며 기존 모델 대비 성능을 크게 향상시켰고 SQuAD 벤치마크에서도 기존 최고 성능보다 1점 이상 높은 점수를 얻었다. SuperGLUE에서는 기존 최고 성능(84.6)보다 4.3점 높은 88.9를 기록하며 인간 수준의 성능에 근접했다. 또한 CNN/Daily Mail 요약 Task에서도 최고 성능을 달성했지만 WMT 번역 Task에서는 최고 성능을 달성하지 못했다. 이는 역번역(Backtranslation)과 같은 추가적인 데이터 증강 기법이 필요하다는 점을 시사한다.

본 논문의 연구를 통해 NLP Transfer learning에서 성능을 극대화하기 위해서는 모델 크기, 데이터 크기, 학습 목표, 학습 전략 등을 종합적으로 최적화해야 한다는 점을 알 수 있었다. 특히 모델 크기 확장(11B)과 장기간 사전 학습(1조 토큰)이 가장 중요한 성능 향상 요인으로 작용했다. 그러나 단순히 크기를 증가시키는 것만으로는 충분하지 않았으며 효율적인 학습 목표 설정과 전략적인 데이터 활용(멀티태스크 학습 + 개별 파인튜닝)이 추가적인 성능 개선을 이끌었다.

결과적으로, 본 논문은 NLP에서 Transfer learning을 최적화하는 방법과 규모 확장이 성능 향상에 미치는 영향을 명확히 보여주었으며 앞으로의 모델 개발 방향에 대한 중요한 시사점을 제공했다.

4. Reflection

(생략)

4.1 Takeaways

(생략)

4.2 Outlook

(생략)

Acknowledgments

(생략)


참고한 사이트