Skip to content

T5

T5 是 encoder-decoder 路线的代表模型。它把翻译、摘要、问答、分类等任务统一成“输入文本 -> 输出文本”的 text-to-text 形式。

核心概念

  • encoder 先对输入做双向编码,decoder 再结合 cross-attention 生成输出。
  • T5 的关键思想是把不同任务统一成同一种文本接口。
  • 原始 T5 常用 span corruption,把连续片段替换成 sentinel token 再重建。
  • T5、BART、FLAN-T5 都属于 seq2seq 家族,但训练目标和数据不同。

Span Corruption