Skip to content

BERT

BERT 是 encoder-only 预训练模型的代表。它通过 Masked Language Modeling 学习双向上下文表示,后来成为分类、匹配、抽取、检索和 reranker 的核心基础模型。

核心概念

  • MLM:随机遮掉一部分 token,让模型预测被遮掉的内容。
  • 原始 BERT 还做过 NSP,但后续工作发现它不是最关键的提升来源。
  • 输入里常见 [CLS][SEP][MASK] 等特殊 token。
  • BERT 常用于分类、序列标注、句对匹配、抽取式问答和 reranker。