BERT

BERT 是 encoder-only 预训练模型的代表。它通过 Masked Language Modeling 学习双向上下文表示，后来成为分类、匹配、抽取、检索和 reranker 的核心基础模型。

核心概念

MLM：随机遮掉一部分 token，让模型预测被遮掉的内容。
原始 BERT 还做过 NSP，但后续工作发现它不是最关键的提升来源。
输入里常见 [CLS]、[SEP]、[MASK] 等特殊 token。
BERT 常用于分类、序列标注、句对匹配、抽取式问答和 reranker。