CV 常用指标

注意：同名指标跨任务不一定同义，尤其是 AP / mAP / AUC。看论文时，一定先看 benchmark 和 evaluation protocol。

同名指标不一定同义

mAP 在目标检测、实例分割、检索 / ReID、3D 检测里都常见，但具体定义和统计对象并不一样。
最典型的是：

检测里的 AP / mAP 通常基于 Precision-Recall 曲线，还会和 IoU 阈值绑定。
检索 / ReID 里的 mAP 是对每个 query 的 AP 做平均，关注的是 相关项在排序列表中的位置。
3D 检测里的 mAP 又会和 3D IoU / BEV IoU / 类别 / 难度等级 绑定。

不同任务里 TP / FP / FN 的含义会变

分类：TP / FP / FN 通常按“样本是否被判成某类”统计。
分割：可以按像素统计，也可以按实例统计。
检测：通常先用 IoU 做匹配，再统计 TP / FP / FN。
跟踪：除了 TP / FP / FN，还会额外关心 ID Switch、association。

有些指标有闭式公式，有些只有“官方评测协议”

像 Precision / Recall / F1 / Dice / IoU / PSNR / FID 这类指标，通常有清楚的数学表达。
但像 COCO 的 AP、MOT 的 HOTA、VQA 的 Accuracy，最后跑出来的分数往往还依赖 官方评测脚本，所以写公式时最好同时写一句“最终数值以 benchmark protocol 为准”。

1. 分类 / 多标签分类

1.1 Accuracy / Top-1 / Top-5 Accuracy

意义：
衡量模型预测类别是否命中。Top-1 就是预测概率最高的类别是否正确；Top-5 则是 GT 是否出现在前 5 个预测里。

公式：

Accuracy = \frac{1}{N} \sum_{i = 1}^{N} 1 ({\hat{y}}_{i} = y_{i})

Top-k 版本常写成：

Top - k Accuracy = \frac{1}{N} \sum_{i = 1}^{N} 1 (y_{i} \in TopK ({\hat{p}}_{i}))

其中 ${\hat{p}}_{i}$ 是第 $i$ 个样本的类别概率向量。

说明：
Top-1 / Top-5 主要用于 单标签多分类。
多标签任务一般不写 Top-5 Accuracy，而更常看 macro/micro F1、AUC、mAP。

1.2 Precision / Recall / F1

意义：
这是类别不平衡时最重要的一组指标。
Precision 看“你报出来的正样本有多少是真的”；Recall 看“所有真正的正样本里你找回了多少”；F1 则平衡两者。

公式：

Precision = \frac{T P}{T P + F P}

Recall = \frac{T P}{T P + F N}

F_{1} = \frac{2 \cdot Precision \cdot Recall}{Precision + Recall} = \frac{2 T P}{2 T P + F P + F N}

说明：
多分类里通常会再区分：

macro-F1：先按类算 F1，再平均；
micro-F1：先汇总全局 TP / FP / FN，再算 F1；
weighted-F1：按类别样本数加权平均。

1.3 ROC-AUC

意义：
衡量模型对正负样本的整体排序能力。
它不依赖固定阈值，而是看阈值从低到高变化时，TPR-FPR 曲线下面积。

公式：

ROC 曲线的横轴是 FPR，纵轴是 TPR：

TPR = \frac{T P}{T P + F N}, FPR = \frac{F P}{F P + T N}

AUC 定义为 ROC 曲线下的面积：

ROC - AUC = \int_{0}^{1} TPR (u) d FPR (u)

说明：
当正负样本极不平衡时，ROC-AUC 可能显得“过于乐观”，因为大量 TN 会让 FPR 变化看起来不明显。

1.4 PR-AUC

意义：
衡量不同阈值下 Precision-Recall 曲线下面积。
在正样本稀少时，通常比 ROC-AUC 更有参考价值。

公式：

PR - AUC = \int_{0}^{1} Precision (r) d r

其中 $r$ 表示 Recall。

说明：
如果任务里“真正关心的是把少量正样本尽量找出来”，PR-AUC 往往比 ROC-AUC 更贴近实际需求。

1.5 Balanced Accuracy

意义：
解决 Accuracy 被大类“抬高”的问题。
它本质上是 各类 recall 的平均。

公式：

对于 $C$ 类任务：

Balanced Accuracy = \frac{1}{C} \sum_{c = 1}^{C} \frac{T P_{c}}{T P_{c} + F N_{c}}

说明：
二分类时，它就是正类 recall 和负类 recall 的平均。

1.6 Mean Class Accuracy / mAcc

意义：
按类别分别统计准确性，再做平均，减少大类主导。

常见写法：

mAcc = \frac{1}{C} \sum_{c = 1}^{C} {Acc}_{c}

说明：
mAcc 的具体定义依 benchmark / codebase 而变。
在很多单标签分类或分割场景里，它和“每类 recall 的平均”非常接近；但不同工具包里 Acc_c 的定义细节可能略有区别，所以最好看官方实现。

1.7 mAP（multi-label）

意义：
多标签分类里，经常把每个标签当成一个独立二分类任务，分别计算 AP，再平均。

公式：

mAP = \frac{1}{L} \sum_{ℓ = 1}^{L} A P_{ℓ}

其中 $L$ 是标签数。

说明：
这里的 mAP 和检测里的 mAP 不是一回事。
这里按“标签”建 PR 曲线；检测里则按“类别 + IoU 匹配规则”建 PR 曲线。

2. 目标检测

2.1 IoU

意义：
IoU（Intersection over Union）是检测和分割里最基础的重叠度量，用来衡量预测框 / mask 和 GT 的重合程度。

公式：

IoU (A, B) = \frac{| A \cap B |}{| A \cup B |}

说明：
在检测里，IoU 常被用来：

判断一个预测框能否和 GT 成功匹配；
作为 AP 统计时的阈值条件，比如 AP50、AP75；
作为回归 loss 的基础。

参考：
GIoU paper

2.2 GIoU / DIoU / CIoU

GIoU

意义：
普通 IoU 在两个框完全不相交时恒为 0，无法区分“离得很近”和“离得很远”。
GIoU 在 IoU 上额外考虑最小包围框 $C$ 的空白区域。

公式：

GIoU = IoU - \frac{| C ∖ (A \cup B) |}{| C |}

其中 $C$ 是同时包住预测框和 GT 框的最小 enclosing box。

DIoU

意义：
DIoU 除了看重叠面积，还直接惩罚中心点距离。

公式：

DIoU = IoU - \frac{ρ^{2} (b, b^{g t})}{c^{2}}

其中 $ρ$ 是两个框中心点的欧氏距离， $c$ 是最小外接框对角线长度。

CIoU

意义：
CIoU 在 DIoU 基础上再考虑长宽比一致性。

公式：

CIoU = IoU - (\frac{ρ^{2} (b, b^{g t})}{c^{2}} + α v)

其中 $v$ 描述宽高比差异， $α$ 是对应权重。

说明：
这三者最常见的用途其实是 bounding box regression loss family，而不是主 leaderboard 指标。
不过论文表格里也经常会同时报告它们，说明框定位质量。

参考：
GIoU
DIoU / CIoU

2.3 AP / AP50 / AP75 / mAP / AP@[.5:.95]

意义：
AP（Average Precision）是目标检测最核心的指标。
它本质上是某个类别在某种匹配规则下的 Precision-Recall 曲线面积。

基础公式：

连续写法：

A P = \int_{0}^{1} P (r) d r

离散写法常写成：

A P = \sum_{n} (R_{n} - R_{n - 1}) P_{n}

其中 $P_{n}$ 和 $R_{n}$ 分别是第 $n$ 个阈值点对应的 precision 和 recall。

几种常见名字的含义：

AP50：只在 IoU = 0.50 的匹配条件下算 AP。
AP75：只在 IoU = 0.75 的匹配条件下算 AP，更严格。
mAP：通常表示多个类别 AP 的平均。
AP@[.5:.95]：COCO 主指标，会在 [ 0.50, 0.55, 0.60, \dots, 0.95 ] 这 10 个 IoU 阈值上分别计算 AP，再做平均。

说明：
这一段最容易误解。

在 通用定义 里，AP 是单个类别、单套匹配规则下的 PR 面积；
但在 COCO 论文和很多检测论文 里，表格直接写 AP 时，常常默认指的就是 COCO 风格的 AP@[.5:.95]；
所以读论文时不要机械理解“AP = 单阈值，mAP = 多类别平均”，一定要看 benchmark protocol。

参考：
COCO dataset paper
COCO detection evaluation overview

2.4 AR / AR@1 / AR@10 / AR@100

意义：
AR（Average Recall）衡量在给定候选框数量限制下，模型最多能把多少目标找回来。

常见理解：

A R = \frac{1}{T} \sum_{t = 1}^{T} R e c a l l @ I o U_{t}

其中 $I o U_{t}$ 是一组不同的 IoU 阈值。

AR@K 表示每张图最多保留 $K$ 个候选框时的 AR。

说明：
检测器如果 AR 很高、AP 一般，往往说明“找得到，但排序或定位还不够好”。

3. 实例分割 / 全景分割

3.1 Mask AP

意义：
实例分割里的 Mask AP 和检测里的 AP 思想一样，只是匹配质量从 box IoU 换成了 mask IoU。

说明：
COCO 实例分割里最常报告的是：

Mask AP
Mask AP50
Mask AP75
Mask AP@[.5:.95]

读法和 box AP 一致。

参考：
COCO detection / segmentation evaluation overview

3.2 PQ / SQ / RQ

意义：
这是全景分割的核心指标。
PQ 同时考虑“分对类 / 实例了没有”和“分得准不准”。

公式：

P Q = \frac{\sum_{(p, g) \in T P} IoU (p, g)}{| T P | + \frac{1}{2} | F P | + \frac{1}{2} | F N |}

其中 $p$ 和 $g$ 表示成功匹配的预测 segment 与 GT segment。

它还可以拆成：

S Q = \frac{\sum_{(p, g) \in T P} IoU (p, g)}{| T P |}

R Q = \frac{| T P |}{| T P | + \frac{1}{2} | F P | + \frac{1}{2} | F N |}

并且满足：

P Q = S Q \times R Q

解释：

SQ（Segmentation Quality）：匹配上的 segment 分得准不准；
RQ（Recognition Quality）：能不能正确识别 / 匹配到 segment；
PQ：两者一起看。

参考：
Panoptic Segmentation

4. 语义分割 / 医学分割

4.1 mIoU

意义：
mIoU 是语义分割最常见主指标。
它先对每个类别分别算 IoU，再对类别做平均。

公式：

单类 IoU：

{IoU}_{c} = \frac{T P_{c}}{T P_{c} + F P_{c} + F N_{c}}

多类平均：

mIoU = \frac{1}{C} \sum_{c = 1}^{C} {IoU}_{c}

说明：
mIoU 比 Pixel Accuracy 更稳，因为它不会被“大背景类”轻易拉高。

4.2 Dice / Dice Coefficient / DSC

意义：
Dice 在医学分割里尤其常见。
它和 IoU 非常接近，但对前景重叠更敏感。

公式：

集合写法：

Dice (X, Y) = \frac{2 | X \cap Y |}{| X | + | Y |}

TP/FP/FN 写法：

Dice = \frac{2 T P}{2 T P + F P + F N}

说明：
在二值分割里，Dice 和 F1 是同一家族指标。

4.3 Pixel Accuracy / Mean Pixel Accuracy

意义：
Pixel Accuracy 看有多少像素被分对；Mean Pixel Accuracy 则按类别平均。

公式：

若 $n_{i i}$ 表示第 $i$ 类被正确预测的像素数， $t_{i}$ 表示第 $i$ 类 GT 像素总数，则：

Pixel Accuracy = \frac{\sum_{i} n_{i i}}{\sum_{i} t_{i}}

Mean Pixel Accuracy = \frac{1}{C} \sum_{i} \frac{n_{i i}}{t_{i}}

说明：
Pixel Accuracy 很容易被背景类“抬高”，所以通常不能单独看。

4.4 Boundary IoU

意义：
标准 IoU 更看整体区域重合，边界错一点有时不够敏感。
Boundary IoU 专门比较预测边界带和 GT 边界带的重合度。

公式：

令 $G_{d}$ 和 $P_{d}$ 分别表示 GT 和预测 mask 的边界带，则

Boundary IoU = \frac{| G_{d} \cap P_{d} |}{| G_{d} \cup P_{d} |}

说明：
特别适合 边界质量很重要 的任务，比如抠图、医学器官边缘、精细分割。

参考：
Boundary IoU

4.5 BFScore / Boundary F-score

意义：
它本质上是边界版本的 F1。
先在一个容忍距离内判断预测边界点和 GT 边界点是否匹配，再算边界 precision / recall / F-score。

公式：

P_{b} = \frac{# matched predicted boundary pixels}{# predicted boundary pixels}

R_{b} = \frac{# matched GT boundary pixels}{# GT boundary pixels}

B F S c o r e = \frac{2 P_{b} R_{b}}{P_{b} + R_{b}}

说明：
它和 Boundary IoU 都关注边界，但思想不同：一个像 IoU，一个像 F1。

4.6 HD / HD95

意义：
Hausdorff Distance 衡量两条边界“最坏情况下差了多远”。
在医学分割里很常见，因为临床上往往很关心最坏边界偏差。

公式：

H (X, Y) = max {sup_{x \in X} inf_{y \in Y} d (x, y), sup_{y \in Y} inf_{x \in X} d (x, y)}

HD95 则把“最大值”换成 95 分位数，降低极端离群点影响。

说明：
HD 对 outlier 极敏感；HD95 更稳。

5. 关键点检测 / 姿态估计

5.1 PCK / PCKh

意义：
PCK（Percentage of Correct Keypoints）衡量关键点预测是否落在“允许误差范围”内。
PCKh 用 head size 做归一化，因此在人体姿态里很常见。

公式：

PCK @ α = \frac{1}{N} \sum_{i = 1}^{N} 1 (\frac{∥ {\hat{p}}_{i} - p_{i} ∥_{2}}{s_{i}} \leq α)

其中 $s_{i}$ 是归一化尺度：

PCK 里常用 torso size、bbox size 等；
PCKh 里常用 head segment length。

说明：
它本质上是“阈值内算对”的准确率。

参考：
MPII Human Pose

5.2 OKS

意义：
OKS（Object Keypoint Similarity）在关键点任务里的地位很像检测中的 IoU。
它会考虑关键点位置误差、目标尺度、以及不同关键点类型的标注容忍度。

公式：

COCO 中常写为：

OKS = \frac{\sum_{i} \exp (- \frac{d_{i}^{2}}{2 s^{2} k_{i}^{2}}) δ (v_{i} > 0)}{\sum_{i} δ (v_{i} > 0)}

其中：

$d_{i}$ ：第 $i$ 个关键点预测误差；
$s$ ：目标尺度；
$k_{i}$ ：不同关键点类型的容忍系数；
$v_{i}$ ：关键点可见性标志。

说明：
误差越小、尺度越大、关键点越“宽容”，OKS 越高。

参考：
COCO keypoints evaluation overview

5.3 AP (keypoints)

意义：
COCO 人体关键点的主指标。
它和检测 AP 的思路相同，但匹配标准从 IoU 换成了 OKS。

说明：
常见写法有：

AP
AP50
AP75

这里只不过 50 / 75 指的是 OKS 阈值，不是 box IoU 阈值。

5.4 NME

意义：
NME（Normalized Mean Error）常见于人脸关键点、手部关键点等任务。
它统计平均点位误差，再除以一个参考尺度。

公式：

NME = \frac{1}{N} \sum_{i = 1}^{N} \frac{∥ {\hat{p}}_{i} - p_{i} ∥_{2}}{d}

其中 $d$ 常取：

两眼中心距离（inter-ocular distance）；
外眼角距离；
bbox size；
或其它 benchmark 规定尺度。

说明：
NME 越小越好。

5.5 AUC（keypoint error curve）

意义：
一些关键点任务会把误差阈值从小到大扫一遍，画出 “PCK-Threshold” 曲线，然后对曲线求面积。

说明：
它反映的是“在不同容忍误差下的整体性能”，比只看单个阈值更稳一些。

5.6 MPJPE / PA-MPJPE

MPJPE

意义：
3D 姿态估计里最常见的指标之一，表示每个关节平均位置误差。

公式：

MPJPE = \frac{1}{J} \sum_{j = 1}^{J} ∥ {\hat{X}}_{j} - X_{j} ∥_{2}

PA-MPJPE

意义：
先对预测和 GT 做 Procrustes Alignment，再算 MPJPE。
因此它更关注“相对姿态形状”是否对，而不那么强调绝对尺度 / 旋转 / 平移。

说明：
同样一个模型：

MPJPE 更严格；
PA-MPJPE 更偏“pose shape correctness”。

参考：
Human3.6M

6. 多目标跟踪 / 单目标跟踪

6.1 MOTA

意义：
MOTA（Multiple Object Tracking Accuracy）是 MOT 里最经典的老指标之一。
它综合考虑漏检、误检和 ID Switch。

公式：

MOTA = 1 - \frac{\sum_{t} (F N_{t} + F P_{t} + I D S W_{t})}{\sum_{t} G T_{t}}

解释：

$F N_{t}$ ：第 $t$ 帧漏检数；
$F P_{t}$ ：第 $t$ 帧误检数；
$I D S W_{t}$ ：第 $t$ 帧 ID 切换数；
$G T_{t}$ ：第 $t$ 帧 GT 目标数。

说明：
MOTA 很有名，但也常被批评：它对 detection 错误比较敏感，对 association quality 关注不够细。

6.2 MOTP

意义：
MOTP（Multiple Object Tracking Precision）更关注匹配成功后的定位误差。

经典公式：

MOTP = \frac{\sum_{t, i} d_{t, i}}{\sum_{t} c_{t}}

其中 $d_{t, i}$ 是匹配成功目标的距离误差， $c_{t}$ 是第 $t$ 帧成功匹配数。

说明：
这里的“距离”可以是中心点距离，也可以是 $1 - IoU$ 之类的定义，所以 MOTP 的具体数值含义依评测协议而变。

6.3 IDF1

意义：
IDF1 更关注“身份保持”是否正确。
它把所有帧上的 identity matching 看成整体，再算 identification precision / recall / F1。

公式：

I D P = \frac{I D T P}{I D T P + I D F P}

I D R = \frac{I D T P}{I D T P + I D F N}

I D F 1 = \frac{2 \cdot I D T P}{2 \cdot I D T P + I D F P + I D F N}

说明：
相较 MOTA，IDF1 往往更能反映 tracker 有没有把一个人持续跟住。

参考：
Performance Measures and a Data Set for Multi-Target, Multi-Camera Tracking

6.4 HOTA / DetA / AssA

意义：
HOTA（Higher Order Tracking Accuracy）是近几年很常见的 MOT 指标，目的就是更平衡地衡量 detection 和 association。

核心公式：

{HOTA}_{α} = \sqrt{{DetA}_{α} \cdot {AssA}_{α}}

最终 HOTA 往往还会在一组匹配阈值 $α$ 上做平均。

其中：

DetA：检测准确性；
AssA：关联准确性。

一个常见直观写法是：

DetA = \frac{T P}{T P + F P + F N}

而 AssA 会进一步看 TP 轨迹之间的关联一致性。

说明：
可以粗略理解成：

MOTA 偏 detection；
IDF1 偏 identity consistency；
HOTA 试图把两者更平衡地统一起来。

参考：
HOTA

6.5 ID Switch

意义：
跟踪过程中同一真实目标被赋予不同 ID 的次数。

说明：
越少越好。
但它通常不单独作为主指标，而是作为错误分析项和 MOTA / IDF1 / HOTA 配合看。

6.6 Success / Precision / Normalized Precision / AUC（SOT）

单目标跟踪里，常见的是 OTB / TrackingNet / LaSOT 这类协议。

Precision

意义：
看预测框中心点和 GT 中心点的距离误差是否足够小。

公式：

P = ∥ C^{t r} - C^{g t} ∥_{2}

实际 leaderboard 常用固定阈值（如 20 px）统计“距离不超过阈值的帧比例”。

Normalized Precision

意义：
把中心误差再按目标大小做归一化，避免不同尺度目标之间不公平。

一种常见写法：

P_{n o r m} = ∥ W (C^{t r} - C^{g t}) ∥_{2}

其中 $W$ 是由 GT bbox 宽高构成的归一化矩阵。

Success

意义：
看跟踪框和 GT 框的重叠度是否足够高，本质上基于 IoU。

公式：

S = \frac{| B B_{t r} \cap B B_{g t} |}{| B B_{t r} \cup B B_{g t} |}

AUC of Success Plot

意义：
把 Success 阈值从 0 扫到 1，画曲线并求面积。
这是 SOT 里非常常见的综合指标。

说明：
很多 benchmark 直接把 Success AUC 当成主排名指标。

参考：
TrackingNet
LaSOT

7. 图像检索 / ReID / 特征匹配

7.1 Recall@K

意义：
看前 $K$ 个检索结果里有没有至少一个正确目标。

公式：

Recall @ K = \frac{1}{Q} \sum_{q = 1}^{Q} 1 (query q 的正确结果出现在前 K 名)

7.2 AP / mAP（retrieval / ReID）

意义：
这里的 AP 看的是单个 query 的相关结果在排序列表中出现得是否靠前。
mAP 则是对所有 query 的 AP 取平均。

公式：

对单个 query：

A P = \frac{1}{M} \sum_{k = 1}^{n} P (k) \cdot r e l (k)

其中：

$M$ ：该 query 的相关样本总数；
$P (k)$ ：前 $k$ 个结果的 precision；
$r e l (k) \in {0, 1}$ ：第 $k$ 个结果是否相关。

多 query 平均：

m A P = \frac{1}{Q} \sum_{q = 1}^{Q} A P_{q}

说明：
它和检测里的 mAP 同名，但语义不同。
这里没有 IoU 匹配，核心是排序质量。

7.3 CMC

意义：
CMC（Cumulative Matching Characteristic）常见于 ReID。
它看“第一个正确匹配”出现在第几名。

公式：

C M C @ K = \frac{1}{Q} \sum_{q = 1}^{Q} 1 ({rank}_{q} \leq K)

其中 ${rank}_{q}$ 表示 query $q$ 的第一个正确匹配位置。

7.4 MRR

意义：
MRR（Mean Reciprocal Rank）更强调“第一个正确结果越靠前越好”。

公式：

MRR = \frac{1}{Q} \sum_{q = 1}^{Q} \frac{1}{{rank}_{q}}

7.5 NDCG

意义：
当检索结果不是简单的“相关 / 不相关”二值，而是有多级相关性时，NDCG 很常用。

公式：

D C G @ K = \sum_{i = 1}^{K} \frac{2^{r e l_{i}} - 1}{\log_{2} (i + 1)}

N D C G @ K = \frac{D C G @ K}{I D C G @ K}

其中 IDCG 是理想排序下的 DCG。

8. 图像重建 / 超分 / 去噪 / 去模糊 / IQA

8.1 MSE / RMSE / MAE

MSE

意义：
最基础的像素误差平方平均。

公式：

M S E = \frac{1}{N} \sum_{i = 1}^{N} (x_{i} - {\hat{x}}_{i})^{2}

RMSE

意义：
把 MSE 开根号，量纲和原始像素一致。

公式：

R M S E = \sqrt{\frac{1}{N} \sum_{i = 1}^{N} (x_{i} - {\hat{x}}_{i})^{2}}

MAE

意义：
绝对误差平均，对异常值没平方误差那么敏感。

公式：

M A E = \frac{1}{N} \sum_{i = 1}^{N} | x_{i} - {\hat{x}}_{i} |

8.2 PSNR

意义：
PSNR（Peak Signal-to-Noise Ratio）是最经典的保真度指标之一。
它本质上是 MSE 的对数形式：误差越小，PSNR 越大。

公式：

P S N R = 10 \log_{10} (\frac{M A X^{2}}{M S E}) = 20 \log_{10} (\frac{M A X}{R M S E})

其中 MAX 是像素最大可能值，比如 255 或 1。

说明：
它很适合衡量“像素级忠实度”，但和人类主观感知未必总一致。

8.3 SSIM

意义：
SSIM（Structural Similarity）强调亮度、对比度和结构的一致性，比 PSNR 更贴近“看起来像不像”。

公式：

S S I M (x, y) = \frac{(2 μ_{x} μ_{y} + C_{1}) (2 σ_{x y} + C_{2})}{(μ_{x}^{2} + μ_{y}^{2} + C_{1}) (σ_{x}^{2} + σ_{y}^{2} + C_{2})}

其中：

$μ_{x}, μ_{y}$ ：均值；
$σ_{x}^{2}, σ_{y}^{2}$ ：方差；
$σ_{x y}$ ：协方差；
$C_{1}, C_{2}$ ：稳定常数。

说明：
SSIM 一般在局部窗口上计算，再对整张图取平均。

参考：
SSIM

8.4 MS-SSIM

意义：
MS-SSIM 是多尺度版 SSIM。
它不仅看单一分辨率下的结构相似性，还在多尺度上综合考虑亮度 / 对比度 / 结构。

一种常见形式：

M S - S S I M (x, y) = [l_{M} (x, y)]^{α_{M}} \prod_{j = 1}^{M} [c_{j} (x, y)]^{β_{j}} [s_{j} (x, y)]^{γ_{j}}

其中 $l, c, s$ 分别对应亮度、对比度、结构项。

说明：
比单尺度 SSIM 更稳，也更常用于感知优化。

参考：
MS-SSIM

8.5 LPIPS

意义：
LPIPS（Learned Perceptual Image Patch Similarity）用深度特征空间距离来评估图像感知差异。
通常比 PSNR / SSIM 更贴近“人看起来像不像”。

公式：

若第 $l$ 层特征为 ${\hat{y}}^{l}$ 和 $y^{l}$ ，则一种常见写法是：

L P I P S (x, x_{0}) = \sum_{l} \frac{1}{H_{l} W_{l}} \sum_{h, w} {‖ w_{l} ⊙ ({\hat{y}}_{h w}^{l} - y_{h w}^{l}) ‖}_{2}^{2}

说明：
这里 $w_{l}$ 是学习到的层权重。
LPIPS 越小越好。

参考：
LPIPS

8.6 NIQE

意义：
NIQE（Natural Image Quality Evaluator）是无参考图像质量指标，不需要 GT。
它通过建模“自然图像统计特性”来判断一张图看起来是否自然。

常见写法：
NIQE 常用特征高斯模型之间的距离表示，形式上可写成

N I Q E = \sqrt{(μ_{1} - μ_{2})^{T} {(\frac{Σ_{1} + Σ_{2}}{2})}^{- 1} (μ_{1} - μ_{2})}

说明：
这里的 $(μ_{1}, Σ_{1})$ 和 $(μ_{2}, Σ_{2})$ 分别对应测试图像与自然图像模型的统计量。
NIQE 越小通常越好。

参考：
NIQE

8.7 BRISQUE

意义：
BRISQUE 也是无参考 IQA 指标，和 NIQE 一样基于自然场景统计，但它会结合人工主观分数训练回归器。

说明：
经典 BRISQUE 的主流程是：

提取空间域的 NSS / MSCN 特征；
再用学习器（经典实现里常见 SVR）预测质量分数。

它没有一个像 PSNR 那样特别短的统一闭式公式，所以论文里更多是“特征 + 回归模型”的定义。

参考：
BRISQUE

8.8 PI / Perceptual Index

意义：
PI 在感知超分论文里很常见，用来把“自然感”和“感知质量”揉成一个分数。

公式（PIRM 2018 常见定义）：

P I = \frac{1}{2} ((10 - M a) + N I Q E)

其中 Ma 是 Learning a No-Reference Quality Metric for Single-Image Super-Resolution 中的无参考 SR 质量分数。

说明：
PI 越小越好。
它在感知超分里出现频率很高，但并不是所有图像重建任务的通用主指标。

参考：
PIRM 2018

9. 图像生成 / 文生图

9.1 FID

意义：
FID（Fréchet Inception Distance）衡量生成图像分布和真实图像分布之间的差异。
它通常在 Inception 特征空间里，把两组特征近似成高斯分布，再计算 Fréchet distance。

公式：

F I D = ∥ μ_{r} - μ_{g} ∥_{2}^{2} + Tr (Σ_{r} + Σ_{g} - 2 (Σ_{r} Σ_{g})^{1 / 2})

其中：

$(μ_{r}, Σ_{r})$ ：真实图像特征分布；
$(μ_{g}, Σ_{g})$ ：生成图像特征分布。

说明：
FID 越小越好。
它是生成模型里最常见指标之一，但很依赖特征提取器、样本数和预处理细节。

参考：
FID / TTUR paper

9.2 KID

意义：
KID（Kernel Inception Distance）和 FID 类似，也是比较真实 / 生成分布差异，但使用的是 MMD 思路。
它在小样本下通常比 FID 更稳一些。

公式：

若 $X$ 和 $Y$ 分别是真实与生成的 Inception 特征，则

K I D = \frac{1}{m (m - 1)} \sum_{i \neq j} k (x_{i}, x_{j}) + \frac{1}{n (n - 1)} \sum_{i \neq j} k (y_{i}, y_{j}) - \frac{2}{m n} \sum_{i, j} k (x_{i}, y_{j})

常见核函数是三次多项式核：

k (x, y) = {(\frac{x^{⊤} y}{d} + 1)}^{3}

参考：
KID / Demystifying MMD GANs

9.3 IS / Inception Score

意义：
IS 试图同时衡量：

单张生成图像是不是“类别明确”；
整体生成样本是不是“多样”。

公式：

I S = \exp (E_{x} [D_{K L} (p (y | x) ∥ p (y))])

解释：

如果单张图的 $p (y | x)$ 很尖锐，说明样本“清晰可分”；
如果整体边际 $p (y)$ 很分散，说明类别多样性较好。

说明：
IS 早期很常见，但现在很多人更愿意看 FID / KID。
原始论文自己也提醒过，IS 应该只作为粗略参考。

参考：
Inception Score

9.4 CLIPScore / CLIP-based Alignment Score

意义：
在文生图里，这类指标主要看 图文语义一致性。
最基本的思想就是：图像编码和文本编码在 CLIP 特征空间里越接近，说明语义越对齐。

常见写法：

s (x, t) = \cos (f_{img} (x), f_{text} (t))

原始 CLIPScore 论文里是图像描述评测场景，因此具体实现可能带有缩放、截断等细节；文生图论文里更常见的是泛称“CLIP-based score”。

说明：
它能反映“是否符合 prompt”，但不等于图像一定美观、真实，也不保证文本以外的细节都正确。

参考：
CLIPScore

9.5 Precision / Recall for Generative Models

意义：
生成模型里这组指标试图把 “质量” 和 “覆盖度” 分开：

Precision：生成样本是否大多落在真实数据流形附近；
Recall：真实数据流形有多少被生成模型覆盖到了。

一种常见写法（kNN-manifold 思路）：

Precision = \frac{1}{| Y |} \sum_{y \in Y} 1 [y \in Φ (X)]

Recall = \frac{1}{| X |} \sum_{x \in X} 1 [x \in Φ (Y)]

其中 $Φ (\cdot)$ 表示由样本构造出的近邻流形近似。

说明：
这类指标的具体实现版本不少，读论文时要看它采用的是哪篇定义。

参考：
Assessing Generative Models via Precision and Recall
Improved Precision and Recall Metric

9.6 Human Preference / User Study

意义：
让人类直接比较：

哪张更真实；
哪张更符合 prompt；
哪张更好看；
或哪张编辑结果更符合要求。

说明：
没有一套统一公式。
但在文生图、视频生成、图像编辑里，它经常比单一自动指标更有说服力。

10. 图像描述 / VQA / 多模态问答

10.1 BLEU

意义：
BLEU 通过比较候选句和参考句的 n-gram 重合度来评估文本生成质量。
它最早用于机器翻译，但也被广泛用于图像描述。

公式：

B L E U = B P \cdot \exp (\sum_{n = 1}^{N} w_{n} \log p_{n})

其中：

$p_{n}$ ：n-gram precision；
$w_{n}$ ：各阶 n-gram 权重；
$B P$ ：brevity penalty，用于惩罚过短句子。

说明：
它更关注表面词面重合，对同义改写不够友好。

参考：
BLEU

10.2 METEOR

意义：
METEOR 相比 BLEU 更关注词形变化、词干、同义匹配，并且显式结合 precision / recall。

公式：

经典写法里，先定义加权 F-mean：

F_{m e a n} = \frac{10 P R}{R + 9 P}

再定义 fragmentation penalty：

P e n = 0.5 {(\frac{c h}{m})}^{3}

最后：

M E T E O R = (1 - P e n) \cdot F_{m e a n}

其中：

$P$ ：unigram precision；
$R$ ：unigram recall；
$m$ ：匹配到的 unigram 数；
$c h$ ：匹配块数。

参考：
METEOR

10.3 ROUGE-L

意义：
ROUGE-L 基于最长公共子序列（LCS），比纯 n-gram 更能反映句子结构一致性。

公式：

若候选句长度为 $n$ ，参考句长度为 $m$ ，则：

R_{L C S} = \frac{L C S (X, Y)}{m}

P_{L C S} = \frac{L C S (X, Y)}{n}

F_{L C S} = \frac{(1 + β^{2}) R_{L C S} P_{L C S}}{R_{L C S} + β^{2} P_{L C S}}

参考：
ROUGE

10.4 CIDEr

意义：
CIDEr 是图像描述里非常经典的指标，核心思想是：
用 TF-IDF 加权的 n-gram 相似度 来衡量候选句与多参考描述的一致性。

公式：

对 $n$ -gram，先把候选句 $c_{i}$ 和参考句 $s_{i j}$ 表示成 TF-IDF 向量 $g^{n} (\cdot)$ ，则

C I D E r_{n} (c_{i}, S_{i}) = \frac{1}{m} \sum_{j} \frac{g^{n} (c_{i}) \cdot g^{n} (s_{i j})}{∥ g^{n} (c_{i}) ∥ ∥ g^{n} (s_{i j}) ∥}

最终：

C I D E r (c_{i}, S_{i}) = \sum_{n = 1}^{N} w_{n} C I D E r_{n} (c_{i}, S_{i})

说明：
COCO captioning 里经常会看到 CIDEr-D，它是在 CIDEr 基础上做了 clipping / length penalty 等修正。

参考：
CIDEr

10.5 SPICE

意义：
SPICE 不是简单比 n-gram，而是先把句子解析成 scene graph / semantic tuples，再比较语义命题层面是否一致。

公式：

如果候选句和参考句对应的语义 tuple 集分别为 $T_{c}$ 和 $T_{r}$ ，则

P = \frac{| T_{c} \cap T_{r} |}{| T_{c} |}

R = \frac{| T_{c} \cap T_{r} |}{| T_{r} |}

S P I C E = \frac{2 P R}{P + R}

说明：
它通常比 BLEU / ROUGE 更语义化，也更适合分析“模型是不是理解了颜色、数量、关系”。

参考：
SPICE

10.6 VQA Accuracy

意义：
VQA 不是普通 exact match，因为同一个问题可能有多个合理答案，标注者之间也可能不完全一致。
官方评测会对答案做规范化，并按“有多少人给出相同答案”来给分。

常见简化写法：

Acc (a) = min (\frac{# humans said a}{3}, 1)

说明：
更严格地说，官方实现会对 10 个标注答案的所有 $(\binom{10}{9})$ 子集做平均，所以最终以官方脚本为准。
但很多论文和开源代码会直接用上面这个等价的简化写法来解释。

参考：
VQA official evaluation

11. 深度估计 / 光流 / 立体匹配

11.1 Abs Rel

意义：
深度估计里最常见指标之一。
它看相对误差，而不是绝对误差。

公式：

A b s R e l = \frac{1}{N} \sum_{i = 1}^{N} \frac{| d_{i} - {\hat{d}}_{i} |}{d_{i}}

其中 $d_{i}$ 是 GT 深度， ${\hat{d}}_{i}$ 是预测深度。

11.2 Sq Rel

意义：
平方相对误差，会更重地惩罚大误差。

公式：

S q R e l = \frac{1}{N} \sum_{i = 1}^{N} \frac{(d_{i} - {\hat{d}}_{i})^{2}}{d_{i}}

11.3 RMSE / RMSE(log)

公式：

R M S E = \sqrt{\frac{1}{N} \sum_{i = 1}^{N} (d_{i} - {\hat{d}}_{i})^{2}}

R M S E (\log) = \sqrt{\frac{1}{N} \sum_{i = 1}^{N} (\log d_{i} - \log {\hat{d}}_{i})^{2}}

说明：
RMSE(log) 对尺度差异更鲁棒一些。

11.4 $δ < 1.25$ , $δ < {1.25}^{2}$ , $δ < {1.25}^{3}$

意义：
统计预测深度相对 GT 的倍率误差是否落在某个容忍范围内。

公式：

δ_{k} = \frac{1}{N} \sum_{i = 1}^{N} 1 (max (\frac{{\hat{d}}_{i}}{d_{i}}, \frac{d_{i}}{{\hat{d}}_{i}}) < {1.25}^{k})

其中 $k = 1, 2, 3$ 。

说明：
这是“比例上有多接近”的统计。

参考：
Depth Map Prediction from a Single Image

11.5 EPE

意义：
EPE（End-Point Error）是光流 / 视差估计里最经典的指标之一。
它直接看向量终点之间的欧氏距离。

公式：

若真实流场为 $u_{i}$ ，预测为 ${\hat{u}}_{i}$ ，则

E P E = \frac{1}{N} \sum_{i = 1}^{N} ∥ u_{i} - {\hat{u}}_{i} ∥_{2}

说明：
越小越好。
光流 benchmark 里基本都会报它。

11.6 Bad Pixel Rate / D1

意义：
统计“误差超过阈值”的坏点比例。
在立体匹配里非常常见。

通用写法：

BadPixelRate = \frac{1}{N} \sum_{i = 1}^{N} 1 (| e_{i} | > τ)

其中 $τ$ 是误差阈值。

说明：
像 KITTI 这类 benchmark 常见 D1，通常带有“绝对误差超过 3px 且相对误差超过 5%”这样的复合条件，具体以 benchmark protocol 为准。

参考：
KITTI

12. 3D 视觉 / 点云 / 重建

12.1 Chamfer Distance

意义：
点云重建和 3D 生成里最常见的距离之一。
它衡量两个点集是否彼此接近。

公式：

若点集为 $S_{1}, S_{2}$ ，则常见写法为

C D (S_{1}, S_{2}) = \frac{1}{| S_{1} |} \sum_{x \in S_{1}} min_{y \in S_{2}} ∥ x - y ∥_{2}^{2} + \frac{1}{| S_{2} |} \sum_{y \in S_{2}} min_{x \in S_{1}} ∥ y - x ∥_{2}^{2}

说明：
优点是好算；缺点是有时会对局部密度问题不够敏感。

12.2 Earth Mover's Distance (EMD)

意义：
EMD 衡量把一个点集“搬运”成另一个点集需要多少代价，通常比 CD 更严格，但也更贵。

公式：

当两个点集大小相同且一一匹配时，可写为

E M D (S_{1}, S_{2}) = min_{ϕ : S_{1} \to S_{2}} \frac{1}{| S_{1} |} \sum_{x \in S_{1}} ∥ x - ϕ (x) ∥_{2}

其中 $ϕ$ 是一个双射匹配。

参考：
Point Set Generation Network

12.3 3D IoU

意义：
3D 检测里最基础的重叠指标，本质上就是 3D box 体积版 IoU。

公式：

3 D I o U (B_{1}, B_{2}) = \frac{Vol (B_{1} \cap B_{2})}{Vol (B_{1} \cup B_{2})}

12.4 mAP（3D detection）

意义：
3D 检测的核心指标之一。
思路和 2D 检测一样，但匹配条件换成 3D IoU 或 BEV IoU。

说明：
不同 benchmark 的协议差异更大，比如：

有的按 BEV AP / 3D AP 分开报；
有的按类别和难度等级分组；
有的 IoU 阈值对不同类别不同。

所以写 3D detection 论文时，一定要把 protocol 写清楚。

12.5 F-score（point cloud）

意义：
点云重建里常用，把“预测点到 GT 足够近”和“GT 点被预测覆盖到了”结合起来。

公式：

给定距离阈值 $τ$ ：

P_{τ} = \frac{# {x \in \hat{S} : min_{y \in S} ∥ x - y ∥ < τ}}{| \hat{S} |}

R_{τ} = \frac{# {y \in S : min_{x \in \hat{S}} ∥ y - x ∥ < τ}}{| S |}

F_{τ} = \frac{2 P_{τ} R_{τ}}{P_{τ} + R_{τ}}

13. OCR / 场景文字识别

13.1 Accuracy

意义：
最直观的正确率。
OCR 里可能是：

字符级准确率；
词级准确率；
行级准确率。

说明：
要看论文到底是按 character、word 还是 sequence 来算。

13.2 Edit Distance

意义：
衡量预测文本和 GT 文本之间需要多少次编辑操作（插入、删除、替换）才能相同。

公式：
经典 Levenshtein distance 记作 $E D (\hat{y}, y)$ 。

说明：
越小越好。
它比单纯 Accuracy 更能反映“差一点点”和“完全错掉”的区别。

13.3 CER / WER

CER

意义：
字符错误率。

公式：

C E R = \frac{S + D + I}{N_{c h a r}}

WER

意义：
词错误率。

公式：

W E R = \frac{S + D + I}{N_{w o r d}}

其中：

$S$ ：substitution；
$D$ ：deletion；
$I$ ：insertion。

说明：
二者都是越小越好。

13.4 Precision / Recall / F1（scene text detection）

意义：
在场景文字检测里，这组指标和一般检测相同，只不过匹配对象变成文字框 / 文字区域。

说明：
如果论文做的是“文本检测”，更常看这一组；
如果做的是“文本识别”，更常看 Accuracy / CER / WER / Edit Distance。

🤖 Rasa

CV 常用指标 ​

1. 分类 / 多标签分类 ​

1.1 Accuracy / Top-1 / Top-5 Accuracy ​

1.2 Precision / Recall / F1 ​

1.3 ROC-AUC ​

1.4 PR-AUC ​

1.5 Balanced Accuracy ​

1.6 Mean Class Accuracy / mAcc ​

1.7 mAP（multi-label） ​

2. 目标检测 ​

2.1 IoU ​

2.2 GIoU / DIoU / CIoU ​

GIoU ​

DIoU ​

CIoU ​

2.3 AP / AP50 / AP75 / mAP / AP@[.5:.95] ​

2.4 AR / AR@1 / AR@10 / AR@100 ​

3. 实例分割 / 全景分割 ​

3.1 Mask AP ​

3.2 PQ / SQ / RQ ​

4. 语义分割 / 医学分割 ​

4.1 mIoU ​

4.2 Dice / Dice Coefficient / DSC ​

4.3 Pixel Accuracy / Mean Pixel Accuracy ​

4.4 Boundary IoU ​

4.5 BFScore / Boundary F-score ​

4.6 HD / HD95 ​

5. 关键点检测 / 姿态估计 ​

5.1 PCK / PCKh ​

5.2 OKS ​

5.3 AP (keypoints) ​

5.4 NME ​

5.5 AUC（keypoint error curve） ​

5.6 MPJPE / PA-MPJPE ​

MPJPE ​

PA-MPJPE ​

6. 多目标跟踪 / 单目标跟踪 ​

6.1 MOTA ​

6.2 MOTP ​

6.3 IDF1 ​

6.4 HOTA / DetA / AssA ​

6.5 ID Switch ​

6.6 Success / Precision / Normalized Precision / AUC（SOT） ​

Precision ​

Normalized Precision ​

Success ​

AUC of Success Plot ​

7. 图像检索 / ReID / 特征匹配 ​

7.1 Recall@K ​

7.2 AP / mAP（retrieval / ReID） ​

7.3 CMC ​

7.4 MRR ​

7.5 NDCG ​

8. 图像重建 / 超分 / 去噪 / 去模糊 / IQA ​

8.1 MSE / RMSE / MAE ​

MSE ​

RMSE ​

MAE ​

8.2 PSNR ​

8.3 SSIM ​

8.4 MS-SSIM ​

8.5 LPIPS ​

8.6 NIQE ​

8.7 BRISQUE ​

8.8 PI / Perceptual Index ​

9. 图像生成 / 文生图 ​

9.1 FID ​

9.2 KID ​

9.3 IS / Inception Score ​

9.4 CLIPScore / CLIP-based Alignment Score ​

9.5 Precision / Recall for Generative Models ​

9.6 Human Preference / User Study ​

10. 图像描述 / VQA / 多模态问答 ​

10.1 BLEU ​

10.2 METEOR ​

10.3 ROUGE-L ​

10.4 CIDEr ​

10.5 SPICE ​

10.6 VQA Accuracy ​