模型的性能度量

性能度量：评价模型泛化能力的标准。

均方误差

回归模型的性能度量通常选用均方误差（Mean Squared Error）。

错误率：分类错误的样本占总样本的比例。
精度：分类正确的样本占总样本的比例。
查准率：预测结果为正的样本中实际值也为正的比例。（例如：一个50个的样本，10个是标记为正确的，模型找到19个是正确的，这19个中包含9个是标记为正确的，此时查准率为9/19）
查全率：实际值为正的样本中被预测为正的样本比例（例如：一个50个的样本，10个是标记为正确的，模型找到19个是正确的，这19个中包含9个是标记为正确的，此时查准率为9/10）
P-R曲线：查准率-查全率曲线.
混淆矩阵：将预测分类结果和实际分类结果做成矩阵的形式显示。
$F_\beta$-score:$\beta$值的不同体现了对查全率和查准率的不同倾向，其公式为 $F_\beta=\frac{(1+\beta^2)*P*R}{\beta^2*P+R}$
受试者特征曲线（ROC）和曲线下面积（AUC）：TPR-FPR曲线（真正例率-假正例率曲线）
正确肯定（True Positive,TP）：预测为真，实际为真
正确否定（True Negative,TN）：预测为假，实际为假
错误肯定（False Positive,FP）：预测为真，实际为假
错误否定（False Negative,FN）：预测为假，实际为真
代价曲线：不同类型的预测错误对结果影响不同而增加代价（cost），绘制$P(+)cost-{cost}_{norm}$曲线

外部指标（External Index）：将聚类结果同某个参考模型进行比较
1. Jaccrd系数（Jaccrd Coefficient,JC）： $JC=\frac{a}{a+b+c}$
2. FM指数（Fowlkes and Mallows Index,FMI）： $FMI=\sqrt {\frac{a}{a+b}*\frac{a}{a+c}}$
3. Rand指数（Rand Index,RI）： $RI=\frac{2(a+d)}{m(m-1)}$
内部指标（Internal Index）：不使用参考模型直接考察聚类结果
1. DB指数（Davise-Bouldin Index，DBI）： $DBI=\frac{1}{k} \sum_1^k \max\limits_{j \ne i} \left(\frac{avg(C_i)+avg(C_j)}{d_{cen}(u_i,u_j)}\ \right)$
2. Dunn指数（Dunn Index，DI）： $DI=\min\limits_{i \le j \le k}\{\min\limits_{j\ne i}\left(\frac{d_{min}(c_i,c_j)}{\max\limits_{1 \le l \le k}diam(c_l)}\ \right)\}$