Nutmeg

NNutmeg概率预测工作台

模型版本active

筛选：active

评估窗口90d

Walk-forward / as-of-time 口径预留

赛后样本3

不只展示命中率，优先看概率评分

生成时间05/06 20:30

摘要已生成

Log Loss

1.007

越低表示概率分布对实际赛果惩罚越小。

Brier Score

0.599

越低表示分类概率误差越小。

Calibration Error

16.5%

预测概率与实际频率的平均偏差。

Sample Size

3

当前筛选窗口内的赛后评估样本。

CalibrationCurve

对比预测概率与实际频率；对角线附近表示校准更好。

20%-30%模型 26.1%实际 20.0%偏差 -6.1pp5 样本

30%-40%模型 36.5%实际 50.0%偏差 +13.5pp2 样本

40%-50%模型 44.1%实际 0.0%偏差 -44.1pp1 样本

50%-60%模型 52.6%实际 100.0%偏差 +47.4pp1 样本

BrierTrend

Brier Score 越低越好；MVP 使用当前摘要生成稳定趋势占位。

T-180d0.613

T-90d0.606

T-30d0.602

Current0.599

完整 Brier trend 将由 backtest run 时间序列驱动。

LogLossTrend

Log Loss 对高置信错误更敏感；MVP 趋势用于观察方向，不替代正式回测。

T-180d1.047

T-90d1.029

T-30d1.017

Current1.007

正式 Log Loss trend 将按评估窗口和模型版本读取历史评估表。

玩法指标

按市场拆分概率评分，便于发现某类规则结算的偏差。

按玩法拆分 Log Loss、Brier、ECE 和样本量。
玩法	Log Loss	Brier	ECE	样本
胜平负 1X2	1.007	0.599	16.5%	3

联赛指标

低样本联赛需要单独观察，避免整体指标掩盖漂移。

按联赛拆分概率评分和低样本漂移风险。
联赛	Log Loss	Brier	ECE	样本
Premier League	0.987	0.580	15.8%	2
J1 League	1.048	0.638	18.0%	1

校准曲线

按预测概率区间对比模型均值与实际频率。

20% - 30%5 场样本

模型均值

26.1%

实际频率

20.0%

30% - 40%2 场样本

模型均值

36.5%

实际频率

50.0%

40% - 50%1 场样本

模型均值

44.1%

实际频率

0.0%

50% - 60%1 场样本

模型均值

52.6%

实际频率

100.0%

错误类型分布

赛后评估将偏差归入可追踪标签，供后续校准与训练复盘使用。

模型版本对比

晋级记录以回测与校准证据为准，当前仅展示候选评估存根。

基线版本poisson-m1.0.0

候选版本dc-v1.5-candidate

基线 Log Loss1.007

候选 Log Loss0.995

基线 Brier0.599

候选 Brier0.591

候选需复核

候选模型 Log Loss 未恶化。
候选模型 Brier Score 未恶化。
候选模型样本量偏低，需继续复核。