模型版本active

筛选:active

评估窗口90d

Walk-forward / as-of-time 口径预留

赛后样本3

不只展示命中率,优先看概率评分

生成时间05/06 20:30

摘要已生成

Log Loss
1.007

越低表示概率分布对实际赛果惩罚越小。

Brier Score
0.599

越低表示分类概率误差越小。

Calibration Error
16.5%

预测概率与实际频率的平均偏差。

Sample Size
3

当前筛选窗口内的赛后评估样本。

CalibrationCurve

对比预测概率与实际频率;对角线附近表示校准更好。

20%-30% 模型 26.1% 实际 20.0%30%-40% 模型 36.5% 实际 50.0%40%-50% 模型 44.1% 实际 0.0%50%-60% 模型 52.6% 实际 100.0%
20%-30%模型 26.1%实际 20.0%偏差 -6.1pp5 样本
30%-40%模型 36.5%实际 50.0%偏差 +13.5pp2 样本
40%-50%模型 44.1%实际 0.0%偏差 -44.1pp1 样本
50%-60%模型 52.6%实际 100.0%偏差 +47.4pp1 样本

BrierTrend

Brier Score 越低越好;MVP 使用当前摘要生成稳定趋势占位。

T-180d0.613
T-90d0.606
T-30d0.602
Current0.599

完整 Brier trend 将由 backtest run 时间序列驱动。

LogLossTrend

Log Loss 对高置信错误更敏感;MVP 趋势用于观察方向,不替代正式回测。

T-180d1.047
T-90d1.029
T-30d1.017
Current1.007

正式 Log Loss trend 将按评估窗口和模型版本读取历史评估表。

玩法指标

按市场拆分概率评分,便于发现某类规则结算的偏差。

按玩法拆分 Log Loss、Brier、ECE 和样本量。
玩法Log LossBrierECE样本
胜平负 1X21.0070.59916.5%3

联赛指标

低样本联赛需要单独观察,避免整体指标掩盖漂移。

按联赛拆分概率评分和低样本漂移风险。
联赛Log LossBrierECE样本
Premier League0.9870.58015.8%2
J1 League1.0480.63818.0%1

校准曲线

按预测概率区间对比模型均值与实际频率。

20% - 30%5 场样本
模型均值
26.1%
实际频率
20.0%
30% - 40%2 场样本
模型均值
36.5%
实际频率
50.0%
40% - 50%1 场样本
模型均值
44.1%
实际频率
0.0%
50% - 60%1 场样本
模型均值
52.6%
实际频率
100.0%

错误类型分布

赛后评估将偏差归入可追踪标签,供后续校准与训练复盘使用。

模型版本对比

晋级记录以回测与校准证据为准,当前仅展示候选评估存根。

基线版本poisson-m1.0.0
候选版本dc-v1.5-candidate
基线 Log Loss1.007
候选 Log Loss0.995
基线 Brier0.599
候选 Brier0.591
候选需复核
  • 候选模型 Log Loss 未恶化。
  • 候选模型 Brier Score 未恶化。
  • 候选模型样本量偏低,需继续复核。