- 线上线下指标一致性:t-test ( student-test )
- 检验指标:AUC, logloss, TF/TN/FP/FN, acc, F1 score, F_alpha score, MAE, WMAE, RMSE, MAP, nDCG
- 采样:加快训练速度,skip-above;交叉验证:时间侧hold-out
- 为什么不用树模型:无法增量训练
- EDA:
- 数值:峰值截断,二值化,分桶,缩放(log),缺失值处理(补值,直接喂缺失值)。
- 类型:自然数,分层,hash,计数,rank特征, 点击率统计特征+贝叶斯平滑,直接交叉 vs 更细致的分桶交叉
- 类型 x 数值:类型内计算数值
- 时间特征,空间特征
- 过滤:类内部差异小,类间差异大
首页 | 归档 | 分类 | 标签 | 关于 |
|