问题
特征的好坏衡量有很多的方法,如:
- 单特征AUC
- 信息增益,信息增益率,gini index
- 相关系数 (label连续值)
精准推荐是商业化的重要能力,而分类能力是精准推荐的基础。
集成学习有两种方法,bagging, boosting和stacking。
adaboosting全称adaptive boosting(自适应调节的boosting,属于十大机器学习算法之一)
集成学习:集成学习就是一堆弱分类器一起共同努力,拼凑成一个强分类器,团结的力量就是大。
(有理论证明弱学习算法(正确率超过50%即可)可以组合提升为强学习算法(多棵决策树有用的原因:一棵准确率0.6,三棵准确率0.6^3+0.6^20.43=0.648… )
既然一堆分类器想要集成,那么就有投票权力的分配问题了。
一人一票制度:一堆分类器一人一票制度投票,来决定分类结果。如bagging和random forest的方法。
一人多票制度:一堆分类器,根据分类器的好坏,好分类器多分给他几票,差分类器少分给他几票。如boosting的方法。