推荐系统网站开发,河源盛世网站建设,谷歌搜索引擎下载,哪有免费的简历模板这个项目的主要的目的是通过给定的广告信息和用户信息来预测一个广告被点击与否。 如果广告有很大概率被点击就展示广告#xff0c;如果概率低#xff0c;就不展示。 因为如果广告没有被点击#xff0c;对双方#xff08;广告主、平台#xff09;来讲都没有好处。所以预测…这个项目的主要的目的是通过给定的广告信息和用户信息来预测一个广告被点击与否。 如果广告有很大概率被点击就展示广告如果概率低就不展示。 因为如果广告没有被点击对双方广告主、平台来讲都没有好处。所以预测这个概率非常重要也是此项目的目标。
在这个项目中你需要完成以下的任务
1.数据的读取和理解: 把给定的.csv文件读入到内存并通过pandas做数据方面的统计以及可视化来更深入地理解数据。 2.特征构造: 从原始特征中衍生出一些新的特征这部分在机器学习领域也是很重要的工作。 3.特征的转化: 特征一般分为连续型(continuous)和类别型categorical), 需要分别做不同的处理。 4.特征选择: 从已有的特征中选择合适的特征这部分也是很多项目中必不可少的部分。 5.模型训练与评估: 通过交叉验证方式来训练模型这里需要涉及到网格搜索等技术。 特征选择
防止过拟合以及噪声 1.尝试所有的组合---能够得到全局最优解
2.贪心算法 f4最好就放进去然后再放另外的反复用贪心算法加进去
3.L1正则
有缺点有不可导的点
4.树算法决策树
根节点最好接着是下一层再下一层
5.相关性计算
和最终目标相关性越大越好 超参数的搜索
1.网格搜索--遍历
给定超参数的取值范围进行搜索 2.启发式搜索 启发式是有一个点很好就在他周围找要是不好就不在他的周围找了。