我们花在项目上的时间
机器学习技巧
学习算法的选择是机器学习最重要的阶段之一。
我们决定在项目中使用随机森林算法。它是一种执行非常密集计算的算法。换句话说,它是一种分类和回归的学习方法,通过基于随机数据子集构建大量决策树来进行操作。
数据库大小 - 观察数量
项目中使用的语言和框架

因此,建立了机器学习模型,通过在学习平台上分析给定的学生活动,能够预测学生辍学的风险。
参与数据时最困难的任务是完整理解和创建完整的问题定义(即了解哪些数据告诉我们学生成功,哪些表明学生’失败)。另一个挑战是准备一个数据集,因为客户提供的大量数据集需要清理和补充。
我们决定不仅考虑课程完成时学习门户网站上的学生活动总数,还会在较短的课程间隔内监控学生的活动和成就。
我们的团队致力于获取数据核心,并了解我们要解决的问题。
建立了全面的研究问题定义。彻底分析了清洁和补充的数据集。在此基础上,我们选择了最适合的功能和最佳模型,后来经过测试和优化。
挑战结果非常成功。我们设法构建了算法,该算法能够以超过90%的概率预测学生课程辍学的风险。