プロジェクトに費やした時間
機械学習テクニック
学習アルゴリズムの選択は、機械学習の最も重要な段階の1つです。
プロジェクトではランダムフォレストアルゴリズムを採用することにしました。それは非常に集中的な計算を実行する一種のアルゴリズムです。言い換えれば、それはデータのランダムなサブセットに基づいて多数の決定木を構築することによって機能する分類と回帰のための学習方法です。
データベースサイズ - 観測数
プロジェクトで使用されている言語とフレームワーク

結果として、学習プラットフォームでの特定の生徒の行動を分析することで生徒のドロップアウトのリスクを予測できる、機械学習モデルが構築されました。
データとの関わり合いで最も困難な作業は、問題定義全体を完全に理解し作成することでした(つまり、どのデータが学生の成功について私たちに知らせ、学生の失敗を示すかを理解することです)。もう1つの課題は、データセットを準備することでした。クライアントから提供された膨大なデータセットには、クリーニングと補足が必要でした。
コース終了時のラーニングポータルでの生徒のアクティビティの合計だけでなく、より短いコース間隔で生徒のアクティビティと成果を監視することも検討しました。
私たちのチームは、データをコアにして解決するためにある問題を理解することに真剣に取り組んでいます。
包括的な研究課題の定義が確立されました。洗浄および補足されたデータセットは徹底的に分析されました。その理由から、私たちは最も適切な機能と最良のモデルを選びました。それは後でテストされ最適化されました。
挑戦は大成功でした。私たちは、90%以上の確率で学生のコース脱落のリスクを予測することができるアルゴリズムを構築することに成功しました。