Projekt polegał na stworzeniu modelu sztucznej inteligencji, przewidującego procentowe szanse niepowodzenia studenta podczas kursu na studiach. Naszym Klientem była uczelnia wyższa ze Szwecji, która zaobserwowała, że duża części studentów nie kończy studiów. Chcieliśmy stworzyć rozwiązanie, który pomoże zmniejszyć ten odsetek.
Czas, jaki spędziliśmy pracując nad projektem
Sposoby uczenia się maszyn
Jednym z najważniejszych etapów w procesie uczenia maszynowego jest dobór algorytmu uczącego. W projekcie zdecydowaliśmy się na wykorzystanie algorytmu Random Forest, czyli metody klasyfikacji (i regresji) polegającej na tworzeniu wielu drzew decyzyjnych na podstawie losowego zestawu danych.
Wielkość zbioru danych - liczba obserwacji
Języki i framewroki użyte w projekcie.

W efekcie powstał model uczenia maszynowego, który potrafi przewidzieć ryzyko niepowodzenia danego studenta poprzez analizę jego aktywności w platformie edukacyjnej.
Najtrudniejsze w pracy z danymi było ich zrozumienie oraz stworzenie szczegółowej definicji problemu (czyli określenie jakie dane mówią nam o sukcesie, a jakie o porażce studenta).
Kolejnym wyzwaniem okazało się przygotowanie zbioru danych, ponieważ ogromny dataset, który otrzymaliśmy od Klienta wymagał oczyszczenia, czasem też uzupełnienia. Postanowiliśmy brać pod uwagę nie tylko całkowitą aktywność studenta w momencie ukończenia kursu, lecz także obserwować jego aktywność i osiągnięcia w krótszych okresach trwania kursu.
Nasz zespół włożył dużo pracy w to, aby dokładnie poznać specyfikę danych oraz zrozumieć problem, który musieliśmy rozwiązać. Powstała dokładna definicja problemu badawczego. Oczyszczone i wzbogacone dane zostały poddane szczegółowej analizie. Na tej podstawie wybraliśmy najodpowiedniejsze cechy oraz model, który poddaliśmy następnie testowaniu i optymalizacji.
Wyzwanie zakończyło się ogromnym sukcesem. Udało się nam stworzyć algorytm, który z ponad 90% prawdopodobieństwem przewiduje ryzyko niepowodzenia studenta podczas kursu.