Predykcja prawdopodobieństwa niezaliczenia kursu przez studenta
KATEGORIA:MACHINE LEARNING

Projekt polegał na stworzeniu modelu sztucznej inteligencji, przewidującego procentowe szanse niepowodzenia studenta podczas kursu na studiach. Naszym Klientem była uczelnia wyższa ze Szwecji, która zaobserwowała, że duża części studentów nie kończy studiów. Chcieliśmy stworzyć rozwiązanie, który pomoże zmniejszyć ten odsetek.

 
Czas, jaki spędziliśmy pracując nad projektem
alt
Dzięki naszemu doświadczeniu w zakresie uczenia maszynowego oraz bardzo utalentowanemu zespołowi, model został zbudowany w bardzo krótkim czasie, tylko 6 tygodni.
Dokładność
Ostatecznie, dokładność przewidywań modelu wyniosła 92%
%
Sposoby uczenia się maszyn

Jednym z najważniejszych etapów w procesie uczenia maszynowego jest dobór algorytmu uczącego. W projekcie zdecydowaliśmy się na wykorzystanie algorytmu Random Forest, czyli metody klasyfikacji (i regresji) polegającej na tworzeniu wielu drzew decyzyjnych na podstawie losowego zestawu danych.

 
alt
Algorytm Random Forest miał najwyższą skuteczność wśród testowanych algorytmów, ponieważ świetnie sprawdza się w pracy z dużymi ilościami danych oraz jest odporny na nieciągłości danych. Algorytm ten składał się z:
0 drzew losowych
Wielkość zbioru danych - liczba obserwacji
Początkowa liczba obserwacji
0
Liczba obserwacji otrzymanych w procesie transformacji zbioru danych
0
Języki i framewroki użyte w projekcie.

W efekcie powstał model uczenia maszynowego, który potrafi przewidzieć ryzyko niepowodzenia danego studenta poprzez analizę jego aktywności w platformie edukacyjnej.

Najtrudniejsze w pracy z danymi było ich zrozumienie oraz stworzenie szczegółowej definicji problemu (czyli określenie jakie dane mówią nam o sukcesie, a jakie o porażce studenta).

Kolejnym wyzwaniem okazało się przygotowanie zbioru danych, ponieważ ogromny dataset, który otrzymaliśmy od Klienta wymagał oczyszczenia, czasem też uzupełnienia. Postanowiliśmy brać pod uwagę nie tylko całkowitą aktywność studenta w momencie ukończenia kursu, lecz także obserwować jego aktywność i osiągnięcia w krótszych okresach trwania kursu.

 

Nasz zespół włożył dużo pracy w to, aby dokładnie poznać specyfikę danych oraz zrozumieć problem, który musieliśmy rozwiązać. Powstała dokładna definicja problemu badawczego. Oczyszczone i wzbogacone dane zostały poddane szczegółowej analizie. Na tej podstawie wybraliśmy najodpowiedniejsze cechy oraz model, który poddaliśmy następnie testowaniu i optymalizacji.

Wyzwanie zakończyło się ogromnym sukcesem. Udało się nam stworzyć algorytm, który z ponad 90% prawdopodobieństwem przewiduje ryzyko niepowodzenia studenta podczas kursu.

 

Chcesz wykorzystać uczenie maszynowe, aby zyskać przewagę nad konkurencją?