Pierwszym krokiem jest import danych do R. Dane pochodzą z Institute for Digital Research and Education UCLA i są dostępne online:
dane <- read.csv(“https://stats.idre.ucla.edu/stat/data/binary.csv”)
W pakiecie R do implementacji modelu regresji logistycznej służy funkcja glm(), której formuła wygląda następująco:
nazwa_modelu <- glm(zmienna_objaśniana ~ zmienna_objaśniająca_1 + … + zmienna_objaśniająca_n, family = binomial())
Tworzymy model według wspomnianej formuły:
model <- glm(admit ~ gre + gpa + factor(rank), data = dane, family = “binomial”)
Nie należy zapominać o założeniach dotyczących budowania modelu regresji logistycznej, do których należy m.in.:
- niezależność obserwacji tzn. że zmienne objaśniające nie mogą być ze sobą skorelowane,
- dobre dopasowanie modelu do danych, tak aby w modelu występowały tylko te zmienne, które mają wpływ na wyjaśnienie zjawiska.
W przeciwnym razie model może doprowadzić do niewłaściwych wniosków.
W naszym przykładzie wszystkie zmienne (zgodnie z intuicją) są istotne, więc przejdźmy do interpretacji ich współczynników. Współczynniki modelu regresji logistycznej można interpretować jako szanse. Całą statystykę możemy przejrzeć wywołując
summary(model), jednak skupimy się tylko na pewnej jej części i jednym poleceniem pozbądźmy się trudnych w analizie logarytmów występujących w modelu: exp(coef(model)).
Na tej podstawie czytamy, że:
- przy wzroście średniej ocen (GPA) o jeden punkt szanse na przyjęcie kandydata na uczelnię wzrastają 2,23 raza, czyli wyniosą 223:100 (pamiętając o tym, że odnosimy się do wyniku dla największego prestiżu uczelni, 1 – kategoria referencyjna!),
- wzrost o jeden punkt z testu (wartość GRE) zwiększa szansę na przyjęcie kandydata o 2‰,
- kategorie 2, 3 i 4 prestiżu uczelni działają ograniczająco na przyjęcie kandydata (współczynniki < 1).