www.pchyrkowski.com

Zapraszam na moją stronę internetową!

piątek, 18 marca 2016

Co potrafi statystyka matematyczna?


Statystyka matematyczna to potężne narzędzie. Potrafi przewidywać na podstawie zmiennych czy zajdzie dany warunek, czy nie. Weźmy na przykład dane klientów sieci komórkowych. Znamy o nich podstawowe informacje takie jak wiek, płeć, wykształcenie, stan cywilny, obecną taryfę jak również ich chęć zmiany abonenta (bądź nie). Możemy przewidzieć jakie nowy klient, o którym mamy pewne informacje będzie chciał otrzymać usługi i przygotować je specjalnie dla niego. Dzięki potędze statystyki potrafimy pogrupować np. klientów sieci komórkowej na kategorie, powiedzmy: osoby często korzystające z Internetu, klienci premium, osoby preferujące rozmawiać bądź pisać smsy. Gdy mamy kilka tysięcy obserwacji, złożoność takiego procesu wydawałaby się bardzo duża. Z pomocą przychodzą statystykom programy komputerowe, które podobne zależności liczą w kilka sekund! My postaramy się na prostym przykładzie zastosować algorytm k-średnich, który ze zbioru danych wyodrębni kilka grup o podobnych własnościach.

Będziemy analizować wzrost pracowników w pewnej firmie. Najpierw jednak w kilku słowach opowiem czym jest współczynnik BMI (ang. body mass index). Jest to indeks zależności masy od wzrostu do kwadratu, który w niewielkim stopniu określa, czy dana waga przy określonym wzroście jest odpowiednia (pomijamy dywagacje na temat miarodajności tego współczynnika). Można więc na podstawie liczby BMI (oznaczenie BMI będziemy traktować jako symbol) przyłączyć osobę (obserwację) do jednej z czterech kategorii na podstawie poniższej tabeli.


Dane, którymi dysponujemy są zaprezentowane w poniższej tabeli (są to liczby zmyślone przeze mnie, wartość BMI liczona według wzoru z akapitu powyżej):


Celem zadania będzie podzielenie zbioru danych na takie cztery grupy, aby obserwacje wewnątrz tych grup istotnie się od siebie nie różniły. Następnie porównamy, czy grupy wyróżnione przez algorytm pokrywają się z grupami utworzonymi przed jego rozpoczęciem. Obserwacje na wykresie przedstawiają się następująco:


Algorytm k-średnich polega na wybraniu liczby k, czyli grup, które mają się utworzyć. U nas k=4. Kolejnym krokiem jest wybranie czterech skrajnych obserwacji (takich, które są najdalej od siebie oddalone). Wykonamy to ćwiczenie intuicyjnie. W zasadzie na łamach bloga o tematyce matematycznej takie sformułowanie nie powinno paść! Należałoby wyliczyć wszystkie możliwe odległości (np. w sensie odległości euklidesowej lub metryki taksówkowej) i dopiero na podstawie tych odległości dokonać wyboru! Przyjmujmy, że za obserwacje skrajne wzięliśmy zaznaczone na cztery różne kolory punkty 18 (czerwony), 12 (fioletowy), 8 (żółty), 20 (zielony). Będą one stanowiły środki (centra) naszych grup, tzn. te obserwacje na tym etapie algorytmu należą do czterech różnych grup, które będę nazywał nazwami kolorów (by odróżnić je od grup I - IV).

Kolejny krok polega na przypisaniu pozostałych punktów do tej grupy, do której odległość między badaną obserwacją jest najbliższa (w sensie metryki euklidesowej).



Zauważmy, że przynależność do grupy niektórych punktów była oczywista, zaś dla niektórych należało to wyliczyć ręcznie (komputer wszystkie te obliczenia musi wykonać). Spójrzmy na obserwację o numerze 9:


Przy tak utworzonych grupach, należy teraz wyliczyć ich środki ciężkości (w uproszczeniu: jeśli każdemu punktowi w danej grupie kolorów odpowiada ciężar 1 kg, to środek ciężkości jest takim miejscem (niekoniecznie równy któremuś z punktów!), w którym równoważy się układ złożony z tych ciężarków tak, że w miejscu tym można zaczepić linkę i układ ten nie ,,przewali się'', tzn będzie równoległy do podłoża). Mówi się, że jest to punkt przyłożenia wypadkowej sił ciężkości działających na ciało. My kolejny raz wykonamy to intuicyjnie, program komputerowy posłużyłby się dostępnymi wzorami na środek ciężkości. Punktem X w odpowiednim kolorze oznaczone jest przybliżone miejsce położenia środka ciężkości w danej grupie.


Kolejnym krokiem jest ponowne zaktualizowanie środka ciężkości do momentu, gdy zmiana jego położenia nie będzie już istotna (w praktyce określa się małą liczbę, po jej przekroczeniu algorytm się kończy). Wynik algorytmu przedstawia wykres:


Ten sam algorytm uruchomiłem w programie statystycznym SPSS Imago na tych samych danych. Wybrał on te same punkty początkowe (początkowe centra skupień) i zakończył algorytm już w trzecim kroku (my w czwartym). Jest to związane wykonywaniem operacji znajdowania środka ciężkości i określenia momentu, kiedy algorytm ma się zakończyć (program ma inne procedury kończące). Program wykreślił tabelę przynależności do grup (skupień) dla ustalonego k=4 i są to te same obserwacje, które wyszły nam na wykresie. Wynik działania algorytmu przedstawiony jest w tabeli:


Teraz przeanalizujmy grupy, które utworzył algorytm i porównajmy je z grupami, które były utworzone uprzednio. Spójrzmy na tabelę:


Program dokonał innego podziału (co było do przewidzenia, bo niby dlaczego miałby brać akurat BMI). Jednak wynik jest trochę podobny, to znaczy wysokie wartości BMI są klasyfikowane do grupy 2 (od około 30), zaś te niskie (poniżej 20) jako 3. Przy czym tu kilka wartości jest źle sklasyfikowanych, np. obserwacja 2 jest w grupie 3 przy BMI=21,60, zaś już obserwacja 9 przy BMI=21,00 jest w grupie ,,wyższej'' to jest o numerze 4. Mimo wszystko jednak podział jaki został dokonany potrafi wyznaczyć osoby otyłe oraz te z niedowagą. Algorytm w kilku przypadkach nie klasyfikuje dobrze obserwacji (tzn. ma inne kryteria przydzielania do grup) - dokonuje innego podziału. Wynik działania algorytmu k-średnich można zastosować do szacowania w jakiej grupie osób (związanych z proporcją masy ciała do wzrostu) należymy. Możemy na przykład dokonać podziału na sylwetkę:

1 (fioletowy) - ,,osoby dobrze zbudowane''
2 (zielony) - ,,osoby krępe''
3 (żółty) - ,,osoby zbyt szczupłe i szczupłe''
4 (czerwony) - ,,osoby z klasyczną sylwetką''

Co warte jest podkreślenia, analiza jakiej dokonaliśmy nie jest wykonywana przez komputer! Intuicji i spostrzeżeń komputer nigdy się nie nauczy! O ile w walce z umiejętnością szybkiego liczenia i porównywania z komputerem nie mamy szans, o tyle cała potęga i przewaga analityków polega na tym, że potrafią w gąszczu cyfr, tabel i wykresów znaleźć taką liczbę, taką daną, która przyniesie nam nowe wnioski.

Brak komentarzy:

Prześlij komentarz