Statistika, prvi čas sa profesoricom Dženanom
Sinoć, u neka doba, Dženana mi je dala prve instrukcije iz Statistike.
Krenuli smo sistemom clean-room: objasniće mi osnovne pojmove ne osvrčući se na nastavne materijale FIT-a. Dobra odluka, s obzirom da sam nakon čitanja knjige ostao "pjaf" :(
Dženana je počela priču sa normalnom distribucijom(*):
U statistici se sve "vrti" oko normalne distribucije. Zašto ? Zato što je utvrđeno da se sve bitne pojave u društvu i prirodi dešavaju prema zakonima normalne distribucije. Kada shvatiš šta je normalna distribucija, znaš osnove statistike
Peke ... Njen početak mi je odmah vratio sjećanja na Branin STT (**). Za razliku od Dženaninog početka, FIT-ovi materijali su za mene bili - mentalni čekić u glavu.
Nacrtala mi je dijagram normalne distribucije, i počela ga objašnjavati.
Nakon što je ona uvela pojmove: normalna distribucija, standardna devijacija i varijanca, ispisala formule, prokomentarisala dijagram.
Je li ovo jasno ? Uredu, "ne baš"
Pitala me je: je li ovo jasno ? Kako sam ja stao .. ona je odmah nastavila: Aha, ne baš.
Kasnije sam skontao da ovo ne baš kod Dženana znači: "Aha ti ovo i dalje ne kontaš". Kako to Dženana fino upakuje. Čovjek talašika a ona mu kaže: "Ne baš ... Mudrica si ti mudrica ... :)"
Ali dobro, ja sam aktivan učenik. Tražio sam od nje da mi navede primjer. Dobar primjer je zakon. To je za mene najbolje učenje.
Tražio sam: "Daj mi neki primjer iz glave koji ću moći pratiti".
Primjer: test inteligencije
Dž: Ok, idemo ovako. Imaš rezultate testa inteligencije. Napravljeno je 10 mjerenja. Izračunaćemo aritmetičku sredinu (M), varijancu (V), standardnu devijaciju (delta):
Što se tiče interpretacije, ovo sam naučio:
- Aritmetička sredina mjerenja je M = SUM(X) / N, gdje je X - pojedini rezultati mjerenja, a N broj mjerenja
- Varijanca pojedinačnog mjerenja v = (X - M) ^ 2, tj kvadrat razlike između pojedinačnog mjerenja i M sredine
- Varijanca rezultata mjerenja V = SUM(v) / N
- Standardna devijacija rezultata mjerenja (predstavlja se grčkim slovom delta - StdDev u daljem tekstu) = SQRT(V), tj kvadratni korijen varijance
I u tome je sva matematička mudrost.
Interpretacija, tumačenje
Tumačenja pojedinih veličina:
- Standardna devijacija nam govori koliko se rezultati mjerenja rasipaju
- Kada mjerenje ima normalnu distribuciju, na osnovu StdDev znamo:
- opsegu StdDev od -1 do +1 u odnosu na M imamo 68% rezultata
- u opsegu StdDev od -1.96 do +1.96 (može se reći cca -2 do +2) imamo 95% rezultata
- u opsegu StdDev od -2.56 do +2.56 imamo 99% rezultata
U našem primjeru imamo da je StdDev = 2.9, M = 15.3. To znači da, pod pretpostavkom da naše mjerenje zadovoljava zakone normalne distribucije, za mjerenje br. 6:
X = 12; z = (X - M) / StdDev = 12-15.3) / 2.9 = -1.138
z vrijednost, koju sada uvodimo, pomaže mi da jednostavno određeni rezultat smjestim tamo gdje pripada.
-1.138 znači da se ovaj rezultat nalazi lijevo od M, te da rezultati njegovog testa ulaze grupu od cca 70-75% od ukupnog broja ispitanika.
Ispitanik br. 5 ima z vrijednost +2.31. Tip je genijalac. Njegov z > +1.96, a blizu cca +2.56, znači pripada cca 1% uzorka.
Negdje u FIT knjizi sam pročitao(****) kako je statistika matematička disciplina, te kako statističar ima zadatak stvari izračunati, a tamo neki drugi eksperti to tumače.
Mislim da je ovo skroz pogrešno. Sve dok ne shvatim osnovne veze između stvari koje obrađujem, ne mogu napraviti statističku analizu.
Hoću da kažem: da bih napravio statističku analizu neke pojave pojave moram znati osnovne ciljeve te analize, odnosno zakonitosti te pojave. Moram poznavati domen koji obrađujem. Istina je da se rezultati analize mogu interpretirati na razne načine, i koristiti od raznih disciplina na različit način. Međutim statističar ne može biti "van" domena.
Zašto ovo iz perspektive učenika govorim ?
Bez shvatanja ovog ili ovakvog primjer ja ne mogu odgovoriti: ZAŠTO (to računam), ŠTA (to predstavlja).
Tek kada sam napravio obradu jednog reprezentativnog primjera kao što je ovaj, stvari sebi mogu smjestiti na pravi način. Tek sada počinjem da razumijevam ono što izračunavam.
Reprezentativan primjer
Time dolazim do velike greške u didaktičkom pristupu Statistike na FIT-u.
Previše pojmova koje studenti, pretpostavljam, uče napamet.
Uvođenje u temu nije praćeno reprezentativnim primjerima. Reprezentativan primjer ima sljedeće karakteristike:
- jednostavan tako da ga student bez puno naprezanja može razumjeti
- kratak, tako da mu velika količina podataka ne pravi distorziju
Komplikovanje
U FIT statistici se pominje nekakvih "milion" aritmetičkih sredina. To je nepotrebno komplikovanje. Aritmetička sredina je jedan pojam.
Uvođenje posebne aritmetičke sredine za prosti niz rezultata i niz rezultata grupisanih po frekvencijama odgovora je - komplikovanje.
Microsoft Excel
Dokument smo pravili u Excelu, jer se isključivo on koristi na ispitu na FIT-u.
Moja profesorica ne poznaje excel. Zna samo najosnovnije operacije(***). Profesorice profesorice.
Pojmovi
Prva stvar koja je Dženani upala to je totalna promjena taksonomije - termina koji se koriste u odnosu na njen riječnik.
Tu se pojavljuje i dosta grešaka, ili tačnije stvar koji se u naučnim statisičkim krugovima ne koriste. Navešću parove (Standard/FIT terminologija):
- Varijanca / Varijansa(*****)
- Multivarijatne metode / Multivarijantne metode (******)
--
(*) parafraziram, nisam bilježio pa su greške moguće i vjerovatne
(**) Brana Perunčić, Statistička teorija telekomunikacija (STT)
(***) Njen fakultet - Psihologija pripadaju SPSS shop-u. Svako malo se sa njom posvađam govoreći kako oni kao obrazovna ustanova moraju ići na R. To pravi alat za akademsku zajednicu.
(****) Nemam knjige pred sobom, govorim ponovo po sjećanju, moguće je da griješim
(*****) od eng. "variance". Varijansa se koristi u srbijanskim naučnim krugovima, analogno što Srbijanci koriste Evro umjesto Euro
(******) od eng. variats - varijate, a ne varijaNte; zato je Dženani komentar bio: nepismeno