STATYSTYKA Wprowadzenie do analizy danych sondażowych i eksperymentalnych Grażyna Wieczorkowska oraz Piotr Kochański Magdalena Eljaszuk STATYSTYKA Wprowadzenie do analizy danych sondażowych i eksperymentalnych Wydawnictwo Naukowe Scholar Redakcja i korekta: Magdalena Eljaszuk, Magdalena Pluta Projekt okładki: Marta Karczewska Grafiki w tekście i na okładce: Rafał Kucharczuk Copyright © 2004 by Wydawnictwo Naukowe Scholar, Spółka z o.o., Warszawa ISBN 83-7383-083-9 Wydawnictwo Naukowe „Scholar" Spółka z o.o. ul. Krakowskie Przedmieście 62, 00-322 Warszawa tel./fax 828 95 63, 826 59 21, 828 93 91 dział handlowy 635 74 04 wew. 219 lub jw. wew. 105,108 e-mail: info@scholar.com.pl http://www.scholar.com.pl Wydanie drugie poprawione Skład i łamanie: WN „Scholar" (Jerzy Łazarski) Druk i oprawa: Paper & Tinta, Warszawa Spis treści Wstęp........................................................ 9 Literatura................................................ 14 Rozdział 1. Naukowy sposób poszukiwania związków między zmiennymi. Rodzaje badań ................................................ 15 1.1. Wprowadzenie............................................. 15 1.2. Operacjonalizacja zmiennych teoretycznych...................... 18 1.3. Badania korelacyjne......................................... 20 1.4. Badania eksperymentalne..................................... 22 1.5. Porównanie badań eksperymentalnych i korelacyjnych............. 24 1.6. Analiza przykładów badań.................................... 27 1.7. Test intuicji psychologicznej: zbiór danych „LEARN". Sposób zapisywania wyników w komputerze..................... 30 1.8. Co oznaczają liczby w naukach społecznych? Skale pomiarowe. Zmienne nominalne, porządkowe i ilościowe (przedziałowe i ilorazowe).................................... 35 1.9. Typ skali pomiarowej a rodzaj dopuszczalnych przekształceń........ 41 Rozdział 2. Rozkład zmiennej w próbie i w populacji. Miary tendencji centralnej i rozproszenia.................................................. 45 2.1. Rozkład zmiennej w próbie................................... 45 2.2. Statystyki opisowe rozkładu zmiennej. Miary tendencji centralnej i rozproszenia.............................................. 51 2.3. Standaryzacja.............................................. 60 2.4. Rozkład zmiennej w populacji................................. 63 2.5. Rozkład normalny (rozkład Gaussa)............................ 66 2.6. Sposoby wykorzystania informacji dotyczącej normalności rozkładu zmiennej w populacji........................................ 70 Rozdział 3. Wizualizacja danych. Tworzenie wskaźników złożonych.............. 75 3.1. Tworzenie wskaźników...................................... 75 3.2. Typowe problemy występujące przy tworzeniu wskaźników......... 80 3.3. Trafność i rzetelność wskaźnika. Współczynnik a Cronbacha........ 83 3.4. Ograniczenia i wady a Cronbacha.............................. 86 3.5. Przykład zastosowania analizy czynnikowej do tworzenia wskaźników............................................... 88 3.6. Wprowadzenie do wizualizacji danych.......................... 97 3.7. Wizualizacja rozkładu zmiennej ............................... 99 3.8. Wizualizacja zależności między zmiennymi...................... 111 Rozdział 4. Testowanie hipotez statystycznych. Rozkład statystyki................ 117 4.1. Jak na podstawie próby możemy wnioskować o całej populacji? ..... 117 4.2. Rozkład zmiennej w populacji i w próbie oraz rozkład statystyki, na przykładzie populacji marsjańskiej........................... 118 4.3. Miary tendencji centralnej rozkładu statystyki.................... 123 4.4. Miary rozproszenia rozkładu statystyki ......................... 124 4.5. W jaki sposób praktycznie wykorzystujemy znajomość rozkładu średnich (statystyki M)l ..................................... 126 4.6. Porównanie trzech typów rozkładów............................ 128 4.7. Centralne Twierdzenie Graniczne.............................. 130 4.8. Hipotezy statystyczne ....................................... 134 4.9. Kierunkowe i bezkierunkowe hipotezy badawcze.................. 138 4.10. Etapy testowania hipotez..................................... 140 4.11. Etapy wnioskowania statystycznego na podstawie wydruku komputerowego............................................ 154 4.12. Ryzyko błędu.............................................. 155 Rozdział 5. Test t Studenta. Przedział ufności................................. 159 5.1. Rozkład t Studenta ......................................... 159 5.2. Zastosowanie testu t Studenta do testowania hipotezy dla pojedynczej próby....................................... 161 5.3. Zastosowanie testu t do testowania hipotezy o równości średnich na podstawie dwóch prób zależnych (schemat badawczy: Pretest-Posttest) ........................................... 166 5.4. Zastosowanie testu t do porównania średnich na podstawie prób niezależnych .......................................... 172 5.5. Przedział ufności dla średnich................................. 181 Rozdział 6. Jednoczynnikowa analiza wariancji............................... 186 6.1. Ograniczenia stosowalności testu t Studenta. Dlaczego 3 jest lepsze niż 2?.................................. 186 6.2. Jednoczynnikowa analiza wariancji............................. 187 6.3. RozkładFFishera.......................................... 190 6.4. Zastosowanie analizy wariancji do testowania hipotez o równości średnich......................................... 193 6.5. Testy porównań poszczególnych średnich w analizie wariancji....... 210 Rozdział 7. Dwuczynnikowa analiza wariancji................................ 217 7.1. Efekt interakcji ............................................ 217 7.2. Testowanie efektów głównych i interakcyjnych................... 221 7.3. Porównanie wyników jednoczynnikowej analizy wariancji z analizą dwuczynnikowa.................................... 232 7.4. Analiza wariancji z powtarzanymi pomiarami.................... 237 Rozdział 8. Pomiar związku między zmiennymi ilościowymi: współczynnik korelacji liniowej i analiza regresji........................................ 242 8.1. Związek liniowy między zmiennymi ilościowymi. Wykres korelacyjny (rozrzutu)................................. 242 8.2. Przewidywanie wyników zmiennej zależnej na podstawie wartości zmiennej niezależnej. Błąd predykcji............................ 245 8.3. Testowanie istotności współczynnika korelacji.................... 253 8.4. Problemy w interpretacji współczynnika korelacji................. 257 8.5. Zastosowanie analizy regresji w badaniu LEARN. Modyfikujący wpływ trzeciej zmiennej (grupa eksperymentalna) na otrzymane zależności ..................................... 258 8.6. Regresja wielokrotna. Określanie związku zmiennej zależnej z więcej niż jednym predyktorem.............................. 260 8.7. Korelacje cząstkowe........................................ 264 8.8. Wprowadzenie zmiennych nominalnych do równania regresji........ 267 Rozdział 9. Test % dla zmiennych nominalnych .............................. 270 9.1. Test hipotezy o zgodności rozkładu empirycznego z teoretycznym (oczekiwanym)............................................. 270 9.2. Test hipotezy o niezależności dwóch zmiennych nominalnych 275 9.3. Wyliczanie współczynników siły związku........................ 285 Rozdział 10. Podsumowanie i wskazówki dotyczące wyboru testu statystycznego .... 288 Tablice ....................................................... 303 Książkę dedykuję Januszowi Grzelakowi i Eugene 'owi Burnsteinowi, moim profesorom, współpracownikom i przyjaciołom (w chronologicznej kolejności). Spędziłam z nimi wiele godzin, analizując dane zarówno eksperymentalne, jak i sondażowe. G.W. Wstęp Od kilkunastu lat byłam namawiana do napisania podręcznika do statystyki. Na- legali na to zarówno psychologowie, jak i lekarze, których dane (tak eksperymental- ne, jak i sondażowe) analizowałam i którzy cenili sobie wysoko wyniki współpracy. Jest tak zapewne dlatego, że mimo ukończonych studiów matematycznych statysty- ka interesuje mnie tylko o tyle, o ile pomaga nam w wydobywaniu interesują- cych informacji ze zgromadzonych danych. Sama od ponad 20 lat rozwiązuję za- gadki psychologiczne i jestem przekonana, że wiedzielibyśmy już znacznie więcej, gdyby badacze rozumieli, po co zbierają dane i co dalej się z nimi dzieje. Zrozu- mienie istoty statystyki jest potrzebne także tym, którzy sami nie przeprowa- dzają badań, ale je wykorzystują. Wszyscy dowiadujemy się, że wyniki badań wykazały wzrost notowań rządu, że należy pić sok pomidorowy itd. Jeżeli nie rozu- miemy istoty statystyki, nie jesteśmy w stanie trafnie ocenić tych doniesień. Analizowałam sporo badań z różnych dziedzin psychologii, socjologii, edukacji, medycyny i widziałam bezradność na przykład w oczach lekarzy, którzy nie rozumie- li, co mogą, a czego nie mogąpowiedzieć na podstawie otrzymanych wyników. A prze- cież nie jest to trudne. Trzeba mieć tylko dobrego nauczyciela lub dobry podręcznik, który wskaże drogę. Niniejszy podręcznik jest efektem doświadczenia, jakie zebrałam w czasie pro- wadzenia dwuletniej specjalizacji „Metodologia badań społecznych" na Wydziale Psychologii Uniwersytetu Warszawskiego i wykładu „Metodologia ze statystyką" w Szkole Wyższej Psychologii Społecznej. Zaprosiłam do współpracy dwójkę młodych asystentów, którzy uczą „Zastosowań komputerów w psychologii" w SWPS. Piotr Kochański (który napisał m.in. część dotyczącą wizualizacji wyników) jest doktorem fizyki od lat pracującym z psychologa- mi. Magda Eljaszukjest magistrem psychologii i doktorantką Instytutu Studiów Spo- łecznych Uniwersytetu Warszawskiego. To, jak należy uczyć analizy danych wszyscy troje mieliśmy okazję podpatrywać u mistrzów - profesorów wykładających w najlep- szej szkole letniej w zakresie metodologii badań ilościowych w naukach społecznych, organizowanej już od 40 lat przez ICPSR (Inter-University Consortium for Political Science). Ja w 1990 roku, Piotr w 1999, Magda w 2002 roku. Było to możliwe dzięki stypendiom uzyskanym za pośrednictwem Instytutu Studiów Społecznych UW od In- stitute for Social Research, University of Michigan, Ann Arbor. Wstęp 10 Moi koledzy dziwią się, że nie nudzi mi się uczenie, co to jest wariancja, wynik istotny statystycznie itd. Nie nudzi mi się, ponieważ cały czas szukam najlepszego sposobu przekazania tej wiedzy. Zdecydowana większość moich studentów to ofiary nauczycieli matematyki, którzy wyrobili w nich przekonanie, że ta dziedzina nauki jest dla nich nie do pojęcia. Czasem mam wrażenie, że zamiast kursu statystyki pro- wadzę kurs zmiany postaw. Na początku wielu studentów twierdzi, że oni niczego, co jest związane z matematyką, nie są w stanie się nauczyć. Myślę sobie wtedy nie najlepiej o ich wiedzy psychologicznej. Powinni przecież wiedzieć, że zamiast pyta- nia „CZY" należy postawić pytanie „JAK". I -jak wynika ze znanego porzekadła „Kto chce, szuka sposobów, kto nie chce, szuka powodów", należy się zastano- wić, w jaki sposób zorganizować naukę, aby jak najlepiej odpowiadała naszym pre- ferencjom poznawczym. „Statystyka" - to brzmi dla większości humanistów bardzo groźnie. Tym samym terminem określany jest przedmiot wykładany na matematyce, ekonomii, zarządzaniu, socjologii, psychologii. Uczy się tam jednak innych rzeczy - na mate- matyce przypomina to naukę budowy samochodu, na psychologii kurs jazdy samo- chodem. Człowiek, który zna teorię budowy samochodu może czuć się bezradny, gdy usiądzie za kierownicą. Dobry kierowca może nie znać takich szczegółów - choć jest dużo lepiej, jeżeli rozumie ogólne zasady funkcjonowania pojazdu. Podręcznik jest pisany dla praktyków, a nie teoretyków, i dlatego jest pełen uproszczeń. Stosując analogię do nauki sztuki kulinarnej, nie będziemy studiować procesów chemicznych zachodzących podczas duszenia mięsa, a skoncentrujemy się wyłącznie na heurystykach i algorytmach, jakie trzeba zastosować, aby to mięso smacz- nie przyrządzić. Tak jak w rękach kiepskiego kucharza mięso może zostać spalone na węgiel, tak w rękach kiepskiego badacza ciekawe wyniki empiryczne mogą zostać niezauważone. Umiejętność stosowania statystyki też wymaga artyzmu. Ale zanim staną się Państwo artystami w analizowaniu danych, często obarczonych sporym szu- mem, czeka nas sporo palcówek. Proszę mi zaufać, choć często będą się one wyda- wały sztuczne, to wykonywanie ćwiczeń ma głębszy sens, niż się Państwu wydaje. Do nauki statystyki należy podejść jak do nauki języka. Najpierw trzeba na- uczyć się słówek i sposobu budowania zdań. Wymaga to systematyczności. Części tych słówek będziemy się uczyć w dwóch językach równocześnie: angielskim i pol- skim, ponieważ ogólnie przyjęte skróty, takie jak SS na określenie sum kwadratów, pochodzą od angielskich terminów (SS-sum ofsąuares). Tak jak w każdym języku, i tu jest sporo synonimów. Przykładowo, prawdopodobieństwo popełnienia błędu I. rodzaju określane jest jako poziom istotności lub poziom ufności. Symbol /? oznacza zarówno prawdopodobieństwo popełnienia błędu II rodzaju, jak i standaryzowany współczynnik regresji itd. Treści zawarte w podręczniku są maksymalnie uproszczone. Każdy jest w sta- nie je przyswoić, o ile tylko zechce, tzn. będzie szukał sposobów, a nie powodów. Trzeba jednak czytać skrypt aktywnie - z ołówkiem, ewentualnie kalkulatorem, spraw- dzać wszystkie obliczenia po kolei. Tylko aktywność własna może przynieść efek- ty. Po latach oszczędzania niepotrzebnego wysiłku uczniowi, karierę robi japońska szkoła nauczania matematyki, która podstawową rolę przypisuje wyuczeniu pew- Wstęp nych umiejętności, uzyskanie zaś wglądu jest zadaniem wtórnym. Do tego podejścia zachęcam Czytelnika. Proszę mi wierzyć - wykonanie ćwiczeń zawartych w pod- ręczniku jest konieczne. Zostały czasem zostawione puste miejsca po to właśnie, aby skłonić Czytelnika do sięgnięcia po ołówek. Po każdym rozdziale jest kolorowa kartka, na której warto zapisać to, co powinniśmy zapamiętać. Inaczej będzie to jak oglądanie kasety z nauką jazdy samochodem. Oczywiście, że można obejrzeć, ale warto też usiąść za kierownicą. Rozwiązywanie ćwiczeń w podręczniku jest jak jaz- da z instruktorem. Przygotuje to Państwa do samodzielnego prowadzenia samocho- du. Nawet jeżeli jesteśmy przekonani, że zrozumieliśmy co to jest wariancja, błąd standardowy, etapy testowania hipotez, to prawdziwe ukorzenienie tej wiedzy nastą- pi dopiero wtedy, gdy samodzielnie przetestujemy kilkadziesiąt hipotez statystycz- nych. Ćwiczenia zostały tak dobrane, aby było to bardzo proste. O tym, że przyjęta przeze mnie metoda dydaktyczna jest skuteczna, przekonują mnie wysokie oceny studentów. Na 318 oceniających mnie w lutym 2003 roku stu- dentów mediana oceny na pięciopunktowej skali na wymiarach: ciekawy wykład, kontakt ze słuchaczami, zrozumiałość wykładu wyniosła odpowiednio 4, 5, 4. To bardzo dobre oceny, biorąc pod uwagę fakt, że gdy wchodzę na salę po raz pierwszy, studenci patrzą na mnie z wielką niechęcią ze względu na nazwę przedmiotu. Zupeł- nie inaczej jestem witana na pierwszym wykładzie z psychologii społecznej. Dlatego cieszą mnie dołączone do ankiet anonimowe uwagi: • ten wykład jest zrozumiały nawet dla „ zatwardziałych humanistów "; • „ dzięki" relacjom moich znajomych statystyka jawiła mi się jako koszmar jakichkol- wiek studiów. Dzięki pani otwartości wobec studentów oraz wyrozumiałej łopatologii, zaskakując samą siebie -polubiłam statystykę; • ponieważ nie przypuszczałam, abym rzeczywiście w życiu zawodowym korzystała z wie- dzy przekazywanej w ramach przedmiotu - brak mi motywacji; JEDNAK—paniprof. tak interesująco prowadzi wykłady, iż zaczynam wierzyć, że naprawdę warto; • nigdy nie lubiłam statystyki, ale pani prof. ma talent, są to najlepsze wykłady, jakie mam w tym roku. Przedmiot trudny, wykłady bardzo pomagają, ale materiały są dla mnie nieczytelne. Odpowiedzią na ostatnią uwagę jest podręcznik, który stanowi próbę zastąpienia moich wykładów. Na ile udaną - ocenią to Czytelnicy. Choć największy nacisk położyliśmy na wytłumaczenie, co to jest wynik istotny statystycznie, to nie należy oczekiwać, że stanie się to jasne po przeczytaniu pod- ręcznika w ciągu jednego wieczoru. Pomalutku! Poznanie wnioskowania statystycz- nego można porównać do wchodzenia po drabinie. Najpierw trzeba opanować nowe słówka, potem regułę budowania zdań, aby pod koniec niespodziewanie spostrzec, że mówimy „po francusku" lub przynajmniej rozumiemy (może nie na 100%, ale du- żo) ten język. Statystyki nie można nauczyć się wyrywkowo. Nie można dotrzeć na szczyt drabiny, jeżeli opuściliśmy parę szczebli. Więcej, szczebel #4 nie da się zdobyć, jeśli opuściliśmy szczebel #3. Dlatego, w odróżnieniu od nauk humanistycznych, syste- 11 Wstęp 12 matyczność jest podstawą sukcesu. Nie chcę powiedzieć, że nie można wejść na szczebel #4, jeżeli się nie zrozumiało 100% materiału ze szczebla #3. Nieprawda - pełne zrozumienie różnych treści może przyjść dopiero później. Zanim wejdziemy na następny szczebel, trzeba zapamiętać symbole, definicje, przykłady bez względu na to, czy się rozumie je w 100%, czy 20%. Osoby, które nie potrafią przejść dalej dopóki nie zrozumieją wszystkiego doskonale, będą miały sporo problemów, ponie- waż ten podręcznik z definicji musi być pełen uproszczeń. Nie dowodzimy żadnego z wykorzystywanych twierdzeń, nie omawiamy wszystkich opcji, bo podręcznik roz- rósłby się do ogromnego tomiska, które odstraszałoby większość Czytelników. Ten podręcznik zawiera tylko niezbędne minimum potrzebne psychologom, pedagogom, socjologom, specjalistom z innych nauk społecznych, w tym także leka- rzom itd. do rozpoczęcia przygody z analizą i interpretacją danych. Jest to dziwne minimum, bo mimo podstawowego doboru treści, znalazły się tu zaawansowane, ale często wykorzystywane metody - na przykład użycia analizy czynnikowej do budowania wskaźników, analizy wariancji z powtarzanymi pomiarami czy regresji wielokrotnej, wizualizacji danych. Ze zrozumiałych względów nie są one wyczer- pująco omówione (odsyłamy do literatury) - tu pokazaliśmy tylko, jak zinterpreto- wać wyniki, które dzięki pakietom statystycznym każdy może łatwo wyprodukować, ale dużo gorzej jest z interpretacją. Niestety! Łatwo byłoby napisać podręcznik pełen wzorów matematycznych, staraliśmy się jednak ograniczać je do niezbędnego minimum. We wszystkich wzorach dla uprosz- czenia zakładamy równą liczebność prób, ponieważ i tak większe analizy wykony- wane są przy użyciu pakietów statystycznych. Aby je jednak zrozumieć, konieczne jest przeprowadzenie kilkunastu analiz samodzielnie. Pomijamy też często indeksy przy wzorach sumowania, zastępując je komentarzem. Podane przykłady zadań do- tyczą śmiesznie małych prób po to, aby maksymalnie uprościć obliczenia. Używając statystyki w badaniach społecznych, można stosować standardy sta- nu idealnego: sprawdzać rygorystycznie wszystkie założenia, lub stanu normalne- go, zgodnie z tym, co robią inni badacze. Przykładowo, nie ma dowodów na to, że skala odpowiedzi: (1) zdecydowanie się zgadzam, (2) zgadzam się, (3) trudno powie- dzieć, (4) nie zgadzam się, (5) zdecydowanie się nie zgadzam, ma charakter prze- działowy, a jednak w badaniach publikowanych w najlepszych czasopismach jest ona tak traktowana. Dlatego w podręczniku stosujemy standardy nie rygorystyczne, ale uznawane w środowisku badaczy. Sama nie lubię powtórzeń, jednak dwudziestoletnie doświadczenie dydaktyczne nauczyło mnie, że są one niezbędne. Dlatego w skrypcie staraliśmy się nie unikać powtarzania ważnych informacji. Podręcznik można pisać, podając formuły ogólne lub też koncentrując się na ćwiczeniu wybranych przykładów w nadziei, że ich opanowanie pozwoli zapewne na generalizację. Dlatego przez cały podręcznik prowadzimy Czytelnika, posługując się przykładami z fikcyjnego badania LEARN i prowadzonego od początku lat 90. Polskiego Generalnego Sondażu Społecznego. Nie zakładamy, że Czytelnik, który dobrnie z nami do końca podręcznika będzie umiał analizować dane z badań społecznych. Nie od razu Kraków zbudowano. Cel Wstęp zostanie osiągnięty, jeżeli będzie on potrafił przeprowadzić (fizycznie i/lub mental- nie) wybrane analizy przedstawione w podręczniku. Gwarantujemy jednak, że sta- tystyka przestanie być czarną magią. Do fizycznego przeprowadzenia analiz dużego zbioru danych potrzebny jest do- stęp do jakiegoś pakietu statystycznego i umiejętność posługiwania się komputerem oraz tym programem. Wszystkie przykłady i sposoby prezentowane w skrypcie są wynikami używania pakietu statystycznego Statistical Package for Social Sciences (SPSS). Jest to bardzo potężne narzędzie do analizy danych i dlatego od początkują- cych (ale nie tylko) wymaga umiejętności ignorowania dużej liczby informacji. Na wydruku znajduje się wiele statystyk, które nie wnoszą do badania potrzebnych da- nych. Początkujący użytkownik, który zechciałby zrozumieć wszystko, co jest wy- drukowane, będzie skazany na klęskę. Chociaż nasze nazwiska figurują na okładce tego podręcznika, to trudno nazwać nas autorami zawartych w nim treści. Nie my pierwsi opisaliśmy rozkład normalny, analizę wariancji, etapy testowania hipotez statystycznych. Szukając najprostszego sposobu przekazu, korzystaliśmy z prac innych. Pomysł populacji marsjańskiej (choć nie tak się ona nazywała) i niektórych zadań pochodzi z podręczników amerykań- skich. Zostały one jednak znacznie przystosowane do naszej koncepcji uczenia. Podręcznik powstawał ewolucyjnie z przygotowywanych (i zmienianych co roku) materiałów do nauki statystyki. W pracy nad wersją sprzed paru lat brali udział: dr Grzegorz Król, mgr Jerzy Madej, mgr Irena Zinserling, dr Dorota Król, dr Piotr Radkiewicz, mgr Agata Bieniek, mgr Rafał Tomicki. Korekta pierwszej wersji zadań jest zasługą mgr Ireny Zinserling, której serdecznie dziękujemy. Najwyższe słowa uznania należą się profesorowi Jerzemu Brzezińskiemu, które- go szczegółowe uwagi przyczyniły się do znacznego ulepszenia tekstu. Mam świadomość tego, że zbliżający się kolejny rok akademicki wymusza za- kończenie pracy, choć tyle rzeczy warto byłoby poprawić, dodać. No cóż, jak powie- dział Montaigne: „Umiejętności i sztuki nie powstają gotowe, jakoby odlane w for- mie, jeno tworzą się i kształtują pomału, gdy się je obrabia i szlifuje..." Będziemy wdzięczni Czytelnikom za sygnalizowanie nam nieścisłości i propo- zycje zmian. Uspokaja mnie trochę to, co usłyszałam od dziekana MINI Politechniki Warszawskiej, że nawet w XX wydaniu zbioru zadań Gdowskiego i Plucińskiego wciąż są notowane błędy. Mogę obiecać, że dołożymy starań, aby kolejne wydanie tego bardzo potrzebnego podręcznika było jeszcze lepsze. Na stronie WWW.CO- me.uw.edu.pl/gw znajdą Państwo odpowiedzi do ćwiczeń, zbiory danych, komen- tarze. Pracujemy też nad przygotowaniem kursu internetowego ze statystyki. Podręcznik stanowi wprowadzenie w problematykę i jestem przekonana, że po przeczytaniu go sięgną Państwo z zainteresowaniem do pozycji podanych w bibliografii. Grażyna Wieczorkowska (gw@uw.edu.pl) www.come.uw.edu.pl/gw 7 maja 2003 roku 13 Wstęp Literatura [1] Aronson E., Ellsworth P.C., Carlsmith J.M., Gonzales M.H. (1990, 2 wydanie). Me- thods ofresearch in social psychology. New York: McGraw-Hill. [2] Aronson E., Wieczorkowska G. (2001). Kontrola naszych myśli i uczuć (Skąd my to wszystko wiemy, s. 19-32, Jak odpowiadać na interesujące pytania?, s. 113-181). War- szawa: Santorski. [3] Blalock H.M. (1977). Statystyka dla socjologów (tłum. M. Tabin i in.). Warszawa: Pań- stwowe Wydawnictwo Naukowe. [4] Brzeziński J. (red.). (1987). Wielozmiennowe modele statystyczne w badaniach psycho- logicznych. Warszawa-Poznań: Państwowe Wydawnictwo Naukowe. [5] Brzeziński J. (1996). Metodologia badań psychologicznych. Warszawa: Wydawnictwo Naukowe PWN. [6] Brzeziński J. (2000). Badania eksperymentalne w psychologii i pedagogice. Warszawa: Wydawnictwo Naukowe „Scholar". [7] Cichomski B. (2000). Polskie Generalne Sondaże Społeczne: skumulowany kompute- rowy zbiór danych 1992-1999. Warszawa: Instytut Studiów Społecznych, Uniwersytet Warszawski. [8] Clegg F. (1994). Po prostu statystyka (tłum. E. Łakoma, W. Rzewuski). Warszawa: Wydawnictwa Szkolne i Pedagogiczne. [9] Cohen J., Cohen P. (1983). Applied multiple regression/correlation analysis for the be- havioral Sciences. Hillsdale: Lawrence Erlbaum. [10] Ferguson G.A., Takane Y. (1997). Analiza statystyczna w psychologii i pedagogice (tłum. M. Zagrodzki). Warszawa: Wydawnictwo Naukowe PWN. [11] Góralski P. (1987). Metody opisu i wnioskowania statystycznego w psychologii i pedagogice. Warszawa: Państwowe Wydawnictwo Naukowe. [12] Górniak J., Wachnicki J. (2000). Pierwsze kroki w analizie danych. SPSS PL for Win- dows. Kraków: SPSS Polska. [13] Jacoby W.G. (1997). Statistical graphicsfor univariate and bivariate data. Thousand Oaks: Sagę Publications. [14] Król G., Wieczorkowska G. (1996). Przykłady zastosowań modelowania strukturalne- go w badaniach społecznych. Warszawa: Zeszyty Naukowe ISS. Seria: Prace Metodolo- giczne. [15] Mitchell M., Jolley J. (1996). Research design explained. Fort Worth: Harcourt Brace College Publishers. [16] Nowojczyk M. (2002). Przewodnikpo statystyce dla socjologów. Kraków: SPSS Polska. [17] Pagano R.R., Follett W.C. (1986). Understanding statistics in the behavioral sciences. St. Paul: West Publishing Co. [18] Paszkiewicz E. (1985). Podstawy procesu badawczego w psychologii, w: L. Wołoszy- nowa, Materiały do nauczania psychologii. Seria III, t. 4. (s. 128—158). Warszawa: Państwowe Wydawnictwo Naukowe. [19] Shaughnessy J.J., Zechmeister E.B., Zechmeister J.S. (2002). Metody badawcze w psy- chologii. Gdańsk: Gdańskie Wydawnictwo Psychologiczne. [20] Skład M., Wieczorkowska G. (2001). Sztuka układania ankiet ewaluacyjnych, w: M. Le- wicka, J. Grzelak (red.), Psychologia społeczna: jednostka - społeczeństwo —państwo (s. 250-266). Gdańsk: Gdańskie Wydawnictwo Psychologiczne. [21] Wieczorkowska G., Król G. (1995/1997). O typowym zastosowaniu analizy czynniko- wej i skalowania wielowymiarowego w badaniach społecznych. Warszawa: Zeszyty 14 Naukowe ISS. Seria: Prace Metodologiczne. ildzdziałl Naukowy sposób poszukiwania związków między zmiennymi. Rodzaje badań Pojęcia kluczowe: badania eksperymentalne i korelacyjne; zmienne: teoretyczne i empiryczne (wskaźniki), niezależne, zależne i kontrolowane, nominalne, porządkowe i ilościowe (przedziałowe i ilorazowe), ciągłe i nieciągłe (dyskretne), wyjaśniające i wyjaśniane, istotne i uboczne; operacjonalizacja; skale pomiarowe Wprowadzenie Czy normalny człowiek musi znać statystykę? Wysłuchałam [GW] niedawno audycji radiowej o żywieniu. Występująca w niej pani doktor wypowiadała się auto- rytatywnym tonem o tym, jak należy się odżywiać. Z pełnym przekonaniem formuło- wała wnioski, które w rzeczywistości nie były uzasadnione, np. że wysoki poziom cholesterolu we krwi współwystępuje z chorobami układu krwionośnego, zatem nie należy jeść potraw zawierających cholesterol. Zależność między spożywaniem cho- lesterolu i wysokim poziomem tego składnika we krwi jest modyfikowana przez wie- le innych zmiennych (np. w dużo większym stopniu zależy od czynności wątroby niż od rodzaju spożywanego pożywienia). Stosując taki schemat wnioskowania, można by założyć, że przy żółtaczce nie należy jeść żółtych produktów. Analogicznie nasze wnioski dotyczące pożytków ze stosowania diety wegetariańskiej są ograniczone ze względu na słabość badań. Wegetarianie różnią się od osób niestosujących tego ro- dzaju diety także na innych wymiarach, np. pod względem troski o własne zdrowie. Gdy zadzwoniłam do radia i zwróciłam uwagę na ten aspekt redaktor prowadzącej audycję, była oburzona. „Co pani opowiada, to są przecież wyniki badań nauko- 15 Rozdział 1. Naukowy sposób poszukiwania związków między zmiennymi. Rodzaje badań 16 wych!". Tak, ale badania naukowe prowadzą do konkluzji o różnej sile pewności (większość z nich tylko uprawdopodobnią pewne tezy). Nawet jeśli sami nie prowadzimy badań naukowych, to jednak obserwujemy rzeczywistość, usiłując formułować wnioski o zależnościach przyczynowych między zmiennymi. Wyobraźmy sobie następującą sytuację. Znowu zasypiam nad sprawdzaniem prac magisterskich. Dobrze spałam w nocy, więc jestem wyspana. Może to pogoda? Muszę to zrobić do jutra. Wypiję zieloną herbatę. Nic nie pomaga, piję następną. Po godzinie czuję się świeża i wypoczęta. Czy to zasługa zielonej herbaty? Trudno powiedzieć, ponieważ mogły nastąpić zmiany w moich procesach biochemicznych, które są niezależne od tego, co robiłam. Aby być pewną wpływu zielonej herbaty, musiałabym być pewna, że JA o godzinie 10 i JA o godzinie 11 to ten sam obiekt i nic, poza wypiciem zielonej herbaty, się nie zmieniło. Tego nie mogę zagwarantować, powinnam więc powtórzyć eksperyment z zieloną herbatą w wielu punktach czasowych. Losuję dni tygodnia i godziny i o określonej porze oceniam swoje samopoczucie, następnie piję zieloną herbatę i po jakimś czasie oceniam po- nownie. Podstawowe pytanie brzmi: po jakim czasie? Po 15 minutach, godzinie, 2 go- dzinach? Zielona herbata może mieć bardzo różny wpływ, gdy piję ją, kiedy jestem wyspana, zmęczona, podekscytowana... Sama czynność picia może mieć wpływ na zmianę samopoczucia, tak jak przyjemność jedzenia może wynikać nie tylko z przyj- mowania pokarmów, ale samego faktu używania mięśni, które zostały skojarzone z przyjemnością. Nasza pamięć zapisana jest także w mięśniach. Badania pokazały na przykład, że dowcipne rysunki podobająnam się bardziej, gdy w czasie oglądania trzymamy w ustach długopis w sposób, który wymaga układu mięśni takiego jak wówczas, kiedy się uśmiechamy, niż wtedy gdy nasze mięśnie układaj ą się w smutny wzorzec. Pojawia się problem badacza znającego hipotezy. Jeżeli na przemian w wylo- sowanych punktach czasowych piję herbatę czarną i zieloną, to jestem świadoma, jaką herbatę piję i to może wpływać na moje oceny. Lepiej byłoby przygotować mie- szanki zielonej i czarnej herbaty o różnym składzie procentowym, zakleić, ich opis schować do szafy pancernej i być nieświadomą, co w danej chwili piję. Myślę, że nie muszę dalej przekonywać, że bycie badanym i badaczem w jednej osobie jest bardzo trudne, jeżeli nie niemożliwe. Lepszym rozwiązaniem byłoby zba- danie wpływu zielonej herbaty na inne osoby. Mogę się zastanawiać, kto z moich znajomych pije zieloną, a kto czarną herbatę, następnie oszacować ich średnią ospa- łość i policzyć współczynnik korelacji (co to dokładnie oznacza, wyjaśnione jest w rozdziale 8.) między częstością picia zielonej herbaty a interesującą mnie zmien- ną. Załóżmy, że zaobserwowaliśmy dodatni związek-ci, którzy piją zieloną herbatę, mają wyższy poziom energii niż ci, którzy pijąherbatę czarną. Czy mogę stwierdzić, że zielona herbata redukuje ospałość? Niekoniecznie, ponieważ ludzie pijący zieloną herbatę mogą różnić się od pozostałych stopniem dbania o zdrowie, częstością po- dejmowania aktywności fizycznej itd. Znalazłam właśnie tekst informujący, że picie określonego zestawu ziół zwiększa poziom energii. Broszura zawiera bardzo przeko- nujące opisy osób, których życie po rozpoczęciu picia tej mieszanki ziołowej zmieni- Wprowadzenie ło się radykalnie. Czy mogę wierzyć tym argumentom? Nie bardzo! Aby ocenić wpływ tej zmiennej, musiałabym mieć informację także o tych, którzy pili i im nie pomogło. Nie ma metody, leku, który byłby skuteczny w 100% dla wszystkich. Analizując takie dane, musimy porównać cztery rodzaje informacji, tj. liczbę osób: (D które piły i wykazały poprawę; które nie piły i wykazały poprawę; które piły i nie było poprawy; (4) które nie piły i nie było poprawy. Dopiero wtedy mogę określić stopień związku między obiema zmiennymi. Wszyst- kie materiały reklamowe, które „przekonują" nas o cudownych środkach gwarantu- jących pozbycie się nadwagi, cellulitu, trądziku itp. zawierają tylko jedną z tych in- formacji i dlatego są bezwartościowe. W USA wprowadzono nakaz rzetelnego infor- mowania konsumentów i we wszystkich telewizyjnych materiałach reklamowych po- jawia się maleńki napis: „Rezultaty mogą się różnić u różnych osób". Nie da się ukryć, że biznes żerujący na naszych marzeniach, aby stać się piękny- mi i młodymi bez „trudu i bólu", kwitnie. Ładnie to opisał już Fromm w Sztuce istnienia. Co mamy zatem robić, aby ocenić skuteczność nowego, wspaniałego środ- ka? Jedynym rozwiązaniem jest stosowanie metod naukowych, które: Ul składają się z szeregu uporządkowanych procedur, stosowanych do analizo- wania i rozwiązywania problemów; Ul korzystają z informacji zebranych w obiektywny sposób jako faktycznej pod- stawy do wyciągania wniosków; HH opierają się na empirycznym materiale dowodowym; HH polegają na stosowaniu nietendencyjnych metod przeprowadzania obser- wacji, zbierania danych i formułowania hipotez i twierdzeń (o tym, czy coś jest prawdziwe lub uznawane, nie decydują ani autorytet, ani osobiste prze- konania). Spełnienie wyżej wymienionych warunków powoduje, że uzyskujemy dane, któ- re można zademonstrować wielokrotnie; zarówno może czynić to naukowiec, który je odkrył, jak i inne osoby. Wyniki, których nie da się uzyskać ponownie (zrepli- kować) nie są godne zaufania. Dla odpowiedzi na pytanie o wpływ zielonej herbaty najlepszą metodą jest eks- peryment. Wystarczyłoby podzielić losowo grupę ochotników na dwie części. Na- stępnie zmierzyć ich nastrój, poziom energii. Zaproponować im potem do wypicia zieloną lub czarną herbatę (niestety, nie można im pozwolić wybierać), zająć ich czymś przez następną godzinę i znów mierzyć ich poziom energii. Czy chcemy tego czy nie, podejmujemy codzienne decyzje, kierując się wynikami badań, bądźmy więc świadomi ich wartości. Wszystkie badania mają pewne cechy wspólne. Zaczniemy od wprowadzenia i zdefiniowania podstawowych pojęć. Badanie 17 Rozdział 1. Naukowy sposób poszukiwania związków między zmiennymi. Rodzaje badań naukowe zaczyna się od postawienia pytania. Czy zielona herbata podnosi poziom naszej energii? Czy przeżywanie stresu prowadzi do zwiększonej podatności na choro- by somatyczne? Jak wpływa na nasze zachowanie oglądanie przemocy w TV? Pytanie jest dobrze sformułowane, jeżeli można na nie odpowiedzieć, dokonując obserwacji. Każde pytanie może stać się naukowym, pod warunkiem że spełnia wy- móg empirycznej rozstrzygalności, a więc możliwe jest określenie, jakie fakty, zja- wiska czy procesy należy zaobserwować, aby udzielić na nie odpowiedzi. Takiej możliwości nie daje np. pytanie o wpływ wyboru płci i IQ (ilorazu inteligencji) nie- narodzonego dziecka na strukturę społeczną, ponieważ rodzice jeszcze nie mogą po- dejmować takich decyzji. Po sformułowaniu „rozstrzygalnego empirycznie" za- gadnienia musimy zdecydować, co dokładnie chcemy obserwować, żeby odpowie- dzieć na pytanie. 18 lllliOperacjonalizacja zmiennych teoretycznych Podejście naukowe wymaga opisu rzeczywistości za pomocą zmiennych. Jeżeli chcemy sprawdzić, czy frustracja (przerwanie zachowania ukierunkowanego na cel np. z powodu jakiejś arbitralnej ingerencji innej osoby) wzbudza negatywny afekt, który wywołuje agresywne myśli, gniew oraz skłonność do zachowań agresywnych, to mamy dwie zmienne teoretyczne: frustracja i agresja. Jeżeli interesuje nas wpływ obserwacji przemocy na agresywność zachowania, to w tak ogólnie sformułowanym pytaniu mamy też dwie zmienne teoretyczne: oglądanie przemocy i agresja. Aby pytanie spełniało wymóg empirycznej rozstrzygalności, musimy występują- ce w nim zmienne teoretyczne zoperacjonalizować, czyli wskazać operacje, które trzeba wykonać, aby określić wartość, jaką przyjmuje zmienna. Zmienną może być każda cecha, która przyjmuje różne wartości (a więc nie jest stała, jak np. płeć zakonników w zakonie męskim) i jest w sposób jednoznaczny przy- pisana interesującym nas obiektom. Niektóre zmienne, takie jak wzrost, są ciągle i mo- gą przyjmować każdą wartość z interesującego nas zakresu (a więc 173 cm i 1 mm, 173 cm i 2 mm itd.), choć nasze narzędzia pomiarowe często czynią z ciągłych zmien- nych zmienne nieciągle (dyskretne, skokowe) - przyjmujące tylko całkowite warto- ści z kontinuum. Inne zmienne, takie jak np. konkretne zachowania w sytuacji ekspery- mentalnej (1 - pomógł, 2 - odmówił pomocy, 3 - obiecał pomóc później) są z definicj i nieciągłe, bo mogą przyjmować tylko określoną liczbę wartości. Aby zoperacjonalizować zmienne teoretyczne, musimy określić, jak obserwacje otaczającej nas rzeczywistości można przełożyć na coś, co będziemy mogli analizo- wać, czyli na dane. Celem pomiaru jest umieszczenie osób badanych na pewnym kon- tinuum, tak aby odległość dwóch osób (różnica w wynikach w danej zmiennej empi- rycznej) odzwierciedlała ich odległość na kontinuum przedstawiającym zmienną teo- retyczną. Jeżeli naszą zmienną teoretyczną jest POZIOM WIEDZY ze statystyki zope- racjonalizowany w postaci zmiennej empirycznej: WYNIKI z egzaminu, to oczekuje- my, że różnica między poziomem wiedzy Kasi i Janka powinna odpowiadać różnicy Operacjonalizacja zmiennych teoretycznych w ich wynikach na egzaminie. Wiemy też, że zmienna empiryczna WYNIK egzamina- cyjny może być lepszym lub gorszym wskaźnikiem zmiennej teoretycznej POZIOM WIEDZY, ponieważ na jej wartości wpływają także zmienne zakłócające, takie jak: stopień motywacji, poziom koncentracji, błędy w systemie oceniania, pomyłki itd. Je- żeli nasz egzamin składa się z dwóch pytań, to jego wynik będzie zapewne dużo gor- szym wskaźnikiem zmiennej teoretycznej niż wtedy, gdy pytań było dwadzieścia. Zmienną teoretyczną OGLĄDANIE PRZEMOCY w TV możemy doprecyzo- wać, mówiąc o ilości czasu, jaki dana osoba poświęca na oglądanie programów za- wierających przemoc. Możemy próbować mierzyć związek między ilością czasu, jaki dziecko spędza na oglądaniu aktów przemocy w telewizji, a jego tendencją do wy- bierania agresywnych rozwiązań dla swych problemów. Musimy ustalić, jak zmie- rzymy obie zmienne. Analogicznie, musimy podjąć wiele podobnych decyzji, budu- jąc wskaźnik agresywności zachowania. I tu pojawia się często zadawane przez stu- dentów pytanie: jak zmierzyć agresywność zachowania? Odpowiadając na to pytanie, można przy- toczyć anegdotę o pro- fesorze, który pokazał swoim studentom ziemniaka i zapytał, jak go zmierzyć. Studenci podeszli twórczo do problemu i prześcigali się w propozycjach, aby podać jego wagę, kształt, kolor, stopień zawartości wody itd. Dopiero po chwili zro- zumieli, że nie można odpowiedzieć na to pytanie, zanim nie ustali się, co nas w tym ziemniaku interesuje. Chcąc określić agresywność zachowania, musimy powiedzieć dokładnie, jaki aspekt agresywności nas interesuje i sprecyzować, o co będziemy pytać rodziców, nauczy- cieli, rówieśników. Wskaźnikiem ilości czasu mogą być odpowiedzi badanych na pytania dotyczące tego, jakie programy oglądają i jak często. Możemy o to samo zapytać rodziców. Musimy też ocenić, które programy są niebezpieczne, np. na pod- stawie oceny ekspertów. Jeżeli Adaś mówi, że ogląda systematycznie filmy pełne scen przemocy, to nasz wskaźnik powinien mieć dla niego wyższą wartość niż dla Krzysia, który nie ogląda tych filmów, a jedynie filmy przyrodnicze. Bez względu na to, jaki jest nasz stosunek do matematyki, operacjonalizacja zmiennej OGLĄDANIE PRZEMOCY w TV zakończy się przypisaniem każdemu dziecku pewnej liczby. Szcze- góły tej operacji poznamy w następnym rozdziale. Przy budowaniu wskaźników zmien- nych teoretycznych wskazane jest odwoływanie się do operacjonalizacji opisanych w pracach innych autorów. 19 Rozdział 1. Naukowy sposób poszukiwania związków między zmiennymi. Rodzaje badań Terminem zmienna określamy zarówno zmienne teoretyczne, jak i obserwacyjne, inaczej empiryczne. Badacze często określają swoje zmienne na różnym poziomie ogólności (np. agresywność, skłonność do udziału w bijatykach, wynik w kwestiona- riuszu mierzącym agresję). Brak standardowych operacjonalizacji zmiennych teore- tycznych powoduje, że często badacze tworzą własne definicje (i operacjonalizacje). Po latach walki o definicje takich pojęć, jak inteligencja, motywacja czy osobowość, uznano, że są to pojęcia naturalne, których w sposób tradycyjny (przez podanie warun- ków koniecznych i wystarczających) zdefiniować się nie da. Nie sposób porównać wyników badań np. nad zależnościądobrostanu od inteligencji, jeżeli nie znamy opera- cjonalizacji zmiennych. Konsekwencją tego jest tendencja do formułowania hipotez w języku zmiennych empirycznych, a nie zmiennych teoretycznych. Spotkamy się więc często ze sformułowaniem „wpływ systemu nagradzania na wynik w teście", choć można sądzić, że badacz jest w rzeczywistości zainteresowany funkcjonowaniem intelektual- nym, a nie tylko wynikiem w konkretnym teście. Zalecane jest jednak formułowanie hipotez w terminach nieobserwowalnych zmiennych teoretycznych z równoczesnym wskazywaniem operacjonalizacji, czyli sposobu budowania zmiennych empirycznych (czytaj: związków wskaźników ze zmiennymi teoretycznymi). Nie sposób przecenić roli teorii w badaniach naukowych. W tym podręczniku poświęconym analizie danych jest ona pominięta, ale zakładamy, że Czytelnik zapo- zna się z literaturą metodologiczną [1, 5, 19]. Badania korelacyjne Jeżeli badamy związek między dwiema zmiennymi, np. poziomem stresu egza- minacyjnego a wynikiem w teście, to może się okazać, że jest on: 1. pozytywny (współczynnik korelacji między dwiema zmiennymi ilościowymi - omówiony w rozdziale 8. -jest dodatni: patrz rysunek 1.1), co oznacza (jeżeli jest istotny statystycznie), że im wyższy poziom stresu, tym wyższy wynik w teście lub 2. negatywny (ujemny - patrz rysunek 1.2), co oznacza (jeżeli jest istotny staty- stycznie), że im wyższy poziom stresu, tym niższy wynik w teście. Jeżeli związek między poziomem stresu a sprawnością intelektualną jest krzy- woliniowy, współczynnik korelacji liniowej może wynieść zero, co przez początku- jących badaczy bywa błędnie interpretowane jako brak związku (patrz rysunek 1.3), a oznacza jedynie brak związku liniowego. Badania, w których obserwujemy jedynie współwystępowanie zmiennych nazy- wane są badaniami korelacyjnymi. 20 Badania korelacyjne Każda osoba biorąca udział w badaniu jest przedstawiona jako punkt, którego pierwsza współ- rzędna (X) odpowiada jej poziomowi stresu, natomiast druga współrzędna (Y) jej wynikowi w teście. Rysunek 1.1. Przykład pozytywnego (dodatniego) liniowego związku między pozio- mem stresu a sprawnością intelektualną (współczynnik korelacji wynosi 0,77) Rysunek 1.2. Przykład negatywnego (ujemnego) liniowego związku między poziomem stresu a sprawnością intelektualną (współczynnik korelacji wynosi -0,80) Rysunek 1.3. Przykład krzywoliniowego związku między poziomem stresu a spraw- nością intelektualną (współczynnik korelacji wynosi 0,05) 21 Rozdział 1. Naukowy sposób poszukiwania związków między zmiennymi. Rodzaje badań Badania eksperymentalne Załóżmy, że stwierdziliśmy dodatnią korelację między zmiennymi OBSERWA- CJA PRZEMOCY i AGRESJA. Czy to oznacza, że oglądanie agresji w TV jest przy- czyną agresywności u dzieci? Niekoniecznie. Może to także znaczyć, że dzieci z na- tury agresywne, po prostu lubią oglądać przemoc i że byłyby one równie agresywne, nawet gdyby całymi dniami oglądały ckliwe dobranocki. Aby wykazać zależność przyczynową między oglądaniem przemocy w TV a zwiększeniem agresywności, musimy przeprowadzić badania eksperymentalne. Jak można to zrobić? Na przykład dzieląc losowo dzieci na dwie grupy. Jednej grupie (grupa eksperymentalna) pokazujemy odcinek serialu telewizyjnego, w któ- rym ludzie zachowują się bardzo agresywnie przez 50 minut w ciągu odcinka. Inne dzieci, przydzielone losowo do grupy kontrolnej, przez tyle samo czasu oglądają film niezawierający przemocy. Najważniejsze jest to, że każde dziecko ma równe szansę, iż będzie wybrane do oglądania serialu, dzięki temu w eksperymencie zo- stają zneutralizowane wszelkie różnice między dwiema grupami eksperymental- nymi pod względem charakteru dzieci. Jeżeli dzieci, które oglądały serial, wykazy- wały potem większą agresywność w zabawach niż dzieci, które oglądały neutralny film, to fakt ten wyraźnie sugeruje, że oglądanie przemocy może doprowadzić do jej stosowania. Gdy interesuje nas zależność przyczynowa, hipotetyczną przyczynę nazywamy zmienną niezależną, ponieważ to eksperymentator ustala jej wartości - manipulu- je nią. Jest ona niezależna od innych wpływów. Zmienną niezależną nazywamy tę, której wpływ chcemy zbadać. Zmienna zależna jest tym, co mierzymy, aby ocenić skutki „działania" zmiennej niezależnej. 22 W omawianym eksperymencie „manipulowaliśmy" rodzajem oglądanej audy- cji telewizyjnej - zmienną niezależną było oglądanie lub nieoglądanie filmu poka- zującego przemoc. Zmienna niezależna przyjmowała więc dwie wartości (0 - film bez przemocy; 1 - film z przemocą). Efekt manipulacji eksperymentalnej powi- nien się przejawić w zmianach zmiennej zależnej, nazwanej tak, ponieważ eks- perymentator spodziewa się wyniku zależnego od zmian wprowadzonych przez zmienną niezależną. W tym eksperymencie zmienną zależną był stopień agresji przejawianej w zachowaniu. Model teoretyczny tworzony przed rozpoczęciem badań zawiera zazwyczaj wię- cej zmiennych niż te, których pomiaru dokonamy. Brzeziński [5] proponuje, aby podzielić je na istotne i nieistotne, wyróżnić zmienne uboczne - zakłócające. Badania eksperymentalne Często zbieramy dodatkowe informacje, które mogą być wykorzystywane w dal- szych analizach, np. notujemy płeć, wiek badanych, mierzymy u nich poziom lęku. Tego typu zmienne nazywane są zmiennymi kontrolowanymi, ponieważ możemy je wprowadzić do analizy. Operacjonalizacja zmiennej niezależnej w badaniach eksperymentalnych W eksperymencie psychologicznym wartości zmiennej niezależnej wyznaczane są przez różnice w sytuacjach eksperymentalnych, a zmienna zależna jest pomiarem reak- cji badanego. Zmienna musi mieć co najmniej dwie wartości - inaczej byłaby stałą. Potrzebne są co najmniej dwie wartości zmiennej niezależnej, by móc zademonstro- wać, że manipulacja przyniosła efekt, podczas gdy eksperyment z tylko jedną warto- ścią zmiennej niezależnej nie pozwala określić, czyjego rezultat, wyrażany za pomocą wartości zmiennej zależnej, ma coś wspólnego z obecnością zmiennej niezależnej. W eksperymencie AGRESJA wprowadzono dwie wartości zmiennej niezależnej: oglądanie filmu z przemocą lub bez, i to one wyznaczały podział na grupę eksperymen- talną (z przemocą) i grupę kontrolną (bez przemocy). Zmienne niezależne nazywane są często czynnikami, a ich wartości poziomami czynnika. Stosując tę terminologię, powiedzielibyśmy, że w naszym badaniu czynnik „przemoc" miał dwa poziomy. Kiedy pytanie zostanie już przekształcone w twierdzenie stanowiące hipotezę badawczą, eksperymentator musi zdecydować, jak zaprojektować procedurę ekspe- rymentalną. Jednym z najtrudniejszych zadań badacza jest przełożenie hipotezy na specyficzne, obserwowalne zdarzenia. Jeżeli chcemy się dowiedzieć, czy ludzie szybciej reagują (naciskając odpowied- ni klawisz) na zapalające się światło, gdy towarzyszy mu dźwięk, zmienna niezależ- na jest określona w sposób oczywisty - obecność lub brak dźwięku. Jeżeli jednak chcemy określić, czy agresywność dzieci wzrasta po obejrzeniu filmu z dużą dawką przemocy, zmienna niezależna - przemoc, jest dużo trudniejsza do zdefiniowania. Potrzebujemy definicji operacyjnej, czyli operacjonalizacji naszej zmiennej teore- tycznej. Oznacza to, że musimy określić operacje, jakie trzeba wykonać, aby wpro- wadzić daną wartość zmiennej niezależnej. Operacjonalizacja przypomina prze- pis kulinarny, ponieważ określa dokładnie, co inny badacz, który chce zreplikować nasz eksperyment, powinien zrobić. W badaniu poświęconym wpływowi oglądanej w telewizji agresji operacjonali- zacja zmiennej niezależnej musi określać, co należy zrobić, aby uznać dany film za „niebezpieczny", tzn. zawierający dużo aktów przemocy. Możemy pokazać różne filmy losowo wybranej grupie 100 osób i określić jako niebezpieczny ten, który uzy- ska ponad 75% wskazań. Innym sposobem jest zadanie 10 pytań typu: „Czy w filmie pokazywano bójki?", „Czy któryś z bohaterów poniżał inną osobę?" itp. Możemy założyć, że film, który otrzymał co najmniej dwie odpowiedzi TAK, jest niebez- pieczny. Analogiczny problem pojawi się przy operacjonalizacji zmiennej zależnej. 23 Rozdział 1. Naukowy sposób poszukiwania związków między zmiennymi. Rodzaje badań W eksperymencie możemy obserwować zachowanie dziecka w pokoju z zabawkami po obejrzeniu „niebezpiecznego" filmu i porównywać je z zachowaniami dzieci, któ- re oglądały „bezpieczny" film. Potrzebne będą skale, na których obserwatorzy (okre- ślani jako sędziowie kompetentni) będą oceniać zachowanie dzieci. Operacjonalizacja zmiennych teoretycznych jest podstawowym i bardzo trud- nym krokiem, ponieważ w naukach społecznych brak jest standardowych proce- dur. Dla bardzo wielu zmiennych teoretycznych, takich jak: poczucie winy, niepo- kój, poczucie własnej godności czy agresja, nie ma jednej, „prawdziwej" operacjo- nalizacji. Prowadzi to do problemów w porównywaniu wyników badań, które na poziomie teoretycznym dotyczą tej samej zależności, ale w praktyce wykorzystują zupełnie inne operacjonalizacje zmiennych. Dzieje się tak dlatego, że operacjonali- zacja jest ściśle związana z kontekstem eksperymentu. Nie możemy stosować tego samego filmu, badając dzieci i młodzież. Inaczej też musimy zoperacjonalizować agresywność zachowania u dzieci i młodzieży. Podobnie jest w badaniach korelacyj- nych. O inne pogramy będziemy pytać dzieci, o inne młodzież. Warto zauważyć, że o ile w badaniach eksperymentalnych zmienna niezależna, którą manipulujemy, jest wyznaczona jednoznacznie, to w badaniach korelacyjnych role zmiennych możemy łatwo odwrócić. Możemy sądzić, że to agresywność dzieci wpływa na wybór programów telewizyjnych, a więc jest zmienną niezależną, od któ- rej zależy ilość oglądanej w telewizji przemocy (zmienna zależna). Należałoby więc w badaniach korelacyjnych zrezygnować z używania terminologii „zmienna nieza- leżna - zmienna zależna", zastępując określenia „niezależna" przez wyjaśniająca, „zależna" przez wyjaśniana. Zgodnie z umową społeczną używamy jednak pojęć „zmienna niezależna" i „zależna", także w badaniach korelacyjnych. 24 (Porównanie badań eksperymentalnych i korelacyjnych Powtórzmy: Pierwszym krokiem jest sformułowanie naszego ogólnego zainteresowania proble- mem w postaci konkretnego pytania badawczego ujętego jako zależność między zmien- nymi teoretycznymi. Następnym krokiem jest znalezienie sytuacji, w których możemy zaobserwować interesujące nas zjawisko. Jeśli jesteśmy zainteresowani wpływem spo- sobu odżywiania na samopoczucie, powinniśmy określić typy diet, które mają tę różni- cę w zakresie samopoczucia powodować. W przypadku pewnych pytań musimy po- czekać na zaistnienie okoliczności umożliwiających obserwację. Psychologowie spo- łeczni, którzy chcą studiować ludzkie reakcje na klęski żywiołowe, zmuszeni są „cze- kać na": powódź, tornado, trzęsienie ziemi lub inne nieszczęścia. Analogicznie astro- nomowie oczekują na zbliżenie się komety do Ziemi, aby dokonać swoich obserwacji. Eksperyment różni się od innych typów naukowych dociekań tym, że zamiast czekać na zaistnienie interesujących nas wydarzeń naturalnych, eksperymentator kreuje warunki potrzebne do obserwacji. Ma to dwie podstawowe zalety: Porównanie badań eksperymentalnych i korelacyjnych Po pierwsze, konstruowanie sytuacji eksperymentalnej pozwala na uwypuklenie najważniejszych elementów i pominięcie czynników nieistotnych. Na przykład w ba- daniu ZIELONA HERBATA sytuację eksperymentalną można zaaranżować w taki sposób, że jedni badani piją zieloną herbatę na czczo, podczas gdy druga grupa pije na czczo czarną herbatę. W codziennym życiu wpływ herbaty mógłby być modyfiko- wany np. przez rodzaj spożywanego śniadania. Po drugie, eksperymentator może kontrolować i systematycznie zmieniać wa- runki, aby zbadać dokładnie tę samą sytuację zawierającą lub nie pewne elementy (np. herbata na czczo, herbata po obiedzie). Gdyby badacz chciał zastosować nie- eksperymentalny schemat badania, musiałby znaleźć „naturalne" grupy pijące herba- tę różnego rodzaju. Ludzie pijący herbatę niejednakowych rodzajów mogą się różnić pod wieloma względami. Znalezienie dwóch grup, które są podobne do siebie pod wszystkimi względami (dieta, aktywność, ciśnienie krwi) z wyjątkiem jednego inte- resującego badacza czynnika, jest bardzo trudne, jeżeli nie niemożliwe. Co ważniej- sze, eksperymentator ma możliwość decydowania o tym, które osoby będą przydzie- lone do danych warunków eksperymentalnych. W naturalnych warunkach ludzie wybierają grupy (herbatę) w zależności od swoich preferencji. Dbający o zdrowie mogą wybierać zieloną herbatę, nie zważając na jej smak, inni natomiast lubią słod- ką, czarną herbatę z cytryną. W eksperymencie losowo przydzielamy badanych do poszczególnych grup. Jeżeli badani w grupie pijącej zieloną herbatę popełniali o wiele mniej błędów w żmudnych zadaniach rachunkowych, eksperymentator wie- dział, że był to efekt wypicia zielonej herbaty, a nie preferencji czy uzdolnień bada- nych. Wyniki eksperymentu, w odróżnieniu od innych procedur badawczych, dają solidną podstawę do formułowania wniosków o przyczynowości. Eksperyment, choć jest najlepszą, to nie jedyną metodą odpowiadania na intere- sujące nas pytania i czasami wybieramy inny schemat badawczy [1, 5, 6, 15, 19]. Są trzy powody, które mogą skłonić nas do prowadzenia badań nieeksperymentalnych. Pierwszym może być brak zainteresowania przyczyną danego zjawiska. Ba- dacz chce, na przykład, przewidzieć, kto zwycięży w następnych wyborach prezy- denckich i nie interesuje go, dlaczego jeden kandydat jest bardziej popularny niż inny, lub też pragnie po prostu wykazać występowanie jakiegoś uniwersalnego zja- wiska, takiego jak niezależność ekspresji mimicznej od kultury czy skłonność do przeceniania powszechności naszych gustów i zachowań (efekt fałszywej powszech- ności). W przypadku pytań badawczych, które nie dotyczą przyczyn danego zjawi- ska eksperyment nie jest nieodzowny, chociaż może być przydatny. Drugim powodem prowadzenia badań nieeksperymentalnych jest to, że pewne sytuacje w warunkach eksperymentu mogą okazać się nieetyczne lub niemożliwe do zaaranżowania. Jeżeli chcemy odpowiedzieć na pytanie, dlaczego małżeństwa nie- podobnych do siebie ludzi częściej kończą się rozwodem niż małżeństwa ludzi po- dobnych, musimy zbadać tę kwestię nieeksperymentalnie. Nie możemy bowiem dla potrzeb eksperymentu skłonić stu kobiet do poślubienia mężczyzn podobnych do nich i stu innych kobiet - do poślubienia mężczyzn zupełnie odmiennych. Trzecim powodem, dla którego badacze podejmują badania nieeksperymental- ne jest to, że ich rezultaty mogą poprzedzać lub uzupełniać wnioski z prac ekspery- 25 Rozdział 1. Naukowy sposób poszukiwania związków między zmiennymi. Rodzaje badań mentalnych. Przez lata zależność między paleniem papierosów i rakiem płuc była stwierdzania jedynie w badaniach korelacyjnych i można było ją podważać, dopóki w badaniach eksperymentalnych nie wykazano wpływu wyodrębnionej w dymie pa- pierosów substancji, która powoduje raka. Oba typy badań są więc wartościowe, choć prawdziwy eksperyment - czyli taki, który umożliwia poznanie relacji przyczynowej -jest nieoceniony. Czytając o wynikach badań, trzeba umieć odróżniać badania korelacyjne od eks- perymentalnych. Badania korelacyjne mówiąjedynie o współwystępowaniu zmien- nych, nie pozwalając na proste wnioskowanie przyczynowe*. Ostatnio można było przeczytać, że naukowcy z Uniwersytetu w Bristolu przeprowadzili trwające 20 lat badania 2438 mężczyzn, w czasie których zmarło 835 mężczyzn. Zaobserwowano, że ci, którzy nie golą się codziennie, są bardziej podatni na ataki serca i zawały. Czy czytający te rewelacje mężczyźni mogą uchronić się przed zawałem, goląc się jak najczęściej? Nie, ponieważ jak łatwo było to przewidzieć, okazało się także, że mężczyźni, którzy nie golą się każdego dnia, mniej chętnie się żenią, częściej pracują w zawodach o niskim statusie, co wiąże się np. z paleniem papierosów i nie- zdrowym stylem życia, częściej też chorują na anginę. Tabela 1.1. Zestawienie na przykładzie podstawowych cech badań eksperymental- nych z korelacyjnymi Porównanie eksperymentu i badania korelacyjnego Zmienna niezależna „oglądanie przemocy" Zmienna zależna „zachowanie agresywne" Wnioskowanie przyczynowe badanie eksperymentalne manipulacja - poziomy zmiennej X są losowo przypisywane osobom badanym wystandaryzowany pomiar zachowania w jednej sytuacji możliwe przy losowym doborze do grup badanie korelacyjne wystandaryzowany pomiar częstości oglądania „niebezpiecznych" programów wystandaryzowany pomiar zachowania dotyczący najczęściej wielu sytuacji w prosty sposób niemożliwe - zależność między dwiema zmiennymi może być spowodowana przez trzecią zmienną, nieuwzględnioną w badaniu Podział na badania korelacyjne i eksperymentalne jest podstawowy. Trzeba jed- nak pamiętać, że został on tutaj zaprezentowany w możliwie najprostszej postaci. Istnieje bardzo wiele schematów badawczych odpowiednich do zastosowania do różnych pytań badawczych, które są dokładnie omówione w podręcznikach meto- dologii [1, 5, 15, 19]. Gdy dysponujemy większą liczbą danych, możemy zwiększyć moc wnioskowania, stosując mo- 26 delowanie strukturalne [por. 14], Analiza przykładów badań W literaturze przedstawiany jest podział me- tod na: (1) obserwacyjne; (2) korelacyjne; (3) eks- perymentalne. Jest to klasyfikacja myląca, ponie- waż metody obserwacyjne są stosowane zarów- no w badaniach korelacyjnych, jak i ekspery- mentalnych. Podstawowym wymiarem klasyfika- cji jest stopień ingerencji badacza w analizowany proces. Ingerencja ta może dotyczyć zarówno po- miaru zmiennej, jak i manipulacji wartościami zmiennej niezależnej. Metody pomiaru mogą ingerować w badany proces lub nie. Stosując nieinwazyjną metodę ob- serwacyjną, przyglądamy się ludziom i rejestruje- my to, co robią, np. za pomocą ukrytej kamery. Możemy interesować się m.in. zachowaniami niewerbalnymi (ekspresją mimiczną, ruchami ciała), pewnymi cechami językowymi (tempem mówienia, wysokością gło- su), zachowaniami werbalnymi. W obserwacji systematycznej przeszkoleni wcześniej obserwatorzy kodują swoje spostrzeżenia według zbioru wcześniej przygotowanych kryteriów. Szczególnym przy- kładem nieinwazyjnej metody obserwacyjnej jest analiza danych archiwalnych, np. dokumentów, artykułów prasowych, reklam. Nawet przy zwykłej obserwacji świa- domość, że jest się obserwowanym może wpływać na jej wynik. W inwazyjnych metodach pomiaru ingerujemy w badany proces, choćby zadając naszym badanym pytania, np. w formie kwestionariusza. Możemy wnioskować, jak się osoba czuje, obserwując (np. zza lustra weneckiego) jej twarz lub możemy ją o to zapytać. Ten drugi sposób wskaźnikowania zmiennej SAMOPOCZUCIE jest przy- kładem metody inwazyjnej, ponieważ nie jesteśmy w stanie wykluczyć, że koniecz- ność odpowiadania na pytanie wywoła zmiany w samopoczuciu pytanego. JAnaliza przykładów badań W charakterze ćwiczenia w ocenie wyników badań naukowych przeanalizujmy przykłady zaczerpnięte z artykułu Artura Włodarskiego („Alkohol tuczy czy wy- szczupla")*. Badanie ALKOHOL 1 „W 1991 r. Colditz zakończył serię zakrojonych na szeroką skalę badań. Pod jego kierownictwem kilkunastoosobowy zespół naukowców przeanalizował dane * Gazeta Wyborcza 26.02.2001. 27 Rozdział 1. Naukowy sposób poszukiwania związków między zmiennymi. Rodzaje badań dotyczące spożycia alkoholu, wagi ciała, sposobów spędzania wolnego czasu i na- wyków żywieniowych 138 tys. osób. Ich losy śledzono przez 10 lat. Chodziło o to, by ustalić bezpośrednią zależność pomiędzy tuszą a spożyciem alkoholu. Bezpo- średnią, to znaczy taką, która wykluczałaby wpływ innych czynników. Dzięki temu możemy teraz z czystym sumieniem powiedzieć, że ktoś jest chudszy, bo pije wino do obiadu, a nie np. dlatego, że odżywia się zdrowiej czy chodzi na basen - wyja- śnia uczony. Colditz uprzedza jednak tych, którzy już wpadli na pomysł, aby meto- dą wysokoprocentową pozbyć się nadmiaru kilogramów: - Różnica nie jest duża: mniej więcej pięć procent w przypadku mężczyzn i siedem-osiem u kobiet - o tyle popijający są lżejsi od stroniących". Zmienna niezależna Ilość spożywanego alkoholu (zmienna przyjmująca zapewne wiele wartości) Zmienna zależna Waga (mierzona BMI? normy dla wieku, płci - nadwaga?) Zmienne kontrolowane Sposoby spędzania wolnego czasu, nawyki żywieniowe, zapewne także płeć, wiek, rodzaj wykonywanej pracy itp. Typ badania Korelacyjne Uwagi Podstawową zaletą tego badania jest duża liczba osób badanych (138 tysięcy!), która pozwala na porównywanie grup wyrównanych pod względem innych zmiennych, np. gospodynie domowe o tym samym statusie socjoekonomicznym, wieku, wykształceniu itd. Tak naprawdę mamy zapewne do czynienia z dwoma szeregami czasowymi (10 pomiarów średniego (?) spożycia alkoholu i 10 pomiarów wagi) - możemy więc liczyć opóźnione korelacje - spożycie alkoholu w roku 1985 i waga w latach 1986, 1987, 1988, 1989, 1990, 1991). Bardzo interesujące możliwości, ale wiemy za mało o badaniu. Oczywiście wykazuje ono wszystkie słabości badań korelacyjnych, ale duża próba i seria pomiarów stanowią jego siłę. 28 Badanie ALKOHOL 2 „Przez cztery miesiące 48 ochotników dzień w dzień pochłaniało tę samą ilość kalorii, ale w różnych postaciach. Pierwsze dwa tuziny popijały posiłki drinkiem grapefruitowo-alkoholowym, drudzy napojem grapefruitowym, gdzie alkohol za- stąpiono odpowiadającą mu pod względem liczby kalorii ilością węglowodanów. I tak przez dwa miesiące. Potem obie grupy zamieniły się rolami. A działo się to w laboratorium naszpikowanym aparaturą do pomiaru wszystkiego, co tylko czło- wiek pochłania (jedzenie, picie, powietrze), i wszystkiego tego, co z siebie wydzie- la (płynne, stałe i gazowe produkty przemiany materii). Wynik? - Wbrew naszym przewidywaniom, wszyscy ważyli po tyle samo. Niezależnie od tego, czy pili alko- hol, czy łykali cukier. Wniosek: kaloria jest kalorią bez względu na to, czy pocho- dzi z ponczu, czy z pączka". Analiza przykładów badań Zmienna niezależna Postać spożywanych kalorii (alkohol, cukier) Zmienna zależna Waga Zmienne kontrolowane Produkty przemiany materii Typ badania Eksperymentalne Uwagi Zamiana ról jest silną stroną tego badania, bo nawet jeżeli grupa pijąca alkohol charakteryzowała się zwiększoną aktywnością mimowolną i w związku z tym szybciej spalała kalorie, to w drugiej części badania ta sama grupa była w drugim warunku eksperymentalnym. Zastrzeżenie może dotyczyć manipulacji zmienną niezależną. Nie można wykluczyć, że różnica między drinkiem grapefruitowo- alkoholowym a napojem grapefruitowym była zbyt MAŁA, aby wpłynąć istotnie na wagę. Jeżeli manipulujemy np. wielkością kary, to zbyt mała różnica między karami zastosowanymi w dwóch grupach może nie wpłynąć na wyniki uczenia. Nie sposób także wykluczyć, że sok grapefruitowy modyfikuje trawienie alkoholu. Wniosek: należy powtórzyć badanie, zmieniając w tym samym schemacie eksperymentalnym operacjonalizację zmiennej niezależnej. Badanie ALKOHOL 3 „Na uniwersytecie w Maastricht (Holandia) przez 5 tygodni organizowano spe- cjalne sesje sałatkowe, których uczestnicy mogli raczyć się sokami owocowymi, wodą mineralną lub wysokoprocentowymi drinkami. Napoje podawano mniej więcej na pół godziny przed potrawami (makaron, szynka, ser, owoce, warzywa i dodatki). Żaden z 52 uczestników badań nie wiedział, że talerz, z którego jadł, miał wmonto- waną elektroniczną wagę, a każdy kęs przełykanego jedzenia był uprzednio rejestro- wany przez ukryte w blacie stołu kamery. Kiedy już wszystko zmierzono i policzono, okazało się, że ci, którzy pili drinki, jedli z reguły mniej i wolniej od tych, którzy wybierali inne napoje". Zmienna niezależna Rodzaj napoju (sok, woda, alkohol) Zmienna zależna Ilość zjadanego pokarmu, czas jedzenia Typ badania Korelacyjne Uwagi Brak losowego przydziału wartości zmiennej niezależnej. Nie sposób wykluczyć, że osoby pijące drinki jadłyby mniej i dłużej od reszty nawet wtedy, gdyby wcześniej piły wodę. Należy powtórzyć badanie, wręczając badanym losowo jeden z trzech napojów, zmieniając następnego dnia przydział itd. Dla każdego badanego moglibyśmy wtedy policzyć średnią wagę i czas posiłku po (1) wodzie, (2) soku i (3) alkoholu. Taki schemat nazywa się badaniem z powtarzanymi pomiarami. 29 Rozdział 1. Naukowy sposób poszukiwania związków między zmiennymi. Rodzaje badań 30 jTest intuicji psychologicznej: zbiór danych „LEARN". Sposób zapisywania wyników w komputerze Podręcznik poświęcony jest analizie danych, której dokonywać będziemy naj- częściej za pomocą jakiegoś programu statystycznego. Dlatego pierwszy krok stano- wi zapisanie zbioru danych. Wyobraźmy sobie, że przeprowadziliśmy badanie, w którym chcieliśmy stwier- dzić, czy poziom stresu wpływa na wyniki w sprawdzianie intuicji psychologicznej. Osoby badane zostały losowo przydzielone do 3 grup eksperymentalnych. W grupie 1. („Strach") straszono studentów konsekwencjami niezaliczenia testu. W grupie 2. osoby były uspokaj ane, że będą mogły poprawiać test tak długo, aż osiągną zadowa- lający je wynik. Grupę tę nazwaliśmy „Relaks". W grupie 3. („Kontrolna") nie wprowadzono dodatkowych informacji. Oprócz testu intuicji psychologicznej bada- ni wypełniali zmodyfikowaną skalę samooceny Rosenberga (5 pytań) i wpisywali informację o swoim wykształceniu, wieku i płci. (Przykładową ankietę z tego bada- nia przedstawia rysunek 1.4). Badacz wprowadził (zakodował) wyniki w komputerze i otrzymał następującą tablicę danych (tabela 1.2). Patrząc na tę mnogość liczb, nawet najbardziej zagorzały przeciwnik statystyki uzna, że aby sformułować jakiekolwiek wnioski, trzeba coś policzyć. Ale jak? Niestety, czeka nas tutaj wiele pułapek, ponieważ liczby wprowadzone do kom- putera mają różne znaczenie. Zaczynamy od wypisania zmiennych: 1. Nr osoby (nr). 2. GRUPA (gr) eksperymentalna różnicowała badanych ze względu na poziom stresu. Przyjmuje ona 3 wartości (1 - „Strach", 2 - „Relaks", 3 - „Kontrol- na"). Mówimy, że zmienna GRUPA występowała na 3 poziomach. 3. PŁEĆ (pl) - kodując dane, wpisywaliśmy 1 dla kobiet, 2 dla mężczyzn. 4. WYKSZTAŁCENIE (ed) - kodując dane, wpisywaliśmy 1 - gdy osoba ba- dana wpisała „wykształcenie średnie ogólne", 2 - gdy wpisała „średnie za- wodowe", 3 - gdy wpisała „policealne", 4 - gdy wpisała „licencjat". 5. WIEK (age) -jest to zmienna, która przyjmuje wiele wartości. 6. Sl do S5 - odpowiedzi na pytania w teście samooceny. Zakodowaliśmy je następująco: 1 - zdecydowanie tak, 2 - tak, 3 - nie, 4 - zdecydowanie nie, 5 - trudno powiedzieć. 7. Pl do P10 - odpowiedzi w teście intuicji psychologicznej. Był to test jednokrot- nego wyboru spośród 4 odpowiedzi. Zakodowaliśmy odpowiedzi na poszczegól- ne pytania: 1 - gdy została wybrana pierwsza odpowiedź, 2 - gdy druga itd. 8. Pil - pytanie to dotyczyło źródeł czerpania informacji o psychologii. Było to pytanie wielokrotnego wyboru, czyli badany mógł zakreślić więcej niż jed- Test intuicji psychologicznej: zbiór danych „LEARN"... ną odpowiedź spośród czterech możliwych (a, b, c, d). Jeśli odpowiedź zosta- ła zaznaczona, wpisywaliśmy 1, jeśli nie - 0. 9. TIME2. Test intuicji psychologicznej został przeprowadzony powtórnie po dwóch dniach za pomocą równoważnej wersji testu. Liczbę poprawnych od- powiedzi zakodowano w kolumnie oznaczonej TIME2. W SPSS zmienną jest kolumna w zbiorze danych, np. odpowiedzi na poszcze- gólne pytania. W psychologii mówimy o zmiennych teore- tycznych, np. o samoocenie. Odpowiedzi na pytania są je- dynie wskaźnikami zmiennej teoretycznej. Będziemy je określali według terminologii SPSS, jako zmienne, dodając przymiotnik „teoretyczna", gdy będziemy mówili o „nor- malnych" zmiennych psycho- logicznych. Przykładowo, badanie wpływu strachu na zachowania afiliacyjne wprowadza dwie zmienne teore- tyczne: strach i zachowania afiliacyjne. Muszą one zostać zoperacjonalizowane, czyli przedstawione w formie zmiennych obserwacyjnych (wskaźników). Te wskaźniki będą nazywane zmiennymi w czasie obliczeń, ale zarówno hipotezy, jak i wnioski zostaną sformułowane w języku zmiennych teoretycznych. 31 Rozdział 1. Naukowy sposób poszukiwania związków między zmiennymi. Rodzaje badań Rysunek 1.4. Ankieta LEARN Kodowanie Nr osoby badanej......./....... nr= 1 GRUPA.......1....... gr=/ PŁEĆ m kobieta ? mężczyzna pl = / WYKSZTAŁCENIE H średnie ogólne, n średnie zawodowe, ? policealne, D licencjat lub wyższe ed= 1 WIEK .......23....... Ludzie różnie myślą o sobie. Prosimy, abyś określił, na ile poniższe zdania są zgodne z tym, co myślisz o sobie. Żałuję, że nie mogę darzyć siebie większym szacunkiem. ©= zdecydowanie TAK 2 = TAK 3 = NIE 4 = zdecydowanie NIE 5 = trudno powiedzieć Ogólnie rzecz biorąc, jestem z siebie zadowolony. 1 = zdecydowanie TAK 2 = TAK 3 = NIE @= zdecydowanie NIE 5 = trudno powiedzieć Czasami mam silne poczucie, że jestem bezużyteczny. 1 = zdecydowanie TAK 2 = TAK 3 = NIE 4 = zdecydowanie NIE ©= trudno powiedzieć Czuję się osamotniony, mimo że tego nie chcę. 1 = zdecydowanie TAK 2 = TAK 3 = NIE 4 = zdecydowanie NIE (§)= trudno powiedzieć Czuję, że z wielu rzeczy mógłbym być dumny 1 = zdecydowanie TAK (2)= TAK 3 = NIE 4 = zdecydowanie NIE 5 = trudno powiedzieć s1 = J s2 = 4 s3 = 5 s4 = 5 s5 = ^ Sprawdź swoją intuicję psychologiczną*, wybierając najlepszą- Twoim zdaniem - z 4 możliwych odpowiedzi 1. Przypuśćmy, że osoba obdarzona dużym autorytetem prosi studentów, by w trakcie eksperymentu zaaplikowali wstrząsy elektryczne o prawie śmiertelnym natężeniu innemu studentowi, który im nic nie zrobił. Jaki procent studentów zgodzi się to uczynić? (a) 65% b. 10% c. nikt d. wszyscy p1 = ./ 2. Jeżeli dajesz dzieciom nagrody za robienie czegoś, co wcześniej lubiły robić, będą one lubiły tę czynność: a. nie można powiedzieć b. tak samo c. bardziej @ mniej p2 = 4 3. Jeżeli zobaczysz, że ktoś, kogo podziwiasz, robi coś niezdarnego czy głupiego, na przykład rozlewa kawę z filiżanki, będziesz go później lubił: a. tak samo b. mniej (ć) bardziej d. nie można powiedzieć p3=3 4. Powtarzanie ekspozycji neutralnego bodźca, takiego jak osoba, piosenka czy obraz, spowoduje, że bodziec ten będzie Ci się podobał: a. mniej b. bardziej c. tak samo @ nie można powiedzieć p4= 2 I Na podstawie: Aronson E., Wilson D.T., Ahert R.M. (1997). Psychologia społeczna: serce i umysł. Poznań: Zysk i S-ka. Test intuicji psychologicznej: zbiór danych „LEARN"... 5. Przypuśćmy, że przedstawiciel organizacji kościelnej prosi o podpisanie petycji dotyczącej odmalowania krawężników na ulicy z okazji przyjazdu biskupa do miasteczka. Wiele osób podpisuje taką petycję. Parę tygodni później inna osoba z tej samej organizacji prosi o wywieszenie zdjęcia biskupa w oknie. Czy myślisz, że zgoda na pierwszą, mniejszą prośbę spowoduje, że: a. nie będzie miała wpływu na zgodę na drugą prośbę b. zgoda na drugą prośbę będzie mniej prawdopodobna (ć) zgoda na drugą prośbę będzie bardziej prawdopodobna d. nie można powiedzieć p5 = 3 6. Dla zdrowia psychicznego korzystne jest: a. realistyczne spojrzenie w przyszłość b. trafna ocena własnych zdolności i cech (c) dokładne rozeznanie co do zakresu sprawowanej kontroli d. żadne z powyższych p6 = 3 7. Prosisz znajomego, by wyświadczył Ci przysługę - na przykład pożyczył 20 zł i on się zgadza. Po spełnieniu Twojej prośby osoba ta będzie przypuszczalnie lubiła Cię: a. tak samo b. mniej (c) bardziej d. nie można powiedzieć p7 = J 8. Marysia uzyskała w jednym z testów inteligencji wynik lepszy od Jasia, mimo że nie różnią się oni poziomem uzdolnień. Która z podanych niżej interpretacji przyczyny tej różnicy wydaje Ci się najbardziej prawdopodobna: (a) dziewczynki są w szkole podstawowej zdolniejsze od chłopców b. było to wynikiem przekonania nauczycielki, że Marysia jest zdolniejsza od Jasia c. nauczycielka była przekonana, że Jaś jest zdolniejszy od Marysi, więc dziewczynka ze wszystkich sił starała dowieść, że nie ma ona racji d. testy inteligencji są stronnicze i dziewczynki rozwiązują je lepiej p8= 1 9. W miejscach publicznych: a. mężczyźni częściej dotykają kobiet © kobiety częściej dotykają mężczyzn c. nie ma różnicy d. nie wiadomo p9 = 2 10. Przypuśćmy, że zapłacono ludziom za wygłoszenie przemówienia o treści sprzecznej z ich poglądami. Zaobserwowano, że po wygłoszeniu takiego przemówienia część osób zmienia poglądy na zgodne z wygłoszonymi. Najwięcej takich zmian można zobaczyć, gdy a. w ogóle im nie zapłacono b. zapłacono im bardzo dużo c. zapłacono im średnio (3) zapłacono im mało p10 = 4 Na zakończenie chcielibyśmy się dowiedzieć, skąd czerpiesz swoją wiedzę psychologiczną. Wiedzę psychologiczną czerpię z (można zakreślić więcej niż jedną odpowiedź): (a) z obserwacji innych ludzi © z książek psychologicznych c. z zajęć na studiach lub w szkole d. z literatury pięknej p11a= 1 p11b = 1 p11c= O p11d = 0 33 Rozdział 1. Naukowy sposób poszukiwania związków między zmiennymi. Rodzaje badań 34 CL > c CD "O -g N CM CO ~1CM)0~] 6,00 10,00 5,00 1 10,00 ] 6,00 8,00 7,00 10,00 7,00 6,00 1,00 4,00 1,00 5,00 7,00 5,00 4,00 1,00 6,00 6,00 1,00 7,00 6,00 9,00 8,00 7,00 6,00 5,00 6,00 "O "o. o O o o o o o o o o o CO o o o o o o o o o o o o. o o o o o Xi CL - o o o o o o o o o o o o ro CL o o o o o o o o o o O o o O o o o o CL co O) CL CM CM CM CM co co CM CM CO Cvi CM CM CM CM CM CM CO CO CM CO CM CM CM CM ?s. r- CM CM CN CM CM CM CM CM CM CM co CM CM CM CM CM CO CM CM O. CO co - CM co CO CO CO CO CVI co co CO CM CM co CO - co CO CO co CO co <& - CO - CO CM LO CL co - CO CO co CM co CO CM co CO CM co CO CO CO CM CO *- co CO co co co co - CO ?a. CM co CM "ł CM CM CM CO CM CM CM co CM CM CM CM CM co CM CM CO CM CM CN co LO CO CM LO LO CO CM LO LO O) CM LO LO «) <- CM co CM O) CM LO CM CM CO LO co CO CM CO LO CO CO CM CO LO co age a CM LO CM CM CO CM O) CM CM CM IO CM CM Ol CM 1^ CM a CM LO CM a CM 8 Em a CM IO CM CD CM CO CO CM "8 CM CO CM CO CM co r- CM CO CM co CM co CM CO CM "o. CM CM CVI CM CM CM CM CM CM CM CM CM CN CM CM CM CM CM CM CM CM CM CO co CO CO CO CO CO CO CO CO c CM CO LO CD 00 O OL CM co LO CO CO O) o CM CM CO 8 CM 00 CM Ol CM Co oznaczają liczby w naukach społecznych? Skale pomiarowe... HCo oznaczają liczby w naukach społecznych? Skale pomiarowe. Zmienne nominalne, porządkowe i ilościowe (przedziałowe i ilorazowe) Skale pomiarowe Kodując dane do komputera, używamy liczb, choć równie dobrze moglibyśmy używać słów, łatwiej jednak wpisać cyfrę 1, zamiast pisać „mężczyzna". Czynność przypisywania liczb osobom czy obiektom będziemy nazywali pomiarem, a to, jakie działania matematyczne będziemy mogli przeprowadzić na tak przypisanych licz- bach określa nam typ skali pomiarowej. Pomiarem nazywamy zatem procedurę wiązania liczb z badanymi obiektami. Teraz się przekonamy, że faktycznie taka definicja pomiaru odpowiada naszej intu- icji dotyczącej tego pojęcia. Każdy pomiar zaczyna się od podzielenia obiektów na kategorie. Obiekty wpa- dają do jednej kategorii, gdy są identyczne ze względu na pewną swoją cechę (kształt, wiek, wzrost, szybkość, liczbę łap etc.) Wyobraźmy sobie, że dzielimy osoby ze względu na to, jaką piją herbatę. Dzieli- my je na trzy kategorie: czarna, zielona, nie piją herbaty. Możemy oczekiwać, że są to rozłączne kategorie, ale w rzeczywistości może okazać się, że są osoby, które piją zarówno zieloną, jak i czarną herbatę - wtedy nasza kategoryzacja jest zła i musi zostać zmieniona. Podobnie, może się okazać, że pośród badanych są osoby, które piją czerwoną herbatę. Wtedy nasza kategoryzacja jest niedobra, gdyż nie jest zupeł- na - pewna klasa obiektów została zignorowana. Pojawia się też problem, co to zna- czy „piją" -jak często trzeba pić, aby zostać zaklasyfikowanym do danej kategorii: wystarczy raz czy może trzeba pić codziennie. Warunek zupełności kategoryzacji wydaje się zupełnie oczywisty, ale zdarza się, że badacze o nim zapominają, co prowadzi do poważnych pomyłek. Na przykład [13] w Stanach Zjednoczonych podczas wyborów prezydenckich w 1992 r. oprócz tradycyj- nie występujących dwóch kandydatów, demokraty Williama J. Clintona i republikani- na George'a H. W. Busha, pojawił się trzeci, niezależny - H. Ross Perot. W wielu bada- niach nie brano w ogóle pod uwagę istnienia tego trzeciego kandydata. Ponieważ miał on poglądy zbliżone do Busha, to podczas badań preferencji wyborczych, w których respondenci mieli do wyboru tylko kandydata lewicy (w amerykańskim rozumieniu tego słowa) i prawicy, wygrywał Bush. Działo się tak dlatego, że Busha wskazywały również osoby głosujące później na Perota. Wyniki wyborów były następujące: Tabela 1.3. Wyniki wyborów prezydenckich 1992 r. w USA Kandydat Liczba głosów William J. Clinton (Partia Demokratyczna) 44 908 233 George H.W. Bush (Partia Republikańska) 39 102 282 H. Ross Perot (kandydat niezależny) 19 741 048 35 Rozdział 1. Naukowy sposób poszukiwania związków między zmiennymi. Rodzaje badań Sumując głosy oddane na Busha i Perota, widzimy, że głosów oddanych na kan- dydatów o prawicowych poglądach było znacznie więcej, a jednak wybory wygrał Clinton. Także w Polsce mieliśmy do czynienia z podobną sytuacją podczas wybo- rów parlamentarnych w 2001 r. Wówczas „zapomniano" o pojawieniu się dwóch nowych sił na scenie politycznej: Ligi Polskich Rodzin i Samoobrony, które odebrały głosy Akcji Wyborczej „Solidarność", powodując, że ku zaskoczeniu wielu osób nie weszła ona do nowego parlamentu. Gdy już podzielimy badane obiekty na kategorie, musimy jeszcze z każdą kate- gorią powiązać liczbę, wprowadzając dane do komputera. Nie można oczywiście zrobić tego w sposób dowolny, ale tak, by różnice pomiędzy przydzielonymi ka- tegoriom liczbami odzwierciedlały różnice między samymi kategoriami. Ze wzglą- du na to, że są to dane jakościowe, nasza swoboda w przypisywaniu obiektom liczb jest bardzo duża. Jeżeli osoba głosowała na Clintona, możemy przypisać jej wartość „1", na Busha - „2", na Perota - „3", jeżeli nie głosowała - „4", jeżeli nie udzieliła odpowiedzi - „9", ale każdy inny zestaw pięciu liczb jest równie dobry tak długo, jak długo różne liczby zostaną przypisane różnym kategoriom. Tabela 1.4. Przypisywanie liczb poziomom zmiennej nominalnej Odpowiedzi Sposób 1 Sposób 2 Sposób 3 Sposób 4 William J. Clinton (Partia Demokratyczna) 1 4 20 20 George H.W. Bush (Partia Republikańska) 2 3 15 19 H. Ross Perot (kandydat niezależny) 3 2 10 7 Nie głosował 4 1 5 1 Brak odpowiedzi 9 5 25 2 PYTANIE: Zastanów się, które z powyższych przyporządkowań wydaje się naj- lepsze, najbardziej naturalne. Dlaczego? Wprowadzone do komputera liczby wyglądają tak samo, ale mają różne znaczenie w zależności od skali pomiarowej, na której jest operacjonalizowana nasza zmienna teoretyczna. Przeanalizujmy następujący przykład. Obserwujemy grupę 6 studentów piszą- cych egzamin ze statystyki. Interesuje nas to, jak długo go piszą. Tę samą zmienną teoretyczną CZAS PISANIA EGZAMINU możemy różnie zo- peracjonalizować. W tabeli 1.5 przedstawione są wyniki 4 wskaźników dla 6 osób badanych. 36 Co oznaczają liczby w naukach społecznych? Skale pomiarowe... Tabela 1.5. Wskaźniki zmiennej CZAS PISANIA EGZAMINU CZAS1 CZAS2 CZAS3 CZAS4 Adrian 1 3,5 10:50 45 Agnieszka 2 1 10:30 25 Czarek 2 2 10:35 30 Ewa 1 3,5 10:50 45 Marcin 2 5 10:55 50 Natalia 2 6 10:58 53 Dokonując obserwacji zachowania studentów w czasie egzaminu, możemy zapi- sać następujące dane: 1. CZAS1 - możemy podzielić osoby na te, które precyzyjnie wykorzystały prze- widziany czas 45 minut, oraz te, które pisały dłużej lub krócej. Tej pierwszej grupie osób przypiszemy wartość „1", drugiej - „2"; 2. CZAS2 - kolejność wychodzenia z sali. Osobie, która pierwsza opuści salę przypisujemy wartość „ 1", ostatniej - wartość „6". Liczby 1, 2,... 6 nazywa- ne są rangami. Problem pojawia się, kiedy kilka osób opuszcza salę równo- cześnie. W tym przypadku przypisujemy im średnią rangę, nazywaną rangą wiązaną. Dwie ostatnie osoby, gdyby skończyły w różnym czasie, miałyby rangi 5 i 6. Ranga wiązana dla nich obojga wyniesie więc (5 + 6) / 2 = 5,5. Gdyby 3 pierwsze osoby skończyły równocześnie, to każdej z nich przypisa- libyśmy rangę (1 + 2 + 3) / 3 = 2; 3. CZAS3 - godzinę opuszczenia sali; 4. CZAS4 - czas pisania egzaminu podany w minutach. Załóżmy, że chcemy porównać wyniki Marcina i Agnieszki. Na jakie pytania możemy odpowiedzieć, używając różnych wskaźników czasu? Mając informację zakodowaną w postaci wskaźnika CZAS1, możemy stwier- dzić, czy Marcin i Agnieszka należą do tej samej grupy: (1) precyzyjnie wykorzystu- jących czas egzaminu, (2) nieprecyzyjnie wykorzystujących czas egzaminu. Nie możemyjednak powiedzieć, czy Marcin pisał dłużej niż Agnieszka, ponieważ w gru- pie (2) znajdują się zarówno osoby, które pisały dłużej niż 45 minut, jak i krócej. Tym bardziej nie możemy powiedzieć, o ile dłużej ani ile razy dłużej pisali egzamin. Mając dane w postaci wskaźnika CZAS2, możemy powiedzieć, czy Marcin i Agnieszka należeli do tej samej grupy, a także stwierdzić, które z nich pisało egza- min dłużej. Nadal jednak nie potrafimy ocenić o ile dłużej, a tym bardziej ile razy dłużej, ponieważ rangi 1 - dla Agnieszki i 5 - dla Marcina oznaczają jedynie kolej- ność, nic nie mówiąc o odległościach między poszczególnymi wartościami. Zatem różnica w czasie pisania egzaminu między dwiema kolejnymi rangami może wyno- sić równie dobrze 1 minutę, jak i 10 minut. 37 Rozdział 1. Naukowy sposób poszukiwania związków między zmiennymi. Rodzaje badań C1. Na podstawie wskaźnika CZAS1 proszę ocenić prawdziwość poszczególnych twierdzeń, zaznaczając odpowiednio: prawda (P), fałsz (F), nie można powiedzieć (?). 1. Marcin wykorzystał czas w takim samym stopniu (precyzyjnie vs nieprecyzyjnie) jak Agnieszka. 2. Marcin pisał egzamin nie dłużej niż Agnieszka. 3. Marcin pisał egzamin o 10 minut dłużej niż Agnieszka. 4. Marcin pisał egzamin 2 razy dłużej niż Agnieszka. p F ? p F ? p F ? p F ? C2. Na podstawie wskaźnika CZAS2 proszę ocenić prawdziwość poszczególnych twierdzeń, zaznaczając odpowiednio: prawda (P), fałsz (F), nie można powiedzieć (?), 1. Marcin wykorzystał czas w takim samym stopniu (precyzyjnie vs nieprecyzyjnie) jak Agnieszka. 2. Marcin pisał egzamin nie dłużej niż Agnieszka. 3. Marcin pisał egzamin o 10 minut dłużej niż Agnieszka. 4. Marcin pisał egzamin 2 razy dłużej niż Agnieszka. p F ? p F ? p F ? p F ? C3. Na podstawie wskaźnika CZAS3 proszę ocenić prawdziwość poszczególnych twierdzeń, zaznaczając odpowiednio: prawda (P), fałsz (F), nie można powiedzieć (?). 1. Marcin wykorzystał czas w takim samym stopniu (precyzyjnie vs nieprecyzyjnie) jak Agnieszka. 2. Marcin pisał egzamin nie dłużej niż Agnieszka. 3. Marcin pisał egzamin o 10 minut dłużej niż Agnieszka. 4. Marcin pisał egzamin 2 razy dłużej niż Agnieszka. p F ? p F ? p F ? p F ? 38 C4. Na podstawie wskaźnika CZAS4 proszę ocenić prawdziwość poszczególnych twierdzeń, zaznaczając odpowiednio: prawda (P), fałsz (F), nie można powiedzieć (?). 1. Marcin wykorzystał czas w takim samym stopniu (precyzyjnie vs nieprecyzyjnie) jak Agnieszka. 2. Marcin pisał egzamin nie dłużej niż Agnieszka. 3. Marcin pisał egzamin o 10 minut dłużej niż Agnieszka. 4. Marcin pisał egzamin 2 razy dłużej niż Agnieszka. p F ? p F ? p F ? p F ? Co oznaczają liczby w naukach społecznych? Skale pomiarowe... W przypadku wskaźnika CZAS3 nasze możliwości szacowania różnicy między Marcinem i Agnieszką rosną, mamy bowiem podstawy, by ocenić nie tylko to, czy należą oni do różnych grup i które z nich pisało dłużej, lecz także to, o ile minut Marcin pisał egzamin dłużej niż Agnieszka. Jest to możliwe, ponieważ wskaźnik w postaci godziny zakończenia egzaminu cechuje się stałymi jednostkami pomiaru, tj. minutami. Kwestia, ile razy dłużej Marcin pisał egzamin od Agnieszki pozostaje ciągle nierozwiązana, gdyż brak nam punktu odniesienia- nie wiemy, o której godzi- nie zaczął się egzamin. Jeżeli dane przyjmują formę wskaźnika CZAS4 (czas pisania egzaminu w minu- tach), zawarta w nich informacja pozwala najpełniej ocenić różnice między Marci- nem i Agnieszką. Na podstawie wartości, jakie przyjmuje ten wskaźnik dla każdego z nich, możemy stwierdzić: czy należą oni do różnych grup, które z nich pisało dłu- żej, o ile dłużej pisał Marcin, a także ile razy dłużej pisał. Na ostatnie z pytań może- my odpowiedzieć dzięki temu, że pomiar czasu pisania egzaminu zaczynamy od zera (zero minut na początku egzaminu). Wniosek: Różne operacjonalizacje zmiennej CZAS umożliwiają odpowiadanie narożne pytania. Zmienne CZAS1, CZAS2, CZAS3 i CZAS4 są przykładami czte- rech różnych typów skal pomiarowych. Odpowiednio CZAS1 jest przykładem no- minalnej skali pomiarowej, CZAS2 - porządkowej, CZAS3 -przedziałowej, CZAS4 -ilorazowej. Możliwe odpowiedzi z ćwiczeń C1-C4 zostały zestawione w tabeli 1.6. TAK wpisaliśmy, gdy dysponując danym wskaźnikiem, możemy odpowiedzieć na dane pytanie, NIE - gdy odpowiedź jest niemożliwa. Tabela 1.6. Rodzaj wskaźnika a możliwość odpowiedzi na pytania Rodzaj wskaźnika CZAS1 skala nominalna CZAS2 skala porządkowa CZAS3 skala przedziałowa CZAS4 skala ilorazowa Czy Marcin i Agnieszka wykorzystali czas egzaminu z tą samą/różną precyzją? TAK TAK TAK TAK Czy Marcin pisał dłużej od Agnieszki? NIE TAK TAK TAK 0 ile dłużej pisał Marcin od Agnieszki? NIE NIE TAK TAK Ile razy dłużej pisał Marcin od Agnieszki? NIE NIE NIE TAK Przykład może się wydawać abstrakcyjny, ponieważ jako nienaturalne odbiera- my ograniczanie naszych możliwości odpowiadania na pytania przez tworzenie wskaź- ników CZAS1, CZAS2, CZAS3, skoro łatwo możemy zanotować CZAS4. Wpro- wadziliśmy ten przykład po to, aby uświadomić Czytelnikowi, że rodzaj skali pomia- 39 Rozdział 1. Naukowy sposób poszukiwania związków między zmiennymi. Rodzaje badań 40 rowej wskaźnika ogranicza nasze możliwości wnioskowania. A wiele badanych przez nas zmiennych pozwala na budowanie wskaźników wyłącznie na słabej skali pomia- rowej. Dlatego umiejętność określania skali pomiarowej jest podstawową sprawą zanim podejmiemy następne kroki analizy. Przyjrzyjmy się wprowadzonym w powyższym przykładzie skalom pomiarowym w sposób bardziej systematyczny. 1. Z nominalną skalą pomiarową mamy do czynienia, gdy obiektom należą- cym do tej samej kategorii przypisuje się tę samą liczbę lub inny symbol. Do zmiennych nominalnych należy płeć, wyznanie, region zamieszkania, ro- dzaj zachowania itp. Liczba przypisana w przypadku tej skali odgrywa tylko rolę identyfikatora, informuje o przynależności do danej kategorii. Nie moż- na tych liczb uporządkować, ani tym bardziej do siebie dodawać, choć kom- puter bez wahania wydrukuje nam informacje o średniej płci w naszej próbie. 2. Z porządkową skalą pomiarową mamy do czynienia, gdy możemy nasze obiekty uporządkować ze względu na pewną własność, np. wykształcenie (podstawowe, średnie, policealne itd.). Przypisanie obiektom liczb pozwala uporządkować osoby badane pod względem nasilenia cechy. Na podstawie danych możemy powiedzieć, że ktoś jest bardziej wykształcony od innej oso- by, ale już nie możemy stwierdzić, o ile bardziej, bo skala ta nie ma stałej jednostki pomiaru. Możemy powiedzieć, kto wcześniej wyszedł z egzaminu (CZAS2), ale nie możemy określić, o ile wcześniej. Możemy powiedzieć, że Adam Małysz był pierwszy, a Swen Hannavald drugi, ale nie wiemy, jaka była między nimi różnica w punktacji. 3. Z przedziałową (interwalową) skalą pomiarową mamy do czynienia, gdy możemy wskazać stalą jednostkę pomiaru. Jeżeli analizujemy rok urodze- nia respondenta, to możemy powiedzieć nie tylko, kto urodził się wcześniej, lecz także, o ile wcześniej. Informacja, że Adam urodził się w roku 1940, a Ewa w 1980 nie pozwala (bez przekształcenia roku urodzenia na wiek re- spondenta) odpowiedzieć na pytanie, ile razy Adam jest starszy od Ewy. W psychologii pięciostopniowe skale typu Likerta, gdzie badany ocenia praw- dziwość różnych twierdzeń, wybierając jedną odpowiedź z następującego zakresu: zdecydowanie się zgadzam, zgadzam się, trudno powiedzieć, nie zgadzam się, zde- cydowanie się nie zgadzam, przyjęto za skale przedziałowe, chociaż nie ma dowo- dów, że różnica między „zdecydowanie się zgadzam" a „zgadzam się" jest taka sama jaknp. różnica między „nie zgadzam się" a „zdecydowanie sienie zgadzam". Puryści metodologiczni traktują skale Likerta jako skale porządkowe. Przegląd artykułów publikowanych w najlepszych czasopismach psychologicznych (np. Journal ofPer- sonal and Social Psychology) przekonuje, że wielopunktowe odpowiedzi są trakto- wane jako zmienne przedziałowe, o ile opis punktów skali nie jest sprzeczny fasado- wo z zasadą równości przedziałów (stałej jednostki pomiaru). Typ skali pomiarowej a rodzaj dopuszczalnych przekształceń 4. Z ilorazową (stosunkową) skalą pomiarową mamy do czynienia, gdy możemy wskazać stałą jednostkę miary i niearbitralny punkt zerowy skali. Jeżeli analizujemy wiek respondenta, to zero jest precyzyjnie określone. Je- żeli Adam ma 60 lat, a Ewa 30, to możemy powiedzieć, że jest on 2 razy starszy od Ewy. Powtórzmy: Tym, co odróżnia skalę ilorazową od przedziało- wej, jest istnienie zera bezwzględnego (jednostronnego ograniczenia zakre- su skali). Wskaźnik CZAS4 stanowi przykład ilorazowej skali pomiarowej. Wynik w sprawdzianie intuicji psychologicznej (TIME2), rozumiany jako liczba poprawnych odpowiedzi, daje nam „przyzwoitą" skalę pomiarową. Wiemy, co to znaczy, że dana osoba osiągnęła wynik 0, a to oznacza istnienie zera bezwzględnego. Wiemy, że jeżeli Jacek odpowiedział na 10 pytań, a Beata na 6, to różnica między nimi jest taka sama jak między Jagodą (5 pytań) a Bartkiem (1 pytanie). Problem pojawia się, kiedy wynik w teście ma być wskaźnikiem inteligencji badanych. Nie możemy przecież powiedzieć, że osoba, która odpowiedziała na 0 pytań, ma zerową inteligencję - wtedy skala nie ma zera bezwzględnego. Pojawiają się też problemy dotyczące równości różnic w inteligencji pomiędzy Jackiem i Beatą a Jagodą i Bart- kiem. Psychologowie jednak są skłonni traktować wyniki w teście inteligencji jako mierzone na skali przedziałowej, a więc takiej, która zapewnia równość odległości (przedziałów) między kolejnymi wartościami zmiennej. Skala ta nie majednak zera bezwzględnego. Typ skali pomiarowej a rodzaj dopuszczalnych przekształceń Skale pomiarowe wyznaczają to, co nam wolno robić z liczbami. Często zacho- dzi potrzeba transformacji surowych (bo jeszcze nieprzekształconych) wyników. Banalnym powodem może być chęć uproszczenia pracy osobom kodującym wyniki w komputerze, które nie chcą wstukiwać minusów do zbioru danych. Oczywiście mówimy tu o przekształceniach, którym są poddawane wszystkie wartości zmiennej w danym zbiorze. Skala nominalna Na skali nominalnej możemy zastosować każde przekształcenie liczbowe, które zachowuje rozróżnialność obiektów. Możemy różne regiony Polski zakodować jako (1, 2, 3, 4, 5, 6) lub (12, 4, 10, 14, 1, 78), ale nie możemy przypisać dwóm regionom tej samej liczby, chyba że jest to w pełni świadomy zabieg połączenia dwóch regio- nów w jeden. 41 Rozdział 1. Naukowy sposób poszukiwania związków między zmiennymi. Rodzaje badań Skala porządkowa Na skali porządkowej możemy zastosować każde przekształcenie, które zachowa porządek obiektów. Możemy różne poziomy wykształcenia zakodować np. jako (1 - podstawowe, 2 - średnie, 3 - policealne, 4 - niepełne wyższe, 5 - wyższe) lub (2 - podstawowe, 4 - średnie, 6 - policealne, 8 - niepełne wyższe, 10 - wyższe), ale nie możemy np. wykształceniu podstawowemu przypisać liczby 5, średniemu 3, a wy- ższemu 6, ponieważ takie kodowanie zmienia pierwotny porządek. Skala przedziałowa (interwalowa) Na skali przedziałowej możemy zastosować każde przekształcenie, które zacho- wa równość przedziałów (stałą jednostkę pomiaru). Nie tracąc podstawowych in- formacji (w tym warunku równości przedziałów), wartości zmiennej wyrażone na skali przedziałowej możemy mnożyć lub dzielić przez stałą, dodawać lub odejmo- wać stałą, czyli poddawać je przekształceniom liniowym y = a + bx. Zilustrujmy to na przykładzie. Jeżeli w badaniu użyliśmy skali odpowiedzi z trzema wartościami - V2, 0, V2, to aby pozbyć się_ ułamków, możemy pomnożyć wartości zmiennej przez stałą równą 2. Przed rekodowaniem wartości zmiennej: Po pomnożeniu przez 2: 0 -1 0 / - długość przedziałów między kolejnymi wartościami Rysunek 1.5. Przekształcenie algebraiczne na skali przedziałowej Po tej transformacji wyników odległość między kolejnymi punktami skali wzro- sła, ale nadal zachowana jest równość przedziału. Możemy też dodawać stałą = 2. Przekształcenie liczb (-1, 0, 1) na (1, 2, 3) też pozwala na zachowanie równości przedziałów. Używamy go, przekształcając pomiary temperatury w skali Celsjusza w skalę Fahrenheita: F = 32 + 9/5C. Jest to przekształcenie liniowe y = a + bx, gdzie y - F oznacza temperaturę w skali Fahrenheita, x - C temperaturę w skali Celsjusza, a = 32, b = 9/5. W wyniku tego przekształcenia 42 20 °C- ^68°F 30 °c- ^86°F 40 °c- * 104°F. Typ skali pomiarowej a rodzaj dopuszczalnych przekształceń Odległość między kolejnymi pomiarami w skali Celsjusza jest równa 10°, a w skali Fahrenheita 18°. Na obu tych skalach przyrost temperatury między 20° —> 30° (68 —> 86) jest taki sam, jak między 30° —> 40° (86 —» 104), czyli przekształcenie liniowe zachowuje równość przedziałów. Skala ilorazowa (stosunkowa) Liczby z tej skali pomiarowej możemy poddawać wszystkim przekształce- niom, które zachowają równość stosunków. Czas pisania egzaminu możemy, wpisując dane do komputera, pomnożyć lub podzielić (y = bx), ale nie możemy dodać do wyniku stałej tak, jak mogliśmy to zro- bić w przypadku zmiennej przedziałowej. Dlaczego? Dodanie stałej spowoduje zmianę stosunku (ilorazu) liczb. Jeżeli Ewa pisała egzamin 30 minut, a Adam 60 minut, to możemy takie wyniki podzielić np. przez 60, zapisując czas w godzinach, a nie w minutach. Wtedy wynik Ewy wyniesie 0,5, a Adama 1, i nadal zostanie zachowana relacja mówiąca, że Adam pisał dwa razy dhiżej. Odjęcie od wyników 20 spowodowałoby, że Ewa otrzymałaby wynik 10, a Adam 40. Ta operacja zachowuje informację o różnicy (nadal widzimy, że Adam pisał egzamin o 30 minut dłużej), ale już odpowiedź na pytanie, ile razy dłużej, prowadzi nas do mylnego wniosku, że Adam pisał egzamin 4 razy (a nie 2, jak było w rzeczywistości) dhiżej. Powyższy przykład przedstawiony jest w tabeli 1.7. Wniosek: jeżeli chcemy zachować informacje dostępne na skali ilorazowej, nie możemy dodawać stałej do naszych wyników. Tabela 1.7. Przekształcenia algebraiczne na skali stosunkowej Wyniki surowe (nieprzekształcone) Wynik przekształcenia y = Xlb;b = 60 (dzielenie przez stałą) Wynik przekształcenia y = X-a;a = 20 (odejmowanie stałej) Ewa 30 min 0,5 h 10 min Adam 60 min 1 h 40 min różnica wyników (Adam - Ewa) 30 min 0,5 h 30 min stosunek wyników (Adam / Ewa) 2 2 4 wniosek przekształcenie Y-bX zachowuje zarówno równość przedziałów, jak i równość stosunków przekształcenie Y = X + a zachowuje tylko równość przedziałów. Zniekształca informacje o stosunkach między liczbami 43 Rozdział 1. Naukowy sposób poszukiwania związków między zmiennymi. Rodzaje badań W statystyce to, czy zmienna jest jakościowa (nominalna i porządkowa skala pomiarowa), czy też ilościowa (przedziałowa i ilorazowa skala pomiarowa), pocią- ga za sobą dramatyczną zmianą naszych możliwości analizy. Dlatego w dalszej czę- ści książki nie będziemy odróżniać zmiennych ilorazowych i przedziałowych, używając dla nich wspólnego terminu: zmienna ilościowa. Zmienne przedziałowe i ilorazowe określamy jako zmienne ilościowe. 44 Zapisz definicje kluczowych pojęć wprowadzonych w tym rozdziale oraz nowe symbole Rozdział 2 Rozkład zmiennej w próbie i w populacji. Miary tendencji centralnej i rozproszenia Pojęcia kluczowe: rozkład zmiennej, częstość, proporcja, procent, prawdopodobieństwo, zmienna ciągła i skokowa (dyskretna), dominanta (wartość modalna, moda); mediana; średnia, zmienność, rozstęp, sumy kwadratów, wynik standaryzowany, próba losowa, populacja, estymator, parametr, statystyka Nowe symbole: I, X, M, Mo, Me, SS, s2, s, z | Rozkład zmiennej w próbie Pierwszym krokiem w analizie jest sprawdzenie rozkładów naszych zmiennych. Mówiąc najprościej, rozkład zmiennej pokazuje, jak często w naszej próbie wy- stępowała dana wartość. Jeżeli wśród 30 badanych było 14 mężczyzn, co stanowi 0,47 próby, to zmienna PŁEĆ, przyjmująca wartości 1 - mężczyzna i 2 - kobieta, ma następujący rozkład (1; 0,47) (2; 0,53), kobiet było bowiem 16, co stanowi 0,53 pró- by (zobacz w tabeli 2.1). W rozkładzie zamiast procentów podajemy proporcje, ponieważ są one odpowied- nikiem prawdopodobieństwa definiowanego w podejściu empirycznym (aposteriori). Definicja prawdopodobieństwa W szkole poznaliśmy klasyczną definicję prawdopodobieństwa (a priori). Pomaga nam ona odpowiedzieć na pytania dotyczące prawdopodobieństwa zajścia 45 Rozdział 2. Rozkład zmiennej w próbie i w populacji... różnych zdarzeń bez konieczności przeprowadzania doświadczeń weryfikujących wynik. Gdy staramy się dowiedzieć, jakie jest prawdopodobieństwo wyrzucenia orła przy rzucie symetryczną monetą albo wyrzucenia cyfry większej od 4 przy rzucie kostką, nie musimy koniecznie rzucać monetą lub kostką. Stosując klasyczną definicję prawdopodobieństwa, definiujemy prawdopodo- bieństwa zajścia tych zdarzeń jako stosunek liczby zdarzeń sprzyjających do liczby zdarzeń możliwych. Oczywiście milcząco zakładamy, że orły będą wypadać tak samo często jak reszki (moneta jest „uczciwa" - nie wyróżnia ani reszki, ani orła). Podobnie kostka musi być uczciwa - żadna liczba oczek nie może być wyróżniona. W przypad- ku, gdybyśmy mieli do czynienia z „oszukaną" kostką lub monetą, klasyczna definicja prawdopodobieństwa nic nam nie da, chyba że wiemy, w jaki sposób moneta czy kost- ka jest oszukana - np. wiemy, że orzeł wypada dwa razy częściej niż reszka. W psychologii nie możemy sto- sować klasycznej definicji prawdopo- dobieństwa, gdyż w zasadzie nigdy nie znamy prawdopodobieństw a priori, dlatego wykorzystujemy definicję empiryczną (albo a posteriori) praw- dopodobieństwa. Oznacza to, że aby odpowiedzieć na pytanie, jakie jest prawdopodobieństwo spotkania na ulicy Warszawy osoby rozwiedzionej, musimy przeprowadzić badania. Je- żeli zapytamy o stan cywilny sto osób spotkanych na ulicy i cztery powie- dzą, że są rozwiedzione, to będziemy mogli stwierdzić, że prawdopodo- bieństwo spotkania osoby rozwiedzio- nej w Warszawie wynosi 0,04. O tym, jakie warunki muszą być spełnione, abyśmy mogli formułować sądy ogólne na podstawie zbadanej próby, trzeba przeczytać w literatu- rze [5, 19]. Podsumowując: rozkład zmien- nej można przedstawić jako zbiór par (wartość, częstość), gdzie częstość oznacza, ile razy wystąpiła dana wartość w naszej próbie; wtedy rozkład płci wygląda następująco (1, 14) (2, 16), ale poprawniej jest przedstawić rozkład jako zbiór par (wartość, prawdopodobieństwo), gdzie prawdo- podobieństwo należy rozumieć jako proporcję osób, którym przypisywano daną wartość, w stosunku do całej liczebności próby. 46 Rozkład zmiennej w próbie Podstawowym sposobem prezentacji zmiennej jest rozkład częstości (frekwen- cje). Rozkład częstości (tabele: 2.1, 2.2, 2.3, 2.4 i 2.5) przedstawia wartość danej zmiennej oraz jej częstość pojawiania się. W rozkładzie częstości mamy 5 kolumn. W pierwszej wypisane są wartości zmiennej uporządkowane od najmniejszej do największej. W drugiej liczba osób (częstość), które udzieliły takiej odpowiedzi. — W trzeciej kolumnie liczba została zamieniona na procent osób, które udzieliły takiej odpowiedzi. Często, gdy mamy dużą liczbę braków odpowiedzi, takjakw pytaniu o satysfak- cję z pracy, gdy nie zadano tego pytania bezrobotnym, ważniejszajest kolumna czwarta - procent ważnych odpowiedzi. Piąta kolumna zawiera procent skumulowany mówiący o tym, jaki procent pró- by uzyskał wynik mniejszy lub równy danej wartości. Procent skumulowany ustala- ny jest na podstawie procentu ważnych. Graficzne sposoby przedstawienia rozkładu zmiennych omówione zostaną w rozdziale 3. : Zaokrąglenia na wydrukach SPSS powodują wrażenie błędów w rubry- ce „procent skumulowany". Tabela 2.1. Rozkład zmiennej PŁEĆ w badaniu LEARN Częstość Procent Procent ważnych Procent skumulowany Ważne mężczyzna 14 46,7 46,7 46,7 kobieta 16 53,3 53,3 100,0 Ogółem 30 100,0 100,0 Tabela 2.2. Rozkład zmiennej WYKSZTAŁCENIE w badaniu LEARN Częstość Procent Procent ważnych Procent skumulowany Ważne 1 (średnie ogólne) 8 26,7 26,7 26,7 2 (średnie zawodowe) 8 26,7 26,7 53,3 3 (policealne) 7 23,3 23,3 76,7 4 (licencjat) 7 23,3 23,3 100,0 Ogółem 30 100,0 100,0 47 Rozdział 2. Rozkład zmiennej w próbie i w populacji... Tabela 2.3. Rozkład zmiennej WIEK w badaniu LEARN Częstość Procent Procent ważnych Procent skumulowany Ważne 21,00 7 23,3 23,3 23,3 23,00 4 13,3 13,3 36,7 24,00 1 3,3 3,3 40,0 25,00 4 13,3 13,3 53,3 26,00 1 3,3 3,3 56,7 27,00 3 10,0 10,0 66,7 29,00 3 10,0 10,0 76,7 30,00 3 10,0 10,0 86,7 32,00 3 10,0 10,0 96,7 33,00 1 3,3 3,3 100,0 Ogółem 30 100,0 100,0 Znając rozkład zmiennej, możemy odpowiedzieć na pytanie, jakie jest prawdo- podobieństwo, że zmienna przyjmie określoną wartość. Zanim to jednak zrobimy, wprowadzimy rozróżnienie na zmienne ciągłe i skokowe. Liczba wartości zmiennej skokowej (dyskretnej) jest skończona i możemy je wszystkie wypisać. Przykładem takiej zmiennej jest liczba dzieci. Można mieć 0, 1, 2, 3, czy 1000 dzieci, ale nie można mieć 1,5 ani 1,25 dziecka. Wartości zmiennej są wyraźnie od siebie oddzielone. Inaczej jest w przypadku zmiennej ciągłej, takiej jak czas wykonywania zada- nia, który możemy podawać w godzinach, minutach, sekundach, milisekundach itd. W praktyce nasz sposób pomiaru czyni tę zmienną dyskretną - zaokrąglamy np. do minut, mimo to w rzeczywistości jest to zmienna ciągła. W przypadku zmiennej dys- kretnej możemy określić, ile wynosi prawdopodobieństwo, że zmienna przyjmie okre- śloną wartość, np. p(X= 2), w przypadku zmiennej ciągłej to prawdopodobieństwo jest równe zero. Na podstawie rozkładu zmiennej LICZBA DZIECI określ prawdopodobieństwo, że wylosowa- na osoba ma: 4 dzieci p(X=4) Odp.:p = 0,071 48 Rozkład zmiennej w próbie Tabela 2.4. Zmienna Q49 (LICZBA DZIECI) z Polskiego Generalnego Sondażu Spo- łecznego [7] Częstość Procent Procent ważnych Procent skumulowany Ważne 0 1766 19,8 19,9 19,9 1 1518 17,0 17,1 36,9 2 2846 31,9 32,0 68,9 3 1611 18,1 18,1 87,1 4 635 7,1 7,1 94,2 5 269 3,0 3,0 97,2 6 113 1,3 1,3 98,5 7 65 0,7 0,7 99,2 8 lub więcej 69 0,77 0,8 100,0 Braki danych 9 18 0,2 Ogółem 8910 100,0 Na podstawie danych zawartych w przykładzie 2.1 określ prawdopodobieństwo, że wylosowa- na osoba ma: Odpowiedź: a) mniej niż 2 dzieci = p(X=0)+p(X=1) b) więcej niż 2 dzieci p(X > 2) - r\ n c) więcej niż 1 i mniej niż 3 dzieci p(KX<3) =v vięcej niż 1 i mniej niż 4 dzieci 50) C) - c) 20 lat lub więcej p(X>20) 1 d) nie mniej niż 40 lat i nie więcej niż 60 lat p(403 = 10. Liczebności te stanowią wagi, przez które musimy pomnożyć odpowiednie średnie, aby otrzymać średnią ważoną. Po zsumowaniu wymnożonych (zwa- żonych) średnich dzielimy tę sumę przez sumę wszystkich obserwacji, czyli liczebność wszyst- kich klas N = n-\ + n2 + n3. _ M, xni + M2xn1+M3xni _ 3x20+3,5x30+4,5x10 _ 210 w~ n,+n2+n3 ~ 20+30+10 ~ 60 ~ ' Badacz przeprowadził eksperyment z trzema grupami. Pierwsza grupa licząca 50 osób uzy- skała średni wynik 75. Średni wynik w drugiej grupie liczącej 40 osób wyniósł 80. W trzeciej grupie liczącej 25 osób średnia wyniosła 70. Policz średnią ze wszystkich grup. ni = 50 n2 - 40 n3 = 25 M\ = 75 M2 = 80 M3 = 70 _ M, xni + M2 x«3 n,+n1+ n. Określ, jakie musiałyby być liczebności klas, aby przy tych samych średnich w klasach M-\ = 3; M2 - 3,5; M3 = 4,5 średnia ważona wynosiła: a) M = 4 b) M = 4,5 c) M=3,0 d) M=3,2 Uwaga: ze względu na to, że nie ma ograniczeń na liczebności klas, zadanie ma wiele prawi- 56 dłowych rozwiązań. Statystyki opisowe rozkładu zmiennej. Miary tendencji centralnej i rozproszenia Miary rozproszenia wokół średniej Porównajmy dwa zbiory wyników: Zbiór 1: 4,4,5,6,6 Zbiór 2: 2,2,5,8,8 W obu przypadkach średnia równa się 5. Jeżeli przedstawimy te rozkłady wyników graficznie: 3 to zobaczymy, że tym, co je różni jest stopień skupienia wyników wokół średniej. Jest to bardzo ważna informacja o rozkładzie wyników, która wymaga wprowadzenia oprócz miar tendencji centralnej (średnia, mediana, moda), miar rozproszenia. Najprostszą miarą rozproszenia jest zakres zmienności (rozstęp), będący różnicą między wartością maksymalną i minimalną. W przypadku pierwszego rozkładu wynosi on 6 - 4 = 2, dla drugiego równa się 8 - 2 = 6. O wiele lepszą miarą rozproszenia jest suma kwadratów odchyleń od średniej, definiowana wzorem: SS = 2(X-/W)2 (.Ch^O ltW2 O Policzmy tę statystykę dla rozkładu 1: Policzmy ją także dla rozkładu 2: X X-M (X-M)2 4 4-5 i 4 4-5 L 5 5-5 0 6 6-5 i 6 6-5 1 2 = 25 Z(X-M)2 = 4 X X-M (X-M)2 2 2-5 2 2-5 5 5-5 O 8 . 8-5 $ 8 8-5 .YOn a r Rozdział 2. Rozkład zmiennej w próbie i w populacji... 1 Policzmy odpowiednie odchylenia standardowe, czyli SS (N-l) -3 Różnica wariancji obu rozkładów i ich odchyleń standardowych wskazuje, że drugi rozkład charakteryzuje się większym rozproszeniem wyników wokół średniej niż rozkład pierwszy. Pojęcia odchylenia standardowego i wariancji są najważniejsze ze statystyk opisowych jednej zmiennej i zawierają tę samą informację. Znając wariancję, znamy odchylenie standardowe i odwrotnie. Odgrywają również kluczową rolę w ba- daniu współzależności pomiędzy dwiema i więcej zmiennymi. Podnoszenie do kwadratu powoduje, że większe odchylenia od średniej mają dużo większy wpływ na SS niż odchylenia małe. Tak jak w życiu, gdzie koszty popeł- nienia dużych błędów rosną nieliniowo. Jak wyjaśnimy to w następnym rozdziale, wariancję w próbie liczymy po to, aby oszacować (estymować) wariancję w populacji. Aby była dobrym estymato- rem, kiedy badamy małe próby, musimy dzielić SS przez N - 1, a nie przez N. W przypadku dużych prób, to czy dzielimy przez 3000, czy przez 2999 nie ma większego znaczenia. Gwicz&nie 2.6. Policz i wpisz do tabeli średnią, medianę, rozstęp wyników, sumę kwadratów odchyleń od średniej, wariancję i odchylenie standardowe następujących wyników, oznaczających liczbę sprzeczek z partnerem w ciągu gstatniego miesiąca: a) 0,2,4,8,11 CJ)?5 b) 0,2,4,8,6" c) 0,2,4, 8,21 Mediana Rozstęp Średnia Wariancja Odchylenie standardowe a) 4 11 5 20 4,47 b) c) Jakie wnioski możesz sformułować? 58 Statystyki opisowe rozkładu zmiennej. Miary tendencji centralnej i rozproszenia a) Sześciu studentów zapytanych o liczbę randek w ostatnim tygodniu podało następu- jące wartości: 1,2,3,4,3,5 1 23 4567 89 10 11 Policz średnią, wariancję i odchylenie standardowe zmiennej LICZBA RANDEK. b) Badacz wprowadzając dane do komputera, dodał do każdej wartości stałą a = 2 i otrzy- mał rozkład: 3,4, 5, 6, 5, 7 I J 1 23 4567 89 10 11 Policz średnią, wariancję i odchylenie standardowe zmiennej LICZBA RANDEK. c) Inny badacz wprowadzając dane do komputera, pomnożył każdą wartość przez stałą b = 2 i otrzymał rozkład: 2,4,6,8,6, 10 O I I I 1 23 4567 89 10 11 Policz średnią, wariancję i odchylenie standardowe zmiennej LICZBA RANDEK. d) Inny badacz wprowadzając dane do komputera, pomnożył każdą wartość przez stałą b - 2 i dodał stałą a = 1, otrzymując rozkład: 3,5,7,9,7, 11 1234567 39 "iO r\ Policz średnią, wariancję i odchylenie standardowe zmiennej LICZBA RANDEK. Wpisz wyliczone wartości do tabelki: Zmienna M SS s2 s a) X b) X+2 c) 2X d) 2X+1 Jakie wnioski możesz sformułować? 59 Rozdział 2. Rozkład zmiennej w próbie i w populacji... ©wiczenie 2.8. Bez obliczania wariancji uporządkuj poniższe trzy rozkłady ze względu na rozproszenie wokół średniej od najmniejszego do największego: A: 21,19,28,22,20 B: 11,15,38,15,11 C: 22, 22, 22, 22, 22 jkf^l&iillMiliimlHl Do zbioru liczb 1, 2, 3, 4, 5 dodaj dwie dowolne liczby tak, aby: a) średnia się nie zmieniła; b) średnia się zmieniła, ale mediana pozostała bez zmiany; c) suma kwadratów odchyleń od średniej (SS) pozostała bez zmiany; d) wariancja pozostała bez zmiany. Efii Standaryzacja Standaryzacja polega na zamianie wyników surowych w wyniki standaryzo- wane. Standaryzować możemy wyłącznie zmienne ilościowe - bo tylko wtedy mo- żemy policzyć średnią i odchylenie standardowe. Jak widzieliśmy w ćwiczeniu 2.7, dodanie (odjęcie) stałej od każdego wyniku zmiennej ilościowej zmienia jej śred- nią, ale nie zmienia odchylenia standardowego. Mnożenie (dzielenie) przez sta- łą ? zmienia zarówno średnią, jak i odchylenie standardowe. Używając powyż- szych przekształceń dodawania (odejmowania) oraz mnożenia (dzielenia) danego zbioru wyników przez stałą ?, można przekształcić rozkład każdej zmiennej ilościo- wej (pod warunkiem, że jego odchylenie standardowe nie wynosi zero) w rozkład o średniej równej zero i odchyleniu standardowym wynoszącym jeden. Takie prze- kształcenie rozkładu nazywa się standaryzacją. wynik - średnia z = _Z-----------------} czyli odchylenie stand. X~M Wynik standaryzowany z pokazuje, o ile odchyleń standardowych uzyskany przez nas wynik położony jest poniżej (gdy z < 0) lub powyżej (gdy z > 0) średniej. Innymi słowy, jak daleko w jednostkach odchylenia standardowego leży nasz wynik od śred- 60 niej. DlaX = M wynik standaryzowany wynosi zero. Standaryzacja E Załóżmy, że mamy rozkład wyników o średniej wynoszącej 100 i odchyleniu standardowym równym 15. Jaki będzie wynik standaryzowany z dla wyniku surowego 87? 87-100 -13 Z —" = -0,87 15 15 Wiemy, że średnia wyników z testu inteligencji w populacji* wynosi 100, a odchylenie standar- dowe 15. Nasz podopieczny uzyskał z tego testu wynik 130. Można zadać pytanie, jak daleko od średniej leży jego wynik? _ 130-100 _ 30 _2 Z~ 15 ~15~ Oznacza to, że uzyskał on wynik leżący o dwa odchylenia standardowe powyżej średniej. Załóżmy, że średni wynik semestralnego testu na Twojej uczelni wynosi 2, a odchylenie stan- dardowe 0,75. Natomiast na uczelni Twojego kolegi ocenia się wyniki testu na innej skali i tam średnia równa jest 5,5, a odchylenie standardowe 1,75. Ty osiągnąłeś z testu wynik 3,6, a twój znajomy 8,5. Jak myślisz, który z was otrzymał lepszy wynik z testu na tle swojej grupy? 8,5-5,5 3,6-2 = 2,13 Ponieważ wyniki standaryzowane mają średnią równą zero i odchylenie standardowe równe 1, można je łatwo poddawać przekształceniom algebraicznym. Adam i Darek pisali egzamin u różnych osób prowadzących ten sam przedmiot. Adam otrzy- mał 12 punktów, Darek 18 punktów. Który z nich otrzymał lepszy wynik? Nie możemy odpowiedzieć na to pytanie, jeżeli nie znamy wartości rozkładów obu testów. Załóżmy, że średnia pierwszego testu, który pisał Adam, wyniosła 10, drugiego zaś 20, nato- miast odchylenia standardowe - odpowiednio 3 i 2. Widzimy, że rozkłady nie są takie same. Możemy teraz przekształcić wyniki surowe (nieprzekształcone) w wyniki standaryzowane. 12-10 2 _ _ 18-20 = -1 Ponieważ zMama> zDa*a, stwierdzamy, że lepszy wynik otrzymał Adam. * Informacje o średnich i odchyleniach standardowych wyników w testach zostały wprowadzone ' celach dydaktycznych i nie są informacjami dotyczącymi konkretnych narzędzi. 61 Rozdział 2. Rozkład zmiennej w próbie i w populacji... Ćwiczenie 2.10. Porównaj wyniki Adama (XA - 12) i Darka (XD - 18), jeżeli: a) Mą =15 sA = 4 MD =15 sD = 4 zA= zD = b) M/i = 20 s/i = 1 MD = 10 sD = 3 z„ = zD =. c) MA=12 s„ = 2 MD=14 sD = 6 Z/i= zD = Powtórzmy jeszcze raz: Aby porównać wyniki indywidualnych osób pochodzące z różnych rozkładów, musimy zamie- nić je na wyniki standaryzowane. riczenJe2,11„ Za pomocą testu przystosowania do sytuacji po rozwodzie przebadano 4 pary osób rozwie- dzionych. Wyniki ujawniły różnice w poziomie przystosowania między kobietami a mężczy- znami. Średnia dla kobiet wyniosła: MKob= 60, przy odchyleniu standardowym sKob = 6, nato- miast średnia dla rozwiedzionych mężczyzn wyniosła MMęi- 55, przy odchyleniu standardo- wym sMęż- 4. W poniższej tabeli przedstawiono rezultaty poszczególnych badanych. Porów- naj wyniki kobiet i mężczyzn w poszczególnych parach i oceń, która z osób w danej parze - kobieta czy mężczyzna, lepiej przystosowała się do sytuacji po rozwodzie (wyższy wynik ozna- cza lepsze przystosowanie). Wynik kobiety (K) Wynik mężczyzny(M) Z/c= zM = Lepiej przystosował się: para 1 66 63 1 2 mężczyzna para 2 72 47 para 3 48 51 para 4 54 59 Za pomocą testów zdolności werbalnych i zdolności matematycznych przebadano 4 uczniów. W przypadku testu zdolności werbalnych średnia wyniosła MWerb- 50, a odchylenie standar- dowe Swerb- 20. W teście zdolności matematycznych średnia wyniosła MMat- 20, a odchyle- nie standardowe sMst~ 5. Na postawie danych zawartych w poniższej tabeli porównaj wyniki obu testów u każdego z uczniów, a także oceń, z którego uzyskał lepsze rezultaty. 62 Uczeń Wynik w teście zdolności werbalnych Wynik w teście zdolności matematycznych Zwerb = ZMat- Jest lepszy w teście: Kasia 30 25 -1 1 matematycznym Paweł 50 15 Rafał 40 20 Magda 90 40 Rozkład zmiennej w populacji zmiennej w populacji Próba i populacja Chociaż analizujemy starannie wyniki pochodzące z badanej próby, to jednak podstawowym przedmiotem naszego zainteresowania jest populacja. Populacja to zbiór wszystkich możliwych jednostek, które są przedmiotem naszego zainteresowa- nia. Próba to zazwyczaj niewielka część interesującej nas populacji. O sposobach pobierania próby można przeczytać w literaturze [5, 19]. Bardzo rzadko mamy możliwość zbadać całą populację. Badamy zwykle tylko jej część, czyli próbę. Chcemy natomiast formułować twierdzenia o populacji, a nie o próbie. Podstawowym naszym celem jest więc estymacja (szacowanie) parame- trów populacji za pomocą statystyk z próby. PRÓBA <- losowanie Wartości liczbowe wyliczane na podstawie próby nazywane są STATYSTYKAMI. Np. jeżeli wyliczymy średni wynik sprawdzianu, który uzyskała dana klasa, to jest to wyliczenie statystyki. POPULACJA estymacja Wartości liczbowe wyliczane ze wszystkich elementów populacji nazywane są PARAMETRAMI. Np. jeśli obliczylibyśmy średni wzrost wszystkich poborowych w danym roku, to byłoby to otrzymanie parametru. Statystyki opisujące próbę będziemy oznaczać literami łacińskimi M, s. M- średnia w próbie, s - odchylenie standardowe w próbie Parametry opisujące populację będziemy oznaczać literami greckimi //(mi), o-(sigma), or(alfa), /?(beta) /u - średnia w populacji a- odchylenie standardowe w populacji Rysunek 2.1. Próba a populacja Średnia zmiennej w próbie (wartość statystyki M) interesuje nas o tyle, o ile pozwala nam wnioskować o średniej w populacji. Średnia M jest estymatorem //. Podobnie odchylenie standardowe. 63 Rozdział 2. Rozkład zmiennej w próbie i w popułacji... Zapamiętaj: M jest estymatorem fi, s jest estymatorem a. Dla niewielkich populacji rozkład zmiennej w populacji możemy wyliczyć ana- logicznie jak rozkład zmiennej w próbie. Możemy też policzyć miary tendencji cen- tralnej i miary rozproszenia rozkładu zmiennej w populacji. Średnią rozkładu zmien- nej w populacji oznaczamy symbolem ju, zaś odchylenie standardowe wyników w po- pulacji oznaczamy jako o. Tabela 2.8. Symbole średniej i odchylenia standardowego dla próby i populacji Rozkład zmiennej w próbie Rozkład zmiennej w populacji Średnia M M Odchylenie standardowe s a Ćwiczenie 2.13. Zasłaniając kartką prawą kolumnę zapisz symbolem: Tabela 2.9. Symbole statystyk opisowych dla próby i populacji Średnia w próbie M Średnia w populacji M Wynik standaryzowany z Odchylenie standardowe w próbie s Odchylenie standardowe w populacji a Kwadrat odchylenia standardowego w próbie s2 Kwadrat odchylenia standardowego w populacji a2 Suma kwadratów SS Wyniki surowe X Odchylenie wyniku pojedynczej osoby od średniej w próbie X-M Odchylenie średniej w próbie od średniej w populacji M-n Wariancja w próbie s2 Wariancja w populacji o2 Kwadrat odchylenia wyniku pojedynczej osoby od średniej w próbie (X- M)2 Kwadrat odchylenia wyniku pojedynczej osoby od średniej w populacji Podstawą sformułowania oceny pojedynczego wyniku jest porównanie go z rozkładem zmien- 64 nej w próbie bądź z rozkładem zmiennej w populacji. Rozkład zmiennej w populacji Porównywanie wyników konkretnej osoby z rozkładem zmiennej w próbie i z rozkła- dem zmiennej w populacji Szóstoklasista Jaś otrzymał wynik 90 w teście kompetencji szkolnych. Średnia w jego klasie wyniosła M = 70, a odchylenie standardowe s = 20. Wiemy, że średnia w populacji szósto- klasistów wynosi jj. = 100 z odchyleniem standardowym a= 10. Możemy porównać wynik Jasia z rozkładem zmiennej w próbie (jego klasie) i z rozkładem zmiennej w populacji szósto- klasistów. X-M 90-70 s 20 względem klasy _ X-n _ 90-100 Zl~ a ~ 10 względem populacji szóstoklasistów _ Wynik Jasia jest o jedno odchylenie standardowe lepszy od średniej w jego klasie i o jedno odchylenie standardowe gorszy od średniej w populacji szóstoklasistów. Szkoła językowa prowadzi testy kwalifikujące na określony poziom nauki. Z wieloletnich do- świadczeń wynika, że osoby zakwalifikowane na: - 4 poziom powinny pochodzić z populacji o ju = 40 i cr= 10, - 5 poziom powinny pochodzić z populacji o fi= 50 i a - 10, - 6 poziom powinny pochodzić z populacji o ju = 60 i a- 10, - 7 poziom powinny pochodzić z populacji o p - 70 i o= 10. Aby zostać zakwalifikowanym na określony poziom, dana osoba musi otrzymać wynik nieróż- niący się o więcej niż jedno odchylenie standardowe od średniej. Na który poziom nauki zostanie zakwalifikowana Ewa, jeżeli uzyskała wynik X = 52? Aby odpowiedzieć na to pytanie, musimy porównać wynik Ewy z rozkładem w populacji uczniów zakwalifikowanych na różne poziomy nauki. 52-40 10 52-50 = 1,2 (Ewa jest zbyt dobra, aby być na 4 poziomie) z, =? 10 52-60 10 = 0,2 = -0,8 z7 =---------= -1,2 (Ewa jest zbyt słaba, aby być na 7 poziomie) Ewa może wybrać między piątym a szóstym poziomem nauczania. 65 Rozdział 2. Rozkład zmiennej w próbie i w populacji... Ćwiczenie 2.14, Korzystając z danych z przykładu 2.6, określ, na jaki poziom mogą zostać przyjęci następują- cy uczniowie: Uczeń Wynik w teście Porównanie z poziomem 4 Porównanie z poziomem 5 Porównanie z poziomem 6 Porównanie z poziomem 7 Decyzja Ewa 52 z4=1,2 zs=0,2 z6 = -0,8 z7 = -1,2 5 lub 6 uczeń 1 69 uczeń 2 73 uczeń 3 39 uczeń 4 43 normalny (rozkład Gaussa) 66 Wiele zmiennych w populacji ma rozkład normalny, który można opisać za po- mocą krzywej Gaussa. Ma ona kształt dzwonu, który jest symetryczny względem średniej równej modalnej i medianie rozkładu. Lewa i prawa gałąź rozkładu zbliża się asymptotycznie do osi poziomej (nigdy jej nie przecina). Około 68% powierzchni pod krzywą mieści się w granicach jednego odchy- lenia standardowego na prawo i na lewo od średniej. Pole obszaru w granicach od z = -1,96 do z = +1,96 obejmuje 95% powierzchni pod krzywą, a od z = -2,58 do z = +2,58 obejmuje 99% całkowitej powierzchni pod krzywą, przy czym odpowied- nio 5% i 1% mieści się poza tymi granicami. Równanie krzywej normalnej zależy tylko od dwóch parametrów: średniej i od- chylenia standardowego. Ma to podstawowe znaczenie praktyczne, ponieważ pozwala wyznaczyć rozkład zmiennej, jeżeli znamy średnią i odchylenie standardowe i wie- my, że jest to rozkład normalny. Powierzchnia pod krzywą normalną odpowiada 100% przypadków. Bardzo ważną własnością krzywej normalnej jest to, że powierzch- nia pod krzywą (czyli proporcja przypadków) w przedziale od średniej do jakie- gokolwiek punktu zależy tylko od odległości tego punktu od średniej wyrażonej w jednostkach odchylenia standardowego. Między średnią i punktem odległym od niej o jedno odchylenie standardowe mieści się zawsze 0,3413 powierzchni pod krzywą, bez względu na to, czy analizujemy rozkład wzrostu, wagi, inteligencji czy jakiejkolwiek innej zmiennej. Wielkość obszaru pod krzywą, czyli propor- cja przypadków, ma bardzo duże znaczenie, ponieważ wyznacza prawdopo- dobieństwo, że zmienna przyjmie wartość z tego przedziału. Na rysunku 2.2 pokazane jest, że w odległości ±2 odchyleń standardowych od średniej znajduje się ponad 95% przypadków. Rozkład normalny (rozkład Gaussa) Zapamiętaj: Zapis N(//, o) oznacza, że zmienna ilościowa ma rozkład normalny o średniej // i odchyleniu standardowym o. 2,15% \i—3 a ji—2a p.-ci Rozkład XN(100,10) 1 80 90 100 110 120 130 Jednostki Z N(0,1) -2-10 12 3 Rysunek 2.2. Rozkład normalny Pamiętajmy, że rozkład normalny jest zdefiniowany dla zmiennych ciągłych. W rezultacie musimy pamiętać, że prawdopodobieństwo, iż badana zmienna przyj- muje konkretną wartość jest równe zeru:p(X= 35) = 0. Przykładem zmiennej ciągłej może być wzrost. Jeżeli zmierzymy czyjś wzrost, otrzymując np. 173 cm, to musimy pamiętać, że jest to tylko wartość przybliżona, zależna od dokładności naszej miarki. Osoby w grupie ludzi o wzroście 173 cm mogą się od siebie pod względem tej zmiennej różnić, tyle że nasze urządzenie pomiarowe może nie być wystarczająco dokładne, aby to wykryć. Jeżeli nawet użyjemy jakiejś dokładniejszej miarki, która pozwala na pomiar z dokładnością do milimetrów, mikrometrów czy nanometrów, to i tak pozo- staje pewien margines błędu. Nigdy nie możemy także mieć pewności, że dana osoba ma dokładnie 173 cm wzrostu, a odzwierciedleniem tego faktu jest właśnie wynik prawdopodobieństwa, iż wartość wzrostu wynosi właśnie tyle, równy zeru. Dlatego dla zmiennych ciągłych zawsze obliczamy prawdopodobieństwa, że zmienna przyj- mie wartość należącą do jakiegoś przedziału, a nie równą jakiejś liczbie. 67 Rozdział 2. Rozkład zmiennej w próbie i w populacji... t*. Zapamiętaj: w przypadku zmiennej ciągłej prawdopodobieństwa wypisane w ramce poniżej są sobie równe. 3 lub z < -3 jest więc możliwe, ale niesłychanie mało prawdopodobne. Korzystaj ąc z tablic rozkładu normalnego (tablica 1), możemy wyznaczyć pole pod krzywą normalną odcięte przez dowolne dwa punkty. Aby to uczynić, musimy zamie- nić wartości naszej zmiennej na wyniki standaryzowane. Standaryzacja powoduje prze- kształcenie rozkładu zmiennej N(//, o) w rozkład normalny standaryzowany N(0, 1). W ten sposób, niezależnie od tego, czy interesuje nas wzrost poborowych N(170, 5), czy inteligencja N(100, 15), korzystać będziemy z tych samych tablic dla wartości z. Tablice rozkładu normalnego z Tablice rozkładu normalnego z (patrz tabela 2.10 i tablica 1) zawierają dwie kolumny. Tabela 2.10. Fragment tablicy rozkładu normalnego z Pi 0 0,5000 0,01 0,4960 0,02 0,4920 0,03 0,4880 0,04 0,4840 68 W pierwszej kolumnie szukamy wartości zk, w drugiej znajduje się informacja o wielkości obszaru (proporcji przypadków, prawdopodobieństwie uzyskania wyni- ku) od danej wartości zk do krańca rozkładu: p2 =p(z > zk) -p{z > zk). Ostatnie z przedstawionych równości wynikają z wcześniej omówionego faktu: dla zmiennych ciągłychp{z = zk) = 0, zatem wszędzie dalej będziemy traktować znaki >, > oraz <, < jako parami równoważne. Rozkład normalny (rozkład Gaussa) Ponieważ rozkład normalny jest symetryczny, w tablicach podane są tylko war- tości dodatnie z oraz odpowiadające im prawdopodobieństwap2. Dla ujemnych war- tości z wartości p2 są takie same jak dla dodatnich wartości z Informacja, że zmienna ilościowa ma rozkład normalny oznacza, iż jej rozkład możemy przedstawić w postaci krzywej Gaussa. Powierzchnia pod krzywą mieści 100% wszystkich wyników. Możemy jednoznacznie określić proporcję osób w popu- lacji, dla którychX(lub zx) należy do danego przedziału. Przykładowo: prawdopodo- bieństwo, że wylosowana z populacji osoba otrzyma wynik większy od 105 (X> 105, co jeżeli (0, = 100, o = 10 oznacza z > 0,5) równa się/?2= 0,3085 (patrz rys. 2.3). Po przemnożeniu przez 100 otrzymamy procent - 30,85%. p(z> 0,5) = ? Z tablic odczytujemy p2 dla wartości z = 0,5 p(z<-1,5) = ? Z tablic odczytujemy p2 dla wartości z = 1,5 z -3 -2 -1 o 12 3 p(z > 0,5) = 0,3085; p(z < 0,5) = 1 - 0,3085 z -3 -2 -1 0 12 3 p(z < -1,5) = 0,0668; p(z > -1,5) = 1 - 0,0668 p(-1,5 1,5) = ? Z tablic odczytujemy p2 dla wartości z = 0,5 i z = 1,5 i dodajemy je do siebie -3-2-10 1 2 3 p(0,5 < z < 2,5) = 0,3085 - 0,0062 Szukanym prawdopodobieństwom odpowiada pole zaznaczone na rysunkach j. Wartości odczytane z tablic: z P2 0,5 -0,5 0,3085 1,5 -1,5 0,0668 2,5 -2,5 0,0062 z -3 -2 -1 0 1 2 3 p(z < -0,5 lub z > 1,5) = 0,3085 + 0,0668 Rysunek 2.3. 69 Rozdział 2. Rozkład zmiennej w próbie i w populacji... Zapamiętaj: Następujące pytania: 1) Jaka proporcja populacji otrzyma wynik większy od 105? 2) Jaki procent otrzyma wynik większy od 105? 3) Jakie jest prawdopodobieństwo, że wylosowana osoba otrzyma wynik większy od 105? są pytaniami o tę samą informację. Na pytanie pierwsze odpowiemy 0,3085, na pytanie drugie odpowiemy 30,85%, a na pytanie trzecie - 0,3085. Sposoby wykorzystania informacji dotyczącej normalności rozkładu zmiennej w populacji Przykład 2.7, Wiedząc, że wyniki w teście kompetencji matematycznych mają N(100, 10), odpowiedz na następujące pytania: 1. Jaki procent osób uzyska wynik mniejszy niż 80? 2. Jaki procent osób uzyska wynik większy niż 80? Aby na nie odpowiedzieć, należy w pierwszej kolejności policzyć wynik standaryzowany z dla podanej wartości 80. _ 80-100 _ 10 Wyliczanie procentu osób, które uzyskają wynik spełniający określone kryteria Kolejnym krokiem będzie skorzystanie z informacji zawartej w tablicach rozkładu normalne- go (patrz tablica 1). Kolumna oznaczona jako z, zawiera wartości jednostek standaryzowa- nych z, uszeregowane od najniższej. Jest to miejsce, w którym poszukamy otrzymanego przez nas w zadaniu wyniku.( Łatwo zauważyć, że tabela rozkładu normalnego podaje wartości bezwzględne tj. bez minusów. Zatem zamiast z = -2, poszukamy z = 2). Kolumna p2 zawiera informację mówiącą o wielkości obszaru odciętego przez daną war- tość z, tj. takiego, który rozciąga się od tej wartości do końca rozkładu (dla dodatnich warto- ści z do prawego końca, dla ujemnych z do lewego końca). Przykładowo: dla z = 1 p2 = 0,1587. 70 Mówi nam to, że od wartości z = 1 do prawego końca rozkładu mieści się 15,87% obserwa- Sposoby wykorzystania informacji dotyczącej normalności rozkładu zmiennej w populacji cji. Jeżeli z = -1 ta sama wartość mówi nam, że do lewego końca rozkładu mieści się 15,87% obserwacji. Zatem: aby odpowiedzieć na pytanie 1 i 2, należyobliczyć wynik z i poszukać w tablicach wartości p2 dla z = 2. Wynosi ona 0,0228. Interpretując tę wartość jako procent (2,28%), otrzymamy odpowiedź na pytanie 1. o procent osób, które uzyskają wynik mniejszy od X(bo z = -2 leży poniżej średniej). Następnie należy dokonać przekształcenia 100% - 2,28% = 97,72% -jest to procent osób, które uzyskają wynik większy od X= 80. Korzystając z danych z przykładu 2.7, odpowiedz na następujące pytania, a rozwiązania umieść w tabelce: 1. Jaki procent osób uzyska wynik mniejszy/większy niż 90? 2. Jaki procent osób uzyska wynik mniejszy/większy niż 100? 3. Jaki procent osób uzyska wynik mniejszy/większy niż 110? 4. Jaki procent osób uzyska wynik mniejszy/większy niż 120? 5. Jaki procent osób uzyska wynik mniejszy/większy niż 130? X z % osób, które uzyskają wynik mniejszy od X % osób, które uzyskają wynik większy od X 80 -2 2,28 97,72 90 100 110 120 130 Wyliczanie wartości zmiennej na podstawie znajomości rozkładu normalnego, przy założonym procencie osób, które mają osiągnąć wynik z danego przedziału Wyniki egzaminacyjne o zakresie punktacji od 0 do 100 musimy przekształcić na oceny infor- mujące studentów o poziomie wykonania przez nich testu w skali: 1) bardzo słaby, 2) słaby, 3) przeciętny, 4) dobry, 5) bardzo dobry. Możemy dokonać tego, ustalając progi bezwzględne, np.: 71 Rozdział 2. Rozkład zmiennej w próbie i w populacji... 1) bardzo słaby poniżej 60% prawidłowych odpowiedzi 2) słaby 60-69% 3) przeciętny 70-79% 4) dobry 80-89% 5) bardzo dobry 90% i powyżej. Problem pojawia się, gdy wykładowca umieści w teście bardzo trudne pytania, na które są w stanie odpowiedzieć tylko nieliczni. W takim przypadku zamiast progów bezwzględnych lepiej wprowadzić progi pozycyjne, które odnoszą się do rozkładu wyników. 1) bardzo słaby dolne 10% rozkładu 2) słaby między 11% a 20% 3) przeciętny między 21% a 60% 4) dobry między 61% a 70% 5) bardzo dobry powyżej 70% (górne 30%) Aby stosując progi pozycyjne wyznaczyć ilość punktów, którą należy uzyskać na ocenę bar- dzo dobrą, trzeba wiedzieć, jaki jest rozkład wyników w populacji. Wyznaczmy progi bezwzględne i pozycyjne dla oceny bardzo dobrej. Aby wyznaczyć progi bezwzględne, należy za punkt wyjścia wziąć zakres punktacji. Sto punktów to 100% wykonania testu. Zatem: trzeba uzyskać co najmniej 90 punktów, aby otrzy- mać ocenę bardzo dobrą. Wyniki innych studentów nie mają wpływu na naszą ocenę. Progi pozycyjne zależą od tego, jak inni napisali egzamin. Ocenę bardzo dobrą uzyska górne 30% studentów. Aby wyznaczyć progi pozycyjne, musimy znać średnią i odchylenie standar- dowe w populacji studentów zdających egzamin. Załóżmy, że wyniki miały w populacji rozkład N(70,10). W tablicach rozkładu normalnego szukamy wyniku z, który odcina 30% powierzchni do prawego końca rozkładu. Musimy znaleźć w kolumnie p2 wartość najbliższą 0,3. Najbliżej wartości p2= 0,3 znajduje się p2= 0,3015, która odpowiada z = 0,52. Podstawiamy te wartości do wzoru na z, pamiętając, że wyniki mają rozkład N(70,10): 0,52 = ?-70 10 72 Po przekształceniu 0,52 x 10 = X - 70 wyliczamy X= 75,2. Wniosek: Aby uzyskać ocenę bardzo dobrą, wystarczy otrzymać 76 punktów lub więcej. Sprawdźmy teraz jaki stopień otrzyma Kamil, który uzyskał wynik 65 punktów w przypadku obu sposobów oceniania, wiedząc, że wyniki mają rozkład normalny N(70,10). W przypadku stosowania progów bezwzględnych 65 punktów oznacza ocenę słabą. Aby ustalić jaką ocenę otrzyma Kamil jeśli zastosujemy progi pozycyjne, przeliczmy jego wynik na jednostki z: z1 = (65-70)/10 = -0,5 W tablicach rozkładu normalnego szukamy w kolumnie z = 0,5 i odczytujemy wartość p2 = 0,3085, co oznacza, że 30,85% uzyskało wynik gorszy od niego a 69,15% wynik lepszy. Wynik Kamila należy do przedziału 21-60% rozkładu co daje mu ocenę przeciętną. Sposoby wykorzystania informacji dotyczącej normalności rozkładu zmiennej w populacji Jeżeli wyniki studentów są lepsze niż przed rokiem i mają rozkład normalny N(80,10) to bę- dzie to miało wpływ na ocenę Kamila: z2 = (65 - 80)/10 = -1,5 W tablicach rozkładu normalnego szukamy z = 1,5 odczytujemy w kolumnie p2 jaki obszar odcina ten wynik: p2 = 0,0668 co oznacza, że 6,68% uzyskało wynik gorszy od niego a 93,32% wynik lepszy. Wynik Kamila należy do przedziału: dolne 10% rozkładu, co przekłada się na ocenę bardzo słabą. Za 65 prawidłowych odpowiedzi Kamil otrzyma więc bardzo różne oceny: Proszę wyznaczyć progi bezwzględne i pozycyjne, wiedząc, że skala punktacji wynosi 0-100, progi absolutne progi pozycyjne gdy N(70,10) progi pozycyjne gdy N(80,10) (2) ocena słaba (3) ocena przeciętna (1) ocena bardzo słaba Ćwiczenie 2.16. dla:a)N(70,10);b)N(50,20) Zamieniamy informacje o procentach rozkładu na wartości z: szukamy p2= 0,1 szukamy p2 = 0,2 szukamy p2 = 0,4 bo 0,6 = 1 -0,4 szukamy p2 = 0,3 bo 0,7 = 1 -0,3 z = -1,28 b. słaby z = -0,84 z = 0,25 z = 0,52 [słaby przeciętny dobry b. dobry Określ jaki stopień otrzymają następujący studenci: Studenci Wynik z egzaminu Ocena wg progów bezwzględnych Ocena wg progów pozycyjnych, gdy N(70,10) Ocena wg progów pozycyjnych, gdy N(50,20) Student 1 40 bardzo słaby z = -3 bardzo słaby z = -0,5 przeciętny Student 2 50 Student 3 70 Student 4 75 Przykład 2,9. Postanowiliśmy, że osobom, które znajdą się wśród 5% najlepszych studentów zaproponuje- my stypendia naukowe, natomiast tym, którzy się znajdą w grupie 10% najsłabszych studen- 73 ai z. t\ut.,^~------ tów - specjalne zajęcia wyrównawcze. Studenci, przed przystąpieniem do testu, chcą wie- dzieć, jaki wynik muszą osiągnąć, aby otrzymać stypendium. Wiedząc, że wyniki w teście mająw populacji rozkład normalny, o znanej średniej i odchyleniu standardowym N(100,10), możemy to ustalić, korzystając z tablic rozkładu normalnego. Poszukamy w tablicach rozkładu normalnego, w kolumnie oznaczonej jako p2i wartości odpo- wiadającej 5%. Najbliższa tej wartości okazuje się liczba 0,0505 i odpowiada ona wynikowi z =1,64. Znając wartość z, średnią i odchylenie standardowe, możemy odpowiedzieć na pytanie, ile punktów trzeba uzyskać, aby dostać stypendium: 1)64 X- 100 = 1,64x10 X= 16,4 +100 = 116,4. Aby otrzymać stypendium, należy zdobyć co najmniej 116,4 punktów na egzaminie. opowiedz na następujące pytan.a 74 Zapisz definicje kluczowych pojęć wprowadzonych w tym rozdziale oraz nowe symbole Roź i), (2 _» 2), (3 -» 4), (4 -> 5), (5 -> 3), (9 -> 9). Taka decyzja wymaga uprzedniej analizy jej konsekwencji. W tym wypadku była to jedyna sensowna decyzja, jaką mogliśmy podjąć. Odpowiedzi „trudno powiedzieć" uznaliśmy jako równoważne „ani tak, ani nie". Brak odpowiedzi był traktowany jako brak danych. Zauważmy, że pytania slr, s3r, s4r, s5r (literą „r" oznaczyliśmy nowe zmienne, w których odpowiedź „trudno powiedzieć" znajduje się w środku skali) są kodowane w tym samym kierunku. Możemy przypuszczać, że odpowiedzi „TAK" i „raczej TAK" świadczą o niskiej samoocenie. Te same odpowiedzi na pytanie s2r świadczą o wy- sokiej samoocenie. Dlatego pierwszym krokiem jest rekodowanie zmiennych tak, aby te same odpowiedzi odpowiadały naszej zmiennej teoretycznej. W tym celu rekodujemy zmienną s2r tak, że 1 —> 5,2 —> 4, 3 —> 3,4 —> 2, 5 —> 1. Do dalszych obliczeń będziemy już wykorzystywali zmienną s2rr. Zanim przystąpimy do budowania wskaźnika samooceny, musimy sprawdzić, czy odpowiedzi napytania od sl do s5 mogą mierzyć tę samą zmienną teoretyczną. Wy- maga to weryfikacji trafności i rzetelności pomiaru (patrz następny podrozdział). Na razie załóżmy, że odpowiedź na to pytanie wypadła pozytywnie i że na tej podstawie możemy utworzyć wskaźnik samooceny przez uśrednienie odpowiedzi na poszcze- gólne pytania (oczywiście po uprzednim ich zrekodowaniu). 79 Rozdział 3. Mzualizacjadanych^\voj^eniewskaźników złożonych Średnia 3,03 Mediana 3,00 Dominanta 4,20 Rysunek 3.2. Rozkład częstości wskaźnika samooceny Kiedy dysponujemy pomiarem na skali ilościowej, możemy zrezygnować z czę- ści informacji, agregując wyniki. Mogą nas nie interesować punktowe różnice w wy- nikach na skali samooceny, ponieważ naszym celem jest tylko wyodrębnienie dwóch lub trzech grup różniących się pod względem samooceny. Patrząc na rozkład SAMO- OCENY (rysunek 3.2), widzimy, że będzie można wyodrębnić dwie grupy różniące się samooceną. W naszym zbiorze LEARN dokonaliśmy podziału na dwie grupy (dychotomi- zacji) ze względu na wyniki w zmiennej SAMOOCENA, tworząc w ten sposób nową zmienną SAM2, która przyjmuje dwie wartości: 1 - dla osób z niską samo- oceną; 2 - dla osób z samooceną wysoką. 80 | Typowe problemy występujące przy tworzeniu wskaźników W przypadku rozkładów innych zmiennych podział bywa mniej oczywisty. Mo- żemy go dokonać na różne sposoby. Jeżeli znamy rozkład zmiennej DEPRESJA i ma on określone normy dla badanej populacji, możemy za depresyjne uznać osoby, któ- re osiągnęły wynik co najmniej równy wynikowi określanemu jako próg dla depresji klinicznej, pozostałe zaś uznać za niedepresyjne. W ten sposób dokonujemy dycho- tomizacji zmiennej DEPRESJA, która przyjmuje teraz już tylko dwie wartości. Oso- by uzyskujące różne wyniki przy oryginalnym pomiarze stają się dla nas nierozróż- malne. Często jednak takich norm nie mamy. Może się też zdarzyć, że w naszej pró- bie nikt nie osiągnął wyniku odpowiadającego depresji klinicznej, ale nadal istnieje duże zróżnicowanie ze względu na tę zmienną. Możemy podzielić badaną próbę we- Typowe problemy występujące przy tworzeniu wskaźników dług mediany, według średniej lub też wyodrębnić grupy skrajne, np. odcinając gór- ne 25% i dolne 25% rozkładu. Każda z tych decyzji może zaowocować innymi wyni- kami, dlatego powinna być dokładnie rozważona i szczegółowo uzasadniona. Zilustrujmy to na przykładzie zmiennych WIEK i WYKSZTAŁCENIE (liczba lat nauki). Tabela 3.3. Tabela częstości zmiennej LATA NAUKI SZKOLNEJ z badania PGSS POZIOM WYKSZTAŁCENIA Zmienna porządkowa LATA NAUKI Zmienna przedziałowa Częstość Procent Procent ważnych Procent skumulowany brak 0 70 6 6 6 1 4 660 5,9 5,9 6,5 2 8 2 847 25,4 25,5 32,0 3,4 10 3 126 27,9 28,0 59,9 5,6 12 2 778 24,8 24,8 84,8 7,8 14 751 6,7 6,7 91,5 9 17 950 8,5 8,5 100,0 całość 11 182 99,9 100,0 Missing 98 - nie wiem 3 0 99 - brak danych 7 1 Całość 11 192 100,0 Respondenci PGSS mieli odpowiedzieć na pytanie o typ wykształcenia: brak, podstawowe, zawodowe, średnie, policealne, wyższe. Otrzymana w ten sposób zmien- na jest zmienną porządkową, więc nie można jej łatwo analizować. Aby móc wpro- wadzić tę zmienną do analiz za pomocą testów parametrycznych (wymagających skali ilościowej), badacze zamienili zmienną porządkową WYKSZTAŁCENIE na liczbę lat nauki, która teoretycznie może być traktowana jako zmienna ilościowa. Jest to wyjątkowy przypadek zmiany typu skali z gorszej na lepszą. Najczęściej do- konujemy transformacji w odwrotnym kierunku. Zmienne przedziałowe przekształ- camy w porządkowe lub nominalne (kategorialne). Jeżeli chcielibyśmy LICZBĘ LAT NAUKI zamienić na zmienną kategorialną według mediany, to podział nie byłby prosty. Mediana wyznaczona przez SPSS wynosi 10. Pojawia się problem: co zrobić z wynikami równymi medianie? Najbardziej elegancką decyzją byłoby usunięcie z analizy osób, które je uzyska- ły. Spowodowałby to pominięcie 28% próby, co w małych badaniach może być nie- akceptowalne (zostaje zbyt mało obserwacji), a w badaniach sondażowych, gdzie często interesuje nas próba reprezentatywna, oznacza postawienie pod znakiem za- pytania reprezentatywności obciętej próby. 81 Rozdział 3. Wizualizacja danych. Tworzenie wskaźników złożonych W takiej sytuacji badacz decyduje się często na włączenie wyników równych medianie do jednej z grup. W naszym przypadku nie można odciąć 25% rozkładu, ale można wyznaczyć skrajne 32% próby. Omawiane problemy są natury bardziej ogólnej, ponieważ w przypadku zmien- nych nieciągłych, a z tymi najczęściej mamy do czynienia w naukach społecznych, wiele osób może mieć tę samą wartość zmiennej, a to powoduje, że wyliczanie me- diany, kwarty li i innych miar pozycyjnych jest bardzo trudne. Chcielibyśmy wierzyć, że podział według mediany dzieli badaną próbę na połowy. W praktyce tak często nie jest. SPSS za medianę uznaje pierwszą wartość zmiennej, która odcina 50% przy- padków. W praktyce może to być wartość, która zawiera nawet 70% przypadków. Mediana jest najlepszym wskaźnikiem dla zmiennych z porządkowej skali po- miarowej tam, gdzie porządkujemy wyniki. W przypadku wielu rang wiązanych wyliczenie mediany może nie być proste. Rozpatrzmy teraz rozkład zmiennej WIEK. Możemy dokonać kategoryzacji, dzie- ląc osoby według wartości progowych, które zgodnie z naszymi hipotezami są ważne w naszym modelu, np. poniżej 25, 35, 55, 70 lat. Możemy też podzielić badaną próbę na pięć, w miarę równolicznych grup wie- kowych, stosując procedurę rangowania i podział na kwantyle. Każda z tych decy- zji zaowocuje nową zmienną o innym rozkładzie (patrz tabele 3.4 i 3.5 i rysunki 3.3 i 3.4). Tabela 3.4. Podział według kategorii zde- klarowanych przez badacza Tabela 3.5. Podział na 5 „równolicznych" grup L P PS 1,00 1287 11,5 11,5 2,00 1949 17,4 28,9 3,00 4443 39,7 ^ 68,6 4,00 2418 21,6 90,2 5,00 1095 9,8 100,0 Całość 11 192 100,0 L P PS 1 2146 19,2 19,2 2 2451 21,9 41,1 3 2115 18,9 60,0 4 2298 20,5 80,5 5 2182 19,5 100,0 Całość 11 192 100,0 L - częstość, PW - procent ważnych odpowiedzi (bez braków danych), P - procent, PS - procent skumulowany 82 Trafność i rzetelność wskaźnika. Współczynnik a Cronbacha RWIEK5 NWIEK5 NTlLESofQ9AGE Rysunek 3.3. Rozkład częstości zmień- Rysunek 3.4. Rozkład częstości zmien- nej RWIEK5 nej NWIEK5 Nowo utworzone zmienne RWIEK5, NWIEK5 mająte same wartości 1, 2, 3,4, 5, ale średnie wieku dla poszczególnych kategorii różnią się istotnie (patrz tabela 3.6). Tabela 3.6. Średni wiek w pięciu grupach wyznaczonych różnymi metodami RWIEK5 NWIEK5 Średni wiek N Średni wiek N 1,00 21,58 1287 1 24,17 2146 2,00 30,90 1949 2 35,87 2451 3,00 44,34 4443 3 44,70 2115 4,00 62,83 2418 4 56,52 2298 5,00 76,94 1095 5 71,94 2182 Całość 46,57 11 192 Całość 46,57 11 192 | Trafność i rzetelność wskaźnika. Współczynnik a Cronbacha Pomiar można wyobrazić sobie jako strzelanie do celu. Każdy element składowy wskaźnika jest jednym strzałem. Wskaźnik jest rzetelny (jednorodny), jeżeli strzały są na tarczy położone blisko siebie. Wskaźnik jest trafny, jeżeli nasze strzały trafiły w punkt, w który chcieliśmy trafić. Już ta metafora pozwala na stwierdzenie, że rzetelność wskaźnika nie gwarantuje jego trafności. 83 Rozdział 3. Wizualizacja danych. Tworzenie wskaźników złożonych 84 Ogólnie mówiąc, pytanie o trafność dotyczy tego, co mierzy nasz wskaźnik, pytanie o rzetelność - tego, jak dobrze mierzy. Nie możemy określić trafności naszego wskaźnika, nie dysponując dodatkowymi danymi. Może się okazać, że od- powiedzi na pytania od sl do s5 mierzą skłonność badanego do przedstawiania się w dobrym świetle, a nie jego samoocenę. Jeżeli mamy dostęp do grupy terapeutycz- nej, w której terapeuta określał wysokość samooceny uczestników, to porównując średnie wartości wskaźnika SAMOOCENA w wyodrębnionych grupach, wyliczone na podstawie ankiet wypełnionych przez badanych i ocen terapeuty, będziemy mogli określić jego trafność. Ten typ trafności nazywa się trafnością kryterialną (diagno- styczną). Kryterium stanowi tu ocena terapeuty. Dla oszacowania trafności ocen szkol- nych kryterium stanowić może wynik egzaminu wstępnego na studia. Inne rodzaje trafności omówione są wyczerpująco w literaturze [5], my skoncentrujemy się na rzetelności wskaźnika, ponieważ możemy ją ocenić bez dodatkowych danych. Trzeba jednak pamiętać, że omawiana tutaj jednorodność jest jednym z aspektów rzetelności, które szczegółowo sąprezentowane w podręcznikach metodologicznych [5]. Wskaźnik jest rzetelny (jednorodny), jeżeli odpowiedzi na poszczególne pyta- nia są ze sobą ściśle związane. Miarą związku między zmiennymi ilościowymi jest współczynnik korelacji, który zostanie dokładnie omówiony w rozdziale 8. Korela- cja dwóch zmiennych, oznaczana przez r, mówi nam o związku dwóch zmiennych ze sobą. Przyjmuje ona następujące wartości: -1 < r < 1. Gdy nie ma liniowego związku między zmiennymi, to korelacja jest bliska zeru. Gdy mamy do czynienia ze związ- kiem dodatnim (tzn. wraz ze wzrostem jednej zmiennej rośnie druga zmienna), współ- czynnik korelacji jest dodatni, gdy związek jest ujemny - współczynnik również przyjmuje wartości ujemne. Jeżeli odpowiedzi na pytania są zmiennymi ilościowymi, to możemy policzyć ko- relacje między odpowiedziami na wszystkie pytania, a następnie wyliczyć średni współ- czynnik korelacji (r). Miarą rzetelności wskaźnika powstałego z analizowanego zbio- ru pytań jest a Cronbacha, którą wyliczamy według następującego wzoru: kr gdzie f jest średnią z korelacji wszystkich zmiennych Xk, k zaś liczbą zmiennych tworzących skalę. Inne sposoby definiowania orCronbacha znajdzie Czytelnik w pod- ręcznikach metodologicznych [por. 5]. Na dole raportu zamieszczonego w tabeli 3.7 mamy wydrukowaną a Cronbacha, widzimy, że jest ona dość mała, a = 0,33. Może to świadczyć o tym, że albo nasza skala jest źle skonstruowana, albo jakiś problem kryje się w naszych danych. Pamiętajmy także, że warto zawsze spojrzeć na tę część raportu, która zawiera statystyki informujące nas o wartości a, gdyby jedna ze zmiennych została usunięta. W szczególności ostatnia kolumna (arpo wykluczeniu pytania) pokazuje, jak zmieni się a, gdy usuniemy daną zmienną ze skali. Można w ten sposób wykrywać zmienne, które „psują" skalę. Po ich usunięciu a znacznie wzrasta. W naszym przypadku usu- I Tabela 3.7. Analiza rzetelności skali SAMOOCENA po przekodowaniu odpowiedzi „Trudno powiedzieć" do środka skali Macierz korelacji Statystyki dla pytań Średnia skali przy wykluczeniu pytania Wariancja skali przy wykluczeniu pytania Korelacje. Pytanie - skala a po wykluczeniu pytania S1R S2R S3R S4R S5R S1R 1,00 10,87 7,66 0,53 -0,07 S2R -0,75 1,00 11,43 22,89 -0,83 0,88 S3R 0,55 -0,67 1,00 11,57 6,98 0,71 -0,24 S4R 0,66 -0,75 0,82 1,00 11,00 4,82 0,75 -0,59 S5R 0,61 -0,68 0,58 0,67 1,00 10,78 8,18 0,62 -0,07 N = 23 a=0,33 Tabela 3.8. Analiza rzetelności skali SAMOOCENA po odwróceniu skali odpowiedzi na pytanie drugie Macierz korelacji Statystyki dla pytań Średnia skali przy wykluczeniu pytania Wariancja skali przy wykluczeniu pytania Korelacje. Pytanie - skala a po wykluczeniu pytania S1R S2R S3R S4R S5R S1R 1,00 11,91 24,63 0,73 0,90 S2R 0,75 1,00 11,43 22,89 0,83 0,88 S3R 0,55 0,67 1,00 12,61 24,79 0,77 0,89 S4R 0,66 0,75 0,82 1,00 12,04 20,23 0,85 0,88 S5R 0,61 0,69 0,58 0,67 1,00 11,83 26,60 0,72 0,90 N = 23 a =0,91 I o t a, o. ! O" a Rozdział 3. Wizualizacja danych Tworzenie wskaźników złożonych nięcie zmiennej s2r podniesie rzetelność skali z 0,33 do 0,88. Jest to poważny sy- gnał, by przyjrzeć się macierzy korelacji (tabela 3.7). Macierz korelacji pokazuje korelacje wszystkich zmiennych - każda z każdą. Ponieważ z założenia wszystkie zmienne mają być związane z jedną zmienną teoretyczną, to ich korelacje powinny być w miarę duże, no i przede wszystkim dodatnie. W naszym przypadku tak nie jest. Widzimy, że zmienna s2r koreluje ujemnie z in- nymi. Oczywiście wynika to z tego, że jest ona zakodowana w przeciwnym kierunku do pozostałych. Naprawmy zatem nasz błąd, odpowiednio rekodując s2r na s2rr. Kolejnym krokiem będzie ponowne policzenie or Cronbacha dla skali ze wszyst- kimi pytaniami zakodowanymi w tym samym kierunku. Tym razem rzetelność jest bardzo dobra, cc= 0,91 (tabela 3.8). Oznacza to, że skala samooceny jest rzetelna. Licząc a Cronbacha, trzeba zawsze pamiętać, żeby przyjrzeć się dokładnie ma- cierzy korelacji, sprawdzić, czy wszystkie korelacje są duże i nieujemne. Czasem może się nawet zdarzyć, że źle zakodowane dane prowadzą do a mniejszej od zera, co jest oczywiście wynikiem absurdalnym, nawet dla bardzo złej skali (z definicji rzetelność jest dodatnia). Na koniec warto zrobić następującą uwagę dotyczącą interpretacji określonego wyniku a. Otóż należy pamiętać, że niska rzetelność skali oznacza, że nie mamy wystarczających podstaw do budowania wskaźnika zmiennej teoretycznej przez uśred- nianie odpowiedzi na poszczególne pytania wchodzące w skład skali. Oczywiście rzetelność, jak wszystkie statystyki, jest tym wiarygodniejsza, im większą liczbę respondentów badamy. 86 | Ograniczenia i wady a Cronbacha Analiza rzetelności przeprowadzona za pomocą a Cronbacha (oraz podobnych do niej miar) ma dość istotne wady, które nie pozwalają na traktowanie jej jako jedy- nego wskaźnika rzetelności. Pierwszy problem jest związany z tym, że licząc ar Cronbacha, zakładamy mil- cząco, iż zmienne tworzące skale są związane z tylko jedną zmienną teoretyczną. Czasem może się nawet tak wydawać przy konstrukcji skali, ale rzeczywistość bywa często bardziej skomplikowana. Zdarza się również, że skala jest celowo tak zbudo- wana, by zawierać dwie lub więcej podskal - gdy chcemy mierzyć jednocześnie kilka zmiennych teoretycznych. Wtedy oczywiście stosowanie dr Cronbacha na nie- wiele się zda, a nawet bywa bardzo mylące. Można zbudować skalę, która mierzy dwie zmienne teoretyczne, a jednocześnie ma dużą er Cronbacha. W takiej sytuacji nietrudno o fałszywy wniosek, że skala jest związana z tylko jedną zmienną nieob- serwowalną. Istnieje metoda, która pozwala nam badać skale w sposób znacznie bar- dziej szczegółowy: analiza czynnikowa, która jest zaawansowaną metodą statystyczną i jej dokładne omówienie wykracza poza zakres tego podręcznika. Dzięki analizie czynnikowej, między innymi, możemy wykryć, że skala zawiera podskale. Pokaże- my to dalej na przykładzie. Ograniczenia i wady a Cronbacha Jeżeli domyślamy się, które zmienne są związane z danąpodskalą, możemy wów- czas liczyć a Cronbacha dla każdej skali z osobna. Druga własność a Cronbacha jest związana z tym, że rośnie ona wraz ze wzro- stem liczby zmiennych (pytań) w skali. Możemy zatem sztucznie zwiększyć wartość współczynnika rzetelności skali, dodając do niej kolejne zmienne. Zjawisko takie występuje zwłaszcza dla małych skal (10-20 zmiennych). Dla skal powyżej 20 zmien- nych problem ten ma mniejsze znaczenie. Policz rzetelność dla skali, która ma średnią korelację r = 0,2 oraz a) /c=6 b) /c=11 c) fc=21 d) /c = 31. Zwróć uwagę na to, jak a rośnie w miarę dodawania zmiennych do skali, mimo że średnia korelacja jest dość mała. Dla jakich wartości k efekt ten jest największy? Sprawdź, czy obser- wujemy coś takiego dla większych wartości k, np. 60, 80. a = - kr Liczba pytań Obliczenia (a) Wartość a k = 6 a 6x0.2 6x0,2 = 0,6 0,6 1 + 0,2(6-1) 2 k- 11 a = 11x0.2 11x0,2 = 0,73 0,73 1 + 0,2(11-1) 3 k- 21 a = 21x0.2 21x0,2 = 0,84 0,84 1 + 0,2(21-1) 5 k = 31 a 31x0.2 31x0,2 = 0,89 0,89 1 + 0,2(31-1) 7 87 Rozdział 3. Wizualizacja danych. Tworzenie wskaźników złożonych Tak jak pokazano w przykładzie 3.1 policz rzetelność dla skali, która ma średnią korelację r = 0,6 oraz e) /c=6 f) A-=11 g) *=21 h) /c = 31. Liczba pytań Obliczenia (a) Wartość a k=6 A-= 11 A:= 21 k = 31 [Przykład zastosowania analizy czynnikowej do tworzenia wskaźników Co powinien zrobić badacz, jeżeli jego celem jest wnioskowanie na podstawie wielu zmiennych obserwowalnych (takich jak np. odpowiedzi na pytania) o zmien- nych ukrytych (latentnych, nieobserwowalnych)? Innymi słowy, co zrobić, kiedy na przykład mamy pewną liczbę pytań (zmiennych obserwowalnych) i chcemy zoba- czyć, czy te pytania mierzą interesującą nas zmienną latentną, ukrytą. Rozważmy pytanie z PGSS (panel 2003) dotyczące łatwości wprowadzenia zmiany różnych zachowań w życiu codziennym. Respondenci byli proszeni o ocenę stwier- dzeń (tabela 3.9) na skali od 1 do 8 opisanej w następujący sposób: Nic nie musiałabym zmieniać, bo tak się zachowuję Łatwo Raczej łatwo Raczej trudno Trudno Bardzo trudno Wydaje mi się to prawie niemożliwe Nie mogę określić — musiałabym spróbować 1 2 3 4 5 6 7 8 Przykład zastosowania analizy czynnikowej do tworzenia wskaźników Tabela 3.9. Pytania dotyczące łatwości wprowadzenia zmiany z PGSS - panel 2003 1 Planowanie posiłków (kupowanie jedzenia według planu i wyznaczanie sobie porcji do zjedzenia na dany dzień) 2 Planowanie godzin posiłków i ścisłe trzymanie się tego planu 3 Jedzenie wszystkich posiłków przy stole (niezjadanie niczego bezpośrednio z lodówki, prosto z opakowania lub garnka) 4 Nakładanie wyznaczonych porcji na talerz i całkowita rezygnacja z dokładek 5 Wolne jedzenie z przerwami z zastanowieniem, czy naprawdę chce Pani więcej zjeść 6 Jedzenie niedużych posiłków 5-6 razy dziennie 7 Nięnajadanie się do syta, przerywanie jedzenia, kiedy czuje Pani, że mogłaby coś jeszcze zjeść 8 Powstrzymanie się od zjedzenia reszty posiłku, który jest na Pani talerzu, w chwili, gdy poczuje Pani sytość 9 Niepodjadanie między posiłkami 10 Pełna koncentracja w czasie jedzenia na przeżuwaniu produktów 11 Przeczekiwanie pierwszego głodu 12 Przeprowadzenie jednodniowej głodówki 13 Przeprowadzenie trzydniowej głodówki 14 Ograniczenie spożywania soli 15 Codzienne ćwiczenia gimnastyczne 16 Regularna aktywność fizyczna (jazda na rowerze, gra w piłkę itp.) 17 Rezygnacja z jazdy autobusem czy samochodem, jeśli można dojść pieszo Pytanie, jak zbudować wskaźnik przywodzi na myśl omawiany w pierwszym rozdziale przypadek pomiaru ziemniaka. Wszystko zależy od tego, co nas w ziem- niaku interesuje. Pierwszym krokiem jest sprawdzenie rozkładów, następnym za- deklarowanie braków danych, do których trzeba zaliczyć odpowiedzi „nie mogę tego określić - musiałabym spróbować". Jeżeli nas interesują zachowania prozdro- wotne, możemy policzyć liczbę odpowiedzi „nic nie musiałabym zmieniać, bo tak się zachowuję". Możemy też potraktować skalę odpowiedzi jako skalę ilościową (puryści meto- dologiczni oczekujący normatywnego, a nie praktycznego podejścia do założeń mogą czuć się oburzeni - przecież powinniśmy wykazać, że istnieje stała jednostka pomia- ru, że odległość między „nic nie musi" do „łatwo" jest taka sama jak między „łatwo" do „raczej łatwo" itd. Prawdąjest jednak, że tego typu dane porządkowe są powszech- nie analizowane za pomocą testów zakładających istnienie stałej jednostki pomiaru (zmienne ilościowe). Prezentowane pytania mogą być traktowane jako bateria wskaźników zmiennej latentnej. Aby zbudować wskaźnik lub, myśląc metaforycznie, odkryć zmienną la- tentną, którą te zmienne mierzą, musimy wykorzystać współczynniki korelacji mię- 89 Rozdział 3. Wizualizacja danych. Tworzenie wskaźników złożonych dzy pytaniami (pozycjami). W tym przypadku Nowak* doradza zastosowanie nastę- pującej heurystyki postępowania: Najpierw trzeba zanalizować zależności (z reguły statystyczne) między wszystki- mi potencjalnymi wskaźnikami indicatum, a następnie włączyć do skali zmiennej la- tentnej tylko te, które spełniają określony schemat zależności (naprzykład są wysoko skorelowane). W praktyce spora część badaczy poprzestaje na policzeniu wskaźnika rzetelności (jednorodności) — ot Cronbacha. Włączenie opcji podającej korelacje i rzetelności po wyeliminowaniu kolejno każdej zmiennej (po wykluczeniu pozycji) pozwala na wychwycenie pytań niesko- relowanych ze skalą i usunięcie ich z analizy. Tak też zrobiliśmy w analizowanym przez nas przykładzie. Możemy wszystkie te pytania potraktować jako jedną skalę i policzyć orCronba- cha dla 17 pytań (tabela 3.10). Tabela 3.10. Analiza rzetelności skali składającej się z 17 pytań Statystyki dla 17 pozycji testowych Średnia skali przy wykluczeniu pytania Wariancja skali przy wykluczeniu pytania Korelacje pytanie - skala ar przy wykluczeniu pytania CH1 51,98 220,62 0,50 0,869 CH2 51,85 219,06 0,54 0,867 CH3 52,51 220,57 0,50 0869 CH4 52,51 219,28 0,64 0,863 CH5 52,01 216,25 0,64 0,863 CH6 51,90 224,12 0,45 0,871 CH7 52,13 219,42 0,63 0,864 CH8 52,63 224,15 0,59 0,866 CH9 52,33 224,80 0,53 0,868 CH10 51,91 222,63 0,52 0,868 CH11 51,91 225,38 0,53 0,867 CH12 51,30 222,55 0,50 0,869 CH13 50,06 224,39 0,42 0,872 CH14 51,94 228,07 0,38 0,873 CH15 51,94 226,13 0,42 0,872 CH16 51,52 227,12 0,38 0,873 CH17 52,49 225,61 0,49 0,869 A/=199 or = 0,875 Nowak S. (1985). Metodologia badań społecznych. Warszawa: Państwowe Wydawnictwo Na- 90 ukowe. Przykład zastosowania analizy czynnikowej do tworzenia wskaźników Dla 17 pozycji i 199 obserwacji ctrwyniosła 0,875. Jest to rezultat z pozoru zado- walający. Dlaczego z pozoru? Dowiemy się za chwilę. Na razie spróbujmy przepro- wadzić podobną analizę tylko dla 3 pozycji: 15, 16 i 17 (tabela 3.11). Parę ustaleń terminologicznych: Pytanie w kwestionariuszu jest określane jako pozycja, item. Pisząc „korelacja między pytaniami", mamy na myśli korelację mię- dzy odpowiedziami na pytania. Tabela 3.11. Analiza rzetelności pytań 15, 16 i 17 (aktywność fizyczna) Statystyki dla 3 pytań Średnia skali przy wykluczeniu pytania Wariancja skali przy wykluczeniu pytania Korelacje pytanie - skala a przy wykluczeniu pytania CM 5 6,29 7,19 0,54 0,522 CH16 6,40 7,00 0,58 0,463 CH17 7,47 9,65 0,37 0,723 N = 327 er =0,68 Współczynnik a dla 3 pytań wyniósł 0,68. Dla tak krótkiej skali jest to rezultat bardzo dobry, ale warto zwrócić uwagę, że trzecie pytanie „odstaje" od reszty. Gdy przypomnimy sobie jego treść, stanie się jasne, że rezygnacja zjazdy samochodem/ autobusem może wynikać z innych powodów niż dbanie o zdrowie, może być np. związana z oszczędzaniem pieniędzy. A jaki będzie rezultat, jeżeli nasz wskaźnik obejmie tylko pierwsze 10 pytań, które określimy jako styl jedzenia? Analiza rzetelności metodą a Cronbacha w tym przypadku również wypadła pomyślnie, gdyż wskaźnik ten osiągnął poziom 0,86 (7V = 261). Niestety a o wysokich wartościach wcale nie musi świadczyć o jedno- rodności skali. Kolejny krok stanowi analiza składowych głównych, która jest od- mianą analizy czynnikowej (obu nazw będziemy w podręczniku używać zamien- nie). Jest to skomplikowana metoda statystyczna [21] i nie będziemy jej tutaj dokład- nie omawiać, a jedynie pokażemy, jak można posługiwać się wydrukami w celu stwo- rzenia wskaźników. Sytuacja ta przypomina uczenie kierowcy znaczenia poszczegól- nych kontrolek na desce rozdzielczej, bez tłumaczenia mechanizmów ich działania. Podstawowa informacja z analizy czynnikowej dotyczy liczby czynników (składo- wych głównych), do których mogąbyć zredukowane wprowadzone do analizy zmien- ne, i korelacji zmiennych z czynnikiem, który odpowiada naszej zmiennej ukrytej (teoretycznej, latentnej). Chociaż analiza czynnikowa jest metodą ogólną, to tutaj skoncentrujemy się na przypadku przekształcenia zbioru pytań w jeden wskaźnik zmiennej teoretycznej. Przeanalizujmy odpowiedzi na trzy ostatnie pytania. 91 Rozdział 3. Wizualizacja danych. Tworzenie wskaźników złożonych .4 i. :if!itl*J czynnikowe Jeżeli odpowiedzi na ostatnie trzy pytania, a ściślej macierz korelacji między nimi, zostaną poddane analizie czynnikowej, to otrzymamy jeden czynnik wyjaśniający 61 % wariancji. Z for- malnego punktu widzenia czynnik (/-ta składowa główna) jest kombinacją liniową odpowie- dzi na pytania kwestionariusza i ładunków czynnikowych (facłor loadings), daną wzorem: F-, = aiX,5 + a2X16 + akXu, gdzie: a! - ak to ładunki czynnikowe, Xi -Xk\o odpowiedzi na pytania (zmienne ilościowe), a F-, to wynik czynnikowy dla Mej osoby. Oznacza to dla nas, że dla każdej osoby otrzymujemy jeden wynik (czynnikowy) zamiast trzech odpowiedzi na pytania. Gdyby wszystkie wagi były równe 1, wartość czynnika F: równałaby się sumie odpowiedzi na trzy pytania. Gdy wagi są różne od jedności, jest to suma ważona. Jest to oczywista redukcja liczby zmiennych, która gdy zostanie dobrze przeprowadzona, ułatwia interpretację danych, ale wiąże się z utratą informacji. Czynnik wyjaśnia zaledwie część wariancji odpowiedzi na pytania. Im więcej, tym oczywiście lepiej. Ładunki czynnikowe dla kolejnych pytań wynoszą: pytanie 15 a, = 0,821 pytanie 16 a2 = 0,846 pytanie 17 a3 = 0,665. Dla ułatwienia obliczeń załóżmy, że w naszym przykładzie wynoszą one odpowiednio: 0,8; 0,8 i 0,7. Wynik czynnikowy możemy wyliczyć dla danej osoby według następującego wzoru: F=0,8xX1 + 0,8 xX2+0,7 xX3, gdzie X15, Xi6, X-il oznaczają odpowiedzi na kolejne pytania. Policzmy wyniki czynnikowe dla osób, które odpowiedziały na pytania 15,16 i 17 w naszym przykładzie w następujący sposób: Jaś Małgosia X15 = 6 X15 = 2 X16 = 2 X16 = 5 X„ = 4 X17 = 2 Fj= 4,8 + 1,6 + 2,8 = 9,2 FM= 1,6 + 4 + 1,4 = 7 Porównanie wyników czynnikowych pozwala stwierdzić, że ze zwiększeniem aktywności Jaś ma większe problemy niż Małgosia. Czynnik (ściślej wynik czynnikowy) jest nową zmienną, która może być dalej analizowana tak jak inne zmienne, np. odpowiedzi na pytanie. Różnica polega na tym, źe te ostatnie wiążą się z bezpośrednim pomiarem, czynnik zaś jest zmienną teoretyczną wynikającą z przekształceń zbioru zmiennych obserwowalnych. Przykład zastosowania analizy czynnikowej do tworzenia wskaźników Tak jak pokazano w przykładzie 3.2, policz wyniki czynnikowe dla kolejnych dwóch osób, stosując te same ładunki czynnikowe. Jaś Małgosia X, = 3 X, = 4 X2=5 X2=4 X3=2 X3=3 Wnioski: 1. Wykonując analizę czynnikową, możemy zredukować liczbę informacji - np. odpowiedzi na 3 pytania zastąpić jednym wynikiem czynnikowym (ważoną sumą odpowiedzi na 3 pytania). 2. Analizując ładunki czynnikowe, możemy stwierdzić, jak dobrze dane pytanie jest związane z danym czynnikiem. Tę informację zawiera ładunek czynniko- wy, który może być traktowany jako korelacja zmiennej (danego pytania) z czynnikiem (nową zmienną). Możemy więc wybrać pytania, które będą two- rzyć wskaźnik tej samej zmiennej teoretycznej. W powyższym przykładzie pytanie trzecie miało niższy ładunek czynnikowy niż pozostałe, stąd możemy przypuszczać, że jest gorszym niż pozostałe wskaźnikiem zmiennej ukrytej - dlatego też odpowiedzi na te pytania w mniejszym stopniu wpły- wały na wynik czynnikowy niż odpowiedzi na dwa pozostałe pytania. Kiedy z macierzy korelacji między pytaniami kwestionariusza (naturalnie mamy tu na myśli odpowiedzi na pytania kwestionariusza) zostanie wyodrębniony więcej niż jeden czynnik (sytuacja nadzwyczaj powszechna), otrzymujemy informacje o licz- bie czynników i ładunkach czynnikowych każdej zmiennej dla każdego czynnika. Te ładunki są podstawą interpretacji czynników. Warto odnotować, że o ile wskaźnik oparty na średniej z poszczególnych py- tań zakłada równe wagi poszczególnych pytań, to wyniki czynnikowe uwzględnia- ją różny ich udział we wskaźniku zmiennej teoretycznej (ukrytej, latentnej). Przeanalizujmy wydruk analizy czynnikowej dla 17 pytań. W najprostszym wa- riancie powinniśmy zapamiętać, że analiza czynnikowa przekształca informacje o ko- relacjach między pytaniami (tabela 3.12) w informacje o: 1. liczbie czynników (składowych głównych); 2. ładunkach czynnikowych (tabela 3.13). 93 Rozdział 3. Wizualizacja danych. Tworzenie wskaźników złożonych 94 O O co I N o co N "ćó < I CD g 'o -w I CO O cv co _to O) J2 co i— o CM LO CD oo LO LO o o co CM cn o co o X O co CM CM CO CM CM co CN co co CN X— CN co co o o o O O o O o o o o o o o o o o co 00 CM CN co o IO LO co co co co 00 o CM CM CN CM CN CN CM CM LO o O o o O O O o" O O o o o" o O o o LO co CO O CO LO co o o r- ?<* CD CM o O O CM v- CN co CM CM co co CO CM o o o O O O o O o O o o o o o ?"" t co 00 co 00 o CD CN Tf cn co co CM o I O O CM CN CM co co co CO o o o O O O O O O o o o o O ?"" co o CM lO CM O) O O LO LO ^_ O X O CN O CM CM CN CM T— CM co O o o o O O O O O O o o o T" CM o CD o CO 00 m O) O ^_ o CM CM CM CM co CO LO o O o o o O O O O o o o o '- ,- LO co h- T_ ^ CD CN O) co o CN CO CM LO co o O o o o O o O O O o o o CM co o CD CD cn O) o U co co co CN co co o o o" o o" o o" o o o -~ O) LO o O O) o X CN CN co CO co CM ^~ o ._ O o o o o o O o o *~ o ra 00 O) CM LO cn o - co O I LO LO O O o o CM o X o o o *- o X o o ?"- ra CM CO LO (O r- 00 cn o CM co LO (O elac o O O o o X O O o X o X U o I o X O O X o o X o o Przykład zastosowania analizy czynnikowej do tworzenia wskaźników Tabela 3.13. Dane wyjściowe - Analiza czynnikowa (FACTOR) Macierz ratowanych składowych(a) Czynnik 1 2 3 4 CH1 Planowanie posiłków (...) 0,798 CH2 Planowanie godzin posiłków i ścisłe trzymanie się tego planu 0,846 CH3 Jedzenie wszystkich posiłków przy stole (...) 0,778 CH4 Nakładanie wyznaczonych porcji na talerz (...) 0,685 CH5 Wolne jedzenie z przerwami (...) 0,659 CH6 Jedzenie niedużych posiłków 5-6 razy dziennie 0,412 CH7 Nienajadanie się do syta, przerywanie jedzenia (...) 0,686 CH8 Powstrzymanie się od zjedzenia reszty posiłku (...) 0,809 CH9 Niepodjadanie między posiłkami 0,640 CH10 Pełna koncentracja w czasie jedzenia na przeżuwaniu (...) 0,480 CH11 Przeczekiwanie pierwszego głodu 0,670 0,457 CH12 Przeprowadzenie jednodniowej głodówki 0,853 CH13 Przeprowadzenie trzydniowej głodówki 0,893 CH14 Ograniczenie spożywania soli 0,451 CH15 Codzienne ćwiczenia gimnastyczne 0,786 CH16 Regularna aktywność fizyczna (...) 0,856 CH17 Rezygnacja zjazdy autobusem czy samochodem (...) 0,465 0,464 % wariancji wyjaśniony przez czynnik 20,39 17,78 13,17 10,65 Metoda wyodrębniania czynników - Głównych składowych. Metoda rotacji - Vahmax z normalizacją Kaisera. Zwykle badacz interpretuje ładunki czynnikowe po rotacji VARIMAX, która ma gwarantować brak korelacji między czynnikami. O tym, jak standardowo ustala się liczbę czynników i jak rotuje się czynniki warto przeczytać w pracach [10, 21]. Celem analizy jest przedstawienie informacji zawartej w odpowiedziach na pytania w postaci mniejszej liczby czynników, więc gdy liczba czynników równa jest liczbie pytań, nic nie zyskujemy. Wprowadzając nasze 17 pytań do analizy czynnikowej, otrzymaliśmy 4 składo- we główne wyjaśniające łącznie prawie 62% wariancji. Ładunki czynnikowe dla poszczególnych zmiennych są opisane w tabeli 3.13. Dla ułatwienia czytelności wydruku ładunki mniejsze od 0,4 zostały pominięte. Tabela ta informuje nas, że pytania 1-6 wydająsiębyć związane z jednym czynnikiem, 7-11 z drugim, 12-14 z trzecim i 15-17 z czwartym. 95 Rozdział 3. Wizualizacja danych. Tworzenie wskaźników złożonych Kiedy przeanalizujemy treść pytań związanych z poszczególnymi czynnikami, możemy je przykładowo zinterpretować w następujący sposób: 1. czynnik jako OGRANICZANIE - pytania tworzące ten czynnik dotyczą bo- wiem właśnie powstrzymywania różnych zachowań związanych zjedzeniem; 2. czynnik jako PLANOWANIE - ponieważ odnośnie pytania dotyczą różnych aspektów planowania posiłków; 3. czynnik jako ODTRUWANIE, gdyż składające się nań pytania dotyczą zacho- wań mających na celu oczyszczenie organizmu; 4. czynnik jako ĆWICZENIE, gdyż odnoszące się doń pytania dotyczą aktywno- ści fizycznej. Analiza czynnikowa pokazała, że nasza z pozoru jednorodna skala z wysoką «Cronbacha równą 0,875 nie jest wcale jednorodna, a nasz wskaźnik rzetelności okazał się mylący. Trzeba pamiętać, że wyniki analizy czynnikowej mogą się istotnie zmieniać pod wpływem włączenia do analizy nawet pojedynczych zmiennych, deformując struk- turę czynnikową. Dlatego też rozsądniej jest nie wprowadzać do analizy, w sposób eksploracyjny, wszystkich pytań, ale uprzednio dokonać ich treściowej analizy. Jako przykład niech nam posłuży analiza czynnikowa wykonana dla pierwszych 5 pytań z naszego przykładu. Tabela 3.14. Analiza czynnikowa dla 5 pytań Macierz sktadowych(a) Składowa 1 CH1 0,745 CH2 0,791 CH3 0,759 CH4 0,762 CH5 0,679 Całkowita wyjaśniona wariancja Składowa Ogółem % wariancji % skumulowany 1 2,799 55,983 55,983 2 3 4 5 Na zaprezentowanym w tabeli 3.14 wydruku widzimy, że przeprowadzona anali- za ujawniła tylko jeden czynnik (jedną składową), co oznacza, że pytania 1-5 stano- wią jednorodną skalę. Co się jednak stanie ze strukturą czynnikową i związaną z nią interpretacją, jeśli do pierwszych pięciu dołożymy pytanie szóste z naszego zbioru 17 pytań? 96 Wprowadzenie do wizualizacji danych Tabela 3.15. Analiza czynnikowa dla 6 pytań Macierz rotowanych składowych(a) Składowa 1 2 CH1 0,900 CH2 0,832 CH3 0,586 0,447 CH4 0,493 0,624 CH5 0,688 CH6 0,864 Całkowita wyjaśniona wariancja Składowa % wariancji 1 36,980 2 30,967 Jak widzimy w tabeli 3.15, jedno mniej przemyślane posunięcie przyczyniło się do rozbicia jednorodnej skali na niejednorodną, składającą się już z dwóch czynników. lżenie do wizualizacji danych Często badacze są tak skoncentrowani na poszukiwaniu wyników istotnych sta- tystycznie (co to oznacza, przekonamy się w następnym rozdziale), że zapominają 0 podstawowym celu, jakim jest zrozumienie uzyskanych danych i rejestrowanych dzięki nim zjawisk. Testowanie istotności statystycznej otrzymanych wyników sta- nowi zazwyczaj ostatni etap całej analizy. Podstawową rzeczą jest dokładne obejrze- nie danych, czemu służy w dużym stopniu wizualizacja danych. Przez długi czas zasadnicze metody badania polegały na oglądaniu zebranego zbioru obserwacja po obserwacji lub liczeniu różnego rodzaju statystyk ze zmien- nych, które zawierał. Pierwsza metoda, jak łatwo się domyślić, jest niezwykle żmud- na, nawet dla niewielkich zbiorów danych. Druga wydaje się znacznie lepsza. Na przykład, aby się dowiedzieć czegoś o dochodzie badanych osób, liczymy średnią 1 odchylenie standardowe odpowiedniej zmiennej. Podobnie, aby zbadać powiązanie między dochodem a wykształceniem, możemy policzyć korelację tych zmiennych. Takie postępowanie jest bardzo wygodne. Sprowadza nam informację zawartą w du- żym zbiorze danych do jednej czy dwóch liczb. Niestety, tak się składa, że często w rzeczywistych sytuacjach tak daleko idąca „kompresja" informacji prowadzi do utraty istotnej jej części. Pamiętamy, że średnia i odchylenie standardowe są bardzo czułe na obserwacje odstające. Jeśli takie informacje znajdują się w naszych danych i zostaną włączone do statystyk, to po pierwsze, tracimy informację o tym fakcie, a po drugie, policzona średnia jest zawyżona (lub zaniżona). 97 Rozdział 3. Wizualizacja danych. Tworzenie wskaźników złożonych 98 Podobnie korelacja liniowa dwóch zmiennych pozwala nam wykryć wyłącznie liniową zależność między nimi. Gdy zależność ta jest inna (krzywoliniowa), to współ- czynnik korelacji może nam fałszywie wskazać na istnienie korelacji lub jej brak. Sytuacja staje się jeszcze trudniejsza, gdy nasze dane są „wielowymiarowe", czyli kiedy badamy kilka zmiennych jednocześnie. Dopóki nie dysponowaliśmy komputerami o dobrych możliwościach graficznych, trudno było szukać wzorów i anomalii w danych. Obecnie jednak oprogramowanie, które mamy do dyspozycji pozwala na stosowanie bardzo wyrafinowanych metod wizualizacji danych. Wizualizacja danych pozwala zrealizować trzy podstawowe cele: 1. Zapoznanie się z danymi. Sprawdzenie, czy nie zawierają one anomalii. Zanim rozpoczniemy liczenie jakichkolwiek statystyk, sprawdzamy, jaki roz- kład mają nasze zmienne, ponadto musimy się przekonać, czy dane są po- prawnie zakodowane, czy są w nich braki danych, czy dane nie zawierają obserwacji odstających itp. Znajomość rozkładu zmiennej jest niezwykle użyteczna, gdy tworzymy wskaź- niki - czasem rozkład zmiennej będzie nam wręcz narzucał metodę tworzenia wskaźnika, co widzieliśmy w podrozdziale poświęconym temu zagadnieniu. 2. Przekonanie się, czy postawione przed badaniem hipotezy mają szansę być potwierdzone za pomocą danych, którymi dysponujemy. Może się pozornie wydawać, że takie postępowanie jest nieuzasadnione, że jest wręcz herezją - przecież o tym, czy hipotezy przez nas postawione mogą być przyjęte czy od- rzucone decydują testy statystyczne. To rzeczywiście prawda, tyle że znacznie łatwiej jest dobrać odpowiedni test statystyczny, gdy wiemy, z jakiego rodzaju rozkładami zmiennych mamy do czynienia (normalny, skośny itd.), jakiego typu zależności (liniowe, nieliniowe itp.) są obecne w naszych danych. Często, przy odrobinie wprawy, możemy na oko ocenić, czy dane potwierdzają czy nie nasze hipotezy, dzięki czemu efektywniej i szybciej znajdujemy intere- sujące nas zależności. Zdarza się również tak, że przyglądając się naszym da- nym, a nie ograniczając się do robienia wyłącznie zaplanowanych testów staty- stycznych, możemy odkryć jakąś interesującą, nową i nieoczekiwaną zależność. 3. Diagnostyka statystyk. Jest to nader istotne zagadnienie. Bardzo często po przeprowadzeniu testów statystycznych badacz osiada na laurach, zadowolo- ny z uzyskanego wyniku. Trzeba jednak pamiętać, że za testami statystyczny- mi stoi wiele różnych założeń dotyczących danych. Poważne złamanie nie- których z nich może spowodować, że uzyskane wyniki będą nieprawdziwe. Oczywiście nie namawiamy tu do popadania w przesadę. To, że jakiś test wymaga, aby zmienna miała rozkład normalny nie oznacza, że musimy odrzu- cić wyniki, gdy rozkład naszej zmiennej odbiega w niewielkim stopniu od normalności. Jednak gdy zamiast rozkładu normalnego otrzymujemy rozkład, który jest bardzo skośny lub dwumodalny, to musimy się zastanowić, czy uży- ty test faktycznie nadaje się do naszych analiz. Wizualizacja rozkładu zmiennej Widzimy zatem, że wizualizacja danych towarzyszy nam na każdym kroku pracy z danymi: przed, w czasie i po przeprowadzeniu analiz statystycznych. Poświęciliśmy tyle czasu wstępowi, aby podkreślić wagę wizualizacji we współ- czesnej analizie danych. Wizualizacja rozkładu zmiennej Wybór sposobu wizualizacji danych zależy w dużej mierze od skali, na jakiej mierzona jest zmienna. Gdy jest ona mierzona na skali nominalnej, to najczęściej używamy wykresu słupkowego lub kołowego (tortowego). Dla zmiennej mierzonej na skali porządkowej lub przedziałowej oprócz wymienionych wykresów można użyć wykresu skrzynkowego, kwantylowego, histogramu oraz wykresu gęstości (głównie dla zmiennych ilościowych). Wykres słupkowy i kołowy (tortowy) Wykresy te przekazują w formie graficznej informację, jaką daje nam zwykła tabela częstości (np. tabela 3.16). Wysokość słupków wykresu słupkowego zależy od liczebności danej kategorii zmiennej lub od jej procentowego udziału. Wykres słupkowy jest bardzo prosty w interpretacji. Trzeba jednak pamiętać o pewnym sposobie manipulacji tym wykresem. Kiedy patrzymy na rysunek 3.5a, wydaje się, że różnica liczebności osób z wykształceniem policealnym i średnim za- wodowym jest dość znaczna. Wystarczy jednak rzut oka na skalę, aby zrozumieć, że tak nie jest. Widać to na poprawnie zrobionym rysunku 3.5b, gdzie skala nie jest sztucznie obcięta od dołu. Trzeba zatem uważać, aby siebie samego i innych nie zmylić wadliwie zrobio- nym wykresem słupkowym, ze źle dobraną skalą. Tabela 3.16. Rozkład częstości zmiennej WYKSZTAŁCENIE Wykształcenie Częstość Procent Procent ważnych Procent skumulowany Ważne Średnie ogólne 8 26,7 26,7 26,7 Średnie zawodowe 8 26,7 26,7 53,3 Policealne 7 23,3 23,3 76,7 Licencjat 7 23,3 23,3 100,0 Ogółem 30 100,0 100,0 99 Rozdział 3. Wizualizacja danych. Tworzenie wskaźników złożonych Średnie ogólne Policealne Średnie zawodowe Wykształcenie średnie ogól Średnie zawodowe Wykształcenie Rysunek 3.5a, b. Rozkład częstości zmiennej WYKSZTAŁCENIE. Wpływ obcięcia skali na postać rozkładu częstości tej zmiennej Wykres kołowy Wykres kołowy (rysunek 3.6) zawiera tę samą informację, co wykres słupkowy, tyle że w innej formie. Ma on niestety dwa poważne ograniczenia, które powodują, że nie nadaje się on na dobre narzędzie analityczne. Po pierwsze, gdy kategorii zmiennej jest wiele, wykres staje się zupełnie nieczy- telny. Drugi powód jest związany z percepcją i możliwościami ludzkiego oka. Otóż na wykresie kołowym liczebność w kategorii jest odzwierciedlona powierzchnią wycinka całego koła. Rzecz w tym, że ludzkie oko niezbyt dobrze porównuje po- wierzchnie. W rezultacie, gdy mamy więcej kategorii o podobnych liczebnościach, to często trudno jest powiedzieć, która kategoria jest liczniejsza. Sytuację ratuje nie- co wydrukowanie liczebności na rysunku, ale jest to sprzeczne z ideą wizualizacji danych, zgodnie z którą to obraz ma do nas przemawiać, a nie liczby. Wykres kołowy ma jedną zaletę: jest efektowny, dlatego często pojawia się w ga- zetach, opracowaniach robionych na potrzeby szerokiej publiczności. Trzeba jednak pamiętać o jego istotnych wadach i nie nadużywać go. Wykształcenie 15 Średnie ogólne H Średnie zawodowe H Policealne H Licencjat Wycinki koła przedstawiają: liczebności 100 Rysunek 3.6. Wykres kołowy rozkładu zmiennej WYKSZTAŁCENIE Wizualizacja rozkładu zmiennej Warto pamiętać, że niektóre metody wizualizacji sprawdzają się dobrze jako na- rzędzie analityczne, inne zaś jako metoda prezentacji danych. Histogram Gdy zmienna porządkowa lub przedziałowa ma dużo kategorii, wówczas wykres słupkowy staje się nieczytelny albo wręcz niemożliwy do zrobienia. Możemy wtedy posłużyć się histogramem. Jak wiemy, wykres słupkowy pokazuje liczebność kategorii zmiennych. Gdy kategorii jest dużo, to zamiast próbować rysować wszystkie, można połączyć te sąsiadujące ze sobą. W efekcie otrzymujemy mniejszą liczbę kategorii do naryso- wania. Tworzenie histogramu zaczyna się więc od przyporządkowania kategoriom zmiennych przedziału (albo „koszyka"), do którego wpadną, następnie zliczamy liczbę przypadków w każdym koszyku i na tej podstawie tworzymy wykres. Na rysunkach 3.7a-d widzimy histogram zmiennej AGE (czyli wiek respondenta wPGSSzl992r.). W tym miejscu trzeba wskazać na bardzo poważną wadę histogramu. Otóż, o czym się zaraz przekonamy, jego wygląd zależy w znacznym stopniu od wyboru liczby przedziałów (koszyków), na które dzielimy naszą zmienną. Wybór ten jest całkowicie arbitralny. Popatrzmy na rysunek 3.7a, na którym mamy dane pogrupo- wane w 16 koszyków. Można z niego wywnioskować, że rozkład zmiennej jest jed- nomodalny i prawoskośny (nie jest symetryczny). Gdy zwiększymy liczbę koszyków do 25 (rysunek 3.7b), pojawia się druga modalna. Dalej, gdy koszyków jest jeszcze więcej, widzimy, że są w zasadzie 3 mody. Jaki jest zatem prawdziwy obraz zmien- nej? Jaki wybór liczby koszyków jest prawidłowy? Trudno dać jednoznaczną odpo- wiedź na to pytanie. Nie należy przy tym ulegać złudzeniu, że im więcej koszyków, tym lepiej. Dodanie tylko jednego koszyka (rysunki 3.7c i 3.7d) może spowodować dość znaczne różnice między histogramami, mogą się więc pojawiać różnego rodza- ju artefakty związane ze szczególnym doborem liczby koszyków. Histogram zrobiony tylko dla jednej liczby koszyków jest w zasadzie zupełnie bezużyteczny. Nie mamy żadnej gwarancji, że zmiana tej liczby nie zmieni zupełnie wyglądu wykresu. Histogram jest przydatny, gdy możemy sprawdzić, jak będzie wyglądał w przypadku zmiany liczby koszyków. Wtedy, eksperymentując, możemy porównać wykresy otrzymane w różnych przypadkach i wyrobić sobie zdanie na temat rozkładu zmiennej. Oczywiście oglądając zrobiony przez kogoś i już wydrukowany histogram, nie możemy żadnych eksperymentów przeprowadzać. W rezultacie musimy uwierzyć, że osoba, która przygotowała histogram, wiedziała, co robi i wybrała taki, który od- powiada faktycznemu rozkładowi zmiennej. 101 Rozdział 3. Wizualizacja danych. Tworzenie wskaźników złożonych 35,0 WIEK RESPONDENTA Odch.S(d= 15,98 Średnia = 46,0 N = 1647 00 WIEK RESPONDENTA Rysunek. 3.7a. Histogram (16 koszyków) Rysunek. 3.7b. Histogram (25 koszyków) Odch.Std* 15,98 Średnia = 46,0 N = 1647,00 WIEK RESPONDENTA WIEK RESPONDENTA Rysunek. 3.7c. Histogram (35 koszyków) Rysunek. 3.7d. Histogram (36 koszyków) Istnieją metody pozwalające nieco uwiarygodnić wydrukowany histogram. Nie- stety, nie oferują ich wszystkie komputerowe pakiety statystyczne. W poniższym przy- kładzie skorzystamy z możliwości darmowego pakietu statystycznego o nazwie R (http://cran.r-project.org). Jeśli liczba zbadanych przypadków nie jest zbyt duża, możemy wzbogacić histo- gram o znaczniki przypadków, mające postać kresek umieszczonych nad podziałką pod słupkami histogramu. Każda kreska odpowiada jednej badanej osobie. Dzięki temu jest łatwo zorientować się, dla jakich wartości zmiennej występuje najwięcej przypadków. 102 Wizualizacja rozkładu zmiennej 20 40 60 Rysunek 3.8. Histogram ze znacznikami przypadków Rysunek 3.8 przedstawia taki histogram, otrzymany dla 300-osobowej podpróby zmiennej AGE z PGSS-u. W okolicach 40, 50 i 60 lat życia respondenta widzimy zagęszczenie kresek, co oznacza, że wielu respondentów jest w tym wieku. Wykres gęstości Innym wykresem, który daje nam informację analogiczną do histogramu jest wykres gęstości. Wykres gęstości powstaje w następujący sposób. Wybieramy naj- pierw pewną symetryczną funkcję, którą będziemy nazywać funkcją bazową (często tę funkcję nazywa się jądrem, od angielskiego słowa kernel). Następnie każdej ob- serwacji przyporządkowujemy tę funkcję tak, żeby jej oś symetrii pokrywała się z daną obserwacją. Po czym dodajemy do siebie wszystkie funkcje bazowe, otrzymując w ten sposób krzywą, która jest właśnie wykresem gęstości. Procedura ta jest zobrazowana na rysunku 3.9 dla fikcyjnego zbioru danych za- wierającego 10 obserwacji. Funkcjąbazową w naszym przypadku jest po prostu funk- cja Gaussa. Gdy dodamy do siebie wszystkie funkcje, otrzymujemy żądany wykres. Nie ulega wątpliwości, że tam, gdzie jest więcej obserwacji, np. w okolicach warto- ści 35 lub 70, będzie i większe zagęszczenie funkcji bazowych, czyli po zsumowaniu otrzymamy większą wartość. Rysunek 3.9. Wykres gęstości dla 10 przypadków 103 Rozdział 3. Wizualizacja danych. Tworzenie wskaźników złożonych Wykres gęstości, podobnie jak histogram, wymaga ustalenia pewnych parame- trów. Przede wszystkim musimy wybrać funkcję bazową. Tutaj była to funkcja Gaus- sa, jednak możliwe jest stosowanie także innych (każdy pakiet statystyczny udostęp- nia kilka do wyboru). Tak się jednak szczęśliwie składa, że wybór konkretnej funkcji nie ma zbyt wielkiego wpływu na wygląd całego wykresu. Jest to oczywiście duża zaleta wykresu gęstości. Drugi parametr, który musimy ustalić, stanowi szerokość funkcji bazowej h - w przypadku funkcji Gaussa jest to oczywiście odchylenie standardowe. Im szerokość ta jest większa, tym gładszy wykres otrzymujemy, im mniejsza, tym bardziej wykres jest poszarpany. Wydawać się zatem może, że wykres gęstości nie jest o wiele lepszym rozwiązaniem niż histogram - i tak musimy ustalić wartość dowolnego parametru, któ- ry znacząco wpływa na wygląd wykresu - tak nie jest z tego względu, że wykres gęsto- ści jest stabilny z uwagi na zmiany parametru szerokości funkcji bazowej. Oznacza to tyle, że małe zmiany parametru powodują znikome zmiany wyglądu wykresu. Własność ta pozwala na systematyczne badanie rozkładu zmiennej: rozpoczyna- my od bardzo małej szerokości funkcji bazowej, a potem stopniowo ją zwiększamy, eliminując „niepożądane" nierówności wykresu. Przykład takiej procedury przedstawiają rysunki 3.10 a-d. Wykreślone są tam cztery histogramy zmiennej AGE z PGSS-u (dla 300 losowo wybranych osób) wraz z wykresami gęstości o różnej szerokości funkcji bazowej h, mierzonej jako ułamek standardowej szerokości równej 1. Patrząc na serie rysunków 3.10, widzimy, że dla szerokości 0.1 wykres zawiera dużo nieistotnych informacji (drobne zmiany rozkładu), wykres otrzymany dla h = 0.25 i h = 0.5 wydaje się wiernie pokazywać podstawowe własności rozkładu zmiennej. Ostatni rozkład, dla h = 1, jest zbyt wygładzony. Wykres gęstości jest lepszy niż histogram, gdyż podczas przybliżania rozkładu zmiennej bierze pod uwagę nie tylko liczebności z jakiegoś określonego przedziału, lecz także te leżące w pewnej odległości od danej obserwacji - mają one mniejszą wagę, ale są uwzględnione. Dzięki temu w porównaniu z histogramem, w wykresie gęstości osiągamy większą stabilność. Oczywiście nie zmienia to faktu, że także wykres gęstości wymaga pewnej pracy przy jego tworzeniu, tak aby dobór parametru szero- kości funkcji bazowej pozwolił na zbudowanie wykresu naprawdę pokazującego roz- kład zmiennej. Niestety, nie wszystkie pakiety statystyczne pozwalają zrobić wykres gęstości. Jednym z tych, które się bardzo dobrze do tego nadają jest wspomniany już pakiet R (http ://cran.r-proj ect.org). Na koniec warto zaznaczyć, że zarówno histogram, jak i wykres gęstości niezbyt dobrze radzą sobie z wartościami odstającymi - mogą one łatwo zostać niezauważo- ne, a dla niektórych wartości parametrów (szerokości funkcji bazowej lub liczby koszyków) - w ogóle niewidoczne. Z tego względu zajmiemy się teraz wykresem skrzynkowym. 104 Wizualizacja rozkładu zmiennej Rysunek 3.1 Oa. Wykres gęstości. Szero- Rysunek 3.10b. Wykres gęstości. Szerokość kość funkcji bazowej h = 0A funkcji bazowej h = 0.25 20 30 40 51 20 30 40 50 Rysunek 3.1 Oc. Wykres gęstości. Sze- rokość funkcji bazowej h - 0.5 Rysunek 3.10d. Wykres gęstości. Szerokość funkcji bazowej h = 1 Wykres skrzynkowy Wykres skrzynkowy jest kompromisem pomiędzy pokazywaniem wyłącznie prze- ciętnych wartości zmiennej a koncentrowaniem się na wartościach odstających. Po- patrzmy na przykład takiego wykresu na rysunku 3.1 la. Jest na nim przedstawiony wykres skrzynkowy (fikcyjnej) zmiennej WIEK. Dol- na krawędź skrzynki odpowiada pierwszemu kwarty łowi Qh a górna trzeciemu kwar- trylowi Q3. Czyli długość skrzynki jest równa odstępowi międzykwartylowemu (tzw. IQR- interąuartile rangę). Linia przechodząca w poprzek skrzynki odpowiada me- dianie. Skrzynka daje nam zatem informację o tym, jak rozłożone są przeciętne war- tości zmiennej. Z wykresu na rysunku 3.1 la możemy wywnioskować, że w naszej próbie mamy do czynienia z ludźmi przeciętnie w wieku około 30 lat i że rozkład zmiennej jest skośny (mediana nie leży dokładnie pośrodku skrzynki). 105 Rozdział 3. Wizualizacja danych. Tworzenie wskaźników złożonych 20- 30- 8 40- 50- ^........ L _ . _ _ .-------------------------------$OC?D ODO Rysunek 3.11a. Wykres skrzynko- Rysunek 3.11b. Porównanie histogramu i wy- wy dla zmiennej WIEK kresu skrzynkowego dla fikcyjnej zmiennej Dodatkowo na wykresie mamy narysowane „wąsy" zaznaczone przerywaną linią i zakończone krótkimi kreskami. Wąsy wyznaczają największą i najmniejszą war- tość zmiennej, o ile nie jest ona większa (mniejsza) od Q3 + 1.5 IQR (Qi - 1.5 IQR). Zatem wąsy pokazują nam wartości leżące poza IQR, ale niezbyt od niego odległe (nie więcej niż o 1,5 odstępu międzykwartylowego). Obserwacje, które są większe od Q3 + 1.5IQR lub mniejsze od Qi - 1.5IQR nazywamy obserwacjami odstający- mi; są one zaznaczone na wykresie jako odrębne punkty (kółka). Nasza zmienna ma dwie obserwacje odstające. Obserwacje, które leżą dalej niż 3 IQR od dolnej lub górnej krawędzi skrzynki nazywamy obserwacjami skrajnymi. Możemy łatwo porównać ze sobą histogram pewnej fikcyjnej zmiennej oraz wykres skrzynkowy (rysunek 3.1 lb). Warto zwrócić uwagę, że wartości odstające są prawie niewidoczne na histogramie - wskazują na nie jedynie kreski oznaczające przypadki, natomiast bardzo dobrze pokazuje je wykres skrzynkowy. Wykres skrzyn- kowy został tym razem narysowany poziomo - czasem można się spotkać z taką konwencją. Aby się lepiej oswoić z wykresami skrzynkowymi, warto popatrzeć na histogra- my i odpowiadające im wykresy skrzynkowe kilku często występujących rozkładów (rysunek 3.12). 106 Wizualizacja rozkładu zmiennej 20 40 60 __r— - \.....- --.....\ r 1------ T------1------1— ~i—i—i -3-2-10 1 2 3 Rozkład normalny -2-10 1 2 o o U 1 I 1 8 y -20246 Rozkład dwumodaln -2 0 2 4 6 8 Jak widzimy, wykres skrzynkowy nie pomo- że nam wykryć rozkładu dwumodalnego! o _ o _ I kn= vste -4-2 0 2 4 6 810 Rozkład prawoskośny -2 0 2 4 6 8 10 Umiejscowienie mediany v śność. izuje na sko- o o - —1 1 o CD -H-~- ?H O IN nim L.1 -10 -8 -6 -4-2 0 2 Rozkład fewoskośny -10-8 -6 -4 -2 0 2 Rysunek 3.12. Histogramy i odpowiadające im wykresy skrzynkowe 107 Rozdział 3. Wizualizacja danych. Tworzenie wskaźników złożonych Wykres kwantylowy (kwantyl-kwantyl) Wykres kwantylowy (lub centylowy) służy przede wszystkim do tego, aby spraw- dzać, na ile rozkład badanej zmiennej odpowiada jakiemuś rozkładowi teoretycz- nemu, na przykład rozkładowi normalnemu. Bardzo często w statystyce taka infor- macja jest naprawdę istotna - wiele testów opiera się na założeniu, że pewna zmienna losowa ma rozkład normalny. Można się spotkać z różnego rodzaju wykresami kwantylowymi. Przeważnie różnią się one tym, co jest wykreślone na osiach. Nie- zależnie od tego, wszystkie te wykresy są sobie równoważne i ich interpretacja jest identyczna. Idea wykresu kwantylowgo bazuje na bardzo prostej obserwacji. Oznaczmy przez X[ą centyl z-tego rzędu zmiennej mającej rozkład normalny o średniej ju i odchyleniu standardowym a. Centyl tego samego rzędu standaryzowanego rozkładu normalne- go zt wiąże sięXt w następujący sposób: z. =- Ponieważ transformacja ta jest liniowa, to punkty {Xt, z,) leżą na jednej prostej. Wykres kwantylowy tworzymy zatem, wykreślając na jednej osi eentyle pocho- dzące z rozkładu normalnego, a na drugiej eentyle badanej przez nas zmiennej (która niekoniecznie musi mieć rozkład normalny). Jeżeli punkty układają się na jednej prostej, to znaczy, że nasza zmienna ma rozkład normalny. Na rysunku 3.13a widzi- my taki wykres dla zmiennej AGE z PGSS-u. Punkty nie układają się na prostej, więc zmienna AGE nie ma rozkładu normalnego. a - Wykres K-K - WIEK RESP. /jJF 120 g - ° / Jr 100' §/ Jr f 80' Jt 1 s ? 1 B 60 /a (0 c ro 1 o. Jr S 40- 0 -----------------------1—-------------------1------------------------]----------------------- 0 20 40 60 80 100 120 -2 0 2 centyle rozkładu normalnego Wartość obserwowana Rysunek 3.13a. Wykres kwantylowy Rysunek 3.13b. Wykres kwantylowy 108 Wizualizacja rozkładu zmiennej W niektórych pakietach statystycznych (np. SPSS-ie) wykres kwantylowy wy- gląda nieco inaczej, tak jak na rysunku 3.13b. Widzimy, że różni się on nieco od rysunku 3.13a. Na osi poziomej wykreślone są wartości zmiennej (wartość obserwo- wana), na osi pionowej zaś takie wartości, jakie byśmy otrzymali, gdyby nasza zmienna pochodziła z rozkładu normalnego (wartość oczekiwana). Ponieważ na wykresie z ry- sunku 3.13a wartości obserwowane znajdują się na osi pionowej, to jest on lustrza- nym odbiciem wykresu z rysunku 3.13b względem prostej obrazującej rozkład nor- malny. Oczywiście interpretacja wykresu pozostaje bez zmian - oba zawierają tę samą informację. SPSS oferuje także wykres zbliżonego typu - wykres prawdopodobieństwo-praw- dopodobieństwo (Wykres P-P). Na jego osiach przedstawione jest prawdopodobień- stwo skumulowane rozkładu normalnego (wartość oczekiwana) oraz rozkładu naszej zmiennej (wartość obserwowana). Znowu, jeżeli punkty układają się na prostej, to rozkład zmiennej jest normalny. Wykres ten dla użytej już wcześniej zmiennej AGE możemy zobaczyć na rysunku 3.14. 0) c ro o 1,0 Wykres P-P - WIEK RESP. Obserwowane prawdopodobieństwo skumulowane Rysunek 3.14. Wykres prawdopodobieństwo - prawdopodobieństwo Jeżeli okaże się, że rozkład zmiennej nie jest normalny, to -przy odrobinie wpra- wy - możemy się przekonać, jakie są jego podstawowe właściwości: skośność oraz liczba modalnych. Przyjrzyjmy się następującym histogramom i odpowiadającym im wykresom kwantylowym (rysunek 3.15). 109 Rozdział 3. Wizualizacja danych. Tworzenie wskaźników złożonych L 20 40 60 1 2- 1 - 0 - -1 -2- 5" 1------1------1-----1------1-----1-----1 -3-2-10 1 2 3 -3-2-10 1 2 3 Rozkład normalny o - s- o s \ \\ 8- 6- 4 - 2- 0- -2- s -202468 Rozkład dwumodalny -3-2-10123 100 I" 8 o a- Jlt 4- 2- -2- J -4 -2 0 2 4 6 8 10 -3-2-10 1 2 3 Rozkład prawoskośny 60 100 2 0- -2" 8 - o - „mIT li -6- -10 -8-6-4-2 0 2 -3-2-10123 Rozkład lewoskośny 20 30 fh i-T 1- 10- 5 - 0- r o _ -5- -10 -5 0 5 10 -3-2-10 1 2 3 Rozkład prostokątny 110 Rysunek 3.15. Histogramy i wykresy kwantylowe rozkładów o różnych kształtach Wizualizacja zależności między zmiennymi Powtórzmy : Przekonaliśmy się, że możliwości graficznej analizy i prezentacji danych są bar- dzo duże. Trzeba z nich mądrze korzystać, pamiętając, jakie są wady i zalety po- szczególnych typów wykresów. Najwięcej informacji przydatnych do analitycznego badania danych dostarczają wykres skrzynkowy oraz wykres kwantylowy - najlepiej więc użyć ich obu. Dla zmiennych o małej liczbie kategorii niezawodny jest wykres słupkowy. Gdy chcemy otrzymane przez nas wyniki pokazać osobom, które nie zajmują się statystyką, to nie należy oczywiście prezentować im wykresu skrzynkowego czy kwantylowego, a np. dobrze zrobiony histogram czy wykres słupkowy. BIJ Wizualizacja zależności między zmiennymi Sposób wizualizacji jest, podobnie jak wybór testu statystycznego, w dużej mie- rze zależny od skali, na jakiej mierzone sąporównywane zmienne. Gdy badamy dwie zmienne mierzone na skali nominalnej, to możemy zrobić zgrupowany wykres słup- kowy-wizualizuje on informację zawartą w tabeli krzyżowej. Można go oczywiście użyć również wtedy, gdy jedna lub obie zmienne mierzone są na skali porządkowej. Przykład widzimy na rysunku 3.16a i 3.16b, gdzie pokazano związek liczby dzieci i wykształcenia respondenta (dane pochodzą z PGSS-u). Warto pamiętać, że podobnie tak jak w tabeli krzyżowej, liczebności kategorii mogą być mylące. Na rysunku 3.16a mamy wykreślone liczebności, a na rysunku 3.16b procenty. Drugi rysunek jest o wiele lepszy, gdyż kategorie zmiennych nie są wykształcenie (3 kat.) L-J podstawowe Uśrednię Hwyższe Liczba dzieci (5 kat.) - Q O ° 8 Q -200 10 20 30 40 50 60 70 80 WIEK RESPONDENTA Rysunek 3.18a. Wykres rozrzutu z krzy- Rysunek 3.18b. Wykres rozrzutu z krzy- wą regresji liniowej wąLOWESS Badanie trendu. Krzywa regresji. Krzywa LOWESS (LOESS) Najprostszym i często stosowanym sposobem badania trendu jest dopasowanie do danych linii prostej, pochodzącej z regresji liniowej omówionej w rozdziale 8. Na rysunku 3.18a mamy wykreśloną linię regresji. Kąt nachylenia linii wskazuje na to, że nie istnieje zależność liniowa między wiekiem respondenta a jego dochodem. Jak wiemy, linia regresj i ma tę zasadniczą wadę, że robiąc j ą, zakładamy automa- tycznie liniowość związku między zmiennymi. Ponieważ często wcale nie ma ona miejsca, więc wymyślono lepszą metodę wizualizowania trendu-krzywe LOWESS (albo LOESS, ang.: robust locally weighted regressioń). Sposób robienia tego wykresu jest bardzo prosty. W pobliżu każdego punktu na wykresie (czyli w pobliżu każdej obserwacji) dopasowujemy do danych pewien wie- lomian niskiego stopnia (zazwyczaj jest to linia prosta lub dobrze znana ze szkoły parabola). Robimy to jednak w szczególny sposób, otóż nie bierzemy przy dopaso- waniu pod uwagę wszystkich obserwacji, a tylko te, które są odpowiednio blisko. Ponadto te obserwacje, które są dalej od punktu estymacji mająmniejszą wagę niż te, które są bliżej. O tym, ile obserwacji będzie wzięte pod uwagę decyduje parametr gładkości h, który dobieramy samodzielnie. Rysunek 3.18b przedstawia ten sam wy- kres rozrzutu co rysunek 3.18a, tym razem z dopasowaną do naszych danych krzywą LOWESS. Widzimy, że wskazuje ona na istnienie zależności między zmiennymi, tyle że krzywoliniowej. Parametrem, który ostatecznie decyduje o wyglądzie krzywej, jest wspomniany powyżej parametr gładkości h. Gdy ma on maksymalną wartość (h = 1), to przy dopasowaniu krzywej bierzemy pod uwagę wszystkie obserwacje - otrzymujemy w ten sposób bardzo gładką krzywą, która zazwyczaj słabo pokazuje trend. Gdy h jest 113 Rozdział 3. Wizualizacja danych. Tworzenie wskaźników złożonych mniejsze, to do dopasowywania krzywej używany jest odpowiedni ułamek danych. Jeśli np. h = 0.3, to oznacza to, że przy dopasowaniu krzywej w danym punkcie uwzględnia się 30% wszystkich obserwacji, które leżą najbliżej danego punktu. W praktyce okazuje się, że najtrafniejszym doborem h są wartości pomiędzy 0.25 i 0.5, ale nie jest to oczywiście żadna sztywna reguła. Zależność wyglądu krzywej od doboru tego parametru jest zobrazowana na ry- sunku 3.19. 120 - 100 - 80 - 60 40 - 20 - 0 - ----- h= 0.9 ---- h= 0.3 ....... h= 0.1 Rysunek 3.19. Krzywa LOWESS dla różnych wartości parametru gładkości h (fikcyj- ne dane) 114 Wielką zaletą tego wykresu jest to, że pozwala dopasować do danych krzywą bez czynienia żadnych założeń dotyczących danych (które przecież mamy dopiero po- znać!). Nie jest więc potrzebny żaden model teoretyczny danych, aby mocje wygod- nie wizualizować. Jedyną wadę krzywej LOWESS stanowi to, że jej dopasowanie wymaga dość dużego i gęstego zbioru danych (obserwacje muszą być blisko siebie). Jest to zrozu- miałe, gdyż krzywa LOWESS modeluje dane na podstawie ich lokalnej struktury. Pominęliśmy tutaj pewne szczegóły techniczne związane z dopasowywaniem krzywej LOWESS, takie jak kryterium doboru funkcji ważącej obserwacje lub po- stać dopasowywanych krzywych. Więcej informacji Czytelnik znajdzie w literatu- rze [13]. Zrozumienie roli parametru gładkości w zupełności wystarcza, aby samo- dzielnie tworzyć dobre krzywe LOWESS. Wizualizacja zależności między zmiennymi W pewnej firmie dyrektor handlowy został poproszony przez swojego przełożonego o przed- stawienie skali wzrostu sprzedaży w ostatnich latach. Dyrektor handlowy w czasie prezentacji posłużył się poniższym wykresem słupkowym demonstrującym wzrost średniego zysku w róż- nych działach firmy w kolejnych latach. Czy wzrost wyników handlowych jest duży czy mały? Jakie zastrzeżenia można mieć do tego wykresu? ODPOWIEDŹ: Źle obcięty wykres, niepodpisana oś pozioma, nie wiadomo, w jakich jednost- kach mierzony jest zysk. Wzrost jest w rzeczywistości bardzo mały. 1099 2000 2001 2002 W pewnym badaniu mierzono dochód respondenta oraz jego zadowolenie z wykonywanej pracy. Otrzymane wyniki zostały przedstawione na poniższym wykresie rozrzutu. Określ, jakie wady ma przedstawiony wykres. ODPOWIEDŹ: Jeden punkt znajduje się na skraju rysunku, pozostałe obserwacje są zbite razem, przez co wydaje się fałszywie, że leżą bardzo blisko siebie. zadowolenie z pracy 115 Rozdział 3. Wizualizacja danych. Tworzenie wskaźników złożonych Poniżej widzimy histogram długości czasów erupcji słynnego gejzeru „Old Faithful". Porównując histogram z zamieszczonymi tuż pod nim znacznikami przypadków, powiedz, czy wykres ten dobrze oddaje charakter danych. Jeśli nie, to spróbuj przewidzieć, jak wyglądałby prawidłowy histogram. ODPOWIEDŹ: Po pierwsze, jest za mało przedziałów (koszyków), co widać po znacznikach przypadków - prawdziwy rozkład zmiennej jest dwumodalny. Po drugie, opis osi X jest zbyt długi - nie ma sensu umieszczać tam aż tylu informacji - powinny się one znaleźć w opisie rysunku. 0 12 3 4 5 6 czas trwania erupcji gejzera „Old Faithful" w parku Yellowstone (w minutach) 116 Zapisz definicje kluczowych pojęć wprowadzonych w tym rozdziale oraz nowe symbole lilMział 4 Testowanie hipotez statystycznych. Rozkład statystyki Pojęcia kluczowe: rozkład statystyki (M, s2); błąd standardowy statystyki; Centralne Twierdzenie Graniczne; hipotezy: zerowe, badawcze, kierunkowe, bezkierunkowe; obszar krytyczny i wartość krytyczna statystyki; poziom istotności statystycznej; błąd I i II rodzaju; moc testu Nowe symbole: zM, Sm, H-\, Ho, a, J3, CTG, b.p.d.o. Ho | Jak na podstawie próby możemy wnioskować o całej populacji? Wybierając dla siebie najlepszą szkołę językową, możemy brać pod uwagę różne kryteria: renomę, położenie, brzmienie nazwy, a gdybyśmy chcieli dokonać wyboru opartego na kryteriach, nazwijmy je, naukowych, moglibyśmy rozważyć np. średni wynik jej absolwentów w standaryzowanym teście. Informacja, że średnia wynosi 39,4 jest bezużyteczna, dopóki nie możemy jej z czymś porównać. Średniej nie nale- ży bowiem porównywać z rozkładem zmiennej w populacji, który może być używa- ny wyłącznie dla porównania wyników pochodzących od pojedynczych osób. Śred- nia może być porównana z rozkładem średnich, który zostanie omówiony w tej czę- ści podręcznika. W psychologii najczęściej przedmiotem naszego zainteresowania nie są wyniki pojedynczych osób, ale właśnie prób. Podstawowym pojęciem dla zrozumienia wnioskowania statystycznego jest po- jęcie rozkładu statystyki, które zostanie omówione w dalszej części rozdziału. Ważne jest, abyśmy analizowany na następnych stronach przykład czytali „zda- nie po zdaniu" i sprawdzali wszystkie rachunki, ponieważ zrozumienie pojęcia roz- kładu statystyki z próby jest podstawowe dla wnioskowania statystycznego. 117 Rozdział 4. Testowanie hipotez statystycznych. Rozkład statystyki Populacje są na ogół bardzo duże i dlatego ich parametry pozostają nieznane, jednak dla potrzeb naszego wywodu wyobraźmy sobie małą i określoną populację. Ułatwi nam to zrozumienie podstawowych twierdzeń statystycznych. (Rozkład zmiennej w populacji i w próbie oraz rozkład statystyki, na przykładzie populacji marsjańskiej Aby zdefiniować rozkład statystyki, zapraszamy na wycieczkę na Marsa, na którym żyje tylko trzech Marsjan, różniących się wzrostem: DUŻY mierzy 3 m, ŚREDNI 2 m, a MAŁY 1 m. W związku z tym, że populacjajest tylko trzyelementowa (co raczej nie zdarza się na Ziemi), możemy z łatwością wyliczyć rozkład zmiennej w populacji. Zmienna WZROST przyjmuje 3 wartości, każdą z prawdopodobieństwem '^ Jej rozkład możemy zobaczyć na rysunku 4.1. 1 m v3 2m v3 3 m v3 0,35 1 2 3 Rysunek 4.1. Rozkład zmiennej WZROST w populacji V3 = 0,33 Możemy policzyć średnią zmiennej WZROST w populacji: ,,-1 + 2+1- ~ 3 ~ i wariancję zmiennej WZROST w populacji: , [(l-2)2+(2-2)2+(3-2)2] We wzorze na er2 dzielimy przez N, a nie przez N- 1 ponieważ obliczamy wa- riancję dla populacji, a nie dla próby. Próba losowa Wyobraźmy sobie, że grupa badaczy postanowiła dokonać pomiaru wzrostu miesz- 118 kańców Marsa. Dokonywanie pomiaru jest bardzo kosztowne (każdy mierzony Mar- Rozkład zmiennej w populacji i w próbie oraz rozkład statystyki. sjanin żąda jako wynagrodzenia za badanie V21 szpiku kostnego), więc badacze usta- lili, że będą prowadzić badania na dwuelementowych próbach. Próba zawierająca ponad 60% Qli) populacji powinna satysfakcjonować każdego. Powstaje problem wyłaniania próby z populacji. Jeżeli chcemy móc uogólnić wyniki badania próby na całą populację, to próba musi być losowa*. Przyjmijmy najprostszą definicję, która mówi, że każdy element populacji ma jednako- wą szansę bycia wylosowanym. Znając tę definicję, przystępujemy do losowania. Zanim zaczęliśmy losowanie, każdy Mar- sjanin miał jednakową szansę bycia wy- losowanym 1:3 (jeden do trzech). Załóż- my, że wylosowaliśmy DUŻEGO. Je- żeli nie damy mu już szansy powtórne- go wylosowania, to szansę wylosowania MAŁEGO przy drugim losowaniu są już dużo wyższe, bo 1:2 (zostało ich już tyl- ko dwóch). Próba uzyskana w taki spo- sób nie byłaby próbą losową. Aby speł- nić założenia próby losowej, musimy lo- sować ze zwracaniem wylosowanych wcześniej elementów do powtórnego lo- sowania. W takim przypadku szansa wy- losowania DUŻEGO jest taka sama za pierwszym i za drugim razem (1:3). Losując dwuelementowe próby z trzyelementowej populacji, otrzymamy 9 prób. Kto nie wierzy, może je sobie wypisać. Za pierwszym razem możemy wylosować MAŁEGO, ŚREDNIEGO lub DUŻEGO i za drugim razem analogicznie. Obliczmy liczbę wszystkich możliwych prób dwu- i trzyelementowych w popu- lacji o następującej liczbie elementów: Liczebność populacji Liczba wszystkich możliwych prób dwuelementowych Liczba wszystkich możliwych prób trzyelementowych 4 4x4 = 16 4 x 4 x 4 = 64 10 10x10 = 10x 10x10 = 100 100x100 = 100x100x100 = Problem doboru próby do badań jest jednym z najważniejszych zagadnień metodologicznych, które zostało wyczerpująco omówione w [5, 19]. 119 Rozdział 4. Testowanie hipotez statystycznych. Rozkład statystyki Rozkład średnich (statystyki M) Pierwsze losowanie Drugie losowanie Wynik losowania w metrach Statystyka M MAŁY MAŁY 1 1 1 ŚREDNI 1 2 1,5 DUŻY 1 3 ŚREDNI MAŁY 2 1 ŚREDNI 2 2 DUŻY 2 3 DUŻY MAŁY 3 1 ŚREDNI 3 2 DUŻY 3 3 Jak nauczyliśmy się wcześniej, statystyką nazywamy wartość liczbową wyli- czoną na podstawie wyników w próbie. W każdej z tych 9 prób możemy wyliczyć 2 statystyki: M (średnią w próbie) i s2 (wariancję w próbie). Zaletą marsjańskiej po- pulacji jest to, że możemy wyliczyć statystyki M i s2 we wszystkich możliwych próbach dwuelementowych. Statystyki wyliczone na podstawie różnych prób przyjmująrożne wartości, a więc są „normalnymi" zmiennymi, możemy przedstawiać ich rozkład. Rozkład statystyki M (średnia w próbie) przyjmującej 5 wartości, z odpowiedni- mi częstościami, został przedstawiony w tabeli 4.1. Najczęściej (3 razy na 9) M= 2, najrzadziej (raz na 9) M = 1 lub M= 3. Tabela 4.1. Średnia zmiennej WZROST Marsjan w dziewięciu próbach Średnia Częstość Procent Procent ważnych Procent skumulowany 1,00 1 11,1 11,1 11,1 1,50 2 22,2 22,2 33,3 2,00 3 33,3 33,3 66,7 2,50 2 22,2 22,2 88,9 3,00 1 11,1 11,1 100,0 Ogółem 9 100,0 100,0 Gdyby Marsjan było 5, to wszystkich możliwych prób dwuelementowych było- by 25 itd. 120 Rozkład zmiennej w populacji i w próbie oraz rozkład statystyki. Rozkład statystyki M przedstawia rysunek 4.2. M 1 1,5 2 2,5 3 P v9 2/9 % v9 0,4 0,33 0,3- ____„__„ 0,22 0,22 0,2 0,11 fl n »." 0,1 r, , ! | n 0 U I . 1 1,5 2 Rysunek 4.2. Rozkład statystyki M (79 = 0,11,2/9 = 0,22 itd.) 2,5 Rozkład wariancji (statystyki s2) Każdy badacz oprócz średniej może wyliczyć wariancję w swojej próbie: s2 = Tabela 4.2. Wariancje wszystkich możliwych prób dwueiementowych z populacji marsjańskiej Opis próby Próba M ss s2 MAŁY / MAŁY 1 1 1 [(1 _1)2 + (1_1)2] = 0 0/1=0 MAŁY/ŚREDNI 1 2 1,5 [(1 -1,5)2+ (2-1,5)2] = 0,5 0,5/1 =0,5 MAŁY/DUŻY 1 3 \ '!)*? "t 5-^Y-cŃ/ ŚREDNI / MAŁY 2 1 ', O ŚREDNI/ŚREDNI 2 2 <2 - -i ) ^- ( ? ' t V^ C O ŚREDNI / DUŻY 2 3 V y K J DUŻY / MAŁY 3 1 DUŻY/ŚREDNI 3 2 DUŻY/DUŻY 3 3 s2 Częstość Proporcja 0 3 1 0,5 4 2 2 Suma = 1,00 121 Rozdział 4. Testowanie hipotez statystycznych. Rozkład statystyki Dzielimy przez N— 1, gdyż są to wariancje w próbach, a nie w populacji. Ponie- waż liczebność próby wynosi 2, mianownik równania wariancji w próbie wynosi 1 (W— 1 = 1) i nasze wyliczenia mogą zostać uproszczone (musimy obliczyć jedynie licznik). Jak widać w tabeli 4.3 i na rysunku 4.3, wariancja wyników w próbach marsjańskich przyjmuje jedynie trzy wartości: trzy próby (3/9 wszystkich) nie mają w ogóle wariancji (oba wyniki w próbie są takie same), cztery mają wariancję równą 0,5, a reszta wariancję wynoszącą 2. Warto zauważyć, że żadna z wariancji w pró- bach nie jest równa wariancji wyników w populacji wynoszącej o1 = 0,67. Tabela 4.3. Wariancja zmiennej WZROST w próbach Marsjan Wariancja Częstość Procent Procent ważnych Procent skumulowany 0,00 3 33,3 33,3 33,3 0,50 4 44,4 44,4 77,8 2,00 2 22,2 22,2 100,0 Ogółem 9 100,0 100,0 0 0,5 1 1,5 wariancja wyników w próbach Rysunek 4.3. Rozkład statystyki s2 Trzeba zauważyć, iż w przeciwieństwie do rozkładu statystyki M rozkład staty- styki ś1 jest skośny. Stało się już jasne, że rozkład może być definiowany dla dowol- nej statystyki. Rozkład z próby może być definiowany dla dowolnej statystyki. O 122 Miary tendencji centralnej rozkładu statystyki I Miary tendencji centralnej rozkładu statystyki Średnia rozkładu średnich (rozkładu statystyki M) Skoro statystyka Mmoże być traktowana jak zmienna, to możemy policzyć staty- styki rozkładu tej zmiennej - miarę tendencji centralnej (np. średnią tego rozkładu) i miarę rozproszenia (np. wariancję). Innymi słowy, będziemy liczyć średnią rozkła- du średnich i wariancję rozkładu średnich. Wyobraźmy sobie teraz, że z Marsa wróciła ekspedycja badaczy, z których każdy zbadał inną próbę. Tak jak widzimy w rozkładzie średnich, otrzymali oni różne wy- niki. Są tacy, którzy twierdzą, że Marsjanie są mali (średnia wzrostu wynosi 1 m) 1 tacy, którzy dowodzą, że Marsjanie są olbrzymi (średnia wzrostu 3 m). Co zrobić z tymi doniesieniami? Może uśrednić? _ 1 + 1,5 + 1,5 + 2 + 2 + 2 + 2,5 + 2,5 + 3 _2 Mm g Średnia ze średnich, ze wszystkich możliwych prób dwuełementowych wynosi 2 i jest równa średniej w populacji - nie jest to przypadek, ale ilustracja twierdzenia, które jest prawdziwe także w przypadku bardzo dużych populacji. Średnia rozkładu statystyki M (średnia średnich) równa się średniej rozkładu zmiennej w populacji. Proszę zauważyć, że gdyby na Marsie żyło trzech Marsjan o wzroście 1, 2 i 6 m to rozkład średnich z dwuełementowych prób byłby następujący: Pierwsze losowanie Drugie losowanie Wynik losowania w metrach Statystyka M MAŁY MAŁY 1 1 1 ŚREDNI 1 2 1,5 DUŻY 1 6 3,5 ŚREDNI MAŁY 2 1 ŚREDNI 2 2 DUŻY 2 6 DUŻY MAŁY 6 1 ŚREDNI 6 2 DUŻY 6 6 123 Rozdział 4. Testowanie hipotez statystycznych. Rozkład statystyki W tym przypadku średnia zmiennej WZROST w populacji wyniesie: u-i±2±6_ ^" 3 ~ ale żaden z badaczy prób dwuelementowych nie uzyska w swojej próbie średniej równej średniej w populacji. Natomiast średnia ze wszystkich średnich z prób dwu- elementowych, będzie równa... średniej w populacji. _ 1 + 1,5 + 3,5 + 1,5 + 2 + 4 + 3,5 + 4 + 6 _, Jaka jest średnia rozkładu z prób statystyki s2l Można ją obliczyć za pomocą równania: _ (0 + 0,5 + 2 + 0,5 + 0 + 0,5 + 2 + 0,5 + 0) ? ? .- '-i r t Okazuje się, że średnia statystyki s2 jest równa wariancji w populacji o1. Pokazaliśmy przed chwilą dwa ważne fakty, które są prawdziwe nie tylko w po- pulacji marsjańskiej: • Średnia statystyki Mjest równa średniej w populacji. Innymi słowy, średnia statystyki M jest równa fx\ < Średnia statystyki s2 jest równa wariancji w populacji (cfY. Oznacza to, że statystyka M jest dobrym (nieobciążonym) estymatorem ju, zaś statystyka s2 dobrym (nieobciążonym) estymatorem o2. To właśnie rozkład statystyki umożliwia wnioskowanie o parametrach populacji na podstawie statystyk wyliczonych w próbie. | Miary rozproszenia rozkładu statystyki Policzmy teraz, ile wynosi wariancja rozkładu średnich dla pierwszego przy- 124 kładu (Marsjanie o wysokości 1, 2 i 3 m). it b Miary rozproszenia, Rozkładu statystyki Aby obliczyć wariancję średnich z prób, należy obliczyć stopień rozproszenia średnich, w stosunku do średniej populacji, czyli określić stopień, w jakim różni badacze Marsa uzyskali odmienne średnie w swoich badaniach. Im bardziej średnie różnią się w poszczególnych próbach, tym mniej jesteśmy pewni, że średnia w po- jedynczej próbie jest zbliżona do średniej w populacji (mamy mniejszą pewność, że pojedyncza średnia reprezentuje populację jako całość). Policzmy sumę kwadratów odchyleń średnich ze wszystkich możliwych, dzie- więciu prób, od średniej ogólnej: SSM = (1 - 2)2 + 2(1,5 - 2)2 + 3(2 - 2)2 + 2(2,5 - 2)2 + (3 - 2)2 = \ Ponieważ są to wszystkie możliwe próby, to SS dzielimy przez 9, a nie przez 8: Porównajmy wariancję rozkładu średnich (rozkładu statystyki M) z wariancją rozkładu zmiennej WZROST w populacji marsjańskiej: Wariancja średnich z prób dwuelementowych jest dwa razy mniejsza od warian- cji zmiennej WZROST w populacji. To nie jest przypadek, ale ilustracja twierdzenia ogólnego mówiącego, że: Wariancja rozkładu zmiennej równa się odchyleniu standardowemu nemu do kwadratu. Mając wyliczoną wariancję, możemy więc policzyć odchylenie standardowe rozkładu średnich (rozkładu statystyki M): Ta miara rozproszenia rozkładu statystyki jest na tyle ważna, że nadano jej spe- cjalną nazwę: błąd standardowy. Odchylenie standardowe rozkładu statystyki określane jest jako jej BŁĄD STANDARDOWY. Zajmiemy się jedynie błędem standardowym statystyki M (Om), ale pojęcie to odnosi się także i do innych statystyk. 125 Rozdział 4. Testowanie hipotez statystycznych. Rozkład statystyki W jaki sposób praktycznie wykorzystujemy znajomość rozkładu średnich (statystyki M)l Jeżeli znamy rozkład średnich z prób (rozkład statystyki M) i wysłaliśmy na Marsa tylko jednego badacza, to możemy określić np.: 1. prawdopodobieństwo, że otrzyma on średnią z dwuelementowej próby więk- szą od 2,5: p(M> 2,5) =p(M= 3) = V9; 2. prawdopodobieństwo, że średnia w jego próbie znajdzie się w przedziale (1,3): p(l 5. 2. Jeżeli przewidujemy, że badani studenci są gorsi w sprawdzianie intuicji psy- chologicznej niż średnia w populacji, zapiszemy to H\. fl< 5. 3. Jeżeli przewidujemy, że badani studenci mają intuicję psychologiczną różną od średniej w populacji, nie przewidując kierunku różnicy, to zapiszemy to Hi.fi* 5. Dwie pierwsze hipotezy nazywamy hipotezami kierunkowymi, trzecią bezkie- runkową. W pierwszym przypadku (H\: // > 5) stwierdzamy, że tylko M istotnie więk- sze od 5 pozwolą na odrzucenie Ho. W drugim przypadku {H\: jU < 5) stwierdzamy, że tylko M istotnie mniejsze od 5 pozwolą na odrzucenie Ho. Otrzymanie wyniku więk- szego od 5 nie pozwoli na odrzucenie Ho. W trzecim przypadku (H\. fl ^ 5) Ho będą falsyfikowały zarówno wyniki istotnie większe, jak i mniejsze od 5. Powtórzmy: Kierunkowa hipoteza badawcza precyzuje kierunek różnicy (dodatni lub ujem- ny) między wartością statystyki a parametrem określonym w hipotezie zerowej Ho- Spodziewamy się na przykład, że średnia w naszej próbie będzie wyższa, a nie niższa niż średnia w populacji. Bezkierunkowa hipoteza badawcza to taka, w której kieru- nek nie jest określony. Eksperymentator przewiduje wynik różny od wartości określo- nej w hipotezie, ale nie przewiduje, czy różnica będzie dodatnia, czy ujemna. Na przykład badacz może chcieć rozstrzygnąć, czy nowe lekarstwo wpływa na uczenie się, nie przewidując, czy wpływ ten będzie korzystny, czy szkodliwy. W tym przypad- ku hipoteza badawcza mogłaby być następująca: „lekarstwo oddziałuje na szybkość uczenia się", a hipoteza zerowa mówiłaby, że nie oddziałuje. Różnica między hipoteza- mi kierunkowymi i bezkierunkowymi jest ważna, ponieważ te dwa rodzaje hipotez dają różne wartości krytyczne dla tego samego poziomu istotności statystycznej. Według umowy, wybory statystyczne są binarne; to znaczy, że jeśli obserwo- wane zdarzenie jest mało prawdopodobne, przy założeniu, że hipoteza zerowa jest prawdziwa, to odrzucamy hipotezę. Jeśli obserwowane zdarzenie nie jest mało praw- dopodobne, hipoteza nie jest odrzucana. Co to znaczy „mało prawdopodobne"? Najczęściej w badaniach społecznych 138 za mało prawdopodobne uznaje się wyniki, których prawdopodobieństwo jest mniej- Kierunkowe i bezkierunkowe hipotezy badawcze sze od 0,05. Tylko skąd wiemy, jakie jest to prawdopodobieństwo? To proste - dla otrzymanej wartości M wyliczamy zm, a następnie sprawdzamy w tablicach rozkładu normalnego odpowiadającą jej wartość^ (kolumna p2). W powyższych przykładach hipoteza zerowa (Ho) i badawcza (H{) muszą się wykluczać. Odrzucenie Hopowinno wskazywać na prawdziwośćH\, gdyż Ho i kie- runkowe H\ się wykluczają (jU nie może równocześnie równać się 5 i być większym od 5). Analiza zapisów fi = 5 i jU > 5 mogłaby sugerować, że nie wszystkie możliwo- ści zostały uwzględnione. Tak jednak nie jest, ponieważ średnie ujemne bez względu na swoją wielkość świadczą na korzyść prawdziwości hipotezy zerowej. Powiedzieliśmy, że według umowy za mało prawdopodobne uznajemy zdarze- nia, których prawdopodobieństwo zajścia jest mniejsze niż 0,05. Jak możemy to zinterpretować? Jeżeli w naszych badaniach otrzymaliśmy mało prawdopodobny wy- nik, to może to oznaczać, że mamy wyjątkowe szczęście (otrzymanie takiego wyniku zdarza się nie częściej niż 5 razy na 100) albo że... przyjęliśmy fałszywe założenia. Przyglądamy się naszym założeniom i stwierdzamy, że tylko jedno z nich może być fałszywe. Które? To, które mówiło, że badana przez nas próba nie różni się od normalnej populacji studentów, dla których ju = 5. To ostatnie założenie miało status hipotezy, którą nazywamy hipotezą zerową. Zauważmy, że wartość z, a wraz z nią prawdopodobieństwo, zmienia się w zależ- ności od wartości parametru wyspecyfikowanego w Ho. Średni wynik zmiennej INTUICJA PSYCHOLOGICZNA w badaniu LEARN wyniósł: M= 6. Błąd standardowy średniej równa się 0,39. Jeżeli H0:jU = 5, Jeżeli Hq. // = 5,5, Jeżeli Ho: /J. = 6, Jeżeli Ho: ju = 6,5, 0,39 6-6!5 0,39 = -1,28. Ta sama otrzymana przez nas średniaMbędzie miała różne zM (co jest bezpośred- nio związane z prawdopodobieństwem), w zależności od tego, j aką hipotezę testuj emy. Otrzymanie bardzo mało prawdopodobnego wyniku upoważnia nas do odrzucenia hi- potezy zerowej i stwierdzenia, że badana próba różni się istotnie statystycznie od populacji. Na tym, w skrócie, polega testowanie hipotez. Omówimy cały proces do- kładnie w następnej części. i 139 Rozdział 4. Testowanie hipotez statystycznych. Rozkład statystyki 1 Etapy testowania hipotez W tej części omówimy trzy pierwsze etapy testowania hipotez. 140 Określenie zmiennych i ich skal pomiarowych, sfor- mułowanie założeń i hipotez: Musimy przyjąć pewne założenia dotyczące rozkładu zmiennej w populacji, a także metod pobierania próby. Założenia te dzielimy na dwie kategorie: 1. te, których badacz jest pewny i nie chce ich kwestionować; 2. te, które wydają się wątpliwe. Pierwszy typ założeń tworzy przyjęty przez badacza model, drugi to hipotezy. Założenia, które jesteśmy skłonni uznać za prawdziwe w badaniu LEARN: 1. Zmienna: TIME1 jest zmienną ilościową i ma w populacji rozkład normalny o odchy- leniu standardowym o- 2. 2. Próba losowa N = 30. Hipotezy Formułujemy dwa rodzaje hipotez: 1. zerową Ho: n - 5, 2. badawczą/-^: /u> 5. Mamy podejrzenie, że badana próba różni się pod względem intuicji psychologicznej od populacji wszystkich studentów i chcielibyśmy to sprawdzić. Sądzimy, że pochodzi ona z populacji o średniej większej niż 5. Hipoteza zerowa stanowi przeciwieństwo H,, jest precyzyjnym określeniem parametrów populacji. Obie hipotezy dotyczą parametrów populacji. Muszą się one wzajemnie wy- kluczać, tak aby odrzucenie Ho uprawdopodobniało Hv H-, jest hipotezą, którą badacz chciałby potwierdzić. Natomiast Ho badacz formułuje tak, aby móc ją odrzucić. Określenie rozkładu statystyki: Jeżeli spełnione są założenia CTG, możemy policzyć zM, który ma rozkład normalny N(0,1). Powiemy, że w celu weryfikacji hipotezy zastosowaliśmy test z. Ustalenie reguły decyzyjnej: Schemat postępowania można sformułować następująco: 1. Przewidujemy wszystkie możliwe średnie, które możemy uzyskać w tym badaniu. 2. Dzięki znajomości rozkładu statystyki (rozkładu średnich), z góry określamy, które z nich są mało prawdopodobne (p < 0,05), czyli będą świadczyć przeciwko hipotezie i pozwolą na jej odrzucenie). Etapy testowania hipotez Takie wyniki grupujemy w tzw. obszarze krytycznym (obszarze odrzuceń Ho). Dzieli on wszystkie możliwe wyniki na dwie kategorie: 1. te, których otrzymanie jest mało prawdopodobne i dla których trzeba odrzucić Ho (obszar krytyczny); 2. te, które nie pozwalają na odrzucenie hipotezy zerowej. Ile musiałby wynieść średni wynik w naszej próbie, abyśmy mogli odrzucić Ho? M - 6, M = 4, a może M = 3 lub M-7,a może M = 4,5 lub M= 5,5? Jaka różnica między parametrem określonym w hipotezie a statystyką jest wystarczająca, aby odrzucić Ho? Wszystkie średnie z możliwych prób musimy podzielić na te, które: 1. pozwolą nam na odrzucenie Ho: /i - 5 (obszar krytyczny); 2. nie pozwolą nam na odrzucenie Ho: fi - 5. Co to znaczy, że średnia M jest istotnie większa/mniejsza/różna od 5? Znaczy to, że otrzymanie takiego wyniku jest mało prawdopodobne przy założeniu prawdziwości Ho. A to oznacza, że musimy wyliczyć prawdopodobieństwo otrzymania M należącego do określonego przedziału przy założeniu prawdziwości Ho. Nie jest to trudne, ponieważ znamy rozkład statystyki M (średniej). Jeżeli spełnione są założenia CTG, to wiemy, że ma ona rozkład N(//, -f^), więc możemy skorzystać z tablic rozkładu normalnego, jak robiliśmy to dla wyliczenia prawdopodobieństwa, że dany uczeń otrzyma wynik należący do określonego przedziału. Tablice dotyczą standaryzowanego rozkładu normalnego, więc musimy /W z naszej próby wystandaryzować: zM = M-fi o-,. = 0,37 Te przykłady obrazują, dlaczego Ho musi być precyzyjnie (punktowo) określona. Gdyby- śmy określili, że 5 < /u < 5,5, to nie moglibyśmy wyliczyć rozkładu statystyki. Dla otrzyma- nej wartości M (zM) komputer drukuje prawdopodobieństwo otrzymania \z\ > \zM\, czyli wartość p2z tablic rozkładu normalnego. Reguła odrzucenia Ho zależy od sposobu sformułowania H\. Hi Odrzucamy Ho, gdy fi>5 p2< 0,05 fi<5 p2<0,05 H± 5 2p2 < 0,05, czyli p2 < 0,025 dla Ho: ju = 5 M = 6 zM = 2,74. Z tablic rozkładu normalnego z kolumny p2 odczytujemy, że dla z = 2,74 p2 = 0,0031. 0,0031 < 0,05, co pozwala nam na odrzucenie Ho w przypadku dwóch pierwszych H-,. Test hipotez kierunkowych nazywany jest testem jednostronnym. Przy teście dwustronnym (hipoteza bezkierunkowa) Ho falsyfikują wyniki z obu krańców rozkładu, więc obszar przedstawiający prawdopodobieństwo równe 0,05 musi zostać po- dzielony na dwie części po 0,025. W tym przypadku możemy odrzucić Ho, gdy p2 < 0,025. Wartość odczytana z tablic 0,0031 jest mniejsza od 0,025, więc także w tym przypadku możemy odrzucić Ho. !j| 141 Rozdział 4. Testowanie hipotez statystycznych. Rozkład statystyki W czasach, gdy nie było komputerów, które z łatwością obliczają dokładne prawdo- podobieństwa zawarte w omawianej tabelce, decyzje statystyczne podejmowano na pod- stawie porównania wartości statystyki z wartością krytyczną. Pierwszym krokiem było zbudowanie obszaru krytycznego, czyli takiego zbioru wyników, których prawdopodo- bieństwo pojawienia się było mniejsze od 0,05. W tym celu w tabeli rozkładu normalnego szukano wartości z, dla której p2 = 0,05. Dla testu jednostronnego jest to zK - 1,65. Tę wartość nazywano wartością krytyczną statystyki. Wszystkie wartości zM > 1,65 (lub zu < -1,65 dla przeciwnego kierunku Hi) pozwalają na odrzucenie Ho przy teście jedno- stronnym. Dla testu dwustronnego szukamy w odpowiedniej kolumnie p2 = 0,025. Wartość ta to zK = 1,96. Jeżeli przy teście dwustronnym z > 1,96 lub z < -1,96, to odrzucamy Ho. Wyliczenie prawdopodobieństwa przy założeniu, że Ho jest prawdziwa Chcielibyśmy się przekonać, czy studenci z badania LEARN nie różnią się pod względem intuicji psychologicznej od populacji, z której zostali wylosowani. Wiemy, że wyniki w sprawdzianie intuicji psychologicznej (IP) mają w populacji studentów rozkład normalny, o średniej 5 i odchyleniu standardowym 2. Innymi słowy, pragnie- my się dowiedzieć, czy nasza próba pochodzi z populacji o średniej ji = 5 i cr= 2. Formułujemy H\ (hipotezę badawczą) i przeciwstawną do niej Ho (hipotezę zerową). H\: Studenci z badania LEARN różnią się pod względem intuicji psychologicz- nej od populacji studentów. Hq. Studenci z badania LEARN nie różnią się pod względem intuicji psycholo- gicznej od populacji studentów. Dzięki CTG możemy wyznaczyć rozkład statystyki M. Znajomość rozkładu statystyki Mpozwala nam na wyliczenie prawdopodobień- stwa, że w naszym badaniu otrzymamy średnią spełniającą dane warunki, np. M> 6 lub 3 < M< 5 przy założeniu, że // = 5. Obliczmy, jakie jest prawdopodobieństwo otrzymania w naszym badaniu i przy takim założeniu średniej: a1) większej od 5,1 b1) mniejszej od 4,9 c1) należącej do przedziału (4,9; 5,1) a2) większej od 5,5 b2) mniejszej od 4,5 c2) należącej do przedziału (4,5; 5,5) a3) większej od 5,72 b3) mniejszej od 4,28 c3) należącej do przedziału (4,28; 5,72) Aby znaleźć odpowiednie prawdopodobieństwa, musimy zamienić wartości M 142 na wartości zM. Błąd standardowy średniej wynosi aM = 2l v 30 = 0,37. Etapy testowania hipotez M zM Pi 5,1 0,27 0,39 4,9 -0,27 5,5 1,35 0,09 4,5 -1,35 5,72 1,96 0,025 4,28 -1,96 Obliczamy prawdopodobieństwa: al) p(M> 5,1) =p(z > 0,27) = 0,39 bl) p(M< 4,9) =p(z < -0,27) =........ cl) a2) p{M > 5,5) =p(z > 1,35) =.......... b2) p(M< 4,5) =p(z < -1,35) = 0,09 a3) p(M> 5,72) =p(z > 1,96) = 0,025 b3) p{M< 4,28) =p(z > -1,96) =......... c3) j?(4,28 2) = 0,023 Dla danych z przykładu 4.6 określ prawdopodobieństwo, że średnia z próby 25-elementowej będzie: b) mniejsza od 100 c) większa od 95 d) zawierać się w przedziale (95, 105) e) zawierać się w przedziale (98, 102). Ile wyniosą odpowiednie prawdopodobieństwa, gdy próba będzie 9-elementowa? Rozkład lęku w populacji ma rozkład normalny ze średnią// = 40 i odchyleniem standardowym a= 10. Dla każdej z poniższych prób podejmij decyzję, czy prawdopodobieństwo, że została ona wylosowana z tej populacji jest mniejsze od 0,05. a) próba N - 9 osób o średniej M = 43 M-\i M -\i 43-40 3 zM =-------- =-------- = —-— =-----= 0,90 ff„ X 1 3,33 Kontynuując przykład 4.7 wykonaj obliczenia, gdy: b) próba N - 100 osób o średniej M = 43, c) próba N - 81 osób o średniej M = 37, d) próba N = 16 osób o średniej M - 37. Etapy testowania hipotez Podejmowanie decyzji statystycznych Rozważmy etapy wnioskowania statystycznego na przykładzie. Chcemy sprawdzić, czy specjalny trening polepszy wyniki w teście IQ. Wylosowa- liśmy 16-osobową próbę uczniów, którą poddaliśmy treningowi, a następnie zmierzyli- śmy IQ. Wiemy, że inteligencja ma w populacji rozkład normalny o//=100icr=16. Przetestujmy hipotezę kierunkową w pięciu różnych próbach. Określenie zmiennych i ich skal pomiarowych, sfor- mułowanie założeń i hipotez:___________________ Zmienna: wynik w teście IQ (zmienna ilościowa) Z1. Próba losowa N = 16 Z2. Wyniki IQ (zmienna ilościowa) mają w populacji rozkład N(100, 16) Z3. H0://=100 Hi://>100 Sformułowaliśmy kierunkową hipotezę badawczą, ponieważ chcemy wykazać, że nasz trening podnosi, a nie obniża IQ. Otrzymanie średniej istotnie niższej od 100 nas nie interesuje. Wybór testu statystycznego i. określenie rozkładu statystyki:_______________________________ Spełnione są założenia CTG, więc wiemy, że statystyka M ma rozkład U(ju, aM), gdzie a O u = , czyli juM =.. aM-. Statystyka zM ma rozkład N(0, 1) Ustalenie reguły decyzyjnej. Wybór poziomu istot- ności a, określenie obszaru krytycznego i wartości krytycznej statystyki z: 5% Jeżeli hipoteza zerowa jest prawdziwa, to statysty- ka M ma rozkład N(100,4). Jeżeli z > zk, to odrzucamy Ho. Jeżeli z < z/t, to stwierdzamy brak podstaw do od- rzucenia Ho. 145 Rozdział 4. Testowanie hipotez statystycznych. Rozkład statystyki 1 - Obliczanie wartości statystyki na podstawie otrzy- manych wyników: Rozważmy różne wyn M: = 104 M2 = 107 M3 = 108 MĄ = 96 M5 = 88 ki: r Zmi =.......................... Z/M2 -.......................... ZM3 -.......................... ZM4 =.......................... ZM5 ~.......................... Podjęcie decyzji: Mi = 104; z, = 1,65; z1 = decyzja wobec Ho; M2 = 107; zk = 1,65;z2 = decyzja wobec Ho; M3 = 108; zk = 1,65; z3 = decyzja wobec Ho; MĄ = 96; zk -- = 1,65;z4 = decyzja wobec Ho; M5 = 88; zk -- = 1,65;zs = decyzja wobec Ho; Gdy sformułujemy bezkierunkową hipotezę badawczą, zmienią się tylko kroki 1 i 3. MBOi Określenie zmiennych i ich skal pomiarowych, sfor- mułowanie założeń i hipotez: Określamy hipotezę badawczą bezkierunkowo H^. /i * 100. Ustalenie reguły decyzyjnej, Wybór poziomu istot- ności a, określenie obszaru krytycznego i wartości krytycznej statystyki z: Określamy obszar krytyczny po dwóch stronach rozkładu: 2,5% 2,5% 146 zk=-1,96 zk="1,96 Rysunek 4.8. Obszar krytyczny z = 1,96 Jeżeli hipoteza zerowa jest prawdziwa, to prawdopodobieństwo otrzymania wyniku |z|>z*{z>1,96lubz<-1,96} jest mniejsze od 0,05. Etapy testowania hipotez Posługując się danymi zawartymi w powyższym przykładzie, dokonaj weryfikacji Ho: ju= 100: a) stosując test dwustronny dla a- 0,05 b) stosując test jednostronny dla a- 0,01 c) stosując test dwustronny dla a - 0,01. Test jednostronny a=0,05 5% zk=1,65 Test dwustronny a=0,05 2,5% 2,5% Zk="1.! zk=1,96 Test jednostronny a=0,01 1% zk=2,33 Test dwustronny a=0,01 0,5% 0,5% zk=-2,58 zk=2,58 M-, = 104 *=1 M2 = 107 z2=1,75 M3=108 z3 = 2 M4 = 96 Z4 = -1 M5 = 88 z5 = -3 z-, Zk więc odrzucamy Ho Z3>Zk więc odrzucamy Ho ZĄ 100 (kierunkowa hipoteza badawcza) przewiduje wyniki w na- szej próbie większe od 100, to bierzemy pod uwagę tylko prawy (dodatni) koniec rozkładu z, a wartością krytyczną z jest wartość, powyżej której znajduje się 5% roz- kładu z. W tym przypadku wartością krytyczną z jest 1,65, ponieważ 5% obszaru rozkładuz znajduje siępowyżej 1,65. W takim przypadku zapada decyzja o odrzuce- niu hipotezy zerowej, jeśli z jest większe od 1,65. Analogicznie, jeżeli H\\ ji < 100 (kierunkowa hipoteza badawcza) przewiduje wyniki w naszej próbie mniejsze od 100, to bierzemy pod uwagę tylko lewy (ujem- ny) koniec rozkładu z, a wartością krytyczną z jest wartość, poniżej której znajduje się 5% rozkładu z. W tym przypadku wartością krytycznąz jest -1,65, ponieważ 5% obszaru rozkładu z znajduje się poniżej -1,65. W takim przypadku zapada decyzja o odrzuceniu hipotezy zerowej, jeśli z jest mniejsze od -1,65. Porównajmy teraz tę wartość krytyczną z wartością krytyczną otrzymaną dla hi- potezy bezkierunkowej przy tym samym poziomie a. Wartości krytyczne dla hipo- tezy bezkierunkowej uwzględniają, że wartość statystyki może być dodatnia albo ujemna - są położone tak, że połowa znajduje się powyżej wartości dodatniej, a po- łowa poniżej wartości ujemnej. Dla wybranej przez nas istotności a~ 0,05, co ozna- cza, że będzie nas interesowało 2,5% (0,025) rozkładu z znajdujące się powyżej dodatniej wartości krytycznej i 2,5% (0,025) rozkładu z znajdujące się poniżej ujem- nej wartości krytycznej. Rysunek 4.8 pokazuje wartości krytyczne z odczytane z ta- blicy rozkładu normalnego -1,96 i +1,96 dla a = 0,05. W tym przypadku zapada decyzja o odrzuceniu Ho, jeśli z jest większe niż +1,96 lub mniejsze niż -1,96. Można zauważyć, że jeżeli z jest dodatnie, potrzebna jest mniejsza wartość bezwzględna z, że- by odrzucić Ho, gdy jest testowana dodatnia hipoteza kierunkowa (np. H\\ // > 100) niż gdy jest testowana hipoteza bezkierunkowa. Z tego powodu badacz stosujący testy jednostronne może być podejrzewany o to, że przerobił swoją hipotezę badawczą na kierunkową po obejrzeniu wyników, widząc, że otrzymał wynik nie- pozwalający na odrzucenie hipotezy zerowej za pomocą testu dwustronnego. Aby uniknąć takich podejrzeń, najlepiej jest stosować testy dwustronne nawet wtedy, gdy teoria dokładnie przewiduje kierunek zależności. Jeżeli przyjmiemy or= 0,01 (chcemy się mylić nie częściej niż 1 raz na 100), to przy dodatniej hipotezie kierunkowej wartość krytyczna z wynosi 2,33. W tym przy- padku hipoteza zerowa jest odrzucana tylko wtedy, jeżeli z jest większe od +2,33 w teście jednostronnym. Dla hipotezy bezkierunkowej wartości krytyczne są równe: +2,58 i -2,58. W tym przypadku Ho jest odrzucana, jeżeli z jest większe niż +2,58 lub mniejsze niż—2,58. 148 Etapy testowania hipotez Określ wartość krytyczną z dla następujących poziomów istotności: a) a - 0,05 dla testu dwustronnego b) a - 0,05 dla testu jednostronnego. Szukamy w tablicach rozkładu normalnego: dla testu dwustronnego p2 = V2a i odczytujemy wartość z = 1,96; dla testu jednostronnego p2 = a i odczytujemy wartość z = 1,65. Ćwiczenie 4.10. Określ wartość krytyczną z dla następujących poziomów istotności: c) a= 0,02 dla testu dwustronnego d) a- 0,02 dla testu jednostronnego e) a- 0,01 dla testu dwustronnego f) a = 0,01 dla testu jednostronnego g) a= 0,001 dla testu dwustronnego h) a= 0,001 dla testu jednostronnego. 2,5% Test a =0,05 ar =0,02 ar =0,01 ar =0,001 jednostronny 1,65 dwustronny 1,96 2,5% zk=-1,96 Zk=1.96 Widzimy, że przy tej samej wartości średniej otrzymanej w naszym badaniu może się zdarzyć, że podejmiemy zupełnie inne decyzje dotyczące Ho w zależności od: 1. sposobu sformułowania H{. kierunkowo (test jednostronny) lub bezkierunkowo (test dwu- stronny); 2. wyboru poziomu ryzyka - poziomu istotności a. Przykład 4; J Używając dwustronnego testu na poziomie istotności a - 0,01 oraz a - 0,05, przeprowadź test hipotez, że następujący zbiór wyników X: 1, 2, 3,4, 5, 6, 7, 8, 9 został wylosowany z danej populacji o rozkładzie normalnym, gdy: a)M=5;/V=9;// = 6,5; a- 3 5-6,5 z = —-— = -1,5 dla «?= 0,05 zk - 1,96, więc nasza decyzja to b.p.d.o Ho dla a- 0,01 z* = 2,58, więc nasza decyzja to b.p.d.o Ho. 149 Rozdział 4. Testowanie hipotez statystycznych. Rozkład statystyki Posługując się danymi zamieszczonymi w przykładzie 4.9, zweryfikuj hipotezy dla populacji o rozkładach normalnych, gdy: b) M = 6 ,5; cr=1 c) = 4 ; cr = 4 d) n = 4 ?7=2 e) M = 3 ,5; ?7=2 0 — j ŁT=2 g) u = 3 ; c7=4. Parametry zM z^dla «= 0,01 Decyzja z* dla a= 0,05 Decyzja a) A = 6,5 cr=3 -1,5 2,58 b.p.d.o. Ho 1,96 b.p.d.o. Ho b) ^ = 6,5 cr=1 c) A = 4 cr=4 d) A = 4 cr=2 e) jU-3,5 a=2 f) M = 7 cr=2 g) ^ = 3 cr=4 Wyniki w teście kompetencji szkolnych po gimnazjum mają rozkład normalny N(45,9). Firma AVANTI reklamuje swoje kursy przygotowujące do tego egzaminu, jako dające pew- ność jego pomyślnego zdania. Spośród uczniów, którzy ukończyli ten kurs wylosowano 25- osobową próbę. Średni wynik w tej grupie wyniósł 46 punktów. Czy mógłbyś na tej podstawie potwierdzić prawdziwość reklamy? 150 SCHEMAT WNIOSKOWANIA Określenie zmiennych i Ich skal pomiarowych, sfor- mułowanie założeń i hipotez: Zmienne (skale pomiarowe): wynik w teście - zmienna ilościowa Założenia: N(45,9), próba losowa N-25 Hipotezy: Ho: // = 45; W,: ju > 45 1 Wybór testu i ustalenie rozkładu statystyki: Statystyka z ma rozkład normalny N(0,1) Etapy testowania hipotez Ustalenie reguły decyzyjnej: Poziom istotności dla testu jednostronnego a= 0,05 Wartość krytyczna zk = 1,65 Jeżeli zM > 1,65, odrzucimy Ho. Jeżeli zM < 1,65, b.p.d.o. Ho. a ?. ?. ?. ? ? ćtmmiit p\;-'rKROK:4if|i|. Obliczanie wartości statystyki; Podjęcie decyzji: Ponieważ zM < 1,65, to b.p.d.o. Ho SCHEMAT WNIOSKOWANIA Zmienne Wynik w teście - zmienna ilościowa Założenia Spełnione są założenia testu z. Hipotezy HQ:/u = Ab H-cn > 45 Wybór testu i rozkład statystyki Statystyka Z ma rozkład normalny N(0,1). Reguła decyzyjna Test jednostronny a = 0,05; zkryt - 1,65; Odrzucimy Ho, jeżeli z > 1,65 . Obliczenia aM= * =1,8 z=46-45=0,56 V25 1,8 Decyzja b.p.d.o. Ho Dziewięciu uczniów szkoły artystycznej wypełniało test językowy i popełniło następującą licz- bę błędów: 13, 10, 11, 12, 13, 14, 15, 16, 13. M=13A/=9 Przeprowadź test hipotezy, że uczniowie szkoły artystycznej nie różnią się pod względem liczby błędów w teście językowym od a) populacji N(14,2) b) populacji N(11,2) c) populacji N(12,3) d) populacji N(15,3). Zastosuj test dwustronny i wybierz poziom istotności a- 0,05. 151 Rozdział 4. Testowanie hipotez statystycznych. Rozkład statystyki a) N(14,2) SCHEMAT WNIOSKOWANIA Zmienne Założenia Spełnione są założenia testu z. Hipotezy Wybór testu i rozkład statystyki Reguła decyzyjna Obliczenia Decyzja b) SCHEMAT WNIOSKOWANIA Zmienne Założenia Spełnione są założenia testu z. Hipotezy Wybór testu i rozkład statystyki Reguła decyzyjna Obliczenia Decyzja 152 Etapy testowania hipotez c) N(12,3) SCHEMAT WNIOSKOWANIA Zmienne Założenia Spełnione są założenia testu z. Hipotezy Wybór testu i rozkład statystyki Reguła decyzyjna Obliczenia Decyzja d) N(15,3) SCHEMAT WNIOSKOWANIA Zmienne Założenia Spełnione są założenia testu z. Hipotezy Wybór testu i rozkład statystyki Reguła decyzyjna Obliczenia Decyzja 153 i Rozdział 4. Testowanie hipotez statystycznych. Rozkład statystyki Etapy wnioskowania statystycznego na podstawie wydruku komputerowego Omówiliśmy procedurę testowania hipotez na podstawie porównania otrzyma- nej wartości statystyki z odpowiednią wartością krytyczną. Dziś statystyki obli- czane są najczęściej przez komputer, a na wydrukach zamiast wartości krytycznych podawane są prawdopodobieństwa. Przy dostępnej mocy obliczeniowej kompute- rów wyliczenie dokładnych prawdopodobieństw nie stanowi żadnego problemu. Drukowane prawdopodobieństwo to prawdopodobieństwo uzyskania, przy za- łożeniu prawdziwości Ho, bezwzględnej wartości statystyki równej lub większej od bezwzględnej wartości statystyki wyliczonej z naszej próby. Wartość bezwzględna oznacza pomijanie znaku liczby. Jeżeli średnia, którą otrzymaliśmy w naszym badaniu, po standaryzacji wynosi 2, to na wydruku otrzymamy prawdopodobieństwo związane z zM= 2 lub zM=-2, po- nieważ standardowo pakiety statystyczne wykonują test dwustronny (testują hipote- zę bezkierunkową). DlazM= 2 wydrukowana wartość p będzie odpowiadała wartości p2 w tablicach rozkładu normalnego (p = 0,0228). Jeżeli to prawdopodobieństwo jest mniejsze od założonego poziomu istotności (or= 0,05, a— 0,01 lub a= 0,001), to odrzucamy Ho. Jeżeli nie, to stwierdzamy brak podstaw do odrzucenia Ho. Odrzucamy Ho, gdy p (poziom istotności z wydruku) A>5 ju< 5 wartości p na wydrukach komputerowych dotyczą hipotez niekierunkowych p < 0,05 Etapy testowania hipotez z wykorzystaniem wydruku komputerowego przedsta- wiają się następująco: 154 KROK2 KROK3 Określenie zmiennych i ich skal pomiarowych, sfor- mułowanie założeń i hipotez.__________________ Wybór testu i określenie rozkładu statystyki. Ustalenie reguły decyzyjnej. Wybór poziomu istot- ności. Ryzyko błędu Porównanie wartości prawdopodobieństwa wydru- kowanego przy wartości statystyki z z wybranym poziomem istotności a. Podjęcie decyzji dotyczącej odrzucenia hipotezy zerowej.________________________________________ Jakie wartości prawdopodobieństwa wydrukuje komputer, jeżeli w badaniu otrzymaliśmy zM = 1? Jaką decyzję podejmiesz? Szukamy w tablicach wartości p2 dla z = 1. Wynosi ono p2 - 0,1587. Ponieważ p2 > 0,05, stwierdzamy brak podstaw do odrzucenia hipotezy zerowej. Wykonaj polecenie z przykładu dla następujących wartości średnich. p2 (wartość drukowana na wydruku komputerowym) Decyzja zM=1 0,1587 b.p.d.o. Ho zM = 2,41 zM = -1,26 zM = -2,1 zM=1,87 J4.1Ż, Ryzyko błędu Jak powiedział Lem, „Statystyka niczego nie dowodzi, czyni tylko wszystko mniej lub bardziej prawdopodobnym". Czy możliwe jest otrzymanie średniej 7, przy założeniu, że 30-elementowapróba pochodzi z populacji o // = 5? MOŻLIWE, ale (w zależności od ć) może to być bardzo mało prawdopodobne. Decydujemy się więc na odrzucenie Ho: // = 5. Może- my popełnić błąd, ale prawdopodobieństwo popełnienia tego błędu będzie mniejsze od poziomu ryzyka, które zgodziliśmy się przyjąć: 5 pomyłek na 100 decyzji (0,05). Ta wielkość założonego ryzyka nazywa się poziomem istotności i oznaczana jest jako a. 155 Rozdział 4. Testowanie hipotez statystycznych. Rozkład statystyki Decyzje statystyczne są binarne - albo odrzucamy hipotezę zerową, albo jej nie odrzucamy. Dokładnie tak jak w życiu, gdy przychodzi do nas klient płacący podej- rzanym banknotem. Możemy banknot odrzucić albo zaakceptować. Jeżeli odrzucili- śmy fałszywy banknot, to podjęliśmy prawidłową decyzję. Jeżeli nie odrzuciliśmy banknotu prawdziwego, to nasza decyzja również była prawidłowa. Jeżeli jednak przyjęliśmy fałszywy banknot lub odrzuciliśmy prawdziwy, to popełniliśmy błąd. Z podobną sytuacją mamy do czynienia przy podejmowaniu decyzji statystycznych. Różnią się one jednak od życiowych tym, że dokładnie znamy prawdopodobieństwo popełnienia błędu. Są cztery możliwe rezultaty naszych decyzji: 1. odrzucenie fałszywej Ho, 2. nieodrzucenie prawdziwej Ho, 3. odrzucenie prawdziwej Ho, 4. nieodrzucenie fałszywej Ho. Dwie pierwsze sądecyzjami prawidłowymi. Odrzucenie prawdziwej //onazywa- my błędem pierwszego rodzaju (odrzuciliśmy prawdziwy banknot). Błąd drugiego rodzaju pojawia się, kiedy fałszywa Ho nie jest odrzucana (przyjęliśmy fałszywy banknot). Jeżeli odrzucimy prawdziwą hipotezę HQ, to popełniamy błąd pierwszego rodzaju. Jeżeli nie odrzucimy fałszywej hipotezy Ho, to popełniamy błąd drugiego rodzaju. 156 Prawdopodobieństwo popełnienia błędu I rodzaju nazywamy poziomem istotno- ści - ryzykiem błędu, który skłonni jesteśmy zaakceptować. Wybór wartości pozio- mu istotności zależy od badacza i od tego, jak „ostro" chce on weryfikować swoje hipotezy. W naukach społecznych przyjmujemy zazwyczaj wartość a=0,05. Czasem może nam zależeć na tym, aby ryzyko błędu było niższe (np. badania medyczne), wtedy możemy ustalić a= 0,01 (możemy pomylić się raz na sto) lub a= 0,001 (mo- żemy pomylić się raz na tysiąc). Czasem interpretujemy wyniki, gdyp < 0,1, określa- j jąc je jako istotne na poziomie tendencji statystycznej. Takie wyniki są sygnałem, że replikacja badania ze zwróceniem szczególnej uwagi na możliwe źródła wariancji niewyjaśnionej może dać wyniki istotne statystycznie. Gdy odrzucamy Ho, grozi nam popełnienie błędu I rodzaju. Ale jeżeli nie odrzu- cimy HQ, to też możemy popełnić błąd, polegający na nieodrzuceniu FAŁSZYWEJ Ho. Jest to błąd II rodzaju. Ryzyko błędu Prawdopodobieństwo niepoprawnego odrzucenia prawdziwej Ho (błąd I rodza- ju) jest równe a. Nowy symbol, /?(beta), określa prawdopodobieństwo błędu II ro- dzaju (nieodrzucenie fałszywej Ho). Skoro regułą decyzyjną jest albo odrzucić Ho, albo nie, prawdopodobieństwo poprawnego odrzucenia fałszywej Ho wynosi 1 - /3. Tabela 4.4. Decyzje wobec Ho i towarzyszące im rodzaje błędów Odrzucamy Ho Nie odrzucamy Ho Ho prawdziwa Błąd 1 rodzaju a 1-a © Ho fałszywa ?\-P © Błąd II rodzaju p Tabela 4.4 przedstawia symbole używane do określenia prawdopodobieństwa każdego z tych błędów. Błąd I rodzaju pojawia się, kiedy prawdziwa Ho jest odrzucona, a błąd II rodzaju pojawia się, gdy fałszywa Hq nie jest odrzucona. Beta (J3) oznacza więc prawdopodobieństwo popełnienia błędu II rodzaju. Warto zaznaczyć, iż dla każdego testu prawdopodobieństwa popełnienia błędów I i II rodzaju są wzajemnie przeciwstawne. Najlepsza strategia podejmowania decy- zji powinna oczywiście minimalizować oba rodzaje błędów. Niestety, próba zmniej- szenia prawdopodobieństwa błędu I rodzaju powoduje w rezultacie wzrost prawdo- podobieństwa błędu II rodzaju. To znaczy, że jeżeli eksperymentator przyjmuje a=0,01 zamiast a = 0,05, aby zmniejszyć szansę niepoprawnego odrzucenia praw- dziwej Ho, rezultatem będzie wzrost prawdopodobieństwa nieodrzucenia fałszy- wej Hq. Im mniejsze jest ryzyko błędu I rodzaju, tym większe jest prawdopodo- bieństwo popełnienia błędu II rodzaju. Niemożliwe jest jednoczesne minimalizo- wanie ryzyka popełnienia obu błędów, dopóki nie zmieni się sposobu przeprowa- dzania badania i nie uwzględni dodatkowych przypadków lub nie zastosuje innego testu statystycznego. Prawdopodobieństwo błędu II rodzaju pozwala nam na określenie mocy testu statystycznego, którajest definiowana jako prawdopodobieństwo poprawnego od- rzucenia fałszywej Ho. Moc testu statystycznego jest zdefiniowana jako prawdopodobieństwo poprawnego odrzucenia fałszywej Ho. moc testu = 1 - /? Moc testu określa jego zdolność do wykrywania różnic. Ogólnie mówiąc, im większa moc testu, tym większa jest jego zdolność do wykrycia różnic między praw- dziwą wartością parametru a hipotetyczną wartością przyjętą w hipotezie zerowej. 157 Rozdział 4. Testowanie hipotez statystycznych. Rozkład statystyki Jeżeli hipoteza zerowa jest fałszywa, moc testu dla pojedynczej średniej zmniejsza się, gdy: • zmniejsza się a, • zmniejsza sięN • i zwiększa się cf. Test jednostronny ma większą moc niż test dwustronny, pod warunkiem że hi- poteza kierunkowa ma prawidłowy kierunek. Moc testu zwiększa się także ze wzrostem różnicy między prawdziwą wartością/i a hipotetyczną wartością^ przyję- tą w Ho. Jeżeli hipoteza zerowa jest prawdziwa, a przyjęte założenia słuszne, jedy- nym czynnikiem wpływającym na prawdopodobieństwo błędu I rodzaju jest wartość a ustalona przez eksperymentatora. Warto pamiętać, że niestatystyczne informacje wpływajątakże na decyzję doty- czącą wyniku badania. Badacz często ma możliwość powtórzenia eksperymentu i osza- cowania jego rzetelności. Rzetelność wyników eksperymentu jest także oceniana na tle podobnych badań. Na moc testu wpływa również wariancja zmiennej, która może być kontrolowa- na przez badacza na przykład przez systematyczną kontrolę wpływów zewnętrznych na pomiar. Zachęcamy Czytelnika do zaznajomienia się z problemem określania mocy testu w literaturze [3, 5, 9,10,11]. Podsumowanie Wyniki, które pozwalają odrzucić Ha na poziomie istotności a = 0,05 są w na- ukach społecznych określane jako istotne statystycznie. Wartość statystyki zwią- zanej z poziomem ajest nazywana wartością krytyczną tej statystyki. Kierunko- wa hipoteza badawcza określa kierunek różnic między wartością statystyki a para- metrem określonym w hipotezie zerowej. Bezkierunkowa hipoteza badawcza to taka, w której kierunek różnic nie jest określony. Testy hipotez kierunkowych to testy jednostronne. Testy hipotez bezkierunkowych to testy dwustronne. 1: 158 Zapisz definicje kluczowych pojęć wprowadzonych w tym rozdziale oraz nowe symbole ?Kz&ŁS* Test t Studenta. Przedział ufności Pojęcia kluczowe: test t Studenta dla jednej próby; test t Studenta dla prób zależnych; test f Studenta dla prób niezależnych; przedziały ufności Nowe symbole: t, D, Dw, Ds, df, sM,Su I Rozkład t Studenta Nauczyliśmy się, jak testować hipotezę mówiącą o tym, że próba pochodzi z po- pulacji o znanym rozkładzie N(//, o). Możemy skorzystać z CTG i porównać otrzy- maną średnią w próbie z rozkładem średnich. W takim modelu przyjmujemy, że // oraz csą znane w populacji. Odpowiadający temu modelowi test nazywa się testem z (od statystyki, której używamy). Co jednak zrobić, kiedy er w populacji jest nieznane, a jest to przecież bardzo częsta sytuacja? Wiemy już, że odchylenie standardowe (s) z próby stanowi dobry estymator a. Można więc do wzoru na z: M-jJ. . s z =-------- zamiast aM podstawie sM = Ale czy tak wyliczone z będziemy mogli porównać z tablicami rozkładu normal- nego? Okazuje się, że nie zawsze. Tak wyliczona statystyka ma rozkład normalny tylko dla bardzo dużych prób. Dla prób N < 30 ma ona inny rozkład. Otrzymujemy w tym przypadku rodzinę rozkładów nazwanych rozkładami t Stu- denta, od pseudonimu matematyka W.S. Gossetta, który je zdefiniował. Statystyka f jest używana do testowania hipotez dotyczących średniej przy założeniu, że roz- kład zmiennej w populacji jest normalny. 159 Rozdział 5. Test t Studenta. Przedział ufności Jeżeli zbiór N wyników ''został wylosowany z populacji o rozkładzie normalnym ze średnią// i nieznanąwariancją, to statystyka t ma (opisany w odpowiednich tablicach) rozkład t Studenta Warto zauważyć, iż t to rodzina rozkładów, które zależą od rozmiaru próby. Gdy N dąży do nieskończoności, rozkład t Studenta zbliża się do rozkładu normalnego. Aby w praktyce weryfikować hipotezę, musimy wpierw wyliczyć t, podstawiając do wzoru M- średnią z próby, s - odchylenie standardowe wyliczone z próby, N - liczebność próby oraz /j. - zakładaną w HQ średnią w populacji. Jeżeli HQ jest praw- dziwa, to otrzymana wartość t powinna być bliska 0. Im bardziej t różni się od zera, tym mniej prawdopodobne jest otrzymanie takiej wartości, przy założeniu, że //ojest prawdziwa. Tablice rozkładu t Studenta Co znajduje się w tablicach rozkładu t Studenta (patrz: tablice na końcu książki)? Wiersze tabeli nazywane są stopniami swobody, inaczej df od angielskiej nazwy degrees offreedom. pI Ogólnie mówiąc, stopnie swobody mogą być określone jako miara, związana ze zbiorem informacji. Jest to miara stopnia, w jakim wartości w tym zbiorze mogą się zmieniać, spełniając jednocześnie warunki, które są na zbiór nałożone. 160 Pojęcie stopni swobody łatwo zobrazować na przykładzie przyrządzania koktajli. Koktajl 1. Koktajl 2. 4 soki owocowe (cytrynowy, pomarańczowy, wiśniowy, porzeczkowy) połączyć ze spirytusem w proporcji 10:1. 4 soki owocowe (cytrynowy, pomarańczowy, wiśniowy, porzeczkowy) połączyć tak, aby soków jasnych było dwa razy więcej niż soków ciemnych, następnie dodać spirytus w proporcji 1:10. W koktajlach mamy 5 składników - więc musimy określić 5 liczb mówiących o ilościach danego płynu - gdyby nie było warunków ograniczających (proporcje), mielibyśmy pełną swobodę (5 stopni). Zastosowanie testu t Studenta do testowania hipotezy dla pojedynczej próby Jest jeden warunek ograniczający (proporcja soku do spirytusu) - tracimy więc jeden stopień swobody. Są dwa warunki ograniczające nasze decyzje (stosunek soków jasnych do ciemnych, proporcja spirytusu) - tracimy więc dwa stopnie swobody. Mamy 5-1=4 stopnie swobody, co oznacza, że możemy wlać do koktajlu dowolną ilość każdego z 4 soków. Nie mamy żadnej swobody w decydowaniu o ilości spirytusu -jest ona wyznaczona przez ilość soku. Mamy 5-2 = 3 stopnie swobody, co oznacza, że możemy wlać do koktajlu dowolną ilość 3 soków. Nie mamy żadnej swobody w decydowaniu ani o ilości czwartego soku, ani o ilości spirytusu - są one wyznaczone przez podanie proporcji w przepisie. W kolumnach znaj dują się wartości poziomu istotności. Tablica rozkładu t Stu- denta jest tak skonstruowana, że a związane z wartościami krytycznymi t dla testów jednostronnych i dwustronnych, przy tej samej liczbie stopni swobody, znajdują się wtych samym wierszu w tabeli, lecz oznaczająwartości dla różnych poziomów istot- ności. Na przykład odczytujemy z tabeli, że dla df= 16 taka sama wartość krytyczna t = 2,583 występuje dla a = 0,01 przy teście jednostronnym, jak i a = 0,02 przy teście dwustronnym. Statystyka t =-----^= ma rozkład t Studenta z N - 1 stopniami swobody pod następującymi warunkami: 1. Wyniki pochodzą z populacji o rozkładzie normalnym. 2. Wyniki były losowane niezależnie. [Zastosowanie testu t Studenta do testowania hipotezy dla pojedynczej próby Badano poziom lęku w pewnej próbie. Czy można uznać, że została ona wylosowana z po- pulacji o średniej /u = 50? Średnia w próbie (N = 16) wynosi M = 46, odchylenie standardowe s = 8. Przetestuj hipotezę zerową, wykorzystując dwustronny test t, gdy a= 0,05. Jak zmienią się Twoje decyzje, jeżeli wybierzesz a- 0,01? Odpowiedz na pytania, stosując SCHEMAT WNIOSKOWANIA. 161 I I Rozdział 5. Test t Studenta. Przedział ufności SCHEMAT WNIOSKOWANIA Zmienna POZIOM LĘKU (zmienna ilościowa). Założenia Spełnione są założenia testu t. Hipotezy Ho: n = 50 Próba pochodzi z populacji o /i = 50. Hi'. /jź5Q Próba nie pochodzi z populacji o // = 50. Wybór testu i rozkład statystyki Statystyka t ma rozkład t Studenta dla df = N - 1 = 15. Reguła decyzyjna a- 0,05; W(15) = 2,131; odrzucimy Ho, jeżeli t > 2,131 lub f< -2,131 Obliczenia 46-50 -4 n 8/Vl6 2 Decyzja b.p.d.o. Ho 162 Określenie zmiennych i ich skal pomiarowych, sfor- mułowanie założeń i hipotez:________________ Zmienna POZIOM LĘKU (zmienna ilościowa) ma w populacji rozkład normalny, M = 46, s = 8, W =16 Hipotezy: Ho: // = 50 Próba pochodzi z populacji o p. = 50 Hy fi ?ł 50 Próba nie pochodzi z populacji o /x = 50 Wybór testu i ustalenie rozkładu statystyki: Statystyka f ma rozkład t Studenta dla df= N - 1 = 15 KROK 31 Ustalenie reguły decyzyjnej: Poziom istotności: a =0,05 Wartość krytyczna: 4^0 5) = 2,131 Odrzucimy Ho, jeżeli f > 2,131 lub f < -2,131 f*f Obliczanie wartości statystyki: 46-50 -4 -2 8/Vl6~ 2 "/^.KROfiS Podjęcie decyzji: -2 > -2,131, więc brak podstaw do odrzucenia Ho (b.p.d.o. Ho). Stwierdzamy, że próba nie różni się od populacji pod względem poziomu lęku. Test t, w którym porównujemy średnią zmiennej wjakiejś grupie ze średniąw całej popu- lacji jest często nazywany testem t dla jednej próby. L... Zastosowanie testu t Studenta do testowania hipotezy dla pojedynczej próby Korzystając z danych zawartych w przykładzie 5.1, przetestuj hipotezę zerową dla następują- cych prób: a) Średnia w próbie (A/ = 25) wynosi M = 46, odchylenie standardowe s = 8 Zmienna Założenia Spełnione są założenia testu t. Hipotezy Wybór testu i rozkład statystyki Reguła decyzyjna Obliczenia Decyzja b) Średnia w próbie (N = 16) wynosi M = 48, odchylenie standardowe s = 8 Zmienna Założenia Spełnione są założenia testu t. Hipotezy Wybór testu i rozkład statystyki Reguła decyzyjna Obliczenia Decyzja c) Średnia w próbie (N - 25) wynosi M = 48, odchylenie standardowe s = 8 Zmienna Założenia Spełnione są założenia testu t. Hipotezy Wybór testu i rozkład statystyki Reguła decyzyjna Obliczenia Decyzja 163 Rozdział 5. Test t Studenta. Przedział ufności d) Średnia w próbie (N = 16) wynosi M = 46, odchylenie standardowe s = 4 i Zmienna Założenia Spełnione są założenia testu t. Hipotezy Wybór testu i rozkład statystyki Reguła decyzyjna Obliczenia Decyzja e) Średnia w próbie (N = 25) wynosi M - 46, odchylenie standardowe s = 4 Zmienna Założenia Spełnione są założenia testu t. Hipotezy Wybór testu i rozkład statystyki Reguła decyzyjna Obliczenia Decyzja W badaniu LEARN nie znamy odchylenia standardowego zmiennej INTUICJA w populacji. Możemy przetestować hipotezę mówiącą, że badana próba nie różni się pod względem intu- icji psychologicznej od populacji (Ho: jU = 5) za pomocą testu f. Dla potrzeb przykładu prze- analizujemy pierwszy pomiar tej zmiennej - T1ME1. 164 SCHEMAT WNIOSKOWANIA KROKI Określenie zmiennych i ich skal pomiarowych, sfor- mułowanie założeń i hipotez: Intuicja psychologiczna TIME1 (zmienna ilościowa) Założenia: Zmienna TIME1 ma w populacji rozkład normalny, M = 6, s = 2,15, N - 30 Hipotezy: HD: fi - 5 Próba pochodzi z populacji o średniej intuicji psychologicznej równej 5. H\. /i* 5 Próba różni się od populacji pod względem średniej intuicji psychologicznej. Zastosowanie testu t Studenta do testowania hipotezy dla pojedynczej próby Wybór testu i ustalenie rozkładu statystyki: Statystyka t ma rozkład / Studenta dla df - N - 1 = 29. Ustalenie reguły decyzyjnej; Poziom istotności: a= 0,05 Wartość krytyczna: Nie musimy znać wartości krytycznej t, z wydruku odczytamy istot- ność p. Odrzucimy Ho, jeżeli p < 0,05 Obliczanie wartości statystyki wykonuje kornpute- rowy pakiet statystyczny:______________________ Wyniki przedstawiają tabele 5.1 i 5.2. Tabela 5.1. Statystyki dla jednej próby zmiennej TIME1 N Średnia Odchylenie standardowe Błąd standardowy średniej TIME1 30 6,00 2,15 0 39 Tabela 5.2. Test dla jednej próby zmiennej TIME1 Wartość testowana = 5 f df Istotność (dwustronna) Różnica średnich TIME1 2,55 29 0,016 1 00 Podjęcie decyzji: 0,016 < 0,05, więc możemy odrzucić Ho Badana grupa różni się istotnie statystycznie od populacji pod względem intuicji psycho- logicznej: t = 2,55 p < 0,02 dla pierwszego sprawdzianu (TIME1). Na podstawie przykładu 5.2 i zamieszczonych poniżej wydruków przeanalizuj analogicznie drugi pomiar zmiennej INTUICJA - TIME 2 ( Ho: ju = 5) Tabela i 5.3. Statystyki dla jednej próby zmiennej TIME2 Średnia Odchylenie standardowe Błąd standardowy średniej TIME2 30 6,00 2,61 0,48 165 Rozdział 5. Test t Studenta. Przedział ufności Tabela 5.4. Test dla jednej próby zmiennej TIME2 Wartość testowana = 5 t df Istotność (dwustronna) Różnica średnich TIME2 2,10 29 0,045 f 1,00 SCHEMAT WNIOSKOWANIA Zmienne Założenia Spełnione są założenia testu t. Hipotezy Wybór testu Reguła decyzyjna Wartość statystyki i decyzja 166 (Zastosowanie testu t do testowania hipotezy o równości średnich na podstawie dwóch prób zależnych (schemat badawczy: Pretest-Posttest) Bardzo popularnym, choć rodzącym sporo problemów metodologicznych [por. 5, 6], jest schemat badawczy: pretest-posttest. Pozwala nam on na zbadanie, czy na- stąpiła zmiana w zakresie naszej zmiennej zależnej między pierwszym (pretest) a dru- gim (posttest) pomiarem. Przykład: badamy wpływ obecności innych na liczbą popełnianych błędów. Badani uczą się pisać bezwzrokowo na komputerze, który zapisuje wyniki. Następ- nie podchodzimy do badanego i przyglądamy się, jak mu idzie (komputer zapisuje wyniki). Zmienna niezależna: obecność innych osób (jest, brak) to zmienna nominal- na. Zmienna zależna: liczba popełnianych błędów to zmienna ilościowa. W zbiorze LEARN możemy policzyć różnice między wynikami w pierwszym teście i wynikami w drugim teście, przeprowadzonym po dwóch dniach. Mamy dwa zestawy pomiarów - po dwa dla każdej osoby badanej. To, że są one połączone w pa- ry powoduje, że pomiary są od siebie zależne. Mówimy, że są to próby zależne, mo- żemy więc dla każdej osoby utworzyć nową zmienną Z), będącą różnicą między po- miarem początkowym i końcowym. Jeżeli oczekujemy wzrostu wartości zmiennej, to rozsądniej jest od wyniku końcowego odejmować wynik początkowy: Dw=Xk-Xp. Jeżeli oczekujemy spadku wartości zmiennej w drugim pomiarze, to od wyniku początkowego odejmiemy końcowy: Ds =XP-Xk. Pozwoli nam to uniknąć wartości ujemnych testu t. ...........- ............. Zastosowanie testu t do testowania hipotezy o równości średnich. Hipoteza badawcza może zostać sformułowana trojako: wyniki w obu pomiarach różnią się istotnie od siebie fiD>0-> nastąpił wzrost (gdy liczyliśmy DW) lub spadek (gdy liczyliśmy Ds) wartości zmiennej zależnej Hipoteza zerowa musi być sformułowana precyzyjnie Ho: juD = 0. Teoretycznie możemy sobie wyobrazić, że wiemy, jak duża powinna być różnica i możemy sfor- mułować hipotezą, np. Ho: jUD= 10, ale w praktyce zdarza się to niezmiernie rzadko. Proszę zauważyć, że umiemy już testować hipotezę Ho: jUD = 0. Jeżeli możemy założyć, że rozkład różnic w populacji jest normalny lub mamy wystarczająco dużą próbę, to możemy zastosować test t Studenta, takjak w poprzed- nich zadaniach. Musimy utworzyć nową zmienną D - różnicę między wynikami, policzyć jej średnią, odchylenie standardowe i błąd standardowy. N gdzie: MD - średnia różnica, N- liczba par pomiarów, sD - odchylenie standardowe różnic, sUo - błąd standardowy różnicy. Teraz możemy przetestować hipotezę dotyczącą różnicy między wynikami pierw- szego i drugiego pomiaru. Sześć osób otrzymywało specjalny lek mający obniżyć poziom cholesterolu we krwi. Poziomy cholesterolu zmierzone u badanych przed i po kuracji przedstawiają się następująco: Przed kuracją Po kuracji Ds Pacjent 1 287 255 32 Pacjent 2 350 269 81 Pacjent 3 343 340 3 Pacjent 4 309 247 62 Pacjent 5 343 323 20 Pacjent 6 309 267 42 Czy nastąpiła istotna redukcja poziomu cholesterolu? Przetestuj hipotezę, stosując SCHE- MAT WNIOSKOWANIA (a= 0,05) i wykorzystując obliczenia cząstkowe. 167 Rozdział 5. Test t Studenta. Przedział ufności 168 Miii Określenie zmiennych i ich skai pomiarowych, sfor- mułowanie założeń i hipotez; Zmienna niezależna: LEK (zmienna nominalna na dwóch poziomach: 1 - przed zaży- ciem, 2 - po zażyciu) Zmienna zależna: POZIOM CHOLESTEROLU (zmienna ilościowa) Założenia: Zmienna CHOLESTEROL ma w populacji rozkład normalny, MD = 40, sD = 28,29, N = 6; próby losowe, pomiary zależne Hipotezy: Ho: fiD-^i Poziom cholesterolu po kuracji nie zmieni się. 0 Poziom cholesterolu po kuracji ulegnie zmianie. Wybór testu i ustalenie rozkładu statystyki: Spełnione są założenia testu t. df= N- 1 =5, gdzie N to liczba par pomiarów. Ustalenie reguły decyzyjnej: Poziom istotności: a = 0,05 Wartość krytyczna: ^(5) = 2,571 Odrzucimy Ho, jeżeli t > 2,571 lub f < -2,571 Obliczanie wartości statystyki: Ponieważ oczekujemy spadku wartości zmiennej w drugim pomiarze, więc: Ds = Xp - Xk, gdzie Xpto pretest (pomiar początkowy), a Xk to posttest (pomiar końcowy). SD = 28,29 Mr t- 40 40 28,29/V6 11,6 = 3,45 D - różnica pomiędzy parą pomiarów MD - średnia różnica sMd - błąd standardowy różnicy par pomiarów N - liczba par pomiarów KROK5 Podjęcie decyzji: 3,45 > 2,571, więc możemy odrzucić Ho. Stwierdzamy, że otrzymany wynik należy do obszaru odrzuceń Ho, czyli uznajemy, że poziom cholesterolu obniżył się istotnie po kuracji nowym lekiem. Zastosowanie testu t do testowania hipotezy o równości średnich. SCHEMAT WNIOSKOWANIA Zmienne Zmienna niezależna: LEK (zmienna nominalna na dwóch poziomach: 1 - przed zażyciem, 2 - po zażyciu) Zmienna zależna POZIOM CHOLESTEROLU (zmienna ilościowa) Założenia Spełnione są założenia testu f. Hipotezy Ho: fiD = 0 Poziom cholesterolu po kuracji nie zmieni się. H{. jiDt- 0 Poziom cholesterolu po kuracji ulegnie zmianie. Wybór testu i rozkład statystyki Statystyka t ma rozkład t Studenta dla df - N - 1 =5. Reguła decyzyjna Odrzucimy Ho, jeżeli t > 2,571 lub t < -2,571. Obliczenia Sm° S ' 11,6 ' Decyzja 3,45 > 2,571, więc możemy odrzucić Ho. Stwierdzamy, że poziom cholesterolu po kuracji obniżył się. Różnica między decyzjami statystycznymi a wyjaśnieniami Podejmując decyzję o odrzuceniu Ho w przykładzie 5.3, stwierdziliśmy, że otrzy- manie zaobserwowanej średniej MD= 40 jest mało prawdopodobne przy założeniu, że wyniki pochodzą z populacji o fiD = 0 (hipoteza zerowa). Co z tego wynika? Czy możemy stwierdzić, że lekarstwo powoduje obniżenie poziomu cholesterolu? Ważne jest rozróżnienie między decyzją, która może być podjęta odnośnie do Ho, a podawa- niem wyjaśnień otrzymanych wyników. Możliwe jest podjecie prawidłowej decy- zji statystycznej i wyciągnięcie niewłaściwych wniosków. Rozważmy na tym przy- kładzie alternatywne wyjaśnienie otrzymanego wyniku. Być może w badaniu wzięli udział ochotnicy, którzy mieli bardzo wysoki poziom cholesterolu i zgłoszenie się do badań było jednym z szeregu działań, które te osoby podjęły, aby ratować się przed zagrożeniem zawałem. Nie możemy wykluczyć tego, że ich poziom cholesterolu mógłby się obniżyć, nawet gdyby nie brali udziału w tym programie, np. na skutek zmiany diety czy zwiększenia poziomu aktywności fizycznej. Interpretacja otrzyma- nego wyniku byłaby dużo łatwiejsza, gdybyśmy ochotników podzielili losowo na dwie grupy. Pierwsza otrzymywałaby lek (grupa eksperymentalna), druga czekałaby j na otrzymanie leku (grupa kontrolna). Od obu grup mielibyśmy dwa pomiaru poziomu cholesterolu, co pozwoliłoby orównywać MD grupy eksperymentalnej zamiast do 0, to do średniej z grupy kon- olnej. Jeżeli różnica między średnimi w dwóch grupach byłaby istotna statystycz- de, to eksperymentator miałby większą pewność co do przyczyny wyników. Zawsze varto zadać sobie pytanie, czy otrzymane przez nas istotne statystycznie wyniki iadzą się inaczej wytłumaczyć. Trzeba pamiętać, że decyzja statystyczna powinna być odróżniana od konkluzji badawczych. Wynik może być statystycznie istotny, ale I 169 Rozdział 5. Test t Studenta. Przedział ufności wątpliwy - ze wzglądu na inne możliwe interpretacje - i niczego nierozstrzygający. Osobnym problemem jest możliwość generalizacji otrzymanych wyników, która za- leży od sposobu dobrania próby. Polityk chce się dowiedzieć, czy złożenie wyborcom obietnicy zwiększenia wydatków na cele społeczne wpłynie na podwyższenie jego notowań. Ma on dostęp do danych dotyczących popularności kilku innych kandydatów przed i po tym jak obiecali zwiększenie wydatków na cele społeczne. Co może wywnioskować z danych przedstawionych w tabeli 5.5 (zakładając, że żadne inne czynniki nie wpływały na wskaźniki popularności)? Tabela 5.5. Wskaźniki popularności polityków Polityk Wskaźnik popularności Przed Xp Wskaźnik popularności PoX„ Różnica Dw 1 42 43 1 2 41 45 4 3 50 56 6 4 52 54 2 5 58 65 7 6 32 29 _3 7 39 46 7 8 42 48 6 9 48 47 -1 10 47 53 6 Ponieważ oczekujemy wzrostu wartości zmiennej w drugim pomiarze, więc Dw=Xt—Xp, aXDw=35;N=10; So = 3,57. SCHEMAT WNIOSKOWANIA 170 Zmienne Założenia Spełnione są założenia testu t. Hipotezy Wybór testu i rozkład statystyki Reguła decyzyjna Obliczenia Decyzja Zastosowanie testu t do testowania hipotezy o równości średnich... Jak wspomnieliśmy, w badaniu LEARN dysponujemy pomiarami wyników w teście intuicji psychologicznej, w dwóch punktach czasowych TIME1 i TIME2, czyli dla każdej osoby bada- nej dysponujemy parą pomiarów, które są od siebie zależne. Możemy więc przetestować hi- potezę, że dla mężczyzn (powiedzmy, że szczególnie interesują nas mężczyźni) różnica mię- dzy wynikiem pierwszego i drugiego testu wynosi 0 (Ho: fio = 0). SCHEMAT WNIOSKOWANIA Określenie zmiennych i ich skal pomiarowych, sfor- mułowanie założeń i hipotez; Zmienna niezależna: CZAS POMIARU (zmienna nominalna, dwie wartości: [1] - zaraz po manipulacji, [2] - 2 dni później) Zmienna zależna: INTUICJA (zmienna ilościowa) Założenia: Zmienna INTUICJA ma w populacji rozkład normalny, próby losowe, pomiary zależne Hipotezy: Ho: fiD = 0 Nie ma różnicy między pierwszym a drugim pomiarem w teście intuicji psycho- logicznej. Wyniki pierwszego i drugiego pomiaru pochodzą z populacji o tych samych średnich. H{. Ud*- 0. Jest różnica między pomiarem pierwszym i drugim. W teście intuicji psycho- logicznej wyniki pierwszego i drugiego pomiaru pochodzą z populacji o tych samych średnich. Wybór testu i ustalenie rozkładu statystyki: Statystyka f ma rozkład t Studenta dla df = N - 1 =13 Ustalenie reguły decyzyjnej; Poziom istotności: a- 0,05 Wartość krytyczna: Nie musimy znać wartości krytycznej f, z wydruku odczytamy istot- ność p. Odrzucimy Ho, jeżeli p < 0,05 KROK4 Obliczanie wartości statystyki: Tabela 5.6. Statystyki dla prób zależnych Średnia N Odchylenie standardowe Błąd standardowy średniej Para TIME1 1 TIME2 6,00 6,50 14 14 1,96 2,24 0,52 0,60 171 Rozdział 5. Test t Studenta. Przedział ufności Tabela 5.7. Test dla prób zależnych Różnice w próbach zależnych f df Średnia Odchylenie standardowe Błąd standardowy średniej Istotność (dwu- stronna) Parał TIME1 -TIME2 -0,50 2,71 0,72 -0,69 13 0,502 Podjęcie decyzji: 0,502 > 0,05, więc nie możemy odrzucić Ho (b.p.d.o. Ho). Stwierdzamy, że nie ma istot- nej różnicy w poziomie intuicji psychologicznej między pomiarami. iUB Zastosowanie testu t do porównania średnich na podstawie prób niezależnych Gdy chcemy przetestować hipotezę o równości średnich na podstawie badania dwóch niezależnych prób, możemy skorzystać z kolejnego twierdzenia dowiedzio- nego przez Gosseta. Test / dla prób niezależnych: Jeżeli: Dwie niezależne, równoliczne próby zostały wylosowane z populacji o rozkładzie normalnym i zakładając, że: Ho: ą = ju2 oraz c\ = o\, to statystyka ma rozkład t Studenta dla df=2{n-'\) = N-2, gdzie n - liczebność każdej z prób, i A/ = 2n. 172 Zastosowanie testu t do porównania średnich na podstawie prób niezależnych Biolog uważa, że temperatura otoczenia ma wpływ na kumkanie żab. Grupa żab laboratoryj- nych została losowo podzielona na 2 podgrupy i umieszczona w identycznych terrariach. Grupa kontrolna żab jest trzymana w stałej temperaturze 22°C. Grupa eksperymentalna jest trzyma- na w temperaturze 30°C. Zliczano liczbę odgłosów wydanych przez żaby w ciągu 10-minuto- wego pomiaru. Ilustrują to następujące dane: Grupa kontrolna (1) 22° C Liczba odgłosów Grupa eksperymentalna (2) 30° C Liczba odgłosów 13, 10, 11, 12,16, 14, 15, 13 52, 40, 44, 48, 56, 60, 64, 52 Czy temperatura wpływa na kumkanie żab? Przetestuj hipotezę, stosując SCHEMAT WNIO- SKOWANIA i wiedząc, że: M, = 13 M2 = 52 si = 2 s2=8 df=2(n-1), gdzie n - liczebność każdej z grup. SCHEMAT WNIOSKOWANIA Określenie zmiennych i ich skai pomiarowych, sfor- mułowanie założeń i hipotez:___________________ Zmienna niezależna: TEMPERATURA (zmienna ilościowa, tu przyjmuje dwie wartości: 22°C i 30°C; traktowana jak zmienna nominalna) Zmienna zależna: LICZBA ODGŁOSÓW (zmienna ilościowa) Założenia: Zmienna LICZBA ODGŁOSÓW ma w populacji rozkład normalny, próby losowe, warian- cje w odpowiednich podpopulacjach są równe, pomiary niezależne. Hipotezy: Ho: n-\ = fi2 Temperatura nie wpływa na liczbę odgłosów wydawanych przez żaby. 2Temperatura wpływa na liczbę odgłosów wydawanych przez żaby. KROK 2 Wybór testu i ustalenie rozkładu statystyki: Statystyka f ma rozkład t Studenta dla df = 2(n - 1) = 14. Ustalenie reguły decyzyjnej: Poziom istotności: a - 0,05 Wartość krytyczna: tkryt(14) = 2,145 Odrzucimy Ho, jeżeli t > 2,145 lub t < -2,145. 173 Rozdział 5. Test t Studenta. Przedział ufności Obliczanie wartości statystyki; _M,-M2 _ 13-52 _ -39 _-39_ J^L ^ V^5 2,92 Podjęcie decyzji; -13,36 < -2,145 więc możemy odrzucić Ho- Stwierdzamy, że temperatura wpływa na liczbę odgłosów wydawanych przez żaby. SCHEMAT WNIOSKOWANIA Zmienne Zmienna niezależna: TEMPERATURA (zmienna ilościowa, przyjmuje dwie wartości: 22°C i 30°C; traktowana jak zmienna nominalna) Zmienna zależna: LICZBA ODGŁOSÓW (zmienna ilościowa) Założenia Spełnione są założenia testu t. Hipotezy Ho'. ju-t - Hz Temperatura nie wpływa na liczbę odgłosów wydawanych przez żaby. H-i: //-, * /i2 Temperatura wpływa na liczbę odgłosów wydawanych przez żaby. Wybór testu i rozkład statystyki Statystyka f ma rozkład t Studenta dla df - N - 2 = 14. Reguła decyzyjna Odrzucimy Ho, jeżeli t > 2,145 lub t < -2,145 Obliczenia M,-M2 13-52 -39 -39 /*2+v2 /4+64 /o C 0 QO ^ ' n* y~T~ V8P L-?L Decyzja -13,36 < -2,145, więc możemy odrzucić Ho. Czy możesz zaproponować inny sposób przeprowadzenia tego eksperymentu, dający biologowi więcej informacji? 174 Pedagog zamierza przetestować efekt wzmocnień pozytywnych w porównaniu z tradycyjną metodą. Szesnastu nauczycieli zostało przeszkolonych w stosowaniu metody: tradycyjnej (8 nauczycieli), wzmocnień (8 nauczycieli). Dane stanowią informacje o czasie koncentro- wania się uczniów na temacie zajęć (minuty w czasie jednej godziny), zebrane od każdego z nauczycieli przerabiających identyczny materiał. Klasy zostały wybrane tak, aby nie różniły się istotnie pod względem statusu społeczno-ekonomicznego oraz przeszłych doświadczeń szkolnych uczniów. Dane są następujące: ____....................____ ____ Zastosowanie testu t do porównania średnich na podstawie prób niezależnych Metoda tradycyjna (minuty) Metoda wzmocnień (minuty) 10, 14, 16, 13, 11, 12, 15, 13 13, 17,23, 19, 15,21, 19,25 Przetestuj odpowiednią hipotezę, stosując SCHEMAT WNIOSKOWANIA i wiedząc, że: SCHEMAT WNIOSKOWANIA Zmienne Założenia Spełnione są założenia testu t. Hipotezy Wybór testu i rozkład statystyki Reguła decyzyjna Obliczenia Decyzja Psycholog społeczny badający problematykę masowej komunikacji przydzielił losowo 72 ochot- ników do dwóch grup eksperymentalnych. 36 osób otrzymało instrukcję, aby przez miesiąc czerpać informacje wyłącznie z telewizji, natomiast 36 innych osób miało czerpać informacje wyłącznie z radia. Po miesiącu sprawdzono wiedzę wszystkich badanych na temat wydarzeń politycznych w minionym okresie. Badacz nie robił żadnych założeń odnośnie do tego, które ze źródeł informacji jest lepsze. Oto wyniki badania: grupa TV: M, = 24, s* - 4; grupa Radio: M2 = 26, s\ = 5. Przetestuj hipotezę, stosując SCHEMAT WNIOSKOWANIA, na poziomie istotności a- 0,05. Jakie wnioski mógłby wyciągnąć badacz, gdyby uzyskane wyniki pochodziły z prób 9-osobo- wych, a nie 36-osobowych? Grupa TV (1) Grupa RADIO (2) M 24 26 s2 4 5 N 36 36 175 Rozdział 5. Test t Studenta. Przedział ufności SCHEMAT WNIOSKOWANIA Zmienne \ Zatoien\a \ S 0,05, więc nie możemy odrzucić H0(b.p.d.o. Ho). Stwierdzamy, że grupy różniące się samooceną nie uzyskały różnych wyników w teście. SCHEMAT WNIOSKOWANIA Zmienne Zmienna niezależna: zdychotomizowana SAMOOCENA (zmienna nominalna) Zmienna zależna: wyniki w sprawdzianie T1ME1 (zmienna ilościowa) Założenia Spełnione są założenia testu t. Hipotezy Ho: ^1 = fi2 Grupy różniące się samooceną nie będą różnić się wynikami w teście. Hi-. \i\ *? H2 Grupy różniące się samooceną będą różnić się wynikami w teście. Wybór testu Statystyka f ma rozkład f Studenta dla df - N - 2 = 28. Reguła decyzyjna Odrzucimy Ho, jeżeli p < 0,05. Wartość statystyki i decyzja t(28) = 0,50; p - 0,62 0,62 > 0,05, więc nie możemy odrzucić H0(b.p.d.o. Ho). Stwierdzamy, że grupy różniące się samooceną nie uzyskały różnych wyników w teście. Zastosowanie testu t do porównania średnich na podstawie prób niezależnych Wzorując się na przykładzie 5.6, na podstawie danych z tabel 5.10 i 5.11 przetestuj hipotezę o różnicach między poziomem intuicji psychologicznej w zależności od samooceny badanych, w przypadku gdy zmienną zależną będzie TIME 2. Tabela 5.10. Statystyki zmiennej TIME2 dla grup wyznaczonych przez wartości zmiennej niezależnej SAMOOCENA Samoocena N Średnia Odchylenie standardowe Błąd standardowy średniej 1 15 6,87 2,67 0,69 2 15 5,13 2,33 0,60 Tabela 5.11. Test t (wpływ samooceny na wynik w teście TIME2) Test Levene'a jednorodności wariancji Test t równości średnich F Istotność t df Istotność (dwustronna) Różnica średnich Błąd standardowy różnicy Założono równość wariancji 0,38 0.54 1,90 28 0,068 1,73 0,91 Nie założono równości wariancji 1,90 27,49 0,068 1,73 0,91 SCHEMAT WNIOSKOWANIA Zmienne Założenia Spełnione są założenia testu t. Hipotezy Wybór testu i rozkład statystyki Reguła decyzyjna Obliczenia Decyzja 179 Rozdział 5. Test t Studenta. Przedział ufności '?'5' W badaniu PGSS (panel 2003) respondenci oceniali przedziałowość* swojego stylu funkcjo- nowania. Większa wartość wskaźnika MET oznacza większą przedziałowość. Na podstawie wyników przedstawionych w tabelach poniżej oceń, które z poniższych zdań jest fałszywe. Możemy: 1. odrzucić Ho: ju-i- fc; 2. odrzucić Ho: er,2 = o\ ? 3. stwierdzić, że kobiety są bardziej „przedziałowe" niż mężczyźni; 4. stwierdzić, że zróżnicowanie w grupie mężczyzn jest większe niż w grupie kobiet. Test F Levene'a okazał się istotny statystycznie, co oznacza, że wariancje w porównywanych próbach nie sąjednorodne. W konsekwencji dla Ho: //i = Hz,odczytujemy wartość t z drugiego wiersza, tj. wiersza opisanego jako wariancje NIEjednorodne. Jednak istotność na poziomie p = 0,714 sprawia, że podejmujemy decyzję o nieodrzuceniu Ho testu t. Wartości odchyleń standardowych są wyższe w przypadku mężczyzn, co w połączeniu z istot- nością testu F prowadzi nas do konkluzji, że zróżnicowanie w grupie mężczyzn jest większe niż w grupie kobiet. Zatem: 1. możemy odrzucić Ho: a\ = o\ \ 2. możemy stwierdzić, że zróżnicowanie w grupie mężczyzn jest większe niż w grupie kobiet; 3. nie możemy odrzucić Ho: fii = /J.2, stwierdzamy, że kobiety nie różniąsię istotnie statystycz- nie od mężczyzn pod względem przedziałowości stylu funkcjonowania; 4. nie możemy stwierdzić, że kobiety są bardziej „przedziałowe" niż mężczyźni, gdyż różnica średnich nie jest istotna statystycznie. Tabela 5.12. Statystyki zmiennej PRZEDZIAŁOWOŚĆ dla kobiet i mężczyzn N M s MET 1 MĘŻCZYZNA 170 2,39 1,04 2 KOBIETA 228 2,43 0,89 Tabela 5.13. Test t dla prób niezależnych (wpływ płci na PRZEDZIAŁOWOŚĆ) ,.' p~ ' \s t df Istotność MET wariancje jednorodne 5,14 -0,38 396 0,707 wariancje NIEjednorodne -0,37 330,43 0,714 Por. G. Wieczorkowska-Nejtardt (1998). Inteligencja motywacyjna: mądre sposoby wyboru celu 180 i sposobu działania. Warszawa: WISS (Wydawnictwa Instytutu Studiów Społecznych). Przedział ufności dla średnich Oceniano przedziałowość stylu jedzenia kobiet i mężczyzn. Im wyższa wartość wskaźnika FOOD, tym większa przedziałowość. Na podstawie wyników z tabel 5.14 i 5.15 oceń, które z poniższych zdań jest fałszywe (F), a które prawdziwe (P). Możemy: a) odrzucić Ho: n^ - jU2; b) odrzucić Ho: crf = o\ \ c) stwierdzić, że kobiety są bardziej „przedziałowe" niż mężczyźni; d) stwierdzić, że zróżnicowanie w grupie mężczyzn jest większe niż w grupie kobiet. Tabela 5.14. Statystyki zmiennej PRZEDZIAŁOWOŚĆ JEDZENIA p F p F p F P F N M s FOOD 1 MĘŻCZYZNA 169 2,97 0,811 2 KOBIETA 226 2,78 0,712 Tabela 5.15. Test t dla prób niezależnych - związek przedziałowości jedzenia z płcią i:....., . *Ć t df Istotność FOOD wariancje jednorodne 2,50 393 0,013 wariancje NIEjednorodne 2,45 334,49 0,015 I Przedział ufności dla średnich Chociaż analizujemy starannie wyniki pochodzące z badanej próby, to jednak podstawowym przedmiotem naszego zainteresowania jest populacja. Średnia zmien- nej w próbie (wartość statystyki M) interesuje nas o tyle, o ile pozwala nam wnio- skować o średniej w populacji. Średnia M jest estymatorem //. Statystyka M z po- jedynczego badania może być lepszym lub gorszym estymatorem // w zależności od jej błędu standardowego. Jeżeli na podstawie pojedynczej średniej chcemy przewidywać średnią w popu- lacji, to możemy dokonać estymacji (szacowania): 1. punktowo, 2. przedziałowe 181 Rozdział 5. Test t Studenta. Przedział ufności Estymacja punktowa polegałaby na wskazaniu konkretnej wartości średniej w populacji, np. przez stwierdzenie, że średnia samoocena w populacji wynosi 3,5 (// = 3,5). Estymacja przedziałowa polega na określeniu przedziału, w którym z da- nym prawdopodobieństwem zawiera się średnia w populacji. Mówimy wtedy, że z prawdopodobieństwem 0,99 średnia samoocena w populacji zawiera sią w prze- dziale (3; 4) - od 3 do 4. Przedział ten nazywamy 99% przedziałem ufności dla średniej. Prawdopodobieństwo, że // nie znajduje się w tym przedziale jest bardzo małe, bo wynosi zaledwie 0,01. Jeżeli chcemy podjąć większe ryzyko błędu (np. 0,05), to możemy zbudować węższy przedział ufności. 95% przedział ufności dla średniej z populacji oznacza, że 5 razy na 100 przedział ufności nie będzie zawierał prawdziwej średniej ju (a= 0,05) 182 Ogólny wzór na obliczanie 95% przedziału ufności dla średniej, gdy znane jest c w populacji ma postać: M ± 1,96 x błąd standardowy M Wartość odczytana z tablic rozkładu normalnego dla a= 0,05 Przedział ufności jest symetryczny, więc sprawdzamy wartości krytyczne tak jak dla testu dwustronnego. Gdy znane jest er w populacji, sprawdzamy wartości krytyczne w tablicach rozkładu normalnego: a =0,05 z„=l,96 a=0,01 za = 2,58. Gdy nieznane jest erw populacji, dokonujemy jego estymacji za pomocą s. Granice przedziału ufności są symetryczne względem średniej z próby (M - ła ~Trp Powiemy, że przedział '>M + ta r—) 1 Margines błędu zawiera średnią w populacji z prawdopodobieństwem 1 - a, gdzie ta jest wartością krytyczną testu dla odpowiedniego poziomu istotności przy liczbie stopni swobody df= N-l. Przedział ufności dla średnich flf=0,05 ta = «r= 0,01 ta = Zarówno błąd standardowy średniej, jak i wartość krytyczna testu t zależą od stopni swobody df, wyliczanych na podstawie liczebności próby. Aby określić ta musimy znać liczebność próby. Załóżmy, że w próbie średnia M - 50 i odchylenie standardowe s = 7. Jeśli N = 25, to jaki jest 95% przedział ufności dla średniej w populacji? Jakie wnioski możesz wyciągnąć? Średnia M = 50, wartość krytyczna f przy N - 1 =25-1 =24 stopniach swobody f(24, 0,05) = 2,064; błąd standardowy średniej wynosi sM = 7/5 = 1,4. Margines błędu wynosi więc 2,064 x 1,4 = 2,8896 = 2,89. Dolna granica przedziału ufności wynosi: 50 - 2,89 = 47,11. Górna granica przedziału ufności wynosi 50 + 2,89 = 52,89. Przedział [(47,11 );(52,89)] z prawdopodobieństwem 0,95 zawiera średnią M= 50. Korzystając z danych zawartych w przykładzie 5.8, odpowiedz na następujące pytania: b) Jeśli N = 25, to jaki jest 99% przedział ufności dla średniej w populacji? c) Jeśli N = 16, to jaki jest 95% przedział ufności dla średniej w populacji? d) Jeśli N = 16, to jaki jest 99% przedział ufności dla średniej w populacji? N Przedział ufności dla średniej w populacji 95% 99% 25 [(47,11);(52,89)] 16 i W PGSS analizowano związek wykształcenia z kolejnością urodzenia respondenta w rodzi- nie. W tabeli 5.16 przedstawione są średnie, odchylenia standardowe i przedziały ufności dla średniej (95% i 99%). 183 Rozdział 5. Test t Studenta. Przedział ufności Tabela 5.16. Przedziały ufności wokół średnich zmiennej WYKSZTAŁCENIE w pięciu grupach WYKSZTAŁCENIE (liczba lat nauki) Kolejność urodzeń N M s S/u 95% przedział ufności 99% przedział ufności dolna górna dolna górna 1.00 1137 11,08 3,02 0,09 10,91 11,26 10,85 11,32 2.00 1039 10,92 2,93 0,09 10,73 11,10 10,68 11,15 3.00 568 10,38 2,68 0,11 10,15 10,60 10,09 10,67 4.00 309 9,88 3,20 0,18 9,52 10,24 9,41 10,36 5.00 175 9,41 2,94 0,22 8,97 9,85 8,83 9,99 Total 3228 10,70 2,99 0,05 10,59 10,80 Na podstawie powyższej tabeli określ prawdziwość następujących stwierdzeń: P - prawda, F - fałsz (zakładając, że inne czynniki nie uwzględnione w zdaniu nie zmieniają się): 1. Im większa liczebność próby, tym mniejszy błąd standardowy. 2. Im większy błąd standardowy, tym szerszy przedział ufności. 3. Im szerszy przedział ufności, tym większe prawdopodobieństwo, że średnia w populacji znajdzie się w tym przedziale. 4. 99% przedział ufności oznacza prawdopodobieństwo p = 0,01, że średnia w populacji znajdzie się poza przedziałem. 5. 95% przedział ufności oznacza prawdopodobieństwo p = 0,05, że średnia w populacji znajdzie się poza przedziałem. 6. 99% przedział ufności jest szerszy niż 95% przedział ufności. Graficzną postacią przedziałów ufności jest wykres określany jako „słupki błędu". Jako przy- kład niech posłużą nam dane zebrane w PGSS. Na rysunku 5.1 przedstawione są przedziały ufności dla średnich zmiennej WYKSZTAŁCENIE (lata nauki) dla grup respondentów wydzie- lonych na podstawie kolejności urodzenia. Najwyższą średnią zanotowano u respondentów urodzonych jako pierwsi, najstarszych z rodzeństwa lub jedynaków. Najszerszy przedział uf- ności zbudowano wokół średniej dla grupy 5 (N - 175). Widzimy, że szerokość przedziału ufności zależy od liczebności próby. F p F p F p F o. F p F Rysunek 5.1. Przedziały ufności dla średnich zmiennej WYKSZTAŁ- CENIE w zależności od kolejności 184 urodzenia 11.5 11.0 .......*........ - 10.5' I 10.0' O 9.5' ? i i di ____ : i I O. 8.5. 1.00 2.00 kolejność urodzenia Przedział ufności dla średnich Podsumowanie Nauczyliśmy się dotąd testować trzy typy hipotez dotyczących średnichm Gdy chcieliśmy przetestować hipotezę mówiącą, że próba pochodzi z popula- cji o średniej równej c H0:ju = c 1.1. a znane było odchylenie standardowe w populacji (o), stosowaliśmy test z i porównywaliśmy wyliczoną wartość kładu normalnego. z tablicami roz- 1.2. a crbyło nieznane, stosowaliśmy test t i porównywaliśmy wyliczoną war- tość t ~ z tablicami rozkładu t Studenta. Gdy chcieliśmy przetestować hipotezę dotyczącą różnicy między średnimi w podpopulacjach, z których pochodzą dwie próby zależne (np. pretest-post- test) Ho' Md~ c> gdzie c - najczęściej równe 0 stosowaliśmy test t dla prób zależnych i porównywaliśmy wyliczoną war- tość t = —-—— z tablicami rozkładu t Studenta. Gdy chcieliśmy przetestować hipotezę dotyczącą różnicy między średnimi w podpopulacjach, z których pochodzą dwie próby niezależne (np. ekspery- mentalna - kontrolna): stosowaliśmy test t dla prób niezależnych i porównywaliśmy wyliczoną M —M wartość t = —!------- z tablicami rozkładu t Studenta. Umiemy już dużo, ale nie wyczerpuje to naszych potrzeb. Jedno jest pewne, we wszystkich trzech przypadkach schemat wnioskowania jest identyczny: wypisujemy założenia i hipotezy, szukamy testu statystycznego, który pozwala przetestować hi- potezę przy danych założeniach, wyliczamy statystykę, porównujemy z jej rozkła- dem i podej muj emy decyzj ę. 185 Zapisz definicje kluczowych pojęć wprowadzonych w tym rozdziale oraz nowe symbole Rozdziali Jednoczynnikowa analiza wariancji Pojęcia kluczowe: czynnik; poziom czynnika; zróżnicowanie całkowite; zróżnicowanie międzygrupowe; zróżnicowanie wewnątrzgrupowe; wariancja międzygrupowa; wariancja wewnątrzgrupowa; suma kwadratów odchyleń od średniej; średni kwadrat Nowe symbole: F, s2B , s2w , dfB, dfw, SSB, SSW, SST, dfTidf^, df2 Uli Ograniczenia stosowalności testu t Studenta. Dlaczego 3 jest lepsze niż 2? Wyobraźmy sobie badanie, w którym testujemy wpływ poziomu stresu na wyniki w teście. Rozważmy możliwe wyniki eksperymentu, w którym zmienna niezależna przyjmuje 2 lub 3 wartości. W grupie 1 (STRACH) informujemy studentów, że jest to test ostatniej szansy, w grupie 2 (RELAKS) mówimy, że mogą poprawiać wynik wielokrotnie. Jeżeli otrzymalibyśmy średnie M\-l dla STRACHU i M2 = 2 dla RELAKSU, i ta różnica między średnimi okazałaby się istotna statystycznie, to czy moglibyśmy powiedzieć, że STRACH polepsza, a RELAKS pogarsza wyniki? ? STRACH ? RELAKS ? KONTROLNA 186 Rysunek 6.1. Hipotetyczne średnie wyniki w teście w zależności od poziomu stresu Jednoczynnikowa analiza wariancji Niekoniecznie. Jeżeli średnia w grupie bez żadnej manipulacji (grupa kontrolna) wyniosłaby M3 = 7, to jedyny wniosek, jaki możemy wyciągnąć byłby taki, że RE- LAKS pogarsza wyniki. Analogicznie, jeżeli M3 = 2, to możemy powiedzieć, że STRACH polepsza wyniki. Hipotetyczne układy wyników przedstawia wykres na rysunku 6.1. Chociaż dwa pierwsze słupki reprezentujące średnie z dwóch pierwszych grup są identyczne we wszystkich trzech, to ich interpretacja zależy od trzeciego słupka reprezentującego średnią z grupy kontrolnej. Wniosek: aby móc sformułować rozsądne wnioski o wpływie manipulacji, ko- nieczne jest .wprowadzenie grupy kontrolnej w celu określenia poziomu wyjściowe- go zmiennej zależnej, bez manipulacji (base linę). Czy mając trzy grupy, możemy używać testu t Studenta dla porównania par śred- nich? NIE. Dlaczego? Bo cechą wnioskowania statystycznego jest ścisłe określenie ryzyka błędu. Wiemy, że każdy test t, który przeprowadzimy, jest obarczony pew- nym błędem I rodzaju (przypomnijmy: błąd ten polega na tym, że odrzucimy hipote- zą zerową, mimo że jest ona prawdziwa). Wielkość tego błędu szacuje nam istotność statystycznap. Jeżeli przeprowadzimy wiele testów, z których każdy jest obarczony błędem (np. p = 0,05), to skumulowany błąd I rodzaju może być bardzo duży, a na pewno większy od akceptowalnego poziomu 0,05. Można dokładnie wyliczyć, ile ten błąd będzie wynosił, używając prostego wzoru: pB=l-(0,95)c, gdzie pe jest skumulowanym błędem I rodzaju, a c - liczbą wykonanych testów. Jeżeli, na przykład, porównujemy 4 grupy, to musielibyśmy zrobić 6 testów t, z któ- rych każdy niesie ze sobą błąd p = 0,05, wówczas skumulowany błądpE = 0,265, a takiej wartości błędu nie możemy zaakceptować. Tłumacząc problem wielokrotnych testów obrazowo - wyobraźmy sobie, że ukry- wamy nasz romans przed otoczeniem i bardzo się pilnujemy, aby nikt nie zobaczył nas razem, gdy np. trzymamy się za ręce. Jest druga nad ranem. Wyludnione ulice. Czy możemy iść pod rękę? Ryzyko wpadki jest minimalne. Ale jeżeli będziemy to powtarzać, ryzyko, że ktoś nas zobaczy jest już duże, więc lepiej nie ryzykować. Aby przetestować hipotezę o równości więcej niż dwóch średnich, musimy nauczyć się podstawowego testu w badaniach eksperymentalnych - analizy wariancji. analiza wariancji Przykład 6.1. Chcemy sprawdzić, czy pewne warunki eksperymentalne wpływają na wyniki otrzymywane przez studentów w teście. W tym celu studentów przydzielamy losowo do trzech równolicz- nych grup, gdzie: 187 Rozdział 6. Jednoczynnikowa analiza wariancji 1. w grupie E1 - studenci relaksują się przed testem, który jest przedstawiany jako nieważny sprawdzian; 2. w grupie E2 - studenci są zachęcani, aby dać z siebie wszystko; 3. w grupie E3 - studenci są straszeni, że test jest warunkiem koniecznym zaliczenia przed- miotu. Chcemy zbadać związek między zmienną STRES (zmienna nominalna) a WYNIKIEM w te- ście (zmienna ilościowa). STRES jest zmienną niezależną, WYNIK zmienną zależną. Zmienne niezależne w analizie wariancji nazywane są CZYNNIKAMI. Wartości zmiennych niezależnych nazywamy POZIOMAMI czynnika. Możemy powiedzieć, że czynnik STRES występuje na 3 poziomach: E1, E2, E3. W tabeli 6.1 przedstawiono wyniki 3 równolicznych grup (liczbę grup oznaczamy symbolem k, zatem k = 3) i 4 osób w każdej z nich (liczbę osób w grupach oznaczamy symbolem n, zatem n - 4). Tabela 6.1. Dane eksperymentalne Zmienna niezależna STRES Grupa E1 „relaksowani" Grupa E2 „motywowani" Grupa E3 „straszeni" Zmienna zależna Wynik w teście (w punktach) 1,2,3,2 4, 5, 6, 5 7, 3, 5, 5 Średnie w grupach Mi = 2 /W2=5 M3=5 Średnia ogólna: M- A M- średnia ogólna Mi, M2, M3- średnie grupowe k — liczba grup (poziomów zmiennej niezależnej) n - liczba osób w grupie N-nxk- ogólna liczba osób Jedną z osób badanych był Jan, który znalazł się w grupie E1. Wynik Jana (X = 1) można porównywać ze średnią ogólną (M = 4) lub średnią z jego grupy (M1 = 2), natomiast średnią jego grupy można porównywać ze średnią ogólną. Możliwe porównania możemy zapisać w postaci równania: 188 (wynik Jana - średnia ogólna) = (wynik Jana - średnia grupowa) + (średnia z grupy Jana - średnia ogólna) T Jednoczynnikowa analiza wariancji Podniesione do kwadratu różnice (X- M) będą składać się na ogólną zmienność wyników SSr(od angielskiego słowa total), podniesione do kwadratu różnice (X- Mi), określać będą zmienność wyników w ramach danej grupy SSW (od angielskiego słowa within - zmienność wewnątrzgrupowa). Podniesione do kwadratu różnice między średnimi w poszczególnych warunkach eksperymentu a średnią ogólną (M, - M) wyznaczają zmienność międzygrupową SSB (od angielskiego słowa between). Podstawą analizy wariancji jest podział zróżnicowania całkowitego na zróżnicowanie śred- nich wokół średniej ogólnej (międzygrupowe) i zróżnicowanie wyników w poszczególnych gru- pach, wokół średnich grupowych (wewnątrzgrupowe). Miarą zróżnicowania są sumy kwadra- tów odchyleń od odpowiedniej średniej. Aby policzyć zróżnicowanie międzygrupowe, od każdej średniej w grupie odejmujemy śred- nią ogólną, różnice podnosimy do kwadratu, sumujemy i mnożymy przez liczbę osób w grupie: SSS = n [(W-, - M)2 + (M2-M)2+ (M3- M)2]. W naszym przykładzie: n = Ą M = 4 M, = 2 M2-5 M3=5 SSS = 4[(2 - 4)2 + (5 - 4)2 + (5 - 4)2] = 24. Aby policzyć zróżnicowanie wewnątrzgrupowe, musimy od każdego wyniku odjąć średnią z odpowiedniej grupy. Łatwiej będzie nam to zrobić, jeżeli przedstawimy dane z tabeli 6.2 w formie, w jakiej wpisywaliśmy je do komputera. Tabela 6.2. Dane eksperymentalne Numer osoby w grupie Grupa Wynik (wynik - średnia grupy)2 n x (średnia grupowa - średnia ogólna)2 (wynik - średnia ogólna)2 1 2 3 4 1 1 1 1 1 2 3 2 (1-2)2 (2-2)2 (3-2)2 (2 - 2)2 4 x (2 - 4)2 (1-4)2 (2-4)2 (3-4)2 (2-4)2 1 2 3 4 2 2 2 2 4 5 6 5 (4-5)2 (5-5)2 (6-5)2 (5-5)2 4 x (5 - 4)2 (4-4)2 (5-4)2 (6-4)2 (5-4)2 1 2 3 4 co co co co 7 3 5 5 (7-5)2 (3-5)2 (5-5)2 (5-5)2 4 x (5 - 4)2 (7-4)2 (3-4)2 (5-4)2 (5-4)2 Suma 12 24 36 SSW= 12 Możemy też policzyć zróżnicowanie całkowite (SST), sumując kwadraty odchyleń poszczegól- nych wyników od średniej ogólnej (szósta kolumna tabeli 6.2) - SSr= 36. Zauważmy, że 36 = 12 + 24, co w postaci symboli zapisujemy następująco: SS7- = SSb + SSw i stwierdzamy, że SS są addytywne. 189 Rozdział 6. Jednoczynnikowa analiza wariancji Jest to podstawowe równanie analizy wariancji, które mówi, że zróżnicowanie całkowite (SST) można podzielić na część wyjaśnioną naszym oddziaływaniem eksperymentalnym {SSB- róż- nice między grupami) i część niewyjaśnioną (SSW- różnice w wynikach osób będących w tych samych grupach). Naszym celem jest oszacowanie wpływu manipulacji stresem na wyniki w teście. Chcąc odpowiedzieć na to pytanie, laik patrzy na wielkość różnic między średnimi w gru- pach poddanych różnym oddziaływaniom, czyli wielkość SSB. My wiemy, że do sformuło- wania jakiegokolwiek sądu niezbędne jest określenie standardu porównań. Nie może- my nic powiedzieć o SSe, dopóki nie będziemy wiedzieli, z czym to porównać. Naturalnym, choć w codziennym życiu często ignorowanym standardem jest porównanie zróżnicowa- nia międzygrupowego {SSB) do wewnątrzgrupowego (SSw)- Często jednak formułując sądy o zróżnicowaniu międzygrupowym typu: „kobiety są bardziej emocjonalne niż męż- czyźni", nie bierzemy pod uwagę tego, że zarówno kobiety, jak i mężczyźni różnią się mię- dzy sobą wewnątrz swoich grup (zróżnicowanie wewnątrzgrupowe). W myśleniu nauko- wym nie popełniamy tego typu błędów i oceniamy wpływ czynnika na zmienną zależną, porównując SSS do SSW. Jak to robimy? Udowodniono, że stosunek wariancji międzygrupo- wej do wewnątrzgrupowej ma rozkład F Fishera; rozkład ten pozwala na wyliczenia prawdo- podobieństw przy założeniu, że //, = fi2~ Ms- Rozkład F Fishera Statystyka F Fishera jest ilorazem dwóch niezależnych estymatorów ^wariancji w populacji, ma znany rozkład.. Aby policzyć F, musimy policzyć wariancje, dzieląc SS przez odpowiednie stop- nie swobody: dfi=dfB = k-l Ogólnie stopnie swobody związane z licznikiem ilorazu F określane sąjako dfv z mianownikiem jako df2. Dzieląc międzygrupowe i wewnątrzgrupowe sumy kwadratów przez związane z nimi stopnie swobody, otrzymujemy: 2 _ 2 _ B b — ,f - średni kwadrat międzygrupowy; aJ b 190 Rozkład F Fishera s ~ ? - średni kwadrat wewnątrzgrupowy. sl i s2 są niezależnymi oszacowaniami wariancji w populacji (er2). Iloraz 2 pozwala nam zbadać hipotezę zerową Ho: jU\= //2 = ••? = JU Zapis symbolami hipotezy badawczej nie jest prosty. Zaprzeczeniem Ho: fJ.\ = jU2 = fi-i jest np. zarówno sytuacja, gdy //i ^ //2 = /^3 jak i gdy fX\ = ju2 ^ //3. Popraw- nie sformułowana hipoteza badawcza mówi, że co najmniej jedna grupa pocho- dzi z populacji o średniej różnej od średniej populacji, z której pochodzą pozo- stałe grupy. Jeżeli średnie w grupach różnią się między sobą, to będziemy oczekiwali, że ilo- raz ~i będzie większy od jedności. Jeżeli się okaże, że "T jest w sposób istotny większy od jedności, odrzucamy Ho i wnioskujemy, że co najmniej jedna średnia grupowa różni się istotnie statystycznie od co najmniej jednej z pozostałych. 2 Istotność ilorazu można ocenić na podstawie tablic rozkładu F przy df\ = k - \ stopniach swobody związanych z licznikiem i dfi = N - k = k(n - 1) stopniach swobody związanych z mianownikiem, gdzie: jV - ogólna liczba osób biorąca udział w badaniu, k - liczba grup wyznaczona przez liczbę wartości zmiennej niezależnej (liczbę poziomów czynnika), n — liczba osób w grupach. Abyśmy mogli skorzystać z testu F, muszą być spełnione następujące założenia: 1. Zmienna zależna powinna mieć w populacji rozkład normalny, chociaż test F jest dosyć odporny na niespełnienie założenia o normalności rozkładu. 2. Próby pochodząz populacji o równych wariancjach. Zakładamy homogenicz- ność (jednorodność) wariancji 0,05, to brak podstaw do odrzucenia Ho, (0,1 > p > 0,05 - to tendencja statystyczna) Uwaga! Pojawiająca się na wydrukach komputerowych wartość p = 0,000 wynika z ograniczeń liczby miejsc po przecinkach na wydruku. W takich przypadkach w opisie badań piszemy p < 0,001. i Zastosowanie analizy wariancji do testowania hipotez o równości średnich Przeanalizujmy przykład przytoczony na początku rozdziału, stosując SCHEMAT WNIOSKOWANIA. KROKI Określenie zmiennych i ich skal pomiarowych, sfor- mułowanie założeń i hipotez: Zmienna niezależna: POZIOM STRESU (zmienna nominalna) przyjmuje 3 wartości: stres, relaks, kontrolna. Zmienna zależna: WYNIKI W TEŚCIE (zmienna ilościowa). Założenia: Zmienna zależna (zmienna ilościowa) ma w podpopulacjach wyznaczonych przez zmien- ną niezależną rozkład normalny. Grupy niezależne zostały wylosowane z populacji o tych samych wariancjach (<7,2 = c\ = a] = o2 - założenie o homogeniczności wariancji). Hipotezy: Ho: /z-, = fi2- //3 = fi Stres nie wpływa na wyniki w teście. W| : Stres wpływa istotnie na wyniki w teście. Przynajmniej jedna średnia &, fi2 lub ju3 różni się istotnie od przynajmniej jednej z pozostałych. KROK 2 Wybór testu i ustalenie rozkładu statystyki: Statystyka, którą wykorzystamy przy podejmowaniu decyzji względem hipotezy zerowej ma rozkład F Fishera z (k - 1) stopniami swobody związanymi z licznikiem oraz (N - k) 193 Rozdział 6. Jednoczynnikowa analiza wariancji stopniami swobody związanymi z mianownikiem, gdzie N - to liczebność całej próby, k- liczba grup (liczba wartości zmiennej niezależnej). Ustalenie reguły decyzyjnej: W tablicach rozkładu F (na końcu podręcznika) możemy odczytać, że: dla a- 0,05 przy df^-2\ df2= 9, wartość krytyczna testu wynosi Fkryt= 4,26. Wyliczenie statystyki Fota: We wszystkich wzorach zakładamy, że grupy są równoliczne. Badana próba składa się z N = n x k osób, gdzie n - liczba osób w grupie, k - liczba poziomów czynnika. Zmienność Wzór na SS Wzór na df Wzór na s2 Wzór na F Międzygrupowa SSB -n^JJA.-Mf SSS = 24 df, = 2 O C 2 iJi-J D Wewnątrzgrupowa SSW= 12 df2-k[n~\) df2 = 9 C2 — iv 2 ofrz 2 pota = g w 4=- Całkowita SST=Y^j(Xij~M)2 SST=36 dfT =kn-'\ dfT= 11 Wyjaśnienie wzorów: Wzory wyglądają na skomplikowane, ale takie nie są. Każda osoba w analizie ma swoją identyfikację informującą o jej numerze w danej grupie i o tym, w której grupie się znaj- duje. Indeks wskazujący numer w grupie przyjmuje cztery wartości. Nazwaliśmy go „/". Zapis oznacza, że powinniśmy zsumować wszystkie wyniki w pierwszej grupie, 194 podstawiając pod „/" kolejno 1,2, 3... aż do n, które w naszym przykładzie równa się 4. Grupa, do której dana osoba należy, jest identyfikowana przez,/', które przyjmuje warto- ści od 1 do k, czyli w analizowanym przez nas przykładzie: 1, 2, 3. • 2-i i i oznacza, że należy zsumować wyniki wszystkich pierwszych osób we wszyst- kich grupach. k n • AjjŁj u oznacza, że należy wykonać sumowanie wyników wszystkich osób, we ;=1 .=1 wszystkich grupach. Zastosowanie analizy wariancji do testowania hipotez o równości średnich Wyliczając międzygrupowąsumę kwadratów (ang. sum ofsquares between groups - SSB), • zapis =nZm4\M;, —M) 0Znacza, że sumujemy kwadraty odchyleń średnich od średniej ogólnej, po wszystkich grupach: j- ~\,j=2,j=3,\ mnożymy sumę przez n. Wyliczając wewnątrzgrupową sumę kwadratów (ang. sum of squares within gro- ups - SSW), zapis SSW = ~Mj)2 oznacza, że wyliczamy kwadraty odchyleń od śred- ni ;=i niej w grupie Mj dla każdej osoby w grupie od / = 1 do / = n, potem sumujemy dla każdej grupy od j = 1 doj = 3, a następnie sumujemy otrzymane w ten sposób wyniki z wszystkich grup. Podjęcie decyzji: Dla a- 0,05 wartość krytyczna testu Fkryt= 4,26 przy dU = 2 i df2- 9 Mamy Fotrz...........Fkryt, zatem.....................Ho na poziomie a- 0,05. Wniosek: Psycholog pracujący w klinice psychiatrycznej chce sprawdzić, czy są istotne różnice w dłu- gości hospitalizacji pomiędzy pacjentami z różnym rozpoznaniem choroby. Sprawdzając po czterech pacjentów z różnymi rozpoznaniami, uzyskano następujące wyniki (w tygodniach): Typ rozpoznania Zaburzenia afektywne Zaburzenia poznawcze Uzależnienia od narkotyków 6 11 8 3 7 10 5 9 12 6 9 10 M,= M2 = M3 = Czy różnica w długości pobytu w szpitalu między poszczególnymi kategoriami chorych jest istotna statystycznie? Przetestuj hipotezę, stosując SCHEMAT WNIOSKOWANIA («= 0,05). 195 Rozdział 6. Jednoczynnikowa analiza wariancji Numer osoby w grupie Grupa Wynik (wynik - średnia grupy)2 n x (średnia grupowa - średnia ogólna)2 1 1 6 2 1 3 3 1 4 1 1 2 2 2 3 2 4 2 1 3 2 3 3 3 4 3 Suma SCHEMAT WNIOSKOWANIA Zmienne Założenia Spełnione są założenia testu F. Hipotezy Wybór testu i rozkład statystyki Reguła decyzyjna Obliczenia: SS df s2 F międzygrupowe wewnątrzgrupowe ogółem Decyzja 196 Zastosowanie analizy wariancji do testowania hipotez o równości średnich 111.. Chcemy, na podstawie zbioru danych LEARN, wykazać, że wyniki w sprawdzianie intuicji psy- chologicznej zależą od zastosowanej manipulacji. Trzy badane grupy różniły się poziomem stresu. Ze względu na dwukrotny pomiar zmiennej zależnej (TIME1, TIME2) przeprowadzono dwie jednoczynnikowe analizy wariancji. Określenie zmiennych i ich skai pomiarowych, sfor- mułowanie założeń i hipotez: Zmienna niezależna: POZIOM STRESU (skala nominalna) - badane grupy. Zmienna zależna: wynik w sprawdzianie intuicji psychologicznej TIME1 (zmienna ilo- ściowa). Założenia: Ilościowa zmienna zależna ma w podpopulacjach wyznaczonych przez zmienną nieza- leżną rozkład normalny. Grupy niezależne zostały wylosowane z populacji o takich samych wariancjach { 0,05. KROK 5 Podjęcie decyzji; Dla TIME1 stwierdzamy brak podstaw do odrzucenia Ho i uznajemy, że manipulacja nie miała istotnego wpływu na wyniki uzyskane w sprawdzianie przeprowadzonym bezpo- średnio po manipulacji. SCHEMAT WNIOSKOWANIA 198 Zmienne Zmienna niezależna: STRES - zmienna nominalna na 3 poziomach. Zmienna zależna: wynik w sprawdzianie intuicji TIME1 - zmienna ilościowa. Założenia Spełnione są założenia testu F. Hipotezy Ho - manipulacja stresem nie wpływa na wyniki w sprawdzianie. H-s : Przynajmniej jedna średnia fi^, /u2 lub ju3 różni się od przynajmniej jednej z pozostałych. Manipulacja stresem wpływa na wyniki w sprawdzianie. Wybór testu i rozkład statystyki Statystyka F ma df, - k - 1 = 2 df2 = N - k = 30 - 3 = 27. Reguła decyzyjna Jeśli p < 0,05, odrzucimy Ho. Wartość statystyki F = 0,020; p = 0,98 Decyzja p > 0,05 więc stwierdzamy b.p.d.o. Ho. Manipulacja stresem nie miała istotnego wpływu na wyniki w TIME1. Zastosowanie analizy wariancji do testowania hipotez o równości średnich Korzystając z informacji zawartych w przykładzie 6.2 i poniższego wydruku, przeprowadź sche- mat wnioskowania dla zmiennej TIME2. Tabela 6 5. Statystyki opisowe N Średnia Odchylenie standardowe Błąd standardowy TIME2 1,00 10 7,90 1,97 0,62 2,00 10 4,00 2,26 0,71 3,00 10 6,10 2,13 0,67 Ogółem 30 6,00 2,61 0,48 Tabela 6.6. Analiza wariancji Suma kwadratów SS df Średni kwadrat F Istotność TIME2 Między grupami 76,20 2 38,10 8,45 0,001 Wewnątrz grup 121,80 27 4,51 Ogółem 198,00 29 SCHEMAT WNIOSKOWANIA Zmienne Założenia Spełnione są założenia testu F. Hipotezy Wybór testu i rozkład statystyki Reguła decyzyjna Wartość statystyki Decyzja /„ ,'* m ™ Jeśli SSr= 106 i SSW = 24, to jaka jest wartość SSB? SST = SSB + SSW, to SSe = SS,- SSW, zatem SSe = 106 - 24 = 82. 199 Rozdział 6. Jedno czynników a analiza wariancji I Jeśli SSe = 124 i SS„ = 46, to jaka jest wartość SS/? zykład 6.4. Zakładając jednakowe wielkości grup n = 12 i liczbę grup k = 3, mamy następujące dane: s-i = 9; s2 = 8; s3 = 7. Jaka jest wartość s2w ? Dla równolicznych podgrup Ponieważ grupy są równoliczne: +82+72 = 64,67 Ćwiczenie 6.4. Zakładając jednakowe wielkości grup n - 10 i liczbę grup k = 3, mamy następujące dane: Si = 6; s2 = 7; S3 = 5. Jaka jest wartość s2 ? 200 Psycholog interesujący się zagadnieniami zarządzania chce sprawdzić, czy osoby zatrudnio- ne w różnych działach różnią się w swoich ocenach przedsiębiorstwa. Trzy osoby z dziatu technicznego (GRUPA 1) oceniły firmę na: 10, 12 i 14; troje z działu marketingu (GRUPA 2) na: 6, 5, i 7; troje z księgowości (GRUPA 3) na: 7, 7 i 7, natomiast troje z działu produkcji (GRUPA 4) na: 14,16 i 15. Wyższe wartości oznaczały bardziej pozytywne oceny. Czy osoby pracujące w różnych działach różnie oceniająfirmę? Przetestuj hipotezę, stosując SCHEMAT WNIOSKOWANIA (a = 0,05). Narysuj wykres średnich porównywanych grup. Zastosowanie analizy wariancji do testowania hipotez o równości średnich Numer osoby w grupie Grupa Wynik (wynik - średnia grupy)2 nx (średnia grupowa - średnia ogólna)2 1 2 3 1 1 1 10 12 14 (10-12)2 (12-12)2 (14-12)2 M, = 12 3 x (12-lO)2 1 2 3 2 2 2 6 5 7 (6-6)2 (5-6)2 (7-6)2 M2 = 6 3 x (6-lO)2 1 2 3 3 3 3 7 7 7 (7-7)2 (7 - 7)2 (7-7)2 M3 = 7 3 x (7-lO)2 1 2 3 4 4 4 14 16 15 (14-15)2 (16-15)2 (15-15)2 M4= 15 3 x (15-10)2 Suma 12 162 SCHEMAT WNIOSKOWANIA Zmienne Zmienna niezależna: DZIAŁ zatrudnienia - zmienna nominalna Zmienna zależna: OCENA przedsiębiorstwa - zmienna ilościowa Założenia Spełnione są założenia testu F. Hipotezy Ho: Pracownicy różnych działów oceniają swoją firmę jednakowo. Hi: Pracownicy różnych działów różnie oceniają swoją firmę (co najmniej jedna z grup pochodzi z populacji o różnej średniej niż grupy pozostałe). Wybór testu i rozkład statystyki Statystyka Fma df: = k- 1 = 3; df2-N-k- 12-4 = 8. Reguła decyzyjna Gdy a = 0,05 Fkryt (3;8) = 4,07^ odrzucimy Ho. jeśli Fota(3;8)> 4,07. Obliczenia: SS df s2 F międzygrupowe 162 3 1^ = 54 54X8 =36 12 wewnątrzgrupowe 12 8 ogółem 174 Decyzja Fotz > Fkryt => odrzucamy Ho Wykres średnich ocen przedsiębiorstwa dokonanych przez pracowników zatrudnionych w róż- nych działach przedstawia rysunek 6.3. 201 Rozdział 6. Jednoczynnikowa analiza wariancji 12 3 4 Rysunek 6.3. Wykres średnich ocen pracowników różnych działów W badaniu porównywano odczuwaną intensywność nieodwzajemnionej miłości w trzech gru- pach: (1) 50 osób, które były w chwili badania nieszczęśliwie zakochane, uzyskało średnią intensywność M, = 3,5 z wariancją s* - 5,2; (2) 50 osób, wcześniej nieszczęśliwie zakocha- nych, opisujących swoje wcześniejsze doznania w retrospektywie, uzyskało Mz = 3,2 z wa- riancją s\ = 5,8 oraz (3) 50 osób, które nie doświadczyły nieszczęśliwej miłości, opisując jak przypuszczalnie by się czuły, gdyby jej doświadczyły, uzyskało M3 = 3,8 z wariancją s^ = 4,8. Czy grupy różniły się pod względem intensywności doznań? Przetestuj hipotezę, stosując SCHEMAT WNIOSKOWANIA (a= 0,05). Narysuj wykres średnich. Statystyki Grupa 1 Grupa 2 Grupa 3 M 3,5 3,2 3,8 s2 5,2 5,8 4,8 N 50 50 50 SCHEMAT WNIOSKOWANIA 202 Zmienne Założenia Spełnione są założenia testu F. Hipotezy Wybór testu i rozkład statystyki Reguła decyzyjna Obliczenia: df s2 F międzygrupowe wewnątrzgrupowe ogółem Decyzja Zastosowanie analizy wariancji do testowania hipotez o równości średnich Czy studenci z różnych uczelni różnią się poziomem towarzyskości? Z trzech uczelni wyloso- wano po 25 studentów. Następnie zapytano ich, ile czasu dziennie (w godzinach) spędzają w towarzystwie innych studentów. W uczelni X średnia wyniosła /Wi = 5 z wariancją s^ = 2, w uczelni Y - M2 = 4 z s\ =1,5, natomiast w uczelni Z - M3 = 6 z wariancją s^ = 2,5. Jaki można wysnuć wniosek? Przetestuj hipotezę, stosując SCHEMAT WNIOSKOWANIA {a- 0,05). Nary- suj wykres średnich. SCHEMAT WNIOSKOWANIA Zmienne Założenia Spełnione są założenia testu F. Hipotezy Wybór testu i rozkład statystyki Reguła decyzyjna Obliczenia: df s2 F międzygrupowe wewnątrzgrupowe ogółem Decyzja 203 Rozdział 6. Jednoczynnikowa analiza wariancji Przykład 6.Ć Uzupełnij tabelę analizy wariancji: Źródło Suma kwadratów (SS) df Średni kwadrat (s2) F Między grupami 120 3 c).......... e).......... Wewnątrz grup a).......... b).......... d).......... Ogółem 209 19 a) SSW = SST + SSe = 209 - 120 = 89 d) S>=®*.= *!L = 5>5 ' " dfw 16 4 = -^ = 7,1 sw 5,56 Uzupełnij tabelę analizy wariancji: Źródło Suma kwadratów (SS) df Średni kwadrat (s2) F Między grupami a).......... 3 c).......... e).......... Wewnątrz grup 100 b).......... d).......... Ogółem 160 23 Przykład 6,7. Badacz zainteresowany wpływem różnych rodzajów terapii na liczbę nawrotów choroby u pa- cjentów ze zdiagnozowanym zespołem alkoholowym wybrał losowo 24 osoby spośród ocze- kujących na wizytę w poradni. Następnie, również w sposób losowy, przydzielił po 6 pacjen- 204 tów do 4 grup: Zastosowanie analizy wariancji do testowania hipotez o równości średnich grupa 1 - była grupą kontrolną, niepoddaną żadnej terapii; grupa 2 - otrzymała lek powodujący mdłości po spożyciu alkoholu; grupa 3 - została poddana terapii behawioralnej; grupa 4 - została poddana jednocześnie terapii i leczeniu farmakologicznemu. Badacz zanotował liczbę nawrotów wciągu 12 kolejnych miesięcy. Ilustrują to następujące wyniki: Numer osoby Grupa 1 (kontrolna) Grupa 2 (leki) Grupa 3 (terapia) Grupa 4 (leki + terapia) 1 11 4 6 3 2 13 7 4 4 3 10 6 4 0 4 7 7 2 2 5 9 4 1 2 6 10 2 1 1 NI ^ = 10 M2=5 M3 = 3 M4=2 n n, = 6 n2= 6 n3=6 n4=6 s si = 2 s2=2 s3=2 s4 = 1,41 Ogółem M=5 N-24 Wykorzystując wydruk komputerowy (tabela 6.7), zweryfikuj hipotezę mówiącą, że liczba na- wrotów zależy od rodzaju leczenia (a - 0,05). Tabela 6.7. Analiza wariancji Źródło df Suma kwadratów Średni kwadrat F Istotność F Między grupami 3 228,00 76,00 21,70 0,000* Wewnątrz grup 20 70,00 3,50 Ogółem 23 298,00 SCHEMAT WNIOSKOWANIA Zmienne Zmienna niezależna: RODZAJ LECZENIA-zmienna nominalna Zmienna zależna: LICZBA NAWROTÓW - zmienna ilościowa Założenia Spełnione są założenia testu F Hipotezy Ho: Rodzaj leczenia nie wpływa na liczbę nawrotów. Hi : Rodzaj leczenia wpływa na liczbę nawrotów (co najmniej jedna z grup pochodzi z populacji o różnej średniej liczbie nawrotów niż grupy pozostałe). Wybór testu i rozkład statystyki Statystyka F ma dU - k- 1 = 3; df2 - N - k = 24 - 4 = 20. Reguła decyzyjna Odrzucimy HOl jeśli p < 0,05. Wartość statystyki Fota(3;20) = 21,70; p < 0,001 Decyzja Odrzucamy Ho. 205 Rozdział 6. Jednoczynnikowa analiza wariancji Badano wpływ stresu na pracę serca. Badanych przydzielono losowo do trzech grup. Osoby, które znalazły się w grupie 1 wprowadzono w stan zdenerwowania, w grupie 2 - w stan relak- su, a w grupie 3 nie wpływano na nastrój badanych. Następnie zmierzono i zanotowano liczbę uderzeń serca na minutę u każdego z nich. Czy wpływ STRESU na pracę serca (uderzenia na minutę) jest istotny statystycznie? Odpowiedz na to pytanie, stosując SCHEMAT WNIOSKO- WANIA i wykorzystując wydruk komputerowy. Poziom zmiennej STRES Grupa 1 (stres) Grupa 2 (relaks) Grupa 3 (kontrolna) 84, 82, 82 , 85, 87 79, 86, 72, 73, 70 90, 80, 71,65,79 Mi = 84 M >=76 M = 77 M = 79 Tabela 6.8. Analiza wariancji Źródło df Suma kwadratów Średni kwadrat F Istotność F Między grupami 2 190,00 95,00 2,07 0,17 Wewnątrz grup 12 550,00 45,83 Ogółem 14 740,00 SCHEMAT WNIOSKOWANIA Zmienne Założenia Spełnione są założenia testu F. Hipotezy Wybór testu i rozkład statystyki Reguła decyzyjna Wartość statystyki Decyzja 206 Dentysta był zainteresowany wpływem smaku pasty do zębów na częstotliwość mycia zębów przez dzieci i, co za tym idzie, liczbę ubytków w ich zębach po określonym czasie. Dentysta wybrał do badania 21 dzieci i podzielił je losowo na 3 grupy. Każda z grup przez 6 miesięcy myła zęby pastą o innym smaku: wiśniowym, gumy do żucia lub miętowym. Po 6 miesiącach dentysta zaobserwował następującą liczbę ubytków w grupach: Zastosowanie analizy wariancji do testowania hipotez o równości średnich Smak pasty do zębów Wiśnia Guma Mięta 7, 2, 8, 5, 3, 3, 0 5, 8,3,4 2,8,5 9, 10,7,4, 10,6,3 Mi = 4 M2 = 5 M3=7 M = 4 Czy smak pasty wpływa na liczbę ubytków? Narysuj wykres średnich i przetestuj odpowied- nią hipotezę, stosując SCHEMAT WNIOSKOWANIA i wykorzystując wydruk komputerowy z tabeli 6.9. Tabela 6.9. Analiza wariancji zmiennej UBYTKI Źródło df Suma kwadratów Średni kwadrat F Istotność F Między grupami 2 32,67 16,33 2,30 0,129 Wewnątrz grup 18 128,00 7,11 Ogółem 20 160,67 SCHEMAT WNIOSKOWANIA Zmienne Założenia Spełnione są założenia testu F. Hipotezy Wybór testu i rozkład statystyki Reguła decyzyjna Wartość statystyki Decyzja 207 Rozdział 6. Jedno czynników a analiza wariancji Jeżeli wariancje we wszystkich grupach są równe, to: Sl = S2 = 53 = Sw Porównajmy 4 hipotetyczne rozkłady (n = 10): A,) M-t =19 M2=12 M3=20 M =17 B^ Mt = 19 M2=19 M3=13 M=17 Si = s2 = s3 = 4 Si = s2 = s3 = 4 4 = 16 4 = SSS= 10 x(22+52+32) = 380 ssB= ^° = 190 F = ^ = ll,88 16 F = A2) Mi=19 M2=12 M3=20 M=17 B2) Mt=19 M2=19 M3=13 M=17 Si = s2 = s3= 10 Si =s2 = s3= 10 4 = ioo 4 = sse= SSS = 4 = F = F = ćwiczenie 6.9. Zbadano różnice wyników w testach wiadomości uczniów piszących test w ciszy i hałasie (otwarte okno z odgłosami dobiegającymi z budowy). Odpowiedz na pytanie, czy hałas wpły- I wa na rezultaty testów, stosując SCHEMAT WNIOSKOWANIA i wykorzystując wydruki z SPSS i następujących analiz: i a) jednoczynnikowej analizy wariancji, f b) testu t Studenta. f Zanim przystąpisz do weryfikacji hipotezy, uzupełnij luki w tabeli 6.10 zawierającej analizę ! wariancji. ? 208 Grupa kontrolna Grupa eksperymentalna 51,60,51, 52,51,49,50 45,38,42,48,50,41,44 M, = 52 M, = 44 M = 48 Zastosowanie analizy wariancji do testowania hipotez o równości średnich Tabela 6.10. Analiza wariancji Źródło df Suma kwadratów Średni kwadrat F Istotność F Między grupami 224,00 14,77 0,002 Wewnątrz grup 182,00 Ogółem 406,00 Tabela 6.11. Statystyki opisowe dla grup N Średnia Odchylenie standardowe Błąd standardowy średniej Grupa kontrolna 7 52,00 3,65 1,38 Grupa eksperymentalna 7 44,00 4,12 1,55 Różnica średnich = 8,00 Test Levene'a jednorodności wariancji wynosi: F - 0,404; p - 0,537. Tabela 6.12. Test t dla prób niezależnych Wariancje t df Istotność Błąd standardowy różnicy równe 3,84 12 0,002 2,08 nierówne 3,84 11,83 0,002 2,08 SCHEMAT WNIOSKOWANIA Zmienne Założenia Spełnione są założenia testu F. Hipotezy Wybór testu i rozkład statystyki Reguła decyzyjna Wartość statystyki Decyzja Zauważmy, że Niewielkie różnice wynikają z zaokrągleń. 209 Rozdział 6. Jedno czynników a analiza wariancji M Stosując test t, stwierdzono, że średnie w dwóch grupach różnią się istotnie statystycznie. Czy możliwe jest otrzymanie nieistotnego wyniku za pomocą testu F, na tych samych grupach pomiarów? (Zakładamy, że poziom a jest jednakowy i nie popełniono błędów w obliczeniach.) r. I Testy porównań poszczególnych średnich w analizie wariancji Analiza wariancji pozwala nam zweryfikować hipotezę zerową, mówiącą, że wszystkie średnie w porównywanych podpopulacjach są równe. Jeżeli okaże się, że możemy tę hipotezę odrzucić, to wiemy, iż co najmniej jedna średnia różni się istotnie statystycznie od co najmniej jednej z pozostałych - niestety nie wiemy (chy- ba że mamy do czynienia z banalnym przypadkiem dwóch średnich), które różnice są istotne. Jak pokazaliśmy na początku rozdziału, nie możemy użyć testu t do porów- nywania par różnic ze względu na kumulowanie się błędu I rodzaju. Przeanalizujmy następujący przykład. Chcemy na podstawie danych PGSS spraw- dzić, czy istnieje różnica w ważności przypisywanej sąsiadom (JAK WAŻNI SĄSIE- DZI) przez respondentów mieszkających w ośmiu regionach Polski: Centralnym, Wielkopolskim, Śląskim, Zachodnim, Pomorskim, Północno-Wschodnim, Wschod- nim i Małopolskim (REGION8). Chcemy sprawdzić, w którym regionie mieszkańcy są najbardziej zainteresowani swoimi stosunkami z sąsiadami, co może być dobrą prognozą dla rozwoju demokracji lokalnej. Ponad stuletni okres rozbiorów spowo- dował powstanie sporych różnic w kulturze i mentalności mieszkańców różnych regionów. Test ogólny analizy wariancji pozwoli nam jedynie sprawdzić, czy któryś z re- gionów różni się od przynajmniej jednego z pozostałych pod względem ważności przypisywanej sąsiadom. Co jednak zrobić, gdy chcemy sprawdzić, czy sąsiedzi są ważniejsi np. dla mieszkańców regionu Śląskiego niż dla mieszkańców regionu Pół- nocno-Wschodniego? Albo gdybyśmy chcieli przetestować hipotezę dotyczącą tego, czy mieszkańcy Małopolski różnią się od reszty kraju, którą możemy zapisać przy użyciu symboli w następujący sposób: = u„i Możemy tego dokonać za pomocą planowanych (a priori) lub nieplanowa- nych (post hoc) porównań średnich. Porównania nieplanowane (post hoc) są elementem eksploracyjnej analizy danych. Dokonujemy ich, gdy nie mamy sprecyzowanych hipotez dotyczących 210 różnic między poszczególnymi średnimi - więc porównuj emy każdą średnią z każdą. Testy porównań poszczególnych średnich w analizie wariancji Porównania planowane są elementem konfirmacyjnej analizy danych. Wyma- gają sprecyzowania szczegółowych hipotez dotyczących różnic między poszcze- gólnymi średnimi przed rozpoczęciem badania. Mogą dotyczyć par średnich lub bardziej złożonych porównań, np. takich jak w przykładzie powyżej. Nierzadko, gdy decydujemy się przeprowadzić porównania tego rodzaju, ogólny test F analizy wa- riancji w zasadzie w ogóle nas nie interesuje (choć wyniki z analizy wariancji są potrzebne do obliczeń). Istnieje wiele różnych testów porównań, których nie będziemy omawiać w pod- ręczniku. W tabeli 6.13 znajdziemy listę najczęściej używanych. Ich liczba świad- czy o tym, że nie ma zgody wśród badaczy, który z testów jest najlepszy. Brzeziński [6] poleca test TSD Tukeya. Wszystkie są tak skonstruowane, by umożliwić w więk- szym lub mniejszym zakresie kontrolowanie błędu wynikającego z wielokrotnych porównań. Testy, które bardzo dobrze kontrolują ten błąd, nazywane są testami kon- serwatywnymi, testy które robią to gorzej - testami liberalnymi. Pozornie może się wydawać, że im test jest bardziej konserwatywny, tym lepiej. Nie jest tak do końca, gdyż ceną za dobrą kontrolę wzrostu błędu I rodzaju jest niższa moc testu - staje się on mniej czuły na różnice między średnimi. Tabela 6.13. Najczęściej używane testy porównań Porównania planowane (a priori) Porównania nieplanowane (a posteriori) - testy porównań wielokrotnych (post hoc) Kontrasty (liniowe) Poprawka Bonferroniego (Test Dunna) Test Dunna-Sidaka Test LSD Fishera Test TSD Tukeya Test Newmana-Keulsa Test Duncana Test Scheffego W niniejszym podręczniku ograniczymy się do omówienia kontrastów planowa- nych, ponieważ są one jako elementy analizy konfirmacyjnej dużo cenniejsze od testów post hoc, choć niestety rzadziej stosowane. Kontrasty Kontrasty pozwalają nam testować hipotezy zerowe będące dowolnie skompli- kowanymi kombinacjami liniowymi średnich. Oczywiście nic nie stoi na przeszko- dzie, aby użyć ich do porównania ze sobą dwóch średnich, ale zazwyczaj będziemy się nimi posługiwać przy bardziej skomplikowanych hipotezach szczegółowych. Wróćmy do naszego przykładu, w którym porównywaliśmy ze sobą ważność są- siadów deklarowaną przez mieszkańców różnych regionów Polski: Centralnego (p.\), Wielkopolskiego (jl2), Śląskiego (//3), Zachodniego (jU4), Pomorskiego (ju5), Północ- no-Wschodniego (ju6), Wschodniego (jUt) i Małopolskiego (//g). 211 Rozdział 6. Jednoczynnikowa analiza wariancji Hipoteza 1. Chcemy sprawdzić, czy mieszkańcy regionu Wschodniego bar- dziej cenią sobie sąsiadów niż mieszkańcy regionu Pólnocno-Wschodniego. Re- giony te sąsiadują ze sobą, ale historycznie jeden z nich związany jest z Prusami (Północno-Wschodni), drugi zaś z kresami wschodnimi Rzeczypospolitej. Konstruk- cją kontrastów rozpoczynamy od postawienia hipotezy zerowej: #o: Me = Mi Kontrasty zgodnie z konwencją zapisuje się w postaci wag. Wagi są współczyn- nikami, przez które mnoży się odpowiadające im średnie w równaniu Ho przekształ- conym w taki sposób, aby wartości średnie znajdowały się z jednej strony równości: Wypisujemy wagi dla kolejnych średnich: / • / <*° / M\ Ml Mi Ms Me Mi Mb 0 0 0 0 0 1 -1 0 lub skrótowo: Ci = (0, 0, 0, 0,0,1,-1,0)- ważne jest, żeby nie pomylić kolejności wag! Aby poprawnie wypisać wagi, trzeba się trzymać kilku prostych reguł: 1. wag musi być tyle, ile jest wszystkich średnich; 2. średnie, które nie występują w hipotezie zerowej mają wagę równą zeru; 3. średnie, które ze sobą porównujemy (albo kontrastujemy) mają przeciwne znaki; 4. suma wszystkich wag musi się równać zeru. Tak wypisane wagi można wprowadzić do programu statystycznego, który wy- kona resztę obliczeń. Przeanalizujmy nieco bardziej złożoną hipotezę. Hipoteza 2. Sprawdzamy, czy mieszkańcy terenów byłego zaboru pruskiego różnią się pod względem stosunku do sąsiadów od mieszkańców pozostałych tere- nów Polski. Zapisujemy to w postaci hipotezy: 212 Testy porównań poszczególnych średnich w analizie wariancji Aby otrzymać prostsząpostać kontrastu, pomnożymy obie strony powyższej rów- ności przez 4 (nie jest to konieczne, ale bardzo wygodne) i przenosimy wszystko na lewą stronę: lh -J"3 -M4 -Vs =° • Otrzymujemy wówczas następujące wagi: / / / / • M2 As Me A7 1 -1 -1 -1 -1 1 1 1 czyli C2 = (/, -i, -7, -7, -7, 7, 7, 7). Zauważmy, że wagi faktycznie sumują się do zera. Zanim dowiemy się, jak w praktyce wykonuje się testy kontrastów, wprowadzimy jeszcze kilka użytecznych pojęć. Wyróżnia się często następujące typy kontrastów: 1. Kontrasty par. Jak sama nazwa wskazuje, porównują one ze sobą dwie śred- nie. Przykładem takiego kontrastu był ten, który wypisaliśmy dla Hipotezy 1. Jeżeli w naszej analizie jest k porównywanych grup, to wszystkich kontra- stów par jest k{k - 1) / 2. 2. Kontrasty złożone. Są to takie kontrasty, w których występują więcej niż dwie średnie, tak jak w kontraście C2. 3. Kontrasty niezależne (ortogonalne). Dwa kontrasty są niezależne, jeżeli zna- jomość jednego z nich nie daje nam żadnej informacji o drugim. Matematycz- ne kryterium, jakie musi być spełnione jest następujące: jeżeli mamy k śred- nich i dwa kontrasty W = {wh w2, ???, wk) oraz C = (ch c2, ..., c*), to są one niezależne, jeżeli spełniony jest warunek: W\C\ + W2C2 + •?? + W/cC/c = 0, czyli suma iloczynów wszystkich wag musi być równa zeru. Sprawdźmy, czy kontrasty W: = (0, 0, 0, 0, 0, -1, 1, 0)\C2- (1, -1, -1, -1, -1, 1, 1, 1) są niezależne: co oznacza, że kontrasty te są niezależne. Dla k porównywanych grup możemy wypisać (k- 1) niezależnych kontrastów. Pozwalają one na podział całego zróżnicowania zmiennej zależnej na osobne części. 213 Rozdział 6. Jednoczynnikowa analiza wariancji Sprawdź niezależność następujących kontrastów: / / / / mator wariancji wewnątrzgrupowej $2 . Testy porównań poszczególnych średnich w analizie wariancji Na podstawie danych PGSS sprawdźmy istotność kontrastu skonstruowanego do pierwszej z naszych hipotez. / 0° / ł / / 1*1 = 4,10 ,"2 = 4,16 Mi = 4,07 /4 = 4,17 Ms = 3,91 Me = 4,48 Mi = 4,66 Mb = 4,31 0 0 0 0 0 1 -1 0 i Tabela 6.14. Analiza wariancji zmiennej JAK WAŻNI SĄSIEDZI Suma kwadratów df Średni kwadrat F Istotność Między grupami 63,02 7 9,00 2,632 0,010 Wewnątrz grup 6060,66 1772 3,42 Ogółem 6123,67 1779 -1x4,48 + 1x4,66 -4,48 + 4,66 0,18 0,18 ^3,42x0,016 0,235 - 0,766 W tym badaniu mieliśmy 1780 osób badanych i 8 porównywanych grup, mamy więc df- N~k= 1772 stopnie swobody. Odczytana z tablic wartość krytyczna testu t przy założonym poziomie istotności or= 0,05 wynosi 4 = 1,96. Ponieważ nasze t < t^, nie możemy odrzucić Ho i musimy stwierdzić, że kontrast jest nieistotny. Mieszkańcy regionu Wschodniego i Północno-Wschodniego nie różnią się_ istotnie pod wzglą- dem ważności przypisywanej sąsiadom. Założenie o równości wariancji Przedstawiony wzór na wyliczenie statystyki t dla kontrastów wymaga spełnie- nia założenia równości wariancji w odpowiednich podpopulacjaeh. Gdy założenie to nie jest spełnione, zamiast wykorzystywania s2 do szacowania wariancji niewyja- śnionej hipotezą (błąd) musimy oszacować błąd porównania dla każdego kontrastu 215 Rozdział 6. Jedno czynników a analiza wariancji oddzielnie. Dodatkowo należy skorygować liczbą stopni swobody. Wzory używane do tych obliczeń są dosyć złożone, zazwyczaj więc powierzamy to zadanie kompute- rowym pakietom statystycznym. Mimo że pokazywaliśmy działanie testów kontrastów na przykładzie jednoczyn- nikowej analizy wariancji, to nic nie stoi na przeszkodzie, aby ich używać w przy- padku analizy dwuczynnikowej, z którą zapoznamy się w następnym rozdziale. Podsumowanie Analiza wariancji jest metodą pozwalającą na podział zmienności zmiennej za- leżnej na oddzielne części, z których każdą możemy przypisać znanemu źródłu. Zmienność wyrażona jest w postaci sumy kwadratów odchyleń od odpowiedniej średniej. Sumy kwadratów i związane z nimi stopnie swobody są addytywne: SSx — SSW + SSg dfT = dfB + dfw^ N- 1 = (k- 1) + (N- k) Odpowiednio stopnie swobody: dfB = df\ dfw = df2 Całkowita suma kwadratów (SST) Międzygrupowa (SSB) Estymator wariancji międzygrupowej Wewnątrzgrupowa (SSW) Estymator wariancji wewnątrzgrupowej SSw- suma kwadratów odchyleń wyników średnich w poszczególnych grupach SSB - suma kwadratów odchyleń średnich w grupach od średniej ogólnej SST- suma kwadratów odchyleń wyników od średniej ogólnej 216 Zapisz definicje kluczowych pojfć wprowadzonych w tym rozdziale oraz nowe symbole n- y- za- niej ich Dwuczynnikowa analiza wariancji Pojęcia kluczowe: dwuczynnikowa analiza wariancji; efekt główny; efekt interakcyjny; powtarzane pomiary Nowe symbole: SSC, SSR, SSRC, SSreszfa, s2c, s2R, s2RC, Fc, FR, FRC Dwuczynnikowa analiza wariancji pozwala nam w jednym eksperymencie oce- nić efekt (wpływ) dwóch niezależnych zmiennych nominalnych oraz interakcji mię- dzy tymi czynnikami na ilościową zmienną zależną.. Jeżeli wpływ zmiennej nomi- nalnej na zmienną ilościową jest istotny, to mówimy, że istotny jest efekt główny czynnika. |Efekt interakcji O interakcji dwóch czynników mówimy wtedy, gdy ich łączny efekt nie da się przewidzieć na podstawie efektów czynników działających osobno. Jeżeli pijemy alkohol, to możemy się upić i usnąć. Jeżeli bierzemy środki nasenne, to szybko uśnie- my. Jeżeli jednak zrobimy te dwie rzeczy równocześnie, to... możemy umrzeć. Gdy- by wpływ obu czynników był addytywny, to po ich łącznym zastosowaniu powinni- śmy szybciej zasypiać niż po działaniu jednego z nich. Śmierć świadczy o tym, że wpływ nie jest addytywny, lecz interakcyjny - nie da się przewidzieć na podstawie znajomości efektów głównych obu czynników. Efekt interakcji może mieć różną postać. Prześledzimy to na przykładzie. Chce- my sprawdzić wpływ psychoterapii (czynnik R) i przyjmowania leków (czynnik C) na długość snu (liczbę godzin). Symbole R, C pochodzą od angielskich słów ozna- czających wiersz (row) i kolumnę (column), ponieważ tego typu dane przedstawiane są w formie tabeli (por. tabela 7.1). Jeżeli efekt jednego czynnika zależy od poziomu drugiego czynnika, np. wpływ leku na długość snu jest różny dla osób poddawanych psychoterapii i niepoddawa- nych psychoterapii, to mówimy, że wystąpił istotny efekt interakcji. 217 Rozdział 7. Dwuczynnikowa analiza wariancji Cu bez leków C2, leki Bez terapii Mr-ici średni czas snu osób nie poddanych terapii i niezażywających leków Mr-\C2 średni czas snu osób nie poddanych terapii i zażywających leki R2, Terapia średni czas snu osób poddanych terapii i niezażywających leków MrzC2 średni czas snu osób poddanych terapii i zażywających leki Rysunek 7.1. Schemat badawczy Wyobraźmy sobie możliwe wyniki tego badania. Dla ułatwienia średnie pocho- dzące od 20 osób w każdej celi (komórce, kratce) tabeli danych są liczbami całkowi- tymi, choć otrzymanie takich średnich w rzeczywistości jest mało prawdopodobne. Przykład 7.1. Bez leków Leki Efekt leków Bez terapii 5h 6h 6h- -5h = = 1h Terapia 7h 8h 8h- -7h = = 1h Efekt terapii 7h- 5h = 2h 8h -6h = 2h Efekt prosty terapii Efekt prosty terapii bez leków na lekach +2h +2h Efekt główny (uśredniony) terapii 4h / 2 = 2h Efekt prosty leków bez terapii +1 h Efekt prosty leków w czasie terapii +1h Efekt główny (uśredniony) leków 2h /2 = 1h 218 Porównanie efektów prostych pozwala nam stwierdzić, czy zaobserwowaliśmy interakcję czyn- ników czy też nie. W tym przykładzie oba efekty proste terapii są takie same bez względu na to, czy osoby zażywały leki, czy nie. Także efekty proste leków nie zależą od tego, czy osoby uczestniczyły w terapii, czy nie. Otrzymane średnie możemy schematycznie przedstawić na rysunku. Na osi poziomej zazna- czono wartości zmiennej TERAPIA (zupełnie umownie, bo to przecież zmienna nominalna). Na osi pionowej umieszczone są średnie w poszczególnych grupach. Punkty przedstawiające Efekt interakcji wyniki średnich połączono osobnymi liniami w ramach grup: zażywających leki lub niezaży- wających. Równoległość tych prostych pozwala przewidywać brak interakcji między czynnika- mi. Warto zauważyć, że jeżeli średnie w 4 grupach byłyby równe i wynosiły np. 7h, to otrzyma- libyśmy dwie pokrywające się linie równoległe do osi OX, co świadczy o braku związku długo- ści snu z analizowanymi zmiennymi. bez leku leki bez terapii terapia Bez leków Leki Efekt leków Bez terapii 8h 6h 6h- - 8h= -2h Terapia 6h 8h 8h -6h = 2h Efekt terapii 6h- 8h = -2h 8h -6h = 2h Efekt prosty terapii Efekt prosty terapii bez leków na lekach -2h +2h Efekt główny (uśredniony) terapii Oh / 2 = Oh Efekt prosty leków bez terapii -2h Efekt prosty leków w czasie terapii +2h Efekt główny (uśredniony) leków Oh / 2= Oh W badaniu nie wykryto żadnego efektu głównego (uśrednionego). Nie możemy powiedzieć, że przyjmowanie leków wydłuża sen ani że taki wpływ wywiera uczestnictwo w terapii. Nie oznacza to jednak, że na tym kończy się nasza interpretacja wyników. Porównanie efektów prostych pozwala nam stwierdzić, czy zaobserwowaliśmy interakcję czyn- ników, czy też nie. W tym przykładzie efekty proste terapii różnią się w zależności od tego, czy osoby zażywały leki, czy nie. Poddanie się terapii bez zażywania leków skraca sen (-2h), przy zażywaniu leków sen wydłu- ża (+2h). Także efekty proste leków zależą od tego, czy osoby uczestniczyły w terapii, czy nie. Zażywanie leków sen wydłuża lub skraca w zależności od tego, czy osoby uczestniczą (+2h) w terapii, czy też nie (—2h). 219 Rozdział 7. Dwuczynnikowa analiza wariancji Otrzymane średnie możemy schematycznie przedstawić na rysunku. Przecinanie się pro- stych pozwala przewidywać efekt interakcyjny zmiennych. bez leku leki bez terapii terapia Bez leków Leki Efekt leków Bez terapii 4h 5h 5h- -4h = 1h Terapia 6h 9h 9h- - 6h = 3h Efekt terapii 6h - 4h = 2h 9h -5h = 4h Efekt prosty terapii bez leków 2h Efekt prosty terapii na lekach 4h Efekt główny (uśredniony) terapii 6h / 2 = 3h Efekt prosty leków bez terapii 1 h Efekt prosty leków w czasie terapii 3h Efekt główny (uśredniony) leków 4h / 2 = 2h 220 W badaniu wykryto dwa efekty główne (uśrednione). Możemy podejrzewać (aby to stwierdzić, musimy sprawdzić istotność statystyczną), że zarówno przyjmowanie leków wydłuża sen (+2h), jak też podobny wpływ ma uczestnictwo w terapii (+3h). Nie oznacza to jednak, że na tym kończy się nasza interpretacja wyników. Porównanie efektów prostych pozwala nam stwierdzić, czy zaobserwowaliśmy interakcję czyn- ników, czy też nie. W tym przykładzie efekty proste terapii różnią się w zależności od tego, czy osoby zażywały leki, czy nie. Pozytywny wpływ terapii jest silniejszy w grupie zażywających leki (+4h) niż w grupie niezaży- wającej leków (+2h). Także efekty proste leków zależą od tego, czy osoby uczestniczyły w te- rapii, czy nie. Leki działają silniej na osoby poddane terapii (+3h) niż na te, które w terapii nie uczestniczą (+1). Otrzymane średnie możemy schematycznie przedstawić na rysunku. Nierównoległość linii pozwala przewidywać efekt interakcyjny zmiennych. Testowanie efektów głównych i interakcyjnych 10 9 8 7 6 5 4 3 2 1 bez terapii terapia bez leku leki (Testowanie efektów głównych i inter akcyjnych Chcemy sprawdzić, czy zmienne: STRES (jak w zadaniu przykładowym z roz- działu 6.) i REAKTYWNOŚĆ wpływają na wyniki otrzymywane przez studentów w teście. W tym celu 12 niskoreaktywnych i 12 wysokoreakty wnych studentów przy- dzielamy losowo do trzech równolicznych grup, przy czym: 1. w grupie Cl studenci relaksują się przed testem, który jest przedstawiany jako nieważny sprawdzian; 2. w grupie C2 studenci są zachęcani, aby dać z siebie wszystko; 3. w grupie C3 studenci są straszeni, że test jest warunkiem zaliczenia przed- miotu. I Jaki wyciągniesz wniosek na poziomie istotności a= 0.05, na podstawie nastę- pujących danych? Tabela 7.1. Dwuczynnikowa analiza wariancji REAKTYWNOŚĆ STRES Średnie brzegowe C1 C2 C3 R1 Wysokoreaktywni 2233 MR1Ci = 5566 MriC2 = 3355 MfflC3 = MR1=4 R2 Niskoreaktywni 1 1 22 4455 Mr2C2 ~ 5577 Mr2C3 = MR2 = 4 Średnie brzegowe MC1=2 Mc2 = 5 MC3 = 5 M = A W dwuczynnikowym schemacie analizy wariancji możemy: • porównać średnią uzyskanąprzez wysokoreaktywnych (MR{) ze średnią ogólną (M) - prosty efekt główny wysokiej reaktywności; • porównać średnią uzyskaną przez niskoreaktywnych (MR2) ze średnią ogólną (M) - prosty efekt główny niskiej reaktywności. 221 Rozdział 7. Dwuczynnikowa analiza wariancji Te dwa proste efekty składają się na efekt główny czynnika R (uśrednionego na wszystkich poziomach czynnika Q. • porównać średnią uzyskaną przez relaksowanych (MC\) ze średnią ogólną (M) - prosty efekt główny relaksu; • porównać średnią uzyskaną przez motywowanych (MC2) ze średnią ogólną (M) - prosty efekt główny motywowania; • porównać średnią uzyskaną przez straszonych (MC3) ze średnią ogólną (M) - prosty efekt główny straszenia. Te trzy efekty proste składają się na efekt główny czynnika C (uśrednionego na wszystkich poziomach czynnika R). • porównać średnie uzyskane w grupie relaksowanych przez wysokoreaktyw- nych {MR\C\) i niskoreaktywnych (MR2c\) - prosty efekt interakcji; • porównać średnie uzyskane w grupie motywowanych przez wysokoreaktyw- nych (MmC2) i niskoreaktywnych (MR2C2) - prosty efekt interakcji; • porównać średnie uzyskane w grupie straszonych przez wysokoreaktywnych (Mrio) i niskoreaktywnych (MR2C\) - prosty efekt interakcji. • Porównywać można też między sobą średnie uzyskane przez wysokoreak- tywnych w grupie relaksowanej (MR\d), motywowanej (MRlC2), straszonej (MRici) i analogicznie średnie uzyskane przez niskoreaktywnych w grupie relaksowanej (MR2C\), motywowanej (MR2C2), straszonej (MR2C3). Te proste efekty interakeyjne składają się na efekt interakcji Rx C, który wy- stępuje wtedy, gdy efekty proste jednego czynnika nie są takie same na wszyst- kich poziomach drugiego czynnika. Średnie możemy przedstawić na rysunku: zz C3 - Nreakt -Wreakt C1 C2 Rysunek 7.2. Średnie w teście dla różnych poziomów czynników 222 Efekt interakcji Określenie zmiennych i ich skal pomiarowych, sfor- mułowanie założeń i hipotez: Zmienne niezależne: czynnik C- POZIOM STRESU (3 wartości - zmienna nominalna) czynnik R - REAKTYWNOŚĆ (2 wartości - zmienna nominalna) Zmienna zależna: WYNIKI W TEŚCIE (zmienna ilościowa) Założenia: Zmienna zależna ma rozkład normalny w podpopulacjach wyznaczonych przez pozio- my zmiennych niezależnych. Wariancje zmiennej zależnej w podpopulacjach wyznaczonych przez poziomy zmien- nych niezależnych nie różnią się istotnie (homogeniczność wariancji). Losowy przydział do grup eksperymentalnych. Hipotezy. W dwuczynnikowej analizie wariancji mamy trzy hipotezy zerowe: 1a. Poziom stresu nie wpływa na wyniki w teście, co oznacza brak efektu głównego czynnika C. Ho: fin -Mc2 = Mc3 = M 1 b. Reaktywność nie wpływa na wyniki w teście, co oznacza brak efektu głównego czyn- nika R. 1c. Brak efektu interakcji czynników R (reaktywności) i C (poziomu stresu) na wyniki w te- ście. Ho : //R1C1 = AR1C2 = MR1C3 = >"R2C1 - MR2C2 = MR2C3 ~ M- Oznaczenia: c - liczba poziomów zmiennej C (liczba kolumn) r- liczba poziomów zmiennej R (liczba wierszy) n - liczebność osób w jednej kratce danych N= nx rx c-liczebność próby Hipotezy zerowe formułujemy jako zaprzeczenie hipotez badawczych. Pamiętajmy, że zaprzeczeniem równości wielu średnich jest stwierdzenie, że przynajmniej jedna śred- nia różni się od pozostałych. Hipotezy badawcze możemy sformułować następująco: ad. 1a. Efekt główny czynnika C jest istotny statystycznie. Poziom stresu istotnie wpły- wa na wyniki w teście. ad. 1b. Efekt główny czynnika R jest istotny statystycznie. Wyniki w teście istotnie zale- żą od poziomu reaktywności badanego. ad. 1c. Efekt interakcji czynników R i C jest istotny statystycznie. Wpływ manipulacji poziomem stresu na wyniki w teście zależy od reaktywności badanych. Wybór testu i ustalenie rozkładu statystyki: Chcemy badać jednoczesny wpływ dwóch zmiennych niezależnych (czynników, zmien- nych nominalnych) na zmienną zależną (zmienną ilościową), więc wybieramy dwuczyn- nikową analizę wariancji. 223 Rozdział 7. Dwuczynnikowa analiza wariancji 224 Statystyka, którą wykorzystamy przy podejmowaniu decyzji względem każdej z hipotez zerowych ma rozkład F(df-i, df2). ;.::???"""'? . l\rv*taJI\ *ł -.:..f Ustalenie reguły decyzyjnej: 3a) Dla testu efektu głównego czynnika Cjest: df-i = [c - 1] stopni swobody związanych z licznikiem oraz df2 = [rc(n -1)] stopni swobody związanych z mianownikiem. Dla a- 0,05 wartość krytyczna testu Fkr/t- 3,55 przy dU-2\ df2- 18. Jeżeli Fota > F^, odrzucamy Ho o braku wpływu poziomu stresu na wyniki testu. Jeżeli Fotrz < F/tryt, to brak podstaw do odrzucenia Ho. 3b) Dla testu efektu głównego czynnika R jest: <#! = [r- 1] stopni swobody związanych z licznikiem oraz df2 = [rc(n - 1)] stopni swobody związanych z mianownikiem. Dla a- 0,05 wartość krytyczna testu Fkryt= 4,41 przy dfi = 1 i c/f2= 18. Jeżeli Fota > Fx,yf, odrzucamy Ho o braku wpływu poziomu reaktywności na wynik testu. Jeżeli Fotrz < Fkryt, to brak podstaw do odrzucenia Ho. 3c) Dla testu efektu interakcji jest: dfi = [(r- 1)(c - 1)] stopni swobody związanych z licznikiem oraz df2- [rc(n - 1)] stopni swobody związanych z mianownikiem. Dla a- 0,05 wartość krytyczna testu F^ryt- 3,55 przy df\ - 2 i df2- 18. Jeżeli Fotrz > F^, odrzucamy Ho o braku interakcji poziomu stresu i poziomu reak- tywności. Jeżeli Fotrz < Fkvt, to brak podstaw do odrzucenia Ho. Wyliczenie wartości statystyki FotfZ dla efektów głów- nych i efektu interakcji: 1. Wyliczenie sumy kwadratów dla C: SSc = nr?i(MQ-M)2 = Sumujemy po wszystkich poziomach czynnika C. 2. Wyliczenie sumy kwadratów dla R. SSR = nc^(MRi-Mf = Sumujemy po wszystkich poziomach czynnika R. Efekt interakcji 3. Wyliczenie interakcyjnej sumy kwadratów: 1=1 7=1 Sumujemy po wszystkich rx c kratkach. 4. Wyliczenie wewnątrzkratkowej (cells) sumy kwadratów: 1=1 j-\ ł=\ Sumujemy po wszystkich osobach w danej kratce, a następnie po kratkach. 5. Wykorzystując addytywność sum kwadratów, wyliczamy całkowitą sumę kwa- dratów: OO7" """ OOr ' OOQ "?" OORC "?" &&w ~" Uproszczony wzór do sprawdzenia poprawność wyniku ma postać: 1=1 j=] l=\ Sumujemy po wszystkich osobach badanych. Tym razem każda osoba jest wyznaczana przez trzy indeksy: • „/", oznaczający jej numer poziomu czynnika wierszowego, przyjmuje wartości od 1 do r (liczba poziomów czynnika wierszowego); • ,/', oznaczający jej numer poziomu czynnika kolumnowego, przyjmuje wartości od 1 do c (liczba poziomów czynnika kolumnowego); • „/", oznaczający jej numer w grupie (kratce), przyjmuje wartości od 1 do n (liczba osób w grupie). 6. Wyliczenie liczby stopni swobody dla każdego estymatora: dfw = rc(n - 1) = dfT = N - 1 = dfT = dfR + dfc + dfRC + df„ = 7. Wyliczenie odpowiednich estymatorów wariancji - dzielimy sumę kwadratów przez odpowiadającą im liczbę stopni swobody: 225 Rozdział 7. Dwuczynnikowa analiza wariancji 2 _ SSRC _ dfR, 226 2 SS„, s,., - ? dfw 8. Wyliczenie odpowiedniej statystyki Fotrz: Dla efektu głównego czynnika R: 2 Dla efektu głównego czynnika C: F =i?-- c / ~ Dla efektu interakcji RxC: i. 1_ 'odjęcie decyzji: Efekt główny reaktywności (czynnik /?) Dla a- 0,05 wartość krytyczna testu Fkryt= 4,41 przy d/i = 1 i df2- 18. FR...........F/t^, więc.........................Ho o braku wpływu poziomu reaktywności na wyni- ki testu. Efekt główny stresu (czynnik C) Dla a- 0,05 wartość krytyczna testu Fkryt= 3,55 przy dU = 2\ dfz- 18. Fc...........Fkryt, więc.........................Ho o braku wpływu poziomu stresu na wyniki testu. Efekt interakcji reaktywności ze stresem (interakcja C x R) Dla a- 0,05 wartość krytyczna testu Fkryt= 3,55 przy dU-2\ df2= 18. FRC...........Fkryt, więc.........................Ho o braku wpływu interakcji: poziom stresu x po- ziom reaktywności, na wyniki testu. Rozwiązanie zadania przykładowego za pomocą pakietu statystycznego: Efekt interakcji Tabela 7.2. Dwuczynnikową analiza wariancji Źródło wariancji Suma kwadratów (SS) df Średni kwadrat (s2) F Istotność F Efekty główne STRES [C] REAKT [R] 48,00 0,00 2 1 24,00 0,00 36,00 0,00 0,000 1,000 Interakcja STRES REAKT [C x R] 12,00 2 6,00 9,00 0,002 Reszta 12,00 18 0,67 Ogółem 72,00 23 3,13 Prześledźmy jeszcze raz dwuczynnikową analizę wariancji na wzorach Sumy kwadratów i związane z nimi stopnie swobody są addytywne: SSr = SSR + SSC + SSrc + SSW dfT = dfR + dfc + dfRC + dfw 1) <#w = rc(n - 1) dfr = SSW to zróżnicowanie w ramach osób znajdujących się w tej samej celi (kratce, klatce) tabeli danych. SSW oznaczane jest też jako RESZTA lub BŁĄD. SSW jest tym zróżnico- waniem, którego nie potrafimy w danym schemacie analizy danych wyjaśnić. Całkowita suma kwadratów SSr Suma kwadratów Estymato wariancji 2 Wiersze SSR s; F - " Kolumny ssc sl F ^ Sw Interakcje __ SSRC SRC Wewnątrz __ ssw Stf Efek czynnika R Efekt czynnika C Efekt interakcji CR Rysunek 7.3. Podział zmienności w dwuczynnikowej analizie wariancji Test efektu głównego zmiennej R Test efektu głównego zmiennej C Test efektu interakcji R x C sl <72 + efekt zmiennej R = s2 Fkiyt, to odrzucamy HQ. Jeżeli Fotrz < Fkryt, to brak podstaw do odrzucenia Ho. Przeprowadzona wcześniej jednoczynnikowa analiza wariancji w badaniu LEARN nie pozwo- liła sprawdzić, czy osoby o niskiej samoocenie zareagowały inaczej na manipulację strachem niż osoby o wysokiej samoocenie. Aby to uczynić, musimy zastosować dwuczynnikowa ana- lizę wariancji. Możemy teraz jednocześnie sprawdzić wpływ zdychotomizowanej zmiennej samoocena SAM2 i GRUPA na wyniki w teście. msmm Określenie zmiennych i ich skal pomiarowych, sfor- mułowanie założeń i hipotez:__________ Zmienne niezależne: czynnik C - GRUPA: POZIOM STRESU (zmienna nominalna - 3 wartości) czynnik R — SAMOOCENA (zmienna nominalna - 2 wartości) Zmienna zależna: WYNIKI w sprawdzianie intuicji psychologicznej (zmienna ilościowa) Założenia. Zmienna zależna ma rozkład normalny w podpopulacjach wyznaczonych przez pozio- my zmiennych zależnych. Wariancje zmiennej zależnej w podpopulacjach wyznaczonych przez poziomy zmiennych niezależnych nie różniąsię istotnie (homogeniczność wariancji). Losowy przydział do grup. Hipotezy: W dwuczynnikowej analizie wariancji mamy trzy hipotezy zerowe. 1a. Poziom stresu nie wpływa na wyniki w sprawdzianie, co oznacza brak efektu głów- nego czynnika C. 1b. Samoocena nie wpływa na wyniki w sprawdzianie, co oznacza brak efektu główne- go czynnika R. 1c. Brak efektu interakcji czynników R (reaktywności) i C (poziomu stresu) na wyniki w teście. - MR2C1 = MR2C2 — MR2C3 - 228 Ho : ,UR1C1 - Mf»C2 - Oznaczenia: c- liczba poziomów zmiennej C (liczba kolumn) r- liczba poziomów zmiennej R (liczba wierszy) n - liczebność osób w jednej kratce danych N = nxrx c- liczebność próby Efekt interakcji Hipotezy badawcze formujemy przez zaprzeczenie hipotez zerowych. Pamiętajmy, że zaprzeczeniem równości wielu średnich jest stwierdzenie, że przynajmniej jedna śred- nia różni się od pozostałych, a nie że wszystkie różnią się między sobą. Hipotezy badawcze możemy sformułować następująco: 1a) Efekt główny czynnika Cjest istotny statystycznie. Poziom stresu istotnie wpływa na wyniki w teście. 1b) Efekt główny czynnika R jest istotny statystycznie. Wyniki w teście istotnie zależą od samooceny badanego. 1c) Efekt interakcji czynników R i Cjest istotny statystycznie. Wpływ manipulacji pozio- mem stresu na wyniki w teście zależy od samooceny badanego. Hipotezy badawcze w analizie wariancji trudno jest zapisać za pomocą symboli, ponie- waż zaprzeczeniem Ho : ^ = /i2 = Hz jest zarówno stwierdzenie, że ^ = ju2* fe, jak i ju-\ * /j.2 - /U3. Hipoteza badawcza mówi, że co najmniej jedna grupa wyników pochodzi z populacji o średniej różnej od pozostałych. Wybór testu I ustalenie rozkładu statystyki: Chcemy badać jednoczesny wpływ dwóch zmiennych niezależnych (czynników-zmienna nominalna) na zmienną zależną (zmienna ilościowa), więc wybieramy dwuczynnikową analizę wariancji. Statystyka, którą wykorzystamy przy podejmowaniu decyzji względem każdej z hipotez zerowych ma rozkład F. Miiil Ustawienie reguły decyzyjnej: Odrzucimy odpowiednie hipotezy zerowe, jeżeli otrzymana wartość statystyki F znajdzie się w obszarze krytycznym, czyli p{F> Fotrz) < 0,05. KROK 4 Sprawdzenie wartości statystyk i odpowiednich prawdopodobieństw: Tabela 7.3. Analiza wariancji Źródło wariancji Suma kwadratów df Średni kwadrat F Istotność F TIME1 GRUPA SAM2 0,20 1,20 2 1 0,10 1,20 0,03 0,41 0,97 0,53 Interakcja GRUPA xSAM2 62,60 2 31,30 10,73 0,00 Reszta SSW 70,00 24 2,92 Ogółem 134,00 29 4,62 229 Rozdział 7. Dwuczynnikowa analiza wariancji 230 Przy pierwszym pomiarze (TIME1) • dla efektu głównego czynnika GRUPA (poziom stresu) - F(2,24) = 0,03; p > 0,05; • dla efektu głównego czynnika SAMOOCENA (wysoka/niska) - F(1,24) = 0,41; p > 0,05; • dla efektu interakcji czynników GRUPA i SAMOOCENA - F(2,24) = 10,73; p < 0,001. Podjęcie decyzji: Analizując wyniki pierwszego pomiaru, możemy odrzucić jedynie Ho zakładającą brak interakcji. Powiemy, że wpływ manipulacji stresem na wyniki w sprawdzianie istotnie zależał od samooceny badanego. SCHEMAT WNIOSKOWANIA Zmienne Zmienne niezależne: czynnik C- GRUPA: POZIOM STRESU (3 wartości - zmienna nominalna); czynnik R - SAMOOCENA (2 wartości - zmienna nominalna) Zmienna zależna -WYNIKI w sprawdzianie intuicji psychologicznej (zmienna ilościowa) Założenia Spełnione są założenia testu F. Hipotezy Ho: nc\ - Mc2 - Ma - M Poziom stresu nie wpływa na wyniki w sprawdzianie, co oznacza brak efektu głównego czynnika C. Ho '? fiR\ = Mr2 - M Samoocena nie wpływa na wyniki w sprawdzianie, co oznacza brak efektu głównego czynnika R. Hq : ^R1C1 = fJ-R\C2 = /4?1C3 = AR2C1 - MK2C2 = fJ-FZCS — H- Brak efektu interakcji czynników R (reaktywności) i C (poziomu stresu) na wyniki w teście. Wybór testu i rozkład statystyki Statystyka, którą wykorzystamy przy podejmowaniu decyzji względem każdej z hipotez zerowych ma rozkład F. Reguła decyzyjna Odrzucimy odpowiednie hipotezy zerowe, jeżeli otrzymana wartość statystyki F znajdzie się w obszarze krytycznym, czyli p(F> Fotrz)< 0,05. Wartość statystyki • dla efektu głównego czynnika GRUPA (poziom stresu): F(2,24) = 0,03; p > 0,05; • dla efektu głównego czynnika SAMOOCENA: F(1,24) = 0,41; p> 0,05; • dla efektu interakcji czynnika GRUPA (poziom stresu) i SAMOOCENA F(2,24) = 10,73; p < 0,001. Decyzja Możemy odrzucić jedynie Ho zakładającą brak interakcji. Wpływ manipulacji stresem na wyniki w sprawdzianie istotnie zależał od samooceny badanego. Stwierdziliśmy istotny wpływ interakcji czynników GRUPA x SAM2 na wyniki pierwszego sprawdzianu (TIME1). Pierwszym (ale nie ostatnim) krokiem do interpretacji tej inter- akcji byłoby sporządzenie wykresów średnich. Efekt interakcji 10 -Wsam -Nsam gr3 10 Rysunek 7.4. Wykres liniowy i słupkowy średnich zmiennej TIME1 w grupach Na podstawie analizy przeprowadzonej dla zmiennej zależnej TIME1 zweryfikuj hipotezy do- tyczące zmiennej TIME2. Sprawdź, czy osoby o niskiej samoocenie zareagowały inaczej na manipulację poziomem stresu niż osoby o wysokiej samoocenie. Wykonaj wykres średnich. SCHEMAT WNIOSKOWANIA Zmienne Założenia Spełnione są założenia testu F. Hipotezy Wybór testu i rozkład statystyki Reguła decyzyjna Wartość statystyki Decyzja Wykres średnich: GRUPA SAMOOCENA 1 (STRACH) 2 (RELAKS) 3 (KONTROLNA) NISKA 9,6 4,2 6,8 WYSOKA 6,2 3,8 5,4 -Wsam -Nsam Zmienna zależna: TIME2 gr2 gr3 231 Rozdział 7. Dwuczynnikowa analiza wariancji Tabela 7.4. Dwuczynnikowa analiza wariancji Źródło wariancji Suma kwadratów df Średni kwadrat F Istotność F TIME2 GRUPA SAM2 76,20 22,53 2 1 38,10 22,53 10,44 6,17 0,001 0,02 Interakcja GRUPA xSAM2 11,67 2 5,83 1,60 0,22 Reszta SSW 87,60 24 3,65 Ogółem 198,00 29 6,83 | Porównanie wyników jednoczynnikowej analizy wariancji z analizą dwuczynnikowa Przykład 7,5. Porównajmy teraz wynik dwuczynnikowej analizy zmiennej T1ME2 z analizą jednoczynniko- wą, gdy nie wprowadziliśmy do analizy zmiennej SAM2. Porównujemy SS. W obu analizach SSr = 198. W obu analizach czynnik GRUPA odpowiadał za wyjaśnienie tego samego pro- centu zmienności zmiennej zależnej (SS grupa = 76,2, co stanowi 38%). Przy jednoczynniko- wej analizie 62% zmienności pozostawało niewyjaśnione (SSREszta - 121,8). Wprowadzenie dodatkowego czynnika do analizy spowodowało zmniejszenie niewyjaśnionej zmienności zmiennej zależnej z 62% do 45%. Procentowy udział poszczególnych czynników w wyjaśnia- niu zmienności zmiennej zależnej przedstawiony jest na diagramach kołowych. Tabela 7.5. Jednoczynnikowa analiza wariancji zmiennej TIME2 Suma kwadratów df Średni kwadrat F Istotność F TIME2 Efekty główne GRUPA 76,20 2 38,10 8,45 0,001 Reszta 121,80 27 4,51 Ogółem 198,00 29 6,83 38% 62% 232 Rysunek 7.5. Analiza jednoczynnikowa 45% 6% 11% Rysunek 7.6. Analiza dwuczynnikowa Porównanie wyników jednoczynnikowej analizy wariancji z analizą dwuczynnikową Oblicz wartości estymatorów F dla poniższych rozkładów, tak jak pokazano w przykła- dzie A.1. Równe wariancje we wszystkich grupach 2 2 2 2 2 2 n = 5 Rozkład A.1 Ci Ci c3 19 12 20 19 18 14 17 17 19 15 17 M=17 4=10 Rozkład B.1 R2 C2 C3 19 20 12 19 18 14 17 17 19 19 13 4=10 5X2(2- 4=5x(32+32+32+32) = FRC = Rozkład A.2 C-i G2 c3 19 12 20 19 18 14 17 17 19 19 13 M=17 4=14 Rozkład B.2 R2 17 ^_____| 17 19 19 13 /W =17 4=14 19 20 12 19 18 14 FR = Fc = 233 Rozdział 7. Dwuczynnikowa analiza wariancji Przykład 7,6. Uzupełnij następującą tabelkę (w każdej komórce znajduje się 5 osób): Źródło wariancji Suma kwadratów (SS) df Średni kwadrat (s2) F Efekty główne R C SSR= 20 SSC=40 dfR=5 dfc=? s2c=20 FR=? Fc=? Interakcja RxC SSRC= ? df„c= 10 4=18 FRC=? Reszta SSW= 240 dfw=? Całość r=6 c=3 ;52 4X3 ,2 10 dfw = SSrc (rxc) (n- 1)-6x3x4 ;c=18xl0 = = 72 180 20x3 6 = 5,4 Fc ~ io " 18x3 10 s\ = 20 F(2,72) = 6 F(5,72) = 1,2 sl = 20 F(10,72) = 5,4 2 240 30 10 W 72 9 3 _ 180 10 = ,8 234 Porównanie wyników jedno czynników ej analizy wariancji z analizą dwuczynnikową Uzupełnij następującą tabelkę (w każdej komórce znajduje się 10 osób): Źródło wariancji Suma kwadratów (SS) df Średni kwadrat (s2) F Efekty główne R C SSR=20 SSC=40 dfR=5 dfc=1 FR=? Fc=? Interakcja RxC ssRC=-? dfRC=? FRC=? Reszta SSW= 240 dfw=? w 9 Całość Poniżej zaprezentowano wyniki pewnych badań w dwuczynnikowym schemacie analizy wa- riancji. A i B są zmiennymi niezależnymi, opisanymi na trzech poziomach. Zmienną zależną był poziom samokontroli mierzony odpowiednim kwestionariuszem. Zmienna B Zmienna A Poziom 1 (bulimia) Poziom 2 (depresja) Poziom 3 (anoreksja) Poziom 1 (leczenie farmakologiczne) 2547 3567 10867 Poziom 2 (terapia behawioralna) 3246 2654 8896 Poziom 3 (psychoanaliza) 4797 58107 69710 Wykorzystując SCHEMAT WNIOSKOWANIA i wydruk komputerowy, przetestuj 3 hipotezy zerowe: Tabela 7.6. Dwuczynnikową analiza wariancji Źródło wariancji Suma kwadratów df Średni kwadrat F Istotność F A 52,67 2 26,33 8,03 0,002 B 30,17 2 15,08 4,60 0,019 Interakcja A x B 11,67 4 2,92 r 0,89 0,483 Reszta 88,50 27 3,28 Ogółem 183,00 35 5,23 235 Rozdział 7. Dwuczynnikowa analiza wariancji SCHEMAT WNIOSKOWANIA Zmienne Zmienne niezależne: czynnik C - RODZAJ ZABURZENIA (3 wartości - zmienna nominalna) czynnik R - ZASTOSOWANE LECZENIE (3 wartości - zmienna nominalna) Zmienna zależna - WYNIK W TEŚCIE (zmienna ilościowa) Założenia Spełnione są założenia testu F. Hipotezy Ho: //ci = Mcz = Ma = M Rodzaj zaburzenia nie wpływa na wyniki w teście, co oznacza brak efektu głównego czynnika C. Ho: //Ri = jUr2 = Mr3= M Terapia nie wpływa na wyniki w teście, co oznacza brak efektu głównego czynnika R. Ho '? Mrici - Mric2 = /^ric3 = Mrac-i = Hricz = MR2C3 = U- Brak efektu interakcji czynników R i C na wyniki w teście. Wybór testu i rozkład statystyki Statystyka, którą wykorzystamy przy podejmowaniu decyzji względem każdej z hipotez zerowych ma rozkład F. Reguła decyzyjna Odrzucimy odpowiednie hipotezy zerowe, jeżeli otrzymana wartość statystyki F znajdzie się w obszarze krytycznym, czyli p(F > Foirz) < 0,05. Wartość statystyki dla efektu głównego czynnika A: F(2,27) = 8,03; p - 0,002; dla efektu głównego czynnika B: F(2,27) = 4,60; p = 0,019; dla efektu interakcji czynników A x 6: F(4,27) - 0,89; p = 0,483. Decyzja Możemy odrzucić obie hipotezy zerowe zakładające brak wpływu czynników głównych, natomiast stwierdzamy brak interakcji. Ćwiczenie 7.4. Badacz jest zainteresowany wpływem ilości wypitej kawy oraz czasu, kiedy była pita na liczbę godzin snu. 30 osób zostało losowo przydzielonych do grup eksperymentalnych. Badacz uzyskał następujące dane: Czas wypicia kawy Liczba wypitych filiżanek kawy 1 2 3 Rano 87869 98967 79898 Dwie godziny przed snem 67889 56667 54645 Przeprowadź testy 3 hipotez (a= 0,05) według SCHEMATU WNIOSKOWANIA, wykorzystu- jąc wydruk komputerowy. 236 Analiza wariancji z powtarzanymi pomiarami Tabela 7.7. Wydruk komputerowy (GODZINY SNU by LICZBA KAW by PORA DNIA) Źródło wariancji Suma kwadratów df Średni kwadrat F Istotność F Efekty główne LICZBA KAW PORA DNIA 6,20 22,53 2 1 3,10 22,53 3,00 21,87 0,069 0,000 Interakcja LICZBA KAW x PORA DNIA 14,47 2 7,23 7,00 0,004 Reszta 24,80 24 1,03 Całość 68,00 29 2,35 SCHEMAT WNIOSKOWANIA Zmienne Założenia Spełnione są założenia testu F. Hipotezy Wybór testu i rozkład statystyki Reguła decyzyjna Wartość statystyki Decyzja ! Analiza wariancji z powtarzanymi pomiarami Planując schemat badania, uzmysławiamy sobie, że mamy zazwyczaj do czynie- nia z dwoma typami zmiennych: (1) zmiennymi niemanipulowalnymi, których wartości są na stałe związane z da- ną osobą, np. jej PŁEĆ, WIEK, nazywanymi czasem zmiennymi naturalnymi [19] i (2) zmiennymi manipulowalnymi, których wartości dla danej osoby mogą być zmieniane - np. możemy za pomocą specjalnych oddziaływań usiłować zmienić PO- ZIOM MOTYWACJI badanego, a na pewno możemy ustalić, jakie zadanie będzie wykonywał, jeżeli TYP ZADANIA jest naszą zmienną niezależną. Niezależne zmienne niemanipulowalne bardzo ograniczają nasze możliwości wnioskowania. Ich „wpływ" możemy badać, porównując rozkłady zmiennej zależ- nej w grupach osób różniących się poziomami zmiennej niezależnej. W przypadku zmiennej niezależnej PŁEĆ porównujemy po prostu wyniki kobiet i mężczyzn, w przy- 237 Rozdział 7. Dwuczynnikowa analiza wariancji padku zmiennej WIEK możemy porównywać wyniki dwudziestolatków i sześćdzie- sięciolatków. Używanie określenia w opisie badań „wpływ wieku na postawy" jest życzenio- we, ponieważ tego typu badanie, mimo porównywania wyników dwóch grup, jest badaniem korelacyjnym. Nie wiemy więc, czy stwierdzone różnice są związane z wie- kiem biologicznym, czy też np. z różnymi warunkami socjalizacji. Aby to ocenić, trzeba byłoby porównać zmiany postawy dwudziestolatków w ostatnich dziesięcio- leciach. Bez względu na to, czy nam się to podoba, czy nie musimy badać zmienne, których modyfikować się nie da - także ze względów etycznych. j Zmienne manipulowalne stawiają nas przed dylematem wyboru, czy uczynić #: Je wewnątrz-, czy międzyosobowymi. Rozważmy przykład badania wpływu typu motywacji na odchudzanie. Na TYP MOTYWACJI będziemy wpływać za pomocą specjalnego treningu wizuali- zacyjnego. Zachęcanie będzie polegało na wyobrażaniu sobie pozytywnych skutków schudnięcia (podziw dla naszej nowej figury na plaży), straszenie - na wyobrażaniu sobie negatywnych konsekwencji zaniechania działania (złośliwe komentarze na pla- ży). Zmienna niezależna ma więc dwie wartości. Zmienną zależną może być pomiar spadku wagi w ciągu dwóch tygodni od tre- ningu wizualizacyjnego, choć należałoby także mierzyć zmianę zachowań związa- nych z jedzeniem. Musimy podjąć decyzję, czy podzielić naszą próbę losowo na połowy i zastoso- wać różne treningi w obu grupach (zmienna niezależna będzie wtedy czynnikiem międzyosobowym) czy też wszystkie osoby poddać kolejno obu treningom (czyniąc w ten sposób naszą zmienną niezależną czynnikiem wewnątrzosobowym). Rozważmy konsekwencje tej decyzji. Losowy podział na grupy zapewnia nam to, że powinny być one wyrównane pod względem średniego poziomu nadwagi, kłopotów z wprowadzeniem reżimu jedze- niowego itd. Może sięjednak okazać, że zróżnicowanie w ramach grupy jest tak duże (osoby ze znaczną nadwagą mogą mieć duże kłopoty z wyobrażeniem sobie podziwu dla ich figury), że zróżnicowanie między grupami za sprawą typu treningu będzie niewystarczające. Pamiętamy bowiem, że test F polega na porównaniu wariancji międzygrupowej do wariancji wewnątrzgrupowej. Kuszący wydaje się pomysł porównywania wpływu typu motywacji dla każdej osoby. Wtedy chudnięcie pod wpływem zachęcania jest porównywane z chudnię- ciem pod wpływem straszenia dla każdej osoby oddzielnie. Ogólne zróżnicowanie wyników (SStotai) dzielimy na zróżnicowanie między oso- bami (SSmiędzy) i zróżnicowanie wewnątrz osób (SSwewnątrz), które z kolei jest dzielo- ne na to, które da się wyjaśnić naszą zmienną niezależną i resztę, której wyjaśnić się nie da. Test istotności polega na porównaniu oszacowań tych dwóch wariancji. W schemacie ze zmienną wewnątrzosobowąróżnice indywidualne nie wpływają na wynik testu istotności czynnika, czyli jest to dla nas wymarzona sytuacja. 238 Analiza wariancji z powtarzanymi pomiarami Tabela 7.8. Podział zróżnicowania w analizie wariancji B - zmienna niezależna międzyosobowa B - zmienna niezależna wewnątrzosobowa Podział zróżnicowania ssT=ssB + ssw oog "~ ^^między grupami &&w'~ ^^wewnątrz grup 0S7 = SSmjędzy osobami + 00vvewnąfrz osób SSwewnąfrz osob = SSb + SSreszfa TestF sw reszta Problem jednak tkwi w pamięci osób badanych, która powoduje, że wpływ za- chęcania może być inny, gdy osoba poprzednio była straszona niż wtedy, gdyby było to pierwsze oddziaływanie. Może się to przejawiać w uwrażliwieniu badanych na problem wagi, zmęczeniu wizualizacją lub wręcz przeciwnie, we wzroście umiejęt- ności tworzenia obrazówr mentalnych itp. Niezbędne w takim przypadku jest rotowa- nie kolejności treningów, czyli losowy podział próby na dwie grupy. Grupa pierwsza byłaby najpierw zachęcana, a po dwóch tygodniach straszona, druga odwrotnie. W ta- kim schemacie mamy dwie zmienne niezależne: TYP MOTYWACJI (czynnik we- wnątrzosobowy) i KOLEJNOŚĆ (czynnik międzyosobowy). Powiemy, że przepro- wadziliśmy dwuczynnikową analizę wariancji z powtarzanym pomiarem na czyn- niku TYP MOTYWACJI. Wtedy możemy odpowiedzieć na trzy pytania: 1) Czy motywowanie jest bardziej skuteczne niż straszenie? (pytanie o efekt głów- ny czynnika TYP MOTYWACJI) 2) Czy pierwszy trening wizualizacyjny jest bardziej skuteczny niż drugi? (pyta- nie o efekt główny KOLEJNOŚCI) 3) Która z kolejności: „najpierw straszenie, potem zachęcanie" czy „najpierw zachęcanie, potem straszenie" jest lepsza? (pytanie o efekt interakcji czynni- ków TYP MOTYWACJI i KOLEJNOŚĆ) Powtórzmy: Czynniki w analizie wariancji z powtarzanymi pomiarami (ang. repeated measu- res) dzielimy na: 1) międzyosobowe {between subjects) 2) wewnątrzosobowe (within subjects) Te pierwsze oznaczająpodział osób badanych na osobne grupy, te drugie dotyczą zazwyczaj pomiarów dokonywanych na tych samych osobach. Jest to podział analo- giczny do podziału na grupy (dane) niezależne i zależne, z którym zetknęliśmy się przy omawianiu testu t Studenta. 239 Rozdział 7. Dwuczynnikowa analiza wariancji W badaniu LEAKN możemy zadać pytanie o wpływ zmiennych niezależnych na wyniki w teście intuicji psychologicznej zaraz po przeprowadzeniu manipulacji (zmien- na zależna TIME1) i po dwóch dniach (zmienna zależna TIME2). W tym przypadku możemy uznać, że mamy dwa pomiary jednej zmiennej zależnej INTUICJA PSYCHO- LOGICZNA. Do analizy wprowadzamy czynnik wewnątrzosobowy: TIME, który ma dwie wartości (pomiarl, pomiar2). Każda osoba ma dwa wyniki zmiennej zależnej IN- TUICJA PSYCHOLOGICZNA. Mamy dwa czynniki międzyosobowe (SAM2 i GRU- PA) oraz jeden czynnik wewnątrzosobowy (TIME) i 7 hipotez do przetestowania. To, co do tej pory testowaliśmy w dwóch osobnych analizach zostanie zawarte w jednej. Porównajmy wyniki. Osobne analizy zmiennych TIME1 i TIME2 pokaza- ły istotny efekt interakcji czynników w przypadku TIME1 i dwa efekty główne w przy- padku TIME2. Jednoczesna analiza obu zmiennych dała dużo więcej istotnych wyników przed- stawionych w tabelach 7.9 i 7.10, których nie odkrylibyśmy, gdybyśmy analizowali wyniki obu pomiarów osobno. Sposoby testowania założeń analizy wariancji z po- wtarzanymi pomiarami są opisane w [6], Tabela 7.9. Testy efektów międzyosobowych Źródło zmienności Sumy kwadratów (SS) df Średni kwadrat (s2) F Istotność F SAM2 17,07 1 17,07 3,47 0,075 GRUPA 40,30 2 20,15 4,10 0,029 SAWI2 x GRUPA 62,63 2 31,32 6,37 0,006 Reszta 118,00 24 4,92 Tabela 7.10. Testy kontrastów wewnątrzosobowych Źródło zmienności Sumy kwadratów (SS) df Średni kwadrat (s2) F Istotność F TIME 0,00 1 0,00 0,00 1,000 TIME x SAM2 6,67 1 6,67 4,04 0,056 TIME x GRUPA 36,10 2 18,05 10,94 0,000 TIME x SAM2 x GRUPA 11,63 2 5,82 3,53 0,045 Reszta (TIME) 39,60 24 1,65 Interpretacją wyników zaczynamy zawsze od interakcji. Nie ma sensu twierdzić, że czas pomiaru nie miał wpływu na wyniki (stwierdziliśmy brak istotnego efektu! głównego TIME), skoro wykryliśmy 3 istotne interakcje z czasem pomiaru, w tymi 240 istotną interakcją wszystkich trzech czynników. Wydruk opisalibyśmy następująco: I Analiza wariancji z powtarzanymi pomiarami . W badaniu stwierdzono istotny wpływ manipulacji w zależności od czasu po- miaru i samooceny badanych (F = 3,53; p = 0,045). Interakcja czasu pomiaru i gru- py była istotna statystycznie (F = 10,94; p < 0,001). Natomiast interakcja czasu pomiaru i samooceny (F = 4,04; p = 0,056) była istotna na poziomie tendencji staty- stycznej. Stwierdzono także istotny efekt główny manipulacji (czynnik GRUPA: F = 4,1; p = 0,029) i interakcji samooceny z manipulacją (F = 6,37; p = 0,006): Jest to doskonały przykład ilustrujący fakt, że test analizy wariancji jest te- stem ogólnym i wymaga dalszych dociekań. Z jednoczynnikowych analiz wa- riancji wiemy, że manipulacja nie miała istotnego wpływu przy pierwszym pomia- rze. Dlatego po wykonaniu testu ogólnego konieczna jest analiza średnich i prze- prowadzenie dodatkowych porównań w postaci testów post hoc lub wcześniej za- planowanych kontrastów. 1 Wysoka i Niska Rysunek 7.7. Wpływ samooceny (wysoka vs niska), GRUPY (strach vs relaks vs kontrolna) i czasu pomiaru (T1, T2) na poziom INTUICJI PSYCHOLOGICZNEJ 241 Zapisz definicje kluczowych pojęć wprowadzonych w tym rozdziale oraz nowe symbole Rozdział 8 Pomiar związku między zmiennymi ilościowymi: współczynnik korelacji liniowej i analiza regresji Pojęcia kluczowe: korelacja liniowa; regresja liniowa; współczynniki regresji i standaryzowane współczynniki regresji; współczynnik determinacji; regresja wielokrotna; zmienne kontrastowe (instrumentalne); reszty regresji; korelacja cząstkowa Nowe symbole: r, /?, a, b. 242 mif Związek liniowy między zmiennymi ilościowymi. Wykres korelacyjny (rozrzutu) Dokonując w badaniu LEARN dychotomizacji zmiennej SAMOOCENA, straci- liśmy dużo informacji. Osoby, które otrzymały średni wynik 1,3 i 2,8 były w naszych analizach nierozróżnialne, ponieważ należały do tej samej grupy z niską samooceną. W jaki sposób możemy policzyć związek między samooceną (niezdychotomizo- waną) a wynikami w teście? Wszyscy wiedzą, że najbardziej popularną miarą opisu- jącą związek dwóch zmiennych ciągłych jest współczynnik korelacji. Mierzy on (po podniesieniu do kwadratu) stopień dopasowania rozrzutu wartości dwóch zmien- nych do linii prostej (linii regresji). Współczynnik korelacji liniowej pozwala na określenie wielkości i kierunku za- leżności między zmiennymi. Z sytuacją badania związku pomiędzy zmiennymi ilo- ściowymi mamy do czynienia wtedy, gdy np. mierzymy motywację do pracy re- Związek liniowy między zmiennymi ilościowymi. Wykres korelacyjny (rozrzutu) spondentów i ich zarobki i chcemy określić siłę tego związku, a mówiąc inaczej - siłę wzajemnej współzmienności. Chcemy odpowiedzieć napytanie o to, czy w ogóle istnieje istotny związek pomiędzy motywacją a zarobkami oraz jaki ma on charak- ter (dodatni / ujemny) i jaka jest jego siła. Nie będziemy jednak mogli rozstrzygnąć kierunku wpływu (tego, czy motywacja wpływa na zarobki, czy też zarobki na motywację). Rozkład łączny dwóch zmiennych przedstawiamy w postaci wykresu korelacyj- nego (nazywanego też wykresem rozrzutu), w którym na osi X są podane wartości zmiennej X, na osi Y wartości zmiennej Y. I Narysuj wykresy korelacyjne (rozrzutu) następujących danych: X - liczba randek w ostatnim tygodniu Y-satysfakcja zżycia na skali 1 ..2..3.A.5. Każda para wyników - liczba randek i satysfakcja jest przedstawiona jako punkt na płaszczyźnie. Do każdego rysunku spróbuj dopasować prostą i określ charakter związku: • liniowy vs krzywoliniowy; • dodatni vs ujemny. a) Przebadano grupę nastoletnich chłopców i uzyskano na- stępujące rezultaty: X:1 2 3 4 6 7 Y: 1 2 3 4 4 5 5. Związek można określić jako dodatni i liniowy. Punkty ukła- dająsię wzdłuż linii prostej, która wznosi się w wiarę odda- Vsm\a od punktu początkowego układu współrzędnych. b) W grupie dwudziestolatków obu płci otrzymano następu- jące wyniki: X:1 1 2 2 3 3 4 5 6 7 Y: 1 2 1 3 3 4 4 3 2 1. Związek można określić jako krzywoliniowy - brak związku liniowego. 243 Rozdział 8. Pomiar związku między zmiennymi ilościowymi: współczynnik korelacji liniowej. c) W grupie osób trzydziestoletnich wyniki były następujące: X: 1 2 3 3 3 4 4 4 5 5 6 Y: 4 3 2 3 4 1 2 3 2 1 1. Związek można określić jako ujemny i liniowy. Punkty bar- dziej rozproszone, ale nadal wzdłuż linii prostej, jednak tym razem widzimy, że linia „opada". d) W grupie osób sześćdziesięcioletnich zaobserwowano następujące rezultaty: X: 1 1 1 2 2 2 3 3 3 4 5 5 Y: 1 2 3 1 2 4 1 3 5 2 1 3. Rozproszenie wyników sugeruje brak związku między licz- bą randek a satysfakcją z życia. ",*? Bazując na informacjach zawartych w przykładzie 8.1, wykonaj podobne rysunki dla pomia- rów dokonanych na innych grupach. Do każdego rysunku spróbuj dopasować prostą i określ charakter związku: liniowy vs krzywoliniowy/dodatni vs ujemny. 6 5 4 3 2 1 0 a) Wynik nastoletnich dziewcząt: X: 1 1 2 2 3 A A 5 6 7 Y: 1 2 2 3 3 4 5 2 1 1 b) Wyniki trzydziestoletnich mężczyzn: X: 1 2 2 3 4 4 5 Y: 2 2 3 3 3 4 4 0 12 3 4 5 6 7 244 012345678 Przewidywanie wyników zmiennej zależnej na podstawie wartości zmiennej niezależnej... | Przewidywanie wyników zmiennej zależnej na podstawie wartości zmiennej niezależnej. Błąd predykcji Zastanówmy się, czy istnieje związek między wynikami w teście 1 i teście 2 (TIMEl, TIME2 w badaniu LEARN). Wykres korelacyjny (rozrzutu) przedstawia się następująco. Każda osoba biorąca udział w badaniu została oznaczona przez mały kwadracik o współrzędnychX= TIMEl 7= TIME2. Widzimy, że tym samym warto- ściom Podpowiadają różne wartości Y. Związek między Xa Y, o ile istnieje, ma cha- rakter statystyczny, jak wszystkie związki w badaniach społecznych. Ze związkiem funkcyjnym (funkcją) mamy do czynienia, gdy jednej wartości X odpowiada dokładnie jedna wartość Y (np. wielkość dywanu do kwadratowego po- koju jest jednoznacznie wyznaczona przez jego szerokość). W badaniach społecznych osoby, które otrzymująte same wyniki w teście 1 mogą otrzymywać różne wyniki w teście 2, co oznacza, że związek ma charakter staty- styczny. Nie oznacza to, że rezygnujemy z próby opisania tej zależności przez zwią- zek funkcyjny i przewidywania jednej (takiej samej) wartości wyniku w teście 2 dla wszystkich, którzy osiągnęli dany wynik w teście 1. Możemy sprawdzać różne predykcje wyniku w teście 2, np. zgadując, że wynik ten powinien być lepszy od wyniku w teście 1: o 5 punktów: Y = T IME1 + 5 lub o 1 punkt: Y = TIMEl + 1 Dla każdej osoby wyliczamy wartość Y. Wartości przewidywane zostały na wy- kresie rozrzutu oznaczone przez czarne kółka, o pierwszej współrzędnej równej TIMEl i drogiej współrzędnej równej Y. Zauważmy, że dla każdej wartości Jfjest dokładnie jedna wartość Y i że układają się one wzdłuż linii prostej. T1ME2 D ? ? • D ? D ? D Q ? ? ? ? ? ? D ? ? • D D • • D • ? ? ? ? »wartości przewidywane j wartości otrzymane w badaniach 10 TIME1 Rysunek 8.1. Wykres rozrzutu wraz z punktami wartości przewidywanych Równanie linii prostej można zapisać w postaci ogólnej Y= bX+ a. W naszym równaniu T = TIMEl + 1 (b = 1, a = 1). 245 Rozdział 8. Pomiar związku między zmiennymi ilościowymi: współczynnik korelacji liniowej... Równanie prostej Y' = bX+a zawiera dwa parametry, gdzie a wskazuje na miej- sce przecięcia z osiąOY, natomiast b informuje nas o kącie nachylenia prostej wzglę- dem osi OX. • Jeżeli b = 0, to prosta jest równoległa do OX (oznacza to, że dla każdej osoby przewidujemy tę samą wartość równą a niezależnie od jej wyniku w TIME1). • Jeżeli b < 0, to wiemy, że wraz ze wzrostemX maleje 7(związek jest ujemny). • Jeżeli b > 0, to wiemy, że wraz ze wzrostem Xrośnie 7(związek jest dodatni). Znając b, możemy mówić o kierunku zależności między zmiennymi. Prostą Y' = bX+a nazywamy prostąregresji, zaś a i b - współczynnikami regresji. Jak mówiliśmy wcześniej, możemy rozważać różne proste, różne predykcje dla TIME2. Jak wybrać najlepszą? Dobrą miarą dobroci predykcji może być błąd pre- dykcji, mówiący nam, ile się pomyliliśmy, czyli jak bardzo rzeczywiste wartości Y (TIME2) różnią się od wartości przewidywanych. BŁĄD = TIME2 - Y'. Dla pewnych osób błąd będzie dodatni (gdy otrzymały wynik wyższy od przewi- dywanego), dla innych - ujemny (gdy otrzymały wynik niższy od przewidywanego). Ponieważ nie interesuje nas znak błędu, dobrym pomysłem jest podniesienie różnic do kwadratu i zsumowanie ich po osobach. W tabeli 8.1 przedstawione są wyniki osób z grupy STRACH z badania LEARN i trzy przewidywane wartości: t2_pl = TIME1 + 5 (b = 1, a = 5) t2_p2 = TIME1 + 1 (b = 1, a = 1) t2_p3 = TIME1 + 0,5 (b = 1, a = 0,5). Tabela 8.1. Wyniki otrzymane i wartości przewidywane dla grupy STRACH 246 Nr TINIE1 TIME2 t2_p1 błądl t2_p2 błąd2 t2_p3 błąd3 1 4 6 9 9 0 1 4,5 2,25 2 8 10 13 ? 9 1 8,5 2,25 3 3 5 3,5 2,25 4 9 10 i 9,5 0,25 5 8 10 13 9 9 1 8,5 2,25 6 4 6 9 9 5 1 4,5 2,25 7 6 8 11 9 7 1 6,5 2,25 8 5 7 5,5 2,25 9 8 10 8,5 2,25 10 5 7 10 9 6 1 5,5 2,25 suma = 97 suma = 9 suma = 20,50 Przewidywanie wyników zmiennej zależnej na podstawie wartości zmiennej niezależnej. Dla każdej z predykcji został wyliczony jej błąd, podniesiony do kwadratu, a na- stępnie zsumowany po wszystkich osobach. błądl = 1(7- Y'f = ?(TIME2 - t2_pl)2 = 97 błąd2 = 1(7- T)2 = Z(TIME2 - t2_p2)2 = 9 błąd3 = 1(7- Yf = Z(TIME2 - t2_j>3)2 = 20,50 Widzimy, że predykcja 7' = TIME1 + 1 wiąże się z najmniejszym błędem. Dzięki pakietom statystycznym to komputer szuka takich wartości a i b, aby błąd był naj- mniejszy. Nie musimy więc zgadywać, jakie wartości należy podstawić pod a i b, aby znaleźć najlepszą predykcję. Zostało udowodnione, że dla każdego wykresu korelacyjnego możemy jedno- znacznie wyznaczyć linię prostą, która daje minimalny błąd. W badaniu LEARN ta najlepsza prosta ma równanie 7' = 0,54 x TIME1 + 2,78. Metoda najmniejszych kwadratów oznacza wyznaczanie w równaniu regresji Y' = bX + a takich współczynników a i b, dla których Z(Y' - Yf jest najmniejsza. Załóżmy, że równanie regresji służące do przewidywania wyniku egzaminu z psychometrii, na podstawie wyniku egzaminu ze statystyki, można zapisać w postaci Y - 0,8X- 4,6. Oblicz przewidywane wyniki egzaminu z psychometrii dla osób, które uzyskały następujące wyniki na egzaminie ze statystyki: a) Rafał-70, b) Zenek-80, c) Stefan - 60. Odp. a) YRafa,= 0,8 x 70 - 4,6 = 57 Na podstawie danych z przykładu oblicz przewidywane oceny Zenka i Stefana. Określ, który z nich prawdopodobnie zda egzamin z psychometrii, jeżeli wiadomo, że aby zdać, należy uzyskać 45 punktów. b) Yzenek= C) V'Stefan ~ Standaryzowane współczynniki regresji W badaniu LEARN obie zmienne (TIME1 i TIME2) były mierzone na tej samej skali. Jeżeli jednak chcemy przewidywać motywację respondentów do pracy na pod- 247 Rozdział 8. Pomiar związku między zmiennymi ilościowymi: współczynnik korelacji liniowej... stawie ich zarobków, to możemy mieć kłopot, gdyż obie zmienne mająróżne jednost- ki. Dlatego dobrym pomysłem jest wystandaryzowanie ich. Przykład zawiera wyniki surowe: cena [zł] i waga [kg] sześciu porcji jabłek oraz te same wyniki po wystandaryzowaniu: Tabela 8.2. Porównanie związku między wynikami surowymi i wystandaryzowanymi Porcja Waga [kg] X Koszt [zł] V zY A 1,02 0,75 -1,34 -1,34 B 1,36 1,00 -0,80 -0,80 C 1,70 1,25 -0,27 -0,27 D 2,04 1,50 0,27 0,27 E 2,38 1,75 0,80 0,80 F 2,72 2,00 1,34 1,34 Współzmienność zmiennych przedstawiamy na wykresie korelacyjnym. CENA Rysunek 8.2. Wykres korelacyjny wyników surowych i standaryzowanych Jest to przykład zależności linowej. Gdy zmienne są wystandaryzowane (rysunek 8.2 po prawej) linia prosta przechodzi przez początek układu współrzędnych, czyli punkt (0,0), więc a = 0. Równanie regresji dla zmiennych wystandaryzowanych ma postać ZY = $ZX. j3 nazywana jest standaryzowanym współczynnikiem regresji. Standaryzowane współczynniki (wagi) regresji J3= 0,2 oznacza, że wzrost wartości X o jedno odchylenie standardowe jest równo- znaczny ze wzrostem wartości Y o 0,2 odchylenia standardowego. J3= -0,5 oznacza, że wzrost wartości Jo jedno odchylenie standardowe jest równo- 248 znaczny ze spadkiem wartości Y o 0,5 odchylenia standardowego. Przewidywanie wyników zmiennej zależnej na podstawie wartości zmiennej niezależnej... W badaniu LEARN /?= 0,442, co oznacza, że równanie Y' = 0,54 x TIME1 + 2,78 możemy zapisać w postaci zY = 0,442zx , dlaX= TIME1. Znajomość równania regresji pozwala na przewidywanie wyników. Czy jednak „najlepsza prosta" jest dobra? Stwierdzenie, że najlepsza prosta nie musi być wca- le dobra, ilustruje znany dowcip, w którym synek wręcza tatusiowi świadectwo, mó- wiąc: „Biorąc pod uwagę obciążenia genetyczne, jest to NAJLEPSZE świadectwo, jakie mogłem otrzymać". Podobnie jest z prostą regresji, która zostanie wyliczona dla każdych danych - nawet takich, które w żadnym stopniu nie wskazują na związek liniowy. Potrzebna jest miara, która określi, jak dobrze linia prosta opisuje nasz zbiór danych. Tą miarą jest współczynnik korelacji. Przewidywanie wyników egzaminu wstępnego (F) na podstawie wyników w teście kompetencji Co powinniśmy zrobić, jeżeli musimy przewidywać wyniki studentów na egza- minie wstępnym, nie mając żadnych dodatkowych informacji, a do tego jesteśmy karani finansowo za nietrafne predykcje? Jeżeli nie chcemy stracić, to najbezpiecz- niej byłoby dla każdego studenta przewidzieć... wynik średni z poprzedniego roku, ponieważ, jak pamiętamy, z własności średniej wynika, że Z(7- My)2 = minimum. Jeżeli nie ma związku między wynikami w teście kompetencji a wynikami na egzaminie wstępnym, to najlepszym predyktorem pojedynczego wyniku z egzaminu będzie wynik średni z egzaminu, czyli My = 50. —— —-—»_, W analizie wariancji zmienne niezależne nazywane są czynnikami. W analizie regresji zmienne niezależne nazywane są predyktorami. Jeżeli Jan otrzymał Yj = 90 punktów z egzaminu wstępnego, to nasz błąd predyk- j wyniesie: Błądl = [(Wynik Jana) - (średnia My)] = 90 - 50 = Yj - My = 40. Jeżeli jednak coś wiemy o studentach, których wyniki przewidujemy, np. znamy \ ich wyniki w teście kompetencji i mamy wyniki obu zmiennych dużej grupy studen- tów, np. z poprzedniego roku, to możemy sporządzić wykres korelacyjny (rozrzutu) I i spróbować dopasować do tych wyników linię prostą, która pozwoli nam wyliczyć i równanie regresji. Na jego podstawie z kolei będziemy mogli przewidzieć wynik, 249 Rozdział 8. Pomiar związku między zmiennymi ilościowymi: współczynnik korelacji liniowej... jaki na egzaminie wstępnym (7') osiągnie student, który otrzymał X punktów w te- ście kompetencji. Możemy szukać najlepszej prostej, która pasuje do tych punktów. Taka prosta nazywa się prostą regresji. Wykres rozrzutu (X,Y) Linia regresji: V = 0.72X + 14.70 100 Dane: wynik Jana (\)_____ Rf) • N 70 60 Przewidywania: wynik Jana (Y') __------ W T 50 40 30 ^^ • • 20 ^^ • 10 n Wyniki: X Y 20 20 30 50 45 35 60 60 78 45 88 90 0 10 20 30 40 50 60 70 80 90 100 110 120 130 140 wynik testu kompetencji (X) Rysunek 8.3. Linia regresji Y = 0,72X + 14,70 - równanie linii regresji a = 0,72 - współczynnik kierunkowy (nachyle- Y - wyniki egzaminu przewidywane na pod- nia) linii regresji [slope] stawie testu kompetencji b = 14,70 -wyraz wolny (punkt przecięcia z osią X- wynik testu kompetencji wyników egzaminu wstępnego) [stała] Jeżeli równanie prostej miało postać Y' = 0,72X + 14,70, to znając wynik w te- ście kompetencji Jana (X= 88), możemy wyliczyć przewidywany wynik Jana na egzaminie wstępnym: Y' = 0J2X+ 14,70 (X= 88). Nasz błąd predykcji wyniesie wtedy: Bląd2 = [(Wynik Jana) - (przewidywany wynik Jana na podstawie X)] = (Y-Y') = 90-78,06=11,94. Porównanie błędu predykcji na podstawie średniej (blądl = 40) i na podstawie linii regresji (błąd2 =11,94) pokazuje, że wykorzystanie wyniku w teście kompeten- cji zmniejszyło nasz błąd predykcji. To porównanie jest podstawą oceny jakości do- pasowania linii regresji do danych. Oczywiście potrzebujemy danych zsumowanych po wszystkich studentach. 250 Przewidywanie wyników zmiennej zależnej na podstawie wartości zmiennej niezależnej. M \ Błąd predykcji Różnica między przewidywaniem zakładającym związek między zmiennymi (V), a przewidywaniem zakładającym brak związku między zmiennymi. Zmienność błędów predykcji. Jest podstawą do określenia wariancji niewyjaśnionej (błędu) Zmienność Y wyjaśniona przez związek z X Jest podstawą do określenia wariancji wyjaśnionej Rysunek 8.4. Podział zmienności Jako miarę siły związku między Xi F możemy wykorzystać stosunek zmienności wyjaśnionej do zmienności całkowitej nazywany współczynnikiem determinacji. Informuje nas on o proporcji zmienności Y wyjaśnianej przez zmienność X: r — Na przykład jeżeli zmienna A koreluje z B na poziomie 0,3, to znaczy, że r2 = (0,3)2 = 0,09, a to oznacza, że 9% zmienności zmiennej A możemy wyjaśnić przez zmien- ność zmiennej B pod warunkiem, że możemy założyć związek przyczynowo-skutko- wy. W innym przypadku powiemy, że zmienne A i B mają 9% wspólnej zmienności. Pierwiastek z powyższego wyrażenia z odpowiednim znakiem to współczynnik ko- relacji liniowej obu zmiennych: , -Mrf Współczynnik determinacji r2 może być interpretowany jako roporcja zmienności całkowitej Y „wyjaśniana" przez zmienność X. 251 Rozdział 8. Pomiar związku między zmiennymi ilościowymi: współczynnik korelacji liniowej... Istnieje także zależność między współczynnikiem korelacji r a współczynnikiem nachylenia linii regresji b: Wyraz wolny linii regresji wynosi: Cly = My ~ byMx- Warto zauważyć, że /? = r, ale tylko w przypadku zależności między dwiema zmiennymi. Współczynnik korelacji można zdefiniować także, odwołując się do miary współzmienności dwóch zmiennych. Najprostszym sposobem pomiaru związku pomiędzy zmiennymi ilościowymi jest określenie ich współzmienności wyrażonej wzorem: SSXY=IiX~Mx)(Y-Mr). gdzie X, Y są wartościami zmiennych, a Mx i My odpowiednio ich średnimi. Kiedy podzielimy współzmienność przez odpowiadającą im liczbę stopni swo- body, co w naszym przypadku oznacza liczebność próby minus jeden (oczywiste jest, że oba pomiary X i Y dotyczą tej samej próby), otrzymamy wzór na kowariancję: COV ™ =-----— SS, N-l Powyższa miara nie nadaje się do porównywania siły dwóch różnych związ- ków, ponieważ uzależniona jest od jednostek skali, na których opisane są zmienne. Użycie tej miary np. do porównywania siły związku motywacji i zarobków oraz zarobków i samooceny pozycji społecznej jest nieuprawnione ze względu na różne jednostki skali tych zmiennych. Możemy uniknąć uzależnienia od jednostek skali, jeżeli będziemy stosować zmienne w postaci standaryzowanej, przekształcone w z. W ten sposób wprowadzamy wzór na współczynnik korelacji liniowej r Pearso- na. Jest on miarą współzmienności dwóch zmiennych Xi 7 wyrażonych w postaci standaryzowanej. X-Mx Gdy: zx =---------*- i zv =? X -Af, , wtedy współczynnik korelacji ma postać: 252 _ Testowanie istotności współczynnika korelacji Wartość współczynnika korelacji r zawiera się w granicach <-1; 1>. gdzie 1 lub —1 oznacza maksymalną siłę liniowego związku pomiędzy zmiennymi, i oznacza brak liniowego związku pomiędzy badanymi zmiennymi^ \ ??: i |Testowanie istotności współczynnika korelacji Współczynnik korelacji jest statystyką opisującą siłę i kierunek liniowej zależ- ności dwóch zmiennych w próbie. Ale my chcemy wnioskować na temat całej popu- lacji, a nie próby. Zaczynamy od założenia hipotezy zerowej, że wartość współczynnika korelacji jest równa zero: Ho: /? = 0 Hi:p*0(p- czytaj [ro]). Test istotności współczynnika korelacji wymaga policzenia statystyki t według wzoru: t = r. która ma rozkład t Studenta dla df=N— 2, gdzie N- liczba par pomiarów. '"i • ' Współczynnik korelacji między liczbą randek w ostatnim tygodniu a satysfakcją z życia wynosi : 0,493 (N = 16 par pomiarów). Podejmij decyzję wobec Ho: p = 0, stosując SCHEMAT NIOSKOWANIA. Jeżeli taką samą korelację r= 0,493 otrzymalibyśmy dla N = 160 par pomiarów (df = 158), to czy w takim przypadku łatwiej czy trudniej byłoby odrzucić hipotezę zerową o braku istotnej różnicy współczynnika korelacji w populacji od zera? SCHEMAT WNIOSKOWANIA Określenie zmiennych i ich skal pomiarowych, sfor- mułowanie założeń i hipotez: X- LICZBA RANDEK (zmienna ilościowa) Y- SATYSFAKCJA Z ŻYCIA (zmienna ilościowa) 253 Rozdział 8. Pomiar związku między zmiennymi ilościowymi: współczynnik korelacji liniowej... Założenia: Wyliczanie linii regresji wymagało jedynie założenia o skali pomiarowej zmiennych (ilo- ściowe). Testowanie istotności wyliczonych statystyk (b, r) nakłada konieczność speł- nienia większej liczby założeń [por. 9], z których najważniejsze dotyczą liniowości związ- ku, normalności rozkładu reszt regresji i jednorodności wariancji w podpopulacjach wy- znaczonych przez wartości zmiennej niezależnej. Hipotezy: H0:p=0 H^ip^O KROK 2« Statystyka t - r KROK 3 Wybór testu i ustalenie rozkładu statystyki: ma rozkład t Studenta dla df - N - 2 - 14 stopni swobody. Ustalenie reguły decyzyjnej: Poziom istotności: a- 0,05 Wartość krytyczna: ^(14) = 2,145 Odrzucimy Ho, jeżeli t > 2,145 lub t < -2,145 Obliczanie wartości statystyki: W naszym przypadku wartość r podana jest w treści zadania i wynosi r = 0,493. t = = 0,493 = 0,493^18,42 = 0,493x4,29 = 2,11 Podjęcie decyzji: 2,11 < 2,145 więc nie możemy odrzucić Ho. Stwierdzamy, że r = 0,493 w próbie 16-ele- mentowej nie różni się istotnie od zera. 254 Testowanie istotności współczynnika korelacji Opierając się na danych z przykładu 8.3, podejmij decyzję wobec Ho: p= 0; zastosuj SCHE- MAT WNIOSKOWANIA dla N = 100 par pomiarów. SCHEMAT WNIOSKOWANIA Zmienne Założenia Spełnione są założenia testu f. Hipotezy Wybór testu Reguła decyzyjna Obliczenia Decyzja U :^M Przyjmij, że elipsy przedstawione na poniższych rysunkach reprezentują wykresy korelacyjne. Twoim zadaniem jest uporządkowanie rysunków ze względu na wartość współczynnika kore- lacji od najmniejszego do największego. (A) (B) (E) (F) Rysunek 8.5. Siła związku między zmiennymi 255 Rozdział 8. Pomiar związku między zmiennymi ilościowymi: współczynnik korelacji liniowej... Jeżeli mierzymy korelację inteligencji z ocenami szkolnymi i mamy dane tylko od dwóch osób, to jakie wartości może przyjąć współczynnik korelacji? Na podstawie analizy współczynnika korelacji możemy określić siłę związku (procent wspól- nej wariancji). Sprawdź istotność oraz procent wspólnej wariancji liczonych dla prób o różnej liczebności N na podstawie współczynników korelacji. r = 0,6 0,4 Istotność statystyczna Wspólna wariancja Istotność statystyczna Wspólna wariancja N = 27 a) t = 3,75 Wynik istotny 0,36 c) N = 102 b) t- 7,5 Wynik istotny 0,36 d) a) t = 0,6 = 0,6,/ V l062 l-0,62 5 = 0,6— = 3,75 0,8 b) 0,8 c) d) Na podstawie wydruku macierzy korelacji wypisz pary zmiennych, które są ze sobą istotnie związane. Uwaga: PŁEĆ jest zmienną nominalną, ale ze względu na to, że przyjmuje tylko dwie wartości, założenie o równości przedziałów jest zawsze spełnione i dlatego możemy ją traktować jak zmienną ilościową. 256 Problemy w interpretacji współczynnika korelacji Tabela 8.3. Korelacje parami dla próby N = 30 j T1NIE1 TIME2 Samo- ocena WIEK PŁEĆ TIME1 Korelacja Pearsona Istotność (dwustronna) 0,44 0,014 -0,10 0,584 -0,16 0,392 0,00 1,000 TIME2 Korelacja Pearsona Istotność (dwustronna) -0,34 0,065 -0,38 0,038 -0,18 0,336 SAMOOCENA Korelacja Pearsona Istotność (dwustronna) 0,22 0,242 0,13 0,486 WIEK Korelacja Pearsona Istotność (dwustronna) -0,03 0,866 liii Problemy w interpretacji współczynnika korelacji Na rysunku 8.6 przedstawiono wykresy korelacyjne czterech różnych grup wyni- ków, dla których współczynnik korelacji wyników jest taki sam i wynosi r = 0,816. We wszystkich przypadkach zmienne mają takie same średnie Mx = 9 My = 7,5, równanie regresji jest dokładnie takie samo. Y' = 3 + 0,5 x X. [a] Tylko dla tego zestawu danych wyniki są wiarygodne [c] Przypa- ?>- dek skrajny Ci (outlier) <=> 8 10 12 14 4 6 8 10 12 14 a- T- [b] Związek krzywoliniowy [d] Związek po- zorny, przypa- dek wpływowy {levemge) 4 6 8 18 12 14 5 10 15 Rysunek 8.6. Przykład danych Anscombe'a. 257 Rozdział 8. Pomiar związku między zmiennymi ilościowymi: współczynnik korelacji liniowej... Pierwszy i podstawowy wniosek: należy oglądać dane. Współczynnik korelacji liniowej służy do badania siły i kierunku związku liniowego między pomiarami, re- prezentowanego przez linię prostą. Zatem adekwatny jest tylko do danych typu [a] (rysunek 8.6). Gdy związek nie jest liniowy, możemy zastosować regresję krzywoli- niową, czyli zamiast linii prostej dopasowywać krzywą. Powszechnym błędem popełnianym przez badaczy jest stwierdzanie braku związku między zmiennymi, gdy współczynnik korelacji jest nieistotny. W takim wypadku możemy stwierdzić jedynie brak związku linowego. Innym problemem jest wrażliwość współczynnika korelacji na przypadki skrajne i ograniczenie zakresu zmienności zmiennej niezależnej [9]. Q3|Zastosowanie analizy regresji w badaniu LEARN. Modyfikujący wpływ trzeciej zmiennej (grupa eksperymentalna) na otrzymane zależności 258 Rysunek 8.7. Wykres korelacyjny (rozrzutu) wyników obu sprawdzianów w badaniu LEARN z linią regresji dla wszystkich badanych łącznie Przeanalizujmy wydruk analizy regresji wyników drugiego sprawdzianu (TIME2) z jednym predyktorem (TIMEl). Współczynnik korelacji zmiennych wynosi 0,44, współczynnik determinacji (R2) 0,20 (tabela 8.4). Test F porównuje wariancję zmiennej TIME2 wyjaśnioną przez TIMEl do wa- riancji niewyjaśnionej. Istotność F(p < 0,014) pozwala nam stwierdzić zasadność modelu (tabela 8.5). Z tabeli 8.6 możemy odczytać współczynnik regresji b = 0,54 i standaryzowany współczynnik regresji /?= 0,44. Tak jak stwierdziliśmy wcześniej, J3= r. Zależność ta nie jest jednak prawdziwa, gdy w równaniu jest więcej niż jeden predyktor. Dwie ostatnie kolumny tabeli 8.6 zawierają wartości testu t, który pozwala nam ocenić istotność danej wagi regresji. Zastosowanie analizy regresji w badaniu LEARN. Modyfikujący wpływ trzeciej zmiennej... a Predyktory: (Stała), TIMEl b Zmienna zależna: TIME2 Tabela 8 4. Model - podsumowanie Model R R-kwadrat Skorygowany R-kwadrat Błąd standardowy oszacowania 1 0,44 0,20 0,17 2,39 Tabela 8.5. Analiza wariancji Model Suma kwadratów df Średni kwadrat F Istotność 1 Regresja Reszta Ogółem 38,69 159,31 198,00 1 28 29 38,69 5,69 6,80 0,014 Tabela 8.6. Współczynniki Model Współczynniki niestandaryzowane Współczynniki standaryzowane Istotność b Błąd standardowy Beta 1 (Stała) TIME1 2,78 0,54 1,31 0,21 0,44 2,12 2,61 0,043 0,014 Wniosek: wyniki sprawdzianu pierwszego są istotnym (p < 0,05) predyktorem dla przewi- dywania wyników sprawdzianu drugiego. Współczynnik korelacji równy standaryzowanej wadze regresji (/S) wynosi 0,44 i jest istotnie różny od zera. Współczynnik determinacji (R2) wyniósł 0,20, co świad- czy o tym, że wyniki ze sprawdzianu TIMEl pozwalają wyjaśnić 20% zmienności wyników sprawdzianu TIME2. GRUPA » 3 ^-, Rysunek 8.8. Wykres korelacyjny (rozrzu- tu) wyników obu sprawdzianów w bada- niu LEARN z liniami regresji dla 3 grup 259 Rozdział 8. Pomiar związku między zmiennymi ilościowymi: współczynnik korelacji liniowej... Na wykresie korelacyjnym (rysunek 8.7) linia prosta wydaje się być dość dobrze dopasowana do danych, choć niepokoją punkty leżące blisko osi OX wskazujące na 4 osoby, które źle wypadły w sprawdzianie 2., choć uzyskały bardzo różne wyniki w czasie sprawdzianu 1. Naniesienie na korelacyjny wykres rozrzutu na rysunku 8.8, identyfikatorów grup eksperymentalnych pokazuje, że wyniki osób z grupy STRACH (Grupa 1) są doskonale dopasowane do linii prostej, zaś wyniki grupy RELAKS (Grupa 2) nie wykazują żadnej zależności, co potwierdza prosta regresji równoległa do osi OX. *; Dwóch studentów, niezależnie od siebie, badało związek między częstością uśmiechania się a pozycją socjometryczną w grupie. Obaj przeprowadzili badanie na grupach o takich samych liczebnościach. Jeden otrzymał r = 0,5, drugi r = 0,6. Jaka jest różnica w zdolności przewidywania pozycji socjometrycznej na podstawie częstości uśmiechania się między tymi badaniami? Porównaj siłę związku między zmiennymi, gdy współczynniki korelacji wynoszą odpowiednio 0,70 i 0,80, 0,2 i 0,3. Jaka powinna być korelacja między Xi Y, aby można było twierdzić, że 64% zmienności Xjest wyjaśnione przez zmienność Y? 260 Regres ja wielokrotna. Określanie związku zmiennej zależnej z więcej niż jednym predyktorem Analiza regresji (jedna zmienna zależna, jeden predyktor) daje się łatwo uogól- nić na przypadek regresji wielokrotnej (jedna zmienna zależna, wiele predykto- rów). Dopasowujemy wtedy nie prostą, ale hiperpłaszczyznę regresji. Regresja wie- lokrotna ma olbrzymie znaczenie, ponieważ pozwala ocenić ważność każdego z pre- dyktorówprzy kontrolowaniu wpływu pozostałych. Wagi /? (standaryzowane współ- czynniki regresji) pokazują, o ile zmienia się zmienna zależna wskutek standaryzo- wanej zmiany predyktora przy zachowanej kontroli pozostałych zmiennych i dzięki testom istotności pozwalają ocenić, który z predyktorów jest istotny. Regresja wielokrotna. Określanie związku zmiennej zależnej z więcej niż jednym predyktor Możemy także policzyć współczynnik korelacji wielokrotnej R między war- tościami zmiennej zależnej a wartościami przewidywanymi na podstawie równania regresji (kombinacją liniową predyktoró w). Podniesiony do kwadratu, pozwala on ocenić procent zmienności zmiennej zależnej, wyjaśniony łącznie przez dany ze- staw predyktorów. Ze względu na brak miejsca nie będziemy tutaj wprowadzać wzorów, a skoncen- trujemy się wyłącznie na analizie przykładów. em Liczba predyktorów Predyktory Współczynniki regresji wyznaczane są przez minimum sumy kwadratów Wyliczone równanie regresji Interpretacja współczynników regresji 1 Xi - staż (Y - Yf = (b,X, + ai-Y)2 Y = $ 520X! + $20411 każdy dodatkowy rok pracy po doktoracie związany jest z przyrostem wynagrodzenia o $ 520 (średnio) 1 X2 - liczba publikacji (V-Y)2=(b2X2 + Bi-Y? Y = $ 566X2 + $21106 każda dodatkowa publikacja związana jest z przyrostem wynagrodzenia o $ 566 (średnio) 2 Xi - staż X2 - liczba publikacji (y_Y)2=(biXi + b2X2 + a12 - Yf Y = $ 479X, + $ 88X2 + $20138 każda dodatkowa publikacja związana jest z przyrostem wynagrodzenia jedynie o $ 88 (średnio), jeżeli uwzględnimy w przewidywaniu zarobków także staż (*) * na podstawie [9] 261 Rozdział 8. Pomiar związku między zmiennymi ilościowymi: współczynnik korelacji liniowej... Wzorując się na przykładzie 8.4, uzupełnij następującą tabelę: Liczba predyktorow Predyktory Wyliczone równanie regresji Interpretacja równania regresji Przewidywania 1 X, - staż Y = $ 800Xi + $ 20000 61 = ai = każdy dodatkowy rok pracy po doktoracie związany jest z przyrostem wynagrodzenia o ... $ Osoby 3 lata po doktoracie powinny zarabiać średnio V = 1 X2 - liczba publikacji r = $iooox2 + $ 19000 b2 = a2- każda dodatkowa publikacja związana jest z przyrostem wynagrodzenia o ... $ (średnio) Osoby z 5 publikacjami powinny zarabiać średnio V = 2 X, - staż X2 - liczba publikacji Y = $ 500X, + $100X2 + $ 19500 każda dodatkowa publikacja związana jest z przyrostem wynagrodzenia jedynie o ... $ (średnio) jeżeli uwzględnimy w przewidywaniu zarobków także staż (*i) Osoby 3 lata po doktoracie i 5 publikacjami powinny zarabiać średnio Y- Przykład 8.5. W badaniu LEARN chcemy wyjaśnić wyniki w drugim sprawdzianie (TIME2) na podstawie znajomości 3 zmiennych: 1. wyniku pierwszego sprawdzianu (TIME1), 2. płci, 3. samooceny. a. Predyktory: (Stała), PŁEĆ, TIME1, SAMOOCENA b. Zmienna zależna: TIME2 Tabela 8.7. Model - podsumowanie Model R R-kwadrat Skorygowany R-kwadrat Błąd standardowy oszacowania 1 0,55 0,30 0,22 2,30 262 Regresja wielokrotna. Określanie związku zmiennej zależnej z więcej niż jednym predyktorem Tabela 8.8. Analiza wariancji Model Suma kwadratów df Średni kwadrat F Istotność 1 Regresja Reszta Ogółem 60,17 137,83 198,00 3 26 29 20,06 5,30 3,78 0,022 Tabela 8.9. Współczynniki Model Współczynniki niestandaryzowane Współczynniki standaryzowane t Istotność b Błąd standardowy Beta 1 (Stała) Płeć TIME1 Samoocena 5,98 -0,75 0,50 -0,61 2,09 0,85 0,20 0,36 -0,15 0,41 -0,28 2,86 -0,88 2,51 -1,68 0,008 0,387 0,019 0,105 Tylko wynik sprawdzianu pierwszego (TIME1) był istotnym predyktorem dla przewidywania wyników sprawdzianu drugiego (TIME2). Wprowadzenie dodatkowych zmiennych (choć nie- istotnych) polepszyło procent wariancji wyjaśnianej przez model z 20% (tabela 8.4) do 30%, jednak nie jest to zmiana istotna statystycznie. Trzeba podkreślić, że wagi regresji zależą od innych predyktorów uwzględnionych w równaniu. Jeżeli pominęlibyśmy SAMOOCE- NĘ w analizie regresji, współczynniki /?związane z TIME1 i PŁEĆ byłyby różne od tych przed- stawionych na wydruku. Ćwiczenie8!1Ż; W badaniu PGSS (panel 2003) przeprowadzono analizę zależności wagi respondenta - zmien- na BMI (Sody Mass lndex) od: • umiejętności kontroli jedzenia - zmienna DYSC (wysokie wyniki świadczą o braku takiej zdolności), • wieku - zmienna AGE, • płci respondenta - zmienna SEX (1 - mężczyzna, 2 - kobieta). Na podstawie poniższego wydruku sformułuj wnioski. Tabela 8.10. Model - podsumowanie Model R R-kwadrat Skorygowany R-kwadrat Błąd standardowy oszacowania 1 ,401 (a) 0,160 0,154 3,806 263 Rozdział 8. Pomiar związku między zmiennymi ilościowymi: współczynnik korelacji liniowej... Tabela 8.11. Analiza wariancji Model Suma kwadratów df Średni kwadrat F Istotność Regresja Reszta Ogółem 1027,619 5375,161 6402,780 3 371 374 342,540 14,488 23,642 0,000* * wartość zaokrąglona Tabela 8.12. Współczynniki Model Współczynniki niestandaryzowane Współczynniki standaryzowane t Istotność b Błąd standardowy Beta 1 (Stała) DYSC SEX AGE 21,544 0,375 -1,577 0,119 1,162 0,182 0,401 0,016 0,098 -0,189 0,352 18,540 2,055 -3,938 7,377 0,000* 0,041 0,000* 0,000* : wartość zaokrąglona [Korelacje cząstkowe 264 Jednym z najważniejszych problemów procesu badawczego jest kontrola zmien- nych, które mogą wpływać na kształt związku między zmienną niezależną i zależną. Wpływ ten może mieć charakter mediatora lub moderatora. Zależność między masą ciała mierzoną za pomocą BMI a samooceną może być istotna tylko dla kobiet, a nie- istotna dla mężczyzn. Powiemy wtedy, że płeć jest zmienną modyfikującą związek między BMI a samooceną. Zależność między wagą przypisywaną pracy a wagą przy- pisywaną religii może zależeć od wykształcenia respondenta. Wykształcenie może 'być mediatorem relacji między wagą, którą respondenci przypisują pracy i religii. Jeżeli obie zmienne (niezależna i zależna) są skorelowane z trzecią, należy policzyć korelacje cząstkowe. Jest to współczynnik korelacji uwzględniający związek obu zmiennych z wykształceniem. Jeżeli przeprowadzilibyśmy analizę regresji wagi pracy z jednym predyktorem: wykształceniem, to zróżnicowanie wagi pracy zostałoby podzielone na część wyja- śnioną przez zmienną niezależną: wykształcenie i część niewyjaśnioną, nazywaną przez nas błędem regresji, a którą określa się także jako resztę regresji. Jeżeli prze- prowadzilibyśmy analizę regresji wagi religii z jednym predyktorem: wykształce- niem, to zróżnicowanie wagi religii zostałoby podzielone na część wyjaśnioną zmienną niezależną: wykształcenie i część niewyjaśnioną (resztę regresji). Te dwie reszty regresji określają zróżnicowanie zmiennych z wyłączeniem zróż- nicowania wyjaśnionego przez wykształcenie. Korelacja tych dwóch reszt regresji Korelacje cząstkowe to korelacja cząstkowa między dwiema zmiennymi przy kontroli zmiennej WY- KSZTAŁCENIE. Zostało to schematycznie przedstawione w tabelce: Zróżnicowanie zmiennej Zróżnicowanie zmiennej wyjaśnione przez wykształcenie Błąd (reszta regresji) P - waga pracy Pw - zróżnicowanie wagi pracy wyjaśnione przez wykształcenie Pb - zróżnicowanie wagi pracy niewyjaśnione przez wykształcenie R-waga religii Rw - zróżnicowanie wagi religii wyjaśnione przez wykształcenie Rb - zróżnicowanie wagi religii niewyjaśnione przez wykształcenie Prosty współczynnik korelacji dotyczy związku P i R. Współczynnik korelacji cząstkowej (przy kontroli wykształcenia) to współczynnik korelacji między Pb i Rb. Stosując regresję wielokrotną, możemy liczyć reszty regresji przy większej liczbie predyktorów, np. wiek, wykształcenie, wielkość zarobków itd., co oznacza możli- wość analizy współczynników korelacji cząstkowej przy większej liczbie zmiennych kontrolowanych. Nie podajemy wzorów, bo obliczenia te dokonywane są za pomocą programu komputerowego. Reszty regresji mogą być zapisywane jako nowe zmien- ne i poddawane dalszym analizom. Zachęcamy Czytelnika do zapoznania się z alternatywnymi definicjami korelacji cząstkowych w [5, 6, 9]. Ćwiczenie 8.13. W badaniu PGSS (panel 2003) analizowano związek między BMI (Body Mass lndex) i proble- mami z nadwagą (zmienna NADWAGA) ze spostrzeganą trudnością w zmianie zachowań sprzyjających zdrowiu (przykład analizowany w rozdziale 3.). Wysokie wartości BMI i NADWA- GA świadczą odpowiednio o dużej nadwadze rzeczywistej i spostrzeganej. Na podstawie wydruków korelacji prostych i cząstkowych ustosunkuj się do 13 przedstawio- nych poniżej twierdzeń, odpowiadając: P - kiedy dane twierdzenie jest prawdziwe, F - kiedy jest fałszywe lub ? - kiedy nie można udzielić odpowiedzi. Tabela 8.13. Korelacje proste między odpowiedziami na pytania 1-17 i wskaźnikiem BMI oraz NADWAGĄ Korelacje CH1 CH2 CH3 CH4 CH5 CH6 CH7 CH8 CH9 CH10 BMI P = 0,03 -0,04 0,15 0,13 0,10 0,065 0,01 0,12 -0,01 0,05 0,62 0,46 0,00 0,01 0,07 0,224 0,83 0,02 0,84 0,39 NAD P = 0,02 -0,07 0,09 0,05 0,04 0,014 0,04 0,17 0,06 0,13 0,53 0,17 0,09 0,30 0,41 0,796 0,49 0,00 0,27 0,01 265 Rozdział 8. Pomiar związku między zmiennymi ilościowymi: współczynnik korelacji liniowej. Korelacje CH11 CH12 CH13 CH14 CH15 CH16 CH17 BM1 P- 0,04 -0,03 -0,08 -0,06 0,08 0,10 0,09 0,49 0,57 0,16 0,24 0,15 0,07 0,08 NAD P = 0,10 0,03 -0,04 -0,09 0,11 0,14 0,10 0,05 0,62 0,43 0,09 0,04 0,01 0,05 1 Im większa trudność w planowaniu posiłków (CH1), tym większe BMI. 2 Im łatwiejsze planowanie godzin posiłków i ścisłe trzymanie się tego planu (CH2), tym mniejsze kłopoty z nadwagą. 3 Im trudniejsze jest niezjadanie niczego bezpośrednio z lodówki, prosto z opakowania lub garnka (CH3), tym większe BMI. 4 Im trudniejsza całkowita rezygnacja z dokładek (CH4), tym większe problemy z nadwagą. 5 Im szybsze jedzenie (CH5), tym większe BMI. 6 Im trudniejsze przerywanie jedzenia, kiedy czujemy, że moglibyśmy coś jeszcze zjeść (CH7), tym mniejsze BMI. 7 Im łatwiejsze powstrzymanie się od zjedzenia reszty już nałożonego na talerz posiłku w chwili, gdy poczujemy sytość (CH8), tym większe problemy z nadwagą. 8 Im trudniejsze niepodjadanie między posiłkami (CH9), tym większe problemy z nadwagą. 9 Im łatwiejsza pełna koncentracja w czasie jedzenia na przeżuwaniu produktów (CH10), tym mniejsze BMI. 10 Im trudniejsze przeczekiwanie pierwszego głodu (CH11), tym mniejsze problemy z nad- wagą. 11 Im łatwiejsze jest wykonywanie codziennych ćwiczeń gimnastycznych (CH12), tym więk- sze problemy z nadwagą. 12 Im łatwiejsza jest dla nas regularna aktywność fizyczna (CH16), tym niższe BMI. 13 Im łatwiejsza rezygnacja zjazdy autobusem czy samochodem, jeśli można dojść pieszo (CH17), tym mniejsze problemy z nadwagą. 266 Twierdzenia Korelacje proste Korelacje cząstkowe P - prawda, F - fałsz, ? - nie wiadomo 1 F F 2 3 4 5 6 7 8 9 10 11 12 13 Wprowadzenie zmiennych nominalnych do równania regresji Oceń ponownie poprawność zdań, posługując się macierzą korelacji cząstkowych (po wyłą- czeniu wpływu płci i wieku respondentów). Tabela 8.14. Korelacje cząstkowe między odpowiedziami na pytania 1-17 oraz wskaź- nikiem BMI i NADWAGĄ, przy kontroli zmiennej PŁEĆ i WIEK Korelacje cząstkowe (płeć - wiek) CH1 CH2 CH3 CH4 CH5 CH6 CH7 CH8 CH9 CH10 BMI P = 0,08 0,06 0,15 ,022 0,09 0,05 0,11 0,22 0,14 0,17 0,26 0,40 0,04 0,00 0,23 0,49 0,15 0,00 0,06 0,02 NAD P = 0,14 0,09 0,21 0,21 0,08 0,04 0,15 0,31 0,22 0,24 0,06 0,23 0,00 0,00 0,26 0,58 0,04 0,00 0,00 0,00 Korelacje cząstkowe (płeć - wiek) CH11 CH12 CH13 CH14 CH15 CH16 CH17 BMI P = 0,11 -0,01 -0,05 -0,06 0,11 0,05 0,14 0,15 0,87 0,48 0,44 0,13 0,49 0,05 NAD P = 0,17 0,07 -0,03 -0,08 0,13 0,09 0,15 0,02 0,36 0,64 0,26 0,07 0,24 0,04 llfli Wprowadzenie zmiennych nominalnych do równania regresji Z przeprowadzonych wcześniej analiz wariancji w badaniu LEARN wiemy, że manipulacja miała istotny wpływ na wyniki w 2. sprawdzianie. Zmienna niezależna GRUPA jest zmienną nominalną i przyjmuje 3 wartości. W żadnym przypadku nie możemy jej traktować jako zmiennej ilościowej. Ten przywilej mają tylko zmienne dychotomiczne, takie jak płeć. Czy to znaczy, że nie możemy jej uwzględnić w rów- naniu regresji? Możemy, jeśli przekształcimy ją na dwie zmienne, nazywane kontra- stowymi (instrumentalnymi, w języku angielskim dummy). Zmienną nominalną mającą k wartości możemy zamienić na k -1 zmiennych kontrastowych. Sposób tworzenia kontrastów zależy od tego, co nas interesuje. My wybraliśmy następujące porównania: 1. kontrast między grupą STRACH i RELAKS; 2. kontrast między obiema grupami a grupą kontrolną. Sposób nadania wartości nowym zmiennym w zależności od wartości zmiennej nominalnej przedstawiony jest w tabeli poniżej: 267 Rozdział 8. Pomiar związku między zmiennymi ilościowymi: współczynnik korelacji liniowej... k1 grupa k2grupa STRACH 1 -1 RELAKS -1 -1 KONTROLNA 0 2 Istotność zmiennej klgrupa w analizie regresji oznacza, że różnica między gru- pą STRACH i RELAKS istotnie wpływa na wyniki w 2. sprawdzianie. Istotność zmiennej k2grupa oznaczałaby, że grupa kontrolna różniła się istotnie od reszty. Tabela 8.15. Model - podsumowanie Model R R-kwadrat Skorygowany R-kwadrat Błąd standardowy oszacowania 1 0,83a 0,68 0,62 1,62 »Predyktory: (Stała), K2GRUPA, K1 GRUPA, TIME1, PŁEĆ, SAMOOCENA Tabela 8.16. Analiza wariancji Model Suma kwadratów df Średni kwadrat F Istotność 1 Regresja Reszta Ogółem 135,03 62,97 198,00 5 24 29 27,01 2,62 10,29 o,oooa 3 Predyktory: (Stała), K2GRUPA, K1 GRUPA, TIME1, PŁEĆ, SAMOOCENA Tabela 8.17. Współczynniki Model Współczynniki niestandaryzowane Współczynniki standaryzowane t Istotność b Błąd standardowy Beta 1 (Stała) Płeć TIME1 Samoocena 6,13 -0,76 0,49 -0,62 1,48 0,60 0,14 0,26 -0,15 0,40 -0,28 4,16 -1,26 3,45 -2,44 0,000 0,220 0,002 0,023 K1 GRUPA 1,93 0,36 0,61 5,34 0,000 K2GRUPA 0,05 0,21 0,03 0,22 0,824 a Zmienna zależna: TIME2 Analiza regresji wykazała istotny wpływ trzech predyktorów: wynik sprawdzia- nu TIMEl, samooceny i zmiennej kontrastowej (porównującej grupę STRACH z gru- 268 pą RELAKS). Procent wyjaśnianej wariancji wzrósł do 68%. Wprowadzenie zmiennych nominalnych do równania regresji Budowanie równań regresji jest sztuką i przedstawione wyżej przykłady w ża- den sposób nie wyczerpują zagadnienia. Do równania regresji predyktory mogą być wprowadzane w różnej kolejności, w grupach, możemy wprowadzać też interakcje predyktorów. Ten rozdział stanowi jedynie wprowadzenie do tego sposobu analizy danych. 269 Zapisz definicje kluczowych pojęć wprowadzonych w tym rozdziale oraz nowe symbole Test X dla zmiennych nominalnych Pojęcia kluczowe: test zgodności rozkładu empirycznego z teoretycznym' test niezależności dwóch zmiennych nominalnych; miary siły związku zmiennych nominalnych Nowe symbole: yf, ę, C Zdarza się, że nasze zmienne nie pozwalają na liczenie średnich i odchyleń stan- dardowych. Co wtedy? Czy możemy orzekać o istnieniu i sile związku między zmien- nymi nominalnymi? Odpowiedź na to pytanie jest pozytywna, pod warunkiem że dysponujemy dużymi próbami. W podręczniku przedstawimy dwa typy analiz zmien- nych nominalnych. Tak jak pisaliśmy w rozdziale 1., decyzja dotycząca zakupu nowego, cudownego środka na pamięć, porost włosów, dobre samopoczucie itp. powinna być poprzedzo- na analizą związku dwóch zmiennych nominalnych. Aby wykazać skuteczność cudownego środka, powinniśmy móc odrzucić hipote- zę zerową zakładającą brak związku między zażywaniem cudownego środka a wy- stąpieniem jego efektów. Obie zmienne to zmienne nominalne: Zmienna 1: TERAPIA (zażywał vs nie zażywał) Zmienna 2: SKUTECZNOŚĆ (sukces w porażka). Zanim nauczymy się to robić, pokażemy jak można sprawdzić, czy lista kandyda- tów spełnia ustalone parytety. Test hipotezy zgodności rozkładu empirycznego z teoretycznym (oczekiwanym) Rozważmy następujący przykład: Partia Równościowego Ucisku postanowiła, że listy wyborcze powinny być skom- 270 ponowane według następującego klucza: Test hipotezy zgodności rozkładu empirycznego z teoretycznym (oczekiwanym) 40% kobiet, 60% mężczyzn, połowa kobiet i mężczyzn powinna nie mieć więcej niż 40 lat. Chcemy sprawdzić, czy lista 100 losowo wybranych kandydatów spełnia te warunki? Wśród 100 kandydatów powinno być 20 młodszych i 20 starszych kobiet oraz 30 młodszych i 30 starszych mężczyzn. Są to liczebności teoretyczne oznaczane literą T. Okazało się, że lista losowo wybranych kandydatów zawiera nazwiska 30 młod- szych i 5 starszych kobiet oraz 20 młodszych i 45 starszych mężczyzn. Są to liczeb- ności obserwowane oznaczane literą O. Aby ocenić zgodność rozkładu teoretycznego (tak jak być powinno) z empirycz- nym (tak jak jest), musimy policzyć jakąś statystykę o znanym rozkładzie. Udowodniono, że statystyka X - T ma znany rozkład dla k- 1 stopni swobody, gdzie: k— liczba wartości zmiennej nominalnej, O -to liczebności obserwowane, T- liczebności teoretyczne (oczekiwane). Zapamiętaj: • Liczebności zaobserwowane to liczebności (frekwencje) otrzymane z wyni- ków badania. • Liczebności teoretyczne otrzymujemy na podstawie hipotezy lub rozumowa- nia teoretycznego. Hipoteza badawcza w naszym przykładzie dotyczy poprawności listy wyborczej kandydatów. Pytamy o stopień zgodności liczebności teoretycznych i obserwowa- nych. Jeśli liczebności obserwowane i teoretyczne różnią się istotnie, to mamy pod- stawy do odrzucenia hipotezy zerowej mówiącej, że rozkład cech demograficznych kandydatów jest zgodny z przyjętymi postulatami (rozkładem teoretycznym). Hipoteza zerowa, jaką testujemy przy użyciu ? dotyczy zgodności liczebności obserwowanych i teoretycznych. 271 Rozdział 9. Test %2 dla zmiennych nominalnych Tabela 9.1. Sposób wyliczenia wartości ^ dla wyników z przykładu 7 O O 7 (O-7)2 (O-7)2 T młode kobiety 20 30 10 100 100/20 starsze kobiety 20 5 -15 225 225/20 młodzi mężczyźni 30 20 -10 100 100/30 starsi mężczyźni 30 45 15 225 225/30 f « 27,08 Na wartość a składa się suma różnic pomiędzy liczebnościami obserwowany- mi i teoretycznymi, podniesionych do kwadratu i podzielonych przez liczebności teoretyczne. Im większa rozbieżność pomiędzy liczebnościami obserwowanymi i teoretycz- nymi, tym większa wartość testu a . Interpretacja otrzymanej wartości wymaga znajomości rozkładu statystyki a (patrz tablice a na końcu podręcznika). Aby odczytać wartość krytyczną z tablic rozkła- du a, musimy znać liczbę stopni swobody. Tablice rozkładu W tablicachX2 w wierszach podane są stopnie swobody df= k-\ (gdzie k to liczba wartości zmiennej nominalnej), a w kolumnach poziomy istotności. W ta- blicach najczęściej podane są wartości krytyczne tego testu dla df< 30, z dwóch powodów: 1) bardzo rzadko liczony jest x dla df= 30, ponieważ przy takiej liczbie warto- ści zmienna jest zwykle traktowana jako porządkowa lub ilościowa i dostęp- nych jest wiele innych, bardziej czułych i precyzyjnych testów; 2) dla df> 30 rozkład z próby X2 dąży do rozkładu normalnego. Stosując SCHEMAT WNIOSKOWANIA, zweryfikujemy hipotezę dotyczącą zgodności rozkła- du empirycznego z teoretycznym na przykładzie kandydatów z listy wyborczej Partii Równo- ściowego Ucisku. 272 Test hipotezy zgodności rozkładu empirycznego z teoretycznym (oczekiwanym) SCHEMAT WNIOSKOWANIA Zmienne Cechy demograficzne kandydata (płeć, wiek) - 4 kategorie (zmienna nominalna) Założenia Próba losowa 100 kandydatów partii PRU. Spełnione są założenia testu y? badania zgodności rozkładu empirycznego z teoretycznym. Hipotezy Ho: Rozkład zmiennej nominalnej jest zgodny z rozkładem teoretycznym. W,: Rozkład zmiennej nominalnej nie jest zgodny z rozkładem teoretycznym. Wybór testu i rozkład statystyki Statystyka Z2 dla k - 1 =3 stopni swobody ma rozkład X2. Reguła decyzyjna Xlyl (3) = 7,82 Odrzucimy Ho, jeśli xl * 7,82 . Wartość statystyki 21=27,08 Decyzja Xl, = 27,08 > xl, (3) = 7,82 , więc odrzucamy Ho. Ćwiczenie 9d. Przetestuj hipotezę dotyczącą poprawności listy wyborczej, na której znalazło się po 25 młod- szych i starszych kobiet oraz po 25 młodszych i starszych mężczyzn. 7 O O 7 {O-Tf (O-TY T młode kobiety 20 25 starsze kobiety 20 25 młodzi mężczyźni 30 25 starsi mężczyźni 30 25 f =.............. SCHEMAT WNIOSKOWANIA Zmienne Założenia Spełnione są założenia testu j? badania zgodności rozkładu empirycznego z teoretycznym. Hipotezy Wybór testu i rozkład statystyki Reguła decyzyjna Wartość statystyki Decyzja 273 Rozdział 9. Test %2 dla zmiennych nominalnych Studenci oczekują, że w teście jednokrotnego wyboru będzie tyle samo poprawnych odpowie- dzi a), b), c), d). Sprawdź, czy następujący rozkład odpowiedzi: po 25 poprawnych odpowiedzi a) i b) oraz po 15 poprawnych odpowiedzi c) i d) różni się istotnie od oczekiwań studentów. 7 0 O-T (O-T)2 {O-T)1 T młode kobiety 20 25 starsze kobiety 20 25 młodzi mężczyźni 20 15 starsi mężczyźni 20 15 f =.......... SCHEMAT WNIOSKOWANIA Zmienne Założenia Spełnione są założenia testu ? badania zgodności rozkładu empirycznego z teoretycznym. Hipotezy Wybór testu i rozkład statystyki Reguła decyzyjna Wartość statystyki Decyzja Stosując analogiczny sposób myślenia, możemy za pomocą testu tf- sprawdzać zgodność rozkładu naszej zmiennej z rozkładem normalnym, ponieważ w rozdzia- le 2. dowiedzieliśmy się, że rozkład normalny charakteryzuje się ściśle określonymi proporcjami przypadków wyznaczonymi przez krzywą Gaussa. 274 Test hipotezy o niezależności dwóch zmiennych nominalnych | Test hipotezy o niezależności dwóch zmiennych nominalnych Gdy chcemy zbadać związek między zmiennymi nominalnymi, takimi jak płeć, wybór kandydata w głosowaniu, region zamieszkania, możemy analizować jedynie liczebności. Możemy sprawdzać hipotezę mówiącą, że ćwiczenia fizyczne są bardziej skuteczne w odchu- dzaniu niż dieta. Dysponujemy danymi pochodzącymi od 100 osób, z których 30 stosowało dietę, a 70 intensywnie uprawiało ćwiczenia fizyczne. Po 6 miesiącach można było ustalić, czy dana osoba osiągnęła zamierzony cel (sukces), czy nie (porażka). I Sukces Porażka RAZEM* ? Dieta 10 20 30 B Ćwiczenia 50 20 70 I RAZEM* 60 40 100 I H * liczebności brzegowe Hipoteza zerowa przewiduje, że wybór diety bądź ćwiczeń nie ma wpływu na odniesienie sukcesu. Pierwszym krokiem jest wyliczenie liczebności teoretycznych, przy założeniu prawdziwości Ho. Jeżeli w naszej próbie sukces odniosło 60 osób na 100 (czyli 60%), a 30 stosowało dietę, to jeśli odniesienie sukcesu nie jest związane z typem oddziaływania (dieta vs ćwiczenia), to sukces powinno też odnieść 60% wśród stosujących dietę, czyli ------x 30 = 18 osób i 60% intensywnie ćwiczących, czyli ------x70 = 42 osoby. Analogicznie wyliczamy liczebności teoretycznie dla liczby porażek wśród ćwiczących i osób na diecie. Te liczebności możemy też wyliczyć, odejmując liczebności teoretyczne dla sukce- su (18,42) odpowiednio od liczebności brzegowych dla obu grup (30 osób na diecie, 70 osób ćwiczących). Liczebności teoretyczne zostały zestawione w tabeli 9.2. Kiedy znamy już liczebności teore- tyczne, dalsze postępowanie jest analogiczne jak przy teście badania zgodności z rozkładem empirycznym. 275 Rozdział 9. Test %2 dla zmiennych nominalnych Tabela 9.2. Liczebności teoretyczne Sukces Porażka Dieta 60x —= 18 100 X7oó~ 12 30 Ćwiczenia 60x^ = 42 100 xToo ~ 28 70 60 40 100 Dieta Ćwiczenia Sukces Porażka 18 42 60 12 30 28 70 40 100 Liczbę stopni swobody dla testu tf~, testującego niezależność dwóch zmiennych nominalnych, wyliczamy ze wzoru: df=(r-1)x(c-1), gdzie: r- liczba poziomów pierwszej zmiennej, c - liczba poziomów drugiej zmiennej. Stosujemy SCHEMAT WNIOSKOWANIA, tak jak przy poznanych wcześniej testach. SCHEMAT WNIOSKOWANIA 276 Określenie zmiennych i ich skal pomiarowych, sfor- I mułowanie założeń i hipotez: TYP ODDZIAŁYWANIA (dieta vs ćwiczenia) - zmienna nominalna EFEKT (sukces vs porażka) - zmienna nominalna Hipotezy: Ho: Efekt nie zależy od typu oddziaływania. Ht'. Efekt zależy od typu oddziaływania. KROK 2 Wybór testu i ustalenie rozkładu statystyki: Statystyka ? ma rozkład 2* dla df= 1. Test hipotezy o niezależności dwóch zmiennych nominalnych KROK 3 Ustalenie reguły decyzyjnej; Poziom istotności: a = 0,05 Wartość krytyczna xly,{l)= 3,84 Odrzucimy Ho, jeżeli xL (*) ^ 3,84. Obliczanie wartości statystyki: T 0 O-T (O T)2 (O-TY T schudł na diecie 18 10 -8 64 64/18 = nie schudł na diecie 12 20 8 64 64/12 = schudł, ćwicząc intensywnie 42 50 8 64 64/42 = nie schudł, ćwicząc intensywnie 28 20 8 64 64/28 = ^=12,7 Podjęcie decyzji: %„n (1) ~ 12,7 > xl,, (1) - 3,84, zatem odrzucimy Ho mówiącą, że efekt nie zależy od rodzaju oddziaływań. Korzystając z informacji zawartych w przykładzie 9.2, zweryfikuj hipotezę, że efekt nie zależy od rodzaju oddziaływań, w przypadku gdy zaobserwowane wyniki mają inny rozkład (jak po- kazano w poniższej tabeli). 7 o O~T (O-T)2 (O-TY T schudł na diecie 18 5 nie schudł na diecie 12 25 schudł, ćwicząc intensywnie 42 30 nie schudł, ćwicząc intensywnie 28 40 277 Rozdział 9. Test %2 dla zmiennych nominalnych SCHEMAT WNIOSKOWANIA Zmienne Założenia Spełnione są założenia testu j? badania zgodności rozkładu empirycznego z teoretycznym. Hipotezy Wybór testu i rozkład statystyki Reguła decyzyjna Wartość statystyki Decyzja Przykład 9,3. 278 W badaniu PGSS (panel 2003) pytaliśmy respondentów, czy brakowało im w ostatnim roku pieniędzy na: a) jedzenie, b) kształcenie, c) leczenie. Każda ze zmiennych przyjmowała dwie wartości: 0 - nie brakowało; 1 - brakowało. Prosiliśmy także o odtworzenie roku 1997 i stwierdzenie, czy wtedy brakowało pieniędzy na wymienione cele. Połączyliśmy te dane z informacjami o rzeczywistych odpowiedziach udzie- lonych w 1997 roku przez te same osoby. Mamy więc 9 zmiennych, z których każda przyj- muje 2 wartości (po 3 zmienne w każdej z 3 dziedzin). Możemy analizować łączne rozkłady liczebności. P - oznacza odpowiedzi udzielone przez respondenta w 1997 roku. R - oznacza retrospekcję, czyli to, co w 2003 roku osoba sądzi, że odpowiedziała w 1997. Możliwe są więc 4 konfiguracje odpowiedzi: a)P = 0iR = 0- osobie nie brakowało pieniędzy na jedzenie w 1997 roku i poprawnie odtwarza tę sytuację; b) P = 0 i R = 1 - osobie nie brakowało pieniędzy w 1997, ale 6 lat później źle odtwarza tę sytuację; c)P = 1iR = 0- osobie brakowało pieniędzy na jedzenie, ale 6 lat później uważa, że nie brakowało; d)P = 1iR = 1- osobie brakowało pieniędzy w 1997 i poprawnie odtwarza tę sytuację 6 lat później. W tabeli krzyżowej P x R przedstawione są liczebności w poszczególnych grupach i procenty dobrze i źle odtwarzających własną sytuację sprzed 6 lat, osobno wśród tych, którym brako- wało na jedzenie i tych, którzy byli „zaspokojeni". Na podstawie tabeli krzyżowych odpowiedz, czy respondenci dobrze odtwarzają problemy finansowe w różnych dziedzinach życia sprzed 6 lat. Test hipotezy o niezależności dwóch zmiennych nominalnych Tabela 9.3. Zależność sądów o przeszłości (R) dotyczących braku pieniędzy na jedzenie od stanu faktycznego (P) Tabela krzyżowa P x R R (6 lat temu) R = 0 NIE brakowało R = 1 TAK brakowało Ogółem* P1997 P = 0 NIE brakowało N 178 39 217 %zP 82,0% 18,0% 100,0% P = 1 TAK brakowało N 87 64 151 %zP 57,6% 42,4% 100,0% Ogółem* N 265 103 368 %zP 72,0% 28,0% 100,0% 0 - oznacza brak problemów finansowych, 1 - oznacza występowanie takich problemów " liczebności brzegowe Z tabeli 9.3 możemy odczytać, że w 1997 roku 217 osób nie miało problemów finan- sowych w płaceniu rachunków za żywność, 151 osób je miało. Odtwarzając 6 lat później - 265 osób twierdziło, że w 1997 roku nie miało problemów, 103 - że miało. Tyle mo- żemy dowiedzieć się z liczebności brzego- wych. Analiza tabeli krzyżowej ujawnia, że: a) 82% (178 osób) z tych, którzy nie mieli w 1997 roku problemów finansowych, od- twarza tę sytuację poprawnie 6 lat póź- niej; b) 18% (39 osób) twierdzi, że miało proble- my, choć w 1997 roku twierdziło co inne- go; c) 42,4% (64 osoby) z tych, którzy mieli pro- blemy finansowe w 1997 roku, odtwarza tę sytuację poprawnie 6 lat później; d) 57,6% (87 osób) z tych, którzy mieli pro- blemy finansowe w 1997 roku, twierdzi, że ich nie mieli. Wartość testu f- = 26,03; p < 0,001 pozwala nam na odrzucenie Ho, mówiącej o braku związku między posiadaniem problemów fi- nansowych w roku 1997 a poprawnością odtwarzania przeszłości. Więcej błędów popełniają ci, którzy w 1997 roku mieli problemy finansowe. 279 Rozdział 9. Test %2 dla zmiennych nominalnych vj.ł Na podstawie danych z tabeli 9.4, zawierającej informacje o problemach finansowych w pła- ceniu za edukację, uzupełnij poniższy tekst. Tabela 9.4. Zależność sądów o przeszłości (R) dotyczących braku pieniędzy na kształcenie od stanu faktycznego (P) Tabela krzyżowa P x R R (6 lat temu) R = 0 NIE brakowało R=1 TAK brakowało Ogółem* P1997 P = 0 NIE brakowało N 268 34 302 %zP 88,7% 11,3% 100,0% P = 1 TAK brakowało N 40 21 61 %zP 65,6% 34,4% 100,0% Ogółem* N 308 55 363 %zP 84,8% 15,2% 100,0% 0 - oznacza brak problemów finansowych, 1 - oznacza występowanie takich problemów * liczebności brzegowe Z tabeli 9.4 możemy odczytać, że w 1997 roku..........osób nie miało problemów finansowych w płaceniu za edukację...........osób je miało. Odtwarzając 6 lat później -..........osób twier- dziło, że w 1997 roku nie miało problemów, .........że miało. Tyle możemy dowiedzieć się z liczebności brzegowych. Analiza tabeli krzyżowej ujawnia, że: a)..........% (..........osób) z tych, którzy nie mieli w 1997 roku problemów finansowych, odtwa- rza tę sytuację poprawnie 6 lat później; b)..........% (..........osób) twierdzi, że miało problemy, choć w 1997 roku twierdziło co innego; c)..........% (..........osoby) z tych, którzy mieli problemy finansowe w 1997 roku, odtwarza tę sytuację poprawnie 6 lat później; d)..........% (..........osób) z tych, którzy mieli problemy finansowe w 1997 roku twierdzi, że ich nie mieli. Wartość testu Źi= 18,77; p < 0,001 (tego wyniku nie zamieszczono w wydruku), pozwala / nie pozwala nam na odrzucenie Ho, mówiącej o braku związku między posiadaniem problemów finansowych w roku 1997 a poprawnością odtwarzania przeszłości. Więcej błędów popełniają Na podstawie danych z tabeli 9.5, zawierającej informacje o problemach finansowych w pła- 280 ceniu za leczenie, uzupełnij poniższy tekst. Test hipotezy o niezależności dwóch zmiennych nominalnych Tabela 9.5. Zależność sądów o przeszłości (R) dotyczących braku pieniędzy na leczenie od stanu faktycznego (P) Tabela krzyżowa P x R R (6 lat temu) R = 0 NIE brakowało R = 1 TAK brakowało Ogółem* P1997 P = 0 NIE brakowało N 221 30 251 %zP 88,0% 12,0% 100,0% P = 1 TAK brakowało N 75 40 115 %zP 65,2% 34,8% 100,0% Ogółem* N 296 70 366 %zP 80,9% 19,1% 100,0% 0 - oznacza brak problemów finansowych, 1 - oznacza występowanie takich problemów * liczebności brzegowe Z tabeli 9.5 możemy odczytać, że w 1997 roku..........osób nie miało problemów finansowych w płaceniu za leczenie,..........osób je miało. Odtwarzając 6 lat później -..........osób twierdzi- ło, że w 1997 roku nie miało problemów,.........że miało. Tyle możemy dowiedzieć się z liczeb- ności brzegowych. Analiza tabeli krzyżowej ujawnia, że: a)..........% (..........osób) z tych, którzy nie mieli w 1997 roku problemów finansowych odtwa- rza tę sytuację poprawnie 6 lat później; b)..........% (..........osób) twierdzi, że miało problemy, choć w 1997 roku twierdziło co innego; c)..........% (..........osoby) z tych, którzy mieli problemy finansowe w 1997 roku, odtwarza tę sytuację poprawnie 6 lat później; d)..........% (..........osób) z tych, którzy mieli problemy finansowe w 1997 roku, twierdzi, że nie mieli. Wartość testu ? = 28,55; p < 0,001 (tego wyniku nie zamieszczono w wydruku), pozwala / nie pozwala nam na odrzucenie Ho, mówiącej o braku związku między posiadaniem problemów finansowych w roku 1997 a poprawnością odtwarzania przeszłości. Więcej błędów popełniają Przykład 9.4. Analogicznie można analizować rozkłady więcej niż 2 zmiennych. Odtwarzanie przeszłości jest modyfikowane przez aktualną sytuację. W badaniach sprawdzaliśmy, czy odtwarzanie przeszłości (R) zależy od rzeczywistej sytuacji w 1997 roku (P) i aktualnej sytuacji w 2003 roku (A). 281 Rozdział 9. Test %2 dla zmiennych nominalnych Tabela 9.6. Zależność sądów o przeszłości (R) dotyczących braku pieniędzy na jedzenie od stanu faktycznego w 1993 r. (P) i aktualnej sytuacji (A) Tabela krzyżowa P x R R (6 lat temu) R = 0 NIE brakowało R = 1 TAK brakowało Ogółem A = 0 NIE 2003 P 1997 P = 0 NIE brakowało N 268 34 302 %zP 88,7% 11,3% 100,0% P = 1 TAK brakowało N 40 21 61 %zP 65,6% 34,4% 100,0% Ogółem N 308 55 363 %zP 84,8% 15,2% 100,0% A = 1 TAK 2003 P 1997 P = 0 NIE brakowało N 37 28 65 %zP 56,9% 43,1% 100,0% P = 1 TAK brakowało N 45 47 92 %zP 48,9% 51,1% 100,0% Ogółem N 82 75 157 %zP 52,2% 47,8% 100,0% 0 - oznacza brak problemów finansowych, 1 - oznacza występowanie takich problemów Z tabeli krzyżowej (tabela 9.6) możemy odczytać, że wśród tych, którzy w 2003 roku nie mieli problemów finansowych - 65,6% twierdziło, że w 1997 nie miało problemów finansowych, mimo że faktycznie było inaczej. Wśród tych, którzy w 2003 roku mają problemy finansowe z płaceniem za żywność 56,9% odtwarza prawidłowo brak problemów tego typu w 1997, zaś 51,1% odtwarza prawidłowo istnienie tego typu problemów w roku 1997. Oznacza to, że liczba błędów zależnych od oceny aktualnej i przeszłej wynosi: • 11,3% dla zaspokojonych teraz i kiedyś; • 65,6% dla zaspokojonych teraz i niezaspokojonych kiedyś; • 43,1% dla niezaspokojonych teraz i zaspokojonych kiedyś; • 48,9% dla niezaspokojonych teraz i niezaspokojonych kiedyś. Wartość testu Ź2 = 14,65; p < 0,001 liczonego osobno dla zaspokojonych teraz (A = 0) pozwa- la na odrzucenie hipotezy o niezależności ocen sformułowanych w przeszłości (P) i tego, co teraz na ten temat sądzą respondenci (R). Tak jak należałoby oczekiwać, to co respondenci sądzą na temat zaspokojenia potrzeb w przeszłości zależy od rzeczywistego stanu w roku 1997. Nie można tego powiedzieć w sytuacji, gdy potrzeby nie są aktualnie zaspokojone. Dla tej grupy respondentów (A = 1) nie można odrzucić hipotezy o niezależności ich sądów o prze- szłości od tego, co miało miejsce w przeszłości - -T = 1,31; p > 0,05. 282 Test hipotezy o niezależności dwóch zmiennych nominalnych Na podstawie tabeli 9.7, dotyczącej problemów finansowych w opłacaniu edukacji, uzupełnij poniższy tekst. Tabela 9.7. Zależność sądów o przeszłości (R) dotyczących braku pieniędzy na kształcenie od stanu faktycznego w 1993 r. (P) i aktualnej sytuacji (A) Tabela krzyżowa P x R R (6 lat temu) R = 0 NIE brakowało R = 1 TAK brakowało Ogółem 2003 NIE A = 0 P 1997 P = 0 NIE brakowało N 219 14 233 %zP 94,0% 6,0% 100,0% P = 1 TAK brakowało N 21 6 27 %zP 77,8% 22,2% 100,0% Ogółem N 240 20 260 %zP 92,3% 7,7% 100,0% 2003 TAK A = 1 P 1997 P = 0 NIE brakowało N 49 20 69 %zP 71,0% 29,0% 100,0% P = 1 TAK brakowało N 19 15 34 %zP 55,9% 44,4% 100,0% Ogółem N 68 35 103 %zP 66,0% 34,0% 100,0% 0 - oznacza brak problemów finansowych, 1 - oznacza występowanie takich problemów Z tabeli krzyżowej (tabela 9.7) możemy odczytać, że wśród tych, którzy w 2003 nie mieli problemów finansowych -..........% twierdziło, że w 1997 nie miało problemów finansowych, mimo że faktycznie było inaczej. Wśród tych, którzy w 2003 roku mają problemy finansowe z płaceniem za edukację..........% odtwarza prawidłowo brak problemów tego typu w 1997, zaś.........% odtwarza prawidłowo istnienie tego typu problemów w roku 1997. Oznacza to, że liczba błędów zależy od oceny aktualnej i przeszłej 1997 i wynosi: • .........% dla zaspokojonych teraz i kiedyś; • .........% dla zaspokojonych teraz i niezaspokojonych kiedyś; • .........% dla niezaspokojonych teraz i zaspokojonych kiedyś; • .........% dla niezaspokojonych teraz i niezaspokojonych kiedyś. Wartość testu 3? = 6,58; p < 0,01 liczonego osobno dla zaspokojonych teraz (A = 0) pozwala / nie pozwala na odrzucenie hipotezy o niezależności ocen sformułowanych w przeszłości (P) 1 tego, co teraz na ten temat sądzą respondenci (R). To, co respondenci sądzą na temat zaspokojenia potrzeb w przeszłości, zależy / nie zależy od rzeczywistego stanu w roku 1997. W sytuacji, gdy potrzeby nie są aktualnie zaspokojone: dla tej grupy respondentów (A = 1) można / nie można odrzucić hipotezy o niezależności ich sądów o przeszłości od tego, co miało miejsce w przeszłości -2 = 2,33; p > 0,05. 283 Rozdział 9. Test %2 dla zmiennych nominalnych Na podstawie tabeli 9.8, dotyczącej problemów finansowych w płaceniu za leczenie, uzupełnij poniższy tekst. Tabela 9.8. Zależność sądów o przeszłości (R) dotyczących braku pieniędzy na leczenie od stanu faktycznego w 1997 r. (P) i aktualnej sytuacji (A) Tabela krzyżowa P x R R (6 lat temu) R = 0 NIE brakowało R = 1 TAK brakowało Ogółem I A = 0 NIE 2003 / / P = ° N / 176 192 P 1997 NIE brakowało %zP 91,7% 8,3% 100,0% P = 1 TAK brakowało N 40 5 45 %zP 88,9% 11,1% 100,0% Ogółem N 216 21 237 %zP 91,1% 8,9% 100,0% A = 1 TAK 2003 P 1997 P = 0 NIE brakowało N 45 14 59 %zP 76,3% 23,7% 100,0% P = 1 TAK brakowało N 35 35 70 %zP 50,0% 50,0% 100,0% Ogółem N 80 49 129 %zP 62,0% 38,0% 100,0% 284 0 - oznacza brak problemów finansowych, 1 - oznacza występowanie takich problemów Z tabeli krzyżowej (tabela 9.8) możemy odczytać, że wśród tych, którzy w 2003 nie mieli problemów finansowych ..........% twierdziło, że w 1997 nie miało problemów finansowych, mimo że faktycznie było inaczej. Wśród tych, którzy w 2003 roku mają problemy finansowe z płaceniem za leczenie..........% odtwarza prawidłowo brak problemów tego typu w 1997, zaś.........% odtwarza prawidłowo istnienie tego typu problemów w roku 1997. Oznacza to, że liczba błędów zależy od oceny aktualnej i przeszłej 1997 i wynosi: • .........% dla zaspokojonych teraz i kiedyś; • .........% dla zaspokojonych teraz i niezaspokojonych kiedyś; • .........% dla niezaspokojonych teraz i zaspokojonych kiedyś; • .........% dla niezaspokojonych teraz i niezaspokojonych kiedyś. Wartość testu ? = 0,702; p = 0,402 liczonego osobno dla zaspokojonych teraz (A = 0) pozwa- la / nie pozwala na odrzucenie hipotezy o niezależności ocen sformułowanych w przeszłości (P) i tego, co teraz na ten temat sądzą respondenci (R). To, co respondenci sądzą na temat zaspokojenia potrzeb w przeszłości zależy / nie zależy od rzeczywistego stanu w roku 1997. W sytuacji, gdy potrzeby nie są aktualnie zaspokojone: dla tej grupy respondentów (A = 1) można / nie można odrzucić hipotezy o niezależności ich sądów o przeszłości od tego, co miało miejsce w przeszłości -3T= 12,821; p < 0,001. Wyliczanie współczynników siły związku | Wyliczanie współczynników siły związku Poziom istotności testu z informuje jedynie o prawdopodobieństwie istnienia związku, a nie o jego natężeniu. Bardzo ważne jest, aby przy stosowaniu testu a pamiętać, że przy niezmiennych proporcjach wartość X2 jest wprost proporcjonal- na do wielkości próby. Wynika to bezpośrednio z wzoru na a. Jeżeli zwiększamy liczebność próby dwukrotnie, zachowując proporcje, to dwu- krotnie zwiększy się każda z liczebności teoretycznych i oczekiwanych: (2xO-2xr? = , 2xr (O-Tf Analogicznie, jeżeli zwiększymy liczebność próby ośmiokrotnie, zachowując pro- porcje, to ośmiokrotnie zwiększy się wartość a. W praktyce, w próbie powyżej 1000 osób bardzo trudno jest uzyskać wartość testu a, która pozwoliłaby na nieodrzucenie hipotezy zerowej - z wyżej wymie- nionych powodów. Trzeba pamiętać, że poziom istotności statystyki zależy od na- tężenia istniejącego związku i wielkości badanej próby. Im mniejsza jest próba, tym silniejszy musi być związek, aby jego istnienie okazało się istotne. Istnieją różne miary związku między zmiennymi nominalnymi [por. 3,16]. Poka- żemy przykładowe dwie: Na podstawie A można wyliczyć tzw. współczynnik zbieżności, który jest analo- giem do współczynnika korelacji r, choć nie uwzględnia znaku związku: C = Współczynnik C przyjmuje wartość zero, gdy zmienne są niezależne. Jego war- tość maksymalna zależy jednak od liczby wartości zmiennych (liczby wierszy i ko- lumn w tabeli krzyżowej). Dla tabeli 2x2 maksymalna wartość wynosi 0,707. Przy porównywaniu współczynników warto więc przeprowadzić ich standaryzację, dzie- ląc przez wartość maksymalną- znacznie ułatwia to interpretację. Dla danych oceniających skuteczność diety (przykład 9.2) w próbie 100-elementowej ^ wy- niósł 12,7. 12,7 = 0,34 1100 + 12,7 Wiedząc, że maksymalna wartość może wynieść 0,707, potrafimy stwierdzić, że C standary- zowane równe jest 0,48. 285 Rozdział 9. Test %2 dla zmiennych nominalnych Oblicz współczynnik C dla danych z analizowanych przykładów. Zadanie N f C Przykład 9.3 368 26,03 Ćwiczenie 9.4 363 18,77 Ćwiczenie 9.5 366 28,55 Dla zmiennych dwuwartościowych możemy policzyć współczynnik ę, ponieważ pozwoli nam on na określenie znaku związku. Przykładowo, jeżeli chcemy policzyć skuteczność nowej metody przygotowania się do egzaminu, w tabeli krzyżowej mamy liczebności par zgodności (stosował metodę i zdał lub nie stosował metody i nie zdał) oznaczone odpowiednio a i d oraz liczebności par niezgodności (stosował metodę i nie zdał lub nie stosował metody i zdał) oznaczone odpowiednio b i c. Zdał egzamin TAK NIE metoda A TAK a b a + b NIE c d c + d a + c b + d a + b + c + d Współczynnik ę liczymy według następującego wzoru: axd-bxc

-0,204 -0,216 -0,263 -0,053* -0,347 (n) nieistotny, * p < 0,05; wszystkie pozostałe współczynniki korelacji istotne p < 0,001 Zawierzenie raczej wagom ipsatywnym niż absolutnym wydaje się rozsądnym rozwiązaniem. Nasze konkluzje dotyczące negatywnego związku między wagą przy- pisywaną religii a wagą przypisywaną pracy możemy sprawdzić, dokonując tak jak poprzednio podziału medianowego obu zmiennych. Znów test chi-kwadrat nakazuje nam odrzucenie hipotezy zerowej mówiącej o niezależności obu zmiennych, ale tym razem najliczniejsze są kategorie osób wysoko ceniących pracę i nisko religię lub wysoko ceniących religię i niżej pracę. Możemy to zobaczyć na rysunku 10.3. 293 Rozdział 10. Podsumowanie i wskazówki dotyczące wyboru testu statystycznego , , religia 1 nieważna 2 ważna praca nieważna praca ważna Rysunek 10.3. Liczebności grup osób uznających religię lub pracę za ważną lub nie- ważnąwedług wag ipsatywnych Związek między obiema zmiennymi j est więc negatywny. Opisany w rozdziale 9. współczynnikphi jest ujemny ę = -0,171. W przedstawionym powyżej przykładzie analiz nie zastosowaliśmy się do pod- stawowej heurystyki, którą wielokrotnie powtarzaliśmy w podręczniku. Nie spraw- dziliśmy rozkładów obu zmiennych, przedstawionych na rysunku 10.4. ROZKŁADY WAG ABSOLUTNYCH ROZKŁADY WAG IPSATYWNYCH JAK WAŻNY ZAWÓD I PRACA JAK WAŻNY ZAWÓD I PRACA JAK WAŻNA RELIGIA 1 KOŚCIÓŁ Lii % *?* \ %'% % % ?*» *»'«. "* JAK WAŻNA RELIGIA I KOŚCIÓŁ Rysunek 10.4. Rozkłady wag absolutnych i wag ipsatywnych przypisywanych religii 294 i pracy Rozdział 10. Podsumowanie i wskazówki dotyczące wyboru testu statystycznego stycznie może być zupełnie nieważny merytorycznie. Trzeba zawsze pamiętać o róż- nicy między podejmowaniem decyzji statystycznych a wyjaśnianiem. Trzeba też pamiętać o konieczności oceny rzetelności uzyskanego wyniku i niestatystycznych czynnikach wpływających na moc zastosowanego testu. Chcemy wiedzieć, jak rzetelne są nasze wyniki, czy te same lub podobne wnioski byłyby wyciągnięte, gdyby analiza została powtórzona na innym zbiorze danych. W pew- nym sensie wnioskowanie statystyczne zastępuje powtarzanie eksperymentu. Z tego powodu reguły decyzyjne są ustalone tak jak gdyby żadne inne informacje nie były dostępne, jak gdyby hipoteza badawcza nigdy nie była testowana lub jak gdyby badacz dysponował tylko jednym zbiorem danym. W pewnych przypadkach koszty lub okoliczności nie pozwalają na analizę innego zbioru danych. Badanie może być zbyt kosztowne lub wymagać szczególnego rodzaju osób badanych, które niełatwo jest skłonić do udziału lub też trudnych do osiągnięcia czy wręcz ryzykownych warunków. W takich przypadkach decyzja musi zależeć od pojedynczej statystyki. Częściej jednak badacz ma możliwość powtórzenia eksperymentu. Nierzadko hipoteza badawcza była już testowana przez innych. Rzetelność wyniku może być oszacowana przez replikację badania. Nasze konkluzje powinny uwzględniać histo- rię podobnych badań. Na przykład jest dobrze udowodnione, że kobiety uzyskują więcej pomocy niż mężczyźni. Jeżeli w naszych analizach różnica między deklaro- wanąpomocą dla kobiet i mężczyzn okazałaby się nieistotna statystycznie, to będzie- my prawdopodobnie powstrzymywać pisanie doniesienia z badań, dopóki analiza nie zostanie powtórzona w taki sposób, że moc testu statystycznego zostanie zwięk- szona. Jednym ze sposobów zwiększenia mocy testu jest zwiększenie liczebności próby. Możemy zdobyć większą ilość danych. Możemy też poszukać moderato- •-" rów związku - zmiennych, które mają wpływ na charakter związku między płciąbiorcy a udzielaniem pomocy. Możemy sprawdzić, czy i jaki charakter ma ten związek ze względu na cechy udzielającego pomocy, np. jego wiek lub płeć. Dotychczas traktowaliśmy pojęcie wariancji zmiennej zależnej tak, że mogło- by się wydawać, iż znajduje się ona poza naszą kontrolą. Trzeba być świadomym, że wariancja może być także do pewnego stopnia kontrolowana przez badacza. Indywi- dualny wynik X może być przedstawiony jako składający się z dwóch komponen- tów: prawdziwego wyniku i jakiegoś błędu (prawdziwy wynik to to, czym byłby X, gdyby nie było żadnego błędu). Zatem: X = prawdziwy wynik + błąd. Jest to klasyczna definicja pomiaru. Błąd może być rozważany jako zmienna losowa, a estymację prawdziwego wyniku można uzyskać przez ustalenie średniej z dużej liczby oddzielnych pomiarów. Przykładem kontroli wariancji może być postępowanie Ebbinghausa*, który pro- wadził badania na sobie, ucząc się bezsensownych sylab. Traktował on wynik po- Por. Ińsko Ch.A., Schoeningen D.W. (1977). Introductory statistic forpsychology. Boston: Al- 296 lyn & Bacon. Rozdział 10. Podsumowanie i wskazówki dotyczące wyboru testu statystycznego wtórnego uczenia się jako miarę siły pamięci. Założył, że pojedynczy wynik po- wtórnego uczenia się składa się z prawdziwej miary siły pamięci i z pewnego błędu. Jednym ze źródeł błędu może być na przykład chwilowa dekoncentracja lub np. miłe wspomnienie zwiększające motywację, które mogą odpowiednio obniżyć lub podwyższyć wynik odtwarzania. Aby ten „pozytywny" i „negatywny" błąd anu- lować, Ebbinghaus powtarzał zadanie zapamiętywania wiele razy i obliczał wy- nik średni. Przy dużej liczbie pomiarów błąd zmieniał się losowo (faktycznie miał rozkład normalny z /u = 0). Innym sposobem „kontroli" wariancji jest kontrola źró- deł błędu. Ebbinghaus usiłował kontrolować błąd przez znormalizowanie warun- ków, w których się uczył. Obserwacje były dokonywane o tej samej porze dnia w ci- chym pokoju. Materiał do zapamiętania był względnie homogeniczny, a czas jego prezentacji - ściśle kontrolowany i tak dalej. We współczesnych laboratoriach zwie- rzęta są tresowane w dźwiękoszczelnych pomieszczeniach, które zapewniają pełną kontrolę stymulacji. Wszystkie te starania służą redukcji zewnętrznych wpływów na pomiary i dzięki temu redukują zmienność, która jest przyczyną błędu. W badaniach nasza możliwość kontroli jest ograniczona istnieniem nieskończenie wielu subtelnych różnic między ludźmi. Próbujemy formułować twierdzenia o tym, jak zachowują się ludzie, mając na myśli to, jak większość ludzi zachowuje się w więk- szości przypadków, w określonej klasie sytuacji. Zatem nasze wnioski mogą nie być ścisłe w odniesieniu do wszystkich ludzi w takim stopniu, w jakim na wyniki badania wpływają owe niemierzone różnice indywidualne. Różnice dotyczące postaw, syste- mu wartości, zdolności, cech osobowości oraz niedawnych doświadczeń mogą wpły- wać na sposób reagowania ludzi w eksperymencie lub odpowiadanie na pytania kwe- stionariusza. Nawet wtedy, gdy potrafimy kontrolować samą sytuację eksperymental- ną, ta sama sytuacja może nie oddziaływać na każdą osobę w dokładnie taki sam sposób. Jeśli nawet udałoby się nam tak kontrolować sytuację eksperymentalną, aby była ona dokładnie jednakowa dla każdego, to istnieje realne niebezpieczeństwo ta- kiej sterylizacji owej sytuacji, że badany nie będzie skłonny traktować jej poważnie. Słowo „sterylny" ma bowiem co najmniej dwa znaczenia: 1) wolny od zarazków oraz 2) jałowy, bezpłodny. Badacz powinien dążyć do tego, by stworzyć sytuację możliwie „wolną od zarazków", nie czyniąc jej zarazem jałową czy „sztuczną" w oczach badane- go. Jeśli wydarzenia zachodzące w trakcie badania czy pytania kwestionariusza nie są dla badanego interesujące i nie wciągają go, to prawdopodobnie jego reakcje nie będą naturalne, a zatem nasze rezultaty będą miały niewielkie znaczenie. Tak więc kontrola to nie wszystko, równie ważne jest, aby procedura badawcza oddziaływała na bada- nych. Powinni oni traktować to, o co są pytani poważnie i przejmować się tym, gdyż w przeciwnym razie ich odpowiedzi będą pozbawione znaczenia. Wiele trudności spra- wia badaczom społecznym fakt, że dwa czynniki decydujące o jakości wyników: od- działywanie i kontrola prowadzą do sprzecznych rekomendacji. Badanie pamięci przez uczenie się w sterylnych warunkach bezsensownych sylab (wysoka kontrola czynników zakłócających proces) może spowodować bardzo niską motywację ba- danych do zapamiętywania (zbyt słabe oddziaływanie), a przez to prowadzić do uzy- skania czystych, ale zupełnie nieistotnych teoretycznie wyników. r 297 Rozdział 10. Podsumowanie i wskazówki dotyczące wyboru testu statystycznego 298 Otrzymanie wyników istotnych statystycznie to nie wszystko. Wszystkie cza- sopisma naukowe zalecają podawanie współczynników siły efektu, procentu wyjaśnionej wariancji zmiennej zależnej przez zmienne niezależne. Omówione są one dokładnie w literaturze [4, 5,6], do której odsyłamy Czytelnika. Niektórzy są bardzo zawiedzeni, widząc jak niewielki procent wariancji jesteśmy w stanie wy- jaśnić w badaniach społecznych. Chcielibyśmy bardzo silnych zależności, takich jakich dostarczają nam obiegowe przekonania: „wszyscy jedynacy są egoistami". Tak nigdy nie jest. Dlaczego? Bo większość zmiennych jest uwarunkowana wielo- czynnikowo. To, że ktoś wychowywał się w domu bez rodzeństwa, a więc ma dużo doświadczeń w relacjach pionowych np. „rodzic-dziecko", a niewiele w relacjach poziomych „brat-siostra", może TYLKO sprzyjać większej koncentracji na sobie przy założeniu, że wpływ innych czynników jest wyrównany. To ostatnie zdanie jest bardzo ważne. Znaczy ono tyle, że jeżeli mielibyśmy dwie „identyczne" osoby różniące się TYL- KO liczbą rodzeństwa, to możemy przewidywać, że jedynacy będąbardziej skoncen- trowani na sobie niż osoby wychowywane razem z rodzeństwem. Takich identycz- nych osób nie ma, a istnieje wiele innych zmiennych, które też wpływają na poziom koncentracji na sobie. Kontrola jest jedną z głównych zalet eksperymentu, jednakże nie można objąć całkowitą kontrolą środowiska, z którego pochodzą badani ludzie. Jednym z powodów, dla których wielu psychologów przeprowadza badania na szczu- rach zamiast na ludziach jest fakt, że umożliwia to badaczowi kontrolowanie prawie wszystkiego, co dzieje się z jego badanymi od chwili urodzenia aż do czasu zakoń- czenia eksperymentu: klimatu, diety, ćwiczeń, kontaktów z towarzyszami zabaw, trau- matycznych doświadczeń itp. Do badań używa się ostatnio także szczurów o ściśle określonych genach. Psychologowie społeczni nie mają takich możliwości kontroli wpływów ge- netycznych i środowiskowych, więc procenty wariancji wyjaśnionej przez zmien- ne niezależne nie będą nigdy imponujące. W badaniach sondażowych możemy minimalizować błąd, poddając analizie złożone wskaźniki zamiast odpowiedzi na pojedyncze pytania (patrz rozdział 3.). Możemy też kontrolować inne ważne zmienne w analizach statystycznych, stosując analizy wielowymiarowe. Nie jest to jednak tak proste jak mogłoby się wydawać. Wprowadzenie dodatkowych predyktorów może zaciemnić obraz relacji między na- szymi zmiennymi. Ważny problem stanowi stopień skorelowania predyktorów w równaniu regresji. Zwiększanie liczby zmiennych niezależnych w równaniu regre- sji daje gorsze wyniki, choć teoretycznie potęgujemy kontrolę potencjalnych zmien- nych zakłócających. Często predyktory mogą mieć interakcyjny wpływ na naszą zmienną zależną. Rozważmy ten problem na przykładzie prób reprezentatywnych. Próby reprezentatywne pozwalające na generalizację naszych wyników na całą populację (warunek trafności zewnętrznej) powodują wzrost niekontrolowanej przez badacza wariancji w stopniu często uniemożliwiającym wykrycie związku. W mode- lach liniowych całkowite zróżnicowanie zmiennej zależnej jest dzielone na zróżni- cowanie wyjaśnione zmiennymi niezależnymi i zróżnicowanie niewyjaśnione Rozdział 10. Podsumowanie i wskazówki dotyczące wyboru testu statystycznego (błąd). Możemy oczekiwać, że grupy homogeniczne (np. studenci, rolnicy) nadają się lepiej do badań społecznych niż grupy heterogeniczne (np. próby reprezenta- tywne). Te ostatnie są konieczne i doskonałe dla określania rozkładu zmiennej w po- pulacji, np. przewidywania wyników wyborów. Dla określania związków między zmiennymi różnice w wielu zmiennych socjodemograficznych stanowią źródło wa- riancji niewyjaśnionej i zaciemniają związek między zmiennymi niezależnymi i za- leżnymi. Z powodów opisanych wyżej uwzględnienie wszystkich zmiennych socjo- demograficznych i ich interakcji w analizie regresji może być ze względów staty- stycznych (skorelowanie predyktorów, liczebność próby) nieefektywne. Zobaczmy, jak zmienia się procent wyjaśnionej wariancji w wadze przypisywa- nej pracy przez 4 predyktory: waga przypisywana religii, wykształcenie (w latach), wiek, płeć respondenta w różnych podgrupach badanych (badani mieszkający na wsi, w miastach powyżej 100 tysięcy i w miastach powyżej 250 tysięcy mieszkańców). Największy procent wyjaśnionej wariancji uzyskano w najmniejszej podpróbie, ale nie jest to związane z liczebnością, lecz z charakterem wariancji zmiennych. W tabeli 10.5 przedstawiono standaryzowane współczynniki regresji, liczebność próby i procent wyjaśnionej wariancji. Tabela 10.5. Analiza regresji zmiennej WAŻNOŚĆ PRZYPISYWANA PRACY z czte- rema predyktorami N Procent wyjaśnionej wariancji Waga religii Wykształcenie Wiek Płeć cała próba 1747 11,7% -0,21 0,09 -0,18 -0,06 tylko wieś 655 9% -0,14 0,07* -0,19 -0,09 miasta powyżej 100 tys. 497 12,7% -0,25 0,07* -0,19 -0,04 miasta powyżej 250 tys. 165 25,4% -0,41 0,14 -0,15 -0,004 (") współczynnik nieistotny statystycznie, * tendencja statystyczna p < 0,1; pozostałe standary- zowane współczynniki regresji istotne p < 0,001 W całej analizowanej próbie jest 45,9% mężczyzn, w podpróbie mieszkającej na wsi 49,3 %, w mieście 41,4%. Obie podpróby nie różnią się pod względem wieku, ale mają istotnie różne zarówno średnie, jak i wariancje pozostałych zmiennych. Zróżni- cowanie zmiennych jest większe w mieście niż na wsi. W mieście średnia waga przy- pisywana religii j est mniej sza, zaś przypisywana pracy większa niż na wsi, co zostało przedstawione na rysunku 10.5. Ludzie mieszkający w mieście są lepiej wykształce- ni. Wszystkie te różnice mogą odpowiadać za większy procent wariancji wyjaśniony na podpróbie miejskiej niż wiejskiej. 299 Rozdział 10. Podsumowanie i wskazówki dotyczące wyboru testu statystycznego $ waga pracy waga religii wieś 2.0 miasto Rysunek 10.5. Średnia waga przypisywana pracy i religii przez mieszkańców miast i wsi Powtórzmy: Jakość naszego wniosku statystycznego zależy od mocy testu; moc testu zależy od wariancji. Te rozważania są częścią oceny wyników analizy. Jeżeli Ho nie może być odrzucona, mogą być za to częściowo odpowiedzialne niekontrolowane źródła wariancji. Możemy poszukać innych danych pozwalających przetestować naszą hi- potezę, dobrać bardziej homogeniczne grupy osób badanych itd. Każdy z tych wysił- ków byłby nakierowany na redukcję wariancji i zwiększenie ufności wobec otrzyma- nej statystyki. Na rysunku 10.1 przedstawiliśmy tylko testy związku między dwiema zmien- nymi, ale umiemy już także testować hipotezy dotyczące związku między większą liczbą zmiennych. Gdy mamy dwie zmienne nominalne i jedną przedziałową, zasto- sujemy dwuczynnikową analizę wariancji, gdy mamy więcej zmiennych przedzia- łowych, zastosujemy regresję wielokrotną (wieloraką) itd. Nie sposób w podstawowym podręczniku zawrzeć wszystkiego, co jest przydat- ne w analizach. Przestawiliśmy tylko te testy, które są najczęściej używane w bada- niach społecznych. Jeżeli Czytelnik zrozumiał, że wnioskowanie statystyczne jest przeprowadzane ciągle według tego samego schematu, nasz cel został osiągnięty. W tabeli 10.6 zebraliśmy kilka wskazówek dotyczących skojarzeń (a nie DEFINI- CJI) wiążących pytanie badawcze z testem, które pozwolą się zorientować, jakiej nieomówionej w tym podręczniku techniki statystycznej potrzebujemy. Wszystkie niezbędne informacje znajdziemy w podanej w rozdziale 1. literaturze. 300 Rozdział 10. Podsumowanie i wskazówki dotyczące wyboru testu statystycznego Tabela 10.6. Dobór metod analizy danych do problemów badawczych w zależności od pytania badawczego Chcemy sprawdzić, czy zestaw zmiennych ilościowych pozwala na stworzenie z nich jednego wskaźnika. Analiza czynnikowa (analiza składo- wych głównych). Analiza rzetelności - aCronbacha [por. 21, 10], rozdział 3. Chcemy odtworzyć zależności między obiektami w wielowymiarowej przestrzeni, przedstawiając obiekty jako punkty, a ich miary podobieństwa jako odległości między punktami. Skalowanie wielowymiarowe [por. 21] Chcemy stworzyć (odkryć) taksonomię obiektów tak, aby obiekty zaliczone do jednej kategorii były bardziej do siebie podobne niż zaliczone do różnych kategorii. Analiza skupień [por. 4] Chcemy testować model przyczynowy na podstawie macierzy korelacji między zmiennymi. Analiza ścieżek Modele równań strukturalnych [por. 14] Chcemy badać łączny wpływ paru czynników (zmienne nominalne) na więcej niż jedną zmienną ilościową. Wielozmiennowa wieloczynnikowa analiza wariancji [por. 4] Chcemy zbadać wpływ paru zmiennych nominalnych na zmienną ilościową, kontrolując inne zmienne ilościowe. Analiza kowariancji [por. 10, 11, 3] Chcemy zbadać związek między zmiennymi porządkowymi. rs Spearmana r(tau) Kendala [por. 3, 10] Chcemy zbadać związek między zmienną nominalną wyznaczającą podział na k grup niezależnych i zmienną porządkową. k - 2: test Manna-Whitneya k> 2: test Kruskala-Wallisa [por. 10] Chcemy zbadać związek między zmienną nominalną wyznaczającą podział na k grup zależnych i zmienną porządkową. k = 2: test znaków, test Wilcoxona dla par k> 2: test Friedmana [por. 10] Kończymy w tym momencie jazdy z instruktorem, co nie oznacza, że zostawia- my Czytelnika samego. Przyszedł czas na lekturę bardziej zaawansowanych prac meto- dologicznych [4, 5, 6, 10, 19] i czas na samodzielne eksperymentowanie z analizą da- nych. Żaden, nawet najlepszy kurs jazdy nie zastąpi własnego doświadczenia. Kwali- fikacje kierowcy najlepiej można ocenić, pytając o liczbę godzin spędzonych za kierownicą. Analogicznie nasze kwalifikacje dotyczące analizy danych zależą od licz- by analiz, które wykonaliśmy. Oczywiście może być to wskaźnik mylący, bo tak jak kierowca może jeździć wyłącznie po wielopasmowej autostradzie, tak my możemy, pracując w mało ambitnej agencji, produkować wyłącznie rozkłady frekwencji. Życzymy Czytelnikom, aby wyniki ich analiz wzbudzały dreszczyk emocji za- chęcający do dalszych dociekań. Statystyka jest tylko narzędziem do rozwiązy- wania problemów badawczych. A tych w naukach społecznych nie brakuje. Prawi- dłowe wykorzystanie narzędzi zwiększy w znaczący sposób przyrost naszej wiedzy. Niechęć badaczy do zrozumienia istoty wnioskowania statystycznego zbyt często powoduje, że zgromadzone dane zamiast pogłębiać naszą wiedzę lądują w koszu. 301 Rozdział 10. Podsumowanie i wskazówki dotyczące wyboru testu statystycznego Przypominamy, że nie omówiliśmy w podręczni- ku bardzo wielu ważnych zagadnień metodologicz- nych, dlatego dalsza lektura jest konieczna [patrz spis literatury w rozdziale 1.]. Mamy nadzieją, że po prze- łamaniu niechęci będzie ona łatwiejsza. Zapraszamy do zaglądania na naszą stronę inter- netową WWW.COme.UW.edu.pl/gW i dzielenia się z nami refleksjami. 302 Tablice Tablice o o LU Cć. o N O cn < (0 g O O O O O OOOOO OOOOO OOOOO OOOOO OOOOO MSOI t- CN CO - c 1 VO CD CO O) o" o" o" o" o" o" o" o" o o" o" o" o" o" o" o" o" o" o" o' o" o" o" o" o" o" cn o co lo co i-0)o - CO N N S I*- (0 <Ł „ ~ ~ o o o ood i O O OOCI o o o o" o o o" o" o" o" o" o* o" cl CM CN CN CN CN CŃ" CN CM CN CN o COlCDCDin LO -t n in t- o i ininw ld in w in tn in lOOOO OOOOO o" o" o" o" o" o" o" o" o" o" U) IO S CO O) CN CN* CN CN CM* IO U) lf) if) ifl O) CO f"1- CD LO ?^r "3- - to f- CO O> cn m R (O Irl 02 g 0? o _ & 0 o o O o o o O 0 eo ••et ID tO 1 o" o* o" o" o" OOOOO OOOOO CN CM CN T- t- o o" o" o" o" Ul (O S CO O) ?ł-T-csicoin cdcoocolo LOCOt-OIS. inCOCMOCO t-t-1-OO OOOOO) OOOOO OOOOO COi-^COr mOJCOCOCO CDLOCOt-O COCDLOCOCM o>aio)O)o> cococococo OOOOO OOOOO o" o* o" o" o" o" o" o" o" o" cococo"*a> OO)r-.C0"*l- CO S S S S OOOOO o" o" o" o" o" > ^- U) (O N I m-r COTf O O Ol O) CO CO CN CN I o" o" o" o" o" r M (O I1 > to u) m to r o" o o o" cn r*- co o co »- r-v -j- i- r^- 0) CO CO CO S CN CM CM CM CM o" o" o" o" o" u> to N- oo cn m lo u"> io in o" o" o" o" o" ) i— CO CO Ni" CO t— OOOOO t- cn eo ?* (O tO tO tO tO o" o* o" o" o OOOOO 0,2420 0,2389 0,2358 0,2327 0,2296 <- cn eo ^r h- r-. i- r- r- o" o" o" o" o" o" o" o" o" o" ifllO SCOOI r- k r* r-_i^. o" o o" o" o S Ol CN t N r-~ ?* cm O) co O) Ol Ol CO CO OOOOO OOOOO - ^r co cm cd t- in t " t- CO CO CO i- CO ( . CO N N N h- CO ( i o o o o o o" o" o o" o" OOOOO OOOOO t- cm n ?* o" o" o" o" o" OOOOO io LO R CM o 03 CD CD CO co CO - CM co ?*? LO CD co 322 19 418 20 CM LO 601 22 689 23 775 25 858 26 939 27 018 28 096 29 172 30 246 31 319 32 391 34 461 35 530 36 524 656 ' 781 899 ' 011 119 - , 222 3,50 I 455 1 386 2 366 3 357 4 351 6 348 7 346 8 344 9 o x— CM ?"* LO CD r- 00 OT 338 20 338 21 337 22 337 23 337 24 337 26 337 27 337 28 336 29 336 30 336 31 336 32 336 33 343 1 342 ' 341 1 340 ' 340 ' 339 1 339 1 338 1 338 ' o 148 0 713 1 424 2 195 3 000 4 9 828 671 6 527 7 393 8 267 9 o T- CN co LO CD oo OT 182 20 101 21 021 22 943 23 867 24 792 25 719 26 647 27 577 28 62 809 148 1 034 926 1 821 1 721 1 624 1 531 1 440 1 352 1 266 1 3,80 o 00 446 0 005 1 649 2 343 3 070 3 822 4 594 5 380 6 179 7 989 8 807 9 634 9 o CN co LO CD 00 OT OT 940 20 820 21 703 22 588 23 475 24 364 25 CD 307 152 1 002 1 857 1 716 1 578 1 445 1 314 1 187 1 062 1 CD O o i- T- CM co co ?* LO co CD r~ 00 OT o i- CN CM co LO CD 00 oo OT o CN CO 3,90 579 0, CN 584 064 610 204 833 490 168 865 578 304 041 790 547 ' 312 085 ' 865 ' 651 ' 443 ' 240 ' 041 ' 848 ' 659 ' 473 ' 292 ' 114 ; 939 2 768 ', 599 1 n O o 1- T- CN CN co LO CD h- 00 OT o o i- CM co LO CD co oo OT o 3,95 o" co OT CO 103 352 711 145 635 167 733 325 940 575 226 892 571 261 962 672 1 390 1 117 851 1 OT IO 338 1 091 1 848 1 611 1 379 1 151 928 1 708 1 493 : O o o o ?<- ?<- CM CM co co LO LO co r~ 00 OT o o ?<- CM co co ? O CM co IO CO 00 O) o CM «N CM CM m CM CM IO CM (O CM CM 00 CM CM o co OT OT LO o" CM CO OT 00 CO O CO co" co LO OT I O i to