Seria WYKŁADY Z PSYCHOLOGII Redaktor naukowy: Jerzy Brzeziński tom 6 Seria Wykłady z Psychologii obejmuje autorskie ujęcie podstawowych dziedzin psychologii, wchodzących w obręb programu pięcioletnich studiów magisterskich na tym kierunku. Poszczególne książki z tej serii, napisane przez badaczy o długoletnim doświadczeniu dydaktycznym i znaczących osiągnięciach naukowych, adresowane są przede wszystkim do studentów psychologii, ale mogą też być z pożytkiem wykorzystane przez studentów pokrewnych kierunków. W serii Wykłady z Psychologii będą ukazywały się książki, które odnoszą się do przedmiotów ujętych w Minimalnych wymaganiach programowych opracowanych przez Radę Główną Szkolnictwa Wyższego oraz w Standardach akredytacji kierunku studiów psychologia Uniwersyteckiej Komisji Akredytacyjnej — zarówno z grupy przedmiotów podstawowych, jak i grupy przedmiotów ujętych w programach różnych specjalności (psychologii klinicznej, psychologii edukacji, psychologii organizacji i zarządzania itd.). Zaprezentowane zostaną także najnowsze obszary badań w zakresie podstaw i zastosowań psychologii, m.in.: neuronauka poznawcza, genetyka behawioralna, psychologia polityczna, psychologia środowiskowa, psy-chologiareklamy. Elżbieta Hornowska Testy psychologiczne Teoria i praktyka ? Wydawnictwo Naukowe SCHOLAK Redaktor: Filip Modrzejewski Korekta: TLespól Projekt okładki: Katarzyna Juras Copyright © 2001, 2003 by Wydawnictwo Naukowe „Scholar", Warszawa ? ISBN: 83-7383-056-1 St u kknłczaei. p"«Vi.rsr4f>tfn cum- Wydawnictwo Naukowe „Scholar", Spółka z o.o. .i* tui Łś ul. Krakowskie Przedmieście 62, 00-322 Warszawa tel./fax 828 95 63, 826 59 21, 828 93 91 dział handlowy: 635 74 04 w. 219 lub jw. wew. 108 e-mail info@scholar.com.pl http://www.scholar.com.pl Wydanie drugie Skład i łamanie: WN „Scholar" (Stanisław Beczek) Drukarnia Diecezjalna w Sandomierzu tel. (0-15) 832-31-92 r ? Spis treści Wstęp............................................. Część I Podstawowe problemy psychometrii Rozdział 1. Wnioskowanie psychometryczne................ 1.1. Czym zajmuje się psychometria?....................... 1.2. Definicja testu i rodzaje testów........................ Definicja testu.................................... Rodzaje testów................................... 1.3. Kryteria dobroci testów psychologicznych......... Obiektywność, czyli niezależność wyników testowania Standaryzacja, czyli jednolitość warunków badania.......... Rzetelność, czyli dokładność pomiaru................... Trafność, czyli obszar zastosowania testu................. Normy, czyli nadawanie znaczenia wynikom testowym....... Właściwa adaptacja, czyli dopasowanie testu do polskich warunków 1.4. Proces wnioskowania psychometrycznego................. 1.5. Dwa słowa o historii testowania....................... Podstawowe pojęcia................................... Literatura zalecana.................................... n 17 17 21 21 22 25 25 26 28 28 29 29 32 35 38 40 Rozdział 2. Klasyczna teoria testów jako podstawa wnioskowania o rzetelności testu.................................... 41 2.1. Źródła błędu w pomiarze testowym..................... 41 Konstrukcja testu.................................. 42 Sytuacja testowania................................ 42 Sposób oceny wyników............................. 43 2.2. Model wyniku prawdziwego i jego założenia - klasyczna teoria testów............................ 43 2.3. Definicja rzetelności................................ 45 Interpretacja współczynnika rzetelności.................. 48 2.4. Metody badania rzetelności........................... 49 Badanie rzetelności metodą powtarzania testu (tzw. technika test-retest)............................ 49 Rzetelność szacowana metodą wersji równoległych (alternatywnych) 51 Rzetelność szacowania na podstawie wyników jednokrotnego badania danym testem.............................. 52 Rzetelność jako zgodność ocen........................ 55 Porównanie poszczególnych współczynników rzetelności...... 55 Rzetelność testów szybkości.......................... 57 Rzetelność testów zorientowanych na kryterium (standard wykonania) 59 Czynniki wpływające na wielkość współczynnika rzetelności ... 60 2.5. Ocena rzetelności indywidualnego wyniku................ 63 Standardowy błąd pomiaru........................... 63 Standardowy błąd różnicy między dwoma wynikami......... 67 2.6. Teoria uniwersalizacji jako odmiana klasycznej teorii testów ... 69 Wariancja wyników testowych........................ 70 Źródła wariancji.................................. 71 Wariancja prawdziwa oraz wariancja błędu................ 72 Schematy badawcze................................ 72 Podstawowe pojęcia................................... 79 Literatura zalecana.................................... 79 3.2. 3.3. 3.4. Rozdział 3. Trafność, czyli określanie obszaru zastosowania testu . 80 3.1. Pojęcie trafności.................................. 80 Rodzaje trafności.................................. 82 Sposoby badania trafności............................ 85 Trafność treściowa................................. 85 Trafność kryterialna................................ 90 Trafność teoretyczna............................... 94 Stronniczość testów................................100 Definicja stronniczości..............................102 Potencjalne źródła stronniczości testu....................104 Stronniczość testu a trafność treściowa...................107 Stronniczość testu a trafność kryterialna..................109 Stronniczość testu a trafność teoretyczna.................110 Techniki szacowania stronniczości testu..................111 Wykorzystanie testów dla celów selekcyjnych..............114 Indywidualizm nieograniczony........................119 Indywidualizm ograniczony..........................121 Dobór kwotowy...................................123 Podstawowe pojęcia...................................127 Literatura zalecana....................................127 3.5 Rozdział 4. Normy, czyli nadawanie znaczenia wynikom testowym 128 4.1. Pojęcie normy w psychometrii........................128 Znaczenie grupy odniesienia..........................129 Normy ogólnokrajowe..............................131 Normy lokalne...................................133 4.2. Rodzaje norm ze względu na sposób ich konstrukcji.........134 Normy standardowe................................134 Normy rangowe...................................146 Normy typu równoważnikowego.......................150 4.3. Interpretacja wyników testów zorientowanych na kryterium .... 154 Podstawowe pojęcia...................................156 Literatura zalecana....................................157 Rozdział 5. Konstruowanie testu - podstawowe procedury......158 5.1. Od czego zaczynamy?..............................160 Określanie celu pomiaru.............................160 Określanie obszaru zachowań identyfikowanych z mierzonym konstruktem (procedura operacjonalizacji)................160 5.2. Zasady budowania pozycji testowych....................162 5.3. Analiza zadań....................................167 Analiza językowo-treściowa..........................167 Badanie pilotażowe................................169 Wskaźnik trudności................................170 Współczynniki mocy dyskryminacyjnej..................175 Rzetelność \ trafność pozycji testowej...................182 Analiza zadań w testach szybkości......................184 Analiza zadań w testach zorientowanych na kryterium........184 5.4. Stronniczości pozycji testowych - zjawisko zróżnicowanego funkcjonowania pozycji.............................186 5.5. Ostateczna rewizja testu.............................191 Walidacja krzyżowa................................191 5.6. Teoria odpowiadania na pozycje testu...................193 Ograniczenia modelu klasycznego......................193 Założenia IRT....................................195 Krzywa charakterystyczna pozycji testowej................195 Parametry pozycji testowej i skala cechy latentnej...........197 Modele formułowane w ramach IRT....................199 Gdzie wykorzystuje się modele IRT?....................202 Podstawowe pojęcia...................................204 Literatura zalecana....................................204 Rozdział 6. Społeczny kontekst stosowania testów psychologicznych 205 6.\. Testowanie psychologiczne - społeczne niebezpieczeństwa.....205 6.2. Prawa osób badanych...............................213 Prawo do wyrażenia świadomej zgody na badanie testem......213 Prawo do informacji o wynikach testowania...............214 Prawo do minimalizowania skutków etykietowania ..........215 Prawo do zachowania tajemnicy o wynikach testowania.......215 Prawo do prywatności..............................217 6.3. Testy przed sądem.................................217 6.4. Testy jako produkty rynkowe.........................220 Podstawowe pojęcia...................................224 Literatura zalecana.................................... Część II Krótki przewodnik, czyli jak samemu zbudować TEST Poradnik dla studentów................................ Llteratura......................................... Indeks nazwisk...................................... 227 241 255 - ? 8 i\ ioioir? Spis rysunków Rys. 1.1. Definicje semantyczne i syntaktyczne ......................... 19 Rys. 1.2. Podział testów ze względu na rodzaj możliwej odpowiedzi .......... 24 Rys. 1.3. Podział testów ze względu na rodzaj interpretacji wyniku testowego ... 25 Rys. 1.4. Proces wnioskowania psychometrycznego ...................... 35 Rys. 2.1. Źródła błędu losowego w badaniu testowym .................... 42 Rys. 2.2. Metody badania rzetelności ................................ 56 Rys. 2.3. Rzetelność testu jako funkcja jego długości ..................... 61 Rys. 2.4. Schemat badawczy dla układu krzyżowego oraz układu gniazdowego . . 76 Rys. 2.5. Kolejne etapy postępowania w ramach teorii uniwersalizacji ......... 78 Rys. 3.1. Definicja i rodzaje trafności ............................... 86 Rys. 3.2. Kiedy test jest trafny treściowo? ............................ 88 Rys. 3.3. Diagramy korelacyjne przedstawiające rodzaje relacji między wynikami testowymi (X) i zmienną kryterialną (Y) w grupie większości i mniejszości 113 Rys. 3.4. Podział populacji starających się o pracę przy uwzględnieniu kwalifikacyjnego wyniku testu psychologicznego (oś X) oraz kryterium pracy zawodowej (oś Y) .................................. 116 Rys. 3.5. Różne kombinacje stosunku wyboru i stosunku powodzenia przy różnych stopniach trafności prognostycznej testu ....................... 117 Rys. 4.1. Normy typu standardowego ................................ 135 Rys. 4.2. Rozkład normalny a skala staninowa ......................... 137 Rys. 4.3. Wykorzystanie skali standardowej o szerokim zakresie wyników (Skala T) i skali standardowej o wąskim zakresie wyników (skala staninowa) do przedstawienia wyników dwóch osób (X) i (Y) .................. 139 Rys. 4.4. Efekt niezgodności między długością skali wyników surowych a długością skali wyników przeliczonych............................... 141 Rys. 4.5. Graficzna reprezentacja istoty procesu normalizacji ............... 143 Rys. 4.6. Etapy procedury normalizacji .............................. 145 Rys. 4.7. Skala centylowa ........................................ 148 Rys. 4.8. Związek między centylami a rozkładem normalnym .............. 149 Rys. 4.9. Siatka centylowa obrazująca możliwość porównywania dwóch wyników wyrażonych w centylach .................................. 150 Rys. 5.1. Etapy tworzenia testu .................................... 159 Rys. 5.2. Rodzaje związków między wynikiem danej pozycji testowej a ogólnym wynikiem w teście ...................................... 176 Rys. 5.3. Ilustracja problemu nakładania się zakresów .................... 181 Rys. 5.4. Związek między wynikiem otrzymanym w teście a poziomem mierzonej cechy w klasycznej teorii testów oraz w IRT .................... 194 Rys. 5.5. Przykład hipotetycznej krzywej charakterystycznej pozycji testowej (item characteristic curve, ICC) ................................. 196 Rys. 5.6. Dwie krzywe ICC różniące się współczynnikami mocy dyskryminacyjnej pozycji testowej ........................................ 197 Rys. 5.7. Dwie krzywe ICC różniące się współczynnikami trudności pozycji testowej 198 Rys. 5.8. Dwie krzywe ICC różniące się współczynnikami zgadywania ........ 200 Rys. 5.9. Trzy hipotetyczne sytuacje, w których stronniczość pozycji testowych wynika z (a) różnej mocy dyskryminacyjnej pozycji testowej w obu grupach, (b) różnej trudności i (c) różnego współczynnika zgadywania ........ 203 Spis tabel 10 Tab. 1.1. Elementy sytuacji badania testem objęte procedurą standaryzacji ...... 27 Tab. 1.2. Kryteria pozwalające odróżnić dobry test od testu złego ............ 31 Tab. 1.3. Najważniejsze daty w historii pomiaru psychologicznego ........... 39 Tab. 2.1. Podstawowe źródła błędu w różnych metodach szacowania rzetelności . 57 Tab. 3.1. Minimalne wartości współczynnika trafności treściowej (CVR), pozwalające uznać otrzymaną wielkość CVR za istotną statystycznie (dla a = 0,05) . . 89 Tab. 4.1. Kwotowy układ polskiej próby normalizacyjnej dla testu WAIS-R(PL) . 132 Tab. 4.2. Przykład normalizacji rozkładu oraz obliczania norm typu standardowego 144 Tab. 4.3. Przykład obliczania norm typu centylowego .................... 147 Tab. 4.4. Wady i zalety norm typu równoważnikowego ................... 153 Tab. 5.1. Konstruowanie pozycji testowej wielokategorialnej zjedna opcją do wyboru 167 Tab. 5.2. Wartości wskaźnika trudności dla poszczególnych pozycji oraz średnia trudność testu Słownik z baterii WAIS-R (PL) .................. 172 Tab. 5.3. Rozkład wartości poprawionego wskaźnika trudności (To) dla pozycji posiadających różną liczbę kategorii odpowiedzi ................. 174 Tab. 5.4. Przykładowe wyniki dla trzech wybranych pozycji testowych ........ 177 Wstęp W tym roku mija 113 lat od ukazania się pierwszej pracy poświęconej statystycznej teorii wyników testowych (Edgeworth, 1888, 1892)1. W ciągu ponad stulecia psychometria - dział psychologii zajmujący się budowaniem teorii wyników otrzymywanych za pomocą testów psychologicznych - osiągnęła status samodzielnej dyscypliny naukowej, a praktyczne konstruowanie i stosowanie testów stało się przemysłem rynkowym. W okresie tym ukazały się tak znaczące prace, jak An Introduction to the Theory of Mentol and Sociał Measurement E.L. Thorndike'a (1919), Theories of Mentol Tests H. Gulliksena (1950), A Theory ofTest Scores RM. Lorda (1952), Probabilis-tic Models for Some Intelligence and Attainment Tests G. Rascha (1960), Statistical Theories ofMental Test Scores F.M. Lorda i M.R. Novicka (1968) czy The Dependability of Behavioral Measurement L.J. Cronbacha, G.C. Gleser, H. Nandy, N. Rajaratnama (1972) - by wymienić tylko najważniejsze. Prace te wyznaczyły sposób myślenia badaczy oraz kierunek podstawowych rozwiązań, jakie wypracowano w tej dziedzinie. Robert Sternberg (1992, s. 134) - wybitny teoretyk inteligencji - opisując drogę, jaką przebyła psychometria, posłużył się interesującą metaforą. Na przełomie wieków obraz świata uległ ogromnej zmianie dzięki nowemu rewolucyjnemu wynalazkowi - samochodowi. Na początku przyjmowany nieufnie, samochód szybko przekonał ogromne rzesze ludzi o swojej użyteczności. Dzisiejsze marki, chociaż różniące się wyglądem i parametrami technicznymi, w gruncie rzeczy niewiele odbiegają od swojego pierwowzoru: mają cztery koła, silnik i kierownicę, a ich zadaniem jest dowieźć nas tam, gdzie sobie życzymy. Podobnie przedstawia się sytuacja z testami. Dzisiejsze metody testowe - mimo innych opakowań, nieco lepszej trafności i rzetelności - niewiele się różnią od pierwszego testu opracowanego przez Bineta i Simona (1905a, b, c). Składają się z pozycji testowych i mają służyć oszacowaniu wartości określonych cech psychologicznych. Tu jednak kończą się podobieństwa. Szacowanie wartości cech psychologicznych nie jest samo w sobie celem - na podstawie ich wyników podejmowane są decyzje o dużej doniosłości społecznej (to, gdzie ludzie jeżdżą samochodami, nie budzi wszak większego zainteresowania społecznego). Rzeczywisty cel stosowania testów psychologicznych jest jednak znacznie poważniejszy: „Psychologowie (...) mierzą za pomocą testów, by osiągnąć 1 Prawdopodobnie pierwszą polską pracą z dziedziny psychometrii jest praca Bolesława Błażka pt Studya psychometrycwe. Pomiary na uczniach, wydana w roku 1900, we Lwowie, nakładem Towarzystwa Wydawniczego. Panu Prof. Jerzemu Brzezińskiemu serdecznie dziękuję za udostępnienie egzemplarza tej książki. 11 Wstęp 12 jeden z dwóch celów (lub oba te cele jednocześnie): albo opisać badaną osobę ze względu na interesujące psychologa parametry lub aby przewidywać zachowanie tej osoby w określonej sytuacji" (Paluchowski, 1991, s. 58). Co więcej, ów opis lub przewidywanie są wykorzystywane dalej w procesie „aktywnego poszukiwania danych potrzebnych do podjęcia decyzji o działa-niach zmierzających do zmiany aktualnego stanu (położenia) psychospołecznego ludzi" {ibidem, s. 32). Testy będą z całą pewnością w coraz szerszym użyciu - od szkoły począwszy na rynku pracy skończywszy. Pytania dotyczące ich uczciwego stosowania będą zyskiwały coraz większe społeczne uznanie. Wraz z rosnącymi wymogami posiadania bardziej pogłębionego wykształcenia ogólnego oraz z coraz częściej obserwowaną tendencją do zmniejszania się znaczenia formalnych ocen szkolnych czy formalnych dyplomów osoby odpowiedzialne za dobór kadr będą poszukiwać bardziej precyzyjnych i bardziej obiektywnych metod oceny kwalifikacji kandydatów, bardziej trafnych metod selekcji np. osób starających się o pracę. Standaryzowane testy w sposób niekwestionowany udowodniły swoją przydatność dla tych celów. Psychologowie, jako grupa zawodowa, muszą jednak umieć odpowiedzieć na pytania: na czym polega idea wnioskowania psychometrycznego; jakie kryteria powinien spełniać dobry test; czy testy zastosowane w konkretnej sytuacji nie są stronnicze (w sensie psychometrycz-nym); czy procedura selekcji oparta na wynikach testowych jest uczciwa w stosunku do wszystkich zainteresowanych osób i jakie są społeczne konsekwencje testowania. Książka ta poświęcona jest tym właśnie zagadnieniom. Struktura książki Praca ta składa się z dwóch części. W części pierwszej omówione zostały podstawowe zagadnienia psychometryczne, takie jak definicja testu i rodzaje testów, klasyczna teoria testów i jej współczesne odmiany, teoria rzetelności, zagadnienia trafności oraz koncepcja norm. Osobny rozdział poświęcony został problematyce konstrukcji testów. Wszystkie te problemy zostały przedstawione w sposób maksymalnie nietechniczny, aby zwrócić uwagę Czytelnika na istotę zagadnień psychometrycznych, która często - w gąszczu wzorów i reguł - schodzi na dalszy plan. Czytelników zainteresowanych bardziej matematycznym wykładem prezentowanych treści odsyłam przede wszystkim do prac Lorda i Novicka (1968), Nowakowskiej (1975), Magnus-sona (1981) czy Machowskiego (1993). Ostatni rozdział tej części poświęcony został omówieniu społecznych konsekwencji testowania. Takie problemy jak prawa osób rozwiązujących testy czy testy jako produkty rynkowe wymagają bowiem - jak sądzę - oddzielnego i szczegółowego omówienia. W części drugiej omówione zostały zasady obowiązujące przy konstruowania metod testowych; ma ona formę poradnika przeznaczonego dla studentów. I chociaż w większości wypadków korzystamy dziś z gotowych metod testowych, zdarza się i tak (szczególnie często dotyczy to studentów), że Wstęp trzeba opracować metodę niezbędną do realizacji konkretnych celów diagnostycznych. Ten przewodnik ma pomóc studentom w rozstrzyganiu wątpliwości, jakie towarzyszą takiemu zadaniu. Na zakończenie chciałabym złożyć serdeczne podziękowania Recenzentom podręcznika - Panu Profesorowi Jerzemu Brzezińskiemu oraz Panu Profesorowi Tadeuszowi Markowi. Ich uwagi pozwoliły mi na lepsze wyartykułowanie omawianych problemów. Poznań, sierpień 2001 roku Elżbieta Hornowska ? 13 . Część I Podstawowe problemy psychometrii ' Wszystko, co istnieje, istnieje w jakiejś mierze. Aby dobrze poznać dany obiekt, należy go określić zarówno pod kątem jakościowym, jak i ilościowym. E.L. Thorndike (1904) Rozdział 1 Wnioskowanie psychometryczne 1.1. CZYM ZAJMUJE SIĘ PSYCHOMETRIA? Jak mówi Słownik języka polskiego (Szymczak, 1979, tom 2, s. 1071): „psychometria (...) to dział psychologii zajmujący się teorią i opracowywaniem testów psychologicznych", zaś według Słownika psychologicznego (Szewczuk, 1979, s. 239) to „dział metodologii psychologicznej zajmujący się pomiarem zachowań ludzkich w aspekcie psychologicznym". Z kolei według Słownika psychologii (Reber, 2000, s. 597) psychometria to „dziedzina obejmująca badania psychometryczne (...) na ogół odnoszące się do różnych aspektów procesów psychicznych, w tym badania osobowości, inteligencji, określania zdolności (...) [odnosząca się też - przyp. E.H.] (...) do kwestii zastosowania zasad matematycznych i statystycznych w psychologii". Aby dokładnie zrozumieć, co kryje się pod tymi dość ogólnikowymi definicjami, przeanalizujmy trzy następujące sytuacje: a) psycholog zatrudniony w firmie doradztwa personalnego tworzy test zdolności korektorskich, na podstawie którego chce zaproponować kandydatów na stanowisko w firmie komputerowej; b) psycholog szkolny opracowuje skalę pozwalającą mu określić zakres słów, jakie opanowało dziecko; c) psycholog - stosując test inteligencji - pomaga klientowi poznać jego własne, mocne strony. Wszystkie te sytuacje, choć opisujące różne cele, są do siebie podobne. Wszystkie one dotyczą pomiaru wartości cech psychologicznych1. Cechy te (konstrukty teoretyczne) nie są bezpośrednio obserwowalne (mierzalne). Takie pojęcia bowiem, jak „sukces w pracy na określonym stanowisku", „zakres posiadanego słownictwa" czy „mocne strony", zanim będą mogły zostać wyrażone ilościowo, wymagają najpierw operacyjnego zdefiniowania (są bezpośrednio nieobserwowalne). Ta właśnie charakterystyka pomiaru 1 Nie będziemy tu wnikać w kontrowersje wynikające z różnych sposobów definiow pojęcia cechy. Wystarczy, że przyjmiemy, iż „wartość cechy u danego człowieka prostu (...) parametrem rozkładu charakteryzującego częstości występowania okre; zachowań się tego człowieka w danych sytuacjach" (por. Nowakowska, 1975, s. 20)1 Rozdział 1 18 psychologicznego (czyli poznawanie nieobserwowalnych bezpośrednio właściwości) sprawia, że niezbędne staje się opracowanie teorii wiążącej efekty badania za pomocą narzędzia pomiarowego (np. testu psychologicznego) z cechą psychologiczną, którą owe efekty (np. wartości liczbowe) odzwierciedlają. Dokładna analiza przedstawionych wyżej i innych sytuacji pozwala na sformułowanie pięciu zasad (reguł), które charakteryzują pomiar cech psychologicznych (por. Crocker, Algina, 1986, s. 6-7). Są to następujące reguły: 1. Cechy psychologiczne powinny być definiowane nie tylko w terminach operacyjnych, ale także w terminach związków z innymi konstruktami teoretycznymi czy obserwowalnymi zjawiskami. Wyniki pomiaru psychologicznego nie będą użyteczne, jeżeli nie będzie ich można odnieść do mierzonego konstruktu. Z tego też powodu Lord i Novick (1968, s. 15) podkreślali, że konstrukry psychologiczne powinny być zawsze definiowane na dwóch poziomach. Po pierwsze, mierzony konstrukt powinien zostać zdefiniowany w terminach zjawisk obserwowalnych. Ten rodzaj definicji (zwanych przez autorów definicjami semantycznymi) określa przedmiot pomiaru (tj. zakres obserwowalnych zachowań, które będą rejestrowane). Definicje te stanowią bowiem reguły korespondencji między teoretycznymi konstruktami i obserwowalnymi zachowaniami. Po drugie, mierzony konstrukt powinien zostać powiązany z innymi konstruktami w ramach określonego systemu teoretycznego. Ten drugi rodzaj definicji (nazywanych przez Lorda i Novicka definicjami syntaktycznymi) dostarcza ramy interpretowania otrzymanych wyników. Definicje te są wyrażane w postaci formalnych związków logicznych (matematycznych). Bez definicji syntaktycznych pomiar psychologiczny nie będzie miał żadnej użytecznej wartości (por. rys. l.l)2. 2. Żadna realizacja pomiaru psychologicznego nie ma charakteru uniwersalnego. Ponieważ pomiar cech psychologicznych jest zawsze pomiarem pośrednim, opartym na obserwowalnych bezpośrednio zachowaniach, ten sam konstrukt psychologiczny może zostać powiązany z różnym zbiorem zachowań. Różne definicje operacyjne prowadzą zaś do różnych procedur pomiarowych; te z kolei mogą prowadzić do różnych wniosków końcowych. Dobrym przykładem ilustrującym ten stan rzeczy jest pomiar inteligencji. I tak np. inteligencja rozumiana jako „(...) zagregowana (ogólna) zdolność jednostki do podejmowania działań celowych, racjonalnego myślenia i do efektywnego radzenia sobie we własnym środowisku" (Wechsler, 1998, s. 16) znalazła swój wyraz w - opracowanej przez D. Wechslera (1939) - baterii składającej się z 11 testów, mierzących różne aspekty przystosowania do środowiska. Z kolei inteligencja pojmowana jako zdolność edukacji (tj. zdolność uzyskiwania nowego wglądu, ---------------------------- 2 W sprawie pojęcia i zasad operacjonalizacji por. też Hornowska, 1989, 2000a. Wnioskowanie psychometryczne Rys. 1.1. Defitiicje semantyczne i syntaktyczne (opracowano na podstawie Lord i Novick, 1968, s. 17) Poziom obserwacji (zachowania) Poziom teoretyczny Wynik obserwowany X Założony rozkład wartości X Zachowanie X Brak zachowania X Szacowana średnia częstość pojawiania się zachowania X x=1 f(x/p) Prób (X=11 p)=p Prob(X=0|p)=1-p : ? (X| p) = p -------------j----------------------------------------------------- w dużej liczbie pomiarów i definicje semantyczne (reguły korespondencji) semantyczna interpretacja definicje syntaktyczne spostrzegania i określania relacji) może być mierzona za pomocą Testu Matryc opracowanego przez J.C. Ravena (Raven, Court, Raven, 1994). Mówiąc o pomiarze psychologicznym, nie wystarczy zatem wskazywać na mierzony konstrukt. Aby wyniki pomiaru zostały właściwie zinterpretowane, niezbędna jest znajomość teorii, w ramach której mierzony konstrukt został zdefiniowany. Ten sam wynik uzyskany za pomocą różnych narzędzi ma bowiem zupełnie inne znaczenie psychologiczne. 3. Pomiar psychologiczny jest najczęściej oparty na ograniczonej próbce zachowań. Formułując definicje semantyczne, trudno jest uwzględnić cały możliwy repertuar zachowań, które mogą zostać powiązane z mierzoną cechą psychologiczną. Dlatego też dokonując pomiaru psychologicznego, zawężamy zarazem interesujący nas obszar zachowań do tych zachowań, które uważamy za najbardziej adekwatne. Określenie kryteriów wyboru takiej próbki zachowań staje się wtedy koniecznością. 4. Wyniki pomiaru psychologicznego są zawsze obarczone określonym błędem. Ponieważ pomiar psychologiczny jest ograniczony do wybranej próbki zachowań i najczęściej dokonuje się go tylko w jednym punkcie czasowym, nie odzwierciedla on w sposób jedno- 19 Rozdział 1 znacznie dokładny rzeczywistej wartości mierzonej cechy czy funkcji psychologicznej. Gdyby przeprowadzić ten sam pomiar powtórnie, to najpewniej jego wyniki będą nieco inne. Przyczyną tego stanu rzeczy mogą być takie czynniki, jak np. zapominanie, chwilowe fluktuacje uwagi, zgadywanie czy wreszcie uczenie się. Każdy z nich (a także inne) wpływa na wyniki dokonanego pomiaru. Istotnym elementem pomiaru psychologicznego jest zatem ustalenie sposobu określania wielkości błędu popełnionego przy zastosowaniu danej procedury pomiarowej. 5. Wyniki pomiaru psychologicznego nie zawsze przekładają się na skale o dobrze zdefiniowanych jednostkach. W jakim stopniu wyniki otrzymane w pomiarze psychologicznym odzwierciedlają rzeczywiste różnice między badanymi osobami? Czy „zerowy" wynik w teście oznacza zerowy poziom cechy psychologicznej? Na te i inne pytania dotyczące interpretacji otrzymanych wyników także trzeba odpowiedzieć, zanim zastosuje się określone narzędzie pomiarowe. Problemami opisanymi powyżej zajmuje się rozwinięta dziś gałąź psychologii -tj. psychometria, inaczej teoria testów. W ramach psycho-metrii podejmuje się wiele zagadnień szczegółowych, takich jak sposoby budowania pozycji testowych (ang. test items), opracowywanie kryteriów wyboru pozycji testowych o najlepszych parametrach, zasady przekształcania odpowiedzi testowych na wyniki liczbowe, zasady oceny jakości tych wyników, zasady ich interpretacji czy wreszcie zasady określania stopnia stronniczości wyników testowych względem określonej grupy społecznej. Psychometria (czyli teoria testów) dostarcza modelowych rozwiązań, i w tym sensie różni się od - mającego bardziej aplikacyjne znaczenie - pomiaru psychologicznego. To ostatnie pojęcie wiąże się raczej ze szczegółowymi zasadami posługiwania się konkretnymi metodami. Wypracowane w ramach teorii testów rozwiązania mogą być natomiast uogólniane na sytuacje pomiaru różnych cech psychologicznych. Rozwiązania te, najczęściej w postaci modeli matematycznych czy statystycznych, są największym dorobkiem psychometrii3. >• Psychometria jest to gałąź psychologii zajmująca się określaniem warunków, jakie powinny spełniać narzędzia wykorzystywane do pomiaru cech psychologicznych, oraz budowaniem modeli wiążących wyniki takich pomiarów z rzeczywistymi wartościami mierzonych cech. 20 3 W psychologii często wprowadza się rozróżnienie między tzw. diagnozą psychometryczną a diagnozą kliniczną (por. np. Geller, Kość, 1976; Paluchowski, 1991). Osiowymi pojęciami diagnozy psychometrycznej mają być jej obiektywność, standaryzacja, trafność, rzetelność i odniesienie do norm. Diagnozą kliniczną zaś opisuje się niekiedy jako impresjonistyczną, podkreślając w ten sposób fakt korzystania z różnych przesłanek wychodzących poza dane pomiarowe, a będących podstawą wnioskowania i przewidywania przez nią (też Cronbach, 1990, s. 34). W tej pracy koncentrować się będziemy na specyficznej klasie narzędzi diagnozy psychologicznej, jaką są metody testowe. Te zaś - bez względu na cel ich zastosowania - muszą spełniać określone kryteria, opisywane w skrócie jako kryteria psychometryczne. Wnioskowanie psychometrygzne Współcześnie można mówić o dwóch podstawowych teoriach psychomet-rycznych: teorii losowego doboru próby {random sampling theory) i teorii odpowiadania na pozycje testu (item response theory - Lord, 1952a). Każda z tych teorii w odmienny sposób wiąże wynik pomiaru testowego (wynik obserwowany) z tzw. wynikiem prawdziwym danej osoby. W ramach teorii losowego doboru próby rozpatrywane są dwa podstawowe modele: klasyczny (Gulliksen, 1950) wraz z modyfikacjami (Lord, Novick, 1968) oraz model znany jako teoria uniwersalizacji (Cronbach, Gleser, Nanda, Rajaratnam, 1972). Związek między wynikiem obserwowanym i prawdziwą wartością mierzonej cechy w teorii losowego doboru próby ujmuje się jako problem generalizacji danych z próby na większe populacje (uniwersa). Z kolei w ramach teorii odpowiadania na pozycje testu przyjmuje się, że określenie sposobu, w jaki osoba badana odpowiada na kolejne pozycje testu, pozwala na bezpośrednie określenie rzeczywistego wyniku tej osoby. O obu tych podejściach będzie mowa w niniejszej pracy. ja I 1.2. DEFINICJA TESTU I RODZAJE TESTÓW eflnicja testu Omawiając podstawowe zadania teorii testów, posługiwaliśmy się - na razie sposób nieformalny - pojęciem testu. Pora zatem na bliższe przyjrzenie się temu, czym jest test psychologiczny i jakie są jego podstawowe cechy charakterystyczne. Test jest narzędziem pomiarowym i jak każde narzędzie tego typu może lostarczać użytecznych wyników. I podobnie jak w wypadku każdego narzędzia pomiarowego, posługiwanie się złym testem musi prowadzić do błędnych, a także szkodliwych społecznie decyzji. Czym są zatem testy psychologiczne, jakie powinny być ich właściwości oraz jakich korzyści powinny oczekiwać osoby badane - to pytania, na które przede szystkim należy odpowiedzieć. Zgodnie z definicją sformułowaną przez Amerykańskie Towarzystwo Psychologiczne w Standardach dla testów stosowanych w psychologii i pedagogice (APA, 1985a, s. 8) „test psychologiczny jest specyficzną procedurą diagnozowania. Może on być zbiorem zadań lub pytań, które - w standardowych warunkach - mają wywoływać określone rodzaje zachowań i dostarczać wyników o pożądanych właściwościach psychometrycz-nych, tj. posiadających wysoką rzetelność i wysoką trafność". Podobnie definiują test Anastasi i Urbina (1999, s. 21), dla których jest to „obiektywna i wy standaryzowana miara próbki zachowania". Cronbach (1990, s. 32) z kolei podkreśla, że „test to systematyczna procedura obserwowania zachowania i opisywania tego zachowania za pomocą skal numerycznych lub ustalonych kategorii". Wreszcie -według Choynowskiego (1971, s. 66) - „testy to zbiory pytań lub sytuacje, służące do badania własności jednostek lub grup ludzkich przez wywoływanie u nich określonych obserwowalnych reakcji werbalnych lub niewerbalnych, będących w miarę możności reprezentatywnymi próbkami ich zachowania się". 21 Rozdział 1 Jeszcze inaczej określa test Paluchowski (1991, s. 41). Jego zdaniem „badanie testowe to taka sytuacja, w której osoba badana uczestniczy dobrowolnie, świadoma celu, jakim jest jej ocena. Jest to sytuacja tworzona specjalnie dla celów diagnostycznych, w której wywołuje się zachowania typowe pod względem tej charakterystyki, jaka ma być przedmiotem celowej obserwacji. Jest to sytuacja, która od diagnosty nie wymaga osobistego zaangażowania i w której jasno jest określony zakres i rodzaj dopuszczalnych zachowań". W definicji tej autor zwraca uwagę na warunek kooperacyjnej postawy osób badanych, który stanowi milczące założenie każdego twórcy testu. Psycholog stosujący metody testowe powinien umieć taką postawę uaktywniać. W rozważaniach dotyczących testów psychologicznych warunek ten, niestety, często jest pomijany. Podsumowując ten krótki przegląd definicji testu, można stwierdzić, że test psychologiczny jest narzędziem, które: a) pozwala na uzyskanie takiej próbki zachowań, o których można przyjąć (np. na podstawie założeń teoretycznych), że są wskaźnikami interesującej nas cechy psychologicznej. Zachowania te nie muszą ściśle przypominać zachowań, które chcemy oszacować na podstawie testu. Wystarczy wykazać, że istnieje między nimi określony związek; b) dostarcza reguł obliczania wartości mierzonej cechy; c) spełnia określone kryteria formalne, takie jak obiektywność, standaryzacja, rzetelność, trafność i normalizacja; d) jasno określa zakres i rodzaj dopuszczalnych zachowań ze strony diagnosty; e) zakłada kooperacyjną postawę osoby badanej. >Test psychologiczny jest to narzędzie pozwalające na uzyskanie takiej reprezentatywnej próbki zachowań, o których można przyjąć (np. na podstawie założeń teoretycznych lub związków empirycznych), że są one wskaźnikami interesującej nas cechy psychologicznej. Jest to narzędzie obiektywne, wystandaryzowa-ne, trafne, rzetelne i znormalizowane, wyposażone w reguły obliczania wartości mierzonej cechy psychologicznej oraz jasno określające zakres i rodzaj dopuszczalnych zachowań ze strony diagnosty. Nadto, badanie testowe to taka sytuacja, w której osoba badana uczestniczy dobrowolnie, świadoma celu, jakim jest jej ocena. 22 Rodzaje testów W literaturze można spotkać wiele różnych klasyfikacji metod testowych (por. Cronbach, 1990; Anastasi, Urbina, 1999). Jedna z takich klasyfikacji dzieli testy na techniki standaryzowane i niestandaryzowane. Testy standaryzowane to takie testy, które posiadają dokładnie sprecyzowane zasady ich stosowania oraz zostały wyposażone w normy, otrzymane w wyniku przebadania reprezentatywnej próby pochodzącej z populacji, dla której test ma być stosowany. Normy te stanowią podstawę interpretacji wyników otrzymanych przez osoby badane. Z kolei do testów niestandaryzowanych można zaliczyć np. testy wiadomości budowane przez nauczycieli na ich Wnioskowanie psychometryczne własny użytek, w których dopuszcza się możliwość interakcyjnego modyfikowania sytuacji badania. Testy takie często są stosowane tylko jeden raz. W innej klasyfikacji wyróżnia się testy indywidualne i grupowe. Testami indywidualnymi można badać osoby jedynie pojedynczo, podczas gdy testy grupowe pozwalają na jednoczesne testowanie dużych grup osób. Podział na testy indywidualne i grupowe ma u swoich podstaw kryterium wydajności, a kolejny podział na testy szybkości i mocy odwołuje się do kryterium czasowego. Testy szybkości to takie testy, których czas rozwiązania jest ograniczony i - z założenia - żadna osoba badana nie powinna go ukończyć w wyznaczonym czasie. W teście szybkości różnice indywidualne są głównie determinowane szybkością wykonania. Składa się on z zadań generalnie niezbyt trudnych, tj. takich, które mogą zostać rozwiązane przez osoby, dla których przeznaczony jest test. Z kolei testy mocy to testy stwarzające każdej osobie badanej szansę na podjęcie próby rozwiązania wszystkich pozycji testu. Trudność zadań w takim teście stopniowo rośnie. Znajdują się w nim również takie zadania, które są na tyle trudne, że mało kto trafi je rozwiązać. Tym samym jedynie niewielka liczba osób ma szansę itrzymać w takim teście maksymalny wynik. W tym wypadku otrzymany ynik jest determinowany przede wszystkim poziomem mierzonej cechy. Czwarty rodzaj klasyfikacji wyróżnia testy obiektywne i nieobiekty-n e. Tu z kolei kryterium klasyfikacji jest sposób obliczania wyników w teście osoba oceniająca ma swój udział w „tworzeniu" wyniku). Testy obiektywne posiadają tak starannie opracowane, stałe metody obliczania wyników, że sam wynik może zostać obliczony nawet przez osobę bez przygotowania psychologicznego (najczęściej procedura obliczania wyników polega na przyłożeniu szablonu arkusza odpowiedzi). Inaczej w testach nieobiekty wnych - ocena odpowiedzi ;oby badanej wymaga zazwyczaj dużej znajomości przedmiotu pomiaru otrzymany wynik często odzwierciedla subiektywne umiejętności psychologa. Testy mogą zostać także poklasyfikowane ze względu na rodzaj zadań, jakich są zbudowane. Ten podział pozwała wyróżnić testy słowne i bezsłowne. Niektóre testy zawierają zadania zbudowane wyłącznie z materiału werbalnego (jak np. testy wiadomości), inne mogą polegać na wykonywaniu określonych czynności, np. wskazywaniu brakujących elementów czy też rysowaniu drogi w labiryncie. W zadaniach słownych jednym z kryteriów branych pod uwagę przy ocenie stopnia wykonania takiego zadania jest sprawność językowa osoby badanej, w zadaniach bezsłownych słabe opanowanie języka nie jest czynnikiem wpływającym istotnie na otrzymywane wyniki. I wreszcie przedostatni rodzaj klasyfikacji - najważniejszy z psycho-metrycznego punktu widzenia, bo wskazujący na dwie odmienne klasy problemów natury psychometrycznej, które muszą zostać rozwiązane - to podział metod na testy właściwości poznawczych i właściwości afekty wnyc h. Te pierwsze, czyli testy właściwości poznawczych, to testy mierzące wytwory procesów poznawczych (np. testy zdolności, 23 Rozdział 1 uwagi, pojemności pamięci), te drugie z kolei to testy mierzące postawy, wartości, zainteresowania czy inne, pozapoznawcze, aspekty osobowości. W pierwszym wypadku każde zadanie testowe ma ściśle określoną odpowiedź prawidłową, a dodatkowym problemem, który należy tu wziąć pod uwagę, jest problem zgadywania. W drugim wypadku w ogóle nie istnieje kategoria odpowiedzi prawidłowej4, a problemem, z jakim trzeba się uporać, jest problem trafności samoopisu dokonywanego przez osobę badaną (por. rys. 1.2). Rys. 1.2. Podział testów ze względu na rodzaj możliwej odpowiedzi Testy wiedza umiejętności zdolności / uczucia postawy osobowość właściwości poznawcze właściwości afektywne r i emocje wierzenia istnieje odpowiedź prawidłowa autoekspresja brak odpowiedzi prawidłowej 1 ZGADYWANIE TRAFNOŚĆ 1 SAMOOPISU Na koniec warto wspomnieć o jeszcze jednym podziale testów, podziale na testy zorientowane na normy oraz zorientowane na kryte r i u m5. Tutaj kryterium podziału stanowi sposób interpretacji wyników. W testach zorientowanych na normy punktem odniesienia dla interpretacji wyników jest konkretna populacja osób, a w testach zorientowanych na kryterium tym punktem jest konkretny zakres wiedzy. Ta ostatnia kategoria testów pozwala na dokonanie opisu badanej jednostki w kategoriach specyficznych umiejętności, jakie udało się jej opanować (por. rys. 1.3). Z kolei w testach zorientowanych na normy punktem odniesienia jest przeciętny 24 4 Trudno np. twierdzić, że istnieje prawidłowa odpowiedź na pytanie „Czy zdarza ci się lubić ludzi, którzy wyznają inne wartości niż ty?". W takim wypadku możemy mówić jedynie o odpowiedzi diagnostycznej (zgodnej z kluczem) lub o odpowiedzi niediagnostycznej (niezgodnej z kluczem). 5 Termin test „zorientowany na kryterium" został zaproponowany przez Glasera (1963), jednak stosowany był dość dowolnie. Dlatego też dzisiaj proponuje się w jego miejsce termin „test zorientowany na standard wykonania" (por. dyskusję w tej sprawie Anastasi i Urbina, 1999, s. 111). Co więcej, termin kryterium bywa również stosowany na określenie trafności kryterialnej i ma - w tym kontekście - inne znaczenie. Tutaj termin „kryterium" czy „standard wykonania" oznacza pewien wzór, iw takim sensie będzie używany dalej. Wnioskowanie psychometryczne Rys. 1.3. Podział testów ze względu na rodzaj interpretacji wyniku testowego Wynik testowy rodzaj interpretacji podstawa interpretacji efekt interpretacji normatywna względem kryterium grupa odniesienia zdefiniowane kryterium statystyczny ile osób jest lepszych lub gorszych stopień realizacji kryterium poziom wykonania testu w określonej grupie odniesienia. Tym samym normatywna interpretacja wyniku testowego jest interpretacją relatywną i zależy od tego, kto wchodził w skład badanej grupy osób. 1.3. KRYTERIA DOBROCI TESTÓW PSYCHOLOGICZNYCH Testem psychologicznym nie jest każdy zbiór pytań lub zadań, a tylko taki zbiór, który spełnia wszystkie - wymienione w definicji - warunki. Co więcej, test psychologiczny powinien również spełniać określone kryteria formalne, które za Brzezińskim (1984, s. 9) najczęściej określane są jako tzw. kryteria dobroci testów; tj. test powinien być obiektywny, wystandaryzowany, rzetelny, trafny i znormalizowany. Omówimy je pokrótce, dodając jeszcze jedno kryterium - właściwą adaptację, które ma szczególne znaczenie wtedy, gdy na rynku polskim stosuje się testy opracowane za granicą. Obiektywność, czyli niezależność wyników testowania Test jest obiektywny, jeżeli dwie różne osoby opracowujące jego wyniki dochodzą do tego samego rezultatu. Aby było to możliwe, test musi posiadać jasno określony klucz oceniania odpowiedzi, zmniejszający do minimum wpływ subiektywnych interpretacji. Najbardziej klasyczną metodą badania stopnia obiektywności testu jest technika tzw. ślepej diagnozy. Technika ta polega na rozesłaniu tego samego, wypełnionego arkusza testowego do różnych osób oceniających. Jeżeli otrzymane wyniki i ich interpretacje będą do siebie podobne, można uznać dany test za obiektywny. Jest to diagnoza ślepa, bo jest dokonywana bez kontaktu z osobą badaną. W sytuacji rzeczywistej diagnozy kontakt z osobą badaną jest bardzo ważnym źródłem informacji. W tej 25 Rozdział 1 konkretnej sytuacji chodzi jednak o to, aby indywidualne umiejętności korzystania z takich źródeł informacji nie wpływały na sposób oceniania wyników testowych. Warunek obiektywności zatem oznacza, że niezależnie od tego kto, gdzie i kiedy dokonuje oceny wyników tego samego testu, wykonanego przez tę samą osobę, powinien otrzymać takie same rezultaty. Standaryzacja, czyli jednolitość warunków badania Aby wyniki danego testu można było ze sobą porównywać, dany test powinien być zawsze przeprowadzany w identycznych warunkach. Tylko wtedy bowiem różnice w wynikach testowych badanych osób można przypisać czynnikom indywidualnym, a nie np. zewnętrznym warunkom badania. Jeżeli w trakcie interpretacji wyników testowych będziemy chcieli skorzystać z norm testowych, to jednolitość warunków badania testem (standaryzacja) jest warunkiem absolutnie koniecznym. Warunek standaryzacji obejmuje następujące elementy sytuacji testowania (por. tab. 1.1): instrukcję, pomoce oraz zasady oceniania i interpretowania wyników. Szczególną rolę w badaniu testowym odgrywa instrukcja stosowania testu. Jej przestrzeganie jest podstawowym elementem gwarantującym powtarzalność warunków badania. W podręczniku testowym znajdziemy wszystkie ważne informacje dotyczące zasad badania testem, a więc: czy jest to badanie grupowe czy indywidualne, jaki jest czas badania, jaka jest kolejność zadań lub testów, czy istnieje możliwość powrotu do poprzednich zadań i wreszcie: jaki jest zakres pomocy udzielanej badanemu (por. też Anastasi, Urbina, 1999; Jaworowska, 1996). Przestrzeganie instrukcji podawanej osobie badanej jest tak ważnym czynnikiem decydującym o wyrównaniu warunków badania, że w Standardach dla testów stosowanych w psychologii i pedagogice (1985a, s. 25) zaleca się, aby w trudnych sytuacjach, tj. takich, w których modulacja głosu, pauzy czy wyraz twarzy osoby badającej mogą mieć znaczenie, nagrać instrukcję na taśmę magnetofonową. I choć na pierwszy rzut oka takie zalecenie wydaje się sensowne, to jednak z uwagi na obowiązek motywowania osób badanych i nawiązywania z nimi sprzyjającego kontaktu trudno pogodzić się z wprowadzaniem „bezdusznej" maszyny w miejsce rzeczywistych relacji. Sądzę, że dobre szkolenia osób badających, obejmujące techniki nawiązywania kontaktów, są lepszym gwarantem rozumienia konieczności przestrzegania procedury standaryzacji przewidzianej dla danego testu niż mechaniczne odtwarzanie instrukcji z magnetofonu. Rozumiejąc istotę procedury standaryzacji, trudno zakceptować wcale nierzadkie fakty stosowania np. testu przeznaczonego do badań indywidualnych w sposób grupowy, tworzenia własnych, samodzielnie wykonanych pomocy testowych (bo te oryginalne są drogie i należy je kupić za granicą), podawania instrukcji w różny sposób (np. podawania więcej informacji tym, którzy z jakichś względów są nam bliżsi) czy też zadawania tylko części 26 pytań zawartych w danym teście (bo reszta wydaje się niepotrzebna). Wnioskowanie psychometryczne Tab. 1.1. Elementy sytuacji badania testem objęte procedurą standaryzacji (opracowano na podstawie Standardów dla testów stosowanych w psychologii i pedagogice, 1985a, b; 1999) Czego dotyczy procedura standaryzacji? Procedura badania testem Zasady ogólne Wskazówki dotyczące badania testem powinny być przedstawione na tyle jasno i wyraźnie, aby testujący mógł i chciał powtórzyć sposób badania zastosowany przy ustalaniu norm. Stosując metody testowe, należy dokładnie przestrzegać procedury badania testem opisanej w podręczniku. Instrukcja W instrukcji należy omówić takie zagadnienia, jak fakt badania indywidualnego czy grupowego, liczebność badanej grupy, limity czasowe, sposoby zaznaczania odpowiedzi na arkuszach, możliwość powrotu do poprzednich zadań lub pytań, problem zgadywania, kolejność stosowania testów lub zadań oraz zakres pomocy udzielanej badanemu. Jeżeli dopuszcza się możliwość rozszerzania lub uszczegółowiania instrukcji przedstawionej w podręczniku testowym, to należy przedstawić warunki, w jakich postępowanie to jest dopuszczalne. Pomoce Aby utrzymać standaryzację metody testowej, należy okresowo sprawdzać materiał testu, wyposażenie oraz stosowaną procedurę. Procedura obliczania wyników Klucz do oceny odpowiedzi Osoby stosujące testy są odpowiedzialne za dokładne obliczanie, sprawdzanie, kodowanie i rejestrowanie wyników testowych. Należy okresowo kontrolować stosowany system obliczania wyników. Obliczanie wyników Procedura obliczania wyników testowych powinna zostać przedstawiona w podręczniku testowym na tyle szczegółowo i dokładnie, aby prawdopodobieństwo popełnienia błędu było jak najmniejsze. Procedura interpretowania wyników Normy Normy przedstawione w podręczniku testowym powinny zostać opracowane dla wyraźnie zdefiniowanych i opisanych populacji. Populacje te muszą odpowiadać tym grupom osób, z którymi badający testem będzie zazwyczaj porównywał osoby badane. Należy brać pod uwagę normy właściwe dla osoby badanej. Podkreślmy wyraźnie: każde odstępstwo od standardowych, przewidzianych w podręczniku testowym, warunków badania sprawia, że badanie to nie jest już badaniem testowym! Wyniki takiego badania mogą być ewentualnie interpretowane jakościowo, absolutnie nie można jednak - w takim wypadku - korzystać z norm testowych (por. Anastasi, Urbina, 1999; Jaworowska, 1996). 27 Rozdział 1 Rzetelność, czyli dokładność pomiaru Rzetelność to inaczej dokładność pomiaru. Innymi słowy, jest to wielkość błędu, jaki popełnia psycholog, interpretując wyniki danego testu. Nie ma idealnego testu - tak jak nie ma idealnej linijki czy innego narzędzia pomiarowego. Dlatego też trzeba wiedzieć, jak duży popełniamy błąd, stosując określony test, i określić granice interpretacji otrzymanego wyniku testowego. Zgodnie ze „rzetelność określana jest jako stopień, w jakim wyniki testowe można przypisać oddziaływaniu systematycznych źródeł wariancji" (Standardy..., 1985a, s. 58). Oznacza to, że rzetelność mówi nam o tym, w jakim stopniu wynik danego testu odzwierciedla poziom mierzonej cechy u danej osoby, a nie wpływ czynników losowych. Nie ma jednej uniwersalnej metody badania rzetelności, bowiem w każdej konkretnej metodzie bierze się pod uwagę różne źródła błędu. Dlatego też interpretując przedstawione w podręczniku testowym dane o rzetelności danego testu, należy zawsze oceniać je w kontekście metody, za pomocą której je otrzymano. Technicznie korzystanie z danych o rzetelności testu oznacza umiejętność zbudowania przedziału ufności dla tzw. wyniku prawdziwego badanej osoby. W podręczniku każdego profesjonalnego testu psychologicznego można znaleźć odpowiednie dane o wielkości standardowego błędu pomiaru, pozwalające na określenie granic przedziału, w którym - z odpowiednim prawdopodobieństwem - mieści się wynik prawdziwy badanej osoby. Do obowiązków psychologa należy uwzględnienie wielkości tego błędu przy interpretowaniu wyników (por. też Anastasi, Urbina 1999; Jaworowska, 1996). I dlatego aby testy były użyteczne, powinny posiadać odpowiednie tabele, pozwalające łatwo określić wielkość standardowego błędu pomiaru. Trafność, czyli obszar zastosowania testu Testy psychologiczne są zawsze stosowane w określonym celu. Najczęściej służą przewidywaniu zachowania osoby badanej w określonych sytuacjach. Np. możemy być zainteresowani przewidywaniem - na podstawie wyników testów inteligencji - predyspozycji menedżerskich badanych kandydatów, a na podstawie testu stylów kierowania określeniem tego, czy dana osoba może być dobrym kierownikiem. O tym, czy dany test możemy wykorzystywać w taki, a nie inny sposób, decydują dane o trafności. Trafność testu to - empirycznie potwierdzony - obszar zastosowania testu. W Standardach dla testów stosowanych w psychologii i pedagogice (1985a, s. 33) trafność określa się następująco: „Pytanie o trafność to pytanie o to, co można poprawnie wywnioskować na podstawie wyniku testowego. Pojęcie trafności dotyczy poprawności wniosków wyprowadzonych na podstawie wyników testowych lub innych form badania. Wszelkie potencjalne pytania o trafność dadzą się sprowadzić do dwóch: (a) jakie wnioski można wyciągnąć na temat tego, co jest mierzone przez test; oraz (b) jakie wnioski można sformułować o innych (pozatestowych) zachowaniach?". Mówiąc 28 jeszcze inaczej, trafność to informacja o tym, jak test pełni swoją funkcję. Wnioskowanie psychometryczne W podręczniku testowym można znaleźć informacje na ten temat. Pamiętać należy jednak o tym, że trafność zawsze dotyczy konkretnego zastosowania. Nie ma testów, które można by stosować wszędzie i w każdym celu. Dlatego też dane dotyczące trafności powinny być analizowane szczególnie starannie, a wybór konkretnego testu powinien zostać poprzedzony dokładną analizą celu badania. Normy, czyli nadawanie znaczenia wynikom testowym Wynik otrzymany w teście psychologicznym nie ma żadnego znaczenia tak długo, jak długo nie można odnieść go do precyzyjnego i jednolitego układu odniesienia. Istota testów psychologicznych polega bowiem na tym, że podstawą interpretacji wyników testowych jest zawsze jakiś układ odniesienia. Najczęściej układ ten ma charakter statystyczny. Oznacza to, że wynik surowy (otrzymany w wyniku badania testem) danej osoby odnosi się do rozkładu wyników otrzymanego w próbie standaryzacyjnej; pozwala to stwierdzić, w którym miejscu rozkładu mieści się osoba badana. Podstawą formułowania wniosków o właściwościach psychologicznych osób badanych jest zawsze ocena tego, jak badana osoba wypada na tle innych osób (grupy odniesienia). Wybór grupy odniesienia ma zatem kluczowe znaczenie dla tego, jakie wnioski końcowe zostaną wyprowadzone (por. Anastasi, Urbina, 1999; Jaworowska, 1996). Czym jest zatem procedura normalizacji? Według Brzezińskiego (2000, s. 412) „normalizacja testu to procedura tworzenia zbiorów, w specjalny sposób przetworzonych, wyników testu dla osób o określonych właściwościach zdefiniowanych za pomocą kryterium zewnętrznego; osoby te stanowią reprezentatywną, w sensie statystycznym, próbę". Efektem normalizacji testu jest zbudowanie zestawu norm, które stanowią podstawę interpretacji wyników testowych uzyskanych przez konkretne osoby badane. Normy testowe mają zatem charakter relatywny - zależą bowiem od tego, kto tworzy grupę odniesienia. Inaczej mówiąc, wynik tej samej osoby może zostać raz zinterpretowany jako niski, raz jako przeciętny, a raz jako wysoki -wszystko zależy od tego, z jaką grupą odniesienia wynik ten został porównany. Brak właściwych (np. opracowanych dla populacji polskiej) norm dyskwalifikuje zatem metodę jako test psychologiczny. Cóż bowiem może wynikać z porównania Polaka badanego w roku 2000 z normami opracowanymi dla populacji amerykańskiej w latach 50? Nic, oczywiście, poza fałszywym przekonaniem, że dziś - być może -jesteśmy lepsi (por. też dyskusję na temat znaczenia norm w kwestionariuszu MMPI - Paluchowski, 1987). Właściwa adaptacja, czyli dopasowanie testu do polskich warunków Spora część testów stosowanych w Polsce to testy obcojęzyczne. Aby takie testy mogły być stosowane u nas, powinny zostać nie tylko przetłumaczone (co jest raczej oczywiste), ale także zaadaptowane do warunków polskiej kultury. Adaptacja to proces przystosowania wersji pierwotnej do specyfiki kultury lokalnej i nie sprowadza się ona jedynie do właściwego przetłumaczenia tekstu oryginału. 29 Rozdział 1 Przystępując do kulturowej adaptacji każdej techniki diagnostycznej, przyjmować można dwie różne strategie tworzenia takiego narzędzia: a) strategię psychometryczną, dla której kryterium tożsamości jest empirycznie potwierdzone podobieństwo rozkładów odpowiedzi na pozycje testowe i/lub rozkładów wyników globalnych, oraz b) strategię pragmatyczną, dla której takim kryterium jest podobieństwo funkcji, jaką ma pełnić dana technika i decyzje oparte na uzyskanych za jej pomocą wynikach. Adaptacja kulturowa według strategii psychometrycznej w istocie niczym nie różni się od tworzenia równoległej do oryginalnej kultury wersji narzędzia. Adaptacja według strategii określonej jako pragmatyczna odwołuje się natomiast do kulturowego i społecznego kontekstu badania diagnostycznego za pomocą danego narzędzia oraz teoretycznego zaplecza, do którego odwołuje się psycholog, interpretując wyniki tego narzędzia6. Często uważa się, że podstawą dobrej adaptacji jest wierne przetłumaczenie oryginału. Tymczasem bezrefleksyjne tłumaczenie słowa po słowie może przynieść opłakane skutki (por. Ciechanowicz, 1996; Drwal 1990). Przytoczmy jeden taki przykład (za: Ciechanowicz, 1996, s. 39)7. Oto w tłumaczeniu testu inteligencji można znaleźć co następuje: Która z następujących liczb wyraża najlepiej podobieństwo między przedstawionymi niżej słowami: 7, 5, 3, 9, 11, czy 19? czerwony, pies, łóżko, kot, dziesięć, chłopiec? Zadanie to, choćby nie wiem ile czasu mu poświęcić, nie daje się w ogóle rozwiązać. Czy to znaczy, że jest ono bardzo trudne, a my po prostu nie potrafimy tego zrobić? Otóż nie: bezmyślny tłumacz przełożył bowiem oryginalny zestaw słów red, dog, bed, cat, ten, boy w sposób dosłowny, zupełnie natomiast zapomniał, po co to robi! Problem adaptacji nie sprowadza się jedynie do mądrego przekładu oryginalnej metody. Przeanalizujmy taki przykład. Oto w jednej z najbardziej znanych metod przeznaczonych do badania inteligencji ludzi dorosłych znajduje się w oryginale taka pozycja testowa: „How many pints make a quart?". Pytanie to jest traktowane jako łatwe dla populacji amerykańskiej i znajduje się na piątym z kolei miejscu w teście. Tymczasem w polskiej adaptacji testu pytanie to zastąpiono pytaniem: „Ile tuzinów liczy kopa?". Rzecz w tym, że Amerykanie do dziś przeliczają objętość na pinty oraz kwarty i te miary objętości są im dobrze znane, dla Polaka zaś pytanie o kopy i tuziny jest pytaniem o miary archaiczne, i dlatego jest trudniejsze od amerykańskiego odpowiednika. Sprawą decydującą o jakości adaptacji jest zachowanie koncepcyjnych podstaw metody przyswajanej w obrębie danej kultury. Znajomość ich pozwala bowiem na odtworzenie reguł oryginalnej metody, a co za tym 6 Szerzej w sprawie kryteriów adaptacji por. Brzeziński, Hornowska (2000). 7 Więcej przykładów kłopotliwej adaptacji można znaleźć w pracy pod redakcją Ciecha- 30 nowicz Kulturowa adaptacja testów (1990). Wnioskowanie psychometryczne idzie - logicznie z nimi spójnych reguł adaptacji. Tylko dzięki temu proponowane kulturowe odpowiedniki wywodzić się będą z oryginalnej bazy teoretycznej, a koncentracja na zapewnieniu trafności pozwoli na interpretowanie wyników danej adaptacji metody zgodnie z oryginalną teorią metody. Nie ma i nie może być jednego optymalnego sposobu adaptacji testu. Zawsze zależy to od celu, dla jakiego przeznaczony jest test. Zgodzić się należy zatem z tym, że „jeżeli chcemy posiadać narzędzie jak najlepiej mierzące pewne cechy w Polsce i przydatne dla praktyki w naszym kraju, trzeba je opracować na nowo, uwzględniając w jak największym stopniu specyfikę lokalną (...)" (Drwal, 1990, s. 133). Podsumowując, należy w tym miejscu wyraźnie podkreślić, że dobry test to test, który spełnia wszystkie wymienione wyżej warunki. Jest metodą obiektywną, wystandaryzowaną, trafną, rzetelną, znormalizowaną i dodatkowo - w wypadku testów obcojęzycznych - właściwie przystosowaną do kultury polskiej. Pomijanie (czy niedocenianie) któregokolwiek z tych warunków należy traktować jako brak profesjonalnej dbałości o własne instrumentarium pomiarowe. Trudno bowiem w wypadku ąuasi-testu (a więc takiej metody, która tylko z pozoru przypomina test psychologiczny) mieć pewność, że mierzy ona to, co chcemy, żeby mierzyła, że czyni to odpowiednio dokładnie, a otrzymane w wyniku jej zastosowania wyniki mają jakieś znaczenie psychologiczne (por. też tab. 1.2). Tab. 1.2. Kryteria pozwalające odróżnić dobry test od złego testu (opracowano na podstawie Standardów dla testów stosowanych w psychologii i pedagogice, 1985; Ciechanowicz, 1996; Anastasi, Urbina, 1999) Warunki, jakie powinien spełniać dobry test Kryterium decyzyjne Na co należy zwrócić uwagę w ramach danego kryterium Autor testu Test powinien mieć autora. Test zagraniczny powinien również mieć autora polskiej adaptacji. Podręcznik testowy Opis teorii lub sposobu doboru grup empirycznych. Opis grupy, na której przeprowadzono badania standaryzacyjne. Opis procedury badania i interpretowania wyniku. Opis badań dotyczących rzetelności i błędu standardowego pomiaru. Opis badań dotyczących trafności zalecanej interpretacji. Opis procedury normalizacji i normy dla wyraźnie zdefiniowanych populacji. Pomoce Opis materiałów testowych, pomocy, arkusza pytań, arkusza odpowiedzi; test powinien także posiadać oryginalny komplet pomocy testowych. Zabezpieczanie testu Powinny być podejmowane wszelkie możliwe kroki, aby materiał testowy został właściwie zabezpieczony. Ochrona prawna Test powinien podlegać wyłącznie legalnej dystrybucji. 31 Rozdział 1 Każdy test psychologiczny powinien spełniać następujące kryteria dobroci: winien być obiektywny, wystandaryzowany, rzetelny, trafny i znormalizowany, oraz w wypadku testów obcojęzycznych - właściwie kulturowo zaadaptowany. • obiektywność-to niezależność wyników testowych od tego kto, gdzie i kiedy dokonuje ich oceny • standaryzacja-to jednolitość reguł badania danym testem • trafność-to dokładność, z jaką test realizuje założone cele pomiarowe • rzetelność-to precyzja realizowanego pomiaru • normalizacja-to procedura wyposażania testu w statystyczne kryteria interpretacji wyniku testowego (normy) • adaptacja kulturowa- przystosowanie oryginalnego testu do nowych warunków kulturowych. 1.4. PROCES WNIOSKOWANIA PSYCHOMETRYCZNEGO Wiedząc już, czym jest test oraz jakie kryteria dobroci powinien test psychologiczny spełniać, zastanówmy się nad tym, jak na podstawie wyniku testowego wyprowadza się wnioski o wartościach cech psychologicznych badanych osób. Proces ten nazywać będziemy dalej procesem wnioskowania psychometrycznego. >• Proces wnioskowania psychometrycznego jest to proces wyprowadzania wniosków o wartościach cech psychologicznych badanych osób na podstawie wyników, jakie otrzymały one w testach psychologicznych. 32 Istotą stosowania testów psychometrycznych jest stworzenie możliwości wnioskowania o nieobserwowalnych właściwościach psychologicznych na podstawie obserwowalnego zachowania w kontrolowanych warunkach (laboratoryjnych) oraz wyrażającego go wyniku testowego. Punktem wyjścia psychometrycznej definicji pojęcia cechy psychologicznej jest przyjęcie założenia, że cesze odpowiada hipotetyczne kontinuum, na którym można rozmieścić wszystkie badane osoby zgodnie z wartością (natężeniem) tej cechy. Pozycja jednostki na tym kontinuum jest relatywnie stała i wyjaśnia stałość zachowania w podobnych sytuacjach (por. Lord, Novick, 1968). Dokonując oceny wartości natężenia cechy, psycholog przyjmuje, że im częściej (a dokładniej: w im większej liczbie sytuacji, w których przejawia się owa cecha) dana osoba przejawia określone zachowania, tym wyższy jest poziom cechy, której te zachowania są manifestacją. Test psychometryczny (ergo - definicja operacyjna) zarówno pozwala na uzyskanie próbek zachowań, jak i dostarcza reguł obliczania wartości estymatora mierzonej cechy dla danej osoby (por. definicja testu). Podstawą wnioskowania psychometrycznego jest zatem wynik otrzymany w teście, nazywany dalej wynikiem obserwowanym. Wynik obserwowany odzwierciedla jedynie poziom wykonania zadań (pozycji) tworzących konkretną próbkę, jaką jest zastosowany test, w konkretnym czasie i w konkret- Wnioskowanie psyghometrygzne nym miejscu. Dlatego też wynik ten może (ale nie musi) odzwierciedlać rzeczywisty poziom mierzonej cechy u osoby badanej. Technicznie wynik obserwowany jest uzyskiwany najczęściej poprzez przypisywanie wartości liczbowych odpowiedziom lub reakcjom na pozycje testu (zadania czy pytania). Pozycje testowe są oceniane w kategoriach odpowiedzi prawdziwej (diagnostycznej) lub nieprawdziwej (niediagnostycznej), a wynik ogólny w teście jest sumą udzielonych odpowiedzi. Określając liczbę zachowań uznanych za diagnostyczne, psycholog dokonuje oceny ogólnej wartości natężenia cechy, rozumianej jako inwariant sytuacji i czasu. Im więcej diagnostycznych zachowań stwierdzi u danej osoby, tym wyższą wartość cechy jest skłonny jej przypisać8. >• Wynik obserwowany jest to wynik, jaki badana osoba otrzymuje w teście psychologicznym. > Wynik prawdziwy jest to wynik odzwierciedlający rzeczywistą wartość mierzonej cechy u danej osoby. Gdybyśmy mogli przebadać tę samą osobę wszystkimi możliwymi pozycjami testowymi (a więc dysponować jej odpowiedziami dla całego uniwersum możliwych pozycji, a nie tylko dla próby pochodzącej z owego uniwersum), w różnych możliwych warunkach i w różnym czasie, to moglibyśmy oszacować wartość wyniku prawdziwego9 dla tej osoby. Oczywiście, byłoby rzeczą idealną, gdyby decyzje dotyczące badanych osób mogły opierać się nie na wynikach obserwowanych, a na wynikach prawdziwych. W rzeczywistości jednak decyzje te zawsze są oparte na wynikach obserwowanych, wyniki prawdziwe bowiem są jedynie pewną idealizacją. Rzetelność, tj. wielkość współczynnika korelacji między wynikiem obserwowanym a wynikiem prawdziwym, mówi nam, w jakim stopniu nie obserwowane wyniki prawdziwe wyjaśniają wariancję wyników obserwowanych. Im wyższa rzetelność testu, tym dokładniej możemy oszacować wynik prawdziwy badanej osoby. Rzetelność jest rozsądnym kryterium jakości testu, o ile można przyjąć, że pozycje testowe są trafnymi wskaźnikami mierzonej cechy. Może być bowiem tak, że oszacowany na podstawie wyniku obserwowanego wynik 8 Takie częstościowe (statystyczne) rozumienie wyniku testu psychologicznego umożliwiło zastosowanie do jego opisu aparatu statystyki i opracowanie teorii wyników testowych. 9 Wynik prawdziwy rozumiany bywa najczęściej na dwa sposoby. Zgodnie z tzw. m o -delem platońskim, wynik prawdziwy jest utożsamiany z rzeczywistą wartością mierzonej cechy. Podobnie jak każdy obiekt fizyczny posiada określone wartości swoich cech fizycznych, niezależnie od aktu dokonywania pomiaru i wyboru narzędzia pomiarowego, tak i każdy człowiek (w danym momencie czasu) posiada prawdziwe (choć nie znane) wartości swoich cech psychologicznych. Wynik prawdziwy zatem istnieje niezależnie od aktu dokonywania pomiaru (por. Gulliksen, 1950). Z kolei zgodnie z tzw. modelem statystycznym, wynik prawdziwy jest średnią rozkładu skłonności danej osoby w określonym teście. Rozkład skłonności zaś tworzony jest przez wszystkie możliwe wyniki owego testu u tej osoby (por. Lord, Novick, 1968). 33 Rozdział 1 prawdziwy nie odzwierciedla wcale tej cechy psychologicznej, o którą psychologowi chodzi. To, że autor testu konstruował swoją metodę z intencją realizacji konkretnego celu, nie jest jeszcze gwarancją sukcesu! I tak np. jeżeli test uzdolnień matematycznych składa się wyłącznie z zadań tekstowych wymagających wcześniejszego przeczytania, to wysoki wynik otrzymany w takim teście wcale nie musi odzwierciedlać wysokich zdolności matematycznych, a np. też lub tylko wysokie kompetencje językowe. Wynik prawdziwy zatem musi być traktowany jako pewien wskaźnik; ściślej, jako wskaźnik tego, jaką cechę (konstrukt psychologiczny) mierzy dany test. Sam wynik prawdziwy jako taki odzwierciedla „coś", a o tym, co to jest, mówią nam dane dotyczące trafności testu. Mówiąc jeszcze inaczej - trafność jest związkiem zachodzącym między wynikiem prawdziwym a przedmiotem pomiaru (por. rys. 1.4). Im więcej posiadamy danych na temat trafności testu, tym większy jest zakres interpretacji wyniku otrzymanego w teście10. W rzeczywistej sytuacji testowania rozpoczynamy zazwyczaj od etapu, który na rys. 1.4 znajduje się na samym dole, tj. od pomiaru. Na tym etapie przekształcamy odpowiedzi udzielone przez osobę badaną na wartości liczbowe. Następnie szacujemy, w jakim stopniu wynik otrzymany odzwierciedla wynik prawdziwy badanej osoby. Wreszcie oceniamy trafność naszych wnioskowań, a więc to, co możemy powiedzieć na podstawie oszacowanego wyniku prawdziwego badanej osoby. Celem przedstawionego schematu (por. rys. 1.4) jest wskazanie na istotne elementy procedury wnioskowania o wartościach cech psychologicznych. Mechaniczne utożsamianie wyniku otrzymanego w teście z poziomem mierzonej cechy (co wcale nierzadko ma miejsce!) jest zarówno świadectwem braku profesjonalizmu, jak i braku odpowiedzialności za podejmowane decyzje. I choć może truizmem jest stwierdzenie, że testy stosujemy nie po to, aby uzyskać jakiś wynik, ale po to, by zwiększyć wiedzę o osobach badanych, i po to, aby to one - na podstawie uzyskanych wyników - miały szansę np. na zmianę, warto ten prosty fakt tu podkreślić. Od wyniku otrzymanego w teście do diagnozy psychologicznej wiedzie długa droga, a jej początkowy odcinek wymaga znajomości znaków topograficznych, którymi dla nas są pojęcia, takie jak wynik otrzymany, wynik prawdziwy, rzetelność i trafność. 34 10 Warto w tym miejscu wspomnieć o pewnym paradoksie. Wynik testowy będący sumą odpowiedzi diagnostycznych jest otrzymywany przy założeniu, że odpowiedź na każdą pozycję testową posiada to samo znaczenie, jakie nadaje się wynikowi globalnemu. Stąd też podstawowym założeniem klasycznej teorii testów jest założenie homogeniczności pozycji testowych — każda pozycja, jak również wszystkie razem, posiada to samo znaczenie. Homo-geniczność pozycji testowych gwarantuje otrzymanie wysokiej rzetelności pomiaru, obniża natomiast trafność testu (por. Crocker, Algina, 1986) - a ta cecha testu jest przecież najważniejsza z punktu widzenia stosującego go psychologa! Do zagadnienia tego wrócimy później. Wnioskowanie psychometryczne Rys. 1.4. Proces wnioskowania psychometrycznego (opracowano na podstawie Suen, 1990, s. 6) Konstrukt teoretyczny Cecha psychologiczna nieobserwowalna cecha będąca przedmiotem pomiaru trafność wynik prawdziwy prawdziwa wartość mierzonej cechy wynik otrzymany testy właściwości poznawczych rzetelność standardowy błąd pomiaru wynik otrzymany na podstawie badania testem pomiar ...................... testy właściwości afektywnych 1.5. DWA SŁOWA O HISTORII TESTOWANIA 0 tym, że ludzie różnią się zdolnościami, osobowością czy zachowaniem i że te różnice można w jakiś sposób określić, wiedziano już od dawna. Źródeł badań testowych można bowiem szukać już w starożytnych Chinach. Jak podaje DuBois (1970) około roku 2200 p.n.e. w Cesarstwie Chińskim opracowano system egzaminów pozwalający wybierać pracowników do służb publicznych. Każdy z urzędników przechodził przez sito egzaminacyjne co trzy lata". Za czasów panowania dynastii Shang (lub też -jak chcą inne źródła - dynastii Zhou), tj. około roku 1115 p.n.e., system ten został zmodyfikowany i w tej formie przetrwał aż do roku 1905, kiedy to został zaniechany. " Co ciekawe, wzorowany na tym systemie sposób rekrutacji urzędników w XIX-wiecznej Francji i Anglii okazał się bardzo skuteczny. 35 Rozdział 1 36 I może nie warto by wspominać o tym fakcie, gdyby nie to, że jak się okazuje, już cztery tysiące lat temu przedmiotem dociekań były te same zagadnienia, jakie są podejmowane przez współczesnych psychometrów. To tedy bowiem narodziła się idea, że ludzie piastujący ważne stanowiska powinni posiadać określone umiejętności, co - biorąc pod uwagę, że były to czasy wszechwładnego nepotyzmu -jest niewątpliwie godne podziwu. Co więcej, już wtedy formułowano kryteria, jakie każdy kandydat spełniać powinien (np. były to wysokie umiejętności jeździeckie, arytmetyczne, wysoka sprawność pisania - por. DuBois, 1970). Można więc powiedzieć - używając dzisiejszej terminologii - że budując testy, już wówczas brano pod uwagę ich trafność kryterialną! W średniowiecznej Europie problem określania różnic indywidualnych między ludźmi, przynajmniej z naukowego punktu widzenia, nieomal nie istniał. W tym okresie bowiem fakt urodzenia się w danej klasie społecznej był czynnikiem decydującym o tym, jakie działania mogli ludzie podejmować, a ich własna aktywność i umiejętności schodziły zdecydowanie na dalszy plan. Wiek XVI i początki kapitalizmu przyniosły odrodzenie idei indywidualizmu, jednakże zasadnicze zmiany w dziedzinie badania różnic indywidualnych nastąpiły dopiero w wieku XIX. Na początku XIX wieku naukowcy nie byli szczególnie zainteresowani pomiarem różnic indywidualnych. Różnice te dostrzegano głównie w obszarze zdolności sensomotorycznych oraz umysłowych i były one raczej traktowane jako przeszkoda w formułowaniu ogólnych praw nauki niż jako przedmiot badań naukowych. Zanim wynaleziono precyzyjne narzędzia do pomiaru wielkości fizycznych, dokładność pomiaru czasu czy odległości zależała przede wszystkim od zdolności percepcyjnych obserwatorów. Obserwatorami były zazwyczaj osoby szkolone i wyćwiczone w tym, co mają robić, a mimo to pomiary dokonywane przez różne osoby, jak też przez te same osoby w różnych sytuacjach, nigdy nie były takie same. Ponieważ trudno budować ogólne prawa nauki, gdy pomiar istotnych wielkości nie może być uznany za pomiar rzetelny, naukowcy początkowo kierowali swoją uwagę na budowanie instrumentów pomiarowych, które dawałyby bardziej stałe i precyzyjne wyniki niż bezpośrednia ludzka obserwacja. Zainteresowanie badaniami różnic indywidualnych systematycznie rosło w drugiej połowie XIX wieku, głównie za sprawą pojawienia się psychologii jako nauki oraz pracy Karola Darwina zatytułowanej On the Origins ofSpecies by Means ofNatural Selection (O powstawaniu gatunków drogą doboru naturalnego). Sam Darwin był Anglikiem, jednak psychologia naukowa narodziła się pod koniec XIX wieku nie w Anglii, a w Niemczech. To wtedy właśnie badacze, tacy jak Gustaw Fechner, Wilhelm Wundt czy Hermann Ebbinghaus, udowadniali, że zjawiska psychologiczne można wyrażać w terminach ilościowych. Wtedy również swój wkład do mierzenia różnic indywidualnych wnieśli badacze z Francji i ze Stanów Zjednoczonych. I tak, badania psychiatrów i psychologów francuskich zajmujących się upośledzeniami umysłowymi wpłynęły na rozwój klinicznych i testowych technik diagnozy, a rosnące Wnioskowanie psychometryczne zainteresowanie egzaminami pisemnymi, jakie przeprowadzano w amerykańskich szkołach, wpłynęło na rozwój standaryzowanych testów osiągnięć (por. też Stachowski, 2000). Wiele postaci odegrało pod koniec XIX wieku istotną rolę w tworzeniu podstaw współczesnej psychometrii. Na szczególne podkreślenie zasługują prace Franciszka Galtona, Jamesa McKeena Cattella i Alfreda Bineta. Galton (notabene kuzyn Darwina) zajmował się dziedzicznymi podstawami inteligencji i technikami mierzenia zdolności. Szczególnie interesował się dziedziczeniem wśród „geniuszy" i formułował tezy dotyczące istoty zdolności umysłowych. Jego zdaniem o byciu „geniuszem" decydowały dwie cechy: energia działania i wrażliwość zmysłowa. Galton stworzył również - i to jest jego najważniejsza zasługa dla rozwoju psychometrii - wiele prostych testów sensomotorycznych i opracował kilkanaście metod analizy wielkości różnic indywidualnych. Posługując się swoimi testami, zebrał dane pochodzące z badań ponad 9000 osób w wieku od 5 do 80 lat! Był to pierwszy duży, systematyczny zbiór danych dotyczących różnic indywidualnych. Warto też w tym miejscu powiedzieć, że jednym z ważniejszych metodologicznych osiągnięć Galtona było wprowadzenie pojęcia i techniki „ko-relacji", powszechnie stosowanej dziś metody analizowania danych (DuBois, 1970). James McKeen Cattell był Amerykaninem, który po zrobieniu - pod kierunkiem Wundta - doktoratu w Niemczech osiadł w Anglii i pracował jako asystent Galtona. Tam poznał jego testy i metody, co zainspirowało go na tyle, że po powrocie do Ameryki zajął się propagowaniem idei badań testowych. W trakcie swojej pracy na Uniwersytecie Pensylwańskim Cattell starał się powiązać wyniki tych prostych testów umysłowych12 badających czas reakcji i różnicowanie sensoryczne ze stopniami szkolnymi. Otrzymane korelacje były jednak bardzo niskie. W ten sposób powstała potrzeba skonstruowania testów, które byłyby dobrymi predyktorami osiągnięć szkolnych. Człowiekiem, który podjął się takiego zadania, był Francuz, Alfred Binet. Alfred Binet i współpracujący z nim lekarz Teodor Simon otrzymali w roku 1904, z francuskiego Ministerstwa Edukacji Publicznej, zadanie stworzenia metody identyfikującej dzieci mające trudności w uczeniu się (upośledzone umysłowo). W tym celu stworzyli test przeznaczony do badań indywidualnych, składający się z 30 zadań ułożonych według rosnącej trudności. Przedmiotem pomiaru tego pierwszego testu inteligencji, opublikowanego w 1905 roku, były zdolności oceniania, rozumowania i wnioskowania. W 1908 roku ukazała się pierwsza rewizja testu, zawierająca większą liczbę 12 To Cattell właśnie, w jednej ze swoich publikacji z roku 1890, wprowadził pojęcie „testów umysłowych". On także był inspiratorem założenia Psychologicai Corporation, instytucji, której celem miało być „wspieranie psychologii i promocja użytecznych zastosowań psychologii". Jego osoba jest też często utożsamiana z tzw. „Skalą Inteligencji dla Dzieci Cattell" (Cattell Infant Intelligence Scalę), której autorką była w rzeczywistości jego córka Psyhe (por. Cohen, Swerdlik, 1999). 37 Rozdział 1 zadań, odpowiednio pogrupowanych dla poziomów wiekowych od 3 do 13 lat. Wtedy też Binet wprowadził pojęcie wieku umysłowego jako sposób wyrażania wyniku otrzymanego w teście. Kolejna rewizja Skali Inteligencji Bineta-Simona, opublikowana w 1911 roku, tuż po niespodziewanej śmierci Bineta, pozwalała również na badanie ludzi dorosłych. Do pionierów testowania należy również zaliczyć Charlesa Spearmana, który wniósł wkład do teorii testów, Edwarda L. Thorndike'a (testy osiągnięć), Lewisa Termana (testy inteligencji), Roberta Woodwortha i Hermana Rorschacha (testy osobowości) oraz Edwarda K. Stronga (testy zainteresowań) - by wymienić tylko niektórych. Prace Artura Otisa nad testami inteligencji typu papier i ołówek bezpośrednio przyczyniły się do powstania „Testu Alfa dla Wojska" (Anny Alpha) oraz „Testu Beta dla Wojska" (Army Betha), stworzonych przez psychologów wojskowych w trakcie I wojny światowej. Oba testy, „Alfa" dla osób piśmiennych i „Beta" dla osób niepiśmiennych, były testami grupowymi pozwalającymi na jednoczesne badanie dużej liczby osób (por. też Aiken, 1982). Począwszy od I wojny światowej możemy obserwować bardzo dynamiczny rozwój zarówno teorii testowania, jak i samych metod testowych. Nazwiska osób, które odegrały istotną rolę w kształtowaniu dzisiejszych testów, ciągle widnieją w nazwach stworzonych przez nich metod. Trudno w tak skrótowym przeglądzie wspomnieć wszystkich badaczy. Warto jednak wracać do korzeni, bowiem -jak pisze Anastasi - „kierunek, w jakim zmierzają współczesne badania testowe, można jaśniej dostrzec w świetle rzucanym przez prace ich prekursorów. Specyficzne zalety i ograniczenia testów stają się bardziej zrozumiałe w kontekście danych pokazujących ich genezę" (Anastasi, Urbina, 1999, s. 56). . 38 Podstawowe pojęcia: • Kryteria dobroci testów obiektywność standaryzacja rzetelność trafność normalizacja adaptacja Test Testy obiektywne i testy nieobiektywne Testy słowne i testy bezsłowne Testy standaryzowane i testy niestandaryzowane Testy właściwości poznawczych i testy właściwości afektywnych Testy zorientowane na normy i testy zorientowane na kryterium Wnioskowanie psychometryczne Wynik obserwowany Wynik prawdziwy Wnioskowanie psychometryczne Tab. 1.3. Najważniejsze daty w historii pomiaru psychologicznego (opracowano na podstawie DuBois, 1970; Cronbach, 1990; Goldberg, 1994; Anastasi, Urbina, 1999; Cohen, Swerdlik, 1999) Data Wydarzenie 2200 p.n.e. Uruchomienie w Chinach programu testowania kandydatów na stanowiska urzędników państwowych 1219 n.e. Pierwsze formalne, ustne egzaminy z prawa na Uniwersytecie w Bolonii 1575 J. Huarte publikuje rozprawę Examen de Ingenios, poświęconą różnicom indywidualnym 1636 Uniwersytet w Oksfordzie wprowadza ustne egzaminy przy nadawaniu stopnia naukowego 1860 Początek stosowania egzaminów ustnych na szeroką skalę zarówno w Europie, jak i w Stanach Zjednoczonych 1869 Publikacja Galtona Classification of Men According to Their Natural Gifts rozpoczyna badania naukowe nad różnicami indywidualnymi 1879 W Lipsku powstaje pierwsze laboratorium psychologiczne, założone przez W. Wundta 1888 J.M. Cattell otwiera laboratorium na Uniwersytecie Pensylwańskim 1893 Na wystawie w Chicago J. Jastrow demonstruje testy senso-motoryczne 1904 C. Spearman występuje z dwuczynnikową teorią inteligencji 1905 Ukazuje się „Skala Inteligencji Bineta-Simona". C. Jung wprowadza pojęcie testu skojarzeń słownych 1908 Rewizja „Skali Inteligencji Bineta-Simona" oraz opublikowanie „Testu Arytmetycznego" C. Stone'a 1908-1914 E.L. Thorndike publikuje standaryzowane testy arytmetyczne, ęzykowe, sprawności pisania 1916 L. Terman publikuje amerykańską wersję „Skali Inteligencji Bineta-Simona" 1917 Zastosowanie pierwszych testów do badań grupowych, tj. Army Alpha i Army Betha; wykorzystanie „Arkusza Danych Osobistych" opracowanego przez R. Woodwortha 1919 L. Thurstone opracowuje test wykorzystywany przy egzaminach wstępnych do college'u 1920 Ukazuje się test „Plamy Atramentowe" H. Rorschacha 1921 Cattell, Thorndike oraz Woodworth zakładają Psychological Corporation, pierwszą instytucję zajmującą się wydawaniem estów 1925-1950 klasowe stosowanie testów w Stanach Zjednoczonych, niemal we wszystkich obszarach życia 39 Rozdział 1 cd. tab. 1.3 40 1938 Ukazuje się pierwsza publikacja O.K. Burosa „Mental Measure-ments Yearbook" 1939 D. Wechsler publikuje test do badania inteligencji osób dorosłych „Wechsler Adult-lntelligence Scalę" 1942 Ukazuje się test MMPI („Minnesota Multiphasic Personality lnventory") 1949 D. Wechsler publikuje drugi z serii swoich testów, tym razem przeznaczony do badania dzieci i młodzieży („Wechsler Intel-ligence Scalę for Children") 1967 Ukazuje się trzeci test D. Wechslera, przeznaczony do badania małych dzieci („Wechsler Preschool and Primary Scalę of Intelligence") 1970 Liczne publikacje nowych metod testowych, w tym także ich wersji komputerowych 1971 Pierwsza sprawa sądowa dotycząca testów. W Stanach Zjednoczonych sąd nakazuje, aby testy wykorzystywane dla celów selekcji były merytorycznie powiązane z rodzajem wykonywanej pracy (sprawa Griggs vs. Duke Power) Literatura zalecana Anastasi A., Urbina S. (1999). Testy psychologiczne. Warszawa: Pracownia Testów Psychologicznych Polskiego Towarzystwa Psychologicznego. Brzeziński J. (1996). Metodologia badań psychologicznych. Warszawa: Wydawnictwo Naukowe PWN. Brzeziński J. (2000). Teoria testów psychologicznych: ABC psychometrii, w: J. Strelau (red.), Psychologia. Podręcznik akademicki. Tom 1: Podstawy psychologii (s. 400-415). Gdańsk: Gdańskie Wydawnictwo Psychologiczne. Guilford J.P. (1988a). Teoria testów psychologicznych. Biblioteka Psychologa Praktyka. Tom II: Problemy teorii, rzetelności, konstrukcji i analizy wyników testów psychologicznych (s. 9-50). Warszawa: Polskie Towarzystwo Psychologiczne, Laboratorium Technik Diagnostycznych. Rozdział 2 Klasyczna teoria testów jako podstawa wnioskowania o rzetelności testu W języku potocznym termin rzetelność oznacza niezawodność (dokładność). Z kolei w psychometrii termin ten odnosi się do powtarzalności otrzymanych wyników. Stosując określony test, jesteśmy bowiem zainteresowani tym, czy ponowne badanie tej samej osoby w podobnych warunkach przyniosłoby takie same efekty. Mówiąc jeszcze inaczej, rzetelność oznacza zgodność wyników otrzymanych przez te same osoby, które zostały przebadane kilka razy tym samym testem. W pewnym sensie wszystkie pomiary psychologiczne są w jakimś stopniu nierzetelne. Gdybyśmy dwukrotnie w odstępie jednego miesiąca przebadali tę samą grupę osób, powiedzmy, testem wiadomości z historii, to jest rzeczą mato prawdopodobną, że za drugim razem osiągnęłyby one takie same wyniki jak za pierwszym. Co w takim razie sprawia, że wyniki testowe są nierzetelne? Przypomnijmy, że osoba badana, udzielając odpowiedzi na pozycje testu, odpowiada jedynie na pewną próbkę pozycji ze zbioru wszystkich możliwych pozycji dla tego testu. Tym samym otrzymany przez nią wynik nigdy nie jest idealnym odzwierciedleniem rzeczywistej wartości mierzonej cechy, natomiast zawsze jest obciążony pewnym błędem. Zastanówmy się zatem, co może być przyczyną powstawania błędu w badaniach testowych. 2.1. ŹRÓDŁA BŁĘDU W POMIARZE TESTOWYM Błąd pomiaru może mieć charakter systematyczny bądź losowy. Błąd systematyczny to błąd, który nie ma nic wspólnego z mierzoną cechą psychologiczną i jest spowodowany stałymi cechami badanej osoby lub narzędzia pomiarowego. Taki właśnie błąd ujawni się w sytuacji, w której osoba badana, odpowiadając np. na kolejne pozycje skali postaw, zawsze zakreśla odpowiedź „nie zgadzam się", kiedy nie rozumie treści pytania. Ponieważ w kolejnym badaniu będzie ona reagowała tak samo, błąd, z którym będziemy mieli do czynienia, będzie błędem systematycznym i w taki sam sposób będzie wpływać na wyniki testowania w obu sytuacjach (tj. za pierwszym i drugim razem). 41 Rozdział 2 Błędy drugiego rodzaju, tj.błędy losowe, powstają w wyniku działania przyczyn przypadkowych. Błędy te mogą zarówno zwiększać, jak i zmniejszać wynik testowy. Do czynników, które w sposób losowy wpływają na wynik testowy, należą: sposób konstrukcji testu, sytuacja testowania oraz sposób oceny wyników (por. rys. 2.1). Omówimy je pokrótce (por. też Anastasi, Urbina, 1999; Cohen, Swerdlik, 1999; Guilford, 1988a; Magnusson, 1981). Rys. 2.1. Źródła błędu losowego w badaniu testowym Źródła błędu w badaniach testowych konstrukcja testu sytuacja testowania ocena wyników czynniki sytuacyjne osoba badana osoba badająca błędy mechaniczne subiektywizm w ocenie wyników 42 dobór treści Konstrukcja testu Jednym ze źródeł błędu, z jakim mamy do czynienia w pomiarze testowym, jest sposób konstrukcji testu. Dokładnie rzecz biorąc, źródłem tego błędu jest specyficzny dobór treści, z jakiej zbudowane są pozycje testu. Jak już wspominaliśmy w poprzednim rozdziale, konkretny test powinien być zawsze traktowany jako próbka treści pochodząca z określonego uni-wersum. Wyobraźmy sobie zatem taką sytuację. Czeka nas rozwiązanie testu mierzącego naszą wiedzę z historii. Czujemy się znakomicie przygotowani z historii XIX i XX wieku, gorzej zaś jeżeli chodzi o pozostałe okresy historyczne. Nic dziwnego zatem, że naszym marzeniem jest otrzymanie takiego zbioru pytań, które w przeważającej części dotyczyć będą tego, a nie innego okresu historycznego. Jeżeli mamy szczęście, to może się tak właśnie stać. W każdej sytuacji testowania niektóre osoby badane otrzymują wyższe wyniki testowe tylko dlatego, że specyficzna treść pozycji testowych szczególnie im odpowiada lub szczególnie ich dotyczy. Stopień, w jakim wyniki testowe odzwierciedlają specyficzną treść testu - bardziej lub mniej dostępną konkretnym osobom badanym - jest zatem jednym ze źródeł błędu. Sytuacja testowania W trakcie rozwiązywania testu przez osobę badaną może zdarzyć się wiele sytuacji, które np. obniżą motywację osoby badanej (chociażby gdy usłyszy ona przed wejściem do pokoju, że testy, które ma rozwiązać, niczemu nie służą) lub wpłyną na jej stopień koncentracji uwagi (gdy w trakcie rozwiązywania testu ktoś za ścianą włączy młot pneumatyczny). Klasyczna teoria testów jako podstawa wnioskowania o rzetelności testu Ogólnie rzecz biorąc, źródła błędu związane z sytuacją badania obejmują: czynniki sytuacyjne (temperaturę w pomieszczeniu, oświetlenie, hałas itp.), czynniki związane z osobą badaną (ilość snu w przeddzień testowania, lęk przed testowaniem, zażywanie leków, chwilowe fluktuacje uwagi, itp.), czynniki związane z osobą badającą (obecność lub nieobecność w trakcie badania, sposób zwracania się do osoby badanej, umiejętność nawiązywania kontaktu, itp.). Sposób oceny wyników W wypadku wszystkich niemal testów, także tych, w których ocena wyników polega na mechanicznym przyłożeniu klucza do arkusza odpowiedzi i ręcznym policzeniu odpowiedzi zgodnych z kluczem, trzeba się liczyć z możliwością popełnienia błędu (wolne od tego rodzaju błędu są jedynie te testy, w których obliczanie wyników zostało zautomatyzowane czy skomputeryzowane). Popełniane błędy mogą być dwojakiego rodzaju. Po pierwsze, mogą to być błędy mechaniczne (źle przyłożony arkusz; błędnie obliczona suma wyników). Po drugie, mogą to być błędy wynikające ze zbyt ogólnych kryteriów oceniania odpowiedzi (z takim przypadkiem mamy np. do czynienia w wielu testach inteligencji lub osobowości, w których klucz oceny wyników zawiera tylko ogólne kryteria punktacji odpowiedzi). W tym drugim wypadku wynik otrzymany w teście odzwierciedla również indywidualne doświadczenie osoby oceniającej odpowiedzi. Wszystkie czynniki, które nie mają związku z celem badania testowego, stanowią źródło błędu. Błędy systematyczne nie są przyczyną braku powtarzalności wyników pomiaru, jednak mogą wpływać na wyniki testowe i tym samym zmniejszać ich użyteczność. Z kolei błędy losowe powodują, że wyniki testowe nie są ani powtarzalne, ani użyteczne. Trudno zakładać, że pomiar testowy będzie użyteczny, jeżeli nie będzie powtarzalny. Dlatego też jednym z zadań konstruktora testu jest wykazanie, że wyniki otrzymywane za pomocą jego metody są powtarzalne, a więc rzetelne. Mówiąc bardziej fachowo, powinien on wykazać, jaką część ogólnej wariancji wyników testowych stanowi wariancja wyników prawdziwych. Potwierdzenie faktu odpowiedniej rzetelności testu wymaga przyjęcia teoretycznego modelu opisującego związek między błędem pomiaru a wynikami otrzymywanymi w teście oraz przeprowadzenia badań empirycznych według schematu zgodnego z tym modelem. W tym rozdziale zajmiemy się zatem zarówno prezentacją takich modeli teoretycznych, jak i analizą ich praktycznych konsekwencji. 2.2. MODEL WYNIKU PRAWDZIWEGO I JEGO ZAŁOŻENIA - KLASYCZNA TEORIA TESTÓW Źródeł koncepcji klasycznego modelu wyniku prawdziwego można już upatrywać w pracach Spearmana (1904, 1907). W pracach tych argumentował on, że otrzymane wyniki testowe są niedokładnymi miarami cech psychologicznych. Ta myśl Spermana była rozwijana przez Guilforda (1936), Gullik- 43 Rozdział 2 sena (1950) oraz Lorda i Novicka (1968) i dzisiaj znana jest jako klasyczny model wyniku prawdziwego (por. też Guilford, 1988a; Machowski, 1993). Istotą myśli Spearmana (ibidem) było założenie, że każdy wynik obserwowany w teście jest składową dwóch, nieobserwowalnych bezpośrednio wielkości - wyniku prawdziwego (T - ang. true score) oraz błędu pomiaru (E - ang. error). Zależność ta wyrażana jest w następującej postaci i znana jako równanie klasycznej teorii testów: X= T+E gdzie: X - oznacza wynik otrzymany w teście, T - wynik prawdziwy, a E - błąd pomiaru. Przyjmując to równanie jako podstawę naszego wnioskowania, widzimy wyraźnie, że wynik otrzymany w teście (czyli wynik obserwowany - X) nie ma w zasadzie żadnego praktycznego znaczenia. Na jego podstawie bowiem trudno cokolwiek orzekać o prawdziwej wartości mierzonej cechy, gdyż wynik prawdziwy i błąd pomiaru są ze sobą nierozerwalnie związane. Np. wynik testowy X może wynosić 10 i będzie tak wtedy, gdy T= 8 i E = 2, oraz wtedy, gdy 7=120 i ?'=-110. To wynik prawdziwy (T) jest tym, co nas interesuje, i wartość tego wyniku będziemy chcieli oszacować. Żeby to jednak było możliwe, musimy przyjąć dodatkowe założenia. Przede wszystkim musimy mieć jakieś oczekiwania co do wielkości błędu pomiaru, a więc musimy określić, jak niedokładne mogą być wyniki otrzymane w teście. W klasycznej teorii testów przyjmujemy, że wszystkie błędy, jakie otrzymalibyśmy, badając tym samym testem tę samą osobę nieskończenie wiele razy, mają rozkład normalny, a ich średnia wynosi zero1. Założenie to jest formalnie wyrażane następująco: gdzie symbol ME oznacza średnią arytmetyczną błędu (ang. mean - „średnia arytmetyczna"). Założenie to, znane też pod nazwą założenia o nieobciążono-ści narzędzia pomiarowego, mówi tyle, że błąd, z jakim mamy do czynienia w pomiarze testowym, jest wyłącznie błędem losowym. Aby można było stworzyć statystyczne metody szacowania wielkości błędu, konieczne jest jeszcze przyjęcie dwóch kolejnych założeń. Pierwsze z nich dotyczy związku między wynikiem prawdziwym a błędem pomiaru. 44 1 Założenie to, de facto, jest założeniem kontrfaktycznym, ponieważ w sytuacjach praktycznych nie jest możliwe otrzymanie nieskończenie wielu, niezależnych od siebie wyników pochodzących z badania testem tej samej osoby. Każde badanie testowe jest bowiem badaniem „inwazyjnym" („niszczącym") w tym sensie, że osoba badana, rozwiązując ten sam test po raz drugi, dysponuje już jakąś wiedzą o tym teście -jest więc w pewnym sensie „inną" osobą badaną. Tu jednak przyjmujemy idealizacyjnie, że gdyby można było dokonać nieskończenie wielu niezależnych od siebie pomiarów tej samej cechy u tej samej osoby i za pomocą tego samego testu, to rozkład wartości błędu w tym teście dla tej osoby byłby rozkładem normalnym, ze średnią równą zeru. Klasyczna teoria testów jako podstawa wnioskowania o rzetelności testu Jeżeli przyjmujemy założenie pierwsze, a więc zakładamy, że błąd pomiaru ma charakter losowy, to jego konsekwencją jest przyjęcie, iż nie ma związku między wynikiem prawdziwym a błędem pomiaru. To założenie znane jest jako założenie o niezależności: rTE = 0 Innymi słowy, przyjmujemy, że współczynnik korelacji między wynikiem prawdziwym a błędem pomiaru (rTE) wynosi zero. I wreszcie założenie trzecie. Jeżeli błąd pomiaru ma charakter losowy, to również nie możemy oczekiwać istnienia żadnego związku między błędami otrzymanymi w dwóch kolejnych badaniach tym samym testem, a więc: rElE2 = 0 Te trzy założenia stanowią podstawę klasycznej teorii testów. > Zgodnie zklasyczną teorią testów przyjmuje się, że: X=T+E gdzie: X- oznacza wynik otrzymany w teście, T— wynik prawdziwy, a E—błąd pomiaru. > Jednocześnie w teorii tej przyjmuje się trzy następujące założenia: • ME=0 (tzw. założenie o nieobciążoności narzędzia pomiarowego) • rTE=0 (tzw. założenie o niezależności) 2.3. DEFINICJA RZETELNOŚCI Wiedząc już, że wyniki obserwowane jako takie są praktyczne bezużyteczne (bez dodatkowych informacji nie wiemy bowiem, na ile dobrze odzwierciedlają one wyniki prawdziwe), podstawowym pytaniem, jakie musimy sobie zadać - zanim zastosujemy określony test - jest pytanie o wielkość związku, jaki zachodzi między wynikami obserwowanymi a wynikami prawdziwymi. Współczynnik korelacji między wynikami obserwowanymi a wynikami prawdziwymi nazywany jest wskaźnikiem rzetelności (ang. reliability index). Współczynnik rzetelności możemy zatem zapisać jako2: GXT Pat—~~~" gdzie: pXr oznacza współczynnik korelacji między wynikami otrzymanymi a wynikami prawdziwymi, Oxr oznacza kowariancję wyników otrzymanych 2 Wzór ten otrzymaliśmy, podstawiając odpowiednie wielkości (tj. T i X) do klasycznego wzoru na współczynnik korelacji: CovXY rXY = 'XY—---------------------- A c (SDX)(SDY) 45 Rozdział 2 i wyników prawdziwych, a ax oraz aT oznaczają, odpowiednio, odchylenia standardowe wyników otrzymanych i wyników prawdziwych. Przyjmując klasyczny model teorii testów, tj. że X= T+E, możemy podstawić, w miejsce wielkości X, wielkość T+E. Otrzymamy wtedy następujące wyrażenie: PXT = G(T+E)T OxOt Ponieważ na mocy założeń klasycznej teorii testów wiemy, że rTE = 0 (nie ma korelacji między wynikami prawdziwymi a błędem pomiaru), to w naszym wypadku również wyrażenie oTe=0 (kowariancja między wynikami prawdziwymi a błędem pomiaru) będzie równać się zeru. Po uwzględnieniu tego założenia korelacja między wynikami obserwowanymi a wynikami prawdziwymi będzie zatem wynosić: o2r Pxt= Upraszczając to ostatnie wyrażenie, otrzymamy: 46 Ponieważ ze statystyki wiemy, że miarą siły związku między dwiema zmiennymi jest tzw. współczynnik determinacji, który jest kwadratem współczynnika korelacji (por. Ferguson i Takane, 1997, s. 142), podnieśmy zatem obie strony naszego równania do kwadratu: <"% ? -^ ^wia-t^^T-Tirn-- &' PXT=— * jX' O&kiES • Standardowy błąd pomiaru jest to odchylenie standardowe różnic X-T. Jest to błąd, który popełniamy wtedy, kiedy przyjmujemy, że wynikiem prawdziwym danej osoby jest średni wynik, jaki uzyskałaby ona w nieskończenie wielu pomiarach tym samym testem. Błąd ten wynosi: SEM=SxVi-rrt. > Standardowy błąd estymacji jest to odchylenie standardowe rozkładu różnic między T* i T, a więc między estymowaną wartością wyniku prawdziwego i jego wartością rzeczywistą. Błąd ten wynosi: SEE=yrtt SEM. > Standardowy błąd różnicy jest to odchylenie standardowe wszystkich możliwych różnic między dwoma wynikami. Błąd ten wynosi: SEMX-Y=ySEM$+SEI\Ą. " Rozdz. 6 tej pracy został w całości poświęcony społecznym skutkom testowania. 63 Rozdział 2 gdzie: SEM oznacza standardowy błąd pomiaru (ang. standard error of measurement), Sx to odchylenie standardowe ogólnych wyników w teście, a r„ to rzetelność testu. Standardowy błąd pomiaru ma rozkład normalny i jest definiowany jako odchylenie standardowe różnic X-T. Mówiąc jeszcze inaczej, jest on definiowany jako odchylenie standardowe rozkładu błędów, które popełniamy wtedy, kiedy przyjmujemy, że wynikiem prawdziwym danej osoby jest średni wynik, jaki uzyskałaby ona w nieskończenie wielu pomiarach tym samym testem (por. Magnusson, 1981, s. 120). Tak definiowany błąd pomiaru jest wykorzystywany do oceny precyzji naszych wniosków o wyniku prawdziwym osoby badanej. Technicznie rzecz biorąc, wnioskowanie to polega na budowaniu - dla wyniku otrzymanego w teście - tzw. przedziału ufności. Przedział ufności dla wyniku otrzymanego pozwoli nam na określenie granic, w których - z określonym prawdopodobieństwem - znajduje się wynik prawdziwy osoby badanej. Im większy będzie zbudowany przez nas przedział (np. 95% lub 99%), tym będziemy mieć większą pewność, że wynik prawdziwy badanej osoby mieści się właśnie w tym przedziale. Przedział ufności dla wyniku otrzymanego. Jak zatem obliczamy przedział ufności dla wyniku otrzymanego? Podstawowa metoda budowania przedziału ufności polega na odjęciu pewnej stałej wartości od wyniku otrzymanego (otrzymamy wtedy dolną granicę przedziału) oraz dodaniu jej do wyniku otrzymanego (otrzymamy wtedy górną granicę przedziału). Ta stała wartość jest równa wyrażeniu {Zan) (SEM). Jak zatem widzimy, jest to iloczyn wartości wyniku standaryzowanego z (odczytanego dla poziomu istotności a/212) oraz standardowego błędu pomiaru. Przedział ufności ma zatem następującą postać: \X+ZanSEM) Wynik standardowy z relatywizuje przedział ufności do rozkładu normalnego i określa, z jaką pewnością będziemy budować nasz przedział. Aby zilustrować sposób określania przedziału ufności, przeanalizujmy następujący przykład. Przebadaliśmy testem WAIS-R(PL) osobę w wieku 23 lat. Otrzymała ona wynik równy 93 pkt. IQ w Skali Pełnej. Rzetelność testu dla tego poziomu wieku wynosi 0,902 (dane z podręcznika testowego - por. Brzeziński i in., 1996, s. 39^10), a wartość zai dla oc = 0,10 wynosi 1,64. Wiedząc, że w tym teście Sx= 15 (ibidem), obliczamy wartość standardowego błędu pomiaru: SEM= 15-^1-0,902 = 4,680. Dysponując wszystkimi danymi, możemy teraz zbudować 90% przedział ufności dla wyniku otrzymanego tej osoby: 12 Wartość z odczytujemy dla poziomu istotności a/2 dlatego, że przedział ufności jest 64 przedziałem dwustronnym, a wiec cały poziom istotności a rozkłada się na dwie części. Klasyczna teoria testów jako podstawa wnioskowania o rzetelności testu (93 - (1,64)(4,680); 93+(l ,64)(4,680)> (85; 101> Wynik prawdziwy osoby badanej mieści się zatem - z 90% ufnością - w przedziale od 85 do 101 pkt. w skali IQ. Przedział ufności dla wyniku prawdziwego. Zamiast obliczania przedziału ufności dla wyniku otrzymanego, możemy obliczyć przedział ufności dla estymowanego wyniku prawdziwego osoby badanej. Estymowany wynik prawdziwy możemy oszacować według następującego wzoru: gdzie: T* oznacza estymowany wynik prawdziwy, X - wynik otrzymany w teście, X - średni wynik otrzymany w populacji, do której należy badana osoba, a r„ - rzetelność zastosowanego testu. Standardowy błąd estymacji wyniku prawdziwego (SEE - ang. standard error of estimatioń) jest równy: SEE=^r~„SEM gdzie SEM to oczywiście standardowy błąd pomiaru (por. Choynowski, 1971, s. 112). SEE - podobnie jak SEM - posiada rozkład normalny i jest definiowany jako odchylenie standardowe rozkładu różnic między T* i T, a więc między estymowaną wartością wyniku prawdziwego i jego wartością rzeczywistą. Przedział ufności budowany dla estymowanego wyniku prawdziwego ma następującą postać: -Teoria uniwersalizacji stawia pytania dotyczące wielkości wariancji wynikającej z konkretnych źródeł błędu. Pytania te mają postać: „Co w tej konkretnej procedurze jest błędem pomiaru?" oraz „Jak duża jest wariancja wynikająca z każdego z tych źródeł?". Istotnym elementem teorii uniwersalizacji jest określanie schematów badawczych pozwalających uzyskać dane na ten temat. 69 Rozdział 2 I 70 Opisane wyżej metody szacowania rzetelności wymagają, aby osoba badana rozwiązała ten sam test dwa razy. Współczynnik rzetelności został bowiem operacyjnie zdefiniowany jako współczynnik korelacji między dwoma wynikami testowymi - otrzymanymi za pierwszym i za drugim razem. Jednakże w wielu sytuacjach psychologicznych - podobnie jak w powyższym rzykładzie - nie jest możliwe otrzymanie dwóch pomiarów (czy za pomocą powtórnego testowania, czy za pomocą dzielenia testu na części). Jednym z ciekawszych rozwiązań, które pozwala na oszacowanie współczynnika rzetelności i wariancji błędu w takiej właśnie sytuacji, jest teoria uniwersalizacji (Cronbach i in., 1972). Elementy tej teorii znane już były wcześniej (por. np. Lindquist, 1953), jednak dopiero Cronbach ze współpracownikami nadał jej formalny kształt. Wydaje się, że warto poświęcić jej nieco miejsca, bo choć - w porównaniu z modelem klasycznym - jest zdecydowanie rzadziej wykorzystywana w praktyce, formułowane w jej ramach idee dotyczące pomiaru i pojęcia rzetelności są nader inspirujące. Najbardziej istotną różnicę między klasyczną teorią testów a teorią uniwersalizacji można określić jako różnicę perspektywy (por. Suen, 1990; Gruijter, Van der Kamp, 1991). Ściśle rzecz biorąc, w ramach klasycznej teorii testów błąd pomiaru opisywany jest za pomocą ogólnego pojęcia błędu losowego. Pojęcie to nie relatywizuje błędu do konkretnej sytuacji, w jakiej ma miejsce badanie testem. Tymczasem w teorii uniwersalizacji rzetelność testu zależy od kontekstu testowania. Z technicznego punktu widzenia teoria uniwersalizacji różni się od klasycznej teorii testów w dwóch ważnych aspektach. Po pierwsze, w miejsce silnego założenia o równoległości testów, przyjmuje się w niej założenie słabsze, tj. założenie o tzw. losowej równoległości. Dwa testy są losowo równoległe (ang. randomly parallel), jeżeli można przyjąć, że pozycje tych testów są losowymi próbkami pobranymi z tego samego uniwersum pozycji. Po drugie, teoria uniwersalizacji daje możliwość określania wielu różnych źródeł błędu. Tym samym, zamiast jednego współczynnika rzetelności, jak to ma miejsce w klasycznej teorii testów, możemy obliczyć tyle współczynników rzetelności, ile pytań dotyczących źródeł błędu potrafimy sformułować (por. Gruijter, Van der Kamp, 1991, s. 45). Wariancja wyników testowych Przypomnijmy, że terminem wariancja oznaczamy wielkość zróżnicowania otrzymanych wyników wokół ich wartości średniej. Mówiąc inaczej, wariancja opisuje nam wielkość błędu, jaki popełniamy wtedy, kiedy średni wynik traktujemy jako dobre odzwierciedlenie wszystkich wyników indywidualnych. Podkreślmy wyraźnie, wariancję możemy zatem traktować jako miarę popełnianego błędu. Mała wariancja (czyli niewielkie zróżnicowanie wyników wokół wartości średniej) wskazuje, że średni wynik dobrze (rzetelnie) odzwierciedla wyniki indywidualne. Duża wariancja zaś wskazuje, że wartości średniej nie można traktować jako rzetelnej miary wyników indywidualnych (por. Suen, 1990, s. 40). Klasyczna teoria testów jako podstawa wnioskowania o rzetelności testu Ta cecha wariancji sprawia, że jest to bardzo ważna statystyka w psycho-metrii. Znając bowiem wielkość wariancji, możemy wyciągać ważne wnioski dotyczące wielkości błędu, czyli wnioski dotyczące rzetelności testu. Źródła wariancji W każdym konkretnym zbiorze danych (także danych testowych) możemy wyróżnić różne źródła wariancji (zmienności) wyników. W psychometrii różne źródła wynikają z różnych cech sytuacji testowania. Wróćmy do naszego przykładu studenta zdającego egzamin pisemny. Jeżeli jedna z osób oceniających dała mu 8 pkt. w dniu, w którym pisał egzamin, to nie wiemy, czy ocenę te możemy traktować jako ocenę rzetelną (powtarzalną). Gdyby ta sama osoba oceniająca (ten sam wykładowca), oceniając tę sama pracę ponownie, np. na drugi dzień, również dała 8 pkt. to możemy powiedzieć, że jest to osoba doskonale rzetelna. W tym wypadku mamy do czynienia z wysoką rzetelnością wewnątrz osoby oceniającej (ang. intrąjud-ge). Gdyby jednak ten sam wykładowca różnie oceniał tę samą pracę w kolejnych dniach, możemy powiedzieć, że mamy do czynienia z brakiem rzetelności ocen pochodzących od tej samej osoby oceniającej. Dobrą miarą rzetelności ocen jest tu wielkość wariancji ocen, jakie ta sama osoba oceniająca dała tej samej pracy. Im niższa wariancja ocen, tym - oczywiście - większa ich rzetelność (por. Suen, 1990, s. 43-45). Zamiast prosić jedną osobę o ocenę tej samej pracy, możemy poprosić kilku wykładowców (doskonale rzetelnych) o jednorazową ocenę tej samej pracy. W efekcie otrzymamy zbiór ocen. W zbiorze tym każda ocena pochodzić będzie od innego wykładowcy. Tym razem wariancja ocen nie będzie wskazywać na rzetelność ocen pochodzących od jednej osoby oceniającej (wszystkie osoby oceniające są bowiem doskonale rzetelne i każda z nich zawsze tak samo ocenia tę samą pracę), a na rzetelność ocen pochodzących od różnych wykładowców. Możemy zatem powiedzieć, że w tym drugim wypadku wariancja ocen jest wskaźnikiem rzetelność ocen pochodzących od różnych wykładowców (czyli między osobami oceniającymi- ang. interjudge). Może się również zdarzyć i tak, że jeden wykładowca (doskonale rzetelny) zostanie poproszony o ocenę kilku różnych prac tego samego studenta. I chociaż kolejne oceny tej samej pracy są zawsze takie same (bo pochodzą od doskonale rzetelnej osoby oceniającej), to oceny różnych prac mogą być różne. W tym wypadku źródłem zmienności są same prace studenta (czyli różne pozycje testowe, mówiąc językiem psychometrii). Innymi słowy, źródłem błędu, jaki pojawia się w tej sytuacji, jest brak zgodności wewnętrznej między pracami (pozycjami testowymi - ang. internat consistency). I wreszcie w czwartej sytuacji: doskonale rzetelny (zgodny wewnętrznie) test, składający się z kilku pytań wymagających pisemnej odpowiedzi, rozwiązało kilku studentów. Kilku doskonale rzetelnych wykładowców doskonale rzetelnie oceniło te prace. Wyniki różnych studentów okazały się 71 Rozdział 2 72 jednak różne. Tym razem źródłem błędu były różnice między osobami badanymi (studentami). Wariancja otrzymanych ocen wynika tu z wariancji między osobami badanymi (ang. variance across subjects). Zarysowane powyżej cztery hipotetyczne sytuacje opisują cztery różne źródła wariancji, jakie mogą się pojawić w badaniach testowych. Znajomość wielkości tych źródeł (wariancji) pozwala na obliczenie wielu współczynników rzetelności, w zależności od tego, jakie źródło błędu uznamy za najważniejsze. Jak pisze sam Cronbach (1990, s. 196): „Teoria uniwersalizacji wykracza pozaklasyczną analizę rzetelności w tym sensie, że wprost stawia pytania o to, «co, w tej konkretnej procedurze, jest błędem pomiaru ?» oraz «jak duża jest wariancja wynikająca z każdego z tych źróde ł?». Wiedza o poszczególnych źródłach wariancji w ogromnym stopniu przyczynia się do lepszej interpretacji mierzonego konstruktu". Wariancja prawdziwa oraz wariancja błędu Przeanalizujmy raz jeszcze nasz przykład. Możemy przyjąć, że z punktu widzenia jakości pomiaru psychologicznego nie jest rzeczą pożądaną, aby występowały takie źródła błędu jak zarówno zróżnicowanie ocen wewnątrz jednej osoby czy też między osobami oceniającymi, jak i brak zgodności wewnętrznej między zadaniami (pozycjami testowymi). Będą one zawsze wskaźnikami braku rzetelności pomiaru. Ogólnie rzecz biorąc, wszystkie źródła wariancji niepożądanej z punktu widzenia jakości pomiaru stanowić będą wariancję błędu. Natomiast wariancja między osobami badanymi jest właśnie tym, co chcemy osiągnąć, wprowadzając badanie testowe. Wyniki testowe mają bowiem służyć jako podstawa określenia poziomu różnic indywidualnych między osobami badanymi. Dlatego też wariancja między osobami badanymi nie może być traktowana jako błąd pomiaru, ale jako wskaźnik stopnia rozproszenia wyników, czyli inaczej stopnia zróżnicowania między osobami badanymi. Innymi słowy możemy powiedzieć, że jest to wariancja prawdziwa. Wariancja wewnątrz i między osobami oceniającymi czy wariancja między pozycjami testowymi to tylko niektóre przykłady wariancji błędu. W rzeczywistej sytuacji testowania źródłem błędu może być nieskończenie wiele czynników. Takimi źródłami mogą być np. różnice w sytuacji testowania, różnice między formami równoległymi testu, itd. Istotą teorii uniwersalizacji jest możliwość definiowania tych źródeł błędu i określania ich wielkości (por. Cronbach, 1990, s. 196-197; Suen, 1990, s. 43-44). Schematy badawcze Istotnym elementem teorii uniwersalizacji jest określanie schematów badawczych pozwalających uzyskać dane na temat wielkości wariancji, która wynika z konkretnych źródeł błędu. Jak być może Czytelnik już się zorientował (choćby przy analizie pojęcia zróżnicowania wewnątrz i między osobami oceniającymi), dokonując estymacji różnych współczynników rzetel- Klasyczna teoria testów jako podstawa wnioskowania o rzetelności testu ności, będziemy posługiwać się dobrze znaną i powszechnie stosowaną techniką analizy wariancji (ANOVA). Bogactwo schematów badawczych, jakie wypracowano w ramach ANOVA, pozwala na analizę nawet bardzo złożonych sytuacji pomiarowych. Wprawdzie w ogólnym przeglądzie trudno omówić - choćby wybrane - ich przykłady14, warto jednak zwrócić uwagę na czynniki, które powinny zastać wzięte pod uwagę przy wyborze określonego schematu. Przedmiot pomiaru. Najważniejszym zadaniem jest właściwe określenie przedmiotu pomiaru. Przedmiot pomiaru zazwyczaj określamy, wskazując, co chcemy mierzyć. W klasycznej teorii testów przedmiot pomiaru jest stosunkowo oczywisty: zakładając, że warunki badania są we wszystkich ważnych aspektach ujednolicone (wystandaryzowane), chcemy mierzyć zróżnicowanie między osobami badanymi. Interesują nas zatem dwie wariancje: wariancja wyników prawdziwych i wariancja błędu. W teorii uniwersalizacji -jak pamiętamy - możemy określić wiele źródeł wariancji. W tym wypadku to, co stanowi obiekt pomiaru, nie jest już tak oczywiste, jak w przypadku klasycznej teorii testów. Przedmiotem pomiaru mogą być bowiem nie tylko osoby badane, ale np. osoby oceniające wyniki testu. To, kto (lub co) będzie przedmiotem pomiaru, prowadzi do wyboru innego schematu zbierania danych oraz innych analiz psychometrycznych. Umiejętność wyraźnego wskazania przedmiotu pomiaru staje się w tym wypadku elementem niezbędnym, gdyż w ten sposób określamy źródło wariancji prawdziwej. Wybierając zaś określony schemat badawczy, będziemy się kierować zasadą maksymalizacji wariancji prawdziwej oraz minimalizacji wariancji błędu (por. Suen, 1990, s. 45). Wróćmy ponownie do naszego przykładu, w którym kilku wykładowców oceniało prace pisemne studentów, a ich oceny różniły się między sobą. Jeżeli przedmiotem pomiaru będzie zróżnicowanie zdolności studentów, to pojawił się tu duży błąd pomiaru, gdyż ta sama praca została inaczej oceniona przez każdego wykładowcę. Gdyby jednak tym, co nas interesuje, była indywidualna ocena pracy każdego wykładowcy, duże zróżnicowanie wyników między wykładowcami będzie dla nas pożądane. W tym drugim wypadku chcemy bowiem dokonać różnicowania między ocenami sędziów i zróżnicowanie ocen będzie stanowić wariancję prawdziwą. W zależności od przedmiotu pomiaru, różne wariancje są różnie interpretowane i mogą mieć różne znaczenie. Czynniki pomiaru. W każdym pomiarze mamy do czynienia z różnymi źródłami wariancji wyników. Jednym z tych źródeł jest przedmiot pomiaru. Wariancja, której źródło stanowi przedmiot pomiaru, jest zawsze wariancją prawdziwą. Wszystkie inne źródła są źródłami wariancji błędu. Źródła wariancji błędu - w teorii uniwersalizacji - nazywa się czynnikami pomiaru (ang. facets). 14 Osobom zainteresowanym techniczną prezentacją schematów ANOVA, które można wykorzystać w badaniach rzetelności testu, polecam następujące prace: Crocker i Algin (1986); Shavelson i "'ebb (1991); Brzeziński (1984). 73 Rozdział 2 74 W analizowanym przez nas przykładzie możemy wyróżnić trzy wariancje: wariancję między studentami, wariancję między wykładowcami i wariancję między pytaniami, na które odpowiadali studenci. Jeżeli przyjmiemy, że przedmiotem pomiaru jest poziom wiedzy studentów z określonej dziedziny, to wykładowcy i pytania będą źródłami wariancji błędu, czyli czynnikami pomiaru. Schemat badawczy, jaki powinniśmy zatem zastosować w tej sytuacji, będzie schematem dwuczynnikowym. Z kolei zróżnicowanie w ramach danego czynnika jest traktowane jako poziom tego czynnika (por. Suen, 1990, s. 45). I tak, w naszym przykładzie, gdyby studenci odpowiadali na pięć pytań i oceniani byli przez trzech sędziów, to mielibyśmy 5 poziomów w obrębie jednego czynnika i 4 poziomy w obrębie drugiego czynnika. Czynniki losowe i czynniki stałe. Czynniki, z jakimi mamy do czynienia w sytuacji pomiaru, mogą mieć charakter czynników losowych (ang. rondom facets) bądź charakter czynników stałych (ang. fixed facets). W wypadku czynników losowych przyjmujemy, że poziomy tych czynników są losową próbką wszystkich możliwych poziomów tego czynnika. Prowadzi to do tego, że w każdym kolejnym badaniu wykorzystywane poziomy czynnika mogą być inne. Czynniki stałe zaś to czynniki, których poziomy się nie zmieniają - pozostają stałe w różnych sytuacjach badawczych. Czynniki stałe odnoszą się do wystandaryzowanych warunków badania. Im bardziej warunki badania zostaną wystandaryzowane (ujednolicone), z tym mniejszą liczbą źródeł błędu będziemy mieli do czynienia. Dlaczego? I znowu wróćmy do naszego przykładu. Wiemy, że jeden z wykładowców ocenił pracę studenta na 8 pkt. Możemy się oczywiście zastanawiać, czy ten sam wykładowca oceniłby tak samo tę pracę, gdyby zrobił to innego dnia. A co byłoby wtedy, kiedy inny wykładowca oceniłby te pracę, lub gdyby ocenie poddać inne prace tego samego studenta? Myśląc w ten sposób, wprowadzamy trzy czynniki: czas oceny, oceniającego wykładowcę oraz różne prace studenta. Gdybyśmy te wszystkie czynniki potraktowali jako czynniki stałe, to automatycznie wyeliminowalibyśmy je jako źródła błędu. Mówiąc inaczej, zdefiniowalibyśmy naszą sytuację jako sytuację oceny jednej pracy przez jednego wykładowcę w jednym momencie czasu. Zakładając zatem, że wszystkie inne warunki są również stałe, ocenę, jaką otrzymał nasz student (8 pkt.), możemy potraktować jako ocenę całkowicie rzetelną. Ale - konsekwentnie - byłaby to rzetelna ocena zdolności studenta w ocenie tego konkretnego wykładowcy i w tym konkretnym momencie. Przykład ten pokazuje jedną ważną konsekwencję teorii uniwersalizacji. Eliminowanie źródeł błędu (traktowanie ich jako czynników stałych) zdecydowanie upraszcza analizę i ułatwia interpretowanie konkretnego wyniku, jednak zbyt duże zawężenie tego, co jest przedmiotem pomiaru, może sprawić, że przestanie on mieć jakiekolwiek psychologiczne znaczenie (bę- Klasyczna teoria testów jako podstawa wnioskowania o rzetelności testu dziemy interpretować konkretny wynik, otrzymany i obliczony w konkretnej sytuacji testowania przez konkretnego badającego, itd.). Aby można było zastosować rozwiązania wypracowane przez teorię uni-wersalizacji, przynajmniej jeden z czynników musi być losowy. Gdyby bowiem absolutnie wszystkie czynniki były stałe, otrzymany wynik byłby całkowicie rzetelny i przeprowadzenie badań okazałoby się zbędne. Nadto, przedmiot pomiaru zostałby skrajnie zawężony (por. Cronbach, 1970, s. 152). Wynik prawdziwy a wynik uniwersalny. W klasycznej teorii testów wynikiem prawdziwym danej osoby określaliśmy średni wynik, jaki otrzymałaby ona w nieskończenie wielu badaniach tym samym testem. Wynik prawdziwy jest zatem pewną stałą charakterystyką badanej osoby i nie zależy od kontekstu badania. W teorii uniwersalizacji zaś przyjmuje się, że dana osoba może zostać scharakteryzowana za pomocą wyniku uniwersalnego, tj. odpowiedniego wyniku średniego otrzymanego przy losowym wyborze poziomów odpowiedniego czynnika. „Każda osoba będzie zazwyczaj posiadać kilka wyników uniwersalnych dla różnych uniwersów. Wynik uniwersalny, jaki otrzymała Mary, rozwiązując test 5 maja, nie będzie dokładnie odpowiadał jej wynikowi uniwersalnemu dla całego tego miesiąca (...) Niektórzy badacze nazywają średni wynik otrzymany w dużej liczbie porównywalnych pomiarów «wynikiem prawdziwym», np. «prawdziwa szybkość pisania na maszynie, jaką osiągnęła Mary w 3-minutowym teście». My jednak wolimy mówić o «wyniku uniwersalnym», podkreślając w ten sposób, że każdy wynik zależy od branego pod uwagę uniwersum. W każdym pomiarze można wskazać wiele «wyników prawdziwych», każdy odnoszący się do innego uniwersum" (Cronbach, 1970, s. 153). Badania typu G i badania typu D. Teoria uniwersalizacji postuluje dwa rodzaje badań. Pierwsze z nich to tzw. badania typu G (ang. generalizability study). Celem ich jest oszacowanie wielkości wariancji związanej z każdym czynnikiem pomiaru. Znając owe wariancje, możemy określić konsekwencje zmiany w przyjętym schemacie myślenia i poszukiwać układu optymalnego. Możemy np. określić, jak zmniejszyłby się błąd pomiaru, gdyby niektóre czynniki potraktować jako stałe (a więc wystandaryzować je). Możemy też określić, czy nasz test możemy zastosować w innej sytuacji lub co się stanie po jego wydłużeniu. Ten drugi rodzaj badań, a więc określanie rzetelności naszego testu w różnych sytuacjach, nazywany jest badaniami typu D (ang. decision study) (por. Suen, 1990, s. 46). Schematami badawczymi stosowanymi w badaniach typu G są odpowiednie schematy ANOVA, pozwalające określić interesujące nas komponenty wariancji. Mogą to być albo schematy krzyżowe (ang. crossed desigń), albo gniazdowe (ang. nested desigń). Jeżeli każda osoba jest badana na każdym poziomie danego czynnika, to mówimy o skrzyżowaniu osób z tym czynnikiem; podobnie, jeżeli każdy poziom jednego czynnika jest połączony 75 Rozdział 2 Rys. 2.4. Schemat badawczy dla układu krzyżowego oraz układu gniazdowego (opracowano na podstawie Nowakowska, 1975, s.65) Schemat krzyżowy 1 2 pozycje testu 3 4 5 6 1 2 ro 3 CO - 18 4 x> S 5 §6 7 8 9 Schemat gniazdowy pozycje testu 12 3 4 5 1 ro 3 ro ro 5 w 6 7 8 9 76 6 Klasyczna teoria testów jako podstawa wnioskowania o rzetelności testu z każdym poziomem drugiego czynnika, wtedy mówimy o skrzyżowanym układzie tych czynników. Jeżeli każda osoba jest badana przy określonych poziomach (nie wszystkich) lub też poszczególne poziomy danego czynnika łączone są tylko z niektórymi poziomami drugiego czynnika, wtedy mówimy o układzie gniazdowym (por. rys. 2.4). W naszym przykładzie, gdyby wszyscy wykładowcy oceniali wszystkie egzaminy wszystkich osób, mielibyśmy układ krzyżowy, gdyby zaś każdy z nich oceniał inne prace, byłby to układ gniazdowy. Wpływ różnych czynników na wielkość wyniku testowego jest odzwierciedlany przez tzw. współczynnik uniwersalizacji (ang. coefficient of gene-ralizability). „Kiedy traktujemy pojedynczą obserwację jako odzwierciedlenie pewnego uniwersum, to znaczy, że dokonujemy uogólnienia. Uogólniamy wyniki testowe, sposób dokonywania selekcji, a nawet konkretne dni. Jeżeli wynik, który otrzymamy w wyniku zastosowania konkretnej procedury, będzie ściśle odpowiadał wynikowi uniwersalnemu, to możemy powiedzieć, że procedura ta jest «dokładna», «rzetelna» «dająca się uogólnić». Jeżeli ponadto wyniki otrzymane w różnych procedurach są do siebie podobne, to powiemy, że są one «zgodne» i że są obarczone «niską wariancją błędu» (...) Pojęciem najczęściej wykorzystywanym w literaturze jest pojęcie «rzetelnoś-ci». Autor woli jednak pojęcie «uniwersalności», ponieważ to pojęcie określa wprost zakres, na jaki uogólniamy nasze wyniki" (Cronbach, 1970, s. 154). Na podstawie danych uzyskanych w badaniach typu G określamy w badaniach typu D różne współczynniki rzetelności naszego testu. To, którym będziemy się dalej posługiwać, zależy od naszego konkretnego zapotrzebowania (por. rys. 2.5). Cronbach (1970, s. 152) tak uzasadnia konieczność przeprowadzania badań typu D: „Podjęcie decyzji, że uczeń z sukcesem ukończył dany przedmiot lub że możemy podjąć decyzję o zakończeniu terapii określonego pacjenta, nie może w istotnym stopniu zależeć od błędów losowych, chwilowego zróżnicowania poziomu wykonania testu czy wyboru konkretnych zadań przez osobę stosującą test. Podjęcie błędnej decyzji może przynieść nieodwracalne skutki zarówno dla jednostki, jak i dla społeczeństwa. Nawet wtedy, kiedy błędna decyzja zostanie zmieniona, będzie spostrzegana jako niesprawiedliwa i może wpłynąć na morale osoby badanej czy też może zahamować jej rozwój". Cronbach i inni (1972), proponując swoją teorię uniwersalizacji, twierdzili, że istotą pomiaru psychologicznego (podobnie jak każdych badań naukowych) jest umiejętność uogólniania otrzymanych wyników. Przeprowadzając badania typu G i typu D, użytkownik testu może świadomie podjąć decyzję o zakresie możliwej uniwersalizacji wyników. Rzetelność testu, którym się posługuje, zależy bowiem od okoliczności, w jakich test był tworzony, stosowany i interpretowany. 77 Rozdział 2 78 Rys. 2.5. Kolejne etapy postępowania w ramach teorii uniwersaiizacji (opracowano na podstawie Suen, 1990, s. 53) rzetelność wyników w sytuacji 1 rzetelność wyników w sytuacji 2 wariancja prawdziwa i wariancja błędu w sytuacji 1 wariancja prawdziwa i wariancja błędu w sytuacji 2 badania D dla sytuacji 1 badania D dla sytuacji 2 oszacowanie komponentów wariancji analiza wariancji zbieranie danych 1 rzetelność wyników w sytuacji 3 wariancja prawdziwa i wariancja błędu w sytuacji 3 badania D dla sytuacji 3 wybór schematu badawczego (badania typu D) (badania typu G) przedmiot pomiaru czynniki pomiaru Klasyczna teoria testów jako podstawa wnioskowania o rzetelności testu Podstawowe pojęcia: • badania typu G i D • błąd losowy • błąd pomiaru • błąd systematyczny • klasyczna teoria testów • przedział ufności • rzetelność • standardowy błąd pomiaru • standardowy błąd różnicy • technika połówkowania • technika testów równoległych • technika test-retest • teoria uniwersalizacji • testy równoległe • wskaźnik rzetelności • współczynnik rzetelności • współczynnik uniwersalizacji • wynik otrzymany • wynik prawdziwy Literatura zalecana Anastasi A., Urbina S. (1999). Testy psychologiczne. Warszawa: Pracownia Testów Psychologicznych Polskiego Towarzystwa Psychologicznego. Brzeziński J. (1996). Metodologia badań psychologicznych. Warszawa: Wydawnictwo Naukowe PWN. Guilford J.P. (1988b). Rzetelność i trafność pomiarów. Biblioteka Psychologa Praktyka. Tom II: Problemy teorii, rzetelności, konstrukcji i analizy wyników testów psychologicznych (s. 51-103). Warszawa: Polskie Towarzystwo Psychologiczne, Laboratorium Technik Diagnostycznych. 79 Rozdział 3 Trafność, czyli określanie obszaru zastosowania testu W poprzednim rozdziale zajmowaliśmy się sposobami określania siły związku między wynikiem otrzymanym w teście a wynikiem prawdziwym. Obliczając współczynnik rzetelności testu, określaliśmy siłę tego związku. Otrzymany wynik w teście był tym lepszym odzwierciedleniem wyniku prawdziwego, im wyższa była otrzymana wartość współczynnika rzetelności. Na tej podstawie jednak nie możemy stwierdzić, czy wynik testowy jest dobrym odzwierciedleniem tej cechy psychologicznej, którą zamierzaliśmy mierzyć. Mówiąc inaczej, znajomość samego współczynnika rzetelności nie jest wystarczającym kryterium wyboru testu. Musimy jeszcze wiedzieć, na ile trafne są wyniki naszego testu. 3.1. POJĘCIE TRAFNOŚCI 80 W języku codziennym, mówiąc, że coś jest trafne, mamy na myśli, że jest to właściwe, stosowne czy słuszne (por. Szymczak, 1981, tom 3, s. 521). W tym sensie mówimy o trafnej teorii, trafnej argumentacji czy trafnych powodach. Podobnie i w psychometrii: posługujemy się terminem „trafny" wtedy, kiedy wynikom testowym chcemy nadać psychologiczny sens. W psychometrii pytanie o trafność to pytanie o to, „co dany test mierzy?". I choć wydaje się ono oczywiste, można wskazać na wiele przykładów (opisanych w literaturze przedmiotu czy znanych z praktyki) stosowania testów bez zwrócenia należytej uwagi na to, czy nadają się one do określonego celu. Mogłoby się to wydawać o tyle zaskakujące, że przecież każdy test posiada swoją nazwę, która może być traktowana jako źródło informacji o jego przeznaczeniu. Warto jednak pamiętać, że nazwa testu jest jedynie wyrazem w i a r y jego autora w to, że test mierzy to, o co intencjonalnie temu autorowi chodziło. Test zdolności może się np. okazać testem sprawności werbalizowania, zaś test osiągnięć może się okazać testem inteligencji ogólnej. Bez sprawdzenia, czy dany test nadaje się do konkretnego wykorzystania (a więc czy jest trafny), jest on praktycznie bezużytecznym psychologicznie narzędziem. Pojęciu trafności testu przez lata nadawano różne znaczenie. Pierwotnie przez trafność testu rozumiano po prostu dokładność, z jaką test realizuje Trafność, czyli określanie obszaru zastosowania testu założone cele. W tym rozumieniu trafność traktowana była - podobnie jak współczynnik rzetelności - jako stała właściwość wyników testowych (por. Suen, 1990, s. 134). Koncepcja ta staje się zrozumiała, jeśli uwzględnić, jak pierwsze testy były tworzone i oceniane. Autor testu zazwyczaj z góry decydował o tym, co test będzie mierzył, i konstruował go w taki sposób, aby osiągnąć swój cel, a następnie starał się wykazać, jak dobrze ten cel osiągnął. Możliwość, że dany test równie dobrze (albo i lepiej) mierzy jakąś inną cechę, rzadko była brana pod uwagę. Po ukazaniu się słynnej pracy Cronbacha i Meehla (1955) oraz późniejszej pracy Messicka (1989) pojęcie trafności testu przestało być tak statycznie rozumiane. Początkowe pytanie, „jak dobrze test realizuje zamierzenia jego autora?", zastąpiono pytaniem „co test mierzy i jak dobrze to robi?". Oczywiście, autorzy testów nadal konstruowali je w określonym celu, jednak ich użytkownicy coraz częściej zadawali sobie pytania: ,jaki jest obszar zastosowania danego testu?" oraz „czy ten test odpowiada moim celom?". Definicja trafności sformułowana przez Messicka (1989, s. 13) wydaje się najlepiej oddawać tę zmianę perspektywy: „trafność jest to zintegrowany proces oceny stopnia, w jakim dowody empiryczne i rozważania natury teoretycznej potwierdzają adekwatność i poprawność interpretacji oraz programów działania wyprowadzonych na podstawie wyników testowych czy innych narzędzi pomiaru". Trafność stała się - w miejsce zamkniętej procedury - otwartym procesem badawczym. Co więcej, w definicji tej nastąpiło wyraźne przesunięcie punktu ciężkości - z pojęcia trafności testu na pojęcie trafności interpretacji wyników danego testu. W takim też duchu formułują definicję trafności Standardy... (1985a, s. 33), gdzie czytamy: „pojęcie trafności dotyczy poprawności wniosków wyprowadzanych na podstawie wyników testowych lub innych form badania", i dalej „(...) trafność jest pewnym wnioskiem, a nie pomiarem. W podręczniku testowym można przedstawić jedynie współczynniki trafności. To na ich podstawie wyciąga się wnioski o trafności konkretnego zastosowania testu (...)". Określanie trafności danego testu, nazywane w psychometrii procesem walidacji testu (ang. validatioń), polega na zbieraniu i ocenie danych świadczących o trafności określonej interpretacji wyników testu. Im więcej przeprowadza się badań z udziałem danego testu, tym szerszy jest potencjalny obszar jego zastosowania. Procedura walidacji testu nie kończy się zatem na podaniu jednego współczynnika trafności, a polega na prowadzeniu ciągłych badań i gromadzeniu informacji (por. też Bechtold, 1969). W procesie walidacji ważną rolę odgrywa zarówno autor testu, jak i jego użytkownik. Do obowiązków autora testu należy „(...) podanie informacji potwierdzających trafność każdej zalecanej interpretacji wyników testowych, a jeżeli dane dotyczące określonej interpretacji nie zostały zebrane, to fakt ten powinien zostać wyraźnie podkreślony" (Standardy..., 1985a, s. 40). Z kolei użytkownicy testów często stoją w obliczu konieczności określenia 81 Rozdział 3 trafności danego testu dla konkretnej grupy osób badanych. Takie „lokalne" badania walidacyjne są koniecznie zawsze wtedy, kiedy użytkownik testu chciałby wykorzystać jego wyniki do wąsko rozumianych - i nie potwierdzonych w badaniach walidacyjnych - celów1. W jaki zatem sposób możemy ocenić trafność naszego testu? Zanim odpowiemy na to pytanie, scharakteryzujmy rodzaje trafności wyników testowych, a dopiero potem wynikające z nich strategie badawcze. 3.2. RODZAJE TRAFNOŚCI W psychometrii na ogół wyodrębnia się trzy rodzaje trafności: trafność treściową, trafność kryterialną oraz trafność teoretyczną - zwane też za Guionem (1980) Świętą Trójcą (ang. Holy Trinity). Za sprawą Standardów... (1985a) upowszechniła się maniera rozłącznego ich traktowania, i dlatego poszczególne źródła informacji o potencjalnych obszarach zastosowania testu traktowane były niezależnie. Przyjmowano, że potwierdzenie trafności testu w jednym z tych trzech aspektów jest wystarczające dla praktycznej użyteczności metody. Współcześnie jednak stanowisko to uległo zmianie. Zdaniem Cronbacha (1990, s. 151) wymienione trzy rodzaje trafności są raczej trzema aspektami trafności, trzema różnymi metodami badawczymi niż trzema różnymi rodzajami trafności, co więcej - niesłusznie traktowanymi jako niezależne rodzaje informacji. Każde badanie trafności testu powinno integrować informacje z wszystkich tych źródeł. Według Anastasi i Urbiny (1999, s. 159-160) „każda z tych procedur przynosi cenne informacje, które są specyficzne tylko dla niej i niezastąpione przy ocenie testów przeznaczonych do określonych celów". Także w kolejnej edycji Standardów... (APA, 1985b, s. 9)2 można już zauważyć zmianę stanowiska: zamiast mówić o rodzajach trafności mówi się tu o dowodach na rzecz trafności testu, wynikających z różnych źródeł (por. też Brzeziński, 1996, s. 520). Przyjrzyjmy się zatem, co się kryje pod pojęciami trafności treściowej, kryterialnej i teoretycznej, które - dla łatwości prezentacji - omówimy 82 1 Dzięki temu, że ukazuje się dziś na świecie kilka periodyków zajmujących się integracją danych o wydawanych testach, łatwiej jest również śledzić badania dotyczące trafności określonego testu. Do najbardziej znanych publikacji tego typu należą Mental Measurements Yearbook (MMY), zapoczątkowane przez O.K. Burosa w roku 1934, oraz Test Critiąues, wydawane przez Test Corporation of America. W pierwszym ukazują się recenzje testów dokonywane przez przynajmniej dwie niezależne osoby; można w nim także znaleźć kompletne wykazy publikacji dotyczące każdego - angielskojęzycznego - testu. Drugie publikuje głównie informacje dotyczące testu i pochodzące od jego wydawcy. Również w kwartalniku Educatio-nal and Psychological Measurement istnieje stały dział pt. „Validity Studies". Warto też odnotować pojawienie się pierwszej edycji Test Validity Yearbook, pisma, w którym ukazywać się będą informacje na temat badań walidacyjnych testów psychologicznych (por. Cronbach, 1990, s. 148). 2 Polskie tłumaczenie Standardów... (1985a) oparte jest na trzecim wydaniu amerykańskim z 1974 r. Trafność, czyli określanie obszaru zastosowania testu niezależnie. Za Cronbachem (1990) podkreślać jednak będziemy, że pojęcia te odnoszą się do różnych sposobów zbierania danych dotyczących trafności testu. Trafność treściowa. Trafność treściowa, nazywana też trafnością wewnętrzną lub logiczną (ang. content validity) jest definiowana jako „zakres, w jakim pozycje testowe właściwie reprezentują uniwersum pozycji testowych lub interesujący nas konstrukt" (Suen, 1990, s. 136) czy też (por. Anastasi, Urbina, 1999, s. 160) jako zakres, w jakim treść testu stanowi „reprezentatywną próbę dziedziny, która ma być przedmiotem pomiaru". Jak piszą autorzy Standardów... (1985a, s. 36) „aby potwierdzić trafność treściową zbioru wyników otrzymanych w teście, należy wykazać, że zachowania demonstrowane w badaniu testowym są reprezentatywną próbką zachowań ujawniających się w interesującej badacza sferze". Mówiąc inaczej, trafność treściowa jest wyrażana jako stopień poprawności losowania zbioru pozycji tworzących test z szerszego zbioru (uniwersum) możliwych pozycji, reprezentujących określony obszar zachowania (por. też Bechtold, 1969). Trafność treściową należy odróżnić od tzw. trafności fasadowej (ang. face validity). To ostatnie pojęcie nie oznacza trafności w sensie definicyjnym i „dotyczy nie tego, co test rzeczywiście mierzy, lecz tego, co «wydaje się mierzyć»" (Anastasi, Urbina, 1999, s. 164). Trafność fasadowa opisuje, jak spostrzegają test osoby badane i czy - z ich punktu widzenia - wydaje się on trafnie mierzyć to, co ma mierzyć. Mówiąc jeszcze inaczej, trafność fasadowa zapewnia, że dany test wydaje się - w opinii osób badanych - adekwatny w wypadku określonego celu. I choć trafność fasadowa niewiele ma wspólnego z pojęciem trafności jako miary dobroci testu, nie należy bagatelizować jej znaczenia. Brak trafności fasadowej może bowiem zaowocować brakiem właściwej motywacji w trakcie rozwiązywania testu, i w ten sposób wpłynąć bezpośrednio na otrzymane wyniki. Dany test może być wysoce trafnym narzędziem z punktu widzenia konkretnego celu, jeżeli jednak nie będzie tak spostrzegany przez osoby badane, to wynikające z tego negatywne konsekwencje (wspomniany spadek motywacji czy odrzucenie testu w ogóle) mogą sprawić, że wyniki testowe okażą się psychologicznie bezużyteczne. Trafność kryterialna. „O trafności kryterialnej mówimy wtedy, gdy na podstawie wyników testowych wnioskuje się o przypuszczalnej pozycji badanego względem innej zmiennej - tzw. kryterium" (Standardy..., 1985a, s. 35). Innymi słowy, trafność kryterialna wskazuje na zakres, w jakim wyniki testowe są empirycznie powiązane z interesującym nas kryterium. I tak np. wyniki testu mierzącego introwersję można potraktować jako wskaźnik jakości relacji interpersonalnych nawiązywanych przez osobę badaną, a wyniki testu stanowiącego egzamin wstępny na wyższą uczelnię można potraktować jako wskaźnik późniejszych osiągnięć w trakcie studiów. 83 Rozdział 3 84 Trafność kryterialna (ang. criterion-related validity) określa zatem skuteczność testu w diagnozowaniu i/lub prognozowaniu funkcjonowania jednostki w określonej sferze (por. Anastasi, Urbina, 1999, s. 165). Trafność diagnostyczna (ang. concurrent validity) określa, w jakim zakresie można wykorzystywać dany test do określania aktualnej pozycji osoby badanej względem kryterium, a z kolei trafność prognostyczna (ang. predictive validity) mówi o tym, w jakim stopniu można - na podstawie wyników testowych - przewidywać przyszłą pozycję osoby badanej względem zmiennej kryterialnej {Standardy..., 1985a, s. 35). Trafność teoretyczna. W roku 1955 ukazał się artykuł Cronbacha i Meehla (1955), w którym postulowali oni szerokie wprowadzenie pojęcia trafności teoretycznej (ang. construct validity)3. Artykuł ten rozpoczął dyskusję nad rozumieniem pojęcia trafności wyników testowych w ogóle, a szczególnie nad rolą teorii w wyjaśnianiu rezultatów otrzymanych w wyniku zastosowania testów psychologicznych. Jak piszą autorzy (ibidem), „określanie trafności teoretycznej ma miejsce wtedy, kiedy wyniki testu mają być interpretowane jako miara pewnego atrybutu lub pewnej właściwości, które nie są zdefiniowane operacyjnie". Czym jest zatem trafność teoretyczna? Trafność teoretyczna jest oceną stopnia, w jakim wnioski wyprowadzone na podstawie wyników testowych odzwierciedlają pozycję osoby badanej na pewnym teoretycznym kontinuum, zwanym konstruktem4. Trafność teoretyczna jest określana przez: a) definiowanie - tak jasno jak to możliwe - mierzonej cechy (konstruktu), oraz b) wiązanie wyników testowych z zachowaniami osób badanych w takich sytuacjach, w jakich - z założenia - mierzony konstrukt jest traktowany jako ważna zmienna (por. Cohen, Swerdlik, 1999, s. 197). Trafność teoretyczna pokazuje zatem stopień, w jakim test mierzy daną cechę (konstrukt teoretyczny). Warto w tym miejscu podkreślić, że wyniki testowe nie są równoznaczne z mierzonym konstruktem (Messick, 1989; też Brzeziński, 1996). Konstrukty przejawiają się na wiele różnych sposobów -przez wiele różnych wskaźników (por. też Hornowska, 1989, 1993a, 2000a). Trafność teoretyczną, w odróżnieniu od trafności diagnostycznej oraz trafności prognostycznej, ocenia się nie za pomocą jednego współczynnika korelacji między wynikiem testu a wynikiem na kontinuum zmiennej kryterialnej, lecz raczej na podstawie kumulacji wyników wielu badań, których celem jest potwierdzenie hipotez wynikających z teorii mierzonej cechy (Magnus-son, 1981, s. 195). 3 Formalnie rzecz biorąc, termin „trafność teoretyczna" został wprowadzony w roku 1954 przez American Psychological Association (por. APA, Technical Recommendations..., 1954, s. 13-18). 4 W sprawie rozważań na temat pojęcia konstruktu patrz: Cronbach i Meehl (1955). Trafność, czyli określanie obszaru zastosowania testu >? Trafność testu jest to stopień, w jakim test realizuje stawiane przed nim cele. Trafność odzwierciedla relację, jaka zachodzi między koncepcją właściwości psychologicznej a użytymi wskaźnikami tej właściwości, czyli - inaczej mówiąc — trafność operacjonalizacji wielkości psychologicznej. Rozróżniamy następujące rodzaje trafności: • trafność treściową (stopień, w jakim treść testu reprezentuje całokształt zachowań, których próbkę pobiera test) • trafność kryterialną (stopień, w jakim test pozwala na ocenę - w czasie teraźniejszym lub przyszłym - określonej właściwości psychologicznej innej niż ta, którą test bezpośrednio mierzy • trafność teoretyczną (stopień, w jakim test pozwala na pomiar nasilenia u osoby badanej hipotetycznej właściwości - czyli psychologicznego konstruktu - o której mają świadczyć odpowiedzi na bodźce testowe) 3.3. SPOSOBY BADANIA TRAFNOŚCI W jaki sposób zatem można określić, na ile dany test jest trafny treściowo, kryterialnie lub teoretycznie? Na początku tego rozdziału wspomniano, że mowa w nim raczej o różnych strategiach badawczych niż całkowicie niezależnych pytaniach o trafność wyników testowych. Omówimy je w kolejności definiowania, zachowując w ten sposób historyczny podział na trzy sposoby rozumienia pojęcia trafności wyników testów psychologicznych. Raz jeszcze jednak warto podkreślić, że są to trzy różne sposoby zbierania informacji 0 trafności testu i nie można ich traktować całkowicie rozłącznie (por. rys. 3.1). Trafność treściowa Trafność treściowa - przypomnijmy - to stopień, w jakim treść pozycji testowych reprezentuje pewne szersze uniwersum treści. I tak np. możemy zapytać, czy test wiadomości z matematyki zawiera pytania treściowo reprezentatywne dla wiedzy z matematyki na danym poziomie nauczania lub też na ile pozycje tworzące test asertywności reprezentują uniwersum zachowań, które mogą być traktowane jako wskaźniki tej cechy. Kluczem do oceny stopnia trafności danej metody są zatem dwa pojęcia: pojęcie uniwersum i pojęcie reprezentatywności. Pojęcie uniwersum treści opisuje pełen zakres dziedziny, której test ma dotyczyć. Jeżeli zatem chcemy badać poziom wiedzy z matematyki w klasie piątej, to uniwersum treści dla naszego testu zostanie zdefiniowane przez wymagania programowe z tego przedmiotu i na tym poziomie nauczania. I choć inne zagadnienia matematyczne mogą nam się wydawać także istotne, w tym wypadku nie będą wchodzić w zakres interesującego nas uniwersum. W wypadku testu asertywności (por. Król-Fijewska, 1991) możemy opisać uniwersum jako zbiór określonych zachowań, takich jak obrona swoich praw w sytuacjach społecznych, obrona swoich praw w kontaktach osobistych, inicjatywa i kontakty towarzyskie, wyrażanie i przyjmowanie krytyki 1 pochwał, wyrażanie próśb, wyrażanie uczuć, wyrażanie opinii, wystąpienia publiczne, kontakt z autorytetem oraz naruszenie cudzego terytorium. 85 00 O -------- Rys. 3.1. Definicja i rodzaje trafności trafność wyników testowych dokładność, z jaką test mierzy to, co ma mierzyć KONSTRUKT PSYCHOLOGICZNY MIERZONA CECHA stopień, w jakim test jest w stanie osiągnąć stawiane mu cele relacja, jaka zachodzi między koncepcją właściwości psychologicznej (konstruktu) a użytymi wskaźnikami tej właściwości wielkość błędu spowodowana rozbieżnością między zamierzeniami autora testu a tym, co test faktycznie mierzy trafność treściowa trafność kryterialna trafność teoretyczna trafność diagnostyczna trafność prognostyczna -^ Trafność, czyli określanie obszaru zastosowania testu Pierwszym krokiem na drodze oceny trafności treściowej testu jest zatem określenie zakresu uniwersum. Najczęściej korzysta się w tym celu z pomocy sędziów-ekspertów, którzy na podstawie swojej wiedzy o tym, co ma być przedmiotem pomiaru, przygotowują taką definicję. W wypadku testów osiągnięć szkolnych w roli ekspertów mogą wystąpić np. nauczyciele danego przedmiotu, w przypadku testów psychologicznych - specjaliści z danej dziedziny. Kolejnym krokiem jest określenie, w jakim stopniu pozycje składające się na test można traktować jako reprezentatywną próbkę zdefiniowanego uniwersum. W sensie statystycznym o reprezentatywności można mówić wtedy, kiedy pozycje testowe byłyby losową próbką uniwersum pozycji. Jednakże w wypadku trafności treściowej odwoływanie się do takiej koncepcji reprezentatywności byłoby raczej mało sensowne. Dlatego też przyjmuje się, że pozycje testowe powinny reprezentować czy odtwarzać interesujące nas uniwersum odpowiednio proporcjonalnie (por. Cohen, Swerdlik, 1999; Ana-stasi, Urbina, 1999). Dany test jest zatem trafny treściowo wtedy, kiedy spełnione są oba warunki: a) wszystkie pozycje tego testu należą do zdefiniowanego uniwersum, oraz b) cały test proporcjonalnie reprezentuje zdefiniowane uniwersum. I tak, jeżeli w teście z matematyki znajdą się pytania z fizyki, to powiemy, że test nie jest trafny w sensie warunku pierwszego. Jeżeli natomiast w tym samym teście z matematyki 90% pytań dotyczyć będzie wiedzy z geometrii, a tylko 10% pozostałych treści, test ten również nie będzie trafny treściowo, gdyż tym razem nie został spełniony warunek drugi (por. rys. 3.2). W jaki sposób zatem można praktycznie określić trafność treściową testu? Najprostszym sposobem jest przeprowadzenie analizy logicznej (stąd inna nazwa tego rodzaju trafności) treści testu. Dysponując definicją uniwersum, możemy poprosić sędziów-ekspertów o ocenę stopnia, w jakim każda pozycja testowa reprezentuje to uniwersum. Analizując każdą pozycję oddzielnie, a następnie cały zbiór pozycji, możemy określić, czy skonstruowany test spełnia oba warunki trafności treściowej. Prostą ilościową metodę obliczania zgodności ocen sędziów przedstawił Lawshe (1975)5. Metoda ta polega na poproszeniu każdego sędziego-eksperta o wyrażenie swojej opinii o każdej proponowanej pozycji testowej na następującej skali: • pozycja ta ma zasadnicze znaczenie dla testu; • pozycja ta jest użyteczna, jednak nie ma zasadniczego znaczenia; • pozycja ta nie powinna znaleźć się w obrębie testu. Następnie notuje się, ilu sędziów przyznało danej pozycji zasadnicze znaczenie. Według Lawshego (ibidem), jeżeli więcej niż połowa sędziów 5 Jako miarę zgodności ocen sędziowskich możemy też wykorzystać współczynnik zgodności ocen sędziów W Kendalla (por. np. Brzeziński, 1978). 87 Rozdział 3 Rys. 3.2. Kiedy test jest trafny treściowo? Uniwersum treści (U) ogólny zbiór wszystkich możliwych bodźców wywołujących pożądane zachowania testowe / Test (T) próba pochodząca z uniwersum treści (podzbiór zbioru ogólnego) Test jest trafny treściowo, jeżeli (1) wszystkie pozycje tego testu należą do zdefiniowanego uniwersum oraz (2) cały podzbiór reprezentuje uniwersum treści a) warunek (1) nie został spełniony . b) warunek (2) nie został spełniony TEST JEST TRAFNY TREŚCIOWO U T '.» 88 c) warunki (1) i (2) nie zostały spełnione uzna daną pozycję za istotną dla testu, można przyjąć, że pozycja ta jest trafna treściowo. Im większy stopień zgodności sędziów co do znaczenia danej pozycji testowej, tym oczywiście większa jej trafność treściowa (por. też Cohen, Swerdlik, 1999, s. 179). Wychodząc z tego założenia, Lawshe (1975, s. 569) zaproponował metodę, którą określił jako współczynnik trafności treściowej (CVR - ang. content validity ratid): U T Trafność, czyli określanie obszaru zastosowania testu CVR = ne-N/2 N/2 gdzie: ne oznacza liczbę sędziów, którzy określili daną pozycję testową jako „zasadniczą" dla testu, a N oznacza ogólną liczbę sędziów. Współczynnik trafności treściowej może mieć wartość ujemną (mniej niż połowa sędziów uznała daną pozycję za zasadniczą dla testu), może wynosić zero (zrobiła to dokładnie połowa sędziów) i wartość dodatnią (więcej niż połowa sędziów pozytywnie oceniła daną pozycję). Lawshe (1975) zaleca, aby z ostatecznej wersji testu eliminować te pozycje, dla których szansa, iż zaobserwowana zgodność sędziów ma u swojego podłoża wyłącznie czynniki przypadkowe, jest większa niż 5% (por. tab. 3.1, która zawiera odpowiednie wartości krytyczne). Tab. 3.1. Minimalne wartości współczynnika trafności treściowej (CVR), pozwalające uznać otrzymaną wielkość CVR za istotną statystycznie (dla a = 0,05) (opracowano na podstawie Lawshe, 1975, s. 573) Liczba sędziów Minimalna wartość wskaźnika CVR 5 0,99 6 0,99 7 0,99 8 0,78 9 0,75 10 0,62 11 0,59 12 0,56 13 0,54 14 0,51 15 0,49 20 0,42 25 0,37 30 0,33 35 0,31 40 0,29 Trafność treściową analizuje się szczególnie w wypadku testów wiadomości, testów umiejętności i osiągnięć szkolnych oraz niektórych testów uzdolnień. Ma ona jednak również znaczenie w wypadku testów zawodowych lub stów zorientowanych na kryterium (por. Anastasi, Urbina, 1999, s. 162). 89 Rozdział 3 Trafność kryterialna Drugim rodzajem trafności jest trafność kryterialna. Ten rodzaj trafności mówi nam, w jakim stopniu wyniki danego testu są powiązane z jakąś inną zmienną, zewnętrzną w stosunku do tego testu. Tę zmienną nazywamy kryterium. Trafność kryterialna jest wyznaczana przez stopień zgodności dwóch pomiarów: zmiennej testowej i zmiennej kryterialnej (por. Jakubowski, 1983). Definicja kryterium. Kryterium jest to zatem pewien standard, względem którego ocenia się jakość wyników testowych. Innymi słowy, możemy powiedzieć, że a) kryterium jest to pewne zachowanie czy właściwość, o której chcemy wnioskować na podstawie wyników danego testu, b) jest to zmienna pozatestowa, oraz c) kryterium jest pomiarem innej zmiennej niż ta, którą bezpośrednio mierzy test. I tak np. na podstawie testu rozwoju poznawczego możemy określić postępy szkolne dziecka (kryterium), na podstawie wyników w teście rysowania figur geometrycznych możemy określić stopień uszkodzenia ośrodkowego układu nerwowego (kryterium), na podstawie wyników testu koordynacji wzrokowej możemy określić przydatność do zawodu pilota (kryterium), a na podstawie wyników testu temperamentu możemy określić, jakie jest ryzyko zachorowania na chorobę alkoholową (kryterium). Cechy kryterium. Każda zmienna, którą chcemy wykorzystać jako kryterium, powinna dawać - podobnie jak test - rzetelne wyniki. Rzetelność kryterium pozostaje bowiem w bezpośredniej zależności z trafnością kryterialna testu6. Powinna to być także zmienna istotna (adekwatna) z punktu widzenia tego, co mierzy dany test. Chcąc np. na podstawie wyników testu wiadomości dotyczącego udzielania pierwszej pomocy określić-powodzenie w zawodzie pielęgniarki, możemy - jako zmienną kryterialna - wybrać obserwację przyszłych pielęgniarek w trakcie stażu w szpitalu. Trudno natomiast uznać, że np. ich stosunek do zwierząt byłby tu istotną zmienną kryterialna (choć oczywiście i w tym wypadku osoba uparta mogłaby poszukać sensownego uzasadnienia). Należy zatem starannie wybierać zmienną kryterialna, pamiętając, że każdy test może zostać sprawdzony w stosunku do wielu zmiennych kryterialnych. Tych zmiennych może być tyle, ile jest potencjalnych za- 6 Związek między trafnością kryterialna a rzetelnością kryterium jest wyrażany jako (por. Magnusson, 1981, s. 218-220): 90 gdzie: r,k oznacza współczynnik trafności kryterialnej, r„ jest współczynnikiem rzetelności testu, a rtt jest współczynnikiem rzetelności kryterium. Innymi słowy, współczynnik trafności kryterialnej jest mniejszy lub równy pierwiastkowi iloczynu współczynnika rzetelności testu i kryterium. Im mniejsza będzie zatem rzetelność testu lub kryterium, tym mniejsza trafność kryterialna testu. Trafność, czyli określanie obszaru zastosowania testu stosowan danego testu. Jednakże ważne jest, aby były to zmienne adekwatnie dobrane. Ponadto powinna to być zmienna trafna z punktu widzenia celu pomiaru. Jeżeli test A ma być wykorzystywany jako kryterium dla testu B, to oczywiście musi być on trafnym narzędziem pomiarowym. Jeżeli np. chcemy wykorzystać, jako dane kryterialne, diagnozy lekarskie, to powinniśmy wcześniej sprawdzić, na ile są one trafne. Kontaminacja kryterium. Kolejnym problemem związanym z oceną wyników dla zmiennej kryterialnej jest problem tzw. kontaminacji kryterium (ang. criterion contaminatioń). Z problemem kontaminacji („skażenia") kryterium mamy do czynienia wtedy, kiedy znajomość wyników, jakie osoba badana uzyskała w teście, może wpływać na ocenę wyniku tej osoby względem analizowanej zmiennej kryterialnej. Przypuśćmy np., że interesuje nas możliwość określania - na podstawie wyników w teście MMPI - takiego kryterium, jakim jest rodzaj zaburzenia psychicznego funkcjonowania. W trakcie badań, czekając na wyniki ekspertyz psychiatrycznych (miara kryterium), poinformowaliśmy psychiatrów, jakie wyniki otrzymały osoby badane w teście MMPI. Czy może to w jakiś sposób wpłynąć na oceny psychiatrów? Musimy założyć, że tak! Psychiatrzy mogą bowiem - niekoniecznie świadomie - kierować się tymi informacjami. W efekcie uzyskamy wysoki stopień podobieństwa między wynikami testu a wynikami kryterium - co przecież jest wyraźnym artefaktem (por. Anastasi, Urbina, 1999, s. 166-167; patrz też Crocker, Algina, 1986, s. 226). Współczynnik trafności kryterialnej. W jaki sposób zatem możemy formalnie wyrazić trafność kryterialną? Trafność kryterialna jest wyrażana w postaci współczynnika korelacji między wynikami testu a wynikami zmiennej kryterialnej, zebranymi dla tej samej grupy badanych osób. Im wyższa wartość współczynnika korelacji, tym wyższa trafność kryterialna testu. Zazwyczaj jako ocenę stopnia trafności kryterialnej stosuje się współczynnik korelacji r Pearsona, jednakże w zależności od charakteru zebranych danych (skala pomiarowa czy kształt rozkładu) można (a nawet należy) wykorzystywać inne miary siły związku (np. współczynnik rho Spearmana). Podobnie jak w wypadku współczynnika rzetelności, tak i w wypadku współczynnika trafności czynnikiem wpływającym na wielkość korelacji jest zakres mierzonej cechy. Im mniejszy zakres (im mniejsze rozproszenie wyników), tym mniejszą wartość współczynnika korelacji otrzymamy. Dlatego planując badania walidacyjne, trzeba uważać, aby nie zawęzić badanej próby (np. badając tylko pacjentów hospitalizowanych i tylko jednego oddziału), gdyż w ten sposób zmniejszymy wariancję wyników, czyli otrzymamy niższy współczynnik trafności kryterialnej. Z drugiej zaś strony stosując test o znanej trafności kryterialnej do grupy osób o mniejszym zróżnicowaniu mierzonej cechy (np. grupy kandydatów poddanych preselekcji), powinniśmy pamiętać o możliwości zmniejszenia się trafności tego testu. Żadna decyzja nie powinna być podejmowana mechanicznie! 91 Rozdział 3 Kolejnym czynnikiem wpływającym na wielkość współczynnika trafności jest rzetelność, i to zarówno testu, jak i kryterium. Ponieważ stosowane przez nas testy i kryteria nigdy nie są idealnie rzetelne (por. przyp. 6), tym samym otrzymany empirycznie współczynnik trafności jest zazwyczaj niższy niż współczynnik, jaki otrzymalibyśmy wtedy, kiedy obie zmienne byłyby wolne od błędu. I dlatego kiedy zainteresowani jesteśmy oceną związku między wynikami prawdziwymi dla obu zmiennych, możemy zastosować tzw. poprawkę na obniżenie wielkości współczynnika (por. Magnusson, 1981, s. 218). Poprawka ta wskazuje, jaką maksymalną trafność kryterialną otrzymalibyśmy wtedy, kiedy test i kryterium byłyby całkowicie rzetelne: gdzie: rtk oznacza współczynnik trafności kryterialnej, r„ współczynnik rzetelności testu, a rw współczynnik rzetelności kryterium. Np. w sytuacji, w której wartość współczynnika korelacji między wynikami testu a kryterium wynosi 0,80, rzetelność testu 0,96, a rzetelność kryterium 0,85, współczynnik trafności kryterialnej dla całkowicie rzetelnego testu i kryterium wynosiłby: 0,80 V(0,96)(0,85) = 0,88 92 I Poprawka ta bywa zazwyczaj wykorzystywana wtedy, kiedy istnieje potrzeba porównania ze sobą kilku współczynników trafności kryterialnej, uzyskanych dla kryteriów o różnym stopniu rzetelności (por. Magnusson, 1981, s. 219). tt Trafność diagnostyczna. Omawiając różne sposoby wyprowadzania wniosków o trafności kryterialnej testu, posługiwaliśmy się dwoma rodzajami przykładów. Pierwszy dotyczył sytuacji, w których na podstawie wyników ocenianego testu chcieliśmy wnioskować o zachowaniu (czy poziomie cechy) aktualnie występującym u osoby badanej. Było tak np. wtedy, kiedy na podstawie wyników testu MMPI (np. na podstawie wskaźnika nasilenia patologii - por. Modlin, 1947) chcieliśmy wnioskować o stopniu zaburzeń w funkcjonowaniu osób badanych. k< Taki rodzaj trafności kryterialnej, w którym kryterium dla ocenianego testu jest pomiar zachowania lub cechy aktualnie występującej u osoby badanej, nazywa się trafnością diagnostyczną. Istotę trafności diagnostycznej można zobrazować za pomocą następującego pytania: „Czy osoba badana posiada cechę X?" (np. czy jest neurotykiem?). Dane testowe i dane kryterial-ne w tym wypadku zbiera się w tym samym czasie (por. Anastasi, Urbina, 1999, s. 165-166; Cohen, Swerdlik, 1999, s. 183-184; Jakubowski, 1983, s. 228). Można w takim razie zadać sobie następujące pytanie: po co opracowywać trafność kryterialną testu i stosować test, jeżeli w tym samym czasie mamy Trafność, czyli określanie obszaru zastosowania testu bezpośredni dostęp do kryterium? Testy są zazwyczaj prostszym, szybszym, a więc po prostu bardziej ekonomicznym sposobem uzyskania tych informacji, jakie uzyskalibyśmy, zbierając dane kryterialne. Lepiej jest np. skorzystać z wyników trafnego testu niż prowadzić długotrwałą obserwację osoby badanej (por. Anastasi, Urbina, 1999, s. 166). Trafność prognostyczna. Druga z opisywanych sytuacji obejmowała takie przykłady, w których wyniki testowe były wykorzystywane do przewidywania przyszłego zachowania osób badanych. Taki rodzaj trafności kryterialnej, w którym kryterium dla ocenianego testu jest pomiar zachowania lub cechy występującej w przyszłości u osoby badanej, nazywa się trafnością prognostyczną. Istotę trafności prognostycznej można zobrazować za pomocą następującego pytania: „Jakie jest prawdopodobieństwo tego, że osoba badana będzie posiadać cechę X?" (np. czy stanie się neurotykiem?). Dane testowe i dane kryterialne w tym wypadku zbiera się w różnym czasie - ściśle rzecz biorąc, dane kryterialne zbiera się znacznie później niż dane testowe (por. Anastasi, Urbina, 1999, s. 165-166; Cohen, Swerdlik, 1999, s. 183-184; Jakubowski, 1983, s. 228). Testy o znanej trafności prognostycznej są szczególnie przydatne dla potrzeb selekcji i klasyfikacji (rekrutacja pracowników, przyjmowanie do zawodów wymagających szczególnych predyspozycji, ocena ryzyka pojawienia się późniejszych zaburzeń zachowania, itd.). Warto w tym miejscu podkreślić, że różnica między trafnością diagnostyczną a trafnością prognostyczną nie polega na różnicy czasu w zbieraniu danych kryterialnych (tu i teraz w wypadku trafności diagnostycznej i później, w przyszłości - w wypadku trafności prognostycznej). Podstawowa różnica polega tu na różnym przedmiocie badania: przy diagnozie interesuje nas ocena stanu istniejącego, przy prognozie zaś - przewidywanie skutków stanu aktualnego. Wysoka trafność diagnostyczna testu nie gwarantuje jeszcze jego wysokiej trafności prognostycznej (Edwards, 1970, s. 49). Zamykając problem trafności kryterialnej, zwróćmy uwagę na jeszcze jeden problem. Tak jak do obowiązków autora testu należy przedstawianie danych empirycznych na temat trafności kryterialnej testu, tak do obowiązków użytkownika testu należy staranne czytanie tych danych i ich ocena w świetle własnych potrzeb. Użytkownik testu powinien umieć określić, czy na ich podstawie może wykorzystywać test do takich, a nie innych celów, czy charakterystyki próby, na której przeprowadzono badania walidacyjne, odpowiadają charakterystykom tej grupy osób, dla której test ma być stosowany, wreszcie: czy podane współczynniki trafności są wystarczająco wysokie. Tę ostatnią decyzję użytkownik testu musi podjąć sam, biorąc pod uwagę własny, indywidualny cel zastosowania testu7. 7 Cronbach i Gleser (1965) byli zdecydowanie przeciwni podawaniu jakichkolwiek sztywnych reguł pozwalających uznać dany współczynnik trafności za wystarczająco wysoki. Ich zdaniem tylko użytkownik testu jest w stanie podjąć taką decyzję odpowiedzialnie i nic (zwłaszcza arbitralnie ustalane granice) nie powinno go z tego zwalniać. 93 Rozdział 3 94 Trafność teoretyczna Trafność teoretyczna jest oceną stopnia, w jakim dany test odzwierciedla cechę psychologiczną (konstrukt), która ma być przedmiotem pomiaru. Mówiąc inaczej, trafność teoretyczna pokazuje na związek między cechą psychologiczną, wywodzącą się z określonej teorii psychologicznej, a narzędziem pomiarowym (testem), będącym operacjonalizacją owej cechy (por. Brzeziński, 1996; Jakubowski, 1983; Anastasi, Urbina, 1999). „«Konstrukt psychologiczny* jest pewnym pojęciem teoretycznym, które wprowadzono po to, aby wyjaśnić i uporządkować niektóre fragmenty istniejącej wiedzy" (Standardy..., 1985a, s. 38). Konstruktami są pojęcia, takie jak „lęk", „satysfakcja z pracy", „inteligencja", „przystosowanie emocjonalne" czy „twórczość". Pojęcia te są nieobserwowalne, zaś test jest traktowany jako sposób ich operacyjnego definiowania. Bez potwierdzenia tego, że test jest trafny teoretycznie, tzn. że odpowiedzi na pozycje tego testu można potraktować jako sposób przejawiania się określonej cechy, wyniki testu są psychologicznie nieużyteczne. Trafność teoretyczna odpowiada wprost na pytanie o przedmiot pomiaru testowego. Ze względu na istotę informacji, jakie przynosi znajomość trafność teoretycznej testu, już Loevinger (1957) postulowała, że jest to najważniejszy rodzaj trafności. Campbell (1960), Cronbach (1970), Guion (1980) i Messick (1989) przyczynili się do współczesnego rozumienia, czym jest trafność testu, twierdząc, że można mówić tylko o trafności teoretycznej, która obejmuje i podsumowuje wszystkie rodzaje informacji. I tak zarówno trafność treściowa, jak i trafność kryterialna powinny być traktowane jako aspekty trafności. Podobnie sądzą Anastasi i Urbina (1999, s. 187), które piszą, że: „(...) trafność treściowa, kryterialna i teoretyczna nie stanowią odrębnych ani logicznie równorzędnych kategorii. Wręcz przeciwnie, trafność teoretyczna jest szerokim pojęciem, które zawiera w sobie inne rodzaje trafności". Istotą procesu oceny trafności teoretycznej testu jest odwołanie się do teorii mierzonej cechy. Teoria ta powinna opisywać wewnętrzną strukturę konstruktu, sposób powiązania konstruktu z jego wskaźnikami i związki konstruktu z innymi zmiennymi (por. Lord i Novick, 1968; Hornowska, 1989, 2000a). Z teorii tej wyprowadzane następnie są hipotezy, które poddaje się weryfikacji, wykorzystując w tym celu wyniki testowe. W literaturze przedmiotu opisano wiele metod badania trafności teoretycznej testu. Powszechnie akceptuje się podział metod badania trafności teoretycznej, wprowadzony już przez Cronbacha i Meehla (1955; por. też Anastasi, Urbina, 1999; Brzeziński, 1996; Cohen, Swerdlik, 1999; Jakubowski, 1983; Magnusson, 1981). Również w niniejszej pracy podział ten zostanie wykorzystany jako sposób organizacji prezentowanego materiału. Do podstawowych metod badania trafności teoretycznej testu należą: • analiza różnic międzygrupowych • analiza macierzy korelacji Trafność, czyli określanie obszaru zastosowania testu • analiza czynnikowa • analiza struktury wewnętrznej testu • analiza zmian nieprzypadkowych wyników testu • analiza procesu rozwiązywania testu Omówimy je pokrótce. Analiza różnic międzygrupowych. Metoda ta polega na weryfikowaniu hipotez dotyczących różnego zachowania się dwóch grup osób. Hipotezy te wyprowadzane są z teorii mierzonej cechy, a badane grupy różnią się ze względu na ogólny wynik w teście. Są to zatem grupy różniące się nasileniem cechy badanej przez test. Najczęściej są to tzw. grupy skrajne, tj. grupa o niskich wynikach oraz grupa o wysokich wynikach w teście. Istota tej metody polega na przyjęciu następującego założenia: jeżeli test jest trafną miarą określonego konstruktu, to wyniki testowe otrzymane przez osoby różniące się między sobą ze względu na ten konstrukt także powinny być różne. Wyobraźmy sobie, że skonstruowaliśmy test religijności8. Z teorii zachowań religijnych, leżącej u podstaw naszego testu, wyprowadzamy następującą hipotezę: osoby o wysokim stopniu religijności częściej biorą aktywny udział w życiu Kościoła w porównaniu z osobami o niskim stopniu religijności. Następnie badamy grupę osób naszym testem i na podstawie uzyskanych wyników testowych dzielimy te osoby na dwie grupy: osoby 0 wysokim stopniu religijności (wysokie wyniki w teście) oraz osoby o niskim stopniu religijności (niskie wyniki w teście). Dalej przeprowadzamy wywiad z każdą z badanych osób, rejestrując, w jakim stopniu i jak często uczestniczy ona w życiu Kościoła. Zgodnie z naszą hipotezą oczekujemy, że średnie wyniki dotyczące uczestniczenia w życiu Kościoła powinny być statystycznie różne w obu grupach. A oto inny przykład (za Cohen, Swerdlik, 1999, s. 201). Roach i współpracownicy (1981) postanowili sprawdzić trafność teoretyczną skonstruowanej przez siebie „Skali Zadowolenia z Małżeństwa". Zgodnie z hipotezą oczekiwali, że w grupie osób o wysokich wynikach oceny jakości związku małżeńskiego badanych osób, dokonywane przez ich rówieśników i profesjonalnych terapeutów, będą wyższe niż w grupie o niskich wynikach. I jeszcze inny przykład. Matczak z zespołem (1995), sprawdzając trafność teoretyczną skonstruowanej przez siebie skali inteligencji ogólnej APIS-Z, przyjęła następującą hipotezę: wyniki ocenianego testu będą się różnić w zależności od wykształcenia osób badanych. Inteligencja skrystalizowana, a taką ma mierzyć APIS-Z, jest bowiem także funkcją kształcenia (Matczak 1 inni, 1995, s. 44). Przeprowadzone badania, w których analizowano różnicę między średnimi wynikami testu w grupie studentów i uczniów, potwierdziły 8 Rzeczywisty przykład badania trafności teoretycznej skali postaw wobec Kościoła Thur-stone'a i Chave'a podają Cronbach i Meehl (1955). 95 Rozdział 3 zakładaną hipotezę, przemawiając tym samym na rzecz trafności teoretycznej tego narzędzia. Każdy z tych trzech przykładów pokazuje nieco inne zastosowanie techniki analizowania różnic międzygrupowych do badania trafności teoretycznej testu. Jednak istota tej technika pozostaje niezmieniona: punktem wyjścia jest zawsze hipoteza sformułowana na podstawie teorii mierzonej cechy, a jej weryfikacji dokonuje się, oceniając różnicę między wynikami testowymi w dwóch grupach osób, które różnią się ze względu na mierzony konstrukt. Przykłady te wskazują również na to, że proces oceny obszaru trafności teoretycznej testu w zasadzie nigdy się nie kończy. Możemy bowiem przeprowadzić tyle badań, ile sensownych hipotez jesteśmy w stanie sformułować. Weryfikacja (bądź brak weryfikacji) każdej hipotezy przyczynia się do lepszego zrozumienia mierzonego konstruktu. Pamiętajmy jednak: potwierdzenie hipotezy wyprowadzonej z teorii jednego testu nigdy nie może być wykorzystywane na rzecz potwierdzenia trafności innego testu! Analiza macierzy korelacji. Drugą metodą oceny trafności teoretycznej testu jest analiza współczynników korelacji wyników analizowanego testu z innymi testami. Generalnie oczekuje się, że korelacje wyników ocenianego testu z wynikami testów mierzących podobne cechy powinny być wysokie, zaś korelacje z wynikami testów mierzących inne cechy powinny być niskie. Do szczególnie znanych i zalecanych metod wypracowanych w tej grupie technik należy tzw. analiza macierzy wielu cech-wielu metod, opracowana przez Campbella i Fiskego (1959). Metoda ta polega na dokonaniu pomiaru dwóch lub więcej niezależnych cech za pomocą dwóch lub więcej niezależnych metod (np. kwestionariuszy, ocen obserwatorów i technik projekcyjnych). Następnie sporządza się macierz korelacji dla wszystkich cech i wszystkich metod. Zgodnie ze stanowiskiem Campbella i Fiskego (1959), aby dany test można było uznać za trafny teoretycznie, nie wystarczy tylko wykazać, że jego wyniki korelują odpowiednio wysoko z wynikami podobnych testów (tzw. aspekt zbieżny trafności), ale i że nie korelują one z wynikami testów mierzących inne cechy (tzw. aspekt różnicowy trafności)9. Współcześnie podkreśla się, że tylko pełna informacja (tj. zarówno o aspekcie zbieżnym, jak i aspekcie różnicowym) pozwala uznać dany test za trafny teoretycznie (por. Gaul 1989; Standardy..., 1985b; a także stanowisko polskich autorów zajmujących się zagadnieniami psychometrycznymi: Brzeziński, 1996; Drwal, 1995). Analiza „macierzy wielu cech-wielu metod" dostarcza takich danych i pozwala na przełamanie niechlubnej praktyki w tym względzie. Owa praktyka to dominacja badań poświęconych wyłącznie szukaniu danych dotyczących trafności zbieżnej. Ciągle jeszcze można 96 9 Metodę Campbella i Fiskego szczegółowo omawia Brzeziński (1996, s. 525-532), a także Anastasi i Urbina (1999, s. 179-182). Trafność, czyli określanie obszaru zastosowania testu spotkać testy, w których jedynymi danymi, jakie przytacza się na rzecz trafności teoretycznej, są wartości współczynników korelacji z innymi, mierzącymi podobne konstrukty, testami. Jak pisze Drwal (1995, s. 27), niektóre przytaczane korelacje zamiast świadczyć na rzecz trafności testu zdecydowanie jej zaprzeczają. Dlatego też - podkreślmy raz jeszcze - pełne, korelacyjne badanie trafności teoretycznej powinno dotyczyć obu jej aspektów: zbieżnego i różnicowego. Przykładem zastosowania tej metody do oceny trafności teoretycznej testu mogą być badania przeprowadzone przez Brzozowskiego i Drwala (1995) w trakcie opracowywania przez nich polskiej adaptacji „Kwestionariusza Osobowości" Eysencka. Autorzy ci zastosowali zmodyfikowaną analizę macierzy wielu cech-wielu metod i uzyskali dane potwierdzające wysoką trafność zbieżną i różnicową przygotowywanej przez siebie metody (ibidem, s. 62-63). Analiza czynnikowa. Kolejną metodą stosowaną w badaniu trafności teoretycznej jest również metoda, w której podstawą jest analiza korelacji. Tą metodą jest analiza czynnikowa. Mówiąc najprościej, „cel analizy czynnikowej można ująć w sposób następujący: jest nim odnalezienie nowej grupy zmiennych, mniej licznej niż grupa zmiennych oryginalnych, które wyrażają to, co jest wspólne między oryginalnymi zmiennymi. Jest więc to technika statystyczna używana do identyfikowania relatywnie małych grup czynników, mogących reprezentować relacje między grupami wielu wzajemnie skorelowanych zmiennych" (Zakrzewska, 1994, s. 7). W jaki sposób można wykorzystać technikę analizy czynnikowej do badania trafności testu? Przede wszystkim pozwala ona sprawdzić, czy otrzymane dane empiryczne są zgodne z zakładaną strukturą teoretyczną testu. Mówiąc inaczej, czynniki otrzymane w wyniku zastosowania analizy czynnikowej powinny odpowiadać teoretycznie zakładanym wymiarom (ich operacjonalizacją są najczęściej tzw. podskale w teście). I tak np. przyjmuje się, że wariancję wyników otrzymanych w jedenastu testach Skali Wechslera WAIS-R można wyjaśnić trzema czynnikami: rozumowania werbalnego, organizacji percepcyjnej oraz pamięci i odporności na dystraktory (por. Zakrzewska, 1993, s. 302; 1997; 2000). Wyniki przeprowadzonych badań potwierdzają tę hipotezę (ibidem). Z kolei Brzozowski i Drwal (1995) zastosowali metodę analizy czynnikowej do oceny trafności teoretycznej wspomnianego już „Kwestionariusza Osobowości" Eysencka. Zgodnie z założeniami teoretycznymi oczekiwali ujawnienia się czterech czynników odpowiadających zakładanym czterem wymiarom teoretycznym kwestionariusza. Przeprowadzona przez nich analiza potwierdziła, że cztery najsilniejsze czynniki w kwestionariuszu są zgodne z czterema wyodrębnionymi skalami: neurotycznością, ekstrawersją, kłamstwem i psychotycznością (ibidem, s. 64). Stosowanie metody analizy czynnikowej wymaga przebadania stosunkowo dużej grupy (nie mniejszej niż 100-200 osób) i umiejętności podjęcia decyzji 97 Rozdział 3 technicznych, takich jak wybór metody szacowania zasobu zmienności wspólnej czy wybór kryterium rotacji czynników. Nie jest to zatem metoda polecana dla osób z podstawową tylko wiedzą statystyczną. Jednakże dzięki obecności literatury fachowej (zob. zwłaszcza Zakrzewska, 1994) oraz dostępności pakietów statystycznych można sądzić, że zainteresowanie polskich psychologów tą metodą analizy trafności teoretycznej będzie rosło. Analiza struktury wewnętrznej testu. Termin zgodność wewnętrzna (homo-geniczność) zasadniczo oznacza stopień, w jakim dany test można uznać za miarę jednego konstruktu. Jeżeli można przyjąć w świetle teorii, że mierzona cecha jest cechą homogeniczną, to wysoki współczynnik zgodności wewnętrznej może być traktowany jako dowód trafności teoretycznej testu. Jedną z metod szacowania stopnia zgodności wewnętrznej jest analiza współczynników korelacji między wynikiem każdej pozycji testu a ogólnym wynikiem w tym teście. Istotą tej metody jest poszukiwanie takich pozycji testowych, które różnicują badaną grupę osób w takim samym kierunku co cały test, i eliminowanie tych pozycji, które nie spełniają tego warunku. Można również zastosować tę metodę, biorąc pod uwagę poszczególne skale, z których składa się cały test. Analizując wielkość korelacji między wynikami w poszczególnych skalach a ogólnym wynikiem w teście, można ocenić, na ile dany test jest jednorodnym narzędziem. W taki sposób m.in. oceniano trafność teoretyczną Skali Inteligencji W AIS - R. W polskich badaniach standaryzacyjnych i normalizacyjnych otrzymano następujące współczynniki korelacji między poszczególnymi testami a ogólnym wynikiem odpowiednio wSkali Pełnej, Skali Słownej i Skali Bezsłownej (por. Brzeziński i in., 1996, s. 42): Współczynniki korelacji między poszczególnymi testami a ogólnym wynikiem w Skali Pełnej, Skali Słownej i Skali Bezsłownej w teście WAIS-R 98 Grupa wiekowa 20-24 lata Test Skala Pełna Skala Słowna Skala Bezsłowna Wiadomości 0,789 0,864 0,551 Powtarzanie Cyfr 0,675 0,733 0,481 Słownik 0,836 0,882 0,631 Arytmetyka 0,781 0,793 0,633 Rozumienie 0,806 0,816 0,656 Podobieństwa 0776 0.805 0,606 Braki w Obrazkach 0,681 0,575 0,717 Porządkowanie Obrazków 0,675 0,571 0,710 Klocki 0,645 0,506 0,734 Układanki 0,534 0,368 0,680 Symbole Cyfr 0,629 0,527 0,668 Trafność, określanie obszaru zastosowania testu Chociaż homogeniczność testu jest pożądaną jego właściwością (gwarantuje, że wszystkie jego elementy składowe mierzą „to samo"), nie można jednak jej traktować jako wyczerpującej informacji o trafności teoretycznej testu. Pozwala ona scharakteryzować mierzony konstrukt, lecz nic nie mówi 0 związkach mierzonego konstruktu z innymi cechami czy zachowaniami. Dlatego też informacje na temat stopnia homogeniczności danej metody można traktować jedynie jako dane uzupełniające wnioski o trafności teoretycznej testu (por. Anastasi, Urbina, 1999, s. 178-179). Analiza zmian nieprzypadkowych wyników testu. Ta metoda badania trafności teoretycznej polega z kolei na porównywaniu wyników dwukrotnego badania tym samym testem10. W przerwie między badaniami wprowadza się oddziaływanie eksperymentalne, wyprowadzone z teorii mierzonej cechy. Wynik porównywania powinien być zgodny z założonymi efektami manipulacji (a więc wyniki tzw. post-testu powinny się obniżyć albo podwyższyć). Najczęściej taką formą manipulacji, po której oczekujemy zmiany w wynikach testowych, jest formalne kształcenie, terapia, cykl leczenia czy zwiększanie doświadczeń związanych z wykonywaną pracą. Jednakże dokładne określenie czynników, które mogą zmienić wyniki testowe w określonym kierunku, jest możliwe jedynie w kontekście ocenianego testu. Tę metodę sprawdzania trafności teoretycznej zastosował sam Eysenck (2000, s. 81-82), pracując nad skonstruowanym przez siebie „Kwestionariuszem Osobowości" (por. też Jakubowski, 1983). Jedna z hipotez, jaką postawił, dotyczyła wymiaru introwersji-ekstrawersji. Eysenck mianowicie przyjął, że u introwertyków silniejsze są procesy pobudzenia od procesów hamowania. Dlatego też podanie im leków uspokajających wzmocni procesy hamowania korowego, prowadząc w efekcie do zmian zachowania na bardziej ekstrawer-tywne. I odwrotnie, podanie leków pobudzających powinno wzmocnić procesy pobudzenia korowego i prowadzić do zmian zachowania na bardziej introwertywne. Przeprowadzone badania empiryczne potwierdziły ten punkt widzenia (pod działaniem leku uspokajającego zaobserwowano wzrost wyników w tej skali, a pod działaniem leku pobudzającego - ich spadek). Stosowanie tej metody wymaga starannego zaplanowania procedury eksperymentalnej (szczególnie pod kątem jej trafności teoretycznej, wewnętrznej 1 zewnętrznej), tylko wtedy bowiem można przypisać zaobserwowane efekty końcowe tym czynnikom, które były przedmiotem manipulacji (por. szczegółowe kompendium wiedzy na temat stosowania eksperymentu w psychologii - Brzeziński, 2000). Analiza procesu rozwiązywania testu. Ostatnią z prezentowanych metod badania trafności teoretycznej jest analiza procesu rozwiązywania testu11. 10 Pierwsze badanie nazywane jest pre-testem, a drugie post-testem; technika ta jest również znana jako analiza zmian między pre-testem a post-testem. 11 Inne metody (w tym modelowanie za pomocą równań strukturalnych) można znaleźć u Anastasi i Urbiny (1999). 99 Rozdział 3 Metoda ta w pewnym sensie powstała jako wyraz uznania dla dorobku psychologii poznawczej i polega na analizowaniu zadań testowych z punktu widzenia procesów przetwarzania informacji. Obserwacja kolejności wykonywanych czynności, elementów zadania sprawiających najwięcej trudności, elementów pomijanych, popełnianych błędów (taką analizę przeprowadzał już Raven - por. Hornowski, 1970; też Okręglicka-Forysiak, 1993) czy analiza czasu potrzebnego do udzielenia odpowiedzi są wykorzystywane jako źródło informacji o mierzonym konstrukcie. Szczególnie ciekawą propozycją w tym zakresie jest technika dekompozycji zadania zaproponowana przez Embretson (1985; też Anastasi, Urbina, 1999). Technika ta - mówiąc najprościej - polega na eksperymentalnym manipulowaniu złożonością zadania, liczbą dostarczanych wskazówek, kolejnością prezentowania jego elementów po to, aby określić, jakie procesy przetwarzania informacji są zaangażowane w rozwiązanie określonych zadań i jaka wiedza jest w tym celu niezbędna. Technika ta - ciągle jeszcze traktowana jako zbyt nowa -jest niedoceniana jako metoda badania trafności teoretycznej testu. Pozwala ona na wgląd w procesy odpowiadania na pozycje testu, zmieniając dotychczasową koncentrację na analizie samych odpowiedzi. „Co więcej -jak piszą Anastasi i Urbina (1999, s. 186-187) - analiza indywidualnych wyników odwołująca się do elementarnych procesów, które do nich doprowadziły, powinna wreszcie umożliwić dokładne określenie, jakie są źródła mocnych i słabych stron każdej osoby, a co za tym idzie - zwiększyć diagnostyczną wartość testów". 3.4. STRONNICZOŚĆ TESTÓW12 Wraz z pierwszym praktycznym zastosowaniem testów inteligencji pojawiło się pytanie o to, czy różne wyniki testowe uzyskiwane przez wyodrębnione grupy badanych osób odzwierciedlają rzeczywiste różnice inteligencji, czy też jest to efekt „przychylności" zastosowanego narzędzia pomiarowego wobec pewnych grup osób, tj. „stronniczości" testów psychologicznych (ang. test bias). Już bowiem w roku 1905 Binet i Simon (por. 1905a, 1905b, 1905c, 1916) zwrócili uwagę na fakt, że skonstruowana przez nich metoda, która wystandaryzowana została na grupie dzieci paryskich robotników, daje zdecydowanie wyższe wyniki w wypadku dzieci pochodzących ze środowisk o wyższym statusie społecznym. Podobny efekt opisany został w latach 30. przez psychologów belgijskich, niemieckich i amerykańskich (Jensen, 1980). 100 12 Szerokie omówienie problematyki stronniczości testów psychologicznych wraz z praktycznymi wskazówkami dla autorów testów znajdzie czytelnik w monografii Stronniczość testów psychologicznych (Hornowska, 1999). Rozdział 3 Metoda ta w pewnym sensie powstała jako wyraz uznania dla dorobku psychologii poznawczej i polega na analizowaniu zadań testowych z punktu widzenia procesów przetwarzania informacji. Obserwacja kolejności wykonywanych czynności, elementów zadania sprawiających najwięcej trudności, elementów pomijanych, popełnianych błędów (taką analizę przeprowadzał już Raven - por. Hornowski, 1970; też Okręglicka-Forysiak, 1993) czy analiza czasu potrzebnego do udzielenia odpowiedzi są wykorzystywane jako źródło informacji o mierzonym konstrukcie. Szczególnie ciekawą propozycją w tym zakresie jest technika dekompozycji zadania zaproponowana przez Embretson (1985; też Anastasi, Urbina, 1999). Technika ta - mówiąc najprościej - polega na eksperymentalnym manipulowaniu złożonością zadania, liczbą dostarczanych wskazówek, kolejnością prezentowania jego elementów po to, aby określić, jakie procesy przetwarzania informacji są zaangażowane w rozwiązanie określonych zadań i jaka wiedza jest w tym celu niezbędna. Technika ta - ciągle jeszcze traktowana jako zbyt nowa -jest niedoceniana jako metoda badania trafności teoretycznej testu. Pozwala ona na wgląd w procesy odpowiadania na pozycje testu, zmieniając dotychczasową koncentrację na analizie samych odpowiedzi. „Co więcej -jak piszą Anastasi i Urbina (1999, s. 186-187) - analiza indywidualnych wyników odwołująca się do elementarnych procesów, które do nich doprowadziły, powinna wreszcie umożliwić dokładne określenie, jakie są źródła mocnych i słabych stron każdej osoby, a co za tym idzie - zwiększyć diagnostyczną wartość testów". 3.4. STRONNICZOŚĆ TESTÓW12 Wraz z pierwszym praktycznym zastosowaniem testów inteligencji pojawiło się pytanie o to, czy różne wyniki testowe uzyskiwane przez wyodrębnione grupy badanych osób odzwierciedlają rzeczywiste różnice inteligencji, czy też jest to efekt „przychylności" zastosowanego narzędzia pomiarowego wobec pewnych grup osób, tj. „stronniczości" testów psychologicznych (ang. test bias). Już bowiem w roku 1905 Binet i Simon (por. 1905a, 1905b, 1905c, 1916) zwrócili uwagę na fakt, że skonstruowana przez nich metoda, która wystandaryzowana została na grupie dzieci paryskich robotników, daje zdecydowanie wyższe wyniki w wypadku dzieci pochodzących ze środowisk o wyższym statusie społecznym. Podobny efekt opisany został w latach 30. przez psychologów belgijskich, niemieckich i amerykańskich (Jensen, 1980). 100 12 Szerokie omówienie problematyki stronniczości testów psychologicznych wraz z praktycznymi wskazówkami dla autorów testów znajdzie czytelnik w monografii Stronniczość testów psychologicznych (Hornowska, 1999). Trafność, czyli określanie obszaru zastosowania testu Powstało zatem pytanie, czy różnice w wynikach testowych dzieci - spowodowane przynależnością do różnych warstw społecznych - odzwierciedlają rzeczywiste różnice w poziomie inteligencji tych dzieci, czy też zaobserwowana kulturowa stronniczość testu (tu: raczej stronniczość wynikająca z położenia społecznego grupy) jest artefaktem, spowodowanym doborem pozycji testowych trafnych tylko w stosunku do jednej grupy społecznej? Z czasem coraz więcej psychologów zaczęło zwracać uwagę na różnice w wynikach testowych badanych osób, wynikające przypuszczalnie z przynależności do różnych warstw społecznych. Bardzo szybko zaczęto też podkreślać konieczność tworzenia specjalnych testów dla osób z niskim poziomem wykształcenia, słabo posługujących się językiem, w jakim test został napisany, lub analfabetów. W ramach tej właśnie polityki psychomet-rycznej psychologowie w czasie I wojny światowej stworzyli baterię testów domierzenia inteligencji ogólnej, tzw. test Test Alfa dla Wojska, przeznaczony do selekcji poborowych, oraz - równolegle - pierwszy nieję-zykowy test do pomiaru inteligencji, tzw. Test Beta dla Wojska, przeznaczony dla analfabetów i poborowych nie mówiących po angielsku (por. Einhorn, Bass, 1971; Crocker, Algina 1986). Na ogół problem stronniczości testów wynika ze specyfiki pomiaru psychologicznego. Jak stwierdzili Reynolds i Brown (1984, s. 15): „Testy psychologiczne mierzą cechy, które nie są bezpośrednio obserwowalne, które różnie są definiowane i które mierzone są jedynie w sposób pośredni. Z tej perspektywy problem stronniczości testów inteligencji jest częścią szerszego - w sposób oczywisty ważniejszego - problemu niejednoznaczności. Problem ten dotyczy generalnie wszelkich testów psychologicznych. Stronniczość bowiem może się ujawnić nie tylko w wypadku testów inteligencji, ale również testów osobowości, testów psychopatologicznych czy testów zawodowych". Jeżeli dodać, że badanie za pomocą testu wymaga współpracy od osoby badanej, to jej brak - będący wynikiem niezrozumienia sytuacji, w jakiej realizowany jest pomiar psychologiczny - znacząco może wypłynąć na wynik testu, nie odzwierciedlając wcale poziomu zmiennej, która w intencji twórcy testu miała być mierzona. Termin „stronniczość", opisujący jedną z cech narzędzi pomiarowych (testów) stosowanych w diagnozie ilościowej (szczególnie w obszarze diagnozowania poziomu funkcjonowania intelektualnego), ma swoje specyficzne i unikatowe znaczenie. Ze względu jednak na to, że pojęcie to - szczególnie z powodu swoich językowych skojarzeńl3 - ciągle budzi wiele nieporozumień i przypisuje się mu sens spoza rozważanej tu problematyki (psychometrycz- 13 Zgodnie ze Słownikiem języka polskiego pod redakcją M. Szymczaka (1981, tom 3, s. 350) stronniczy oznacza „nieobiektywny, tendencyjny, kierujący się osobistymi uprzedzeniami, sympatiami, własnym interesem, niesprawiedliwy". 101 Rozdział 3 nego znaczenia wyników testowych), spróbujmy najpierw sprecyzować jego znaczenie14. Stronniczość testu psychologicznego to błąd systematyczny: • w sensie statystycznym oznacza to tyle, że stronniczość wpływa na wyniki testowania zawsze w stały sposób; • w sensie psychometrycznym stronniczość polega na tym, że poszczególne pozycje testowe są mniej lub bardziej trudne dla osób należących do różnych wyodrębnianych podgrup (np. ze względu na wiek czy płeć) w ramach tej samej populacji. Definicja stronniczości W statystyce termin „stronniczość" (czy raczej „obciążenie") oznacza systematyczne niedoszacowywanie lub przeszacowywanie parametru popula-cyjnego na podstawie danych z próby. Na gruncie psychometrii „stronniczość" to również błąd systematyczny- tyle że związany z wynikami testowymi osób należących do konkretnej podgrupy populacji. „Stronniczość" zatem to pojęcie techniczne, związane z szeroko rozumianą przynależnością grupową - rasową, klasową, narodowościową, religijną - lub np. wiekiem. Tak też definiują stronniczość autorzy zajmujący się tą problematyką, np. według Jensena (1980, s. 375): „W psychometrii «stronniczość» odnosi się do systematycznych błędów związanych z trafnością prognostyczną lub trafnością teoretyczną wyników testowych, które wynikają z przynależności grupowej badanych osób. Stronniczość jest terminem ogólnym i nie jest ograniczona jedynie do «stronniczości kulturowej». Może ona dotyczyć każdego rodzaju przynależności grupowej - ze względu na rasę, klasę społeczną, narodowość, płeć, religię czy wiek. Szacowanie stronniczości jest problemem wyłącznie obiektywnym, empirycznym, statystycznym i ilościowym, niezależnym od subiektywnych sądów wartościujących i rozważań etycznych dotyczących uczciwego i nieuczciwego stosowania testów. Stronniczość w sensie psychometrycznym jest to zbiór właściwości statystycznych, charakteryzujących jednocześnie dany test i dwie lub więcej grupy wyodrębnione z populacji". 102 14 Por. interesująca analiza kłopotów językowych dotyczących funkcjonowania terminu „stronniczość" w języku codziennym i języku nauki, dokonana przez Nancy Cole (1993). Zwraca ona uwagę na różnice pomiędzy społecznym a technicznym znaczeniem tego terminu oraz na różnice między jego znaczeniem na poziomie teoretycznym i operacyjnym. W rozumieniu społecznym stronniczość jest zjawiskiem złym - oznacza brak równych szans dla wszystkich osób badanych testami (np. testy wiadomości będą ZAWSZE stronnicze względem osób o niskim poziomie wiedzy z danego obszaru); w sensie technicznym stronniczość jest zjawiskiem niepożądanym z punktu widzenia właściwości testu, nie jest jednak „złem społecznym" (ibidem, s. 27). Ta rozbieżność znaczeń powoduje, że w dyskusjach nad społecznymi konsekwencjami testów psychologicznych opinia publiczna i psychometrzy są jak „statki mijające się ciemną nocą" (ibidem). Trafność, czyli określanie obszaru zastosowania Stronniczość zatem jest definiowana w kategoriach systematycznego błędu pomiaru i jak każdy błąd wpływa na wszystkie pomiary - raz je zwiększając, a raz obniżając. Termin ten różni się pojęciowo i operacyjnie od pojęć, takich jak uczciwość, równość, uprzedzenia, preferencje, lub od innych podobnych pojęć używanych w języku codziennym. Stronniczość to termin techniczny oznaczający - ni mniej, ni więcej tylko „stałe zniekształcenie danych testowych" (por. Osterlind, 1983). Niektórzy autorzy, podejmując próbę zdefiniowania, czym jest stronniczość testu, odwołują się do pojęcia uczciwej selekcji. I tak np. zdaniem Lorrie Shepard (1981, s. 80) stronniczość testu to odchylenie w sposobie pomiaru przez test tego, co z założenia ma on mierzyć: jest to błąd systematyczny, powodujący, że wykonanie testu stawia w niekorzystnym położeniu jedną grupę w porównaniu z drugą15. Zauważmy, że w definicji tej autorka kładzie nacisk na efekty stronniczości w postaci niekorzystnego położenia jednej z grup. Posługiwanie się pojęciem „niekorzystnego położenia" oznacza w gruncie rzeczy uznanie, że test stronniczy jest z definicji testem nieuczciwym. W podobnym tonie sformułowali swoją definicję Shepard, Camilli i Averil (1981, s. 318), pisząc, że: „stronniczość jest rodzajem braku trafności, który dotyka jedną grupę bardziej niż drugą. W dobrze skonstruowanym teście osiągnięć, w którym próbka treści została właściwie wylosowana, stronniczość mimo wszystko może się pojawić, ponieważ format pytań czy sposób ich prezentacji będzie nieuczciwy w stosunku do jednej z grup (...)". Wprowadzanie do definicji stronniczości pojęcia uczciwości (ang. test fairness) nie jest dobrym rozwiązaniemI6, gdyż nie pozwala wyraźnie odróż- TESTU 15 Te dwie grupy to tzw. grupa większości i grupa mniejszości. Pojęcia grupy większości (ang. majority group) i mniejszości (ang. minority group) wykorzystywane są do opisywania dwóch grup pochodzących z tej samej populacji i branych pod uwagę przy ocenie potencjalnej stronniczości testu. W tym kontekście pojęcie większości oznaczać może: a) tę grupę, która jest większa w populacji, b) tę grupę, na której test został wystandaryzowany, i c) tę grupę, która uzyskuje wyższy średni wynik w teście, o ile grupy te różnią się pod względem tych wyników (Jensen, 1980, s. 376). Grupa większości nie oznacza zatem wyłącznie najliczniejszej grupy etnicznej, ale po prostu tę część osób badanych testem, która - ze względu na wyróżnione parametry - stanowi właśnie większość (i tak np. wśród starających się o pracę pielęgniarki w szpitalu kobiety mogą stanowić grupę większości, a mężczyźni mniejszości, a wśród kandydatów na lotników odwrotnie). 16 Przyjmijmy, że terminy „uczciwe" i „nieuczciwe stosowanie testu" będziemy odnosić do sposobu, w jaki wyniki testowe (bez względu na to, czy test może zostać uznany za stronniczy czy też nie) są wykorzystywane w sytuacji selekcji. Pojęcie „uczciwości" odwołuje się zawsze do jakiegoś systemu wartości. Dlatego też nie można sprowadzać problemu uczciwego stosowania testu do decyzji o charakterze wyłącznie statystycznym. Praktyka stosowania testów pokazuje, że sformułowano jak dotąd wiele - często wzajemnie się wyłączających - kryteriów uczciwości i żadna procedura statystyczna czy psychometryczna per se nie pozwala określić, które z nich jest najlepsze. Decyzja dotycząca kryteriów uczciwego stosowania testu powinna być lokowana w sferze (a) kompetencji psychologa, (b) polityki społecznej, (c) rozwiązań prawnych i wreszcie (d) konsekwencji praktycznych. „Uczciwego" stosowania testu nie należy zatem utożsamiać z jego cechą formalną - tj. stronniczością. 103 Rozdział 3 nić stronniczości rozumianej jako cecha testu od pojęcia uczciwości dotyczącego sposobu stosowania tego testu. Podsumujmy zatem: termin „stronniczość" wykorzystywany jest najczęściej przy opisie właściwości testów zdolności i definiowany w terminach systematycznego błędu pomiaru. W sensie statystycznym oznacza to tyle, że stronniczość wpływa na wyniki testowania zawsze w stały sposób. W sensie psychometrycz-nym natomiast stronniczość polega na tym, że poszczególne pozycje testowe są mniej lub bardziej trudne dla osób należących do różnych wyodrębnianych podgrup (np. ze względu na wiek czy płeć, a nie mierzoną właściwość podmiotową) w ramach tej samej populacji. O stronniczości pozycji testowych mówimy zatem wtedy, gdy prawdopodobieństwo udzielenia prawidłowej odpowiedzi na daną pozycję testową jest różne dla osób o tej samej wartości mierzonej cechy, a pochodzących z różnych grup należących do tej samej populacji (por. Shepard, Camilli, Averill, 1981; Hulin, Drasgow, Parsons, 1983). Przyczyną tego zjawiska może być stosowanie specyficznych pojęć, właściwych dla wąsko pojętej podkultury i bardzo rzadko używanych w populacji, włączanie do testu pozycji, w których występują pojęcia nie używane przez którąś z grup, lub pozycji, które zostały źle przetłumaczone z języka obcego, itp. Stronniczość nie oznacza błędu losowego (ten ostatni jest zawsze taki sam dla wszystkich wyłonionych grup). Oczywiście, żaden test nie mierzy danej cechy w sposób idealnie dokładny. Jeżeli błąd pomiaru w jednakowym stopniu dotyczy wszystkich członków różnych grup pochodzących z tej samej populacji, to nie istnieją powody, dla których test mógłby zostać określony jako stronniczy. Ta ostatnia uwaga jest niezmiernie istotna w badaniach nad stronniczością. Nie jest bowiem tak, że stronniczość testu pozwala wyjaśnić każdą obserwowaną różnicę wyników między dwiema grupami. Gdyby tak było, każdy test byłby „stronniczy" w stosunku do jakiejś grupy osób wyróżnionych ze względu na płeć, pochodzenie etniczne czy jakąkolwiek inną zmienną, którą zawsze dałoby się jakoś nazwać. Konsekwencje społeczne przyjęcia hipotezy o stronniczości testu, kiedy nie jest ona prawdziwa, mogłyby być dramatyczne. W takim wypadku bowiem obserwowane rzeczywiste różnice w wynikach testowych będą traktowane jako artefakt i prowadzić będą do decyzji abstrahujących od wyników testowych - np. dzieci nie będą kierowane do odpowiednich placówek wychowawczych, choć byłoby to dla nich najlepsze. >• Uczciwość to termin odnoszący się do strony etycznej testowania. Pojęcie uczciwości, społecznej sprawiedliwości i jednakowej ochrony przez prawo to pojęcia moralne i prawne, i w tym sensie należy je odróżniać od pojęcia stronniczości testu, traktowanej jako cecha testu. 104 Potencjalne źródła stronniczości testu Analizując literaturę przedmiotu, można zauważyć, że różne klasy czynników bywają traktowane jako przyczyny stronniczości testu. Jak się wydaje, Trafność, czyli określanie obszaru zastosowania testu można je pogrupować na siedem następujących kategorii (por. też Reynolds, Brown, 1984, s. 17; Van de Vijver, Tanzer, 1997, s. 268): Niewłaściwa treść testu - osoby pochodzące z grup społecznych np. o niższym statusie mogą nigdy nie zetknąć się ze specyficznym materiałem, który złożył się na treść pozycji testowych. Może to dotyczyć zarówno języka, wiedzy, jak i wartości. Utożsamianie stronniczości testu z niewłaściwą treścią pozycji testowych znalazło swoje najsilniejsze odzwierciedlenie w twierdzeniu, że każda pozycja testowa zawierająca treści odnoszące się do wybranej kultury w obszarze stosowania testu jest stronnicza. Zdaniem zwolenników takiego stanowiska pozycje testowe powinny być całkowicie wolne od wpływu czynników kulturowych. Tak rozumiana stronniczość jest utożsamiana z brakiem trafności treściowej testu. Pomiar różnych charakterystyk - ten sam test może mierzyć odmienne charakterystyki (wielkości psychologiczne), jeżeli stosowany jest w stosunku do osób pochodzących spoza kultury, która była „źródłem" pozycji testowych. Test jest zatem trafny teoretycznie tylko w stosunku do osób należących do jednej kultury i nietrafny w stosunku do osób spoza owej kultury. Różna trafność teoretyczna tego samego testu w różnych kulturach może być przeto istotą zjawiska stronniczości. Zakłócenia trafności prognostycznej - test może umożliwiać dokonywanie dobrych prognoz w wypadku członków grup większości, lecz nie pozwalać na skuteczne przewidywanie analogicznych zachowań w wypadku członków grup mniejszości. Tym samym decyzje podejmowane na podstawie wyników testowych mogą być obciążone błędem stronniczości zawsze wtedy, kiedy badania walidacyjne nie są pełne (zwłaszcza w zakresie trafności prognostycznej), a test jest stosowany także w wypadku tych osób, które należą do grup nie objętych takimi badaniami. Język, w jakim test został sformułowany - osoby poddane badaniu testowemu w innym - niż własny - języku uzyskują generalnie niższe wyniki. Jednakże wyniki uzyskane przez osoby mówiące innym językiem niż język testu nie muszą być wskaźnikiem mniejszych zdolności, mogą zaś być - po prostu - wskaźnikiem trudności komunikacyjnych. Taki test należy uznać zatem za stronniczy językowo. Źródłem stronniczości jest w tym wypadku wadliwa procedura badania testem i nieprzestrzeganie standardów postępowania w tym zakresie (tj. nieupewnienie się, że osoba badana dobrze rozumie zadanie, jakie przed nią stoi, i że zrobiono wszystko, aby umożliwić jej jak najlepsze wykonanie testu - por. np. APA, Standardy..., 1985a, s. 75). Niewłaściwa próba standaryzacyjna - jeżeli w próbie standaryzacyjnej nie są reprezentowane wszystkie grupy, które mogą być badane określonym testem, to test należy uznać za narzędzie stronnicze w stosunku do tych grup, które nie zostały w próbie standaryzacyjnej uwzględnione. Przy takim sposobie ujmowania stronniczości wychodzi się z założenia, że w próbach standaryzacyjnych brak jest właściwej (w sensie statystycznym) reprezentacji 105 Rozdział 3 grup mniejszościowych, co musi stronniczo wpływać na opracowywane normy. Na tej podstawie właśnie Williams (por. Williams, Dotson, Dow, Williams, 1980) krytykował test WISC-R (Wechsler, 1974) z powodu wadliwie -jego zdaniem - skonstruowanej próby standaryzacyjnej. W próbie tej odtworzono bowiem procentowy skład populacji amerykańskiej (tj. na 2200 badanych osób 330 stanowili przedstawiciele mniejszości narodowych), a zdaniem Williamsa (ibidem) tak mała reprezentacja w żaden sposób nie może wpłynąć na normy testowe. Taki test musi być zatem stronniczy wobec mniejszości (tu: Murzynów). Okazuje się jednak, że w świetle zebranych danych empirycznych stanowisko to nie znajduje swojego uzasadnienia, a co najmniej budzi wątpliwości. I tak np. stwierdzono, że w teście Wechslera, przeznaczonym do badania inteligencji ludzi dorosłych i wystandaryzowanym na populacji amerykańskiej (WAIS-R), Japończycy (a więc grupa całkowicie spoza próby standaryzacyjnej) uzyskują ilorazy inteligencji o około 6 punktów wyższe niż Amerykanie, a Eskimosi zamieszkujący Arktykę, uzyskują w teście Ravena przeciętne wyniki porównywalne z populacją Anglików (Jensen, 1984, s. 516). Różnice grupowe w średnim wykonaniu testu - każda różnica wykonania testu przez dwie grupy (różniące się rasą, pochodzeniem lub np. płcią) jest traktowana jako dowód oczywistej stronniczości testu. U podstaw takiego stanowiska leży przyjmowane a priori założenie o wyjściowej równości wszystkich grup pod względem wszystkich charakterystyk mierzonych przez test. I choć takie stanowisko - nazwane przez Jensena błędem egalitaryzmu (Jensen 1980, s. 370) - trudno dziś zaakceptować, stało się ono podstawą wielu wyroków, wydanych przez sądy w Stanach Zjednoczonych, w rozprawach, w których decyzje podejmowano na podstawie wyników badań testami psychologicznymi. Niejednakowe konsekwencje społeczne - decyzje podejmowane na podstawie wyników testowych są podstawą podejmowania decyzji często określających przyszłość osób badanych (rekrutacja do szkół czy przyjmowanie na dane stanowiska). W efekcie zastosowania stronniczego testu decyzje te (np. dotyczące dalszego kształcenia) mogą być niekorzystne w stosunku do członków grup mniejszości - którzy już i tak, ze względu na przynależność do tych grup, mieli mniejsze możliwości - i pogłębiają tym samym istniejące nierówności społeczne. Jak widać z przedstawionego wyżej zestawienia, większość z wymienianych w literaturze przedmiotu źródeł stronniczości można generalnie zaliczyć do problematyki walidacji testu (etap konstrukcji) lub jego stosowania - powinny one zatem stać się elementem analiz psychometrycznych. Natomiast w wypadku niejednakowych konsekwencji społecznych sprawa jest nieco bardziej złożona. Problem ten bowiem generalnie dotyczy testowania psychologicznego i nie można go analizować wyłącznie z punktu widzenia grup 106 mniejszości. Społeczne konsekwencje tworzenia ścieżek edukacyjnych czy Trafność, czyli określanie obszaru zastosowania testu zawodowych powinny być analizowane w ramach psychologii rozwojowo--wychowawczej czy psychologii pracy lub poradnictwa zawodowego, a nie bezrefleksyjnie utożsamiane z problematyką stronniczości. Psychologowie wykorzystujący w praktyce instrumentarium testowe powinni zdawać sobie sprawę z możliwości wystąpienia efektu stronniczości. Zarzut stronniczości jednak musi wynikać z obiektywnych przesłanek i musi stać się elementem obiektywnego postępowania (podobnie jak w wypadku trafności czy rzetelności). Subiektywna intuicja czy wrażliwość społeczna nie są tu wystarczającym uzasadnieniem. Spróbujmy zatem sformułować obiektywne kryteria stronniczości i wskazać na możliwe techniki jej szacowania. Ponieważ problematyka stronniczości testów psychologicznych jest przede wszystkim łączona z zagadnieniem trafności - od tego problemu zacznijmy. Stronniczość testu a trafność treściowa Przypomnijmy, że trafność treściowa - zgodnie ze Standardami dla testów stosowanych w psychologii i pedagogice (APA, 1985a) - wymaga wykazania, że „zachowania demonstrowane w badaniu testowym są reprezentatywną próbą zachowań ujawniających się w interesującej badacza sferze" (ibidem, s. 36). Dany test może zostać uznany za stronniczy, jeżeli uniwersum pozycji testowych zostało trafnie określone tylko w stosunku do członków jednej grupy (np. grupy większości). Taki test - ze względu na brak trafności treściowej - będzie stronniczy w stosunku do wszystkich pozostałych osób. Co ciekawsze, problem stronniczości treści pozycji testowych jest najczęściej podnoszony przez autorów generalnie potępiających stosowanie testów inteligencji wobec grup mniejszościowych (por. np. Williams, 1974; Hilliard, 1979). Można wskazać na trzy przyczyny stronniczości z punktu widzenia trafności treściowej (por. Berk, 1982; Reynolds, 1982a, b, Camilli, Shepard, 1994): a) pozycje testowe są stronnicze, ponieważ wymagają od członków grupy mniejszości odpowiedzi na takie tematy, z którymi osoby te nigdy nie miały szansy się zetknąć. Np. młodzież uczęszczająca do innych szkół niż licea ogólnokształcące może mieć trudności z wymieniem współczesnych poetów polskich ostatniego dziesięciolecia; b) pozycje testowe są stronnicze, ponieważ nieprawidłowo skonstruowany został klucz do ich oceny. Autor testu zdecydował bowiem arbitralnie o tym, jaka odpowiedź zostanie potraktowana jako prawidłowa. W efekcie członkowie grupy mniejszości są karani za dawanie odpowiedzi prawidłowych z punktu widzenia własnej kultury, a nieprawidłowych z punktu widzenia kultury autora testu. Np. w zadaniu sprężyna jest częścią (samochodu, motocykla, wagonu, zegarka) za prawidłową odpowiedź uznawany 107 Rozdział 3 jest jedynie zegarek, choć każdy mający niewielką tylko wiedzę techniczną chętnie wskazałby i inne możliwości17; c) pozycje testowe są stronnicze, ponieważ sposób sformułowania pytania jest tak obcy dla członków grupy mniejszości, że choć znają oni prawidłową odpowiedź, nie są w stanie jej udzielić, ponieważ nie rozumieją pytania. Np. pytanie „co to za część statku, która jest zszyta z brytów, wzmocniona bantem i obszyta likliną?" zostało sformułowane z punktu widzenia osób zainteresowanych sportem wodnym, stając się mało czytelnym dla pozostałych. Analizując wymienione wyżej potencjalne źródła stronniczości treściowej, można zauważyć, że wszystkie one mają jedną cechę wspólną: stronnicza pozycja testowa okazała się w jakimś aspekcie trudniejsza dla członków grupy mniejszości w porównaniu z grupą większości. Dlatego też można przyjąć za Reynoldsem (1982a, s. 188) następującą ogólną definicję stronniczości treściowej: „Pozycja testowa (...) może zostać określona jako stronnicza treściowo, jeżeli udowodniono, że jest ona relatywnie trudniejsza dla członków jednej grupy w porównaniu z drugą, mimo że ogólny poziom zdolności obu grup pozostaje taki sam i w żaden sposób nie można racjonalnie wyjaśnić obserwowanych różnic w jakości odpowiedzi na tę pozycję (...)"l8. Uznanie, że niewłaściwa treść testu może być przyczyną stronniczości, zwróciło uwagę wielu instytucji na konieczność opracowania zbioru zasad, które byłyby pomocne przy tworzeniu pozycji testowych. Takim zbiorem są m.in. wskazówki opublikowane przez wydawnictwo Macmillan pt. Guidelines for creating positive sexual and racial images in educational materials (1975)19, które mają obowiązywać nie tylko przy konstruowaniu testów, ale w ogóle wszelkich materiałów dydaktycznych. Wskazówki te mają pozwalać na tworzenie pozytywnego kontekstu i unikanie negatywnego kontekstu, w jakim przedstawia się kulturę grup mniejszości narodowych. Możemy tu przeczytać m.in.: „Reprezentantów grup mniejszości należy przedstawiać jako osoby tworzące swoje własne drogi rozwoju, wypracowujące własne rozwiązania, posiadające własne osiągnięcia i pomagające innym. Bohaterów z grup mniejszości należy opisywać głęboko, a nie jedynie powierzchownie. Osoby z grup mniejszości powinny być głównymi, wielowymiarowymi bohaterami opowiadań i przykładów" (Macmillan, 1975, s. 35). 108 17 Przykład ten podaje Witwicki (1928) jako ilustrację sytuacji, w której klucz odpowiedzi stworzono w sposób mechaniczny, bez sprawdzenia jego zasadności. 18 Zjawisko stronniczości treściowej zatem nie oznacza ipso facto stronniczości w stosunku do grupy mniejszości, a jest źródłem różnic odpowiedzi między dwoma zdefiniowanymi grupami. Rzecz jest o tyle istotna, że wielu autorów ma tendencję do utożsamiania zjawiska stronniczości wyłącznie z negatywnym oddziaływaniem na grupę mniejszości, tymczasem można wskazać na przykłady testów stronniczych w stosunku do grup większości (Reynolds, Brown, 1984, s. 25). 19 Podobne wskazówki opublikowało też wydawnictwo McGraw-Hill (na podstawie Tittle, 1982): Recommended multiethnic publishing guidelines (1968) i Guidelines for eąual treatment of the sexes (1974). Trafność, czyli określanie obszaru zastosowania testu W literaturze przedmiotu można znaleźć szereg metod zaprojektowanych specjalnie w celu szacowania stronniczości treściowej (por. zwłaszcza Jensen, 1980; Tittle, 1982). Metody te, wbrew oczekiwaniom ich twórców, nie przyniosły jednak oczekiwanych rezultatów. I tak np. analizy treści dokonywane przez zespoły ekspertów składające się z przedstawicieli grup większości i grup mniejszości nie okazywały się wcale lepsze od subiektywnych ocen samych autorów, a dotyczących tego, które z pozycji testowych mogłyby być stronnicze ze względu na ich treść (Reynolds, Brown, 1984). Ocena stronniczości wymaga wypracowania obiektywnych (statystycznych) kryteriów, a odwoływanie się wyłącznie do aspektu trafności treściowej, jako próby zdefiniowania istoty tego zjawiska, nie jest wystarczające. Stronniczość testu a trafność kryterialna O stronniczości z punktu widzenia trafności kryterialnej, głównie prognostycznej, mówi się najczęściej w kontekście zastosowania testów do celów selekcyjnych. Psychologom praktykom najbliższa jest perspektywa prognostyczna. Z punktu widzenia „(...) tradycyjnych zastosowań testów zdolności i inteligencji trafność prognostyczna jest bowiem najistotniejszym rodzajem trafności, gdy myślimy o potencjalnej stronniczości testu" (Reynolds, Kaiser, 1990, s. 511). Podstawowym celem stosowania testów w takiej sytuacji jest uzyskanie możliwości dokonywania przewidywania przyszłych zachowań na podstawie wyników testowych. Ponieważ stronniczość jest tu traktowana jako cecha testu, a nie cecha procedury selekcji, można przyjąć następującą definicję stronniczości z punktu widzenia trafności prognostycznej (Reynolds, 1982a, s. 201): „Test może zostać potraktowany jako stronniczy z punktu widzenia jego trafności prognostycznej, jeżeli wnioski uzyskiwane na podstawie wyników testowych nie są wyprowadzane z najmniejszym dopuszczalnym błędem lub jeżeli pojawił się stały błąd [przeszacowywanie lub niedosza-cowywanie - przyp. E.H.] w przewidywaniu przyszłych zachowań badanych osób, będący wynikiem ich przynależności do określonej grupy". Te same uwagi można również sformułować w stosunku do trafności diagnostycznej. Innymi słowy, wykorzystywanie wiedzy o przynależności osoby badanej do określonej grupy w procesie przewidywania - na podstawie wyniku testowego -jej aktualnego lub przyszłego zachowania może wpływać stronniczo na dokładność stawianych diagnoz lub prognoz. Nie obciążone stronniczością prognozy będą odzwierciedlały a) poziom osiągnięć właściwy dla danej grupy, b) będzie się to działo z jednakową dokładnością dla każdej z grup (McCor-nack, 1983). W kontekście stronniczości rozważane są zatem zazwyczaj dwie grupy wyników: a) wyniki zastosowania określonego testu psychologicznego oraz b) wyniki innych zmiennych pozatestowych, stanowiących kryterium przewidywania przyszłych zachowań. 109 Rozdział 3 Ten sam test może być testem stronniczym prognostycznie jedynie ze względu na określone kryteria. Stronniczość prognostyczna odwołuje się bowiem zawsze do konkretnego kryterium i dotyczy użyteczności wyników testowych jako predyktorów tego właśnie kryterium oraz tego, czy wyniki testowe są jednakowo dobrym predyktorem przyszłych zachowań dla różnych grup pochodzących z tej samej populacji. Ujmowanie stronniczości z punktu widzenia relacji między wynikami testowymi a miarami kryterialnymi późniejszego funkcjonowania jednostki najbardziej zainteresowało specjalistów z dziedziny psychometrii i pomiaru psychologicznego (por. np. Darlington, 1971; Thorndike, 1971; Bernal, 1975; McNe-mar, 1975; Angoff, 1976; Cronbach, 1976; Petersen, Novick, 1976). Efektem ich dociekań było wypracowanie wielu modeli uczciwej selekcji,a nie zdefiniowanie stronniczości jako cechy narzędzia pomiarowego - testu. Zagadnienie uczciwej selekcji pozostaje poza problematyką stronniczości i generalnie związane jest z określaniem systemów wartości obowiązujących przy podejmowaniu decyzji na podstawie wyników testowych. Modele uczciwej selekcji nie odwołują się też do tego, co ma być istotą definicji stronniczości z punktu widzenia trafności prognostycznej - tj. szacowania wielkości stałego błędu popełnianego przy prognozowaniu wyniku kryterialnego, jako funkcji przynależności grupowej (por. też Anastasi, Urbina, 1999, s. 230-231). Podkreślmy raz jeszcze: stronniczość z punktu widzenia trafności kryterial-nej to stały błąd w przewidywaniu wyniku kryterialnego na podstawie wyników testowych, będący rezultatem przynależności osób badanych do określonej grupy. Techniki szacowania tak rozumianej stronniczości odwołują się do obiektywnych kryteriów jakości diagnozy lub prognozy. Stronniczość testu a trafność teoretyczna Trafność teoretyczna (Cronbach, Meehl, 1955) odnosi się do zakresu, w jakim test mierzy określony konstrukt teoretyczny (cechę psychologiczną). O istnieniu stronniczości z punktu widzenia trafności teoretycznej powiemy zatem wtedy, kiedy (Reynolds, 1982a, s. 194): „(...) test mierzy różne cechy hipotetyczne (konstrukty psychologiczne) w wypadku różnych grup lub gdy mierzy tę samą cechę, lecz z różnym stopniem dokładności". Pytanie o istnienie stronniczości z punktu widzenia trafności teoretycznej ma ogromne znaczenie zarówno z punktu widzenia teorii, jak i praktyki psychologicznej. Gdyby bowiem wykazano istnienie stałej stronniczości metod testowych z punktu widzenia trafności teoretycznej dla jakichkolwiek grup (wyłonionych ze względu na płeć, rasę czy pochodzenie społeczne), to dorobek psychologii różnic indywidualnych powinien być podany w wątpliwość, gdyż może się on odwoływać do artefaktów! Ogólne badania trafności teoretycznej należy zatem uważać za niewystarczające i trzeba rozszerzyć je o badania potencjalnej stronniczości w tym zakresie. Jeżeli 110 okaże się, że w wypadku danego testu można mówić o takiej stronniczości, Trafność, czyli określanie obszaru zastosowania testu to wszystkie badania naukowe, w których wykorzystywano ten test, powinny zostać co najmniej skorygowane z punktu widzenia potencjalnej stronniczości. Problematyka stronniczości z perspektywy braku trafności teoretycznej zaowocowała wieloma rozwiązaniami natury technicznej - zaproponowano wiele szczegółowych technik pozwalających szacować tego typu stronniczość (już Cronbach, 1970). Do najczęściej wymienianych metod należy analiza czynnikowa. Stwierdzenie identycznych czynników w grupach wyodrębnionych w ramach tej samej populacji można potraktować jako dowód, że test mierzy ten sam konstrukt we wszystkich grupach (Reynolds, Brown, 1984). Takie same wyniki analiz czynnikowych pozwalają przyjąć, że osoby należące do wszystkich grup (zwykle grupy większości i grupy mniejszości) tak samo spostrzegają i interpretują materiał testowy. Dobrym przykładem testów, o których można powiedzieć, że są stronnicze pod względem trafności teoretycznej, są testy inteligencji powstające w obszarze kultury zachodniej. W większości takich testów kładzie się nacisk na umiejętność rozumowania, posiadaną wiedzę i zakres pamięci. Umiejętności funkcjonowania społecznego są znacznie rzadziej brane pod uwagę, a te mogą mieć zdecydowanie większe znaczenie w innych kulturach (np. w chińskiej, w której zakres powinności dzieci wobec rodziców decyduje o ich wychowaniu i zdobywanej wiedzy -por. Van de Vijver, Tanzer, 1997, s. 264). Powstaje zatem pytanie: czy można bezpośrednio porównywać wyniki w testach, które z nazwy mierzą to samo (np. inteligencję), a zostały wykonane przez osoby należące do różnych kultur? Rozwiązaniem jest tu odwołanie się do trafności teoretycznej. Jeżeli wykażemy, że pojęcie inteligencji jest tak samo operacjo-nalizowane w interesujących nas kulturach, to zyskamy podstawy dla takiego porównania. Porównywalna trafność teoretyczna może być zatem kluczowym dowodem braku stronniczości testów stosowanych w różnych kulturach. Jak widać z przedstawionego wyżej omówienia, problematyka stronniczości testów psychologicznych jest ściśle związana z problematyką trafności, a badania nad stronniczością powinny stać się elementem badań walidacyj-nych. Bardzo wielu autorów definiuje stronniczość jako wskaźnik braku trafności testu - właściwości opisującej sposób zastosowania testu, a nie właściwości testu jako takiego. Stronniczość testu zatem powinna być traktowana jako szczególny rodzaj braku trafności. Techniki szacowania stronniczości testu Generalnie rzecz biorąc, empiryczne szacowanie stronniczości testu sprowadza się do oceny funkcjonowania testu z punktu widzenia jego trafności kryterialnej. Stosowane testy powinny być - z założenia - wysoko skorelowane z kryterium będącym podstawą podjęcia decyzji o charakterze kwalifikacyjnym (czy to diagnostycznych, czy prognostycznych). Ponieważ trafność kryterialna jest często najważniejszą użytkową cechą testu, dlatego jego ewentualna stronniczość może być rozważana w kategoriach związku między 111 Rozdział 3 112 kryterium a predyktorami. Możemy zatem powiedzieć, że test stronniczy to test nietrafny kryterialnie. Jest to taki test, którego wyniki nie pozwalają na trafne przewidywanie zachowań występujących aktualnie lub w przyszłości w stosunku do wszystkich badanych osób, bez względu na ich przynależność grupową. Najważniejszym - z tego punktu widzenia - wskaźnikiem stronniczości testu jest zatem wielkość korelacji między wynikami testu a wybranymi miarami kryterium. Test bezstronny powinien posiadać podobne korelacje z tymi samymi miarami kryterium dla wszystkich analizowanych grup. Ponieważ związek między wynikami testowymi a kryterium jest operacjo-nalizowany w postaci równania regresji, stronniczość testu jest operacyjnie definiowana właśnie jako nierówność linii regresji w dwóch wyodrębnionych grupach (grupie mniejszości i grupie większości). I tak, w wypadku testu stronniczego związek między wynikami testowymi a prognozowanym kryterium będzie inny w każdej z grup. Bartlett i 0'Leary (1969) przedstawili jedenaście modelowych sytuacji pokazujących wzajemne zależności między testem a kryterium dla dwóch grup (np. mniejszości i większości). Sytuacje te przedstawiono na rys. 3.3 (za: Jensen, 1980, s. 390). Na rysunku tym zamieszczono wykresy korelacji między wynikami testowymi (X) a wynikami zmiennej kryterialnej (Y). Elipsa ilustruje istotną korelację między tymi zmiennymi, a koło - brak związku. Zgodnie z definicją stronniczości jako nierówności linii regresji w dwóch grupach, tylko sytuacja przedstawiona jako pierwsza (na zacieniowanym polu) ilustruje przykład testu bezstronnego. Zewnętrznym standardem ewaluacji testu jest tu zmienna kryterialna. Dany test uznamy za stronniczy, jeżeli diagnozowanie lub prognozowanie przyszłego funkcjonowania badanych będzie obarczone stałym błędem i błąd ten zależeć będzie od przynależności do różnych grup (definiowanych ze względu, np. wiek, płeć czy rasę). O stronniczości testu zatem świadczyć będą zawsze zbyt wysokie lub zawsze zbyt niskie wyniki zmiennej kryterialnej, otrzymane dla osób należących do różnych grup, a oszacowane na podstawie linii regresji wyznaczonej dla całej populacji (por. też Anastasi, Urbina, 1999, s. 224-230). Podsumujmy: stronniczość testów oznacza zatem błąd systematyczny popełniany przy prognozowaniu wartości zmiennej kryterialnej dla osób z różnych grup, będący rezultatem: a) oparcia diagnozy lub prognozy na wspólnej linii regresji wyznaczonej dla wszystkich osób bez względu na ich populacyjną przynależność, lub też b) oparcia diagnozy lub prognozy wyników kryterialnych osób należących do jednej grupy na równaniu regresji wyznaczonym dla innej. Test oceniany jest pod kątem trafności diagnozy lub prognozy w stosunku do członków określonych grup pochodzących z tej samej populacji. Badanie Rys. 3.3. Diagramy korelacyjne przedstawiające rodzaje relacji między wynikami testowymi (X) i zmienną kryterialną (Y) w grupie większości i mniejszości (opracowano na podstawie Jensen, 1980, s. 390) o o a O CD o C/l 8 n U) c Rozdział 3 stronniczości polega na wyznaczeniu linii regresji dla każdej z grup, a następnie na ocenie ich zgodności20. 3.5. WYKORZYSTANIE TESTÓW DLA CELÓW SELEKCYJNYCH21 Procedury selekcyjne są dzisiaj jednym z podstawowych elementów działań rekrutacyjnych prowadzonych przez rozmaite instytucje i przedsiębiorstwa. Mają też daleko idące konsekwencje dla samej instytucji, kandydatów, jak i społeczeństwa. Z punktu widzenia instytucji procedury selekcyjne pozwalają na tworzenie właściwych zespołów pracowników czy zespołów osób kształcących się. Trafny dobór ludzi do firmy, jej poszczególnych jednostek organizacyjnych i stanowisk może prowadzić do jej późniejszych sukcesów. Jeżeli firma potrafi znaleźć najzdolniejszych, najlepszych i najbardziej przydatnych kandydatów, ma szansę przetrwania i rozwoju (por. Listwan, 1993). Z punktu widzenia kandydatów procedury selekcyjne stwarzają optymalne szansę na zatrudnienie w zawodzie dającym możliwości awansu, przyczyniającym się do zwiększenia prestiżu społecznego, pozwalającym na zwiększanie dóbr - zarówno tych materialnych, jak i niematerialnych, na kształcenie się w odpowiednim obszarze. Na poziomie społecznym natomiast procedury selekcyjne są jednym ze sposobów dzielenia rynku pracy czy ofert edukacyjnych. Można wręcz stwierdzić, że procedury te są również odpowiedzialne za to, kto zostanie dotknięty bezrobociem i będzie dyskryminowany na rynku zawodowym czy edukacyjnym. Społeczna i ekonomiczna rola procedur selekcyjnych jest zatem ogromna. Nie może też dziwić, że osoby poddawane tym procedurom domagają się gwarancji ich obiektywności i uczciwości. Zarządzanie potencjałem społecznym jest procesem ciągłym, którego elementem są zarówno rekrutacja i selekcja (obsada stanowisk pracy, kontakty z rynkiem pracy i z jego organizacjami), jak i ocena przy awansach pracowników już zatrudnionych w firmie (ocena osiąganych rezultatów oraz ocena możliwości rozwoju pracowników). Selekcja to proces zbierania informacji o kandydatach na uczestników organizacji oraz wyboru najbardziej odpowiedniego spośród nich na wakujące stanowisko pracy. Nie ma zatem wątpliwości, że społeczne zainteresowanie problematyką selekcji będzie coraz większe, a opinia publiczna domagać się będzie rozwiązań, które będzie mogła uznać za bezstronne, tj. takich, które prowadzić będą do oceny kandydatów wyłącznie ze względu na ich przydatność na dane stanowisko. Uczciwa selekcja to taka procedura, w ramach której formułuje się - wynikające 114 20 Linie regresji wyznaczone dla różnych grup mogą różnić się ze względu na standardowy błąd pomiaru (wariancję błędu), współczynnik nachylenia i przesunięcia. Istotność różnic linii regresji wyznaczonych dla różnych grup można ocenić za pomocą testu identyczności równań regresji (por. Neter, Wasserman, 1974, Domański, 1979). 21 Ten podrozdział jest skróconą wersją rozdziału zatytułowanego „Filozofia uczciwej selekcji", zamieszczonego w pracy Stronniczość testów psychologicznych (Hornowska, 1999). Trafność, czyli określanie obszaru zastosowania testu z rzetelnie przeprowadzonej analizy pracy na danym stanowisku i dotyczące tylko wiedzy, umiejętności, zdolności i zakresu doświadczeń - kryteria określające zasady przyjmowania na określone stanowiska. Nierzetelne, a nawet nielegalne, są kryteria pozamerytoryczne, takie jak narodowość, religia czy płeć. Problem opracowania takich strategii selekcyjnych, które będą „uczciwe" wobec przedstawicieli wszystkich kultur, przestaje zatem być problemem interesującym głównie teoretyków. Coraz częstsze stosowanie wywiadów i testów psychologicznych w procesie doboru przyszłych pracowników sprawia, że rozwiązań tych oczekuje się również od psychologów. Zasadność stosowania testów potwierdzają następujące ich zalety: a) gwarantując standaryzację sytuacji egzaminacyjnej, testy zapewniają wszystkim kandydatom jednakowe szansę, gdyż wyniki testów nie pozostają pod wpływem osobistych względów i uprzedzeń, kwestii pozamerytorycznych lub nieistotnych informacji; b) skale ocen i odniesienia są jawne, co ułatwia porównywanie wyników poszczególnych kandydatów; c) przed zastosowaniem testy są badane pod względem jakości merytorycznej i przydatności empirycznej; z uwagi na to, że zostały opracowane według racjonalnego schematu, ich wyniki mogą być wykorzystane także w okresie późniejszym; d) testy mogą uzupełniać zebrane już informacje o kandydacie lub je korygować, co w inny sposób byłoby trudne lub niemożliwe. W Stanach Zjednoczonych, aby zapewnić stosowanie procedur selekcyjnych nie prowadzących do dyskryminacji żadnej z grup (większości czy mniejszości), już w 1978 roku opracowano dokument pt. Uniform Guidehnes on Employee Selection Procedur es (Roe, Greuter, 1991) ustalający zasady selekcji kandydatów. Biorąc pod uwagę przemiany na dzisiejszym rynku pracy (nowe technologie, zmieniające się warunki pracy, optymalizację wykorzystania zasobów ludzkich, także zmianę systemów edukacyjnych), zagadnienie uczciwej selekcji ponownie powinno znaleźć się w centrum naukowego zainteresowania psychologów. Od strony psychometrycznej sytuację selekcji można opisać następująco (za: Guilford, 1964, s. 386-395; por. też Anastasi, Urbina, 1999, s. 198): przyjmijmy, że kryterium wyboru jest wynik testu psychologicznego. Test ten powinien być wysoce skorelowany z kryterium, którym może być np. poziom wykonywania przyszłej pracy zawodowej czy postępy w kształceniu. Niech oś X przedstawia skalę wyników testów psychologicznych, a oś Y skalę kształcenia lub pracy zawodowej. Populacja osób starających się o pracę czy przyjęcie do szkoły może zostać podzielona na cztery kategorie (por. też rys. 3.4): (A) osoby, które zostaną wybrane i osiągną powodzenie, (B) osoby, które zostaną odrzucone, a które osiągnęłyby powodzenie, gdyby zostały wybrane, (C) osoby, które zostaną wybrane i nie osiągną powodzenia, 115 Rozdział 3 (D) osoby, które zostaną odrzucone i które nie osiągnęłyby powodzenia. gdyby zostały wybrane. Problem skutecznej selekcji można zatem rozważać w kategoriach trafnej prognozy (por. wyżej - definicja stronniczego testu). I tak, na rys. 3.4 widać, że trafna prognoza (i właściwa decyzja selekcyjna) dotyczy osób wpadających Rys. 3.4. Podział populacji starających się o pracę przy uwzględnieniu kwalifikacyjnego wyniku testu psychologicznego (oś X) oraz kryterium pracy zawodowej (oś Y) (opracowano na podstawie Guilford, 1964, s. 387) | wybrani, którzy osiągnęli powodzenie odrzuceni, którzy osiągnęliby powodzenie j odrzuceni, którzy nie osiągnęliby powodzenia wybrani, którzy nie osiągnęli powodzenia [ Odrzuceni Przyjęci Test 116 do kategorii oznaczonych jako A i D, nietrafną decyzję zaś podjęto w przypadku osób z kategorii B i C. Od czego zatem zależy wielkość obszarów A, B, C i D, czyli inaczej - trafność decyzji selekcyjnej? Czynnikami, które determinują wielkość błędu popełnianego przy prognozowaniu kryterium, będą - obok, oczywiście, wielkości korelacji między testem i kryterium - różne punkty podziału wprowadzone na skali powodzenia i na skali wyników testowych. Punkty te zostały nazwane przez Taylora i Russella (1939, za Guilford, 1964, s. 388) Trafność, czyli określanie obszaru zastosowania testu stosunkiem powodzenia i stosunkiem wyboru22. Stosunek powodzenia to proporcja przyjętych kandydatów, którzy osiągną powodzenie, zaś stosunek wyboru to proporcja wszystkich kandydatów, którzy zostali przyjęci (ibidem) - por. rys. 3.5. Rys. 3.5. Różne kombinacje stosunku wyboru i stosunku powodzenia przy różnych stopniach trafności prognostycznej testu (opracowano na podstawie Guilford, 1964, s. 389) (a) (b) T y 22 Warto w tym miejscu przytoczyć koncepcję współczynnika selekcji, którą formułuje się w naukach o zarządzaniu, czyli poza psychologią. I tak np. Szałkowski (1995, s. 83) opisuje współczynnik selekcji, rozumiany jako stosunek liczby kandydatów podlegąiących procesowi selekcji na danym etapie do liczby potencjalnych kandydatów: liczba kandydatów poddanych selekcji Współczynnik selekcji =--------------------------------------------------- liczba potencjalnych kandydatów Wartość tego współczynnika zależy nie tylko od przyjmowanych założeń, ale także od popytu i podaży, charakteryzujących dany rynek pracy - w wypadku pewnych branż, firm czy stanowisk podaż osób o odpowiednich kwalifikacjach (w konkretnej procedurze selekcji) może być tak mała lub ogólny popyt na nie tak duży, że współczynnik ten będzie mieć wartość 1, a wypadku innych przyjmować będzie wartości mniejsze od 1. 117 Rozdział 3 118 Analiza rys. 3.5 pozwala zauważyć, że skuteczność selekcji za pomocą testów nie zależy wyłącznie od trafności testu, lecz od odpowiedniej kombinacji stosunku powodzenia i stosunku wyboru. I tak na wykresie a i b stosunek powodzenia jest wysoki, a na wykresach c i d bardzo niski. Testy a i c to testy mało trafne, a testy b i d to testy o zadowalającej trafności. Przyjrzyjmy się dokładniej wykresowi c. Jest to ilustracja sytuacji, w której - mimo że stosujemy test o niskiej trafności - możemy dokonać skutecznej selekcji (odrzucamy bowiem parokrotnie więcej potencjalnych niepowodzeń niż potencjalnych powodzeń). Z kolei na wykresie a mamy do czynienia z sytuacją, w której ustalenie zbyt wysokiego punktu odcięcia (wyniku kwalifikacyjnego) w wypadku testu o niskiej trafności prowadzi do odrzucania osób o najlepszych kwalifikacjach (Guilford, 1964, s. 389-390). Wykresy te są dobrą ilustracją faktu, że trafność procedury selekcji zależy nie tylko od trafności prognostycznej wykorzystanego narzędzia psychologicznego, ale także od szeregu innych czynników, które mogą w sposób znaczący wpływać na ostateczne rezultaty. Ogólnie rzecz biorąc, w tworzeniu schematu procedury selekcyjnej należy - jak się wydaje - wziąć pod uwagę pięć rodzajów wymagań: a) trafność- czyli dobór takich informacji, które pozwalają na dokonywanie prognoz i zapewniają trafność decyzji wyprowadzonych na ich podstawie. Innymi słowy, metoda ma faktycznie mierzyć te cechy i zdolności, które zgodnie z koncepcją jej autora mierzy (powinna być trafna teoretycznie), oraz przewidywać te przyszłe efekty pracy bądź zachowania, których pomiar jest jej przypisywany. Może to prowadzić np. do włączenia pewnych rodzajów pytań do podania aplikacyjnego, do stosowania określonych testów zdolności, kombinacji tych testów, korzystania z danych biograficznych czy próbek pracy; b) skuteczność - czyli właściwą kombinację stosunku powodzenia i stosunku wyboru; c) etyczne postępowanie- czyli dbanie o to, aby w procedurze selekcyjnej nie pojawiły się takie aspekty, jak naruszenie prawa do prywatności, prawa do odwołania czy prowadzenie polityki dyskryminacyjnej. Dbałość o etyczne postępowanie może prowadzić do zadawania pytań na tematy drażliwe dopiero pod koniec sesji, do włączania do selekcji procedur załatwiania odwołań czy tworzenie różnych procentowych kryteriów przyjmowania osób należących do różnych grup etniczno-kulturowych; d) opłacalność- czyli łączną sumę kosztów i zysków wynikających ze stosowanych procedur selekcyjnych. Opłacalność można zwiększyć przez włączenie tańszych informacji (np. stopni szkolnych), stosowanie krótszych testów czy prowadzenie selekcji etapowych; e) wydajność- czyli odpowiedni stopień strukturalizacji procedur selekcyjnych. Wydajność jest związana z automatyzacją postępowania selekcyjnego, optymalnym wykorzystaniem możliwości zespołu prowadzącego Trafność, czyli określanie obszaru zastosowania testu postępowanie kwalifikacyjne i standaryzacją procedur testowania. Jest czynnikiem minimalizującym ponoszone koszty. Na gruncie psychometrii formułuje się trzy ogólne koncepcje selekcji. Koncepcje te opisane, przez Huntera i Schmidta (1976; też Jensen, 1980; Hunter, Schmidt, Rauschenberger, 1984) jako indywidualizm nieograniczony (ang. unqua.lifi.ed individualism), indywidualizm ograniczony (ang. ąualified individualism) i dobór kwotowy (ang. ąuotas), raczej odzwierciedlają odmienne stanowiska filozoficzne, niż tworzą zbiory praktycznych reguł postępowania. Ze względu jednak na to, że pozwalają sformułować odmienne kryteria etyczne dotyczące uczciwości procedury selekcyjnej, warto się im bliżej przyjrzeć. Co więcej, tworzą one wygodny system klasyfikacyjny dla opisywanych (licznie w literaturze przedmiotu) konkretnych strategii postępowania. Na gruncie psychometrii formułuje się trzy ogólne koncepcje selekcji. Są to: • indywidualizm nieograniczony—instytucja dokonująca selekcji powinna wybierać tych kandydatów, którzy otrzymali najwyższy przewidywany wynik kryterialny, bez względu na to, jakie zmienne predykcyjne zostały uznane za najbardziej trafne (mogą to być takie zmienne informacje, jak te dotyczące pochodzenia etnicznego, płci, religii czy statusu socjoekonomicznego badanych osób); • indywidualizm ograniczony- instytucja dokonująca selekcji również powinna się kierować zasadą maksymalizowania trafności predykcyjnej. Jednakże w procedurze selekcji nie wolno brać pod uwagę wszystkich tych zmiennych, na podstawie których można by zidentyfikować, do jakiej grupy należy badana osoba. Takie zmienne, jak rasa, płeć, pochodzenie etniczne, nie mogą być - z zasady - włączane do zbioru zmiennych predykcyjnych; • dobór kwotowy- według tego stanowiska trafna procedura selekcji to taka procedura, która w proporcjach przyjętych kandydatów z grupy mniejszości i większości uwzględnia szeroko rozumiane kryteria społeczne. Indywidualizm nieograniczony Zgodnie ze stanowiskiem indywidualizmu nieograniczonego, instytucja dokonująca selekcji powinna wybierać tych kandydatów, którzy otrzymali najwyższy przewidywany wynik kryterialny. Do ustalenia wyniku kryterial-nego można wykorzystać dowolne zmienne predykcyjne (lub kombinacje tych zmiennych). Nakłada się na nie jeden tylko warunek - muszą mieć one najwyższą z możliwych trafność prognostyczną. Zgodnie z tym stanowiskiem, w trakcie postępowania selekcyjnego - obok zmiennych predykcyjnych, takich jak wyniki testowe - można wykorzystywać wszelkie informacje o przynależności grupowej, np. informacje dotyczące pochodzenia etnicznego, płci, religii czy statusu socjoekonomicznego (por. Hunter, Schmidt, 1976, s. 1055-1057; też Jensen, 1980, s. 392-394). Ogólnie rzecz biorąc, każda zmienna demograficzna czy biologiczna może zostać potraktowana jako dopuszczalna zmienna predykcyjna, o ile tylko jest skorelowana z prognozowanym kryterium. To, czy zostanie ona wyko- 119 Rozdział 3 120 rzystaną czy też nie, zależy zatem od rozważań natury statystycznej, a nie etycznej. Jeżeli włączenie danej zmiennej do zbioru predyktorów zwiększa trafność prognostyczną tego zbioru, jest to wystarczający argument, aby tak uczynić. Jedynie kryteria natury praktycznej (koszty, czas), zestawione z ewentualnym wzrostem trafności prognostycznej, mogą przemawiać przeciwko wykorzystaniu takich informacji jako zmiennych predykcyjnych (por. Jensen, 1980, s. 394). Jeżeli rasa, płeć czy wiek okażą się trafniejszymi predyktorami kryterium w danej sytuacji selekcyjnej niż inne zmienne pre-dykcyjne, to - zgodnie ze stanowiskiem indywidualizmu nieograniczonego - mamy etyczne prawo się nimi posłużyć dla celów selekcyjnych. Co więcej, zgodnie ze stanowiskiem indywidualizmu nieograniczonego, nie trzeba stosować tego samego testu czy zmiennych predykcyjnych w stosunku do wszystkich kandydatów. Można bowiem wykorzystywać różne predyktory, zgodnie z przynależnością kandydatów do grup społecznych. Jeżeli jakikolwiek test okaże się bardziej trafny dla członków jednej grupy, a inny test dla członków drugiej grupy, to każda grupa powinna wypełniać ten test, który jest dla niej bardziej trafny. Etyczny wymóg stanowiska indywidualizmu nieograniczonego można zatem sprowadzić do wymogu tworzenia takich procedur selekcyjnych, które są najbardziej trafne dla danej osoby. Dlatego też np. kobiety powinny być testowane za pomocą testów najbardziej trafnych dla kobiet, a mężczyźni dla mężczyzn. Kandydaci powinni być następnie wybierani w porządku rangowym, od najlepszego do najgorszego, ze względu na prognozowany wynik w kryterium, tak długo, aż nie zostanie przekroczony punkt odrzucenia ustalony przez instytucję dokonującą selekcji. Celem postępowania selekcyjnego jest maksymalizowanie trafności prognozy, a nie określanie, jak dana osoba mogłaby funkcjonować, gdyby stała za nią inna historia życia, gdyby pochodziła z lepszego czy gorszego środowiska lub posiadała inną kombinację genów (Jensen, 1980, s. 393). Jeżeli zatem osoba należąca do konkretnej grupy zostanie odrzucona przez strategię indywidualizmu nieograniczonego, to stało się tak nie dlatego, że jest członkiem tej grupy, ale dlatego, że jest to najlepsza prognoza kryterium dla tej osoby. Ten rodzaj selekcji pozwala również na stworzenie wszystkim pracownikom wyrównanych szans na przyszły awans. Hunter i Schmidt (1976, s. 1069) opisali np. przypadek przedsiębiorstwa, które w znacznym stopniu obniżyło standardowe kryterium zatrudniania, aby można było przyjąć więcej czarnych pracowników. Jednakże pracownicy ci nie mogli sprostać wewnętrznym kryteriom awansowania, co sprawiło, że zajmowali najniższe stanowiska w tym przedsiębiorstwie. W efekcie prowadzania takiej polityki przedsiębiorstwo to znalazło się przed sądem z powodu prowadzenia dyskryminacyjnej polityki awansowania. Oczywiście i w tej strategii zdarzają się błędy prognozy. Zawsze będą tacy kandydaci, którzy zostaną odrzuceni, choć przyjęci zostali ci, którzy Trafność, czyli określanie obszaru zastosowania testu uzyskali gorsze wyniki. Takie błędy prognozy są jednak nieuniknione i zdarzają się w każdej sytuacji selekcji, w której stosujemy niedoskonale trafny zbiór predyktorów. To, co rzeczywiście można zrobić na podstawie dostępnych informacji o kandydatach, to podjęcie wysiłku minimalizowania błędów prognozy. Zaakceptowanie takiej koncepcji selekcji gwarantuje, że cel ten może zostać osiągnięty. Jakie są główne zarzuty w stosunku do tego stanowiska? Podstawowy zarzut, jaki można sformułować, dotyczy tego, co miało być siłą tej propozycji. Przypuśćmy, że dla jednej z grup nie można skonstruować trafnego zbioru predyktorów lub że zbiór skonstruowany dla tej grupy ma zdecydowanie niższą trafność niż zbiór dla drugiej grupy. W tej sytuacji nawet najlepsi kandydaci z tej grupy będą mieli mniejsze szansę na pozytywną decyzję w porównaniu z kandydatami należącymi do drugiej grupy. W tym sensie strategia selekcji może zostać potraktowana jako nieuczciwa w stosunku do członków tej grupy, dla której predyktor (zbiór predyktorów) ma niższą trafność. Wyobraźmy sobie taki skrajny przypadek, w którym trafność predyktóra wynosi zero. Linia regresji wyznaczona dla wyniku testowego i wyniku kryterialnego dla tej grupy będzie wówczas równoległa do osi X (będzie pozioma). W tej sytuacji prognozowanym wynikiem kryterialnym będzie średnia grupowa. Jeżeli średnia wypadnie poniżej punktu odrzucenia przyjętego przez pracodawcę, to żadna osoba z tej grupy nie zostanie przyjęta. Jeżeli z kolei średnia znajduje się powyżej punktu odrzucenia, to wszyscy kandydaci z tej grupy mają jednakowe szansę na przyjęcie, i w efekcie najlepsi z nich nie będą promowani (Jensen, 1980, s. 394). Jednakże najbardziej na tym traci instytucja przyjmująca. W pierwszym wypadku bowiem zmienna predykcyjna nie pozwala na identyfikowanie najlepiej rokujących kandydatów; w drugim zaś może zdarzyć się tak, że zostaną przyjęte osoby niekompetentne (Hunter, Schmidt, 1976, s. 1070). Warunkiem stosowania strategii indywidualizmu nieograniczonego jest zatem stworzenie maksymalnie trafnego zbioru predyktorów dla każdej z grup i upewnienie się, że różnica współczynników trafności w obu grupach jest najmniejsza z możliwych. Jeżeli okaże się, że nie jest to możliwe, stanowi to poważne wyzwanie dla uczciwej polityki selekcji. Zagorzały zwolennik tej strategii będzie jednak twierdzić, że żadna inna możliwość nie jest bardziej uczciwa niż ta, w której wykorzystuje się najlepszy z dostępnych zbiorów predyktorów, bowiem tylko w ten sposób można zminimalizować błędy prognozy. Czy rzeczywiście ta argumentacja jest do przyjęcia? Przyjrzyjmy się, co mają do zaproponowania zwolennicy pozostałych dwóch koncepcji. Indywidualizm ograniczony Na gruncie indywidualizmu ograniczonego, podobnie jak w koncpecji indywidualizmu nieograniczonego, główny nacisk kładzie się na zasadę maksymalizowania trafności predykcyjnej. Jednakże przedstawiciele tego stanowiska wprowadzają zasadnicze ograniczenia w stosunku do zbioru 121 Rozdział 3 dopuszczalnych predyktorów: w procedurze selekcji nie wolno brać pod uwagę wszystkich tych zmiennych, na podstawie których można by zidentyfikować, do jakiej grupy należy badana osoba. Tym samym takie zmienne, jak rasa, płeć, pochodzenie etniczne, nie mogą być - z zasady - włączane do zbioru zmiennych predykcyjnych (por. Hunter, Schmidt, 1976, s. 1058). W sytuacji, kiedy test wykorzystywany jako predyktor nie jest testem stronniczym, obie strategie prowadzą do takich samych rezultatów: każdy wynik w teście pozwala na dokonywanie trafnych prognoz niezależnie od przynależności grupowej. W wypadku testu stronniczego pojawia się jednak poważny problem. Zwolennik stanowiska indywidualizmu ograniczonego nie może bowiem zastosować różnych testów dla obu grup, gdyż identyfikacja grupowa jest zakazana. Nie może też, oczywiście, wykorzystać zmiennych identyfikujących przynależność grupową jako zmiennych predykcyjnych nawet wtedy, kiedy ich włączenie do zbioru predyktorów istotnie podniosłoby jego trafność predykcyjną. Zgodnie z koncpecją indywidualizmu ograniczonego, jednym ze sposobów radzenia sobie w sytuacji, kiedy wykorzystywany test okaże się testem stronniczym, jest włączanie do równania regresji dodatkowych zmiennych, nie pozwalających na identyfikację przynależności grupowej jednostki. To zaś może prowadzić do wybierania takich zmiennych, które skorelowane z kryterium, mogą też pośrednio być skorelowane23 z przynależnością grupową. Takimi zmiennymi są wszelkie dane biograficzne, np. data urodzenia, wykształcenie własne i wykształcenie rodziców lub miejsce zamieszkania. Czy posługiwanie się takimi danymi zamiast danymi dotyczącymi przynależności grupowej jest bardziej uczciwe, niż gdyby były to dane o rasie, płci czy religii? Przedstawiciele indywidualizmu ograniczonego zgadzają się, że płeć czy rasa to zmienne, które rzeczywiście posiadają trafność predykcyjną w wypadku prognozowania wielu specyficznych osiągnięć szkolnych czy powodzenia w specjalistycznych zawodach. Źródło tej trafności nie jest jednak jasne i wzbudza spory wśród naukowców. Nie można zatem - nie znając istoty powiązania między predyktorem a kryterium - wykorzystywać tych zmiennych w równaniu regresji. Wykorzystywane predyktory powinny mieć trafność wewnętrzną, tj. posiadać jasne, funkcjonalne powiązania ze zmienną kryterialną. Jeżeli np. szukamy kandydatów do pracy na stanowisku urzędnika w banku, to możemy jako jedną ze zmiennych predykcyjnych zastosować test szybkości spostrzegania, jeżeli tylko wykażemy, że wyniki tego testu są powiązane z sukcesem w pracy na tym stanowisku. Zwolennicy indywidualizmu nieograniczonego będą jednak twierdzić, że - w tym sensie - każdy predyktor posiada trafność wewnętrzną, o ile jest istotnie skorelowany ze zmienną kryterialną. - 23 Wskaźnik pośredni jest tu definiowany jako taka zmienna, która jest bardziej skorelowana 122 z przynależnością grupową niż ze zmienną kryterialną (por. Jensen, 1980, s. 395). Trafność, czyli określanie obszaru zastosowania testu Decyzja o tym, które zmienne można włączyć do zbioru predyktorów (zakładając, że wszystkie są istotnie skorelowane z kryterium), ma charakter subiektywny. To jednak nie podlega już żadnym metodom kontroli naukowej. Główną zaletą ograniczonego indywidualizmu - wedle jego orędowników - jest możliwość wybierania spośród kandydatów osób najlepiej wykwalifikowanych, i to - ich zdaniem - w sposób uczciwy, bowiem bez korzystania z informacji o przynależności grupowej badanych osób. Jest to strategia, która zmusza do poszukiwania zbioru najlepszych predyktorów, i to takich, które odwołują się wyłącznie do indywidualnych umiejętności jednostki (np. zdolności czy motywacji). Przeciwnicy tego stanowiska twierdzą natomiast, że jego zwolennicy - wbrew deklaracjom - nie starają się postępować zgodnie z zasadą maksymalizacji trafności predykcyjnej, bowiem odrzucają część danych (te o przynależności grupowej). Mogą natomiast włączać pośrednie wskaźniki przynależności grupowej, a nawet włączać do testu obciążone kulturowo pozycje testowe jako substytuty przynależności grupowej. Dobór kwotowy Zgodnie ze stanowiskiem, którego istotą jest kwotowy (proporcjonalny) dobór kandydatów z grupy mniejszości i większości, pojęcie uczciwej selekcji nie odwołuje się do maksymalizowania trafności i minimalizowania błędów prognozy (indywidualizm nieograniczony) czy do tworzenia procedur niezależnych od przynależności grupowej (indywidualizm ograniczony). Zwolennicy dobru kwotowego uważają, że uczciwa procedura selekcji to taka procedura, która w proporcjach przyjętych kandydatów z grupy mniejszości i większości uwzględnia szeroko rozumiane kryteria społeczne. I tak, jeżeli w danym mieście mieszka 45% czarnych i 55% białych, to każda strategia, która dopuszcza inne proporcje wśród wybranych białych i czarnych kandydatów, jest „politycznie stronnicza" (Hunter, Schmidt, Rauschenberger, 1984, s. 56). Ustalanie uczciwych proporcji (ang. fair-share ąuotas) może być oparte na procentowym składzie populacji czy innych czynnikach, niezależnych od prognozowanego wyniku kryterium (Darlington, 1971). Strategia postępowania zgodnie z doborem kwotowym może być jawna lub ukryta w statystycznych procedurach selekcji. Jej istota pozostaje jednak nie zmieniona - dobieranie kandydatów z grupy mniejszości i większości w sposób proporcjonalny powinno przeważać nad zasadą doboru według najwyższego prognozowanego wyniku kryterialnego. Im szerzej będą definiowane obie grupy (mniejszości i większości), tym większe będą korzyści społeczne wynikające z doboru kwotowego i tym bardziej będą przeważać nad stratami wynikającymi z obniżenia prognozowanego wyniku kryterialnego. W strategii opartej na doborze kwotowym wychodzi się zatem z założenia, że warto poświęcić formalną zasadę dobierania kandydatów zgodnie z najwyższym prognozowanym wynikiem kryterialnym na rzecz innych korzyści, mających większą wartość społeczną. Np. ze społecznego punktu widzenia 123 Rozdział 3 sprawą niezmiernie ważną może być podjęcie decyzji o preferowaniu kandydatów z grupy mniejszości (wybranie większej ich proporcji), aby w ten sposób zrekompensować mniejsze ich szansę w przeszłości, i w ten sposób zadość uczynić przeszłej, niesprawiedliwej polityce społecznej (np. preferowanie dzieci pochodzenia robotniczego i chłopskiego przy przyjmowaniu na studia wyższe w PRL, praktyka political correctness w USA czy prawnie usankcjonowane tworzenie drużyn sportowych w RPA, proporcjonalnie do rasowego składu populacji). Preferowanie kandydatów z grupy mniejszości jest zatem społecznie uzasadnione nawet wtedy, kiedy z konieczności zmusza do obniżenia ich prognozowanego wyniku kryterialnego i prowadzi do częstszych ich niepowodzeń w nauce czy pracy. Istota doboru kwotowego - choć działającego w odwrotnym kierunku, tj. dyskryminująco - znalazła swoje szczególne odzwierciedlenie w realizowanej w latach 30. w Polsce zasadzie numerus clausus (ograniczanie ogólnej liczby osób z pewnej kategorii - tu: pochodzenia żydowskiego - przy przyjmowaniu na studia wyższe, do stowarzyszeń lub do pracy w urzędach)24 czy zasadzie numerus nullus (niedopuszczaniu w ogóle pewnych grup kandydatów do studiów czy stowarzyszeń - por. też Walasek, 1994). Czy rzeczywiście ta strategia doboru jest społecznie uczciwa, i w związku z tym przeważa nad strategiami indywidualizmu nieograniczonego i ograniczonego? Podstawowym pytaniem w doborze kwotowym jest pytanie o to, jakie grupy społeczne powinny być w kwocie faworyzowane i jak duże powinny być to kwoty (proporcje). Bez względu na decyzję zawsze staniemy w obliczu następującego problemu: przyjęliśmy mniej wykwalifikowanych kandydatów (w terminach prognozowanego wyniku kryterialnego) z jednej grupy i odrzuciliśmy lepiej wykwalifikowanych kandydatów z drugiej. Wybrani kandydaci z grupy faworyzowanej zaakceptują selekcję kwotową z powodu oczywistych korzyści, jakie im ona daje. Jednakże kandydaci z drugiej grupy, którzy mieli jednakowo wysokie wyniki testowe i zostali odrzucenie będą mieli zdecydowanie mniej powodów do zadowolenia. Problemu tego nie da się jednak rozwiązać w terminach psychometrycznych czy statystycznych, a odpowiednia decyzja musi zostać podjęta na innych podstawach. Kiedy jednak decyzja ta zostanie już podjęta, można się odwołać do precyzyjnych, matematycznych strategii ustalania optymalnych punktów odrzucenia dla różnych grup i określić najbardziej prawdopodobne konsekwencje danej strategii (por. Roe, Greuter, 1991). Najczęściej jako optymalny sposób postępowania przy wypełnianiu odpowiednich kwot wybiera się 24 W sprawie zasady numerus clausus obowiązującej przy przyjmowaniu młodzieży pochodzenia żydowskiego na studia medyczne w Polsce por. też Wojtkiewicz-Rok (1996, s. 154-155), która opisuje wiec ogólnoakademicki mający miejsce 15 III 1923 roku na Uniwersytecie Poznańskim. Podczas tego wiecu postulowano zróżnicowanie zasady numerus clausus dla poszczególnych ośrodków akademickich w zależności od ich specyfiki. Ponieważ na terenie poznańskiego ludność żydowska stanowiła 1 %) uczestnicy wiecu proponowali, aby 124 na Uniwersytet Poznański przyjmować właśnie 1% osób tego pochodzenia. Trafność, czyli określanie obszaru zastosowania testu następująca zasadę: „dla każdej z grup należy - posługując się maksymalnie tratnym lejcem dla tej grupy - ustalić prognozowany wynik kryterialny" (Hunter, Schmidt i Rauschenberger, 1984, s. 79). Preferowana strategia selekcji kandydatów w ramach kwot odwołuje się zatem wprost do indywidualizmu nieograniczonego, tj. maksymalizowania wyniku kryterialnego i minimalizowania błędu prognozy wewnątrz każdej grupy. Jakie zatem zastrzeżenia można sformułować pod adresem tej koncepcji? Jak się wydaje, podstawowy problem strategii opartej na doborze kwotowym polega na tym, że średni wynik kryterialny kandydatów z grupy mniejszości jest zawsze niższy od średniego wyniku kandydatów z grupy większości, a przeciętna różnica między wybranymi kandydatami z grupy większości i mniejszości będzie się powiększać. Ta cecha charakterystyczna doboru kwotowego ma znaczenie nie tylko ze statystycznego punktu widzenia, ale przede wszystkim z powodu społecznych konsekwencji. Jak pisali Hunter i Schmidt (1976, s. 1069): „dobór kwotowy w sposób oczywisty zaniża średnie wyniki uczniów kończących szkołę, i dlatego musi obniżać jej prestiż. Podobne uwagi można sformułować w stosunku do rynku pracy". Dobór kwotowy może też stać się - wbrew intencji jego zwolenników - narzędziem dyskryminacji (określanie grup mniejszości i większości dla doraźnych celów politycznych). Inne zastrzeżenie sformułowane przez Huntera i Schmidta (ibidem) dotyczy konsekwencji strategii doboru kwotowego dla kandydatów z preferowanej grupy mniejszości. Ich zdaniem, osoby należące do grupy mniejszości i wybrane zgodnie z systemem kwotowym, które zostałyby również wybrane, gdyby zastosować strategię indywidualizmu nieograniczonego, płacą społeczne koszty w postaci mniejszego prestiżu i mniejszej samooceny. Jest to spowodowane ogólnie niższymi wynikami kryterialnymi całej grupy mniejszości i traktowaniem wszystkich osób należących do tej grupy jako mniej wykwalifikowanych w porównaniu z odrzuconymi kandydatami z grupy większości. A to powinno uwrażliwić wszystkich decydentów na, być może, zbyt duże koszta indywidualne - w porównaniu z zyskami społecznymi - wynikające ze stosowania strategii selekcji opartej na doborze kwotowym. Literatura na temat stronniczości selekcji nie dostarcza definicji uniwersalnej, dającej się zastosować w każdej sytuacji społecznej, nawet jeżeli pojęcie uczciwej selekcji ograniczymy wyłącznie do trafności prognostycznej. Jak się wydaje, ogromną rolę w podejmowaniu decyzji dotyczących preferowanych strategii selekcji odgrywają przyjęte systemy wartości. Odwołanie się wyłącznie do procedur statystycznych nie jest tu rozwiązaniem, chyba że uznamy, iż jedynym celem selekcji jest maksymalizacja trafności prognozy wyniku kryterialnego. Ta ostatnia zasada sama w sobie jest już jednak wartością i jak przekonywał Ellett (1980), powinna również stać się przedmiotem moralnej debaty (szerzej na temat pojęcia uczciwej selekcji i modeli decyzyjnych wykorzystywanych dla potrzeb selekcji por. Anastasi, Urbina, 1999; Hornowska, 1999, 2000b). 125 Rozdział 3 Podsumowanie. Nasza refleksja na temat stronniczości testu i jego uczciwego stosowania na pozór wykracza poza obszar tradycyjnie zarezerwowany dla problematyki trafności. Jednakże zagadnienia te - co, mam nadzieję, udało się wyraźnie pokazać - są ściśle powiązane z trafnością testu, a analiza stronniczości powinna być traktowana jako element badań walidacyjnych. Badania nad stronniczością w sposób oczywisty rozszerzają nasze rozumienie trafności testu. Wczesne standardy dotyczące wymogu trafności można nazwać „wymogiem prawdziwości etykietowania" - twórca testu musiał wykazać, że test mierzy to, co z założenia ma mierzyć. Rosnące zainteresowanie testami i wadliwe ich stosowanie zwiększyły społeczny nacisk na wymóg trafności. Po to, aby można było prowadzić badania, które potwierdziłyby wnioski wyciągane na podstawie wyników testowych, badacze musieli umieć sformułować te wnioski i następnie je badać. Stało się wyraźne, że wnioski te zależą od konkretnego zastosowania testu. Już w 1971 roku Cronbach (1971) twierdził, że jeżeli wyniki testowe mają stać się podstawą decyzji (zwłaszcza selekcyjnych), to konsekwencje tych decyzji muszą być elementem badań walidacyjnych. Stąd w Standardach dla testów stosowanych w psychologii i pedagogice wydanych w 1985 roku (APA, 1985b) sformułowano już - idąc za Cronbachem (1971) - następującą dyrektywę: jeżeli test jest wykorzystywany np. do podejmowania decyzji o kierowaniu do różnych placówek (np. szkół specjalnych), należy wykazać, że idący za tym inny sposób oddziaływania stanie się skuteczny. Kluczowym pojęciem staje się skuteczność - dzieci skierowane do szkół specjalnych muszą się lepiej rozwijać tam, niż gdyby zostały w dotychczasowym środowisku. Podczas gdy tradycyjne badania walidacyjne można określić jako udowadnianie prawdziwości w etykietowaniu, współczesne można porównać do testowania nowego leku - z jednakowym naciskiem na efekty uboczne, jak i zamierzone korzyści. Problem stronniczości testów psychologicznych nie może być więc problemem ignorowanym przez psychologów. Każdy test powinien zostać obiektywnie zbadany pod tym względem za pomocą wszelkich dostępnych technik psychometrycznych i statystycznych. Jeżeli hipoteza o istnieniu stronniczości testu zostanie potwierdzona, kwestionowanej metody nie powinno się stosować przynajmniej do badania tej grupy, która jest przez nią dyskryminowana, lub powinna być ona stosowana w sposób umożliwiający kontrolowanie wyników testowania ze względu na stronniczość. Warto też pamiętać że w stronniczych testach można często zrewidować oraz wyeliminować - jeżeli nie całkowicie, to w sposób wyraźny - ich stronniczość w stosunku do konkretnej grupy społecznej. Nim jednak zdecydujemy się odrzucić jakiś test całkowicie, powinniśmy także koniecznie rozważyć, czy to co nam zostaje w zamian - a więc pozatestowe techniki szacowania - gwarantuje mniej stronnicze i bardziej uczciwe decyzje w stosunku do zdefiniowanej, 126 określonej grupy osób badanych. Trafność, czyli określanie obszaru zastosowania testu Zakończmy tę część cytatem z dzieła wielkiego filozofa: „Zane jest stare powiedzenie głoszące, iż równość czyni przyjazne uczucia między ludźmi. Słuszne jest ono i traf ne. Ale j ak taką równość znaleźć, n ie u świ a-damiamy sobie jasno, i z tego powodu wszystko straszliwie mąci się i miesza" (IV Księga Praw Platona). Podstawowe pojęcia: • dobór kwotowy • indywidualizm nieograniczony • indywidualizm ograniczony • kontaminacja kryterium • macierz wielu cech-wielu metod • stronniczość testu • trafność • trafność fasadowa • trafność kryterialna trafność diagnostyczna trafność prognostyczna • trafność teoretyczna • trafność treściowa • uniwersum treści Literatura zalecana Anastasi A., Urbina S. (1999). Testy psychologiczne. Warszawa: Pracownia Testów Psychologicznych Polskiego Towarzystwa Psychologicznego. Brzeziński J. (1996). Metodologia badań psychologicznych. Warszawa: Wydawnictwo Naukowe PWN. Guilford J.P. (1988b). Rzetelność i trafność pomiarów. Biblioteka Psychologa Praktyka. Tom II: Problemy teorii, rzetelności, konstrukcji i analizy wyników testów psychologicznych (s. 51-103). Warszawa: Polskie Towarzystwo Psychologiczne, Laboratorium Technik Diagnostycznych. Hornowska E. (1999). Stronniczość testów psychologicznych. Problemy - kierunki - kontrowersje. Poznań: Wydawnictwo Fundacji Humaniora. Jakubowski J. (1983). Elementy klasycznej teorii trafności testów psychologicznych, w: W.J. Paluchowski (red.), Z zagadnień diagnostyki osobowości (s. 223-247). Wrocław-Warszawa: Ossolineum. 127 HOZDZIAL 4 Normy, czyli nadawanie znaczenia wynikom testowym Termin „norma" zgodnie ze słownikową definicją oznacza „ustaloną, ogólnie przyjętą zasadę; regułę, przepis czy wzór" (Szymczak, 1979, tom II, s. 389). Jest to pojęcie powszechnie i wszechstronnie wykorzystywane. Możemy się z nim spotkać, mówiąc np. o normie czasu pracy, normie moralnej, normie psychicznej, normie technicznej, normie wiekowej czy wreszcie normie grupowej. Generalnie rzecz biorąc, posługując się pojęciem normy, mamy na myśli (por. Swirydowicz, 1985): a) powszechność, masowość, częstość występowania określonego zachowania (cechy) w populacji; b) zgodność z oczekiwaniami, konwencją, wzorami zachowań charakterystycznymi dla danej populacji; c) zgodność z zasadami obowiązującymi w danej populacji. Sowa (1984) wyróżnia trzy koncepcje normy: normę definiowaną przez kryterium teoretyczne, kryterium kulturowe i kryterium statystyczne. Zgodnie z kryterium teoretycznym norma wyznaczona jest przez jakąś teorię (koncepcję) psychologiczną. Zasadniczym znaczeniem terminu norma jest pewien wzór (model) wynikający z przyjętej teorii, pozostałe zaś znaczenia mieszczą się w tych ramach. Według kryterium kulturowego normę określają przepisy i wzory kulturowe. Bez względu na treść tych wzorów istotą normy jest zgodność z takim przepisem. Z kolei według kryterium statystycznego normą jest to, co jest opisywane jako „zachowanie większości" czy jako „zachowanie średnie lub przeciętne" (por. ibidem). Co zatem oznacza pojęcie „normy" na gruncie psychometrii? 128 4.1. POJĘCIE NORMY W PSYCHOMETRII Przypuśćmy, że osoba badana otrzymała w teście 20 pkt. Jest to tzw. wynik surowy (ang. raw score) otrzymany w tym teście. Czy możemy ten wynik już zinterpretować, czyli określić, jak jest on wysoki? Dopóki nie będziemy dysponować jakimś układem odniesienia, taka interpretacja nie jest możliwa. Wyniki testowe jako takie (tj. wyniki surowe) pozbawione są znaczenia psychologicznego. Nie wiemy bowiem (Matuszewski, 1984, s. 58): Normy, czyli nadawanie znaczenia wynikom testowym a) czy na tle określonej populacji otrzymany wynik surowy jest wynikiem przeciętnym, niskim czy też może wysokim; b) na ile odbiega od wyniku przeciętnego, jeżeli nie jest to wynik przeciętny; c) czy odchylenie od wyniku przeciętnego - w porównaniu z innymi osobami z populacji - jest znaczące; d) jak ocenić aktualnie otrzymany wynik w teście na tle wyników poprzednio otrzymanych przez tę osobę. Jednym ze sposobów nadawania znaczenia wynikom testowym jest odnoszenie ich do norm1. Normą - w sensie psychometrycznym -jest „standard ilościowy, wyznaczony przez średnią, medianę lub inną miarę tendencji centralnej obliczoną dla grupy przedstawicieli danego typu (gatunku)" (por. Ricks, 1993, s. 50). Mówiąc inaczej, normą jest typowe zachowanie (typowy wynik w teście) otrzymany dla określonej grupy osób. W psychometrii zatem przyjmujemy statystyczne rozumienie normy (por. wyżej). Podkreślmy wyraźnie: norma nie oznacza standardu „dobrego" wykonania testu; norma opisuje poziom typowego wykonania testu przez osoby należące do określonej grupy. Dzięki istnieniu norm możemy odpowiedzieć na pytanie „jaka jest wartość wyniku testowego otrzymanego przez osobę badaną w stosunku do wyników otrzymanych przez inne osoby" (por. Niemierko, 1975, s. 136). Co więcej, odwołanie się do norm pozwala na porównywanie ze sobą dwóch wyników testowych. Przeprowadzanie takiego porównania bezpośrednio dla wyników surowych nie jest możliwe, ponieważ każdy z nich może być wyrażony w różnych jednostkach i mógł zostać otrzymany w testach różniących się poziomem trudności (por. Anastasi, Urbina, 1999, s. 77). Dopiero przeliczenie wyników surowych na wspólną skalę pozwala na dokonanie takiego porównania. Jak pisze Jaworowska (1996, s. 10), „jeśli stosujemy test w diagnozie indywidualnej i chcemy orzekać o właściwościach psychologicznych badanego, to podstawą formułowanych wniosków jest zawsze ocena, jak ów badany wypada na tle innych osób. Wybór tła ma kluczowe znaczenie dla efektu końcowego, czyli formułowanych wniosków". Istotą normatywnej interpretacji wyników testowych jest zatem odwołanie się do sposobu wykonania danego testu przez określoną grupę osób. Grupa ta stanowi tzw. grupę odniesienia, inaczej nazywaną też grupą normalizacyjną. Wybór właściwej grupy normalizacyjnej jest istotnym czynnikiem decydującym o jakości interpretacji wyników testowych. Znaczenie grupy odniesienia Zgodnie ze Standardami... (1985a, s. 28) „normy przedstawiane w podręczniku testowym powinny zostać opracowane dla wyraźnie zdefiniowanych 1 Innym sposobem interpretacji wyników testowych jest odwoływanie się do treści, co ma miejsce w tzw. testach zorientowanych na kryterium. Zagadnienie to krótko omówimy na końcu tego rozdziału. 129 Rozdział 4 populacji. Populacje te muszą odpowiadać tym grupom osób, z którymi badający testem będzie zazwyczaj porównywał osoby badane". Co to oznacza? Oznacza to tyle, że właściwa interpretacja wyników testowych zależy od cech charakterystycznych tej grupy osób, której wyniki zostały wykorzystane do obliczenia norm. Jak piszą Gaul i Zakrzewska (1993, s. 107), „Jest rzeczą oczywistą, że struktura próby osób badanych (...) powinna, tak dalece jak jest to możliwe, odzwierciedlać strukturę populacji, dla której test ten jest przeznaczony. Innymi słowy, próba powinna być dla tejże populacji reprezentatywna". Problem polega na tym, że prosty dobór losowy, z jakim najczęściej kojarzymy pojęcie reprezentatywności, nie jest najlepszym rozwiązaniem wtedy, kiedy więcej niż jedna cecha charakteryzująca populację (np. wiek, płeć, miejsce zamieszkania czy wykształcenie) jest istotna dla badanego problemu (ibidem). Lepsze rozwiązanie w takim wypadku to dobór warstwowy lub dobór kwotowy, gwarantujący, że cechy uznane za ważne zostaną proporcjonalnie odzwierciedlone w próbie. Dobór warstwowy- mówiąc najprościej - polega na podzieleniu populacji na warstwy2 i niezależnym losowaniu określonej liczby osób z każdej warstwy (Brzeziński, 1996, s. 241). Wariant proporcjonalny losowania warstwowego dodatkowo pozwala nam na uwzględnienie proporcjonalnego wkładu każdej warstwy do całej próby. Jak piszą Frankfort-Nachmias i Nachmias (2001, s. 202), „Badacze posługują się próbą warstwową przede wszystkim po to, aby mieć pewność, że różne grupy składające się na populację są właściwie reprezentowane w próbie". Ten sposób doboru próby normalizacyjnej jest bardziej użyteczny i lepiej reprezentuje populację pod względem kryteriów podziału na warstwy niż próba wylosowana w sposób indywidualny nieograniczony (ibidem). Dobór kwotowy z kolei polega na takim doborze próby, aby uzyskać maksymalne podobieństwo do wyjściowej populacji (Frankfort-Nachmias, Nachmias, 2001, s. 199). Istotą doboru kwotowego jest określenie procentowego składu populacji i odtworzenie go w próbie. I tak jeżeli wiadomo, że 52% populacji stanowią kobiety, a 48% mężczyźni, w próbie liczącej 100 osób powinny się znaleźć dokładnie 52 kobiety oraz 48 mężczyzn. Jeżeli normy testowe mają być psychologicznie użyteczne, to w „podręczniku testowym opis próby normalizacyjnej powinien być na tyle dokładny, aby badający testem umiał ocenić jej adekwatność, biorąc pod uwagę sposób, w jaki korzysta z testu" (Standardy..., 1985a, s. 29). Normy testowe opisują bowiem poziom wykonania określonej grupy osób i w tym sensie zawsze mają charakter relatywny. Bez posiadania informacji o tym, kto tworzył 130 2 Warstwa jest to grupa osób minimalnie różniących się między sobą pod względem wartości cechy będącej kryterium podziału na warstwy. I tak np. możemy osoby podzielić na trzy homogeniczne warstwy ze względu na poziom wykształcenia. Do pierwszej warstwy będą należeć tylko te osoby, które mają wykształcenie podstawowe, do drugiej te z wykształceniem średnim, a do trzeciej - osoby z wykształceniem wyższym. Normy, czyli nadawanie znaczenia wynikom testowym grupę normalizacyjną, użytkownik testu nie może ocenić przydatności publikowanych norm do własnych celów. Podkreślmy jeszcze raz: normy testowe opisują typowy poziom wykonania testu przez ściśle określoną grupę odniesienia. Znajomość tej grupy jest kluczem do prawidłowej interpretacji wyników testowych. Ważnym czynnikiem, który musimy wziąć pod uwagę przy określaniu grupy odniesienia, jest jej wielkość. Reprezentatywność próby zależy bowiem nie tylko od procedury wyboru osób, które wchodzą w jej skład, ale także od jej wielkości (por. Magnusson, 1981, s. 361). Dlatego też w podręczniku testowym zawsze powinny się znaleźć informacje o wielkości badanej próby, a gdy próba jest zbyt mała, „należy zachować wielką ostrożność przy wykorzystywaniu danych normalizacyjnych do porównań w sytuacjach decyzyjnych" (ibidem). Kolejnym ważnym czynnikiem decydującym o jakości zebranych danych normatywnych jest ich aktualność. Jeżeli nawet odpowiednie dane testowe będące podstawą obliczenia norm zostały zebrane dla dobrze określonej grupy (lub grup), lecz miało to miejsce dawno temu, to mogą one przyczyniać się do błędnych interpretacji. Zgodnie ze Standardami... (1985b, s. 33) dane normatywne prezentowane w podręczniku testowym powinny zawierać informacje o roku, w którym zostały zebrane. Tylko wtedy każdy użytkownik testu może ocenić ich przydatność dla własnych celów. Pamiętajmy, że normy testowe starzeją się z różnych powodów. Cronbach (1990, s. 130) podaje następujący przykład dezaktualizacji norm. W jednym z testów „umiejętności strukturalizacji" zadania polegały na układaniu koła z przedstawionych dziewięciu nieregularnych elementów. W pierwszej wersji testu elementy, z których układano koło, wykonane były z aluminium. Po paru latach zastosowano elementy z cięższego drewna, bo tak było wygodniej i taniej. Norm nie zmieniono, bo autorom testu wydawało się, że niedługi czas, jaki upłynął od badań normalizacyjnych (kilka lat), nie ma w tym wypadku większego znaczenia. Tymczasem okazało się, że zasadniczo zmienił się średni czas układania zadań w tym teście: wzrósł ze 140 do 182 sekund dla tych samych osób badanych! Brak nowych norm prowadził zatem do poważnych błędów w interpretacji wyników testu. Wiedząc o tym, autorzy innego testu, testu „Szybkości i dokładności spostrzegania", obliczali nowe normy za każdym razem, gdy tylko zmieniał się arkusz odpowiedzi. Inne normy obowiązywały, kiedy na jednej stronie arkusza mieściło się 51 zadań, inne gdy 42 zadania, a jeszcze inne w trzeciej wersji, gdy na jednej stronie mieściło się 48 zadań (ibidem). Normy ogólnokrajowe Jednym ze sposobów interpretowania wyników testowych jest odwołanie się do wyników - reprezentujących z założenia - populację ogólną. I tak np. normy otrzymane w próbie, która odzwierciedla populację uczniów klas ósmych, wszystkich dorosłych Polaków, pracowników kopalń czy kobiet, są 131 Rozdział 4 normami ogólnokrajowymi. Normy tego typu są użyteczne w wypadku wszystkich rodzajów testów. Chronią one przed zbyt wąskim („zaściankowym") sposobem interpretacji wyników testowych. Umożliwiają bowiem zestawienie wyników otrzymanych przez osobę badaną z wynikami reprezentującymi populację całego kraju. Ogólnokrajowa próba normalizacyjna była podstawą w opracowaniu polskich norm m.in. dla Skali Inteligencji Wechslera WAIS-R. Badana próba została zdefiniowana kwotowo ze względu na cztery zmienne metryczkowe: wiek, płeć, miejsce zamieszkania oraz wykształcenie, i liczyła 1817 osób (Gaul, Zakrzewska, 1993, s. 107). Ostateczny kształt próby został opracowany na podstawie Mikrospisu Ludności z roku 1984, przeprowadzonego przez Główny Urząd Statystyczny. W tab. 4.1 przedstawiono szczegółowy skład próby normalizacyjnej dla Skali WAIS-R(PL). Normy ogólnokrajowe są bardzo użyteczne, mają jednak pewne ograniczenia. Nie zawsze bowiem pozwalają na uzyskanie rzeczywiście potrzebnych Tab. 4.1. Kwotowy układ polskiej próby normalizacyjnej dla testu WAIS-R(PL) (opracowano na podstawie Gaul, Zakrzewska, 1993, s. 116-117) Grupa wiekowa Płeć Miasto powyżej 100 000 mieszkańców Miasto poniżej 100 000 mieszkańców Wieś wykształcenie wykształcenie wykształcenie 1 2 3 4 1 2 3 4 1 2 3 4 16-17 M K — — 9 11 18 15 — _ 10 13 23 21 — — 9 11 32 30 18-19 M K _ 5 10 18 14 6 5 _ 2 7 20 18 7 6 — 6 27 24 14 12 20-24 M K 1 1 15 21 12 7 3 2 1 9 16 14 9 co co _ Ol 00 26 17 9 7 25-34 M K LO CO 11 16 12 8 4 4 co co 10 16 14 9 5 5 1 1 6 10 19 10 12 12 35-44 M K 7 6 10 15 10 6 00 Ol 4 3 10 13 11 6 8 11 1 1 4 5 10 5 19 21 45-54 M K 6 4 9 12 8 4 co co ro co 00 00 8 4 12 16 1 1 co co 6 2 29 33 55-64 M K 5 2 00 00 LO CO 12 18 2 1 6 4 5 2 15 21 — 2 1 3 1 38 41 65-69 M K 3 1 7 7 ro cn 12 20 1 4 3 4 1 16 21 — 1 1 2 1 45 45 70-74 M K 3 1 to to 4 2 13 21 1 co co 4 1 16 22 _ 1 1 2 47 45 Łącznie - 1817 osób Oznaczenia: 1 - pełne wyższe; 2 - pełne średnie, policealne, niepełne wyższe; 3 - średnie 132 nieukończone, zasadnicze zawodowe; 4 - podstawowe oraz brak danych. Normy, czyli nadawanie znaczenia wynikom testowym informacji. Wyobraźmy sobie, że interesuje nas to, jak na tle innych kandydatów zgłaszających się do pracy w zawodzie programisty wypada konkretna osoba. W takiej sytuacji ocena jej wyniku na tle wszystkich osób w jej grupie wiekowej mogłaby się okazać nad wyraz korzystna. Gdyby jednak ten sam wynik zestawić tylko z wynikami innych osób starających się o taką samą pracę, ocena ta mogłaby być zupełnie inna. Normy lokalne W bardzo wielu sytuacjach zatem z punktu widzenia konkretnego celu testowania użyteczniejsze są tzw. normy lokalne. Ponieważ rzadko daje się opracować normy rzeczywiście reprezentatywne dla populacji ogólnej, dlatego najczęściej oblicza się je dla wąsko zdefiniowanych populacji, odpowiadających specyficznemu wykorzystaniu danego testu. Są to właśnie normy lokalne. Przymiotniki „ogólne" i „lokalne" są terminami relatywnymi i ich znaczenie zależy od punktu zakotwiczenia. Ricks (1993, s. 50) podaje następujący przykład ilustrujący oba znaczenia: Na obu listach kategoria pojawiająca się wcześniej jest „lokalna" w stosunku do kategorii następnej. Najczęściej jako lokalne traktuje się normy opisujące najwęziej zdefiniowane grupy; w naszym przykładzie byłyby to pierwsze dwie kategorie z listy (ibidem). Normy lokalne odwołują się zatem do rozkładów częstości wyników testowych w grupach o mniejszym zakresie i są wykorzystywane dla realizacji wąsko zdefiniowanych celów. Takimi normami mogą być średnie wyniki testu wiadomości z określonego przedmiotu, uzyskane przez uczniów danego rocznika w danej szkole, czy też przeciętne wyniki uzyskiwane w testach przez kandydatów starających się o określone stanowisko w danym przedsiębiorstwie. Odwołanie się do norm lokalnych zamiast do norm ogólnokrajowych prowadzić może do zupełnie odmiennych interpretacji (patrz przykład wyżej). Dlatego też „wynik uzyskany w teście należy interpretować jako ocenę wykonania testu w określonych warunkach [i na tle określonej grupy odniesienia - przyp. E.H.], a nie jako bezwzględną właściwość badanego, dającą się uogólniać na wszelkie inne okoliczność i". To zdanie ze Standardów... (1985a, s. 79) każdy użytkownik testów powinien uznać za podstawową zasadę postępowania. szkolnictwo przemysł klasa budynek system stan lub region stanowisko pracy fabryka spółka przemysł stalowy naród cały przemysł 133 Rozdział 4 4.2. RODZAJE NORM ZE WZGLĘDU NA SPOSÓB ICH KONSTRUKCJI Istnieje wiele różnych sposobów przedstawiania norm. Do najczęściej spotykanych należą normy typu standardowego, normy typu rangowego (centyle) oraz normy typu równoważnikowego (tzw. równoważniki wieku i równoważniki klasy). Omówimy je pokrótce. Norma psychometryczna jest to standard ilościowy, wyznaczony przez liczbę osób uzyskujących dane wyniki lub przez średnią, medianę czy inną miarę tendencji centralnej, obliczoną dla przedstawicieli danej grupy. Ze względu na sposób definiowania grupy odniesienia wyróżniamy: • normy ogólnonarodowe • normy lokalne Ze względu na sposób konstrukcji wyróżniamy: • normy typu standardowego • normy typy rangowego • normy typu równoważnikowego Normy standardowe Normy standardowe powstają przez przekształcenie wyników surowych otrzymanych w teście na wyniki standardowe z. Przekształcenia tego dokonujemy według wzoru (por. np. Fergusson, Takane, 1997, s. 92): _Xj-X s gdzie: Xt oznacza wynik surowy w teście, jaki otrzymała osoba badana, X oznacza średni wynik w tym teście dla właściwej grupy odniesienia, a s oznacza odchylenie standardowe wyników tego testu w tej samej grupie odniesienia. Wyniki standardowe mają średnią równą 0 i odchylenie standardowe równe 1. Mówiąc inaczej, wynik z pokazuje nam, jak bardzo wynik surowy otrzymany przez daną osobę badaną odchyla się od średniego wyniku grupowego. Odległość ta jest wyrażona w jednostkach odchylenia standardowego (por. rys. 4.1). Znając wynik z danej osoby, możemy powiedzieć, czy jest to wynik wysoki (powyżej średniej i ile powyżej) lub niski (poniżej średniej i ile poniżej). Najbardziej przyjętą typologią wyników jest następująca klasyfikacja3: (około 2,27% populacji) (około 13,59% populacji) (około 68,26% populacji) (około 13,59% populacji) (około 2,27% populacji) wyniki bardzo niskie: -2z i poniżej wyniki niskie: -Iz do -2z wyniki przeciętne: -Iz do +lz wyniki wysokie: +lz do +2z ' c • wyniki bardzo wysokie: +2z i powyżej Jeżeli zatem nasza osoba badana otrzymałaby wynik surowy 20 pkt. i po przeliczeniu na wyniki z okazałoby się, że wynik ten odpowiada wartości 3 Każda klasyfikacja ma charakter umowny. Nic nie stoi zatem na przeszkodzie, aby wprowadzać inne typologie wyników. Tak zrobił np. Wechsler, który dokonując klasyfikacji ilorazów inteligencji, odwołał się nie do wartości odchylenia standardowego, a do tzw. błędu 134 prawdopodobnego pomiaru (por. Brzeziński, 1993; Brzeziński i in., 1996, s. 22). Normy, czyli nadawanie znaczenia wynikom testowym o i 1 (8 1 ? Normy typu standardowego otrzymuje się, stosując następującą transformację liniową: jednostka skali standardowej = {S){z) + M gdzie: M oznacza średnią nowej skali, Sjest odchyleniem standardowym nowej skali, a z to wynik standardowy, otrzymany według wzoru: X,-X z=------ s gdzie: X, oznacza wynik surowy w teście, jaki otrzymała osoba badana, X oznacza średni wynik w tym teście dla właściwej grupy odniesienia, a s oznacza odchylenie standardowe wyników tego testu w tej samej grupie odniesienia. >? Najczęściej stosuje się następujące transformacje: • T=10z+50 • sten = 2z+5,5 • stanin = 2z+5 • !Q Wechslera=15z+100 • tetron = 4z+10 Uwaga: prostego przeliczenia wyników surowych na wyniki z, a następnie na wybraną skalę standardową możemy dokonać tylko wtedy, kiedy rozkład wyników surowych jest rozkładem normalnym. Jeżeli tak nie jest, najpierw dokonujemy normalizacji rozkładu wyników surowych. 138 Czym się kierować przy wyborze skali? Już z tego krótkiego przeglądu widać, że skal standardowych jest wiele i że mają one różne właściwości. Niektóre z tych skal mają niewielki zakres (jak skala stenowa czy staninowa), inne zaś rozciągają się od -5 do +5 odchyleń standardowych wyników w rozkładzie normalnym (jak np. skala T). Niektóre są skalami długimi (skala T - 101 jednostek), inne z kolei są bardzo krótkie (skala staninowa - 9 jednostek). Na co zatem powinniśmy zwrócić uwagę, decydując się na wybór którejś z tych skal? Pierwszym kryterium, jakie powinniśmy wziąć pod uwagę, jest cel testowania. Jeżeli jest nim dobre różnicowanie w zakresie patologii (bardzo niskich lub bardzo wysokich wyników), to, rzecz jasna, wybrana przez nas skala musi obejmować swym zasięgiem krańce rozkładu normalnego. Jeżeli natomiast chcemy móc dobrze różnicować osoby mieszczące się w granicach tzw. normy (w granicach środkowych wyników), to zupełnie wystarczająca będzie skala obejmująca swoim zasięgiem środek rozkładu normalnego. Dlaczego? Przeanalizujmy rys. 4.3. Przedstawiono na nim wyniki dwóch hipotetycznych osób badanych: osoby (X), która uzyskała w teście wynik surowy Normy, czyli nadawanie znaczenia wynikom testowym Rys. 4.3. Wykorzystanie skali standardowej o szerokim zakresie wyników (Skala T) i skali standardowej o wąskim zakresie wyników (skala staninowa) do przedstawienia wyników dwóch osób (X) i (Y) 0 © °*Ł3 p 1 W N c I ? MU) 139 Rozdział 4 odpowiadający wynikowi z = 3,0, oraz osoby (Y), która otrzymała równie wysoki wynik w tym teście (z = 3,25). W sytuacji A dokonaliśmy przeliczenia wyników tych osób na Skalę T (o szerokim zasięgu), a w sytuacji B na skalę staninową (o niewielkim zakresie). I cóż się okazało? W sytuacji A pozycja zarówno osoby (X), jak i osoby (Y) została dokładnie odzwierciedlona na Skali T (mamy do czynienia z taką samą różnicą zarówno między wynikami z, jak i odpowiadającymi im wynikami T). Z kolei w sytuacji B - mimo różnicy w wynikach z - obie osoby otrzymały taki sam, najwyższy z możliwych wynik na skali staninowej. I dlatego wyrażając wynik w staninach, nie będziemy mogli ocenić, która z tych osób faktycznie otrzymała wyższy wynik. Widać zatem wyraźnie, że standardowa skala wyników o niewielkim zakresie „gubi" zróżnicowanie między tymi wynikami, które znajdują się na jej krańcach. Drugim kryterium, jakie powinniśmy wziąć pod uwagę, podejmując decyzję o wyborze konkretnej skali standardowej, jest długość testu. Reguła, która jest tu brana pod uwagę, brzmi następująco: dla krótkich testów wybieramy krótkie skale (liczące niewiele punktów), dla długich testów możemy wybrać skalę dłuższą (liczącą więcej punktów). Tym razem kierujemy się zasadą dopasowania skali wyników surowych do skali wyników przeliczonych. Gdyby bowiem skala wyników surowych była krótka (krótki test), a skala wyników przeliczonych długa, to tylko niektóre z wyników skalowych znalazłyby swój odpowiednik w wynikach surowych (por. rys. 4.4). Taki efekt końcowy może się przyczyniać do trudności w interpretacji wyników testowych, a z całą pewnością nie jest to rezultat pożądany. Dlaczego sprawdzenie zgodności rozkładu wyników surowych z rozkładem normalnym jest niezbędnym elementem procedury tworzenia norm typu standardowego? Wyniki otrzymywane przez liniowe przekształcenie jakiegoś rozkładu wyników surowych (np. wyniki standardowe) rzadko mają dokładnie określone znaczenie statystyczne. W praktyce w ogóle takich wyników nie da się zinterpretować, ponieważ względna pozycja, jaką wyznacza taki wynik, zależy całkowicie od kształtu rozkładu wyników surowych. Nie znając kształtu tego rozkładu, nie możemy wiele powiedzieć o statystycznych właściwościach otrzymanych wyników (por. Magnusson, 1981, s. 347). Można oczywiście sporządzić rozkład wyników surowych i spróbować określić jego właściwości, jednak praktycznie jest to zadanie bardzo trudne. Znacznie prościej można rozwiązać ten problem, dokonując nieliniowego przekształcenia rozkładu wyników surowych do rozkładu o już znanych właściwościach. Takim rozkładem jest np. dobrze nam znany rozkład normalny. Zabieg przekształcania rozkładu wyników surowych na rozkład normalny nazywa się normalizacją rozkładu4. Dokonując 4 Zwróćmy uwagę, że termin „normalizacja" występuje w dwóch znaczeniach: normalizacja jako procedura tworzenia norm oraz normalizacja jako nieliniowe przekształcanie rozkładu 140 wyników surowych do rozkładu normalnego. Normy, czyli nadawanie znaczenia wynikom testowym Rys. 4.4. Efekt niezgodności między długością skali wyników surowych a długością skali wyników przeliczonych Skala wyników surowych J Skala tetronowa 0 1 2 3 4 . 141 Rozdział 4 normalizacji, rozkładu wyników testowych, możemy interpretować każdy wynik standardowy zgodnie z właściwościami rozkładu normalnego. Wiemy więc np., jaki odsetek osób znajduje się powyżej lub też poniżej danego wyniku5. W taki też sposób interpretowaliśmy wyniki wyrażone w jednostkach zaprezentowanych wyżej skal standardowych. Na rys. 4.5 przedstawiono istotę zabiegu normalizacji (por. Guilford, 1964, s. 503). Jak widzimy, rozkład empiryczny jest rozkładem skośnym. Dokonując jego normalizacji, zmieniamy kształt rozkładu, nie zmieniamy jednak odpowiadających sobie pól powierzchni. I tak: powierzchnie P(l), P(2), P(3), P(4), P(5), P(6) oraz P(7) odpowiadają proporcjom powierzchni P(l'), P(2'), P(3'), P(4'), P(5'), P(6'), i P(V). Wróćmy zatem do zagadnienia tworzenia norm typu standardowego i odpowiedzmy na pytanie zawarte w tytule tego paragrafu: Dlaczego sprawdzenie zgodności rozkładu wyników surowych z rozkładem normalnym jest niezbędnym elementem procedury tworzenia norm typu standardowego? Jeżeli przy interpretacji wyniku testowego chcemy korzystać z właściwości rozkładu normalnego, to musimy się najpierw upewnić, czy rozkład wyników surowych jest zgodny z rozkładem normalnym6. Dopiero potem możemy dokonywać liniowej transformacji wyników z na dowolnie wybraną skalę standardową. Normalizacja rozkładu. Co zatem trzeba zrobić wtedy, kiedy otrzymany rozkład wyników surowych nie jest rozkładem normalnym? Czy fakt ten uniemożliwia nam korzystanie z norm typu standardowego? Oczywiście nie! Jednakże procedura tworzenia norm jest nieco bardziej złożona. Zanim bowiem będziemy mogli dokonać liniowego przekształcenia wyników z na określoną skalę standardową, musimy najpierw dokonać normalizacji rozkładu. Na czym praktycznie polega procedura normalizacji? Przeanalizujmy następujący przykład. Chcemy obliczyć normy dla stworzonego przez nas testu liczącego 12 zadań. Przebadaliśmy w tym celu 40 osób7 i otrzymaliśmy wyniki, które przedstawia w tab. 4.2 (por. też Magnusson, 1981, s. 347-349; Brzeziński, 1996, s. 540). W kolumnie (1) znajdują się uporządkowane, kolejne wyniki surowe, jakie można było otrzymać w naszym teście. Kolumna (2) zawiera proste liczebności otrzymanych wyników (jest to rozkład empiryczny wyników surowych), a kolumna (3) rozkład skumulowany. W kolumnie (4) wprowadzono tzw. poprawkę na ciągłość. Ponieważ wyniki naszego testu są wynikami dyskretnymi (są to kolejne wartości ze zbioru 142 5 Inny rodzajem przekształcenia nieliniowego jest przekształcenie wyników w skalę cen-tylową dającą rozkład prostokątny. Skalę tę omawiamy dalej w tym rozdziale. 6 Istnieje wiele testów pozwalających nam ocenić zgodność empirycznego rozkładu wyników z założonych rozkładem teoretycznym (tu: normalnym). Takim testem może być np. test zgodności chi2 (por. Domański, 1979). 7 Pamiętajmy, że próba normalizacyjna powinna być też próbą odpowiednio liczebną (por. wyżej). Tylko dlatego, aby przedstawiony przykład był wystarczająco czytelny, ograniczono liczbę badanych osób do 40. Normy, czyli nadawanie znaczenia wynikom testowym 8 5 a o o 3 a ! a ? i ! ! o 8 | « ST '"??••,.. '????... '??"-, "V liczb całkowitych), a rozkład normalny jest rozkładem zmiennej ciągłej, powinniśmy to uwzględnić w dalszych obliczeniach. Poprawkę na ciągłość oblicza się według następującej reguły: do skumulowanej liczebności poniżej 143 Rozdział 4 danego wyniku surowego dodaje się połowę liczebności dla danego wyniku (obliczamy w ten sposób liczebności, uwzględniając środek każdego przedziału). I tak np. dla wyniku surowego 3 dokonujemy następujących obliczeń: poniżej tego wyniku liczebność skumulowana (czyli ej) wynosi 3, a połowa prostej liczebności (czyli j) dla tego wyniku wynosi 1 (2/2=1). Zatem suma obu tych wartości wynosi 3+1=4. Dla każdej poprawionej w ten sposób liczebności skumulowanej obliczamy następnie skumulowaną proporcję (p), dzieląc wartości z kolumny (4) przez liczbę badanych osób (AO. Wreszcie z tablic dystrybuanty rozkładu normalnego (np. Greń, 1974) odczytujemy wyniki z odpowiadające kolejnym proporcjom skumulowanym. I na koniec dokonujemy przeliczenia wyników z na wybraną skalą standardową. W naszym przykładzie wyniki zostały przeliczone na trzy skale standardowe: skalę stenową, tetronową i skalę T (dociekliwy Czytelnik będzie mógł sam ocenić, co dzieje się wtedy, kiedy wyniki krótkiego testu są przeliczane na długą skalę wyników przeliczonych). Tab. 4.2. Przykład normalizacji rozkładu oraz obliczania norm typu standardowego (na podstawie Magnusson, 1981, s. 347-349; Brzeziński, 1996, s. 540) (1) (2) (3) (4) (5) (6) (7) (8) O) ws 1 cf cf poniżej danego wiersza + 0,5f dla danego wiersza P z Steny Tetrony T 1 1 1 0,5 0,0125 -2,24 1 1 28 2 2 3 2,0 0,05 -1,64 2 3 34 3 2 5 4,0 0,1 -1,28 3 5 37 4 4 9 7,0 0,175 -0,93 4 6 41 5 5 14 11,5 0,2875 -0,56 4 8 44 6 5 19 16,5 0,4125 -0,22 5 9 48 7 6 25 22,0 0,55 0,13 6 11 51 8 4 29 27,0 0,675 0,45 6 12 55 9 4 33 31,0 0,775 0,66 7 13 57 10 3 36 34,5 0,8825 1,09 8 14 61 11 3 39 37,5 0,9375 1,53 9 16 65 12 1 40 39,5 0,9875 2,24 10 19 72 Podsumowanie. Zbierzmy zatem wszystko, co powiedzieliśmy o tworzeniu norm typu standardowego. Normy tego typu pozwalają nam na interpretowanie wyniku otrzymanego w teście przez odwołanie się do właściwości rozkładu normalnego. Dlatego aby taka interpretacja była uzasadniona, musimy się upewnić, czy rozkład wyników surowych jest rozkładem normalnym. Zazwyczaj jest tak rzeczywiście, jednak czasami rozkład wyników surowych jest rozkładem 144 Normy, czyli nadawanie znaczenia wynikom testowym na tyle skośnym, że nie możemy go uznać za wystarczające dobre przybliżenie rozkładu normalnego. W takiej sytuacji powinniśmy najpierw dokonać normalizacji rozkładu, a dopiero potem skorzystać z możliwości liniowego przekształcenia odczytanych wyników z na wyniki wybranej skali standardowej. Kolejne etapy postępowania przy tworzeniu norm przedstawiono na rys. 4.6. Rys. 4.6. Etapy procedury normalizacji Etapi Przebadać testem dobrze zdefiniowaną grupę osób (tzw. grupę normalizacyjną) Etap 2 Sporządzić rozkład wyników surowych ? < Etap 3 Sprawdzić, czy rozkład wyników surowych jest rozkładem normalnym TAK / \ NIE Etap 4 Dokonać liniowej transformacji wyników surowych na odpowiadające im wyniki „z" Etap 4 Dokonać normalizacji rozkładu za pomocą transformacji nieliniowej 1 1 Etap 5 Dokonać liniowej transformacji wyników „z" na wyniki wybranej skali standardowej Etap 5 Odczytać wyniki „z" odpowiadające odpowiednim wartościom pola pod krzywą normalną i t Etap 6 Dokonać liniowej transformacji wyników „z" na wyniki wybranej skali standardowej 145 Rozdział 4 146 Na koniec podkreślmy, że korzystanie z norm jest niezbędne wtedy, kiedy dokonujemy diagnozy indywidualnej bądź chcemy dokonywać porównań wewnątrzgrupowych. Jeżeli natomiast naszym celem jest dokonanie prostej selekcji (mamy przyjąć określoną liczbę kandydatów), to możemy odwołać się do wyników surowych i przyjąć tych, którzy uzyskali najwyższe wyniki w teście (pamiętajmy jednak, że wykorzystywany w tym celu test musi być trafny, i nie wolno wam tego zaniedbać!). Podobnie postępujemy również prowadząc badania naukowe (por. Magnusson, 1981, s. 362; Brzeziński, 2000, s. 414). Normy rangowe Innym sposobem przedstawiania wyników testowych jest ich przedstawianie w postaci tzw. centyli. C e n t y 1 to punkt na skali, poniżej którego leży określony odsetek rozkładu (Magnusson, 1981, s. 352). Podobnie jak inne miary położenia (np. mediana), centyle stanowią wygodne punkty odniesienia przy opisywaniu danego rozkładu wyników surowych i przy porównywaniu go z innymi rozkładami. Przypuśćmy, że w naszych badaniach okazało się, iż na 40 zbadanych osób 2 osoby były lepsze od osoby A, a 37 osób otrzymało wyniki gorsze niż osoba A. Jeżeli osobę A (i wszystkie inne osoby mające taki sam wynik jak ona) przydzielimy arbitralnie to jednej z dwóch grup: lepszych bądź gorszych od niej, to otrzymamy: 2,5 przypadka w grupie lepszych oraz 37,5 przypadka w grupie gorszych. Ponieważ 37,5 z 40 stanowi 94%, możemy powiedzieć, że wynik osoby A jest równy 94. centylowi. Innymi słowy, oznacza to tyle, że w badanej grupie 94% osób otrzymało wyniki gorsze od naszej osoby badanej (Cronbach, 1990, s. 110). Zwróćmy także uwagę, że przy takim sposobie obliczania centyli osoba, która wypadnie najlepiej, nie otrzyma wyniku centylowego równego 100. Jeżeli bowiem 2 osoby otrzymałyby 40 pkt., to jedną z nich przydzielamy do grupy gorszych, a drugą do grupy lepszych od niej. Wówczas każda z tych osób otrzyma wynik centylowy równy 97,5 (100x39/40). Gdyby wynik równy 40 otrzymała tylko jedna osoba, odpowiadający mu centyl wynosiłby 98,75 (100 x 39,5/40)8. Jeżeli przeliczamy wyniki surowe na centyle w taki właśnie sposób, osoba znajdująca się dokładnie w środku rozkładu zostanie opisana za pomocą 50. centyla. Centyl 50 odpowiada medianie rozkładu. W tym sensie możemy powiedzieć, że 50 centyl opisuje poziom wykonania testu przez „typową" osobę badaną. Jak zatem szybko można obliczyć centyle? Przeanalizujmy ponownie tab. 4.2, w której przedstawiliśmy sposób obliczania norm typu standardowego. Zaczynamy tak samo - od sporządzenia rozkładu częstości wyników surowych (kolumna 2), następnie kumulowanego rozkładu częstości (kolumna 3), poprawionego rozkładu kumulowanego (kolumna 4) do obliczenia proporcji (kolumna 5). Centyle otrzymamy, przeliczając proporcje na procenty, i dla ułatwienia wyrażamy je w postaci liczb całkowitych (por. tab. 4.3). 8 Ten zabieg przydzielania, w jednakowej proporcji, osób badanych do grupy lepszych i gorszych odpowiada poprawce na ciągłość (por. wyżej). Normy, czyli nadawanie znaczenia wynikom testowym Tab. 4.3. Przykład obliczania norm typu centylowego (na podstawie Magnusson, 1981, s. 352; Brzeziński, 1996, s. 540). * . (1) (2) (3) (4) (5) (6) ws f cf cł poniżej danego wiersza + 0,5f dla danego wiersza P Centyle (C) 1 1 1 0,5 0,0125 1 2 2 3 2,0 0,05 5 3 2 5 4,0 0,1 10 4 4 9 7,0 0,175 18 5 5 14 11,5 0,2875 29 6 5 19 16,5 0,4125 41 7 6 25 22,0 0,55 55 8 4 29 27,0 0,675 68 9 4 33 31,0 0,775 78 10 3 36 34,5 0,8825 88 11 3 39 37,5 0,9375 94 12 1 40 39,5 0,9875 99 Chociaż centyl definiowany jest jako odsetek, nie jest tym samym co powszechnie stosowane wyniki procentowe. W pierwszym wypadku mówimy bowiem o odsetku osób, które znajdują się poniżej jakiegoś punktu na skali, w drugim zaś odsetek to wynik surowy, dotyczący poprawnie rozwiązanych zadań. Skala centylowa pozwala na ocenę wyniku danej osoby w stosunku do wyników innych osób należących do określonej populacji. Są to wyniki czytelne, i dlatego chętnie stosowane. Problem polega jednak na tym, że skala centylowa nie odzwierciedla kształtu rozkładu wyników surowych. Rozkład otrzymywany w rezultacie przeliczenia wyników surowych na odsetki jest prostokątny - niezależnie od kształtu wyjściowego rozkładu wyników (por. Magnusson, 1981, s. 353). Rozkład prostokątny to inaczej rozkład równoprawdopodobny, czyli rozkład, w którym wszystkie wartości zmiennej pojawiają się z tym samym prawdopodobieństwem. Na rys. 4.7 przedstawiono rozkład prostokątny z naniesionymi nań centylami. Jak widać, wszystkie pola powierzchni rozkładu prawdopodobieństwa, odpowiadające kolejnym wynikom, są sobie równe i wynoszą 1%. Nie dotyczy to tylko dwóch skrajnych części. Pole każdej skrajnej powierzchni wynosi bowiem 0,5%. Skala centylowa liczy 101 jednostek (0 jest początkiem skali) i podział na 101 równych jednostek prowadziłby do tego, że pole całkowite nie sumowałoby się do 100% (por. Matuszewski, 1984, s. 64). 147 Rozdział 4 Rys. 4.7. Skala centylowa (opracowano na podstawie Matuszewski, 1984, s. 64) 148 0,5% 1,0% 1,0% 1,0% 1,0% 0,5% CENTYL 0 >? Normy centylowe obliczamy według następującego wzoru: Centyl{Q= N 100% gdzie: cf oznacza liczebność kumulowaną, f - prosta liczebność, a W - liczbę badanych osób. CENTYL1 CENTYL 2 Skala centylowa ma jednak i inne wady. Jeżeli rozkład wyników surowych jest rozkładem normalnym, to skala centylowa prowadzi do przeceniania wielkości różnic pośrodku rozkładu, a niedocenianiu ich na krańcach tego rozkładu (ibidem). W rozkładzie normalnym bowiem najwięcej wyników lokuje się w środku rozkładu. Dlatego też różnice między wynikami skupiającymi się w środku rozkładu mogą w rzeczywistości być niewielkie, lecz nawet najmniejsze różnice zostaną odzwierciedlone w centylach. Z kolei na krańcach rozkładu, gdzie rzeczywiste różnice między wynikami mogą być duże, będą one odzwierciedlone jedynie przez małe różnice między centylami. Efekt ten przedstawiono na rys. 4.8. Normy centylowe są normami typu rangowego (porządkowego). Oznacza to, że normy tego typu dobrze odzwierciedlają uporządkowanie osób badanych w grupie normalizacyjnej, nie odzwierciedlają natomiast względnych różnic między tymi osobami. Jednym z rozwiązań tego problemu może być sporządzanie tzw. siatki centylowe j, w której centyle są tak rozmieszczone, aby odpowiadały równym odległościom w rozkładzie normalnym (por. Anastasi, Urbina, 1999, s. 91). Siatka centylowa poprawnie odzwierciedla rzeczywiste różnice między wynikami osób badanych. Na rys. 4.9 przedstawiono wyniki czterech osób badanych. Różnica w wynikach centylowych między osobą A i B oraz między osobą C i D jest taka sama i wynosi 10 pkt., co nie CENTYL 98 CENTYL 99 CENTYL100 Rys. 4.8. Związek miedzy centyiami a rozkładem normalnym (opracowano na podstawie Cronbach, 1990, s. 112) -3z skala wyników surowych skala centylowa 10 20 30 40 50 60 70 80 90 mm i Mediana 99 O o N m Z o w O Rozdział 4 odpowiada rzeczywistej wielkości różnicy między nimi. Siatka centylowa pozwala to zróżnicowanie uchwycić (por. rys. 4.9). Rys. 4.9. Siatka centylowa obrazująca możliwość porównywania dwóch wyników wyrażonych w centy lach (opracowano na podstawie Anastasi, Urbina, 1999, s. 91) o S V) 3> J 4 90 80 70 60 50 40 30 20 10 d,• Normy typu równoważnikowego to inaczej normy rozwojowe. • Równoważniki wieku to liczby wskazujące na kolejny rok i miesiąc życia badanych osób, odpowiadające średniej arytmetycznej lub medianie wykonania testu na danym etapie rozwoju. • Równoważniki klasy to liczby wskazujące na rok i miesiąc nauczania w roku szkolnym, odpowiadające średniej arytmetycznej Tub medianie wykonania testu na danym etapie rozwoju. Krytyka norm typu równoważnikowego. Najpoważniejsze zastrzeżenia wobec norm typu równoważnikowego można sformułować następująco (por. też Crocker, Algina, 1986, s. 450-451; Cohen, Swerdlik, 1999, s. 122-123): a) podstawowe zastrzeżenie dotyczy tego, że normy tego typu zakładają liniowy związek między wiekiem (rokiem nauczania) a mierzoną funkcją. Wiele danych wskazuje jednak na to, że jest to założenie kontrfaktyczne, i to nie tylko w grupie osób dorosłych (co raczej oczywiste), ale także w grupie dzieci (por. np. Sattler, 1974); 152 Normy, czyli nadawanie znaczenia wynikom testowym b) normy tego typu prowadzą do większych nieporozumień niż normy standardowe, zwłaszcza wśród nieprofesjonalistów. Załóżmy np., że osoba badana otrzymała pod koniec nauczania w klasie 7 wynik równy 8,3 w matematyce i fizyce. Wynik ten należy zinterpretować następująco: osoba badana, biorąc pod uwagę zadania właściwe dla klasy siódmej.rozwiąza-łaje tak, jak rozwiązuje je typowy uczeń klasy ósmej, w trzecim miesiącu nauczania. Nie oznacza to jednak, że ta sama osoba badana wypadłaby identycznie wtedy, kiedy rozwiązywałaby test przeznaczony dla uczniów klas ósmych. Sformułowanie wyniku w taki sposób może jednak prowadzić do niesłusznego przekonania, że badana osoba zdoła sobie poradzić z materiałem właściwym dla innego poziomu nauczania czy innego poziomu wieku; c) trudno porównywać równoważniki klasy otrzymane dla tej samej osoby, ale dla różnych obszarów zachowania. I tak np. wynik 4-2 w matematyce i 4-2 w języku polskim świadczyłby o jednakowej biegłości w obu przedmiotach nauczania. To jednak niekoniecznie musi być prawdą. Przeliczenie tych samych wyników np. na centyle może pokazać, że w pierwszym przypadku wynik ten odpowiada 65. centylowi, a w drugim 45. centylowi. Widać zatem wyraźnie, że pozycja osoby badanej w grupie normalizacyjnej jest inna dla matematyki (powyżej przeciętnej) i inna dla języka polskiego (poniżej przeciętnej). Dlatego też niektórzy specjaliści w dziedzinie pomiaru psychologicznego zaapelowali o moratorium na stosowanie norm typu równoważnikowego. I tak np. Cronbach (1970, s. 98) opisuje normy tego typu jako archaiczne. Uważa on, że „równoważniki klasy nigdy nie powinny być wykorzystywane ani do oceny ucznia, ani klasy, ani też nie powinny być stosowane w badaniach naukowych. Lepszym sposobem przedstawiania wyników jest od- Tab. 4.4. Wady i zalety norm typu równoważnikowego (opracowano na podstawie Niemierko, 1975; Crocker, Algina, 1986; Cohen, Swerdlik, 1999) Zalety Wady • osiągnięcia badanych są traktowane rozwojowo • rok szkolny i rok życia stanowią naturalne, dobrze znane wszystkim użytkownikom testów jednostki miary • równoważniki klasy bądź wieku pokazują opóźnienia bądź przyspieszenie w uczeniu się albo w stosunku do średnich osiągnięć uczniów tej samej klasy, albo w stosunku do rówieśników • normy te można dostosować do każdego miesiąca nauki • przyjmuje się w nich założenie o równomiernym rozwoju • bywają podstawą zbyt daleko idących uogólnień • bywają mylnie uważane za opis zakresu wymagań programowych • wartość norm typu równoważnikowego zależy od przedmiotu nauczania i polityki władz szkolnych • normy takie nadają się tylko do niektórych treści nauczania • ustalanie ich jest pracochłonne i kosztowne 153 Rozdział 4 woływanie się do centyli lub norm standardowych. Podobnie i równoważniki wieku mogą prowadzić do błędnych interpretacji". W tab. 4.4 zestawiono wady i zalety norm typu równoważnikowego. 4.3. INTERPRETACJA WYNIKÓW TESTÓW ZORIENTOWANYCH NA KRYTERIUM W poprzednim paragrafie przedstawiliśmy jeden z możliwych sposobów interpretacji wyników testowych, a mianowicie: nadawanie znaczenia wynikowi testowemu przez odnoszenie go do innych wyników otrzymanych w tym samym teście. Ten sposób interpretacji wyników testowych nazywa się interpretacją normatywną czy zorientowaną na normy (ang. norm--referenced). W przeciwieństwie do podejścia normatywnego, podejście zorientowane na kryterium (ang. criterion-referenced) nie opisuje poziomu wykonania testu w stosunku do innych osób z grupy normalizacyjnej. Wyniki testowe są interpretowane ze względu na pewne kryterium czy poziom wykonania13. Przykładów takich interpretacji można podać wiele. Np. nauczyciel w szkole może chcieć poznać, jakie konkretne umiejętności opanowali jego uczniowie, a przedstawiciel linii lotniczych może przyjmować do pracy tylko tych kandydatów na pilotów, którzy uzyskali odpowiedni poziom w testach sprawnościowych, itd. Kryterium będące podstawą oceny indywidualnego wyniku otrzymanego w teście jest zazwyczaj pochodną wartości czy standardów uznawanych przez daną jednostkę lub organizację. Linie lotnicze nie są zainteresowane tym, na ile dobrze - na tle innych kandydatów na pilotów - wypadła osoba badana. Aby zapewnić bezpieczeństwo swoim pasażerom, przyjmą do pracy wyłącznie tych, którzy spełniają określone minimum w zakresie funkcji uznanych za ważne. Jeżeli w badanej grupie nikt nie spełniłby takiego kryterium, nikt też nie zostałby przyjęty bez względu na to, jak dobrze wypadł na tle pozostałych osób. Ten sposób interpretacji wyników testowych bywa różnie nazywany w literaturze przedmiotu. Używa się tu takich określeń, jak „odwołanie się do treści" czy „odwołanie się do celów kształcenia"w. Istotą takiego podejścia jest bowiem nacisk na konkretny zakres wiedzy czy umiejętności. To nie grupa normalizacyjna jest tu punktem odniesienia, a dobrze zdefiniowany zakres wymagań. Anastasi i Urbina (1999, s. 111) proponują, aby w miejsce terminu interpretacja zorientowana na kryterium wprowadzić określenie interpretacja 154 13 Problematyka dotycząca testów zorientowanych na kryterium jest tak obszerna, że może być przedmiotem odrębnej książki. Czytelnika szerzej zainteresowanego tą problematyką odsyłam do pracy Berka (1984). 14 Termin „interpretacja zorientowana na kryterium" został wprowadzony przez Glasera (1963). Normy, czyli nadawanie znaczenia wynikom testowym „zorientowana na standard wykonania". Ich zdaniem to drugie określenie jest określeniem budzącym najmniej niepożądanych skojarzeń15. W testach zorientowanych na standard wykonania „wyniki osoby badanej opisuje się, np. wskazując na specyficzne operacje matematyczne, jakie opanowała, szacowany rozmiar jej słownika, poziom trudności lektur, jakie jest w stanie zrozumieć (...) lub szansę osiągnięcia określonego poziomu wykonania w zakresie zewnętrznego kryterium (edukacyjnego lub zawodowego)" (ibidem). Ogólnie rzecz biorąc, można powiedzieć, że interpretacja zorientowana na standard wykonania dostarcza informacji o tym, c o osoby badane potrafią zrobić, zaś interpretacja zorientowana na normy mówi o tym, jak osoby badane są oceniane na tle innych osób do nich podobnych (należących do tej samej grupy normalizacyjnej). Istotą interpretacji zorientowanej na standard wykonania jest zatem odwołanie się do kategorii treściowych. Dlatego też podstawowym wymaganiem przy tego rodzaju interpretacji wyników testowych jest staranne zdefiniowanie - w kategoriach treści - tego, co jest przedmiotem pomiaru (standardu wykonania). Oczywiście, w zależności od celu testowania standard ten będzie mniej lub bardziej szeroko określany. W testach diagnostycznych cele te są zazwyczaj węższe (np. poprawne rozpoznawanie słowa składającego się z rdzenia i przedrostka), natomiast w testach oceniających osiągnięcia pod koniec roku nauczania - szersze (np. stopień rozumienia tekstu naukowego - por. Hambleton, Rogers, 1991, s. 5). Interpretację zorientowaną na standard wykonania stosuje się przede wszystkim w testach biegłości i w testach osiągnięć. Jest ona powszechnie wykorzystywana w programach kształcenia wspomaganych komputerowo, w których przejście do następnego poziomu nauczania jest uwarunkowane wcześniejszym opanowaniem odpowiedniego zakresu materiału. Często stosowana jest także w pedagogice przy określaniu tego, czy uczeń opanował podstawowe umiejętności czytania, pisania lub liczenia. Testy tego typu służą również do oceny poziomu opanowania umiejętności niezbędnych do pracy w armii, straży pożarnej, policji czy innych służbach tego typu, a także wszędzie tam, gdzie otrzymanie licencji (lub prawa wykonywania określonego zawodu) wymaga osiągnięcia określonych kompetencji16. _________________ 15 Warto w tym miejscu wspomnieć, że w Standardach... (1985a, s. 27) wprowadzono rozróżnienie między testami zorientowanymi na treść (ang. content-referenced) i testami zorientowanymi na kryterium (ang. criterion-refrenced). W testach zorientowanych na treść „wynik jest interpretowany bezpośrednio w terminach poziomu wykonania testu, w każdym punkcie mierzonego kontinuum" {ibidem), zaś w testach zorientowanych na kryterium „wynik testu jest interpretowany bezpośrednio w terminach poziomu wykonania w danym punkcie kontinuum, tworzonego przez jakąś zmienną zewnętrzną w stosunku do testu. Zmienną taką mogą tworzyć np. średnie oceny szkolne lub poziom wykonywania zadań wynikających z podjętej pracy" (ibidem). Podobne rozróżnienie wprowadza Cronbach (1990, s. 105) 16 W Stanach Zjednoczonych ta zasada dotyczy około 900 zawodów (Hambleton, Rogers, 1991, s. 3). 155 Rozdział 4 Entuzjaści oceniania wyniku testowego z punktu widzenia pewnego standardu wykonania podkreślają, że - zwłaszcza w edukacji - otrzymują w ten sposób informacje pozwalające im indywidualnie traktować każdego ucznia. Uczeń, który w trakcie roku szkolnego poprawi swoje wyniki, może zostać niedoceniony, jeżeli w typowym teście zorientowanym na normy ciągle wypada poniżej średniej. Test zorientowany na standard wykonania pozwoli uchwycić taką zmianę (np. Hambleton, Rogers, 1991, s. 4-5). Krytycy twierdzą natomiast, że odwoływanie się wyłącznie do standardu wykonania prowadzi do utraty ważnych informacji, jakimi są dane o relatywnej pozycji badanej osoby w grupie odniesienia. I chociaż dane odnoszące się do standardu wykonania są niewątpliwie przydatne, jeżeli chodzi o ocenę poziomu opanowanej wiedzy czy umiejętności, to nie da się ich odnieść do maksymalnego poziomu wykonania (trudno np. na tej podstawie prognozować, jakie mogą być przyszłe osiągnięcia osoby badanej w dziedzinie mierzonej przez test). Co więcej, normy tego typu, jak pisze Niemierko (1975, s. 160), omawiając testy osiągnięć szkolnych, „są obciążone istotnym brakiem w postaci subiektywizmu, to jest zależności od osobistych poglądów dydaktycznych ich twórcy. Wprawdzie subiektywizm można zmniejszyć przez powierzenie analiz treści większej liczbie - pracujących niezależnie - specjalistów, mimo to pozostanie on znaczny tak długo, jak długo programy nauczania będą nasuwały wątpliwości co do wymagań". Interpretacja zorientowana na kryterium (standard wykonania) to taki sposób oceny wyniku testowego, w którym nacisk kładzie się na konkretny zakres wiedzy czy umiejętności. Dostarcza ona informacji o tym, c o osoby badane potrafią zrobić, w odróżnieniu od interpretacji zorientowanej na normy, która mówi o tym, jak osoby badane są oceniane na tle innych osób do nich podobnych (należących do tej samej grupy normalizacyjnej). Wszystkie testy są w gruncie rzeczy testami odwołującymi się do norm, a „normatywny układ odniesienia jest zawarty implicite w każdym badaniu testowym, bez względu na to, w jaki sposób wyraża się wyniki" (Anastasi, Urbina, 1999, s. 116; też Cohen, Swerdlik, 1999). To bowiem, co jest przedmiotem pomiaru, zależy od naszej wiedzy o tym, czego można oczekiwać na danym etapie rozwoju, a także naszej decyzji dotyczącej tego, jaki zakres wiedzy czy umiejętności powinien zostać uznany za standard wykonania (a ta decyzja ma już charakter normatywny). Podstawowe pojęcia: • grupa odniesienia • normalizacja rozkładu • normy 156 • normy lokalne Normy, czyli nadawanie znaczenia wynikom testowym normy ogólnokrajowe normy typu rangowego centyle normy typu równoważnikowego równoważniki klasy równoważniki wieku normy typu standardowego przekształcenie liniowe przekształcenie nieliniowe skala ilorazów inteligencji skala staninowa skala stenowa skala T skala tetronowa Literatura zalecana Anastasi A., Urbina S. (1999). Testy psychologiczne. Warszawa: Pracownia Testów Psychologicznych Polskiego Towarzystwa Psychologicznego. Brzeziński J. (1996). Metodologia badań psychologicznych. Warszawa: Wydawnictwo Naukowe PWN. Matuszewski, A. (1984). Interpretacja formalna wyników w testach psychologicznych, w: J. Brzeziński (red.), Wybrane zagadnienia z psychometrii i diagnostyki psychologicznej (s. 47-72). Poznań: Wydawnictwo Naukowe UAM. Ricks J.H. (1993). Normy lokalne - kiedy i dlaczego? w: J. Brzeziński, E. Hornowska (red.), Z psychometrycznych problemów diagnostyki psychologicznej (s. 49-58). Poznań: Wydawnictwo Naukowe UAM. • 157 Rozdział 5 158 KONSTRUOWANIE TESTU — PODSTAWOWE PROCEDURY Każdy test składa się z pozycji testowych. Pozycje te można scharakteryzować za pomocą takich samych kategorii pojęciowych, jak cały test. I tak np. pytanie „Czy często miewasz zmienne nastroje?" ma swoją własną punktację (powiedzmy „0" dla odpowiedzi „nie" i „1" dla odpowiedzi „tak"), i może okazać się pytaniem nierzetelnym (te same osoby pytane w różnych momentach dają różne odpowiedzi), może być pytaniem nietrafnym (odpowiedź „tak" lub „nie" może wskazywać na zupełnie inną cechę psychologiczną niż ta, o którą nam chodziło), wreszcie może być pozycją stronniczą (osoby należące do różnych grup społecznych mogą częściej udzielać jednej lub drugiej kategorii odpowiedzi). Stwierdzenie, że dobry test powinien składać się z dobrych pozycji testowych, może się wydawać truizmem. Jednakże - o czym świadczy wcale nie taka mała liczba przykładów - etap budowy testu bywa niedoceniany. Jakość całego testu zależy od jakości jego elementów składowych, czyli właśnie pozycji testowych. Posiadanie odpowiedniej wiedzy na temat przedmiotu pomiaru nie wystarczy do tego, aby tworzenie testu zakończyło się sukcesem. Zbudowanie dobrego testu to proces wymagający dobrej znajomości obowiązujących w tym zakresie procedur. W niniejszym rozdziale przedstawimy podstawowe zasady obowiązujące w tej dziedzinie. Mówiąc najkrócej, budowanie testu rozpoczynamy od konceptualizacji tego, co ma być przedmiotem pomiaru (definiujemy mierzoną cechę oraz dokonujemy jej operacjonalizacji). Następnie formułujemy dużą pulę pozycji testowych, którą poddajemy analizie językowej i treściowej. Odrzucając pozycje, które nie spełniają przyjętych kryteriów, tworzymy pierwszą, eksperymentalną wersję testu. Po przeprowadzeniu badań pilotażowych i obliczeniu statystycznych właściwości poszczególnych pozycji podejmujemy decyzję, które z nich nadają się do ostatecznej wersji budowanego przez nas narzędzia. Analiza statystyczna pozycji testowych pozwoli nam ocenić, które pozycje testowe nie wymagają już żadnych zmian, które należy poddać rewizji, a które całkowicie zmienić. Poprawioną pierwszą wersję testu ponownie sprawdzamy w badaniach pilotażowych. Jeżeli okaże się, że pozycji testowych spełniających nasze wymagania jest zbyt mało, rozpoczynamy całą procedurę właściwie od początku, tj. od zbudowania nowej puli pozycji testowych. Na rys. 5.1 przedstawiono kolejne etapy tworzenia testu. Rys. 5. Konstruowanie testu - podstawowe procedury 1. Etapy tworzenia testu Etapi Zdefiniowanie mierzonej właściwości i jej operacjonalizacja Etap 2 Określenie formatu bodźca i formatu odpowiedzi Etap 3 Generowanie pozycji testowych i inki Etap 4 Analiza językowo-treściowa pozycji e wan 1 zbyt mała liczba pozycji spełnia założon Etap 5 Ustalenie klucza odpowiedzi ; S* Etap 6 ^^N \. Badanie pilotażowe ^^S Etap 7 Obliczenie wybranych wskaźników statystycznych dla wszystkich pozycji testu Etap 8 Zbudowanie ostatecznej wersji testu 1 cn i Rozdział 5 160 5.1. OD CZEGO ZACZYNAMY? Zanim przystąpimy do tworzenia pozycji testowych, musimy sobie odpowiedzieć na dwa podstawowe pytania: czemu ma służyć tworzony przez nas test? oraz: jak definiujemy obszar interesujących nas zachowań? Określanie celu pomiaru Pierwszym zadaniem, jakie stoi przed autorem nowego testu, jest określenie tego, czemu ma służyć test. Wyobraźmy sobie np., że chcemy skonstruować test kompetencji społecznych. Test ten może być przeznaczony dla celów selekcyjnych (wybieramy na jego podstawie osoby, które przyjmiemy do szkoły kształcącej przyszłych pracowników socjalnych), może być podstawą decyzji kadrowych (wpłynie na to, że będziemy awansować pracowników) bądź testem diagnostycznym (pomoże nam określać indywidualny zakres kompetencji społecznych jednostki). Trudno sobie wyobrazić, aby jeden test jednakowo dobrze realizował wszystkie trzy cele. Test, którego wyniki mają być podstawą selekcji, powinien dobrze różnicować w zakresie wysokich kompetencji społecznych, z kolei test przeznaczony do diagnozy indywidualnej powinien jednakowo dobrze różnicować na całym kontinuum mierzonej właściwości (a więc zarówno w zakresie niskich, jak i wysokich kompetencji). I podobnie, treść pozycji testowych powinna być inna wtedy, kiedy interesuje nas badanie osób, które starają się o przyjęcie na specjalistyczny kurs, a inna wtedy, kiedy chcemy określać indywidualne możliwości każdej osoby i np. planować na tej podstawie dalsze działania terapeutyczne. Jasne określenie celu głównego obszaru zastosowania testu i hierarchii decyzji, jakie będą podejmowane na podstawie jego wyników testowych, w dużym stopniu zwiększa nasze szansę na to, że ostateczna wersja testu spełni nasze oczekiwania. Określanie obszaru zachowań identyfikowanych z mierzonym konstruk-tem (procedura operacjonalizacji)' Większość konstruktów psychologicznych to pojęcia bardzo szerokie, najczęściej nie posiadające wyraźnych definicji. Przykładami takich właśnie pojęć są: „wysiłek umysłowy", „konformizm", „zaangażowanie", „lęk", „popęd" czy „osobowość". Tworząc test, musimy być przygotowani na konieczność precyzyjnego wskazania, co rozumiemy pod pojęciem „kom- 1 W literaturze przedmiotu opisuje się generalnie dwie strategie tworzenia narzędzi - strategię racjonalną i empiryczną (Edwards, 1970; Wiggins, 1994). Punktem wyjścia konstrukcji metod za pomocą strategii racjonalnej jest teoria mierzonej cechy. W strategii empirycznej rozpoczynamy od dowolnej puli pytań i poszukujemy empirycznie potwierdzonych różnic między odpowiednio dobranymi grupami kontrastowymi. W skalach empirycznych kryterium zakwalifikowania twierdzeń do ostatecznej wersji skali jest związek między kryterium podziału na grupy a treścią twierdzeń (dokładniej na ten temat por. Paluchowski, 2001). Tu zajmiemy się strategią racjonalną jako bardziej ogólną. Konstruowanie testu - podstawowe procedury petencji społecznych" czy „postawy". Co więcej, nasze definicje powinny zostać sformułowane w języku dających się obserwować zachowań. Między pojęciami i obserwowalnymi zachowaniami może istnieć bardzo długi łańcuch powiązań i często trzeba wprowadzić wiele pośrednich pojęć i relacji, zanim ustalimy związek między terminami teoretycznym i zachowaniami. Wiązanie terminów teoretycznych z obserwacjami jest podstawowym sposobem wyjaśniania, co przez nie rozumiemy. W każdym więc wypadku musimy być przygotowani na to, by każdej zainteresowanej osobie móc wyjaśnić treść ważnych dla nas pojęć przez dokładne pokazanie ich powiązań z obserwowalnymi zachowaniami. Procedura wiązania terminów teoretycznych (odnoszących się do nieobserwowalnych właściwości zdarzeń i obiektów) z terminami obserwacyjnymi (oznaczającymi obserwowalne właściwości i relacje) nazywa się procedurą operacjonalizacji (por. Hornowska, 1989, 2000a). Zabieg operacjonalizacji to zbiór procedur pozwalających badaczowi (także autorowi testu) na powiązanie mierzonej cechy (pojęcia teoretycznego) z konkretnym zbiorem obserwacji. Innymi słowy, to zabieg, który określa, co należy zrobić i co należy obserwować, aby badane zachowania można było potraktować jako wskaźniki mierzonej cechy psychologicznej2. Cecha i narzędzie zatem są ze sobą ściśle związane, gdyż narzędzie odzwierciedla tę cechę na poziomie zachowań. I tak np. Zawadzki i Strelau (1997), konstruując swój kwestionariusz temperamentu (FCZ-KT), przyjęli za punkt wyjścia twierdzenia regulacyjnej teorii temperamentu, sformułowanej przez Strelaua (1995). Podstawowe dla tego kwestionariusza pojęcie temperamentu zostało zdefiniowane następująco: temperament odnosi się do „(...) podstawowych, względnie stałych czasowo cech osobowości, które manifestują się w formalnej charakterystyce zachowania (parametrach energetycznych i czasowych). Cechy te występują we wczesnym dzieciństwie i są wspólne dla człowieka i zwierząt. Będąc pierwotnie zdeterminowany przez wrodzone mechanizmy fizjologiczne, temperament podlega zmianom zachodzącym pod wpływem dojrzewania (i starzenia się) oraz niektórych czynników środowiskowych" (Zawadzki, Strelau, 1997, s. 12). W obrębie poziomu energetycznego zachowania autorzy wyróżnili siedem własności temperamentu: wrażliwość sensoryczną, wrażliwość emocjonalną, odporność emocjonalną, odporność na dystraktory, odporność na zmęczenie oraz aktywność. W obrębie poziomu czasowego wyróżnili pięć kategorii zachowań: ruchliwość, szybkość, tempo, powtarzanie i utrzymywanie zachowania (ibidem, s. 48). Szczegółowe definicje wszystkich kategorii stały się podstawą wygenerowania wyjściowej puli pozycji testowych - w tym wypadku twierdzeń. Ci sami autorzy (Strelau, Zawadzki, 1998), tworząc inny kwestionariusz temperamentu (PTS), jako podstawę konstrukcji przyjęli pawłowowską kon- 2 Koncepcję operacjonalizacji szczegółowo omawiam w dwu pracach (Hornowska, 1989; 2000a). 161 Rozdział 5 ? 162 cepcję temperamentu. Do właściwości temperamentu Pawłów zaliczył: siłę procesu pobudzenia, siłę procesu hamowania, równowagę między tymi procesami i ruchliwość procesów nerwowych (ibidem, s. 10). Dla każdej z tych właściwości - na podstawie szczegółowej analizy prac Pawłowa oraz doświadczeń badawczych autorów - wyodrębniono 17 składników definicyjnych, a dalej wygenerowano różne ich wskaźniki na poziomie obserwacji (ibidem, s. 34). To samo pojęcie - temperament - zostało w obu wypadkach inaczej zdefiniowane. Konsekwencją różnych podejść teoretycznych było powstanie dwóch różnych kwestionariuszy temperamentu. Podsumowując: jeżeli chcemy zbudować test, to właściwym punktem startu jest wyraźne zdefiniowanie mierzonej cechy oraz jej operacjonalizacja. W ten sposób możemy określić obszar zachowań, które będziemy traktować jako wskaźniki interesującej nas cechy, a pozycje testowe powinny ten obszar odzwierciedlać. »? Dwa pierwsze etapy konstrukcji testu to: • określenie celu pomiaru oraz określenie obszaru zachowań identyfikowanych z mierzonym konstruktem 5.2. ZASADY BUDOWANIA POZYCJI TESTOWYCH Po zdefiniowaniu mierzonej właściwości i określeniu obszaru interesujących nas zachowań możemy przystąpić do układania pozycji testowych. Wyjściowy zbiór pozycji testowych nazywać będziemy dalej pulą pozycji (ang. item pool). Pula ta powinna być stosukowo duża (zazwyczaj zaleca się skonstruowanie dwa razy tylu pozycji, ile liczyć ich ma ostateczna wersja testu), gdyż gwarantuje to nam uzyskanie odpowiedniej liczby pozycji spełniających wymagane kryteria. Zanim sami lub zaproszeni przez nas eksperci zaczną tworzyć pozycje testowe, powinniśmy najpierw odpowiedzieć na pytanie, jaki wybieramy format pozycji testowej. Zgodnie z Pophamem (1981) można mówić generalnie o dwóch formatach pozycji: formacie otwartym (ang. construc-ted-response format) iformacie zamkniętym (ang. selected-response format). W pierwszym wypadku zadanie osoby badanej polega na swobodnym udzieleniu odpowiedzi. Np. pytanie: „Co to jest błąd standardowy pomiaru?" posiada format otwarty. Osoba badana, o ile tylko rozumie sens pytania, odpowiada na nie całkowicie swobodnie, spontanicznie, posługując się swoim własnym językiem (por. też Frankfort-Nachmias, Nachmias, 2001). Natomiast w przypadku pozycji zamkniętych osobie badanej przedstawia się zbiór odpowiedzi, a jej zadanie polega na wybraniu jednej bądź kilku z nich. Pozycje zamknięte często też nazywa się pozycjami obiektywnymi z tego względu, że ich ocena jest w mniejszym stopniu obciążona subiektywizmem. Konstruowanie testu - podstawowe procedury Pozycje, z jakich składa się test, mogą mieć format otwarty lub zamknięty: • typowymi przykładami pozycji o formacie otwartym są pozycje do uzupełnienia, krótkie wypowiedzi oraz opowiadanie; • typowymi przykładami pozycji o formacie zamkniętym są pozycje alternatywne, pozycje wielokategorialne z wieloma opcjami do wyboru, pozycje z dopasowywaniem, pozycje w formacie skali Likerta oraz dwubiegunowe skale przymiotnikowe. Typowymi przykładami pozycji o formacie otwartym są pozycje do uzupełnienia (ang. compłetion item), krótkie wypowiedzi (ang. short answer) oraz opowiadanie (ang. essay) - por. też Niemierko, 1975; Cohen, Swerdlik, 1999. • Pozycje do uzupełnienia wymagają dokończenia przez osobę badaną rozpoczętego zdania. Formułowane są one najczęściej w sposób następujący3: rzetelność testu jest to Pozycja tego typu powinna zostać tak zbudowana, aby odpowiedź prawidłowa (zgodna z kluczem) dawała się wyraźnie określić. W przeciwnym wypadku bowiem możemy napotkać na poważne trudności w ocenianiu odpowiedzi udzielonych na takie pozycje. Pozycje testowe wymagające krótkiej wypowiedzi formułuje się tak, aby osoba badana rzeczywiście mogła w związku z nimi przygotować zwięzłą wypowiedź. Zazwyczaj za krótką wypowiedź uznaje się tekst o objętości jednego lub dwóch paragrafów (Cohen, Swerdlik, 1999, s. 229). Pozycja tego typu może zostać zbudowana następująco: Jakie założenia przyjmuje się w klasycznym modelu wyniku prawdziwego? • pozycje testowe, na które odpowiedź ma charakter opowiadania, stosuje się wtedy, kiedy interesuje nas np. określenie głębokości wiedzy na dany temat. Pozycje tego typu nie tylko uruchamiają posiadaną wiedzę (wymagają bowiem odwołania się do pamięci), ale również pozwalają na ocenę stopnia jej integracji (zaplanowania i ustrukturalizowania wypowiedzi - ibidem), przykładowo: Omów badania psychologiczne poświęcone problemowi konformizmu i posłuszeństwa. W wypadku pozycji zamkniętych do najczęściej stosowanych w testach psychologicznych należą tzw. pozycje alternatywne (ang. alternate choice), 3 Aby ujednolicić sposób prezentacji tej części materiału, podawane przykłady będą generalnie dotyczyć testów właściwości poznawczych. Omawiane rodzaje pozycji testowych mają swoje zastosowanie również i w testach właściwości afektywnych. 163 _ Rozdział 5 pozycje wielokategorialne z jedną lub wieloma opcjami do wyboru (ang. multiple choice), pozycje z dopasowywaniem (ang. matching), pozycje w formacie skali Likerta (ang. Likert format) oraz dwubiegunowe skale przymiotnikowe (ang. bipolar adjective checklist)4. • Pozycje alternatywne to twierdzenia lub pytania zawierające tylko dwie możliwe odpowiedzi (tak-nie lub prawda-fałsz). Taki format właśnie posiada pozycja: Potrafię polubić ludzi mających inne wartości niz ja prawda fałsz dla której przewidziano właśnie tylko dwa rodzaje odpowiedzi: „prawda" lub „fałsz". Ten rodzaj pozycji nadaje się zarówno do testów właściwości poznawczych (testów umiejętności), jak i testów właściwości afektywnych (np. testów osobowości). Pozycje tego typu powinny być formułowane w prostym języku, warto też unikać sformułowań w postaci przeczeń (zwłaszcza podwójnych przeczeń), bowiem może wtedy istnieć niebezpieczeństwo niewłaściwej oceny odpowiedzi osoby badanej (por. Mehrens, Lehmann, 1973, s. 271-274). Pozycja z wieloma opcjami do wyboru składa się z trzonu (w którym przedstawione jest pytanie bądź problem), odpowiedzi prawidłowej (bądź zgodnej z kluczem) oraz kilku odpowiedzi nieprawidłowych (bądź niezgodnych z kluczem), nazywanych dystraktorami, przykładowo: Trafność kryterialna to inaczej: trzon a. trafność diagnostyczna i prognostyczna odpowiedź prawidłowa b. trafność predykcyjna i treściowa dystraktor c. trafność diagnostyczna i treściowa dystraktor d. trafność teoretyczna i treściowa dystraktor Dobra pozycja tego typu powinna: posiadać jedną prawidłową odpowiedź, wszystkie możliwości odpowiedzi powinny być gramatycznie równoważne, powinny być podobnej długości, powinny być zgodne gramatycznie z trzonem, a dystraktory nie powinny być dziwacznie sformułowane (por. Cohen, Swerdlik, 1999, s. 227). Czasami stosuje się testy z pozycjami wielokategorialnymi i wieloma opcjami do wyboru. Te jednak są trudniejsze do obróbki psychomet-rycznej. Ten rodzaj pozycji testowych stosuje się głównie w testach osiągnięć. Pozycje z dopasowywaniem to pozycje składające się z dwóch list - listy bodźców i listy odpowiedzi. Obie listy są ułożone w porządku losowym. Zadanie polega na dopasowaniu bodźców do odpowiedzi. Przykładowo: 4 Różne rodzaje pozycji testowych omawiają też: dla testów osiągnięć - Niemierko (1975), 164 oraz dla testów osobowości - Cohen, Swerdlik (1999) Konstruowanie testu - podstawowe procedury Połącz poszczególne pojęcia z ich definicjami, wstawiając numer definicji w wykropkowane miejsce obok litery oznaczającej dane pojęcie ..........a. zmienna kontrolowana 1. zmienna, która oddziałuje na inne zmienne ..........b. zmienna zależna 2. właściwość przyjmująca różne wartości dla obiektów, których dotyczy ..........c. zmienna niezależna 3. zmienna, której wpływ na zmienną zależną badacz jest w stanie ustalić ..........d. zmienna nominalna 4. zmienna pozwalająca stwierdzić, ile razy natężenie danej zmiennej dla danego obiektu jest większe lub mniejsze od natężenia tej zmiennej dla innego obiektu ..........e. zmienna porządkowa 5. zmienna pozwalająca stwierdzić, o ile natężenie danej zmiennej dla danego obiektu jest większe lub mniejsze od natężenia tej zmiennej dla innego obiektu ..........f. zmienna interwałowa 6. zmienna pozwalająca na uporządkowanie osób według przysługujących im wartości zmiennej ..........g. zmienna ilorazowa 7. zmienna kategorialna, jakościowa, będąca prostą klasyfikacją ..........h. zmienna 8. zmienna, która podlega oddziaływaniom ze strony innych zmiennych 9. zmienna, której wpływu na zmienną zależną badacz nie jest w stanie ustalić 10. zmienne, które burzą jasny obraz zależności między zmienną zależną a zmiennymi dla niej głównymi Pozycje testowe tego typu powinny być konstruowane według następujących zasad (por. Mehrens, Lehmann, 1973, s. 261-264): obie listy powinny być stosunkowo krótkie, lista odpowiedzi nie powinna się składać ze zbyt długich wyrażeń (najlepiej, aby były to pojedyncze zdania), pojedyncze zadanie powinno dotyczyć jednego pojęcia czy obszaru pojęciowego, lista odpowiedzi nie powinna być tej samej długości co lista bodźców (łatwiej wtedy bowiem ustalić prawidłowe połączenia tylko na drodze eliminacji), wreszcie: wszystkie zadania powinny być poprawne gramatycznie. Ten rodzaj pozycji również stosuje się przede wszystkim w testach osiągnięć. • Pozycje w formacie skali Likerta są twierdzeniami, do których dołączono pięć kategorii odpowiedzi: całkowicie się zgadzam, zgadzam się, trudno powiedzieć, nie zgadzam się, całkowicie się nie zgadzam. Osoba badana określa stopień aprobaty treści twierdzenia, wybierając jedną z opcji odpowiedzi. Tego typu pozycje testowe wykorzystuje się z kolei przede wszystkim w testach właściwości afektywnych, głównie do pomiaru postaw (zgodnie z oryginalnym sposobem ich wykorzystania - por. Likert, 1932; też Brzeziński, 1978 - w sprawie szczegółowych zasad konstrukcji skali postaw Likerta). Przykładowo: 165 Rozdział 5 Wszystkie dzieci powinny bezwarunkowo wykonywać polecenia swoich rodziców całkowicie się zgadzam zgadzam się trudno powiedzieć nie zgadzam się całkowicie się nie zgadzam Dwubiegunowe skale przymiotnikowe to z kolei rodzaj pozycji testowych zaczerpniętych z metody dyferencjału semantycznego. Osgood, Suci, Tannenbaum (1957; por. też Czapiński, 1978) zaproponowali - do pomiaru znaczenia konotacyjnego pojęć - stosowanie zbioru skal zdefiniowanych przez parę spolaryzowanych przymiotników, przykładowo: Gwiazda jasna -1 -2 -3 0 +1 +2 +3 ciemna gorąca -1 -2 -3 0 +1 +2 +3 zimna duża -1 -2 -3 0 +1 +2 +3 mała 166 Autorzy ci przeanalizowali szereg par przymiotników i stwierdzili, że większość z nich można pogrupować na trzy kategorie: wartościowanie (ang. evaluatioń), siła (ang. potency) i aktywność (ang. activity). W efekcie otrzymali wystandaryzowane narzędzie, składające się z kilkunastu skal. Pozycje testowe w postaci dwubiegunowych skal przymiotnikowych bywają wykorzystywane poza oryginalną metodą dyferencjału semantycznego. W takiej sytuacji jednak to na autorze testu ciąży obowiązek wykazania w jaki sposób zbudowane przez niego skale przymiotników wiążą się z badaną właściwością, jak będą oceniane i interpretowane. Przedstawione przykłady formatu pozycji testowych nie wyczerpują oczywiście wszystkich możliwości. Dobre opracowanie tego zagadnienia można znaleźć w pracach Niemierki (1975), Thorndike'a i Hagen (1977), Cronbacha (1990), oraz Cohena i Swerdlika (1999). Na koniec warto podkreślić, że decyzje dotyczące formatu pozycji testowej powinny zostać podjęte bardzo starannie. Należy rozważyć konsekwencje wprowadzenia takiego, a nie innego formatu (dobrze jeżeli decyzje takie są poprzedzone badaniami empirycznymi)5. Tak zrobili np. Zawadzki i Strelau (1997), tworząc kwestionariusz temperamentu. Na jednym z etapów przygotowywania kwestionariusza poproszono osoby badane o wybranie jednej z dwóch możliwych opcji: TAK/NIE lub czterostopniowej skali Likerta (całkowicie się zgadzam, zgadzam się, nie zgadzam się i całkowicie się nie zgadzam - ibidem, s. 50). W badaniach okazało się, że osoby w grupie 5 Taką konsekwencją może być zwiększenie prawdopodobieństwa ujawnienia się tzw. stylu odpowiadania, tj. skłonności do odpowiadania na pozycje testowe niezależnie od treści tych pozycji. Do stylów najczęściej opisywanych należą tzw. tendencja do potakiwania, unikanie odpowiadania, poświęcanie dokładności na rzecz szybkości odpowiadania, udzielanie odpowiedzi składających się z kilku słów, gdy wymagana odpowiedź ma mieć formę opowiadania, czy nieco inny mechanizm znany jako odpowiadanie zgodnie ze zmienną aprobaty społecznej (Cronbach, 1990, s. 175; szerzej patrz Wiggins, 1994). Konstruowanie testu - podstawowe procedury wiekowej 20-65 lat preferują format TAK/NIE. Ponieważ kwestionariusz ten jest przeznaczony do badania dorosłych, autorzy zdecydowali się na taki właśnie format pozycji testowych. Ilustracją tego, co powiedzieliśmy na temat formatu pozycji testowych, niech będzie tab. 5.1, w której na przykładzie testu sprawdzającego poziom wiedzy z matematyki przedstawiono sposób konstruowania pozycji testowej wielokategorialnej z jedną opcją do wyboru. Tab. 5.1. Konstruowanie pozycji testowej wielokategorialnej z jedną opcją do wyboru (na przykładzie testu sprawdzającego poziom wiedzy z matematyki) Rodzaj wiedzy: umiejętność mnożenia ułamków dziesiętnych Rodzaj pozycji testowej: obliczanie iloczynów dwóch ułamków dziesiętnych Cechy bodźca Cechy odpowiedzi 1. Zadanie z treścią wymagające obliczenia iloczynu dwóch ułamków dziesiętnych 1. Odpowiedzi są podawane w postaci wartości iloczynów, w porządku malejącym lub rosnącym 2. Każdy z ułamków powinien zawierać jedno lub dwa miejsca po przecinku 2. Każde zadanie posiada cztery odpowiedzi do wyboru: a) odpowiedź prawidłowa b) dystraktor - błąd wynikający z nieprawidłowego określenia miejsca dziesiętnego c) dystraktor - błąd wynikający ze złego ustawienia („podpisania") ułamków d) dystraktor - błąd wynikający z niezrozumienia treści zadania 3. W żadnym zadaniu nie powinny się dwukrotnie powtórzyć te same liczby 5.3. ANALIZA ZADAŃ Mając już gotową pulę pozycji testowych, możemy przystąpić do ich oceny. Ocena ta powinna zostać przeprowadzona na trzech płaszczyznach: językowej, treściowej i statystycznej. Efektem tego będzie ustalenie ostatecznej wersji budowanego testu. Analiza zadań obejmuje trzy etapy: • analizę językową • analizę treściową • analizę statystyczną Analiza językowo-treściowa Pierwszym krokiem pozwalającym nam sprawdzić jakość wygenerowanych przez nas pozycji testowych jest sprawdzenie ich pod kątem poprawności językowej i trafności treściowej. Ten etap analizy zadań przeprowadza się 167 Rozdział 5 zazwyczaj przed uruchomieniem badań pilotażowych i przeprowadzeniem analizy statystycznej pozycji (Nunnally, 1978, s. 262)6. Taka wstępna selekcja pozycji testowych pozwoli na odrzucenie pozycji językowo bądź teoretycznie wadliwych i tym samym będzie sprzyjać zbudowaniu rzetelnego i trafnego testu o Analiza językowa. Analiza językowa jest zazwyczaj przeprowadzana przez językoznawców. Ich zadanie polega na przeanalizowaniu każdej pozycji pod kątem jej poprawności gramatycznej, zrozumiałości, stosowanego słownictwa czy też długości, konkretności lub metaforyczności. I choć generalnie za właściwe uznaje się reguły danego języka, można sformułować kilka zasad ogólnych. I tak - pozycja testowa (por. Thorndike, Hagen, 1977; Nunnally, 1978; Crocker, Algina, 1986): • nie powinna być zbyt długa (preferowane są pozycje jednozdaniowe, chyba że mają stanowić opis pewnej sytuacji lub problemu); • powinna być raczej zbudowana ze zdań prostych niż złożonych, jeżeli dana pozycja wymaga dłuższego sformułowania; • powinna być sformułowana w trybie oznajmującym (przeczenia, zwłaszcza podwójne, mogą prowadzić do nieporozumień interpretacyjnych); • stosowany język powinien być prosty (nie powinny zawierać trudnych zwrotów lub wrażeń); • powinna być napisana językiem dostosowanym do przeciętnych kompetencji językowych badanych osób (a więc innym dla dzieci oraz dla dorosłych); • powinna być poprawnie sformułowana gramatycznie; • nie powinna zawierać takich określeń, jak „czasami", „rzadko", „niekiedy", „kilka" „wiele" „nigdy" czy „zawsze", ponieważ osoby badane mogą im przypisywać różne znaczenia. Każda pozycja testowa jest po kolei analizowana. Autor testu może ją pozostawić bez zmian, przeformułować lub odrzucić. Staranna analiza językowa pozwala wyeliminować zasadnicze błędy w sposobie formułowania pozycji testowych. Dzięki temu pozycje składające się na pierwszą wersję testu powinny być wolne od błędów językowych. Analiza treściowa. Kolejnym etapem wstępnej analizy pozycji testowych jest ich analiza pod kątem treściowym. Pytanie, na jakie powinien odpowiedzieć autor testu, to pytanie o to, czy wszystkie pozycje testowe można treściowo wywieść z teorii mierzonej cechy. Podstawą tej analizy jest oczywiście treść pozycji testowych. I tym razem zespół ekspertów dokonuje oceny zgodności treści poszczególnych pozycji testowych z przyjętymi 168 6 Niekiedy analizy językowo-treściowe są przeprowadzane po badaniach pilotażowych. Zaproszeni eksperci analizują tylko te pozycje, które spełniają formalne kryteria. Ponieważ zazwyczaj po badaniach pilotażowych wiele pozycji jest przeformułowywanych, ten sposób jest ekonomicznie mało efektywny, nie pozwala bowiem na zaoszczędzenie czasu i kosztów związanych z tworzeniem nowego testu (taka analiza powinna być przeprowadzona nie tylko dla wyjściowej puli pozycji, ale także i dla ostatecznej wersji testu). Konstruowanie testu - podstawowe procedury wcześniej założeniami. Innymi słowy, zespół ten udziela odpowiedzi na dwa pytania: a) czy wszystkie pozycje testowe można traktować jako operacjonalizację mierzonej cechy, oraz b) czy pozycje testowe reprezentują uniwersum zachowań, ważnych z punktu widzenia tej cechy. Odpowiednio wysoki współczynnik zgodności między sędziami może być dobrą podstawą podjęcia decyzji o jakości pozycji testowej (por. omówienie problemu trafności treściowej w rozdz. 4). Ten rodzaj analizy pozwala także wyeliminować -już na wczesnych etapach konstrukcji testu - wiele pozycji nie spełniających kryterium trafności treściowej. Aby zilustrować praktycznie nasze rozważania dotyczące analizy językowo--treściowej, odwołajmy się do wspomnianego już kwestionariusza temperamentu (FCZ-KT) Zawadzkiego i Strelaua (1997). Na pierwszym etapie konstrukcji kwestionariusza autorzy poprosili studentów psychologii i dyplomowanych psychologów o sformułowanie pozycji typowych dla zdefiniowanych wcześniej własności temperamentu. W ten sposób uzyskali 600 oryginalnych (czyli nie pochodzących z innych narzędzi) pozycji testowych (ibidem, s. 48). Następnie pozycje te zostały poddane ocenie językowej (przez 30 studentów wyższych lat polonistyki i dyplomowanego lingwistę) oraz analizie treściowej (przez 12 psychologów różnic indywidualnych). W efekcie tej procedury pozostały 392 pozycje (ibidem, s. 49), które zostały ocenione pod kątem formalnym. Badanie pilotażowe Po odrzuceniu pozycji testowych źle sformułowanych pod względem językowym i nietrafnych treściowo przygotowujemy pierwszą wersję naszego testu. Tę wersję sprawdzamy następnie w badaniach pilotażowych. Badanie pilotażowe (próbne testowanie) powinno zostać przeprowadzone na tej grupie osób, dla której test jest przeznaczony. I tak np. jeżeli tworzony przez nas test jest przeznaczony do badania młodzieży uczącej się w gimnazjum, to badanie pilotażowe powinno zostać przeprowadzone na próbie uczniów gimnazjów. Obok decyzji: kogo powinniśmy przebadać, musimy także podjąć decyzję jak liczna powinna być to grupa. W podręcznikach trudno znaleźć proste rady na ten temat, jednak najczęściej zaleca się przebadanie od 5 do 10 osób, licząc na każdą pozycję testową (por. np. Nunnally, 1978, s. 279; Crocker, Algina, 1986, s. 83; Cohen, Swerdlik, 1999, s. 230)7. Co więcej, próba ta nie powinna być nigdy mniejsza niż 100 osób. Im większa próba, tym oczywiście lepiej, bowiem pozwoli to nam uniknąć przypadkowych wyników (zalecenie to jest szczególnie ważne, kiedy planujemy zastosowanie analizy czynnikowej). Jeżeli test jest stosunkowo długi, 7 Niestety, lektura wielu podręczników testowych wskazuje, że zasada ta nie jest przestrzegana, a prezentowane w nich wyniki analizy zadań mogą być - ze względu na zbyt małą liczebność próby - niewiarygodne. 169 Rozdział 5 to dopuszczalną procedurą jest podział testu na części i zbadanie każdą z części innej grupy osób. Badanie pilotażowe powinno przebiegać w takich samych warunkach, w jakich gotowy już test będzie stosowany. Oznacza to, że zarówno instrukcja, ewentualne limity czasowe, charakter badania (indywidualny czy grupowy), jak i atmosfera w trakcie badania powinny być takie, jak w trakcie właściwego badania tym testem. Jak pisze Nunnally (1978, s. 279): ,Jeżeli w badaniu pilotażowym osoby badane mogą dowolnie długo rozwiązywać test, a w wersji końcowej planuje się wprowadzenie poważnych ograniczeń czasowych, to analiza zadań najprawdopodobniej dostarczy nam - wprowadzających w błąd - informacji. Jeżeli odpowiedzi na pozycje testowe inwentarza osobowości są uzyskiwane w atmosferze zachęcającej do szczerości, a ostateczna wersja testu będzie stosowana w atmosferze zniechęcającej do mówienia o sobie złych rzeczy, to analiza zadań przyniesie nam wadliwe dane o naszym teście" (por. też Cohen, Swerdlik, 1999, s. 230). Wyniki otrzymane w badaniu pilotażowym są następnie analizowane i każda pozycja testowa jest opisywana za pomocą wybranych wskaźników statystycznych. Typowymi wskaźnikami tu: wskaźnik trudności pozycji i współczynnik mocy dyskryminacyjnej. Do ostatecznej wersji testu włączane są tylko te pozycje, których właściwości statystyczne okażą się wystarczająco zadowalające. Wskaźnik trudności Najprostszą miarą pozwalającą nam podjąć decyzję o tym, które pozycje testowe mogą wejść do ostatecznej wersji testu, jest tzw. wskaźnik trudności pozycji (ang. item-difficulty index). Wskaźnik ten oblicza się głównie w testach właściwości poznawczych (musi istnieć kategoria odpowiedzi prawidłowej, poprawnej) i jest on wykorzystywany do wybrania takich pozycji testowych, które mają odpowiedni - z punktu widzenia celu testowania - poziom trudności8. Wskaźnik trudności jest definiowany następująco: r=-'=/?,*100% N gdzie: T oznacza wskaźnik trudności, «, - liczbę osób, które odpowiedziały prawidłowo na daną pozycję testową, a N- ogólną liczbę osób, które udzieliły odpowiedzi na tę pozycję. Innymi słowy, jest to proporcja osób, które poprawnie odpowiedziały na daną pozycję testową (/?,), wyrażona w procentach. Im wyższa wartość T, tym łatwiejsza jest dana pozycja testowa (bo tym więcej osób znało prawidłową odpowiedź). Ze względu na taki właśnie sposób interpretacji wielkości współczynnika T czasami nazywa się go 8 Odpowiednikiem tego wskaźnika w testach osobowości jest tzw. wskaźnik częstości odpowiadania w określony sposób (ang. item-endorsement index), który pozwala ustalić, jak 170 często osoby badane odpowiadają np. „tak" na daną pozycję testową. Konstruowanie testu - podstawowe procedury wskaźnikiem łatwości zadania, aby nie wprowadzać zbędnych trudności interpretacyjnych. Jaka zatem wartość tego wskaźnika uprawnia nas do zakwalifikowania danej pozycji testowej do ostatecznej wersji testu? Jeżeli naszym celem jest różnicowanie badanych osób na całym kontinuum zmienności cechy, to dobrą pozycją testową jest taka pozycja, która gwarantuje nam to zróżnicowanie. A dana pozycja różnicuje tym lepiej, im bardziej jej wskaźnik trudności zbliża się do 50%9. Dlatego też optymalne pod względem trudności są takie pozycje testowe, których trudność oscyluje wokół tej wartości. Taka prosta reguła decyzyjna może być stosowana pod jednym wszakże warunkiem, a mianowicie, że pozycje testowe nie pozostają ze sobą w żadnym związku. Zazwyczaj jednak założenie to jest trudne do spełnienia. Większość testów to testy jednorodne, a im bardziej jednorodny jest test, tym większe są korelacje między jego pozycjami. Aby zilustrować tę zależność, wyobraźmy sobie taką sytuację: nasz test składa się z 10 identycznych pozycji (np. „Co to jest współczynnik trudności pozycji testowej?"). W takim teście korelacje między poszczególnymi pozycjami testowymi będą oczywiście maksymalne i wyniosą 1. Gdyby trudność wszystkich pozycji testowych wynosiła 50% i gdybyśmy takim testem przebadali grupę 10 osób, to otrzymalibyśmy następujący rezultat: dokładnie 5 osób znałoby poprawną odpowiedź, a 5 nie umiałoby jej udzielić. W efekcie zamiast dobrze zróżnicować badaną grupę pod względem wiedzy o zasadach budowy testu otrzymalibyśmy podział tylko na dwie kategorie: tych, którzy mają maksymalną wiedzę na ten temat, i tych, którzy nic nie wiedzą. To, oczywiście, nie może być dobry sposób postępowania. Co zatem możemy zrobić? W takim przypadku zaleca się, aby pozycje testowe posiadały zróżnicowaną trudność (od najłatwiejszych do najtrudniejszych); zróżnicowanie to powinno być tym większe, im większa jest korelacja między pozycjami. Pozycje testowe należy dobrać tak, by średnia trudność całego testu oscylowała wokół 50% (por. Nunnally, 1978, s. 242-243; Anastasi, Urbina, 1999, s. 235; Cohen, Swerdlik, 1999, s. 232). W taki właśnie sposób m.in. dobrano pozycje do ostatecznej wersji testu S ł o w n i k w Skali Wechslera WAIS-R(PL) - por. tab. 5.2. W niektórych wypadkach jednak ogólna reguła, że średnia trudność testu powinna oscylować wokół 50%, nie ma zastosowania. Dotyczy to przede wszystkim testów przeznaczonych do celów selekcyjnych. Testy tego typu __________________ 9 Aby wyjaśnić, dlaczego tak się dzieje, musimy najpierw przypomnieć sobie, jak oblicza się miarę zróżnicowania (czyli wariancji) dla pozycji dwukategorialnej. Otóż miara ta jest definiowana następująco: a2x=p,qt gdzie: pt oznacza proporcję odpowiedzi prawidłowych, a q, proporcję odpowiedzi nieprawidłowych {pi + qi = 1) - por. np. Ferguson i Takane (1997). Otóż jak łatwo się przekonać, miara ta będzie miała największą wartość wtedy, kiedy p, = q{ = 0,5, czyli 50% (bo 50x50 = 2500 porównań). W każdym innym wypadku wartość ta będzie mniejsza. 171 Rozdział 5 Tab. 5.2. Wartości wskaźnika trudności dla poszczególnych trudność testu Słownik z baterii WAIS-R (PL) (opracowano na podstawie Hornowska, 1993b, s. 180) pozycji oraz średnia Nr pozycji testowej T Nr pozycji testowej T 1 94,4 18 57,9 2 79,1 19 56,9 3 74,5 20 55,6 4 73,2 21 55,0 5 73,1 22 54,6 6 70,0 23 51,1 7 69,6 24 49,7 8 68,4 25 47,4 9 68,2 26 45,9 10 66,6 27 44,8 11 66,3 28 40,9 12 63,8 29 35,2 13 62,6 30 32,0 14 61,9 31 29,6 15 60,7 32 28,6 16 60,2 33 09,3 17 59,2 34 06,4 35 05,1 7= 53,65% 172 powinny zawierać pozycje testowe o takiej trudności, jaka jest najbliższa pożądanemu współczynnikowi selekcji. I tak np. jeżeli interesuje nas wybranie najlepszych 30% kandydatów, to najoptymalniejsze będą te pozycje, których wskaźnik trudności waha się właśnie wokół 30% (po uwzględnieniu problemu zgadywania wskaźnik ten może być nieco wyższy - patrz niżej). Innymi słowy, im bliżej punktu krytycznego (punktu selekcji) znajduje się wskaźnik trudności pozycji, tym lepiej z uwagi realizację celu pomiaru. To właśnie przeznaczenie testu powinno decydować o tym, jakie pozycje testowe znajdą się w ostatecznej jego wersji. Decyzji tych - jak piszą Anastasi i Urbina (1999, s. 242) - „nie można podejmować w sposób rutynowy, nie wiedząc, do czego będą wykorzystywane wyniki testowe". Problem zgadywania. Przedstawiona wyżej reguła postępowania może być stosowana w wypadku pozycji z formatem otwartym. W wypadku pozycji z formatem zamkniętym musimy jeszcze dodatkowo uwzględnić problem zgadywania. Nikogo, kto rozwiązywał jakiekolwiek testy, nie trzeba przekonywać, że przy braku wiedzy szansa udzielenia prawidłowej odpowiedzi na pytanie: Konstruowanie testu - podstawowe procedury Co to jest zmienna? jest znacznie mniejsza niż wtedy, kiedy pytanie zostałoby sformułowane w następujący sposób: Zmienna jest to: a) właściwość przyjmująca różne wartości dla obiektów, których dotyczy; b) właściwość przyjmująca tylko jedną wartość dla wszystkich obiektów. Efekt zgadywania musi zatem zostać uwzględniony przy doborze pozycji testowych do ostatecznej wersji testu. Zgadywanie w bezpośredni sposób wpływa na wartość wskaźnika trudności. Osoby, które nie znają prawidłowego rozwiązania, mogą skreślić właściwą odpowiedź, i tym samym otrzymana przez nas wartość /?, będzie większa niż zazwyczaj. Aby technicznie rozwiązać problem zgadywania i uwzględnić go w schematach doboru pozycji testowych, przyjmuje się założenie, że osoby badane nie dysponują żadną wcześniejszą wiedzą i że odpowiadają w sposób całkowicie losowy (wszystkie opcje odpowiedzi są dla nich jednakowo prawdopodobne czy jednakowo atrakcyjne). To założenie znane jest jako model losowego zgadywania (ang. random guessing model) -por. Crocker, Algina, 1986, s. 312; Suen, 1990, s. 75. Wiele praktycznych sytuacji pokazuje jednak, że najczęściej osoby badane dysponują już jakąś wcześniejszą wiedzą na temat przedmiotu pomiaru i na jej podstawie odrzucają z góry niektóre odpowiedzi jako mało prawdopodobne. Dokonując wyboru, wybierają zatem jedną możliwość z mniejszej liczby pozostałych, co zwiększa szansę udzielenia odpowiedzi prawidłowej. Do problemu tego wrócimy jeszcze nieco dalej. Przyjmując założenie o losowym zgadywaniu, możemy określić, ile wynosi proporcja osób, które podały prawidłowa odpowiedź, mimo że jej faktycznie nie znały. Proporcja ta zależy od liczby kategorii odpowiedzi, w jakie wyposażona jest dana pozycja testowa, i wynosi Mm, gdzie m jest liczbą kategorii do wyboru. Dlatego też trudność pozycji testowych - z uwzględnieniem zgadywania - powinna być obliczana jako suma proporcji osób, które faktycznie znały odpowiedź, oraz tej części spośród nie znających odpowiedzi, którzy ją losowo wskazali, tj: To = (po + qo/m)\00% gdzie: To oznacza wskaźnik trudności poprawiony ze względu na zgadywanie, p0 jest proporcją osób, które faktycznie znały odpowiedź, qo proporcją osób, które nie znały odpowiedzi, a m liczbą kategorii do wyboru (Crocker, Algina, 1986, s. 313). Przypomnijmy, w sytuacji, w której nie uwzględnialiśmy możliwości zgadywania, optymalna trudność pozycji testowych (dla testów maksymalnie różnicujących) oscylowała wokół 50%. Jeżeli jednak przyjmiemy, że taka 173 Rozdział 5 możliwość istnieje, to aby zmaksymalizować wariancję wyniku prawdziwego, optymalna wartość wskaźnika T powinna być nieco wyższa i - np. dla pozycji dwukategorialnych - wynosić: 7=0,5 + 0,5/2 = 0,75 = 75%. Dobieranie pozycji o odpowiedniej (poprawionej) wartości wskaźnika T zwiększa rzetelność całego testu. W tab. 5.3 zamieszczono poprawione wskaźniki trudności dla pozycji testowych z różną liczbą kategorii odpowiedzi. Tab. 5.3. Rozkład wartości poprawionego wskaźnika trudności (To) dla pozycji posiadających różną liczbę kategorii odpowiedzi Liczba kategorii odpowiedzi Proporcja osób odpowiadających prawidłowo Proporcja osób zgadujących odpowiedź Poprawiony współczynnik trudności (To) 2 kategorie 0,50 0,50/2=0,25 0,50+0,25=0,75 (75%) 3 kategorie 0,50 0,50/3=0,17 0,50+0,17=0,67 (67%) 4 kategorie 0,50 0,50/4=0,125 0,50+0,125=0,623 (63%) 5 kategorii 0,50 0,50/5=0,10 0,50+0,1=0,60 (60%) Jak wspomnieliśmy, losowy model zagadywania oparty jest na założeniach mało realistycznych (rzadko bowiem zdarza się tak, aby osoba badana nie posiadała żadnej wiedzy na temat przedmiotu pomiaru i odpowiadała w sposób czysto losowy). Dlatego też Lord (1952b) w jednym ze swoich badań symulacyjnych obliczał wskaźniki trudności pozycji dla różnych sytuacji. Jego zdaniem (ibidem), aby zminimalizować wpływ zgadywania (przy uwzględnieniu faktu, że nie wszystkie opcje odpowiedzi są jednakowo prawdopodobne) i zwiększyć rzetelność metody, cały test powinien być jeszcze nieco łatwiejszy. Lord podał następujące wartości średniego wskaźnika trudności testu dla różnych formatów odpowiedzi: Format pozycji Optymalna średnia trudność testów różnicujących w maksymalnym stopniu Format otwarty Pięć kategorii do wyboru Cztery kategorie do wyboru Trzy kategorie do wyboru Dwie kategorie do wyboru 50% 70% 74% 77% 85% 174 Podkreślmy wyraźnie raz jeszcze: ten sposób doboru pozycji do ostatecznej wersji testu jest optymalny wtedy, kiedy interesuje nas zbudowanie testu maksymalnie różnicującego badane osoby. Jeżeli cel testowania jest inny, pozycje testowe należy dobierać w taki sposób, aby uzyskać możliwość różnicowania w tym punkcie kontinuum, który jest dla nas ważny (patrz wyżej). Poprawka na zgadywanie. Fakt, że dany test jest zbudowany z pozycji o formacie zamkniętym i że może to wpłynąć na wyniki otrzymywane w tym teście, powinien zostać również uwzględniony przy interpretacji wyniku Konstruowanie testu - podstawowe procedury indywidualnego. Odpowiednia poprawkę na zgadywanie podaje np. Mag-nusson (1981, s. 335). Przyjmując, że wszystkie kategorie odpowiedzi mają jednakowe prawdopodobieństwo wyboru, liczbę zadań, jakie dana osoba potrafiła rozwiązać bez zgadywania, możemy obliczyć następująco: F m-\ = R- gdzie: C to wynik danej osoby poprawiony ze względu na zgadywanie, R - liczba odpowiedzi prawidłowych, F- liczba odpowiedzi nieprawidłowych, m - liczba opcji dostępnych do wyboru. Np. jeżeli osoba A w teście składającym się z 20 pozycji pięciokategorialnych odpowiedziała prawidłowo na 15 pozycji i nieprawidłowo na 5 pozycji, to jej wynik poprawiony ze względu na zgadywanie wynosi: C= 15-(5/4)= 13,75, czyli w przybliżeniu 14 pkt. Indywidualna korekta wyników w taki sposób, jak przedstawiono wyżej, powoduje wyrównanie różnic między osobami badanymi ze względu na zgadywanie. Pozwala nam to ocenić rzeczywisty poziom mierzonej cechy niezależnie od różnej skłonności tych osób do zgadywania (ibidem). Wpływ zgadywania na liczbę poprawnych odpowiedzi zależy od liczby kategorii odpowiedzi. Im więcej kategorii osoba badana ma do wyboru, tym mniejsze prawdopodobieństwo znalezienia prawidłowej odpowiedzi przez przypadek, i tym samym mniejsza będzie wielkość poprawki. Podobną poprawkę możemy również zastosować wtedy, kiedy interesuje nas rzeczywista częstość odpowiedzi prawidłowych na dana pozycję w określonej grupie osób. Poprawka ta może zostać obliczona według wzoru (Mag-nusson, 1981, s. 338): F Rf gdzie: R to liczba osób, które rzeczywiście umiały rozwiązać zadanie, fi to liczba osób, które podały prawidłowe odpowiedzi, F - liczba osób, które podały złe rozwiązania, a m - liczba opcji do wyboru. Współczynniki mocy dyskryminacyjnej Wiele testów stosuje się po to, aby uzyskać informacje o różnicach indywidualnych w zakresie mierzonego konstruktu lub w zakresie jakiegoś zewnętrznego kryterium, które chcemy przewidywać na podstawie wyników testowych. W każdym z tych wypadków test powinien składać się z takich pozycji testowych, które przede wszystkim umożliwiają dokonanie różnicowania między osobami uzyskującymi niskie i wysokie wyniki na interesującym nas kontinuum. Idealny test powinien dawać następujący efekt: osoby z niskim ogólnym wynikiem powinny rzadziej odpowiadać poprawnie (czy bardziej ogólnie - diagnostycznie) na daną pozycję testową, zaś osoby z wysokim ogólnym wynikiem testowym - częściej. Ponieważ zazwyczaj - w trakcie konstruowania testu - nie dysponujemy żadną inną miarą mierzonego konstruktu poza samym ogólnym wynikiem w tym teście, wynik ten 175 Rozdział 5 właśnie jest najczęściej traktowany jako operacyjna definicja pozycji osoby na określonym kontinuum. Takie rozumowanie stało się podstawą opracowania różnych wskaźników dobroci pozycji testowych, nazywanych ogólnie współczynnikami mocy dyskryminacyjnej (ang. item discrimination power index). Współczynnik mocy dyskryminacyjnej to stopień, w jakim dana pozycja testowa różnicuje badaną populację w zakresie zachowania, które dany test ma mierzyć. Wartość tego współczynnika generalnie jest interpretowana następująco (Niemierko, 1975, s. 260; por. też rys. 5.2): a) pozycja testowa o dodatniej mocy dyskryminacyjnej jest częściej rozwiązywana przez osoby badane o wysokich ogólnych wynikach w teście, a więc różnicuje te osoby w zgodzie z innymi pozycjami testu, i tym samym zwiększa wariancję wyników testowania; b) pozycja testowa o ujemnej mocy dyskryminacyjnej jest częściej rozwiązywana przez osoby badane o niskich ogólnych wynikach w teście, a więc różnicuje te osoby przeciwnie niż inne pozycje testu, i tym samym zmniejsza wariancję wyników testowania. Do ostatecznej wersji testu powinny wejść oczywiście te pozycje, które zwiększają wariancję wyników testowania, a więc o dodatniej, wysokiej mocy dyskryminacyjnej. W literaturze przedmiotu można znaleźć informacje o kilkudziesięciu współczynnikach tego typu. Można je pogrupować na trzy kategorie: • proste wskaźniki dyskryminacyjne • współczynniki oparte na analizie korelacji między wynikiem danej pozycji o ogólnym wynikiem w teście Rys. 5.2. Rodzaje związków między wynikiem danej pozycji testowej a ogólnym wynikiem w teście korelacja dodatnia korelacja ujemna SswYblwasia Yfns 1 diisyJs/isi^w^wAr^iei -mp&cc \ .....> \ ogólny wynik w teście yymlzsi ffl&stsr^afr ogólny wynik w teście 176 odpowiedź diagnostyczna zwiększa ogólny wynik w teście odpowiedź diagnostyczna zmniejsza ogólny wynik w teście Konstruowanie testu - podstawowe procedury • współczynniki oparte na analizie różnic między tzw. skrajnymi grupami. Omówimy je po kolei. Wskaźnik dyskryminacji. Najprostszym współczynnikiem mocy dyskryminacyjnej jest tzw. wskaźnik dyskryminacji (ang. index of discrimination), który można stosować tylko w wypadku pozycji dwukategorialnych. Wskaźnik ten wymaga ustalenia punktu podziału osób badanych na dwie grupy: tzw. dolną grupę (tj. grupę o niskich wynikach w teście) i grupę górną (tj. grupę osób o wysokich wynikach w teście). Podział taki może zostać przeprowadzony w punkcie mediany (i wówczas obie grupy będą liczyły po 50% ogółu badanych osób) lub tak, aby brać pod uwagę tylko wyniki skrajne, a nie analizować wyniki środkowe. W klasycznych już badaniach Kelley (1939) udowodnił, że najoptymalniejszym punktem podziału jest wyodrębnienie po 27% badanych osób na każdym krańcu kontinuum. Przy takim podziale bowiem stosunek otrzymanej różnicy do jej błędu standardowego jest maksymalny (ibidem). Przy odpowiednio liczebnych próbach podobny efekt możemy także otrzymać, przyjmując jako punkt podziału po 25% z każdej strony lub dzieląc w punkcie mediany. Mając wyodrębnioną dolną i górną grupę osób badanych, możemy obliczyć wskaźnik dyskryminacji według następującego wzoru: gdzie: D jest wskaźnikiem dyskryminacji, pu oznacza proporcję odpowiedzi poprawnych (diagnostycznych) w górnej grupie osób badanych, a pt - proporcję odpowiedzi poprawnych (diagnostycznych) w dolnej grupie (Crocker, Algina, 1986, s. 314; Anastasi, Urbina, 1999, s. 249). Współczynnik ten może przybierać następujące wartości: od -1,00 (gdy pozycja testowa idealnie różnicuje w przeciwnym kierunku niż ogólny wynik w teście) do +1,00 (gdy pozycja testowa idealnie różnicuje w tym samym kierunku co ogólny wynik w teście). W tab. 5.4 podano przykładowe wyniki dla trzech różnych pozycji testowych (dla uproszczenia przyjęto punkt podziału w środku rozkładu, dzieląc osoby badane na dwie podgrupy po 50% osób). Tab. 5.4. Przykładowe wyniki dla trzech wybranych pozycji testowych Pozycja testowa Dolna grupa osób badanych Górna grupa osób badanych 1 2 3 4 5 6 7 8 9 10 poz. 1 0 0 0 0 1 1 0 1 1 1 poz. 2 0 0 1 1 0 1 0 0 0 1 poz. 3 0 1 1 0 1 0 0 0 1 0 ogólny wynik w teście 10 14 16 18 21 22 24 25 28 30 Uwaga: „0" oznacza odpowiedź niediagnostyczną, a „1" odpowiedź diagnostyczną. Osoby badane zostały już uporządkowane ze względu na wysokość wyniku ogólnego w teście. 177 Rozdział 5 Przeprowadzając odpowiednie obliczenia dla danych z tab. 5.4, otrzymamy: Dj = 0,8 -0,2 = +0,6 D2 = 0,4 -0,4 = +0,0 D3 = 0,2 -0,6 = -0,4 Czym się zatem należy kierować, podejmując decyzję o tym, które pozycje testowe możemy włączyć do ostatecznej wersji testu? Ebel (1965) podał następujące kryteria decyzyjne (por. też Crocker, Algina, 1986, s. 315): a) jeżeli D > = 0,40, pozycję testową można włączyć do testu, b) jeżeli 0,30 =? Stronniczość pozycji testowej oznacza stały błąd pomiaru. W sensie psycho-metrycznym stronniczość pozycji testowych polega na tym, że poszczególne pozycje testowe są mniej lub bardziej trudne dla osób należących do różnych podgrup, wyodrębnianych z tej samej populacji. Ze względu na złożoność procedury budowania testów ich konstruktorzy starają się opracować najbardziej efektywne techniki gwarantujące, że skonstruowane metody będą rzetelnym i trafnym narzędziem pomiaru badanych właściwości. Obok opracowywania standardowych procedur, wyznaczających 11 Shepard, Camilli i Williams (1984) wykazali np., że test z matematyki zawierający zadania z treścią jest systematycznie trudniejszy dla czarnych dzieci w porównaniu z białymi. Nie odnotowali natomiast takiego efektu w wypadku testów składających się wyłącznie z „czystych" zadań rachunkowych. 189 Rozdział 5 zasady budowy testów, należy również dbać o to, aby skonstruowany test nie okazał się stronniczy w stosunku do tej populacji, dla której jest przeznaczony. Prowadzenie szerokich badań nad stronniczością pozwoli na: a) zidentyfikowanie potencjalnych zmiennych (czynników) odpowiedzialnych za stronniczość konkretnego testu w stosunku do konkretnej podpo-pulacji. Pozwoli określić, czy i jakie zmiany powinny zostać wprowadzone w procedurze budowania testu, aby zminimalizować ewentualne włączenie pozycji stronniczych w przyszły test lub zapobiec takiemu włączeniu; b) stworzenie zbioru reguł wykorzystywanych przez konstruktorów testów do eliminowania stronniczości, której źródłem może być język, cechy formalne i treść pozycji testowych oraz test jako całość; c) opracowanie procedur statystycznych wykorzystywanych do identyfikowania stronniczych pozycji testowych. Procedury te powinny spełniać funkcję kontroli procesu tworzenia testu przez dostarczanie informacji pozwalających na wyeliminowanie stronniczych pozycji zarówno na wczesnych, jak i na późnych (tj. normalizacji) etapach tego procesu. W efekcie takiego zapotrzebowania powstało wiele nowych schematów badawczych, pozwalających na sprawdzenie różnych aspektów testowania. I chociaż schematy te różnią się ze względu na przyjmowaną w nich perspektywę teoretyczną, wszystkie one realizują ten sam cel ogólny: wyposażenie konstruktorów testów w skuteczne i szybkie zbiory procedur, które mogą zostać wykorzystane do generowania pozycji testowych i -jednocześnie - do budowania testu wolnego od stronniczości. W ostatnich latach obserwujemy dynamiczny rozwój technik pozwalających szacować stronniczość pozycji testowych. Techniki te różnią się konceptualiza-cją pojęcia stronniczości, teoretycznym pogłębieniem, statystyczną złożonością, wymaganą wielkością próby i ponoszonymi kosztami. Różnice w konceptuali-zacji najczęściej sprowadzają się do tego, ile w obserwowanym zróżnicowaniu między grupami mniejszości i większości przypisuje się różnicom poziomów zdolności, a ile stronniczości. W każdym badaniu stronniczości badacz stara się ustalić stopień obciążenia (stronniczości) narzędzia pomiarowego za pomocą kryterium, które przynajmniej z założenia jest mniej stronnicze. Do najpopularniejszych technik szacowania stronniczości pozycji testowych należą techniki oparte na sędziowaniu, techniki oparte na analizie wariancji (Osterlind, 1983; Schmeiser, 1982), na analizie współczynników trudności pozycji testowych (Angoff, 1982), na teście cni2 (Berk, 1982) oraz techniki oparte na analizie ICC, czyli krzywych charakterystycznych pozycji testowych - ang. item characteristic curve (Croker, Algina, 1986). Są to raczej strategie niż konkretne metody. Każda z nich bowiem dostarcza wielu konkretnych rozwiązań w ramach przyjętego modelu teoretycznego, jak również wskazówek dotyczących nie tyle szacowania stronniczości pozycji testowych, ile budowania całego testu. Nie są one również całkowicie odręb-190 ne. Nakładają się na siebie i przed wybraniem którejkolwiek z nich należy Konstruowanie testu - podstawowe procedury dokładnie przeanalizować założenia, na jakich są one oparte, oraz pytania badawcze, na jakie pozwolą odpowiedzieć12. Przypadek Golden Rule. Na zakończenie uwag na temat stronniczości pozycji testowych i ich zróżnicowanego funkcjonowania warto przypomnieć głośną sprawę sądową, w której m.in. odwołano się do pojęcia stronniczości pozycji testowych (por. też Anastasi, Urbina, 1999, s. 267). W sprawie tej chodziło o stosowanie egzaminów licencyjnych przy rekrutacji pracowników do towarzystwa ubezpieczeniowego Golden Rule. Przyjęto, że podstawą decyzji selekcyjnych nie mogą być pozycje stronnicze stosowanego testu, te zaś identyfikowano wyłącznie na podstawie odsetek osób odpowiadających zgodnie z kluczem w różnych grupach społecznych (głównie rasowych). Okazało się jednak, że przy selekcji pozycji stronniczych nie wzięto pod uwagę poziomu zdolności kandydatów i pozycje uznane pierwotnie za stronnicze - przy podziale ze względu na poziom zdolności - mogły być spokojnie zaakceptowane. Co więcej taka praktyka doboru pozycji prowadziła do wyeliminowania najtrafniejszych - z punktu widzenia celu pomiaru - zadań. Gdyby taką procedurę dalej upowszechniać, to jedynie wykazanie, że dwie grupy społeczne odpowiadają inaczej na daną pozycję testową, mogłoby już być podstawą eliminowania „wątpliwych" pozycji testowych. Jak podkreślaliśmy wcześniej, wykazanie, że określone pozycje testowe w zróżnicowany sposób funkcjonują w dwóch grupach badanych, nie jest jeszcze podstawą do stwierdzania ich stronniczości! Dlatego też w Standardach... (1985b, s. 27) sformułowano następujące zalecenie: „należy zawsze sprawdzić, czy obserwowane różnice w sposobie odpowiedzi na daną pozycję testową można przypisać stronniczości tych pozycji". • 5.5. OSTATECZNA REWIZJA TESTU Analiza zadań dostarcza zawsze ogromnej liczby informacji. Na ich podstawie część pozycji testowych pozostaje bez zmian, część zostaje poprawionych, a część usuniętych z ostatecznej wersji testu. Powstaje zatem praktyczne pytanie: w jaki sposób można efektywnie wykorzystać informacje o trudności pozycji, ich mocy dyskryminacyjnej, trafności, rzetelności i wreszcie stronniczości w ocenie ostatecznej wersji testu? Ostateczna ocena testu nazywana jest procesem rewizji testu i jak piszą Cohen i Swerdlik (1999, s. 245): „istnieje tyle sposobów rewidowania testu, ilu jest ich twórców". Jednakże większość autorów jest zgodna, że najlepszą metodą oceny ostatecznej wersji testu jest tzw. jego walidacja krzyżowa (ang. cross-validatioń). Walidacja krzyżowa Co to jest walidacja krzyżowa? Dysponując ostateczną wersją testu, powinniśmy go ponownie sprawdzić. Gdybyśmy jednak dokonali takiej 12 Szczegółowo techniki te omówione są w pracy Hornowska (1999). 191 Rozdział 5 192 oceny na tej samej próbie badanych osób, której wyniki były podstawą dotychczasowych analiz, to wszystkie miary korelacyjne, jakimi się będziemy posługiwać, będą zawyżone. Dlatego też powinniśmy ocenić trafność testu na innej próbie niż ta, która była podstawą selekcji pozycji. Takie niezależne badanie trafności nazywa się właśnie walidacją krzyżową (por. Anastasi, Urbina, 1999, s. 261). Crocker i Algina (1986, s. 328) proponują stosowanie następującej procedury: biorąc pod uwagę wysiłek związany z oceną pozycji testowych, warto zrealizować obie fazy tworzenia testu (ocenę pozycji i walidację krzyżową) w jednym badaniu. Generalna strategia postępowania jest następująca: wszystkie pozycje testowe wchodzące w skład puli pozycji testowych daje się do rozwiązania dużej grupie osób badanych. Następnie losowo przydziela się część wypełnionych arkuszy testowych do analizy zadań, a część do walidacji krzyżowej. I tak, jeżeli 400 osób badanych rozwiązało 30-pozycyjny test, to wyniki 200 z nich zostaną wykorzystane do oceny pozycji testowych, a wyniki 200 - do rewizji testu. Jeżeli efektem analizy zadań będzie zaakceptowanie 20 pozycji testowych, to wyniki dla tych 20 pozycji z drugiej dwusetki osób badanych zostaną wykorzystane do oceny trafności testu. Można również nieco bardziej skomplikować tę procedurę i wykorzystać wyniki próby 1 do analizy zadań, a próby 2 - do walidacji krzyżowej, a następnie zrobić odwrotnie: wykorzystać wyniki próby 2 do analizy zadań, a próby 1 - do walidacji krzyżowej. Taka procedura nazywa się p o d w ó j n ą walidacją krzyżową (ang. double cross-validation). Podział na dwie grupy nie musi być dokładnie proporcjonalny. Może być tak, że więcej osób tworzy grupę dla analizy zadań (pamiętajmy o wymogu odpowiedniej liczebności tej grupy), a mniej grupę dla walidacji krzyżowej. Jakich wyników walidacji krzyżowej powinniśmy się spodziewać? Generalnie rzecz biorąc, oczekujemy, że wskaźniki trafności pozycji wybranych do ostatecznej wersji testu będą mniejsze w nowej próbie - ze względu na działanie czynników losowych. To obniżenie się wskaźników trafności, które jest nieuchronną konsekwencją walidacji krzyżowej, nazywa się kurczeniem trafności (ang. validity shrinkage - por. Guilford, 1988c, s. 140; Cohen, Swerdlik, 1999, s. 246). Zakres, w jakim nastąpi zmniejszenie się trafności pozycji, zależy od wielkości wyjściowej puli pozycji i wielkości badanej próby osób. I tak, im większa była wyjściowa pula pozycji i im mniej pozycji z niej pozostało, tym większe będzie zmniejszenie trafności (sprzyja to bowiem działaniu przypadkowych różnic i zwiększa wskaźnik trafności - ibidem). Z kolei im większa próba, tym łatwiej o uzyskanie wysokich wskaźników trafności; wraz ze zmniejszaniem się próby w badaniach krzyżowych maleć też będą wskaźniki trafności. Nadto, jak piszą Anastasi i Urbina (1999, s. 263), „jeżeli pozycje testowe dobiera się na podstawie wcześniej sformułowanych hipotez wynikających z teorii psychologicznej lub z empirii, spadek trafności przy Konstruowanie testu - podstawowe procedury walidacji krzyżowej będzie mniejszy". Ten efekt można potraktować jako jeszcze jedno uzasadnienie wyższości trafności teoretycznej (patrz rozdz. 3). Świadomość efektu kurczenia się trafności może nas uchronić przed mało refleksyjnym akceptowaniem wysokich danych na temat trafności pozycji testowych, biorących się z niewłaściwego wykorzystania tej samej próby do ostatecznej oceny testu. Trudno bowiem o większe rozczarowanie, jak przekonanie się w trakcie stosowania testu, iż daje on mniej trafne wyniki, niż tego - na podstawie danych prezentowanych w podręczniku - oczekiwano. 5.6. TEORIA ODPOWIADANIA NA POZYCJE TESTU W ostatnich latach coraz większym zainteresowaniem ze strony autorów testów cieszy się zupełnie nowe, odmienne od podejścia klasycznego, spojrzenie na proces budowania testu psychologicznego13. I choć odwołanie się do klasycznej teorii testów nadal dominuje wśród osób tworzących metody testowe, gwałtownie rosnące zainteresowanie teorią odpowiadania na pozycje testu (ang. item response theory) -jako podstawą teoretyczną pomiaru psychologicznego w ogóle - świadczy o gotowości psychologów do zmiany dotychczasowych (klasycznych) poglądów. Item response theory (IRT), czyli teoria odpowiedzi na pozycje testowe, to zbiór twierdzeń opisujących sposób, w jaki osoba badana odpowiada na pozycje testu. IRT pozwala na określenie związku między odpowiedziami udzielanymi przez osobę badaną a zakładaną, nieobserwowalną cechą leżącą u podstaw zachowań testowych. Modele formułowane w ramach IRT mają postać funkcji matematycznych, wiążących prawdopodobieństwo udzielenia odpowiedzi prawidłowej (zgodnej z kluczem) na daną pozycję testową z ogólnym poziomem mierzonej cechy u osoby badanej (por. rys. 5.4). I tak np. możemy przyjąć, że prawdopodobieństwo udzielenia odpowiedzi prawidłowej w teście rozumienia Skali WAIS-R jest funkcją hipotetycznej, nieobserwowalnej cechy, którą można określić jako rozumienie sytuacji i norm społecznych; z kolei prawdopodobieństwo akceptacji twierdzenia „mieć wyniki świadczące, że to, co robię, robię dobrze" może być funkcją hipotetycznej chęci osiągania mistrzostwa. Owe cechy hipotetyczne to w terminologii IRT cechy latentne (ukryte). Ograniczenia modelu klasycznego W klasycznej teorii testów przyjmuje się, że związek między wynikiem prawdziwym (rozumianym jako wynik standardowy z) a wynikiem otrzymanym w teście jest związkiem prostoliniowym (regresją liniową). Przedziały 13 Warto wspomnieć, że teoria wcale nie jest taka nowa. Pierwsze prace należące do omawianego nurtu powstały już w latach 50. i 60. ubiegłego stulecia (np. Lord, 1953; Birnbaum, 1968). Szerokie zainteresowanie takim podejściem widoczne jest dopiero od niedawna. 193 Rozdział 5 ___t JL_LŁ__ jI__^._ł 194 Rys. 5.4. Związek między wynikiem otrzymanym w teście a poziomem mierzonej cechy w klasycznej teorii testów oraz w IRT (opracowano na podstawie Embretson, 2000, s. 17) Teoria odpowiadania Klasyczna teoria testów na pozycje testu A i\7u a*~ v*L*^ i 8 i * 8 - ... ? *? wynik otrzymany w teście wynik otrzymany w teście ufności (zaznaczone na rysunku 5.4. linią przerywaną) są takie same dla wszystkich wyników, a wartość błędu pomiaru zależy od konkretnej badanej populacji. Podobnie, wartość parametrów charakteryzujących pozycje testowe również zależy od konkretnej populacji. Łatwo możemy sobie wyobrazić sytuację, w której badamy dwie różne populacje osób, powiedzmy: grupę osób bardzo zdolnych i o zdolnościach poniżej przeciętnej. Wskaźnik trudności opisujący pozycję testową będzie oczywiście inny w każdej z tych sytuacji. Kolejny problem związany jest z obliczaniem wyniku ogólnego, który w klasycznej teorii testów jest oszacowaniem poziomu mierzonej cechy. Ponieważ wynik ogólny jest zazwyczaj sumą odpowiedzi prawidłowych (zgodnych z kluczem) na pozycje testu, widać wyraźnie, że zależy on od trudności pozycji tworzących test (por. też Weiss, Yoes, 1991). Natomiast w ramach teorii odpowiadania na pozycje testu związek między wynikiem prawdziwym a wynikiem otrzymanym nie jest związkiem liniowym, a szerokość przedziałów ufności jest inna w środku, a inna na krańcach rozkładu (przedziały są szersze dla skrajnych wyników). Błąd standardowy pomiaru nie jest związany z konkretną populacją, podobnie jak nie są z nią związane parametry opisujące pozycje testowe. W ramach IRT oszacowania poziomu badanej cechy dokonuje się oddzielnie dla każdej odpowiedzi testowej, kontrolując zarazem parametry danej pozycji testu (np. jej trudność) - por. Embretson (2000, s. 18). Konstruowanie testu - podstawowe procedury >? Teoria odpowiedzi na pozycje testowe, czyli item response theory (IRT), to zbiór twierdzeń opisujących sposób, w jaki osoba badana odpowiada na pozycje testu. IRT pozwala na określenie związku między odpowiedziami udzielanymi przez osobę badaną a zakładaną nieobserwowalną cechą leżącą u podstaw zachowań testowych. Założenia IRT .... W teorii odpowiadania na pozycje testu przyjmuje się trzy podstawowe założenia: (1) o wymiarach przestrzeni latentnej, (2) o lokalnej niezależności pozycji testowych i wreszcie (3) o krzywej charakterystycznej pozycji testowej. Pierwsze założenie dotyczy wymiarów przestrzeni latentnej (ang. dimen-tionality oflatent space). W IRT przyjmuje się, że zachowanie osoby badanej w teście można przypisać pojedynczej cesze latentnej (nieobserwowalnej). Cecha latentna zaś to zmienna wyznaczająca zachowanie osób w danym teście. Ta zmienna właśnie determinuje obserwowane zależności statystyczne między pozycjami testu (por. Osterlind, 1983; Camilli, Shepard, 1994). Test, który mierzy jedną cechę latentna, jest testem jednowymiarowym. Testami jednowymiarowymi są np. testy zdolności (np. matematycznych, językowych czy myślenia technicznego). Wszystkie zależności statystyczne stwierdzane między pozycjami testowymi są wyjaśniane przez odwołanie się do jednej cechy latentnej. Cechę latentna oznacza się jako theta (0) i przyjmuje, że jest ona ciągła, a jej wartości zawierają się w przedziale od -°° do +«>. Ponieważ skala jest najczęściej wyrażana w postaci konwencjonalnych wartości z, to w praktyce wszystkie wyniki mieszczą się w przedziale od -4z do +4z. Założenie drugie dotyczy lokalnej niezależności pozycji testowych (ang. local independence ofitem). W założeniu tym przyjmuje się, że odpowiedzi każdej osoby badanej na jedną pozycje testową nie zależą od jej odpowiedzi na jakąkolwiek inną pozycję tego testu. Oznacza to zatem, że rozkład wyników poszczególnych pozycji testowych zależy jedynie od parametru 9; wyniki pozycji testowych są statystycznie niezależne. Jeżeli test jest rzeczywiście jednowymiarowy (założenie 1), to założenie o lokalnej niezależności pozycji testowych jest również spełnione. Wówczas możemy przyjąć, że cecha latentna jest mierzona w sposób niezależny k razy, gdzie k oznacza liczbę pozycji testowych. Krzywa charakterystyczna pozycji testowej Najważniejsze założenie przyjmowane w ramach IRT dotyczy krzywych charakterystycznych pozycji testowych (ang. item characteristic curve - ICC) i jest kluczowym założeniem teorii odpowiadania na pozycje testu. Krzywa charakterystyczna pozycji testowej to graficzny obraz funkcji matematycznej, wiążącej prawdopodobieństwo udzielenia odpowiedzi prawidłowej na daną pozycję testową z poziomem cechy, operacyjnie wyznaczonym przez ogólny wynik w teście. Funkcję tę oznacza się jako (0), gdzie: Pt oznacza praw- 195 Rozdział 5 dopodobieństwo udzielenia prawidłowej odpowiedzi na i-tą pozycję testową. Krzywe ICC są bardzo użytecznym sposobem przedstawiania danych dotyczących sposobu odpowiadania na poszczególne pozycje testowe w sytuacji, gdy test jest stosowany w heterogenicznej grupie badanych osób. Na rys. 5.5 przedstawiono przykład hipotetycznej krzywej ICC. Zauważmy, że mierzona cecha jest tu zmienną ciągłą, a prawdopodobieństwo sukcesu (prawdopodobieństwo udzielenia prawidłowej odpowiedzi na daną pozycję testową) jest funkcją ogólnego poziomu zdolności. Ogólny poziom zdolności z kolei jest szacowany na podstawie wyniku, jaki osoby badane otrzymały w całym teście. Zwróćmy również uwagę, że krzywa ICC przedstawiona na rys. 5.5 nie jest linią prostą (por. rys. 5.4). Nie reprezentuje ona zatem liniowego związku między prawdopodobieństwem sukcesu a ogólnymi zdolnościami osób badanych; jest to krzywa w kształcie litery S, Rys. 5.5. Przykład hipotetycznej krzywej charakterystycznej pozycji testowej (iłem characteristic curve, ICC) (na podstawie Osterlind, 1983, s. 40) Prawdopodobieństwo sukcesu (P) 1,00 + 0,75 - - 0,50- 0,25 / s Cecha latentna (0) 196 -3 -2 -1 +1 +2 +3 Konstruowanie testu - podstawowe procedury zaczynająca się bardzo nisko i rosnąca monotonicznie wraz z ogólnymi zdolnościami badanych osób. Parametry pozycji testowej i skala cechy latentnej Każdą krzywą ICC można opisać za pomocą trzech parametrów: parametru a - tj. współczynnika mocy dyskryminacyjnej, parametru b - tj. współczynnika trudności, oraz parametru c - tj. współczynnika zgadywania. Wartości tych parametrów są ustalane empirycznie. Parametr a. W klasycznej teorii testów współczynnik mocy dyskryminacyjnej jest miarą tego, jak dobrze dana pozycja testowa różnicuje badaną populację. W IRT współczynnikowi mocy dyskryminacyjnej pozycji testowej, czyli parametrowi a, odpowiada na wykresie kąt nachylenia (stopień stromo-ści) krzywej ICC w punkcie przegięcia. Na rys. 5.6 przedstawiono dwie Rys. 5.6. Dwie krzywe ICC różniące się współczynnikami mocy dyskryminacyjnej pozycji testowej (na podstawie Camilli, Shepard, 1994, s. 54) 1,00-- 0,75 - - 0,50-- 0,25 - - Prawdopodobieństwo sukcesu (P) . I -' Pozycja testowa /' Pozycja testowa j Cecha latentna (6) -3 -2 -1 0 +1 +2 +3 197 Rozdział 5 krzywe ICC różniące się współczynnikami mocy dyskryminacyjnej. Pozycja; jest pozycją bardziej dyskryminatywną niż pozycja i, bowiem w jej wypadku krzywa ICC gwałtowniej rośnie. Wartości parametru a mogą teoretycznie zawierać się w przedziale (-00, +<»), jednak praktycznie najczęściej mieszczą się między 0,5 i 2,5 (Osterlind, 1983, s. 61; Camilli, Shepard, 1994, s. 53). Parametr b. Współczynnik b, czyli trudność pozycji testowej, jest reprezentowany na wykresie przez wartość P(Q) dla danej wartości 014. Wartości tego współczynnika mieszczą się najczęściej w przedziale od -1,5 do +1,5. Wartość 0,0 oznacza pozycję o optymalnej trudności, tj. takiej, dla której prawdopodobieństwo udzielenia odpowiedzi prawidłowej wynosi 50% (Osterlind, 1983, s. 61; Camilli, Shepard, 1994, s. 51). Wysoka dodatnia wartość współczynika b oznacza, że dana pozycja testowa jest bardzo trudna. I odwrotnie, wysoka ujemna wartość współczynika b oznacza, że dana pozycja testowa jest bardzo łatwa. Na rys. 5.7 przedstawiono dwie krzywe ICC różniące się współczynnikami trudności. Krzywa j, której punkt prze- Rys. 5.7. Dwie krzywe ICC różniące się współczynnikami trudności pozycji testowej (na podstawie Camilli, Shepard, 1994, s. 52) 1,00- - 0,75 - - 0,50 0,25- Prawdopodobieństwo sukcesu (P) • -3 -2 -1 0 +1 +2 +3 14 Dokładnie rzecz biorąc, współczynnik b jest równy wartości w punkcie P(8) = (l +c)/2, 198 gdzie c oznacza współczynnik zgadywania (Camilli, Shepard, 1994, s. 51). Konstruowanie testu - podstawowe procedury gięcia przypada w punkcie 9=1,0 (jest bardziej przesunięta na prawo), obrazuje pozycję trudniejszą. Dla tej wartości 9 prawdopodobieństwo udzielenia odpowiedzi prawidłowej na pozycję i wynosi około 0,85, a na pozycję / - 0,50. Pozycja i jest zatem znacznie łatwiejsza. To samo możemy stwierdzić, wykreślając na rys. 5.7 prostą równoległą w punkcie /J(9) = 0,5 (tj. przyjmując, że prawdopodobieństwo poprawnej odpowiedzi wynosi 50%). W tym przypadku widzimy, że udzielenie prawidłowej odpowiedzi na pozycje / wymaga mniejszego poziomu zdolności (cechy latentenej 9) niż na pozycję j. Pozycja i jest zatem łatwiejsza. Linią przerywaną zaznaczono pozycję o optymalnej trudności (maksymalne różnicowanie - P(9) = 0,50 dla 9 = 0,0). Parametr c. Parametr c reprezentuje prawdopodobieństwo, z jakim osoba badana o niskich wartości cechy latentnej może odpowiedzieć poprawnie na daną pozycję testową. Parametr ten zazwyczaj nazywa się współczynnikiem zgadywania, jako że przyjmuje się, iż osoba badana udzieliła odpowiedzi prawidłowej, stosując strategię nie wynikającą z posiadanej wartości. Graficznie współczynnik zgadywania jest reprezentowany za pomocą dolnej asymp-toty krzywej ICC. W typowej sytuacji testowania prawdopodobieństwo to oblicza się jako l/m, gdzie m oznacza liczbę możliwych kategorii. Jednakże w wypadku krzywych ICC wartość ta rzadko będzie równa l/m. W IRT bowiem przyjmuje się, iż badany, zgadując prawidłową odpowiedź, nie czyni tego w sposób losowy15 (Osterlind, 1983, s. 61). Ponieważ współczynnik zgadywania jest tożsamy z prawdopodobieństwem udzielenia odpowiedzi prawidłowej, dlatego przybiera on wartości od 0,00 do 1,00. W praktyce współczynnik ten najczęściej mieści się w przedziale od 0,00 do 0,40. Im mniejsza wartość c, tym oczywiście lepiej dla testu. Na rys. 5.8 przedstawiono dwie krzywe ICC różniące się współczynnikami zgadywania. Dolna asymptota krzywej j wypada w punkcie P(Q) = 0. Można zatem przyjąć, że współczynnik c dla tej pozycji równa się zero. Natomiast w przypadku pozycji i dolna asymptota krzywej ICC wypada w punkcie P(9) = 0,25 i tyle też wynosi współczynnik zgadywania dla tej pozycji. Krzywe ICC zastępują występujące w klasycznej teorii testów tradycyjne wskaźniki formalne charakteryzujące pozycje testowe, tj. trudność, współczynnik mocy dyskryminacyjnej oraz współczynnik zgadywania. Przewaga krzywych ICC nad klasycznymi wskaźnikami dobroci pozycji testowych polega na tym, że na ich podstawie można określić zależność między prawdopodobieństwem poprawnej odpowiedzi na konkretną pozycję testową a różnymi wartościami cechy latentnej. Modele formułowane w ramach IRT Istnieje wiele matematycznych sposobów (modeli) opisywania krzywych ICC. Modele te zależą od matematycznych postaci funkcji opisujących 15 Por. uwagi na temat losowego modelu zgadywania w części poświęconej współczynnikowi trudności. 199 Rozdział 5 krzywe ICC. Najczęściej opisywane modele to modele ogivy rozkładu normalnego (tymi funkcjami są funkcje skumulowanego rozkładu normalnego) oraz jedno-, dwu- i trójparametryczny model logistyczny (oparte na funkcjach logistycznych). Do bardziej znanych należy również tzw. model Rascha, często traktowany jako odmiana jednoparametrowego modelu logistycznego (por. też Hornowska, 1980). Każdy z tych modeli ma określone zalety i ograniczenia. Najbardziej obiecującym z punktu widzenia przydatności do badania stronniczości pozycji testowych jest model trójparametryczny. Model trójparametryczny. Model trójparametryczny jest modelem najogólniejszym, sformułowanym po raz pierwszy przez Birnbauma (1968). W modelu tym przyjmuje się, że prawdopodobieństwo udzielenia odpowiedzi prawidłowej na daną pozycję testową zależy od trzech parametrów charakteryzujących pozycję testową: trudności pozycji, jej mocy dyskryminacyjnej 200 Rys. 5.8. Dwie krzywe ICC różniące się współczynnikami zgadywania (na podstawie Camilli, Shepard, 1994, s. 55) Prawdopodobieństwo sukcesu (P) 1,00 ? - 0,75- - 0,25 Pozycja testowa i 0,50- Pozycja testowa j Poziom zdolności (6) -3 -2 +1 +2 Konstruowanie testu - podstawowe procedury oraz współczynnika zgadywania16. Związek między prawdopodobieństwem udzielenia odpowiedzi prawidłowej a pozycją osoby badanej na kontinuum cechy latentnej jest funkcją logistyczną i wyrażany jest w następującej postaci (por. ibidem, s. 405): I- l+e "• gdzie: c, to współczynnik zgadywania dla i-tej pozycji, bt to współczynnik trudności, a( to współczynnik mocy dyskryminacyjnej, a D to stała ma-ksymizująca dopasowanie krzywej logistycznej do ogivy rozkładu normalnego; D=l,7 (por. Hulin, Drasgow, Parsons, 1983, s. 29). Przypomnijmy: wartości wszystkich trzech parametrów są ustalane empirycznie. Poważnym problemem praktycznym związanym z szacowaniem wartości poszczególnych parametrów w modelu trójparametrycznym jest matematyczna trudność tych obliczeń, a także ich ilość. Najczęściej bowiem, aby rzetelność obliczeń była zadowalająca, trzeba przetworzyć dane uzyskane z przebadania przynajmniej 1000 osób. Czynnikiem ułatwiającym praktyczne szacowanie odpowiednich parametrów omawianego modelu są odpowiednie programy komputerowe. Do najbardziej znanych należy program LOGIST, który został opracowany w Edu-cational Testing Service, a także MULTILOG, który ma już swoją wersję dla systemu Windows. Program ten pozwala na jednoczesne obliczenie parametrów ah bh i c, metodą największej wiarygodności, za pomocą serii iteracyjnych procedur. Podsumujmy: pomiar psychologiczny jest pomiarem pośrednim. Pozycję danej osoby na kontinuum cechy, która nie jest bezpośrednio obser-wowalna (kontinuum latentne), możemy określić tylko na podstawie jej zachowania w ściśle określonych zadaniach. Aby to można było zrobić, musimy dysponować modelem wiążącym konstrukt psychologiczny (cechę latentną) z poziomem zachowań. W wypadku klasycznej teorii testów model ten jest prosty. Przypomnijmy: przyjmuje się w niej, że wynik, jaki otrzymała dana osoba w teście, jest sumą dwóch składowych - wyniku prawdziwego tej osoby i błędu pomiaru. Model ten jednak ma swoje ograniczenia. I tak wynik prawdziwy określany jest tylko w stosunku do konkretnego zbioru pozycji testowych, a statystyczne właściwości pozycji testowych nie są bezpośrednio wiązane z zachowaniami testowymi (por. Embretson, 2000, s. 60). W teorii odpowiadania na pozycje testu buduje się modele wiążące poziom nieobserwowalnej cechy psychologicznej z odpowiedzią na każdą kolejną 16 W modelu dwuparametrycznym przyjmuje się, że współczynnik zgadywania wynosi zero, a w modelu jednoparametrycznym bierze się pod uwagę tylko współczynnik trudności pozycji testowej i przyjmuje się, że współczynnik mocy dyskryminacyjnej jest taki sam dla wszystkich pozycji. 201 Rozdział 5 202 pozycję testową. Zaletą tych modeli jest to, że poziom mierzonej cechy może zostać oszacowany na podstawie każdej pozycji testowej pod warunkiem, że znane są jej parametry, a statystyczne właściwości tych pozycji są bezpośrednio wiązane z zachowaniami testowymi (ibidem). Gdzie wykorzystuje się modele IRT? Modele formułowane w ramach IRT są dzisiaj szeroko wykorzystywane. Typowym przykładem ich zastosowania są adaptacja językowa testu, testowanie adaptacyjne (interakcyjne) i szacowanie stronniczości pozycji testowych. Zastosowanie modeli IRT do tłumaczeń językowych. W ramach IRT podejmowane są próby teoretycznego ujęcia problematyki oceny równoległości tłumaczeń. Analiza tłumaczeń w ramach IRT oparta jest na określaniu podobieństw związku między odpowiedziami na pozycje testowe a leżącą u ich podstaw cechą latentną dla dwóch języków (języka oryginału i języka tłumaczenia). O równoległości oryginalnej pozycji testowej i pozycji przetłumaczonej decyduje podobieństwo krzywych ICC wyznaczonych dla tych pozycji (por. Hulin, Drasgow, Parsons, 1983). Testowanie adaptacyjne (interakcyjne). Konstruktorzy testów psychologicznych zainteresowani są zazwyczaj stworzeniem metody obejmującej szeroki zakres wartości interesujących ich charakterystyk. Jest to możliwe dzięki dobieraniu pozycji testowych o zróżnicowanym współczynniku trudności w taki sposób, aby średnia ich trudność oscylowała wokół 50%. Niezamierzoną konsekwencją takiego doboru pozycji testowych jest konieczność odpowiadania przez osobę badaną na wiele pozycji zbyt łatwych lub zbyt trudnych. Pomijając samą czasochłonność takiej procedury (zarówno w wypadku osoby badanej, jak i badającej), może on powodować u osoby badanej spadek motywacji do rzetelnego odpowiadania na pozycje testu. Celem testowania adaptacyjnego jest prezentowanie osobie badanej jedynie takich pozycji testowych, których trudność odpowiada poziomowi mierzonej cechy latentnej. Dzięki temu dana osoba odpowiada jedynie na taki zestaw pozycji testowych, który w optymalny sposób pozwoli określić właściwy dla niej poziom mierzonej cechy (por. Hulin, Drasgow, Parsons, 1983). Zastosowanie modeli IRT do szacowania stronniczości pozycji testowych. Strategia badania stronniczości pozycji testowych wywodząca się z IRT polega na porównywaniu krzywych ICC opisujących daną pozycję testową, a otrzymanych dla dwóch różnych grup osób należących do tej samej populacji. I tak „(...) zbiór pozycji testowych możemy traktować jako zbiór bezstronny, jeżeli krzywe ICC wyznaczone dla każdej pozycji testowej tworzącej ten zbiór będą takie same dla obu rozważanych grup należących do tej samej populacji" (Crocker, Algina, 1986, s. 377). Tak więc, w ramach IRT stronniczość pozycji testowych definiowana jest jako różnica między krzywymi ICC otrzymanymi dla dwóch grup (np. etnicznych), wyłonionych z tej samej populacji i nie różniących się ogólnym poziomem zdolności (wartością 8). Konstruowanie testu - podstawowe procedury Najczęściej stosuje się dwie miary stronniczości: (1) wielkość przestrzeni między krzywymi ICC (Rudner, 1980) oraz (2) test hipotezy o równości trzech parametrów w porównywanych grupach (Lord, 1977; 1980). Na rys. 5.9 przedstawiono trzy hipotetyczne sytuacje, w których stronniczość pozycji testowej przypisy wana jest (a) różnej mocy dyskryminacyjnej pozycji testowej w obu grupach, (b) różnej trudności i (c) różnym współczynnikom zgadywania (por. też Hornowska, 1999). Stosowanie item response theory jako modelu teoretycznego dającego podstawę do konstrowania konkretnych technik szacowania stronniczości pozycji testowych jest najbardziej dojrzałym rozwiązaniem z wszystkich proponowanych w literaturze przedmiotu. Podstawową barierą utrudniającą jego szerokie stosowanie jest matematyczna złożoność obliczeń. Można mieć jednak nadzieję, że przy dzisiejszym tempie rozwoju oprogramowania komputerowego ta przeszkoda szybko zniknie (dostępnych jest już kilka programów obliczeniowych), a wówczas - nie tylko w omawianym przez nas Rys. 5.9. Trzy hipotetyczne sytuacje, w których stronniczość pozycji testowych wynika z (a) różnej mocy dyskryminacyjnej pozycji testowej w obu grupach, (b) różnej trudności i (c) różnego współczynnika zgadywania (na podstawie Hulin, Drasgow, Parsons, 1983, s. 176) Pozycja testowa i \ Pozycja testowa j (8) Pozycja testowa / \ Pozycja testowa / Pozycja testowa; (0) 203 Rozdział 5 obszarze zagadnień - teoria odpowiadania na pozycje testu, czyli item response theory, zastąpi klasyczną teorię testów. Podstawowe pojęcia: • analiza zadań • krzywa charakterystyczna pozycji testowej • moc dyskryminacyjna • poprawka na zgadywanie • pozycje testowe • teoria odpowiadania na pozycje testu • walidacja krzyżowa • wskaźnik dyskryminacji • wskaźnik trudności • współczynnik korelacji dwuseryjnej • współczynnik korelacji punktowo-dwuseryjnej • współczynnik korelacji punktowo-czteropolowej • zróżnicowane funkcjonowanie pozycji testowych Literatura zalecana Anastasi A., Urbina S. (1999). Testy psychologiczne. Warszawa: Pracownia Testów Psychologicznych Polskiego Towarzystwa Psychologicznego. Brzeziński J. (1996). Metodologia badań psychologicznych. Warszawa: Wydawnictwo Naukowe PWN. HornowskaE. (1999). Stronniczość testów psychologicznych. Problemy - kierunki - kontrowersje. Poznań: Wydawnictwo Fundacji Humaniora. ~Piii - (.? ty^jwch r^"te'*c,3/s<ł^ r*-j5V«„c. 'V ?b«o i^*dą tahe ?iairse~.\^'^?<); * •./»»!"- % te i" „?, pf IRi Lł,iv»-vj7.» sr"C otf? Osoby badane testami psychologicznymi mają prawo do: do wyrażenia świadomej zgody na badanie testem do informacji o wynikach testowania do minimalizowania skutków etykietowania do zachowania tajemnicy o wynikach testowania do prywatności 6.3. TESTY PRZED SĄDEM Czy obserwowane różnice w wynikach testowych odzwierciedlają rzeczywiste różnice w poziomie mierzonej cechy? To pytanie było i jest pytaniem najczęściej zadawanym przez osoby, które z różnych powodów chciały (czy też musiały) poddać się testowaniu. Profesjonaliści są świadomi, że odpowiedź na to pytanie nie jest taka prosta. Sami wcześniej spytają: jaki to był test, na jakiej grupie został wystandaryzowany, jaka grupa była podstawą obliczenia norm, wreszcie pytają o trafność i rzetelność metody. Opinia publiczna oczekuje natomiast gwarancji, że decyzje podejmowane na podstawie wyników testowych są „uczciwe". Ponieważ takie gwarancje (jakkol- 217 Rozdział 6 218 wiek by rozumieć pojęcie „uczciwości") nigdy nie będą bezwarunkowe, testy i testowanie nie budzą społecznego zaufania. Jednym ze świadectw takiego stanu rzeczy są liczne sprawy sądowe (głównie w USA - choć sądzę, że nas one również nie ominą), w których stroną oskarżoną były testy. No właśnie: testy czy ich amatorskie stosowanie? Warto zatem prześledzić kilka najgłośniejszych spraw, aby samemu ocenić, po której stronie należy się opowiedzieć: zwolenników czy przeciwników testowania. Jedną z pierwszych spraw tego typu była sprawa Hobson vs. Hansen (1967; za: Cohen, Swerdlik, 1999, s. 71). W jednej ze szkół, która miała być wolna od problemu segregacji rasowej i w której - na podstawie wyników testów inteligencji - przydzielano dzieci do odpowiedniej klasy (dla lepiej lub gorzej uczących się), doszło do ponownego ujawnienia się problemu rasowego. Okazało się bowiem, że wszyscy czarni uczniowie znaleźli się w klasach przeznaczonych dla dzieci wolniej uczących się. Sąd Najwyższy uznał, że testy, które zostały wystandaryzowane na populacji dzieci białych, zostały bezprawnie wykorzystane jako podstawa umieszczenia dzieci pochodzenia murzyńskiego w tych klasach. Kolejnym, głośnym przypadkiem była wspomniana już wyżej sprawa Diana vs. California State Board of Education (1970), która została wniesiona do sądu po tym, jak dziewięcioro dzieci hiszpańskiego pochodzenia trafiło do szkoły specjalnej ze względu na orzeczony u nich niski iloraz inteligencji (od 30 II do 72 II). Tymczasem po powtórnym przetestowaniu - tym razem w języku hiszpańskim - siedmioro z nich poprawiło swoje wyniki przeciętnie o 15 pkt. (tj. o jedno odchylenie standardowe!) i znalazło się ponad poprzeczką kwalifikującą do szkoły specjalnej (por. Camilli, Shepard, 1994). Podobną sprawą był przypadek Larry P. vs. Riles (1979; za: Cohen, Swerdlik, 1999, s. 71), która wynikła wskutek skierowania sześciorga dzieci murzyńskich do klas specjalnych. Podstawą tego skierowania były wyniki w testach inteligencji. Kiedy jednak wszystkie dzieci zostały powtórnie przebadane tym samym testem, w którym zmieniono tylko sposób sformułowania niektórych pytań, by uwzględnić kulturowe pochodzenie badanych, okazało się, że dzieci poprawiły swoje wyniki od 17 do 38 pkt. W efekcie cała szóstka została przeniesiona do zwykłych klas. Sędzia prowadzący tę sprawę stwierdził, że umieszczenie dzieci w klasach specjalnych było niezgodne z konstytucją, ponieważ „testy są rasowo i kulturowo stronnicze". Od decyzji tej władze stanu złożyły odwołanie, jednak została ona w roku 1984 podtrzymana. Konsekwencją tej sprawy był całkowity zakaz stosowania testów inteligencji wobec dzieci murzyńskich w stanie Kalifornia. W efekcie mimo próśb rodziców, którzy świadomi byli tego, że ich dzieci mają kłopoty i że przetestowanie być może pozwoliłoby na określenie przyczyn tego zjawiska oraz wybranie właściwego sposobu kształcenia, przeprowadzenie testu nie było możliwe. Paradoksem w całej tej sprawie jest to, że w roku 1992, w procesie wytoczonym przez czarnych rodziców, Społeczny kontekst stosowania testów psychologicznych którzy domagali się, aby ich dzieci zostały poddane testowaniu, sąd ustąpił częściowo ze swojego stanowiska - por. też Seligman (1995, s. 208). Co więcej, jednej z matek - z pochodzenia Meksykance - zaproponowano, aby uznała, ze jej syn jest również Latynosem (miał ojca Murzyna), i w ten sposób uzyskała możliwość legalnego przetestowania swojego syna! Sprawy sądowe, w których oskarżano testy, toczyły się nie tylko „w obszarze" edukacji. Podobne sprawy miały miejsce zwłaszcza tam, gdzie testy wykorzystywano w procedurze rekrutacji przyszłych pracowników. Tu również podstawowym zarzutem był zarzut dyskryminacji rasowej, której szukano w wynikach testowych. Z tego punktu widzenia szczególnie ciekawe wydają się dwa wyroki. Pierwszy z nich zapadł w sprawie Griggs vs. Duke Power Company (1971; za: Cohen, Swerdlik, 1999, s. 72). Czarni pracownicy oskarżyli prywatną wytwórnię papieru o dyskryminacyjne praktyki przy przyjmowaniu do pracy. Procedura rekrutacyjna wymagała bowiem przedstawienia świadectwa ukończenia szkoły średniej oraz rozwiązania testu zdolności ogólnych. W efekcie do pracy przyjmowano tylko niewielką liczbę osób pochodzenia murzyńskiego. Sąd Najwyższy zgodził się z powodami, stwierdzając, że w tym przypadku „zakres testowanych umiejętności był zbyt szeroki" i że „testy powinny uczciwie mierzyć taki zakres wiedzy i umiejętności, który jest wymagany na konkretnym stanowisku". Zdaniem sądu „testy powinny określać daną osobę z punktu widzenia podejmowanej przez nią pracy, a nie w kategoriach ogólnych i abstrakcyjnych, niezależnych od tego". Drugi interesujący wyrok został podjęty w prawie Allen vs. District of Columbia (1993; za: Cohen, Swerdlik, 1999, s. 72). Ten przypadek dotyczył wykorzystywania wyników testów psychologicznych w decyzjach dotyczących awansów pracowników w jednostkach straży pożarnej. Test, który rozwiązywali pracownicy, nie był testem zdolności ogólnych, a zawierał pytania dotyczące różnych aspektów pracy w pożarnictwie. Czarni pracownicy wypadali w nim generalnie gorzej niż biali, czego rezultatem były rzadsze awanse w tej grupie pracowników. Jednakże kierownictwo Straży Pożarnej udowodniło, że zebrane zostały odpowiednie dane walidacyjne i test posiada wysoką trafność prognostyczną. W tym wypadku sąd uznał zasadność stosowania testu jako elementu polityki dotyczącej awansów, stwierdzając: „(...) ponieważ test okazał się trafną miarą zdolności i ewentualnego przyszłego sukcesu badanych nim osób, dlatego też zostaje uznany za prawomocny element polityki zatrudnienia prowadzonej przez Departament Straży Pożarnej" (ibidem). Czy przedstawione tu sprawy pozwalają na wyciągnięcie jednoznacznych wniosków? Wydaje się, że wszystkie one miały przynajmniej jedną cechę wspólną. Tak naprawdę bowiem to nie generalnie testy jako narzędzia poznania poddawano krytyce, a negowano ich trafność w konkretnych zastosowaniach. Tam, gdzie szkoła lub pracodawca potrafili wykazać, że stosowane przez nich metody są trafne, sądy zazwyczaj odrzucały oskarżenia. 219 Rozdział 6 Niechlubnym wyjątkiem jest stan Kalifornia, w którym sędzia federalny jest osobiście nieprzejednanym wrogiem testów, i to jego decyzje doprowadziły do tego, że część mieszkańców stanu (pochodzenia murzyńskiego) pozbawiona została legalnej możliwości testowania. Czyż nie jest to również przejaw dyskryminacji? Czy zrezygnowanie z testów zmieni politykę władz szkolnych lub przedsiębiorstw, sprawiając, że stosowane procedury będą uczciwe społecznie? Jak pisze Seligman (1995, s. 212), „wyeliminowanie testów nie będzie oznaczać, że nie ma już potrzeby różnicowania ludzi, np. wśród uczniów na słabszych, którym są potrzebne zajęcia wyrównawcze, i lepszych, którzy mają szansę na uzyskanie stypendiów, czy potrzeby orzekania, który z dorosłych ubiegających się o pracę maszynisty w General Electrics nadaje się do tego zawodu. Pierwszym skutkiem wyeliminowania formalnych testów byłyby od razu nieformalne, mnie precyzyjne lub wyjątkowo stronnicze rozwiązania, takie jak rozmowy z kandydatami do pracy lub stopnie stawiane przez nauczycieli". W ciągu ostatnich 10 lat uchwalono w Stanach Zjednoczonych ponad 30 aktów prawnych dotyczących procedur stosowanych przez instytucje, które przeprowadzają badania testowe. Jednakże jak się wydaje, problem leży nie tylko w prawnej ochronie interesów osób, które są poddawane testom, a w profesjonalnym przygotowaniu osób, które testy stosują. Uchwalona właśnie w Polsce Ustawa o zawodzie psychologa i samorządzie zawodowym psychologów skutecznie reguluje ten problem. Prawo do stosowania testów psychologicznych i do orzekania na podstawie ich wyników mają dyplomowani psychologowie. Powinno to wyeliminować z rynku nieprofesjonalistów, stosujących bez zastanowienia testy psychologiczne przy każdej okazji6. Miejmy nadzieję, że realizacja Ustawy o zawodzie psychologa sprawi, że przynajmniej część spraw sądowych będziemy znać tylko ze źródeł amerykańskich. Nie da się bowiem „w sposób kompetentny określić, czy zamierzone zastosowanie testu jest «poprawne» (jakąkolwiek przyjmie się tu definicję), jeśli samemu nie dysponuje się odpowiednimi umiejętnościami technicznymi oraz wiedzą konieczną do oszacowania trafności wniosków różnych typów" (Standardy..., 1985a, s. 68). 6.4. TESTY JAKO PRODUKTY RYNKOWE Testowanie - wykorzystywane w klinice czy w szkole - przestało być usługą, o której zainicjowaniu decydują psychologowie-specjaliści. Powstał rynek usług profesjonalnych, adresowanych do przedsiębiorstw i organizacji. Dziś nikogo nie dziwi mnogość firm zajmujących się audytem kadrowym, 220 6 Nierzadko można przeczytać w naszej prasie takie informacje: „Testy stały się powszechnym narzędziem prześwietlania kandydatów", „Kandydaci nie są już zdziwieni zaproszeniem do pisaińa testu, }ak tywa\o V\\ka \at lemu. (,..} Dx\s\aj Yiawtydal mole spodziewać się wszystkiego" czy „Ponad 4 godziny razem z 11 osobami rozwiązywaliśmy kilkadziesiąt stron testów" (Rzeczpospolita, 11 lipca 2001 r., dodatek „Moja kariera"). Społeczny kontekst stosowania testów psychologicznych doradztwem personalnym, rekrutacją i selekcją. Podobnie jak w wypadku leków, tylko część testów można kupić wyłącznie „na receptę" wystawioną przez specjalistę, a część bez niej. Psychologom odebrany został monopol decydowania o zakresie stosowania tworzonych przez nich narzędzi i dziś znaleźli się w mniejszości. Instytucje zajmujące się testowaniem niczym się dzisiaj nie różnią od innych firm w chęci zwiększania wielkości sprzedaży swoich usług, jak i osiąganych z tego powodu zysków. Podobnie jak inne przedsiębiorstwa, odwołują się do promocji swoich usług, i to one w przeważającej mierze kształtują społeczny obraz testowania. O tym więc, czego kupuje się najwięcej, decydują klienci. Ich rozumienie korzyści wynikających ze stosowania testów może być i jest zupełnie odmienne od tego, jak widzą je specjaliści. Od tego momentu już nie psychologowie, ale właśnie ich klienci kształtują rynek testów psychologicznych. Klasyczną korzyścią z wolnego rynku jest większa skuteczność, wynikająca ze specjalizacji, bowiem każdy z uczestników transakcji może skoncentrować się na tym, co umie najlepiej (a na to wskazują m.in. jego powodzenie rynkowe i zyski). Jednakże wolny rynek testów wydaje się równie niebezpieczny, jak wolny rynek usług medycznych - przedmiot usługi jest na tyle skomplikowany, że klient nie jest w stanie rozpoznać, czy otrzymuje produkt wysokiej jakości, czy też bubel, niezależnie od odczuwanego subiektywnie zadowolenia7. Cały więc proces - z założenia nieregulo-wany - może łatwo wymknąć się spod kontroli, szczególnie gdy idzie o jego społeczne konsekwencje (por. też Jaworowska, 2000). Zdaniem niektórych krytyków rynkowa natura dzisiejszego testowania jest już wystarczającym powodem, aby to społeczne konsekwencje testowania, a nie rozważania na temat technicznych rozwiązań, stały się podstawowym problemem psychometrii (Sternberg, 1992). Sprzedawanie testów jest bowiem bardziej społecznie niebezpieczne niż sprzedawanie jakiekolwiek innej usługi. Jeżeli testy jako produkty rzeczywiście są poddawane oddziaływaniom rynkowym, to zrozumienie praw rządzących rynkiem testów pozwoli lepiej kontrolować ich stosowanie. Taką diagnozę współczesnego rynku testów przedstawił Sternberg (1992). Może się ona wydawać zbyt daleko idąca, bo przyznająca klientom - a nie tylko psychologom - prawo do kształtowania rynku testów psychologicznych. Buduje ona jednak odmienny punkt widzenia niż tradycyjne debaty nad społecznymi konsekwencjami testowania, dlatego też warto przyjrzeć się bliżej przedstawionej w niej argumentacji. Jakich korzyści oczekują klienci - to pytanie, na które należy odpowiedzieć przede wszystkim. A współczesny klient - przekonany o społecznej zasadności testowania - chciałby, aby testy psychologiczne gwarantowały (Sternberg, 1992, s. 135; Moreland i inni, 1995; też APA, 1985b, s. 85-89): 1) przewidywanie osiągnięć; podstawowym celem stosowania testów psychometrycznych (zwłaszcza testów inteligencji) było i będzie Bo może być ono dowolnie kształtowane przez sprzedawcę (producenta). 221 Rozdział 6 przewidywanie osiągnięć czy to szkolnych, czy to w wykonywaniu określonego zawodu. Klienci oczekują zatem, aby na podstawie wyników testowa nia można było dokonywać trafnego prognozowania, a odpowiedzialność za to, czy jest ono uzasadnione, spoczywa na twórcy - producencie testu; 2) stabilność wyników; klienci oczekują, że testy będą dawały wyniki relatywnie stabilne w czasie. Nikt nie ma dość czasu i pieniędzy, aby wielokrotnie powtarzać badania testowe - i dlatego aby testy były użyteczne z punktu widzenia klienta, powinny posiadać wysoką rzetelność, rozumianą jako wiarygodność i ocenianą na podstawie porównywania wyników dwukrotnych badań tym samym testem (rzetelność typu test-retest); 3) właściwą normalizację i s t and ar y zacj ę; ponieważ klasyczna interpretacja psychometryczna polega na odwoływaniu się do norm opracowanych dla odpowiednich grup odniesienia, rzeczą istotną jest, aby grupy te zostały właściwie zdefiniowane, a testy wyposażone w normy pozwalające na rzetelną ocenę każdej (potencjalnej) osoby badanej. Zdaniem więc klientów wszystkie testy pojawiające się na rynku powinny posiadać właściwe i reprezentatywne normy. Jednocześnie niska świadomość specyfiki pomiaru psychologicznego powoduje, że klienci albo nie są świadomi wagi posiadania przez test adekwatnych norm, albo apriorycznie zakładają, że proponowane im testy takie normy posiadają; 4) łatwość stosowania; w bardzo wielu przypadkach badanie testowe ma charakter grupowy (np. sprawdzanie zakresu posiadanej wiedzy) i jest prowadzone przez osoby posiadające co najwyżej niewielką wiedzę z zakresu psychologii. Testy winny być zatem łatwe w stosowaniu, nie powinny wymagać osobistego zaangażowania, a także posiadać „ukrytych niespodzianek"; 5) łatwość interpretacji; osoby interpretujące wyniki testowe (np. urzędnicy) często posiadają niewielką wiedzę o zasadach interpretacji psychometrycznej. Testy zatem powinny posiadać jasno i wyraźnie określone zasady interpretacji, które nie powinny być czasochłonne i powinny umożliwiać ich stosowanie również przez laików. Adresaci nawet fachowych orzeczeń psychologicznych nie muszą i nie chcą orientować się w złożoności interpretacji. Oczekują jasnych i jednoznacznych diagnoz, pozwalających na formułowanie jednoznacznych rekomendacji, związanych z ich problemami (konkretnych więc, a nie ogólnych); 6) obiektywną punktację; testy powinny posiadać tak opracowane klucze oceny odpowiedzi, aby osoby je stosujące nie musiały podejmować dyskusji z rodzicami czy z samymi zainteresowanymi klientami na temat tego, ile punktów jest warta dana odpowiedź. Liczbowe interpretacje wyników testowych nie mogą podlegać żadnym kompromisom; 7) brak stronniczości; każda nowa metoda wprowadzana na rynek 222 jest spostrzegana jako narzędzie pomiarowe uczciwe i bezstronne w sto- Społeczny kontekst stosowania testów psychologicznych sunku do wszystkich grup społecznych. Dlatego też każda metoda powinna zostać sprawdzona ze względu na potencjalną jej stronniczość; 8) uzasadnione koszty stosowania; testy powinny gwarantować otrzymywanie informacji wartych kosztów ich zastosowania. W przeciwnym wypadku należy je zastąpić innymi metodami; 9) ochronę wyników; wyniki testów psychologicznych nie powinny być udostępniane bez zgody zainteresowanych żadnej osobie czy instytucji; 10) sądową kontrolę decyzji administracyjnych; wyniki testów psychologicznych muszą się dawać obronić, gdyby decyzje podjęte na ich podstawie trafiły do sądów. Lista ta nie jest wyczerpująca i nie opisuje każdego przypadku stosowania testów psychologicznych. Jest ona jednak -jak się wydaje - reprezentatywna dla sposobu myślenia i rodzaju oczekiwań klientów. Można oczywiście opracować inne kryteria - np. wskazać jako ważne podstawy teoretyczne testu czy rodzaj zebranych danych empirycznych - jednakże nie zmieni to istoty sprawy. Testy, analizowane z rynkowego punktu widzenia - jak twierdzi Sternberg (1992, s. 136) - „radzą sobie zadziwiająco dobrze". W Polsce jednak sytuacja nie jest tak dobra. Masowe stosowanie testów (zwłaszcza dla celów selekcyjnych), najczęściej bez właściwego psychometry-cznego opracowania (brak prac adaptacyjnych, a jedynie proste tłumaczenie, brak norm krajowych, nieznana trafność testu, brak danych na temat rzetelności i stronniczości testu8), sprawia, że nasz rynek testów jest kształtowany przez źle opracowane metody, stosowane przez często niekompetentne osoby. Oceniając stosowane w Polsce testy z rynkowego punktu widzenia, widać wyraźnie, że istnieje ogromna przepaść między wymaganiami psychometrycznymi i oczekiwaniami klientów a jakością oferowanego im produktu. Nic też dziwnego, że testy zyskują sobie złą opinię9. Sytuację tę pogarsza agresywny marketing testów, który zaowocował produkcją złych metod o atrakcyjnych nazwach i składanie fałszywych obietnic klientom (por. też Paluchowski, 1991, s. 100). Zaproponowany przez Sternberga (1992) rynkowy sposób oceniania testów (konieczność spotkania się oczekiwań klientów i aktualnego statusu psycho-metrycznego testów) może wydawać się budowaniem przewagi marketingowego punktu widzenia nad psychologicznym. Jednakże powstanie rynku testów psychologicznych jest faktem, i nie ma już od niego odwrotu. Klienci, przekonywani przez producentów, kupować będą to, o czym sądzą, że realizować będzie ich potrzeby. Brak specjalistycznej wiedzy uniemożliwia im pełne rozpoznanie, czy i w jakim stopniu potrzeby te zostały zaspokojone. Tak więc 8 Standardowe procedury opracowywania testów nie zawsze bowiem odwołują się do metodologii badania stronniczości, a autorzy metod testowych nie potrafią przedstawić obiektywnych danych gwarantujących uczciwe stosowanie testu. 9 Por. liczne teksty publicystyczne na temat testów psychologicznych stosowanych w Polsce, np. artykuł pt. Pisana kariera, pióra Grzegorza Warchoła, zamieszczony w Polityce (nr 10, 1999). 223 W Rozdział 6 i na tym rynku grozi nam, że „zły pieniądz wypierać będzie dobry pieniądz". Nigdy nie będzie już tak, że rynek testów będzie kształtowany wyłącznie przez ich autorów - utracili oni realny wpływ na praktykę testowania. Trudno nie zgodzić się ze Sternbergiem (1992, s. 139), że postęp w dziedzinie testowania jest możliwy jedynie wówczas, kiedy autorzy testów psychologicznych zrezygnują z realizacji wąsko definiowanych celów i zwłaszcza w dziedzinie testowania poziomu funkcjonowania intelektualnego będą świadomi „szerokich horyzontów, jakie rozciągają się przed nimi" (ibidem). Tylko wówczas, kiedy publikowane testy nie będą jedynie odpowiedzią na oczekiwania rynku - można będzie mówić o rzeczywistym wpływie psychologów na sztukę testowania. Nie wystarczy już więc wzgardliwy stosunek do sprymi ty wizowanej, komercyjnej praktyki - trzeba stanąć w szranki z armią hochsztaplerów i nauczyć się komunikować szerokiej publiczności, jakimi kryteriami powinna się kierować, aby mieć gwarancję, że kupiła dobre testy. Jaka jest zatem przyszłość testów psychologicznych? Zdaniem Matarazzo (1992) testy jako narzędzie poznania psychologicznego umocnią swoją pozycję. Będą wykorzystywane do diagnozowania sytuacji społecznie ważnych (np. poczucia alienacji płynącego z utraty pracy) i będą generalnie nastawione na ocenę umiejętności radzenia sobie z wymaganiami dynamicznie zmieniającego się środowiska. Przedmiotem diagnozowania przestaną być wąskie umiejętności, a istotą pomiaru psychologicznego stanie się kompetencja adaptacyjna jednostki. Nastąpi także przesunięcie punktu zainteresowania - zarówno psychologów, jak i ich klientów - z prognozowania na podstawie stwierdzanego status quo jednostki na możliwość profilaktyki zaburzeń zachowania i pr omocj i psychologicznej jakości życia (ibidem, s. 1015). Nowa epoka testów psychologicznych to epoka metod wykorzystujących dorobek neuropsychologii i psychologii poznawczej (por. też Daniel, 1997). Już dziś pisze się o nowej generacji testów (Hambleton, Zaal, 1991). Zdaniem wielu autorów (por. np. Hambleton, Rogers, 1991; Haney, Madaus, 1991; Sternberg, 1992) źródłem nowych propozycji dla psychometrii powinien być przede wszystkim dorobek psychologii poznawczej. Proponuje ona bowiem inne spojrzenie na problematykę inteligencji, i tym samym pozwala na konstruowanie nowej generacji testów, zwłaszcza dla celów selekcyjnych. Doskonalenie jedynie statystycznych technik analizy wyników testowych (a w tej dziedzinie postęp jest ogromny) w niczym nie zmienia istoty testowania psychologicznego. Nowe testy to także nowy sposób myślenia o mierzonych właściwościach psychologicznych, a zależy on od dorobku szczegółowych dziedzin psychologii. Jedynie świadome stosowanie metod testowych, z pełną znajomością ich właściwości, pozwoli psychologom na rzetelne uprawianie ich zawodu. 224 Podstawowe pojęcia: • etyczne konsekwencje testowania • prawa osób badanych Społeczny kontekst stosowania testów psychologicznych Literatura zalecana Brzeziński J. (1994). Testy psychologiczne i ich użytkownicy - analiza kontekstu etycznego, w: J. Brzeziński, W. Poznaniak (red.)- Etyczne problemy działalności badawczej i praktycznej psychologów (s. 83-101). Poznań: Wydawnictwo Fundacji Humaniora. Ciechanowicz A. (1996). Prawne aspekty tworzenia, adaptacji i rozpowszechniania i stosowania testów psychologicznych, w: A. Ciechanowicz, A. Jawo-rowska, T. Szustrowa (red.), Testy, prawo, praktyka (s. 27-50). Warszawa: Polskie Towarzystwo Psychologiczne, Pracownia Testów Psychologicznych. Polskie Towarzystwo Psychologiczne (1992). Kodekst etyczno-zawodowy psychologa. Warszawa. Stepulak M.Z. (2000). Tajemnica zawodowa w działalności badawczej i praktycznej psychologów, w: J. Brzeziński, M. Toeplitz-Winiewska (red.), Etyczne problemy psychologii (s. 103-134). Poznań: Wydawnictwo Fun dacji Humaniora. ? a A^jb uy? , i 225 1 i,. ? Część II Krótki przewodnik czyli jak samemu zbudować test ' Poradnik dla studentów' Na rynku dostępnych jest wiele testów psychologicznych. Bardzo często jednak, przygotowując prace empiryczne lub pisząc pracę magisterską, przekonujecie się, że potrzebna jest niewielka metoda, pozwalająca Warn zrealizować konkretny cel. Niewielka nie znaczy byle jak zbudowana. Nie może to być luźny zbiór niepowiązanych ze sobą twierdzeń, które powstały w sposób przypadkowy, lub ksero kartek niewiadomego pochodzenia. Każda metoda pomiaru psychologicznego powinna zostać opracowana zgodnie z wymaganiami psychometrycznymi. Istnieją przynajmniej dwa podstawowe sposoby konstruowania testu (racjonalny i empiryczny). Ten przewodnik dotyczy metod budowanych w sposób racjonalny. Jednakże generalne zasady, jakie zostały w nim przedstawione, obowiązują w każdym wypadku. Sam przewodnik jest zbiorem pytań, na jakie trzeba sobie odpowiedzieć, i decyzji, które trzeba podjąć wtedy, kiedy tworzy się metodę testową. Szczegółowe informacje dotyczące problemów, jakie są w nim poruszane, znajdziecie w poszczególnych rozdziałach niniejszego podręcznika. Aby zwiększyć czytelność prezentowanego materiału, niektóre jego elementu zostały zilustrowane przykładem rzeczywistej metody (przykłady zaznaczono mniejszą czcionką). Mam nadzieję, że prześledzenie tego przewodnika pozwoli Warn odpowiedzieć na podstawowe pytania, jakie zadaje się przy takiej okazji, i ułatwi zbudowanie własnej metody. ETAP I ZDEFINIOWANE CELU POMIARU >- Pierwszym krokiem na drodze zbudowania testu jest zadanie sobie pytania: „Po co ten test jest mi potrzebny?". Bez jasnej i precyzyjnej odpowiedzi na to pytanie wyniki testowe mogą okazać się zupełnie bezużyteczne. Takim celem może być np. zbudowanie kwestionariusza mierzącego stosunek do reklam telewizyjnych (KSRT)2 po to, aby móc stwierdzić, jak inne zmienne psychologiczne (np. system wartości) wpływają na 1 Inspiracją do napisania tego poradnika były dla mnie książka Johna Rusta i Susan Golombok (1995) Modern Psychometrics. The Science of Psychological Assessment, a także własne doświadczenie zdobyte w trakcie konsultowania wielu prac magisterskich. 2 Ten przykład zaczerpnięty został z pracy Paluchowskiego (1999), w której prezentuje on Skalę postaw wobec reklam telewizyjnych, opracowaną przez Pollaya i Mittalla (1993). 227 1 Część druga mierzoną zmienną (a więc prowadzić badania naukowe), lub po to, by stwierdzić na jakie grupy, ze względu na to, czego ludzie poszukują w reklamie telewizyjnej, można podzielić rynek konsumentów (a więc dla potrzeb badań rynkowych). Wiesz już, co i po co chcesz mierzyć. ETAP II ZDEFINIOWANIE MIERZONEJ CECHY >? Nic nie zastąpi dobrej definicji tego, co chcesz mierzyć. Przeanalizuj zatem literaturę w interesującej Cię dziedzinie. Zastanów się, czy to, co wiadomo na temat sposobów definiowania interesującej Cię cechy, może stać się podstawą Twojego kwestionariusza. Być może trzeba będzie skorzystać z rady ekspertów w danej dziedzinie. Zasada jest jedna: szukaj tak długo, aż będziesz mieć pewność, że wypracowana przez Ciebie definicja odpowiada koncepcji teoretycznej, którą podzielasz, i że odpowiada ona Twoim celom. Potem już nie ma odwrotu. >? Pamiętaj! Jedna z żelaznych zasad brzmi: „śmieci włożysz - śmieci wyjmiesz". Żadna analiza statystyczna, choćby najbardziej wyrafinowana, nie zastąpi refleksji teoretycznej. Autorzy Skali postaw wobec reklamy zrezygnowali z klasycznej strukturalnej definicji postawy (tj. takiej, w której wyodrębnia się aspekt poznawczy, emocjonalny i behawioralny) i przyjęli, że „postawa (aspekt emocjonalny) jest skutkiem przekonań i przyczyną intencji zachowania się w określony sposób". Inaczej mówiąc, uznali, że na „postawę składają się przekonania i emocje, które łącznie wyznaczają zamiar zachowania się i zachowanie to mogą wywoływać" (Paluchowski, 1999, s. 133). Przedmiot pomiaru został jasno i wyraźnie zdefiniowany. Definicja ta jest na tyle dokładna, że na jej podstawie można formułować pozycje testu. ETAP III PRZYGOTOWANIE PROJEKTU TESTU >• Wiedząc, po co jest Ci potrzebna metoda, spróbuj opracować projekt swojego testu. Najwygodniej jest przedstawić ów projekt w postaci tabeli, w której - z jednej strony - wpiszesz interesujący Cię obszar treści, 228 a z drugiej - obszar zachowań, jaki można z tą treścią powiązać, np.: Poradnik dla studentów obszary treści (a) (b) (c) (d) obszary manifestacji (1) (2) (3) > obszary treści: dobra definicja mierzonej cechy pozwoli Ci na określenie obszarów treściowych, które są dla Ciebie ważne. Jeżeli masz wątpliwości, skonsultuj się z ekspertami w danej dziedzinie. Tak zrobiono w wypadku Skali postaw wobec reklamy. Eksperci, którymi byli konsumenci (18 studentów oraz 30 dorosłych niestuden-tów), odpowiadali na otwarte pytania dotyczące różnych skutków reklamowania. Na podstawie ich odpowiedzi autorzy uznali dwa obszary za treściowo ważne. Były to funkcje społeczno-ekonomiczne reklamy oraz funkcje osobiste. W ramach każdego obszaru wyróżniono mniejsze wymiary. I tak, w ramach obszaru społeczno-ekonomicznego wyróżniono: (1) wpływ reklamy na gospodarkę, (2) materializm i propagowanie konsumpcji, (3) deprecjonowanie społecznie istotnych wartości oraz (4) wprowadzanie przez reklamę w błąd. W ramach funkcji osobistych wyróżniono natomiast: (5) reklamę jako informację o produktach, (6) reklamę jako propagandę określonego stylu życia oraz (7) reklamę jako przeżywanie przyjemności. >• obszary manifestacji: drugim elementem projektu testu jest określenie obszarów manifestacji, czyli wskazanie, gdzie i w jaki sposób mogą przejawiać się (manifestować) określone wcześniej obszary treści. W wypadku testów właściwości poznawczych mogą to być różnego rodzaju wytwory, sposób przetwarzania informacji, posiadana wiedza, a w wypadku testów właściwości afektywnych - wierzenia, emocje, przekonania czy zachowania. W Skali postaw wobec reklamy przyjęto, że istnieją dwa takie obszarów manifestacji: przekonania i emocje. Wyróżnienie siedmiu obszarów treści oraz dwóch obszary manifestacji stało się podstawą skonstruo-/ wania wyjściowej puli pozycji kwestionariusza. >? Możesz także określić, jaką proporcję pozycji testowych w Twoim teście powinny stanowić określone obszary treści i manifestacji. Wypełnij po prostu tabelkę, starając się określić, ile pozycji testowych powinno się znaleźć w każdej komórce. Ten sposób przygotowania pracy nad testem znacznie ułatwia pisanie pozycji testowych. Jest czasami jak światło latarni morskiej podczas ciemnej nocy. Projekt testu został opracowany. Ważne obszary treści i obszary jej manifestacji zostały wyróżnione. 229 Część druga ETAP IV OKREŚLENIE FORMATU POZYCJI TESTOWYCH >• Zastanów się najpierw, jaki format pozycji testowych jest najlepszy dla Twojego testu. Najlepiej przygotuj takie zestawienia dla wszystkich rozważanych możliwości: Format Pozycje z wyborem alternatywnym, tj. zakładasz tylko dwie możliwe odpowiedzi (np. TAK-NIE lub PRAWDA-FAŁSZ). Zalety Dobrze pozwalają ocenić stopień posiadanej wiedzy czy też stopień zrozumienia materiału przedstawionego w pytaniu. Łatwe dla osób badanych. Skracają czas pracy z testem. Wady Czasami trudno jest, nawet w testach właściwości poznawczych, określić, co rozumiemy przez dobrą odpowiedź. Co więcej, prawdopodobieństwo, że osoba badana może odpowiedzieć poprawnie jedynie przez przypadek, wynosi aż 50%. W wypadku testów osobowości, symptomów klinicznych czy postaw wybór tylko spośród dwóch kategorii odpowiedzi (np. ZGADZAM SIĘ-NIE ZGADZAM SIĘ) może się okazać bardzo trudny dla osoby badanej. >? Ten wybór nie może być przypadkowy! Musisz umieć przedstawić powody, dla których decydujesz się na taki, a nie inny format pozycji testowej. W Skali postaw wobec reklamy zastosowano format typowej skali Likerta, tj. dla każdego zaprojektowano pięć kategorii odpowiedzi: całkowicie zgadzam się, zgadzam się, nie mam zdania, nie zgadzam się, całkowicie się nie zgadzam. Format pozycji testowej został wybrany. Potrafisz uzasadnić swoją decyzję. 230 ETAP V WYGENEROWANIE PULI POZYCJI TESTOWYCH >? Pora teraz przystąpić do pisania pozycji testowych. Wiele osób twierdzi, że to proste zadanie. Tymczasem pisanie pozycji testowych to sztuka, podobnie jak napisanie dobrego wiersza! Wszystkie pozycje powinny być wyprowadzone z teorii mierzonej cechy - warto zatem korzystać z już opracowanego własnego projektu testu. Jeżeli w trakcie pracy okaże się, że trudno jest ułożyć pozycje testowe dla wszystkich obszarów treściowych, które wcześniej zostały określone - to z niczego pochopnie Poradnik dla studentów nie rezygnuj! Zastanów się, czy pomięcie jakiegoś obszaru treści nie zmieni przyjętej przez Ciebie definicji mierzonej właściwości. Każda decyzja musi zostać merytorycznie uzasadniona. >? Rozważ, czy skorzystanie z pomocy ekspertów lub sędziów kompetentnych (np. kolegów i koleżanek z roku) nie ułatwi realizacji tego zadania. Jeżeli tak, to pamiętaj: eksperci muszą otrzymać jasne wskazówki dotyczące tego, jak definiujesz właściwość, która jest przedmiotem pomiaru. Aby uniknąć niejasności, spisz na kartce najważniejsze ustalenia definicyjne. Każdy sędzia kompetentny powinien pracować z takim samym zasobem wiedzy! >• Wszystkie pozycje powinny być formułowane prostym językiem. Staraj się, aby były to pojedyncze zdania lub pytania. Unikaj określeń, które mogą być różnie rozumiane przez osoby badane (np. słowo „często" dla jednych może oznaczać „przynajmniej raz w miesiącu", a dla innych „przynajmniej raz w tygodniu"). >• Ponieważ są to tylko propozycje pozycji testowych, musi być ich znacznie więcej, niż planujesz ich włączyć do ostatecznej wersji testu. Dobrą zasadą jest zbudowanie od 50% do 100% pozycji więcej w stosunku do planowanej długości testu. Wtedy rzeczywiście będzie można wybrać te, które są najlepsze. W trakcie prac nad Skalą postaw wobec reklamy wygenerowano wyjściowo pulę liczącą ponad 100 twierdzeń. Były to twierdzenia takie jak: • Reklamy upowszechniają wartości niepożądane w naszym społeczeństwie. • Reklamy przyczyniają się do podniesienia standardu życia. • We współczesnych reklamach jest zbyt wiele seksu. • Uważam, że reklamy są niepożądanym przerywnikiem w programach telewizyjnych. • Reklamy skłaniają ludzi do kupowania rzeczy, których nie powinni kupować. Dysponujesz dużą wyjściową pulą pozycji testowych. ETAP VI ANALIZOWANIE POZYCJI POD WZGLĘDEM JĘZYKOWYM >? Pierwszym etapem sprawdzania jakości wygenerowanych pozycji testowych jest ich ocena pod kątem językowym. Zgłoś się do takich osób, których kompetencje językowe są Ci znane (np. poproś o pomoc studentów polonistyki), i przedstaw im zadanie. Takiej analizy nie warto robić samodzielnie. Każdy z nas ma tendencję do pisania w pewien charakterystyczny sposób, nadto - bardzo trudno poprawia się własne błędy. 231 Część druga ja łiittciAfloS >• Na co warto zwrócić uwagę? Przede wszystkim trzeba sprawdzić, czy wszystkie pozycje testowe są gramatycznie poprawnie sformułowane, czy nie zawierają zbyt trudnych bądź niejasnych określeń, czy nie są - j zbyt długie, czy przewidziany sposób odpowiadania jest naturalny dla . sposobu sformułowania pozycji. >? Warto też sprawdzić, czy sposób, w jaki sformułowane zostały pozycje testowe, nie prowokuje osób badanych do odpowiadania w pewien stały y sposób, nie mający nic wspólnego z treścią pozycji. Problem ten znany jest jako tzw. style odpowiadania. Z jakimi stylami można się najczęściej ti spotkać? Potakiwanie to tendencja do odpowiadania TAK lub ZGADZAM SIĘ bez względu na treść pozycji. Można próbować ją wyeliminować, wprowadzając taką samą lub prawie taką samą liczbę pozycji, których treść została odwrócona. Np. zamiast pozycji Większość reklam wypacza wartości młodego pokolenia można wprowadzić pozycję Większość reklam nie wypacza wartości młodego pokolenia. Odwracając treść danej pozycji, trzeba się upewnić, czy jej sens jest zrozumiały dla osoby badanej. Dlatego też podwójne przeczenia są złym pomysłem. Brak zdecydowania (lub niechęć do decydowania) to tendencja do wybierania odpowiedzi typu „?", „nie wiem", „trudno powiedzieć". Dlatego warto rozważyć możliwość ominięcia takiej kategorii odpowiedzi. Jest to najprostsze rozwiązanie problemu, jednak warto się zastanowić, czy usunięcie takich kategorii nie spowoduje niechęci osób badanych do odpowiadania na pozycje, na które ich zdaniem nie ma jednoznacznej odpowiedzi. Błąd tendencji centralnej to tendencja do wybierania odpowiedzi mieszczących się w środku proponowanej skali, a niechęć do wybierania odpowiedzi skrajnych. Niewielkie zwiększenie liczby proponowanych kategorii odpowiedzi może skutecznie rozszerzyć zakres odpowiedzi. Nie warto jednak wydłużać skali odpowiedzi zbyt mocno, bowiem zamiast zmniejszyć błąd tendencji centralnej możemy go zwiększyć. Jak zwykle, każdy kij ma dwa końce! Aprobata społeczna to z kolei tendencja do odpowiadania w sposób społecznie akceptowany. Warto zatem przeanalizować każdą pozycję pod tym kątem. Zastanów się, czy niektórych pozycji nie warto zmienić tak, aby uniknąć takiej tendencji. Np. pozycję Często zdarza mi się bić własne dziecko można przeformułować następująco: Czasami zdarza mi się bić własne dziec-ko lub Zdarza mi się uderzyć własne dziecko lub Niekiedy trzeba bić dzieci. Jednakże w każdym z tych 232 przypadków inaczej budujemy kontekst społeczny, i dlatego musisz ? Poradnik dla studentów starannie rozważyć, jaka zmiana jest uzasadniona z punktu widzenia Twojego testu. Z puli pozycji testowych wyeliminowane zostały te, które nie spełniają kryteriów językowych. ETAP VII PRZEANALIZOWANIE POZYCJI POD WZGLĘDEM TRAFNOŚCI TREŚCIOWEJ >• Analiza językowa nie kończy prac nad wstępną eliminacją pozycji testowych. Teraz pora na przeanalizowanie każdej z nich pod kątem ich trafności treściowej. >• W tym celu możesz wykorzystać technikę sędziów kompetentnych. Poproś zatem trzy lub cztery osoby o ocenę każdej pozycji. Przedstaw im dokładną definicję mierzonej właściwości oraz obszary treściowe, które zostały przez Ciebie wzięte pod uwagę na etapie przygotowywania projektu kwestionariusza. Każdy sędzia ma ocenić pozycje testowe pod kątem tego, czy pochodzą one z zakresu uniwersum treści i czy są one dla tego uniwersum reprezentatywne. Dobrą miarą zgodności ocen sędziów kompetentnych może być współczynnik trafności treściowej Lawshego lub współczynnik zgodności ocen sędziów W-Kendalla. Z puli pozycji testowych wyeliminowane zostały te, które nie są trafne treściowo. ETAP VIII OPRACOWANIE KLUCZA OCENY ODPOWIEDZI >• Każda odpowiedź udzielona przez osoby badane na pytania Twojego testu powinna zostać oceniona. Ocena ta nie może być przypadkowa. Przeanalizuj starannie wszystkie pozycje testowe i określ, która z przewidzianych przez Ciebie opcji odpowiedzi jest wskaźnikiem mierzonej właściwości. Następnie przyporządkuj jej określoną punktację. >• Jeżeli jest to pozycja składająca się tylko z dwóch kategorii odpowiedzi, to najczęściej odpowiedzi uznanej za diagnostyczną przyporządkowuje się 1 pkt, a odpowiedzi uznanej za niediagnostyczną przyporządkowuje się 0 pkt. >• Jeżeli jest to pozycja składająca się z wielu kategorii odpowiedzi (np. całkowicie się zgadzam, zgadzam się, nie mam zdania, nie zgadzam się, całkowicie się nie zgadzam), to musisz wyraźnie określić, która z tych kategorii wskazuje na maksymalne nasilenie interesującej Cię cechy. Często 233 Część druga będzie to odpowiedź „całkowicie się zgadzam", ale równie dobrze może to być odpowiedź „całkowicie się nie zgadzam". Gdy to już ustalisz, możesz ustalić sposób oceny odpowiedzi, np. przyznając kolejno 5, 4, 3, 2, i 1 pkt kolejnym kategoriom, zgodnie z kierunkiem nasilenie mierzonej cechy. Weź pod uwagę również to, że czasami treść pytań bywa odwrócona. >- Upewnij się, czy przy opracowywaniu klucza nie został popełniony żaden błąd. Masz już opracowany klucz odpowiedzi. Klucz został sprawdzony i nie zawiera błędów. ETAP IX PRZYGOTOWANIE FORMULARZA TESTU >? Zanim będzie można przeprowadzić badania pilotażowe, musisz opracować formularz testu, na którym będą pracować osoby badane. Nie wystarczy tylko wypisanie kolejnych pytań czy twierdzeń. Taki arkusz testowy powinien zwierać: • nazwę testu i jego autora, • miejsce na wpisanie danych personalnych osób badanych, które będą Ci dalej potrzebne (np. płeć czy wiek), • krótką informację o celu pomiaru (pamiętaj o trafności fasadowej!), • instrukcję, • przykładowy sposób odpowiadania na pozycje testu, • właściwy test. >? Instrukcja jest niezwykle ważnym elementem Twojego testu. Musi zostać tak sformułowana, aby zadanie, jakie stoi przed osobą badaną, było całkowicie jasne. Powinna ona zawierać informacje o tym, w jaki sposób należy zaznaczać swoją odpowiedź, czy należy odpowiadać szybko bez specjalnego zastanawiania się czy też odpowiedź powinna zostać dobrze rozważona, a także wszystkie te informacje, które mogą wpłynąć na sposób odpowiadania, np. zachętę do szczerości. Zdecyduj też, czy Twój test jest przeznaczony do badań indywidualnych i/lub grupowych. W instrukcji powinno się też znaleźć zapewnienie o pełnej ochronie danych. Pamiętaj! To jest Twój obowiązek. 234 A tak wyglądała instrukcja do Skali postaw wobec reklamy: Instrukcja: Stwierdzenia zawarte w tym kwestionariuszu dotyczą różnych opinii na temat reklamy. Proszę ustosunkować się do wszystkich twierdzeń. Proszę opisać szczerze, w jakim stopniu poszczególne twierdzenia oddają Pana/Pani poglądy. Nie ma tu ani dobrych ani złych odpowiedzi. Poradnik dla studentów Do każdego twierdzenia należy ustosunkować się, zaznaczając jedną z pięciu możliwych odpowiedzi: 1 - zdecydowanie nie zgadzam się, 2 - nie zgadzam się, 3 - nie mam zdania na ten temat, 4 - zgadzam się, 5 - całkowicie zgadzam się. Wybraną przez siebie odpowiedź proszę skreślić krzyżykiem. Np.: Reklama jest rzeczą niezbędną • Arkusz testowy powinien zostać tak sformatowany, aby maksymalnie ułatwić pracę osobom badanym. Poszczególne pozycje nie mogą być umieszczane zbyt ciasno, a kategorie odpowiedzi muszą być jednoznacznie powiązane z daną pozycją. Tu nie może być żadnych wątpliwości! Może to wyglądać np. tak: 1. reklama jest rzeczą niezbędną: ? ? całkowicie zgadzam się zgadzam się ? D ? nie mam nie zgadzam całkowicie zdania się nie zgadzam się lub tak: 1. reklama jest rzeczą niezbędną: 12 3 4 5 (jeżeli wybierzesz drugi sposób formatowania, to pamiętaj, że wcześniej musi się znaleźć informacja o tym, co oznaczają poszczególne cyfry). Lepiej, aby arkusz testowy składał się z dwóch czy trzech stron - dobrze graficznie opracowanych - niż aby to była jedna, nieczytelna strona. >• Wydrukuj kilka projektów graficznych i oceń, który z nich jest najlepszy. Przygotuj ostateczną wersję testu przeznaczoną do badań pilotażowych. Masz juź opracowany arkusz testowy. 235 Część druga ETAPX PRZYGOTOWANIE BADANIA PILOTAŻOWEGO >? Jest rzeczą jasną, że opracowując test, np. dla potrzeb pracy magisterskiej, trudno Ci będzie stworzyć próbę rzeczywiście losową i reprezentatywną. Nie zwalnia Cię to jednak z obowiązku jak najbardziej starannego zadbania o to, aby w miarę Twoich możliwości badana przez Ciebie próba miała określone (pożądane) parametry. >• Możesz zawsze skorzystać z metody doboru celowego i określić istotne parametry interesującej Cię populacji oraz skonstruować próbę, kierując się tymi ustaleniami. Możliwości jest wiele. Najgorsza z nich to dobór przypadkowy, np. ochotniczy (czyli po prostu - korzystanie z osób, które są w pobliżu). Warto zadać sobie trochę trudu i mieć potem pewność, że otrzymane przez Ciebie wyniki (choć niereprezentatywne w sensie statystycznym) pozwalają Ci na wyciąganie trafnych i rzetelnych wniosków. Badana próba powinna być stosunkowo liczna. Ideałem byłoby, gdyby można było zbadać 100 osób (być może będzie trzeba obliczać dane procentowe). Ponieważ jednak może to być wymóg mało realistyczny, postaraj się, aby na pewno nie było ich mniej niż 30. Dopuszczalne minimum bowiem to tyle osób badanych, ile pozycji w teście, lecz nie mniej niż 30. Jeżeli trudno jest Ci zgromadzić taką liczbę osób badanych, to lepiej przeprowadzić badanie pilotażowe na mniejszej grupie niż całkowicie z niego zrezygnować. Zawsze się czegoś dowiesz o własnym teście. W amerykańskich badaniach pilotażowych nad Skalą postaw wobec reklamy przebadano dwie próby liczące łącznie 383 osoby. W skład pierwszej - z założenia - młodszej próby studentów weszły 183 osoby (58% stanowiły kobiety, 37% miało mniej niż 21 lat, 40 % było w wieku od 21 do 30 lat, 15% w wieku od 31 do 40 lat i 8% powyżej 40 lat). Grupa ta okazała się bardziej zróżnicowana wiekowo, niż to pierwotnie zakładano. W drugiej - „starszej" - próbie (obejmującej tzw. głowy rodziny i liczącej 300 osób) znalazło się 69% kobiet, 21% miało mniej niż 30 lat, 20% było w wieku od 31 do 40 lat, 20% w wieku od 41 do 50 lat, 25% w wieku od 51 do 60 lat i 14% powyżej 60 lat. W polskich badaniach przebadano 806 osób, z czego 505 były to osoby dorosłe wylosowane z próby panelowej do badania widowni telewizyjnej Ośrodka Terenowego w Poznaniu, 84 osoby były pracownikami agencji reklamowych, a 217 osób stanowiła młodzież. 236 Wiesz już, kogo będziesz badać w badaniach pilotażowych i jak liczna będzie próba. Poradnik dla studentów FT „ PRZEPROWADZENIE BADANIA PILOTAŻOWEGO >? Ten etap wymaga umiejętności organizacyjnych. Jeżeli Twój test może być stosowany w badaniach grupowych, to zastanów się, gdzie można przeprowadzić takie badania. Jeżeli przewidziane zostały tylko badania indywidualne, to musisz mieć wystarczająco dużo czasu, aby zebrać wszystkie dane. Nie odkładaj badań pilotażowych na ostatnią chwilę - musisz mieć czas na ewentualne uzupełnienie brakujących danych! Amerykańskie badania pilotażowe Skalą postaw wobec reklamy zostały przeprowadzone na Ohio Valley State University oraz na próbie losowej, wylosowanej z próby panelowej do badania widowni telewizyjnej w Missisippi Valley. Badania polskie zostały zrealizowane na próbie złożonej z mieszkańców Poznania. Badania miały zarówno charakter indywidualny, jak i grupowy. Dysponujesz danymi, które zostaną wykorzystane w analizie pozycji. ETAP XII OBLICZENIE PARAMETRÓW POZYCJI TESTOWYCH >? Teraz pora na obliczenia statystyczne. Nie jest to wcale trudne. Masz do wyboru wiele pakietów statystycznych (najbardziej znane to SPSS+ oraz CSS STATISTICA). Jednak zanim z nich skorzystasz, musisz najpierw zdecydować, jaki rodzaj współczynnika Cię interesuje. Pamiętaj: komputer to niewolnik - policzy wszystko, nawet jeżeli jest to całkowicie bez sensu. Policzy nawet współczynnik korelacji /--Pearsona między płcią a poziomem wykształcenia! To wyłącznie Ty decydujesz, jakie parametry pozycji testowych posłużą Ci do stworzenia ostatecznej wersji testu. >• Jeżeli jest to test właściwości poznawczych, to może wystarczy wskaźnik trudności. Jeżeli jest to test właściwości afektywnych, to raczej rozważ możliwość obliczenia współczynnika mocy dyskryminacyjnej. Zdecyduj, jaki typ współczynnika Ci odpowiada: korelacyjny, a może oparty na różnicy między skrajnymi grupami. >? Decydując o ostatecznej wersji swojego testu, weź pod uwagę nie tylko parametry statystyczne pozycji testowych, ale także np. obszary treściowe, które zostały wyróżnione na etapie projektowania testu. To nie może być mechaniczna decyzja. Czasami warto włączyć do testu pozycje o nieco gorszej mocy dyskryminacyjnej, ale ważne z punktu widzenia trafności treściowej. 237 Część druga W Skali postaw wobec reklamy obliczano moc dyskryminacyjną metodą analizy różnic między skrajnymi grupami. Do ostatecznej wersji Skali weszły 33 twierdzenia. Każda pożycia testowa została opisana pod kątem jej właściwości statystycznych. ETAP XIII STWORZENIE OSTATECZNEJ WERSJI TESTU >? Zrób ostateczny rachunek - pozycje uznane przez Ciebie za „dobre" wejdą do ostatecznej wersji testu. Pozostałe trzeba wyeliminować. Na razie jednak to tylko zbiór pozycji testowych spełniających określone kryteria. Musisz jeszcze się przekonać, czy zbudowana przez Ciebie metoda jest rzetelna i trafna - czy jest zatem testem psychologicznym. >- Przeanalizuj pozycje, które zostały odrzucone. Ich analiza może wiele powiedzieć na temat tego, czy mierzony konstrukt został właściwie zdefiniowany. A może odpadł cały obszar treści? Warto to wiedzieć. Ostateczna wersja Twojego testu jest gotowa. ETAP XIV OBLICZENIE RZETELNOŚCI TESTU 238 >? Masz do wyboru kilka metod badania rzetelności. • Może to być technika test-retest. Wymaga ona dwukrotnego badania tej samej grupy osób w pewnym odstępie czasu. Pozwoli Ci ocenić, na ile badana przez Ciebie cecha jest stabilna w czasie. • Może to być technika testów równoległych. Musisz jednak stworzyć dwie metody, które będzie można uznać za testy równoległe. • Może to być technika połówkowania. Jeżeli się na nią zdecydujesz, pamiętaj o sposobie podziału testu na dwie połowy (pozycje parzyste-pozycje nieparzyste). I wreszcie może to być szacowanie zgodności wewnętrznej testu. Tu jednak musisz pamiętać o jednej zasadzie: technika ta nadaje się do określania rzetelności testów jednorodnych, a więc takich, które dotyczą tylko jednowymiarowego konstruktu. Jeżeli masz wątpliwości, zastosuj analizę czynnikową. To technika, która pozwoli Ci w prosty sposób odpowiedzieć na pytanie, czy masz podstawy do wyróżnienia różnych wymiarów swojego testu. Jeżeli tak, to można stworzyć z nich niezależne skale i obliczać zgodność wewnętrzną w ramach każdej skali oddzielnie. Poradnik dla studentów Jako miarę rzetelności zastosowano w Skali postaw wobec reklamy technikę cc Cronbacha. Współczynnik obliczono niezależnie dla poszczególnych siedmiu podskal tworzących homogeniczne wymiary. I tak otrzymano dla skali: 1) wpływ na życie ekonomiczne - a=0,68 2) materializm i propagowanie konsumpcji - a = 0,78 3) deprecjonowanie społecznie ważnych wartości - współczynnika nie policzono, gdyż skala zawierała tylko dwa twierdzenia 4) wprowadzanie przez reklamę w błąd - = 0,60 5) reklama jako informację o produktach - a = 0,68 6) reklama jako propaganda określonego stylu życia - a=0,47 7) reklama jako przeżywanie przyjemności - a = 0,57 Znasz rzetelność ostatecznej wersji Twojego testu. ETAP XV BADANIE TRAFNOŚCI TEORETYCZNEJ TESTU >? To rzeczywiście jest już pewien problem. Dlatego warto pomyśleć o badaniu trafności teoretycznej wcześniej, aby niezbędne dane można było zebrać już w badaniach pilotażowych. >? Dobrym rozwiązaniem jest zastosowanie techniki grup skrajnych. Odpowiednie dane możesz zebrać w badaniach pilotażowych. Pomyśl wcześniej, jakie hipotezy możesz wyprowadzić z teorii mierzonej cechy i czy możesz je zweryfikować na podstawie wyników Twojego testu. To jeden z prostszych sposobów na zebranie danych o trafności teoretycznej Twojego testu. >• Może to być również analiza korelacji wyników Twojego testu z innymi testami mierzącymi podobne cechy (trafność zbieżna) lub inne cechy (trafność różnicowa). Jeżeli się zdecydujesz na ten sposób badania trafności, to zadbaj, aby odpowiednie dane zebrać w badaniach pilotażowych. Do określenia trafności teoretycznej Skali postaw wobec reklamy wykorzystano metodę analizy czynnikowej. Zastosowano metodę głównych składowych z rotacją VARIMAX. Analiza danych potwierdziła występowanie sześciu czynników (wcześniej zakładano siedem): czterech określonych jako czynniki społeczno-ekonomiczne i dwóch jako osobiste funkcje reklamy (materializm, deprecjacja wartości oraz wprowadzanie w błąd stworzyły jeden czynnik, a pozycje mówiące o reklamie jako niepożądanym zjawisku w ogóle tworzyły czynnik ostatni). Łącznie wszystkie czynniki wyjaśniały 55% wariancji. Potrafisz wskazać na dane potwierdzające trafność teoretyczną Twojego testu. 239 Część druga PORÓWNANIA WEWNĄTRZGRUPOWE: NORMY >• Najczęściej, w wypadku badań naukowych, etap określenia trafności testu kończy prace nad testem. Czasami jednak - obok wyników surowych, jakie otrzymasz w swoim teście - mogą Ci być potrzebne dane normatywne. Te dane wykorzystywane są zawsze wtedy, kiedy dokonuje się porównań między osobami wewnątrz tej samej grupy. >• Co zatem trzeba zrobić? Sporządź rozkład wyników surowych otrzymanych w swoim teście i sprawdź, czy jest to rozkład normalny. W zależności od tego, jaką otrzymasz odpowiedź, zastosuj odpowiednia procedurę przeliczania wyników surowych na wybraną skalę standardową. A może wystarczy skala centylowa? >? Pamiętaj! Dla celów badań naukowych w większości wypadków normy wcale nie są potrzebne. Dane surowe są bardziej zróżnicowane. Dobrze się zatem zastanów - czy rzeczywiście warto dokonywać takiej transfor- macji wyników. Potrzebne są Ci normy do porównań wewnątrzgrupowych. Dokonana została transformacja wyników surowych na wyniki odpowiedniej skali standardowej lub na skalę centylowa. * * * Czy warto tyle trudu wkładać w opracowanie testu, którego żywot bądź co bądź będzie najprawdopodobniej krótki - tyle, co napisanie pracy magisterskiej? Moja odpowiedź jest jednoznaczna. Nie tylko warto, ale trzeba. Poznanie naukowe nie akceptuje bowiem bezmyślności! ? 240 Literatura Aiken L.R. (1982). Psychological Testing and Assessment. Boston: Allyn and Bacon. American Psychological Association, APA (1954). Technical recommen- dations for psychological tests and diagnostic techniques. Supplement to Psychologcal Bulletin, 51. American Psychological Association, APA (1980). Principles for the valida- tion and use of personnel selection procedures. Washington, D.C.: Author. American Psychological Association, APA (198la). Ethical Principles of Psychologists. Washington, D.C.: Author. American Psychological Association, APA (1981b). Speciality guidelines for the delivery of services by clinical psychologists. American Psycho- logist, 36, s. 640-651. American Psychological Association, APA (1981c). Speciality guidelines for the delivery of services by counseling psychologists. American Psycho- logist, 36, s. 652-663. American Psychological Association, APA (198Id). Speciality guidelines for the delivery of services by industrial/organizational psychologists. American Psychologist, 36, s. 664-669. American Psychological Association, APA (1981e). Speciality guidelines for the delivery of services by school psychologists. American Psychologist, 36, s. 670-681. American Psychological Association, APA (1985a). Standardy dla testów stosowanych w psychologii i pedagogice. Warszawa: Polskie Towarzystwo Psychologiczne, Laboratorium Technik Diagnostycznych. American Psychological Association, APA (1985b). Standards for Educational and Psychological Testing (wyd. 4). Washington D.C.: APA. American Psychological Association, APA (1996). Statement on the disc- losure of test data. American Psychologist, 51, s. 644-648. American Psychological Association, APA (1999). Standards for Educational and Psychological Testing (wyd. 5). Washington D.C.: APA. Anastasi A., Urbina S. (1999). Testy psychologiczne. Warszawa: Pracownia Testów Psychologicznych Polskiego Towarzystwa Psychologicznego. Angoff W.H. (1976). Grup membership as a predictor variable: A comment on McNemar. American Psychologist, 31, s. 612. Angoff W.H. (1982). Difficulty and discrimination indices, w: A. Berk (red.), Handbook of Methods for Detecting Test Bias (s. 96-116). Baltimore: Johns Hopkins University 241 Literatura 242 Angoff W.H. (1993). Perspectives on differential item functioning me- thodology, w: P.W. Holland, H. Wainer (red.), Differential Item Functioning (s. 3-24). Hillsdale, N.J.: Lawrence Erlbaum. Angoff W.H., Dyer H.S. (1971). The admission testing programs, w: W.H. Angoff (red.), The College Board Admission Testing Program (s. 1-13). New York: College Enatrance Examinations Board. Bartlett C.J., 0'Leary, B.S. (1969). A differential prediction model to mode- rate the effects of heterogeneus grounds in personnel selection and clas- sification. Personnel Psychology, 22, s. 1-17. Bechtold H.P. (1968). Teoretyczne podstawy metod testowych: trafność i prognoza. Biuletyn Psychometryczny, 2, s. 7-50. Berg I.A. (1959). The unimportance of test item content, w: B.M. Buss, A. Berg (red.), Objective Approaches to Personality Assessment (s. 83-99). New York: Van Nostrand. Berk R.A. (red.), (1982). Handbook of Methods for Detecting Test Bias. Baltimore: Johns Hopkins University Press. Berk R.A. (1984). A Guide to Criterion-Referenced Test Construction. Baltimore: Johns Hopkins University Press. Bernal E.M. (1975). A response to "Educational uses of tests with disadvan- tages students". American Psychologist, 31, s. 612. Binet A., Simon T. (1905a). Sur le necessite d'etablit un diagnostic scien- tifiąue des etats inferieurs de 1'intelligence. UAnne psychologiąue, 11, s. 163-190. Binet A., Simon T. (1905b). Methodes nouvelles pour le diagnostic du niveau intellectuel des anormaux. UAnne psychologiąue, 11, s. 191-244. Binet A., Simon T. (1905c). Application des methodes nouvelles au diagnostic du niveau intellectuel chez enfants et normaux d'hospice et d'ecole. UAnne psychologiąue, 11, s. 245-366. Binet A, Simon T. (1908). Le developpment de l'intelligence chez les enfants. UAnne psychologiąue, 14, s. 1-94. Binet A., Simon T. (1916). The Development of Intelligence in Children. Baltimore, MD: Williams and Wilkins. Birnbaum A. (1968). Some latent models and their use in inferring an examinee's ability, w: F.M. Lord, M.R. Novick (red.), Statistical Theories of Mentol Test Scores (s. 397-471). Reading, MA: Addison-Wesley. Bordieu P., Passeron J.-C. (1990). Reprodukcja. Elementy teorii systemu nauczania. Warszawa: Państwowe Wydawnictwo Naukowe. Brzeziński J. (1978). Elementy metodologii badań psychologicznych. Warszawa: Państwowe Wydawnictwo Naukowe. Brzeziński J. (1984). Badanie testu psychometrycznego metodą analizy wariancji, w: J. Brzeziński (red.), Wybrane zagadnienia z psychometrii i diagnostyki psychologicznej (s. 9-45). Poznań: Wydawnictwo Naukowe UAM. Literatura Brzeziński J. (1993). Standardowe skale wyników WAIS-R: skala dewiacyjnych ilorazów inteligencji i skala wyników przeliczonych, w: J. Brzeziński, E. Hornowska (red.), Skala Inteligencji Wechslera WAIS-R (s. 84-99). Warszawa: Wydawnictwo Naukowe PWN. Brzeziński J. (1994). Testy psychologiczne i ich użytkownicy - analiza kontekstu etycznego, w: J. Brzeziński, W. Poznaniak (red.). Etyczne problemy działalności badawczej i praktycznej psychologów (s. 83-101). Poznań: Wydawnictwo Fundacji Humaniora. Brzeziński J. (1995). Rzetelność i trafność testów psychologicznych -jak jest i jak być powinno, w: J. Brzeziński (red.), Z zagadnień diagnostyki psychologicznej (s. 109-123). Poznań: Wydawnictwo Fundacji Humaniora. Brzeziński J. (1996). Metodologia badań psychologicznych. Warszawa: Wydawnictwo Naukowe PWN. Brzeziński J. (2000). Badania eksperymentalne w psychologii i pedagogice. Seria: Wykłady z Psychologii, t. 1. Warszawa: Wydawnictwo Naukowe Scholar. Brzeziński J. (2000). Teoria testów psychologicznych: ABC psychometrii, w: J. Strelau (red.), Psychologia. Podręcznik akademicki. Tom 1: Podstawy psychologii (s. 400-415). Gdańsk: Gdańskie Wydawnictwo Psychologiczne. Brzeziński J., Gaul M., Homowska E., Machowski A., Zakrzewska M. (1996). Skala Inteligencji Wechslera dla Dorosłych. Wersja Zrewidowana. Polska Adaptacja WAIS-R(PL). Podręcznik. Warszawa: Pracownia Testów Psychologicznych Polskiego Towarzystwa Psychologicznego. Brzeziński J., Hornowska E. (2000). Adaptacja kulturowa testów psychologicznych, w: J. Strelau (red.), Psychologia. Podręcznik akademicki. Tom 1: Podstawy psychologii (s. 415-426). Gdańsk: Gdańskie Wydawnictwo Psychologiczne. Brzozowski P., Drwal R. (1995). Kwestionariusz Osobowości Eysencka. Polska adaptacja EPQ-R. Podręcznik. Warszawa: Polskie Towarzystwo Psychologiczne, Pracownia Testów Psychologicznych. Camara W.J. (1997). Use and consequences of assessments in the USA: Professional ethical and legał issues. European Journal of Psychological Assessment, 13, s. 140-152. Camilli G., Shepard L.A. (1994). Methods for Identyfying Biased Test Items. Thousand Oaks and London: Sagę Publications. Campbell D.T. (1960). Recommendations for APA test standards regarding construct, trait, or discriminant validity. American Psychologist, 15, s. 546-553. Campbell D.T., Fiske D.W. (1959). Convergent and discriminant validation by the multitrait-multimethod matrix. Psychological Bulletin, 56, s. 81-105. Choynowski M. (1971). Podstawy i zastosowania teorii rzetelności testów psychologicznych, w: J. Kozielecki (red.), Problemy psychologii matematycznej (s. 65-118). Warszawa: Państwowe Wydawnictwo Naukowe. 243 Literatura 244 Ciechanowicz A. (red.), (1990). Kulturowa adaptacja testów. Warszawa: Polskie Towarzystwo Psychologiczne, Laboratorium Technik Diagnostycznych Ciechanowicz A. (1996). Prawne aspekty tworzenia, adaptacji i rozpowszechniania i stosowania testów psychologicznych, w: A. Ciechanowicz, A. Jawo- rowska, T. Szustrowa (red.), Testy, prawo, praktyka (s. 27-50). Warszawa: Polskie Towarzystwo Psychologiczne, Pracownia Testów Psychologicznych. Cohen R.J., Swerdlik M.E. (1999). Psychological Testing and Assessment. An Introduction to Tests and Measurement. Mountain View, CA: Mayfield. Cole N.S. (1993). History and development of DIF, w: P.W. Holland, H. Wainer (red.), Differential Item Functioning (s. 25-30). Hillsdale, N.J.: Lawrence Erlbaum. Crocker L., Algina J. (1986). Introduction to Classical and Modern Test Theory. New York: Holt, Rinehart and Winston. Cronbach L.J. (1951). Coefficient alpha and the internal structure of tests. Psychometrika, 16, s. 297-334. Cronbach L.J. (1970; 1990). Essentials of Psychological Testing (wyd. 3/1970; wyd. 5/1990;). New York: Harper Collins Publishers. Cronbach L.J. (1971). Test validation, w: R.L. Thorndike (red.), Educational measurement (wyd. 2). Washington D.C.: American Council of Education. Cronbach L.J. (1976). Eąuity in selection: Where psychometrics and political philosophy meet. Journal of Educational Measurement, 13, s. 31—41. Cronbach L.J., Gleser G.C. (1965). Psychological Test and Personnel Desi- cions (wyd. 2). Urbana: University of Illinois. Cronbach L.J., Gleser G.C, Nanda H., Rajaratnam N. (1972). The Depen- dability of Behavioral Measurement. New York: Wiley. Cronbach L.J., Meehl P.E. (1955). Construct validity in psychological tests. Psychological Bulletin, 52, s. 281-302. Czapiński J. (1978). Dyferencjał semantyczny, w: L. Wołoszynowa (red.), Materiały do nauczania psychologii. Metody badań psychologicznych. Seria UJ, tom 3 (s. 257-275). Warszawa: Państwowe Wydawnictwo Naukowe. Daniel M.H. (1997). Intelligence testing: Status and trends. American Psycholo- gist 10, s. 1038-1045. Darlington R.B. (1971). Another look at "cultural fairness". Journal of Educational Measurement, 3, s. 71—82. Davis D.L., Rubin R.S. (1983). Identifying the energy conscious consumer: The case of the opinion leader. JAMS, 11, s. 169-190. Diana vs. California State Board of Education (1970). U.S. District Court for the Northern District of California. Domański Cz. (1979). Statystyczne testy nieparametryczne. Warszawa: PWE. Drwal R. (1990). Problemy kulturowej adaptacji kwestionariuszy osobowości, w: A. Ciechanowicz (red.), Kulturowa adaptacja testów (s. 115-138). Warszawa: Polskie Towarzystwo Psychologiczne, Laboratorium Technik Diagnostycznych. Literatura Drwal R. (1995). Adaptacja kwestionariuszy osobowości. Warszawa: Wydawnictwo Naukowe PWN. DuBois P.H. (1970). A History of Psychological Testing. Boston: Allyn and Bacon. Ebel R.L. (1965). Measuring Educational Achievement. Englewood Cliffs, NJ: Prentice-Hall. Ebel R.L. (1972). The social consequences of educational testing, w: G.H. Bracht, K.D. Hopkins, J.C. Stanley (red.). Perspectives in Educational and Psychological Measurement (s. 3-13). Englewood Cliffs. N.J.: Prentice-Hall. Edgewarth F.Y. (1892). Correlated averages. Philosophical Magazine, 34, s. 190-204. Edwards A.L. (1957). Techniąues ofAttitude Scalę Construction. New York: Appleton-Century-Crofts. Edwards A.L. (1970). The Measurement of Personality Traits by Scales and Inventories. New York: Holt, Rinehart and Winston. Eells K., Davis K., Havighurst R.J., Herrick V.E., Tyler R.W. (1951). Intelli-gence and Cultural Dijferences. Chicago: University of Chicago Press. Einhorn J.J., Bass A.R. (1971). Methodological considerations relevant to discrimination in employment testing. Psychological Bulletin, 75, s. 261-269. Ellett F.S. (1980). Fairness and the Predictors. Referat wygłoszony na konferencji American Educational Research Association, Boston. Ellis L. (1998). The evolution of attitudes about social stratification: Why many people (including social scientists) are morally outraged by "The Bell Curve". Personality and Individual Differences, 2, s. 207-216. Embretson S.E. (1985). Multicomponent latent trait models for test design, w: S.E. Embretson (red.), Test Design: Developments in Psychology and Psychometrics (s. 195-218). Orlando, FL: Academic Press. Embretson S.E. (2000). Item Response Theory for Psychologists. Mahwah, N.J.: Lawrence Erlbaum. Eysenck H.J. (2000). Teorie osobowości - ujęcie w terminach cech, w: S.E. Hampson, A.M. Colman (red.), Psychologia różnic indywidualnych (s. 63-85). Poznań: Wydawnictwo Zysk i S-ka. Ferguson G.A., Takane Y. (1997). Analiza statystyczna w psychologii i pedagogice. Warszawa: Wydawnictwo Naukowe PWN. Frankfort-Nachmias Ch., Nachmias D. (2001). Metody badawcze w naukach społecznych. Poznań: Wydawnictwo Zysk i S-ka. Frederiksen N. (1984). The real test biast. Influences of testing on teaching and learning. American Psychologist, 3, s. 193-202. Gaul M. (1989). Ocena trafności testu za pomocą modeli równań strukturalnych. Przegląd Psychologiczny, 32, s. 435-448. Gaul M., Zakrzewska M. (1993). Charakterystyka amerykańskiej i polskiej próby standaryzacyjnej i normalizacyjnej, w: J. Brzeziński, E. Hornowska (red.), Skala Inteligencji WAIS-R Wechslera. Polska adaptacja, standaryzacja, normalizacja i wykorzystanie w diagnostyce psychologicznej (s. 107-118). Warszawa: Wydawnictwo Naukowe PWN. 245 Literatura 246 Geller S., Kość Z. (1976). Diagnoza kliniczna a diagnoza psychometryczna, w: L. Wołoszynowa (red.), Materiały do nauczania psychologii. Metody badań psychologicznych. Seria III, tom 3 (s. 365-388). Warszawa: Państwowe Wydawnictwo Naukowe. Glaser R. (1963). Instructional technology and the measurement of learning outcomes. American Psychologist, 18, s. 519-522. Goldberg L.R. (1994). Historyczny przegląd skal i inwentarzy osobowości. Biblioteka Psychologa Praktyka. Tom V: Kwestionariusze w diagnostyce psychologicznej i badaniach naukowych (s. 11-82). Warszawa: Polskie Towarzystwo Psychologiczne, Pracownia Testów Psychologicznych. Goldman L. (1974). Test information in counseling: A critical review. Proceedings of 1973 Invitational Conference on Testing Problems (s. 28-29). New Jersey: Educational Testing Services. Goleman D. (1997). Inteligencja emocjonalna. Poznań: Media Rodzina of Poznań. Greń J. (1974). Statystyka matematyczna. Modele i zadania. Warszawa: Państwowe Wydawnictwo Naukowe. Gruijter D.N.M., Van der Kamp LJ. (1991). Generalizability theory, w: R.K. Hambleton, J.N. Zaal (red.), Advances in Educational and Psychological Testing (s. 45-68). Boston-London-Dordrecht: Kluwer Academic Publishers. Guilford J.P. (1936; 1954). Psychometrics methods (wyd. 2/1954). New York: McGraw-Hill. Guilford J.P. (1964). Podstawowe metody statystyczne w psychologii i pedagogice. Warszawa: Państwowe Wydawnictwo Naukowe. Guilford J.P. (1988a). Teoria testów psychologicznych. Biblioteka Psychologa Praktyka. Tom II: Problemy teorii, rzetelności, konstrukcji i analizy wyników testów psychologicznych (s. 9-50). Warszawa: Polskie Towarzystwo Psychologiczne, Laboratorium Technik Diagnostycznych. Guilford J.P. (1988b). Rzetelność i trafność pomiarów. Biblioteka Psychologa Praktyka. Tom II: Problemy teorii, rzetelności, konstrukcji i analizy wyników testów psychologicznych (s. 51-103). Warszawa: Polskie Towarzystwo Psychologiczne, Laboratorium Technik Diagnostycznych. Guilford J.P. (1988c). Tworzenie testu. Biblioteka Psychologa Praktyka. Tom II: Problemy teorii, rzetelności, konstrukcji i analizy wyników testów psychologicznych (s. 104-177). Warszawa: Polskie Towarzystwo Psychologiczne, Laboratorium Technik Diagnostycznych. Guion R.M. (1980). On trinitarian doctrines of validity. Professional Psycho-logy, 11, s. 385-398. Gulliksen H. (1950). Theory of Mental Tests. New York: Wiley. Hambleton R.K., Rogers H.J. (1991). Advances in criterion-referenced measurement, w: R.K. Hambleton, J.N. Zaal (red.), Advances in Educational and Psychological Testing (s. 3-43). Boston-London-Dordrecht: Kluwer Academic Publishers. Literatura Hambleton R.K., Zaal J.N. (red.) (1991). Advances in Educational and Psychological Testing. Boston-Dordrecht: Kluwer Academic Publishers. Haney W., Madaus G. (1991). The evolution of ethical and technical standards for testing, w: R.K. Hambleton, J.N. Zaal (red.), Advances in Educational and Psychological Testing (s. 395-426). Boston-Dordrecht: Kluwer Academic Publishers. Hart S.H., Moncrief W.C., Parasuraman A. (1989). An empirical investigation of salespeople's performance, effort and selling method during a sales contest. JAMS, 17, s. 29-39. Herrnstein R., Murray Ch. (1994). The Bell Curve: Intelligence and Class Structure in American Life. New York: Free Press. Hilliard A.G. (1979). Standardization and cultural bias as impediments to the scientific study and validation of "intelligence". Journal of Research and Development in Education, 12, s. 47-58. Holland P.W., Thayer D.T. (1988). Differential item performance and the mantel-haenszel procedurę, w: H. Wainer, H.I. Brown (red.), Test Validity. (s. 129-145). Hillsdale, N.J.: Lawrence Erlbaum. Hornowska E. (1980). Klasyczna teoria testów a model Rascha, w: J. Brzeziński (red.), Poznańskie Studia z Filozofii Nauki. Tom 5: Z zagadnień psychologii ilościowej (s. 117-130). Warszawa: Państwowe Wydawnictwo Naukowe. Hornowska E. (1989). Opernejonalizacja wielkości psychologicznych. Założenia - struktura - konsekwencje. Wrocław-Warszawa: Ossolineum. Hornowska E. (1993a). Skala inteligencji Davida Wechslera w świetle teorii inteligencji, w: J. Brzeziński, E. Hornowska (red.), Skala Inteligencji WAIS-R Wechslera. Polska adaptacja, standaryzacja, normalizacja i wykorzystanie w diagnostyce psychologicznej (s. 192-204). Warszawa: Wydawnictwo Naukowe PWN. Hornowska E. (1993b). Słownik, w: J. Brzeziński, E. Hornowska (red.), Skala Inteligencji WAIS-R Wechslera. Polska adaptacja, standaryzacja, normalizacja i wykorzystanie w diagnostyce psychologicznej (s. 168-182). Warszawa: Wydawnictwo Naukowe PWN. Hornowska E. (1999). Stronniczość testów psychologicznych. Problemy - kierunki - kontrowersje. Poznań: Wydawnictwo Fundacji Humaniora. Hornowska E. (2000a). Operacj onalizacj a terminów teoretycznych: czynnik, wielkość, zmienna, w: J. Strelau (red.), Psychologia. Podręcznik akademicki. Tom 1: Podstawy psychologii (s. 389-399). Gdańsk: Gdańskie Wydawnictwo Psychologiczne. Hornowska E. (2000b). Stronniczość testów psychologicznych, w: J. Strelau (red.), Psychologia. Podręcznik akademicki. Tom 1: Podstawy psychologii (s. 426-431). Gdańsk: Gdańskie Wydawnictwo Psychologiczne. Hornowski B. (1970). Analiza psychologiczna Skali J. C. Ravena. Warszawa: Państwowe Wydawnictwo Naukowe. 247 Literatura 248 Hulin CL., Drasgow F., Parsons CK. (1983). Item Response Theory. Application to Psychological Measurement. Homewood, DLL.: Dow Jones Irwin. Hunter J.E., Schmidt F.L. (1976). A critical analysis of the statistical and ethical implications of five definitions of test fairness. Psychological Bulletin, 83, s. 1053-1071. Hunter J.E., Schmidt F.L., Rauschenberger J. (1984). Methodological, statistical, and ethical issues in the study of bias in psychological tests, w: C.R. Reynolds, T. Brown (red.), Perspectives on Bias in Mental Testing (s. 41-100). New York: Plenum Press. Jakubowski J. (1983). Elementy klasycznej teorii trafności testów psychologicznych, w: W.J. Paluchowski (red.), Z zagadnień diagnostyki osobowości (s. 223-247). Wrocław-Warszawa: Ossolineum. Jaworowska A. (1996). Co to jest test psychologiczny?, w: A. Ciechanowicz, A. Jaworowska, T. Szustrowa (red.), Testy, prawo, praktyka (s. 9-26). Warszawa: Polskie Towarzystwo Psychologiczne, Pracownia Testów Psychologicznych. Jaworowska A. (2000). Dostęp do testów psychologicznych i kompetencje zawodowe ich użytkowników, w: J. Brzeziński, M. Toeplitz-Winiewska (red.), Etyczne problemy psychologii (s. 269-278). Poznań: Wydawnictwo Fundacji Humaniora. Jensen A.R. (1980). Bias in Mental Testing. New York: Free Press. Jensen A.R. (1984). Test bias: concepts and criticism, w: C.R. Reynolds, T. Brown (red.), Perspectives on Bias in Mental Testing (s. 507-586). New York: Plenum Press. Kelley T.L. (1939). Selection of upper and lower groups for validation of test items. Journal of Educational Psychology, 30, s. 17-24. Klopfer B., Ainsworth M., Klopfer W., Holt R.R. (1954). Developments in the Rorschach Techniąue. Vol. 1: Techniąue and Theory. Yonkers-on--Hudson, N.Y.: World. Król-Fijewska M. (1991). Trening asertywności. Warszawa: Instytut Psychologii Zdrowia i Trzeźwości, Polskie Towarzystwo Psychologiczne. Kuder G.F., Richardson M.W. (1937). The theory of estimation of test reliability. Psychometrika, 2, s. 151-160. Lawshe C.H. (1975). A quantitative approach to content validity. Personnel Psychology, 28, s. 563-575. Likert R. (1932). A technique for the measurement of attitudes. Archives of Psychology, 140, s. 44-53. Lindeman R.H., Merenda P.F. (1979). Educational Measurement. Glenview 111.: Scott, Foresman&Co. Lindąuist E.F. (1953). Design and Analysis of Experiments in Psychology and Education. Boston: Houghton-Mifflin. Listwan T. (1993). Dobór i ocena kadry menadżerskiej. Wrocław: Wrocławska Biblioteka Współczesnego Menadżera. Literatura Loevinger J. (1957). Objective tests as instruments of psychological theory. Psychological Reports, 3, s. 635-694. Lord F.M. (1952a). A theory of test scores. Psychometric Monograph, 7. Lord F.M. (1952b). The relation of the reliability of multiple-choice tests to the distribution of item difficulties. Psychometrica, 17, s. 181-194. Lord F.M. (1953). The relation of test score to trait underlying the test. Educational and Psychological Measurement, 13, s. 517-548. Lord F.M. (1977). A study of item bias, using item characteristic curve theory, w: Y.H. Poortinga (red.), Basic Problems in Cross-Cultural Psy-chology (s. 19-29). Amsterdam: Swets and Zeitlinger. Lord F.M. (1980). Applications ofitem Response Theory to Practical Testing Problems. Hillsdale, N.J.: Erlbaum. Lord F.M., Novick M.R. (1968). Statistical Theories of Mentol Test Score i. Readings, MA.: Addison-Wesley. Machowski A. (1993). Rzetelność testów psychologicznych. Dwa ujęcia modelowe. Warszawa-Poznań: Wydawnictwo Naukowe PWN. Macmillan (1975). Guidełines for Creating Positive Sexual and Racial Images in Educational Materials. New York: Author. Magnusson D. (1981). Wprowadzenie do teorii testów. Warszawa: Państwowe Wydawnictwo Naukowe. Matarazzo J.D. (1992). Psychological testing and assessment in the 21st century. American Psychologist, 47, s. 1007-1018. Matczak A. (1994). Diagnoza intelektu. Warszawa: Wydawnictwo Psychologii PAN. Matczak A., Jaworowska A., Szustrowa T., Ciechanowicz A. (1995). Bateria Testów APIS-Z. Podręcznik. Warszawa: Polskie Towarzystwo Psychologiczne, Pracownia Testów Psychologicznych. Matuszewski, A. (1984). Interpretacja formalna wyników w testach psychologicznych, w: J. Brzeziński (red.), Wybrane zagadnienia z psychometrii i diagnostyki psychologicznej (s. 47-72). Poznań: Wydawnictwo Naukowe UAM. McCall W.A. (1939). Measurement. New York: Macmillan. McCornack R.L. (1983). Bias in the validity of predicted college grades in four ethnic minority groups. Educational and Psychological Measurement, 43, s. 517-522. McNemar Q. (1975). On so-called test bias. American Psychologist, 30, s. 848-851. Mehrens W.A., Lehmann I.J. (1973). Measurement and Evaluation in Edu-cation and Psychology. New York: Holt, Rinehart and Winston. Messick S. (1989). Validity, w: R.L. Linn (red.), Educational Measurement (wyd. 3, s. 13-103). New York: American Council on Education-Mac-millan. 249 Literatura 250 Miele F. (1997). Rozmowa magazynu Skeptic z Robertem Sternbergiem na temat książki The Bell Curve. Czasopismo Psychologiczne, 1, s. 35-42. Modlin H.C. (1947). A study of the MMPI in clinical practice with notes on the Cornell Index. American Journal of Psychiatry, 103, s. 758-769. Moreland K.L., Eyde L.D., Robertson G.J., Primoff E.S., Most R.B. (1995). Assessment of test user ąualifications. A research-based measurement procedurę. American Psychologist, 1, s. 14-23. Neter J., Wasserman W. (1974). Applied Linear Statistical Models. Home-wood, 111.: Richard D. Irwin. Niemierko B. (1975). Testy osiągnięć szkolnych. Podstawowe pojęcia i techniki obliczeniowe. Warszawa: Wydawnictwa Szkolne i Pedagogiczne. Nowakowska M. (1975). Psychologia ilościowa z elementami naukometńi. Warszawa: Państwowe Wydawnictwo Naukowe. Nunnally J.C. (1978). Psychometric Theory (2 wyd.). New York: McGraw-Hill. Okręgłicka-Forysiak E. (1993). Test Matryc J.C. Ravena. Diagnoza ilościowa i jakościowa, w: E. Okręglicka-Forysiak (red.), Wybrane metody diagnostyczne w psychologii (s. 105-124). Wrocław: Wydawnictwo Uniwersytetu Wrocławskiego. Osgood C.E., Suci G.J., Tannenbaum P.H. (1957). The Measurement of Meaning. Urbana: University of Illinois Press. Osterlind S.J. (1983). Test Item Bias. Sagę University Paper series on Quan-titatwe Applications in the Social Sciences, 30. Beverly Hills-London: Sagę Publications. Paluchowski W.J. (1987). Jacy ci badani właściwie są? Uwagi do artykułu Zbigniewa B. Gasia i Natalii Tomali. Przegląd Psychologiczny, 30, s. 475-479. Paluchowski W.J. (1991). Diagnozowanie osobowości. Testowanie-interpre-tacja-interwencja. Poznań: Wydawnictwo Naukowe UAM oraz Nakom. Paluchowski W.J. (1999). Wpływ postawy wobec reklam telewizyjnych na ich odbiór, w: P. Francuz (red.). Psychologiczne aspekty odbioru telewizji (s. 127-150). Lublin: Towarzystwo Naukowe KUL. Paluchowski W.J. (2001). Diagnoza psychologiczna - podejście ilościowe i jakościowe, seria: Wykłady z Psychologii, t. 7. Warszawa: Wydawnictwo Naukowe Scholar. Petersen N.S., Novick M.R. (1976). An evaluation of some models for cultural-fair selection. Journal of Educational Measurement, 13, s. 3-29. Pollay R.W., Mittal B. (1993). Here's the beef: factors, determinants, and segments in consumer criticism of advertising. Journal of Marketing, 57, s. 99-114. Polskie Towarzystwo Psychologiczne (1992). Kodeks etyczno-zawodowy psychologa. Warszawa. Popham W.J. (1981). Modern Educational Measurement. Englewood Cliffs, N.J.: Prentice-Hall. Popham W.J., Husek T.R. (1972). Implications of criterion-referenced measurement, w: G.H. Bracht, K.D. Hopkins, J.C. Stanley (red.), Perspectives in Educational and Psychological Measurement (s. 132-143). Englewood Cliffs, N.J.: Prentice Hali. Literatura Poznaniak W. (1994). Diagnozowanie a etykietowanie (stygmatyzowanie) ludzi, w: J. Brzeziński, W. Poznaniak (red.), Etyczne problemy działalności badawczej i praktycznej psychologów (s. 73-81). Poznań: Wydawnictwo Fundacji Humaniora. Poznaniak W. (2000). Prywatność jako wartość w świetle obowiązujących aktów prawnych, w: J. Brzeziński, M. Toeplitz-Winiewska (red.), Etyczne problemy psychologii (s. 135-143). Poznań: Wydawnictwo Fundacji Humaniora. Raven J.C., Court J.H., Raven J. (1994). Podręcznik do Testu Matryc Ravena oraz Skal Słownikowych Ravena. Warszawa: Polskie Towarzystwo Psychologiczne, Pracownia Testów Psychologicznych. Reber A.S. (2000). Słownik psychologii. Warszawa: Wydawnictwo Naukowe Scholar. Reynolds C.R. (1982a). The problem of bias in psychological assessment, w: C.R. Reynolds, T.B. Gutkin (red.), The Handbook ofSchool Psychology (s. 178-208). New York: Willey. Reynolds C.R. (1982b). Construct and predictive bias, w: R.A. Berk (red.), Handbook of Methods for Detecting Test Bias (s. 199-227). Baltimore: Johns Hopkins University Press. Reynolds C.R., Brown T. (1984). Bias in testing: Introduction to the issues, w: C.R. Reynolds, T. Brown (red.), Perspectives on Bias in Mentol Testing (s. 1-39). New York: Plenum Press. Reynolds C.R., Kaiser H. (1990). Test bias in psychological assessment, w: T.B. Gutkin, C.R. Reynolds (red.), The Handbook ofSchool Psychology (wyd. 2, s. 487-525). New York: Wiley. Ricks J.H. (1993). Normy lokalne - kiedy i dlaczego?, w: J. Brzeziński, E. Hornowska (red.), Zpsychometrycznych problemów diagnostyki psychologicznej (s. 49-58). Poznań: Wydawnictwo Naukowe UAM. Roach R.J., Frazier L.P., Bowden S.R. (1981). The Marital Satisfaction Scalę: Development of a measure for intervention research. Journal of Marriage and the Family, 21, s. 251-255. Roe R.A., Greuter M.A.M. (1991). Developments in personnel selection methodology, w: R.K. Hambleton, J.N. Zaal (red.), Advances in Educa- tional and Psychological Testing (s. 187-226). Boston-London-Dordrecht: Kluwer Academic Publishers. Rubinsztejn S.L. (1962). Podstawy psychologii ogólnej. Warszawa: Książka i Wiedza. Rudner L.M. (1980). Biased items detection techniąues. Journal of Educa- tional Statistics, 5, s. 213-233. Sattler J.M. (1974). Assessment of Children's Intelligence. Philadelphia: B. Saunders Company. Schmeiser C.B. (1982). Use of experimental design in statistical item bias studies, w: R.A. Berk (red.), Handbook of Methods for Detecting Test bias. Baltimore: Johns Hopkins University Press. 251 Literatura 252 Seashore H.G. (1955). Methods of expressing test scores. The Psychological Corporation Test Service Bulletin, 48. Seligman D. (1995). O inteligencji prawie wszystko. Kontrowersje wokół ilorazu inteligencji. Warszawa: Wydawnictwo Naukowe PWN. Shah S.A. (1969). Privileged Communications, confidentiality, and privacy. Privileged Communications. Professional Psychology, 1, s. 56-59. Shavelson R.J., Webb N.M. (1991). Generalizability Theory: A Primer. Newbury Park, CA: Sagę. Shepard L. (1981). Identyfying bias in test items, w: B.F. Green (red.), New Direction in Testing and Measurement (s. 79-104). San Francisco: Jossey--Bass. Shepard L., Camilli G., Averill M. (1981). Comparison of procedures for detecting test-item bias with both internal and external ability criteria. Journal of Educational Statistics, 6, s. 317-376. Shepard L., Camilli G., Williams D.M. (1984). Accounting for statistical artifacts in item bias research. Journal of Educational Statistics, 9, s. 93-128. Sowa J. (1984). Kulturowe założenia pojęcia normalności w psychiatrii. Warszawa: Państwowe Wydawnictwo Naukowe. Spearman C. (1904). The proof and measurement of assosiation between two things. American Journal of Psychology, 15, s. 72-101. Spearman C. (1907). Demonstration of formulae for true measurement of correlation. American Journal of Psychology, 18, s. 161-169. Stachowski R. (2000). Historia współczesnej myśli psychologicznej. Od Wundta do czasów najnowszych, seria: Wykłady z Psychologii, t. 4. Warszawa: Wydawnictwo Naukowe Scholar. Stepulak M.Z. (2000). Tajemnica zawodowa w działalności badawczej i praktycznej psychologów, w: J. Brzeziński, M. Toeplitz-Winiewska (red.), Etyczne problemy psychologii (s. 103-134). Poznań: Wydawnictwo Fundacji Humaniora. Sternberg R.J. (1992). Ability tests, measurement, and markets. Journal of Educational Psychology, 2, s. 134-140. Strelau J. (1987). O inteligencji człowieka. Warszawa: Wiedza Powszechna. Strelau J. (1995). Regulacyjna teoria temperamentu: z perspektywy 20 lat badań, w: W. Łukaszewski (red.), W kręgu teorii czynności. Kolokwia Psychologiczne (tom 5: s. 11-21). Warszawa: Instytut Psychologii PAN. Strelau J., Zawadzki B. (1998). Kwestionariusz Temperamentu PTS. Podręcznik. Warszawa: Polskie Towarzystwo Psychologiczne, Pracownia Testów Psychologicznych. Suen H.K. (1990). Principles of Test Theories. Hillsdale, N.J.: Lawrence Erlbaum. Szałkowski A. (1995). Zarządzanie potencjałem pracy. Warszawa: Wydawnictwo SGH. Literatura Szewczuk W. (red.), (1979). Słownik psychologiczny. Warszawa: Wiedza Powszechna. Szymczak M. (red.) (1979). Słownik języka polskiego. Warszawa: Państwowe Wydawnictwo Naukowe. Świrydowicz T. (1985). Pojęcie normy w psychologii klinicznej, w: B. Wa- ligóra (red.), Elementy psychologii klinicznej (s. 5-29). Poznań: Wydawnictwo Naukowe PWN. Taylor H.C., Russell J.T. (1939). The relationship of validity coefficients to the paractical effectiveness of tests in selection. Journal of Applied Psychology, 23, s. 565-578. The Rights and Responsibilities of Test Takers: Guidelines and Expectations (1998). http://www.apa.org/science/ Thorndike R.L. (1904). An Introduction to the Theory of Mental and Social Measurements. New York, Science Press. Thorndike R.L., Hagen E. (1977). Measurement and Evaluation in Psychology and Education (wyd. 4). New York: Wiley. Thorndike R.L. (1971). Concepts of cultural-fairness. Journal of Educational Measurement, 4, s. 63-70. Tittle CK. (1982). Judgmental methods, w: R.A. Berk (red.), Handbook of Methods for Detecting Test Bias (s. 31-63). Baltimore: Johns Hopkins University Press. Tomaszewski T. (1947). O psychologii w ZSRR. Poznań: Poznańskie Towarzystwo Psychologiczne. Van de Vijver F., Tanzer N.K. (1997). Bias and equivalence in cross-cultural assessment: An overview. European Review of Applied Psychology, 47, s. 263-279. Vitell S.J., Rallapalli K.C., Singhapakdi A. (1993). Marketing norms: The influence of personal morał philosophies and organizational ethical culture. JAMS,21, s. 331-338. Ustawa o zawodzie psychologa i samorządzie zawodowym psychologów. Dziennik Ustaw RP z dnia 18 lipca 2001, nr 73, poz. 763. Walasek S. (red.), (1994). Studia o szkolnictwie i oświacie mniejszości narodowych w XIX i XX wieku. Wrocław: Wydawnictwo Uniwersytetu Wrocławskiego. Wechsler D. (1939). The Measurement of Adult Intelligence. Baltimore: Williams and Wilkins. Wechsler D. (1974). Wechsler Intelligence Scalę for Children - Revisited. New York: The Psychological Corporation. Wechsler D. (1998). Definicja i natura inteligencji, w: J. Brzeziński, E. Hornowska (red.), Skala inteligencji Wechslera WAIS-R (s. 15-20). Warszawa: Wydawnictwo Naukowe PWN. Weiss D.J., Yoes M.E. (1991). Item response theory, w: R.K. Hambleton, J.N. Zaal (red.), Advances in Educational and Psychological Testing (s. 69-95). Boston, London, Dordrecht: Kluwer Academic Publishers. 253 Literatura 254 Wieberg H.J.W., Neeb K.E., Schott F. (1984). Empirical comparison of trained and non-trained teachers in constructing criterion-referenced items. Studies in Educational Evaluation, 10, s. 199-204. Wiggins J.S. (1994). Techniki ustrukturowane. Biblioteka Psychologa Praktyka. Tom V: Kwestionariusze w diagnostyce psychologicznej i badaniach naukowych (s. 93-170). Warszawa: Polskie Towarzystwo Psychologiczne, Pracownia Testów Psychologicznych. Williams R.L. (1974). From dehumanization to black intellectual genocide: A rejoiner, w: G.J. Williams, S. Gordon (red.), Clinical Child Psychology: Current Practices and Future Perspectives. New York: Behavioral Pub-lications. Williams R.L., Dotson W., Dow P., Williams W.S. (1980). The war against testing: A current status report. Journal of Negro Education, 49, s. 263-273. Witwicki W. (1928). O narodowych testach amerykańskich do badania inteligencji. Psychotechnika, 7, s. 23-32. Wojtkiewicz-Rok W. (1996). Rola wydziału lekarskiego Uniwersytetu Jana Kazimierza w kształtowaniu polskiego modelu nauczania medycyny. Studia medyczne UJK w latach 1920-1939. Wrocław: Akademia Medyczna we Wrocławiu. Yaremko R.M., Harari H., Harrison R.C., Lynn E. (1982). Reference Hand-book of Research and Statistical Methods in Psychology: For Students and Professionals. Cambridge, MA: Harper and Row. Zakrzewska M. (1993). Analiza czynnikowa wyników: W-B I, WAIS, WAIS-R, w: J. Brzeziński, E. Hornowska (red.), Skala Inteligencji WAIS-R Wechslera. Polska adaptacja, standaryzacja, normalizacja i wykorzystanie w diagnostyce psychologicznej (s. 295-326). Warszawa: Wydawnictwo Naukowe PWN. Zakrzewska M. (1994). Analiza czynnikowa w budowaniu i sprawdzaniu modeli psychologicznych. Poznań: Wydawnictwo Naukowe UAM. Zakrzewska M. (1997). Konfirmacyjna analiza czynnikowa WAIS-R (PL). Wyniki osób od 16 do 54 roku życia. Przegląd Psychologiczny, 40, s. 419-442. Zakrzewska M. (2000). Trzy różne ilorazy inteligencji: Interpretacja polskiej wersji Skali Inteligencji Wechslera dla Dorosłych [WAIS-R(PL)]. Czasopismo Psychologiczne, 6, s. 159-169. Zawadzki B., Strelau J. (1997). Formalna charakterystyka zachowania - Kwestionariusz Temperamentu (FCZ-KT). Warszawa: Polskie Towarzystwo Psychologiczne, Pracownia Testów Psychologicznych. Aiken L.R. - 18, 38, 59, 91, 101, 152, 168, 169, 173, 177, 178, 180, 185, 187, 190, 192, 202, 241, 244 Ainsworth M. - 248 Algina J. - 18, 34, 38, 59, 73, 91, 101, 152, 153, 168, 169, 173, 177, 178, 180, 185, 187, 190, 192, 202, 241, 244 Anastasi A. - 21, 22, 24, 26-29, 38, 39, 42, 49, 50, 52, 54, 57, 67, 79, 82-84, 87, 89, 91-94, 96,99,100, 110,112,115,125,127,129,137, 148, 150-152, 154, 156, 157, 171,172,177,182,184,186,191, 192, 204, 213-215, 217, 241 Angoff W.H. - 110, 187, 188, 190, 206, 241, 242 Averill M. - 104, 252 Bartlett C.J. - 112, 242 Bass A.R. - 101,245,252 Bechtold H.P. - 81, 83, 242 Berg LA. - 210, 242 Berk R.A. - 59, 107, 154, 190, 241, 242, 251, 253 BernalE.M. - 110,242 Binet A. - 11, 37-39, 100, 151, 242 Birnbaum A. - 193, 200, 242 BłażkaB. - 11 BourdieuP. -208, 211, 242 Bowden S.R. - 251 Bracht G.H. - 250 Brown H.I. -60, 101, 105, 108, 109, 111,247,251 Brown T. -248, 251 Brzeziński J. - 11, 13, 25, 29, 30, 38, 49, 50, 57, 64, 79, 73, 82, 84, Indeks nazwisk 87, 94, 96, 98, 99, 127, 130, 134, 137, 142, 144, 146, 147, 157, 165, 182, 204, 213, 214, 225, 242, 243, 245, 247-249, 251-253 Brzozowski P. - 97, 243 Burosa O.K. - 40, 82 Camara W.J. - 208, 243 Camilli G. - 103, 104, 107, 187, 189, 195, 197, 198, 200, 218, 243, 252 Campbell D.T. - 94, 96, 243 Cattell J.M. - 37, 39 Choynowski M. - 21, 49, 50, 52, 55, 67, 243 Ciarkowska W. - 186 Ciechanowicz A. - 30, 225, 244, 248, 249 Cohen R.J. - 37, 39, 42, 52, 84, 87, 88, 92-95, 137, 152, 153, 156, 163, 164, 166, 169-171, 184, 191, 192, 213-215, 217-219, 244 Cole N.S. - 102, 244 Colman A.M. - 245 Court J.H. - 19, 251 Crocker L. - 18, 34, 57, 73, 91, 101, 149, 152, 153, 168, 169, 173, 177, 178, 180, 185, 187, 192, 202, 244 Cronbach L.J. - 11, 20, 21, 22, 39, 54, 70, 72, 75, 77, 81-84, 93-95, 110, 111, 126, 131, 146, 151, 153, 155, 166, 239, 244 Czapiński J. - 166, 244 Daniel M.H. - 224, 244 Darlington R.B. - 110, *23, 244 Darwin K. - 36, 37 255 Indeks nazwisk 256 Davis D.L. - 62, 244 Davis K. - 62, 186, 245 Desnos R. -211 Domański Cz. - U4,142,244 DotsonW. -106, 254 Dow P. - 106, 254 Drasgow F. - 30, 31, 96, 97, 104, 201, 202, 203, 243-245, 248 Drwal R. - 30, 31, 96, 97, 104, 201, 202, 243-245, 248 DuBois P.H. - 35-37, 39, 245 Dyer H.S. - 206, 242 Ebbinghaus H. - 36 Ebel R.L. - 178, 208, 211, 245 Edgeworth F.Y. - 11,245 Edwards A.L. - 38, 93, 160, 182, 245 Eells K. - 186, 245 Einhorn J.J. - 101, 245 Ellett F.S. - 125, 245 Ellis L. - 208, 245 Embretson S.E. - 100,194, 201, 245 Eyde L.D. - 250 Eysenck H.J. - 97, 99, 243, 245 Fechner G. - 36 Ferguson G.A. - 171, 245 Fiske D.W. - 96, 243 Francuz P. - 250 Frankfort-Nachmias Ch. - 130, 162, 245 Frazier L.P. - 251 Frederiksen N. - 207, 245 Galton F. - 37, 39 Gaś Z.B. - 250 Gaul M. - 96, 130, 132, 243, 245 Geller S. - 20, 93, 154, 246 Glaser R. - 24, 246 GleserG.C. - 11,21,244 Goldberg L.R. - 39, 246 Goldman L. - 212, 246 Goleman D. - 208, 246 Golombok S. 227 Green B.F. - 252 Greft J. - 144, 246 Greuter MAM. - 115, 124, 251 Griggs - 40, 219 Gruijter D.N. - 70, 246 Guilford J.P. - 38, 42-^4, 47, 53-55, 57, 79, 115-118, 127, 142, 178, 181, 182, 192, 246 Guion R.M. - 82, 94, 246 Gulliksen H. - 21, 43, 47, 246 Gutkin T.B. - 251 Hagen E. - 166, 168, 253 Hambleton R.K. - 155, 156, 184, 185, 224, 246, 247, 251, 253 Hampson S.E. - 245 Haney W. - 213, 224, 247 Hart S.H. - 62, 247 Havighurst R.J. - 186, 245 Herrick V.E. - 186, 245 Herrnstein R. - 207, 247 Hilliard A.G. - 107, 247 Hillsdale N.J. - 242, 244 Holland P.W. - 188, 242, 244, 247 Holt R.R. - 248 Hopkins K.D. - 245, 250 Hornowska E. - 13, 18, 30, 84, 94, 100,114,125,127,157,161,172, 191,200,203, 204,243,245,247 Huarte J. - 39 Hulin CL. - 104, 201-203, 248 Hunter J.E. - 119-123, 125, 248 Husek T.R. - 185, 250 Iverson J.A. -215 Jakubowski J. - 90, 92-94, 99, 127, 248 Jastrow J. - 39 Jaworowska A. - 26-29, 113, 129, 221,225,248,249 Indeks nazwisk Davis D.L. - 62, 244 Davis K.-62, 186,245 Desnos R. -211 Domański Cz. - 114, 142, 244 Dotson W. - 106, 254 Dow P. - 106, 254 Drasgow F. - 30, 31, 96, 97, 104, 201, 202, 203, 243-245, 248 Drwal R. - 30, 31, 96, 97, 104, 201, 202, 243-245, 248 DuBois P.H. - 35-37, 39, 245 Dyer H.S. - 206, 242 Ebbinghaus H. - 36 Ebel R.L. - 178, 208, 211, 245 Edgeworth F.Y. - 11,245 Edwards A.L. - 38, 93, 160, 182, 245 Eells K. - 186, 245 Einhorn J.J. - 101, 245 Ellett F.S. - 125, 245 Ellis L. - 208, 245 Embretson S.E. - 100, 194, 201, 245 Eyde L.D. - 250 Eysenck H.J. - 97, 99, 243, 245 Fechner G. - 36 Ferguson G.A. - 171, 245 Fiske D.W. - 96, 243 Francuz P. - 250 Frankfort-Nachmias Ch. - 130, 162, 245 Frazier L.P. - 251 Frederiksen N. - 207, 245 Galton F. - 37, 39 Gaś Z.B. - 250 Gaul M. - 96, 130, 132, 243, 245 Geller S. - 20, 93, 154, 246 Glaser R. - 24, 246 Gleser G.C. - 11, 21, 244 Goldberg L.R. - 39, 246 256 Goldman L. - 212, 246 Goleman D. - 208, 246 Golombok S. 227 Green B.F. - 252 Greń J. - 144, 246 Greuter M.A.M. - 115, 124, 251 Griggs - 40, 219 Gruijter D.N. - 70, 246 Guilford J.P. - 38, 42^4, 47, 53-55, 57, 79, 115-118, 127, 142, 178, 181, 182, 192, 246 Guion R.M. - 82, 94, 246 Gulliksen H. - 21, 43, 47, 246 Gutkin T.B. - 251 Hagen E. - 166, 168, 253 Hambleton R.K. - 155, 156, 184, 185, 224, 246, 247, 251, 253 Hampson S.E. - 245 Haney W. - 213, 224, 247 Hart S.H. - 62, 247 Havighurst R.J. - 186, 245 Herrick V.E. - 186, 245 Herrnstein R. - 207, 247 Hilliard A.G. - 107, 247 Hillsdale N.J. - 242, 244 Holland P.W. - 188, 242, 244, 247 Holt R.R. - 248 Hopkins K.D. - 245, 250 Hornowska E. - 13, 18, 30, 84, 94, 100,114,125,127,157,161,172, 191,200, 203, 204,243,245,247 Huarte J. - 39 Hulin CL. - 104, 201-203, 248 Hunter J.E. - 119-123, 125, 248 Husek T.R. - 185, 250 Iverson J.A. - 215 Jakubowski J. - 90, 92-94, 99, 127, 248 Jastrow J. - 39 Jaworowska A. - 26-29, 113, 129, 221,225,248,249 mmmmmmmmm ?BfiSSi WKM 1 Indeks nazwisk 1 Jensen A.R. - 101-103, 106, 109, Mehrens W.A. - 137, 164, 165, 249 1 112, 119-122,248 Merenda P.F. - 59, 248 | Jung C. - 39 Messick S. - 81, 84, 94, 249 Miele F. - 208, 209, 250 Kaiser H. - 109, 251 Mittal B. - 227, 250 KelleyT.L. - 177, 182,248 Modlin H.C. - 250 Kendall M.G. - 87, 233 Moncrief W.C. - 62, 247 Klopfer B. - 214, 248 Moreland K.L. -221, 250 Klopfer W. - 214, 248 Most R.B. - 250 Kość Z. - 20, 246 Murray Ch. - 207, 247 Kozielecki J. - 243 I Król-Fijewska M. - 85, 248 Nachmias D. - 130, 162, 245 1 Kuder G.F. - 53, 54, 57, 58, 248 NandyH.-21,244 Neeb K.E. - 185 Lawshe C.H. - 87-89, 233, 248 NeterJ. - 114, 250 1 Lehmann I.J. - 137, 164, 165, 249 Niemierko B. - 129, 150, 152, 153, j Likert R. - 163-166, 230, 248 156, 163, ,164, 166, 176, 250 Lindeman R.H. - 59, 248 Novick M.R. - 11, 12, 18, 19, 21, Lindquist E.F. - 70, 248 33,44,48, 94, 110 Linn R.L. - 249 Nowakowska M. - 12, 17, 48, 50, Listwan T. - 114, 248 76, 250 Loevinger J. - 94, 249 Nunnally J.C. - 66, 168-171, 250 1 LordF.M. - 11, 12, 18, 19,21, 33, 1 44, 48, 94, 174, 193, 203, 242, 0'Leary B.S. - 112, 242 1 249 Okręglicka-Forysiak E. - 100, 250 1 Łukaszewski W. - 252 OsgoodC.E.- 166,250 Osterlind S.J. - 103, 190, 195, 196, | 198, 199, 250 1 Machowski A. - 12, 44, 48, 243, Otis A. - 38 1 249 Madaus G. - 213, 224, 247 Paluchowski W.J. - 12, 20, 22, 29, Magnusson D. - 12, 42, 48, 57, 127, 160, 212, 223, 227, 228, I 60-62, 64, 68, 84, 90, 92, 94, 248, 250 1 131, 140, 142, 144, 146, 147, Parasuraman A. - 62, 247 1 175, 178, 180, 183, 184, 249 Parsons CK. - 104, 201, 202, 248 Matarazzo J.D. - 224, 249 Passeron J.-C. - 203, 208, 211, 242 Matczak A. - 95, 151, 249 Pawłów I. - 162 Matuszewski A. - 128, 137, 147, Petersen N.S. - 110, 250 148, 157, 249 Piotrowska A. - 186 McCall W.A. - 136, 249 Platon - 127 McCornack R.L. - 109, 249 Pollay R.W. - 227, 250 McNemar Q. - 110, 241, 249 Poortinga Y.H. - 249 Meehl P.E. - 81, 84, 94, 95, 110,244 Popham W.J. - 162, 185, 250 257 J J Indeks nazwisk Poznaniak W. - 209, 210, 217, 225, 243, 251 Primoff E.S. - 250 Rajaratnam N. - 11, 21, 244 Rallapalli K.C. - 62, 253 RaschG. - 11, 200, 247 Rauschenberger J. - 119, 123, 125, 248 Raven J.C. - 19, 100, 106, 247, 250, 251 Reber A.S. - 17, 251 Reynolds C.R. - 101, 105, 107-111, 248, 251 Richardson M.W. - 53, 57, 248 Ricks J.H. - 129, 133, 157, 251 Roach R.J. - 95, 251 Robertson G.J. - 250 RoeR.A. - 115, 124, 251 Rogers H.J. - 155, 156, 184, 185, 224, 246 Rorschach H. - 38, 39 Rubin R.S. - 62, 244 Rubinsztejn S.L. - 208, 251 Rudner L.M. - 203, 251 RussellJ.T.-116, 253 Rust J. - 227 Sattler J.M. - 152, 251 Schmeiser C.B. - 190, 251 Schmidt F.L. - 119-123, 125, 248 Schott F. - 185 Seashore H.G. - 135, 252 Seligman D. - 219, 220, 252 Shah S.A. - 217, 252 Shavelson R.J. - 252 Shepard L.A. - 103, 104, 107, 187, 189, 195, 197, 198, 200, 218, 243, 252 SimonT. - 11, 37, 39, 100, 151, 242 Singhapakdi A. - 62, 253 258 Sowa J. - 128, 252 Spearman Ch. - 38, 39, 43, 44, 53, 59, 60, 91, 252 Stachowski R. - 37, 252 Stanley J.C. - 245, 250 Stepulak M.Z. - 216, 225, 252 Sternberg R.J. - 11, 205, 208, 209, 221, 223, 224, 250, 252 Stone C. - 39 Strelau J. - 38, 136, 137, 151, 161, 166, 169, 243, 247, 252 Strong E.K. - 38 Suci G.J. - 166, 250 Suen H.K. - 35, 70-75, 78, 81, 83, 173, 252 Swerdlik M.E. - 37, 39, 42, 52, 84, 87, 88, 92-95, 137, 152, 153, 156, 163, 164, 166, 169-171, 184, 191, 192, 213-215, 217-219, 244 Szałkowski A. - 117, 252 Szewczuk W. - 17, 253 Szustrowa T. - 225, 244, 248, 249 Szymczak M. - 17, 80, 101, 128, 253 Świrydowicz T. - 128, 253 Takane Y. - 134, 171, 245 Tannenbaum P.H. - 166, 250 Tanzer N.K. - 105, 111, 253 TaylorH.C. - 116,253 Terman L. - 38, 39 ThayerD.T. - 188, 247 Thorndike R.L. - 11, 17, 38, 39, 110, 136, 166, 168, 244,253 Thursone L. - 39 Tittle C.K. - 108, 109, 253 Toeplitz-Winiewska M. - 225, 248, 251, 252 Tomala N. - 250 Tomaszewski T. - 207, 253 TylerR.W.-186,245 Indeks nazwisk Urbina S. - 21, 22, 24, 26-29, 38, Wieberg H.J.W. - 185, 254 39, 42, 49, 50, 52, 54, 57, 67, 79, Wiggins J.S. - 160, 166, 210 82-84, 87, 89, 91-94, 96, 99, 100, Williams D.M. - 106, 189, 252 110,112,115,125,127,129,137, 148, 150-152, 154, 156, 157, Williams R.L. - 106, 107 Williams W.S. - 106, 242 171, 172, 177, 182,184, 186, 191, Witwicki W. - 108, 207 192, 204, 213-215, 217, 241 Wojtkiewicz-Rok W. - 124 Wołoszynowa L. - 244, 246 Van de Vijver F. - 105, 111, 253 Woodworth R. - 38, 39 Van der Kamp - 70, 246 Wundt W. - 36, 37, 39, 252 Vitell S.J. - 62, 253 Yaremko R.M. - 47, 254 Walasek S. - 124, 253 Yoes M.E. - 194, 253 Warchoł G. - 223 Wasserman W. - 114, 250 Zaal J.N. - 224, 246, 247, 251, 253 Webb N.M. - 73, 252 Zakrzewska M. - 97, 98, 130, 132, Wechsler D. - 18, 40, 97, 106, 132, 243, 245 134, 137, 138, 171, 245, 247, 253 Zawadzki B. - 136, 137, 161, 166, Weiss D.J. - 194, 253 169, 252 259 W serii „Wykłady z Psychologii" ukazały się następujące książki: Jerzy Brzeziński Badania eksperymentalne w psychologii i pedagogice [t. 1] Ida Kurcz Psychologia języka i komunikacji [t. 2] Anna Brzezińska Społeczna psychologia rozwoju [t. 3] Ryszard Stachowski Historia współczesnej myśli psychologicznej. Od Wundta do czasów najnowszych [t. 4] Helena Sęk Wprowadzenie do psychologii klinicznej [t. 5] Elżbieta Hornowska Testy psychologiczne. Teoria i praktyka [t. 6] Władysław Jacek Paluchowski Diagnoza psychologiczna. Podejście ilościowe i jakościowe [t. 7] Bogdan Wojciszke Człowiek wśród ludzi. Zarys psychologii społecznej [t. 8] Augustyn Bańka Społeczna psychologia środowiskowa [t. 9] Jan Strelau Psychologia różnic indywidualnych [t. 10] Piotr Oleś Psychologia osobowości [t- U] j •• _-__-__**? _W_«ftW_-_-__mmmmmm-m ____»»________. _amm«mmmmm«a ?• ________________________