Seria WYKŁADY Z PSYCHOLOGII
Redaktor naukowy: Jerzy Brzeziński
tom 6
Seria Wykłady z Psychologii obejmuje autorskie ujęcie podstawowych dziedzin psychologii, wchodzących w obręb programu pięcioletnich studiów magisterskich na tym kierunku. Poszczególne książki z tej serii, napisane przez badaczy o długoletnim doświadczeniu dydaktycznym i znaczących osiągnięciach naukowych, adresowane są przede wszystkim do studentów psychologii, ale mogą też być z pożytkiem wykorzystane przez studentów pokrewnych kierunków.
W serii Wykłady z Psychologii będą ukazywały się książki, które odnoszą się do przedmiotów ujętych w Minimalnych wymaganiach programowych opracowanych przez Radę Główną Szkolnictwa Wyższego oraz w Standardach akredytacji kierunku studiów psychologia Uniwersyteckiej Komisji Akredytacyjnej — zarówno z grupy przedmiotów podstawowych, jak i grupy przedmiotów ujętych w programach różnych specjalności (psychologii klinicznej, psychologii edukacji, psychologii organizacji i zarządzania itd.). Zaprezentowane zostaną także najnowsze obszary badań w zakresie podstaw i zastosowań psychologii, m.in.: neuronauka poznawcza, genetyka behawioralna, psychologia polityczna, psychologia środowiskowa, psy-chologiareklamy.

Elżbieta Hornowska
Testy psychologiczne
Teoria i praktyka




?







Wydawnictwo Naukowe SCHOLAK
Redaktor: Filip Modrzejewski
Korekta: TLespól
Projekt okładki: Katarzyna Juras


Copyright © 2001, 2003 by Wydawnictwo Naukowe „Scholar", Warszawa

?

ISBN: 83-7383-056-1

St                                        u kknłczaei. p"«Vi.rsr4f>tfn cum-
Wydawnictwo Naukowe „Scholar", Spółka z o.o.    .i* tui    Łś
ul. Krakowskie Przedmieście 62, 00-322 Warszawa
tel./fax 828 95 63, 826 59 21, 828 93 91
dział handlowy: 635 74 04 w. 219 lub jw. wew. 108
e-mail info@scholar.com.pl
http://www.scholar.com.pl


Wydanie drugie
Skład i łamanie: WN „Scholar" (Stanisław Beczek) Drukarnia Diecezjalna w Sandomierzu tel. (0-15) 832-31-92
r
?
Spis treści
Wstęp.............................................
Część I
Podstawowe problemy psychometrii
Rozdział 1. Wnioskowanie psychometryczne................
1.1.  Czym zajmuje się psychometria?.......................
1.2.  Definicja testu i rodzaje testów........................
Definicja testu....................................
Rodzaje testów...................................
1.3.  Kryteria dobroci testów psychologicznych.........
Obiektywność, czyli niezależność wyników testowania
Standaryzacja, czyli jednolitość warunków badania..........
Rzetelność, czyli dokładność pomiaru...................
Trafność, czyli obszar zastosowania testu.................
Normy, czyli nadawanie znaczenia wynikom testowym.......
Właściwa adaptacja, czyli dopasowanie testu do polskich warunków
1.4.  Proces wnioskowania psychometrycznego.................
1.5.  Dwa słowa o historii testowania.......................
Podstawowe pojęcia...................................
Literatura zalecana....................................

n
17 17 21 21 22 25 25 26 28 28 29 29 32 35 38 40
Rozdział 2. Klasyczna teoria testów jako podstawa wnioskowania
o rzetelności testu....................................   41
2.1.  Źródła błędu w pomiarze testowym.....................   41
Konstrukcja testu..................................   42
Sytuacja testowania................................   42
Sposób oceny wyników.............................   43
2.2.  Model wyniku prawdziwego i jego założenia
- klasyczna teoria testów............................   43
2.3.  Definicja rzetelności................................   45
Interpretacja współczynnika rzetelności..................   48
2.4.  Metody badania rzetelności...........................   49
Badanie rzetelności metodą powtarzania testu
(tzw. technika test-retest)............................   49
Rzetelność szacowana metodą wersji równoległych (alternatywnych)   51 Rzetelność szacowania na podstawie wyników jednokrotnego
badania danym testem..............................   52
Rzetelność jako zgodność ocen........................   55
Porównanie poszczególnych współczynników rzetelności......   55
Rzetelność testów szybkości..........................   57
Rzetelność testów zorientowanych na kryterium (standard wykonania)   59
Czynniki wpływające na wielkość współczynnika rzetelności ...   60
2.5.   Ocena rzetelności indywidualnego wyniku................   63
Standardowy błąd pomiaru...........................   63
Standardowy błąd różnicy między dwoma wynikami.........   67
2.6.  Teoria uniwersalizacji jako odmiana klasycznej teorii testów ...   69
Wariancja wyników testowych........................   70
Źródła wariancji..................................   71
Wariancja prawdziwa oraz wariancja błędu................   72
Schematy badawcze................................   72
Podstawowe pojęcia...................................   79
Literatura zalecana....................................   79
3.2. 3.3.
3.4.
Rozdział 3. Trafność, czyli określanie obszaru zastosowania testu .   80
3.1. Pojęcie trafności..................................   80
Rodzaje trafności..................................   82
Sposoby badania trafności............................   85
Trafność treściowa.................................   85
Trafność kryterialna................................   90
Trafność teoretyczna...............................   94
Stronniczość testów................................100
Definicja stronniczości..............................102
Potencjalne źródła stronniczości testu....................104
Stronniczość testu a trafność treściowa...................107
Stronniczość testu a trafność kryterialna..................109
Stronniczość testu a trafność teoretyczna.................110
Techniki szacowania stronniczości testu..................111
Wykorzystanie testów dla celów selekcyjnych..............114
Indywidualizm nieograniczony........................119
Indywidualizm ograniczony..........................121
Dobór kwotowy...................................123
Podstawowe pojęcia...................................127
Literatura zalecana....................................127
3.5
Rozdział 4. Normy, czyli nadawanie znaczenia wynikom testowym 128
4.1.  Pojęcie normy w psychometrii........................128
Znaczenie grupy odniesienia..........................129
Normy ogólnokrajowe..............................131
Normy lokalne...................................133
4.2.  Rodzaje norm ze względu na sposób ich konstrukcji.........134
Normy standardowe................................134
Normy rangowe...................................146
Normy typu równoważnikowego.......................150
4.3.  Interpretacja wyników testów zorientowanych na kryterium .... 154
Podstawowe pojęcia...................................156
Literatura zalecana....................................157
Rozdział 5. Konstruowanie testu - podstawowe procedury......158
5.1.  Od czego zaczynamy?..............................160
Określanie celu pomiaru.............................160
Określanie obszaru zachowań identyfikowanych z mierzonym konstruktem (procedura operacjonalizacji)................160
5.2.  Zasady budowania pozycji testowych....................162
5.3.  Analiza zadań....................................167
Analiza językowo-treściowa..........................167
Badanie pilotażowe................................169
Wskaźnik trudności................................170
Współczynniki mocy dyskryminacyjnej..................175
Rzetelność \ trafność pozycji testowej...................182
Analiza zadań w testach szybkości......................184
Analiza zadań w testach zorientowanych na kryterium........184
5.4.  Stronniczości pozycji testowych - zjawisko zróżnicowanego funkcjonowania pozycji.............................186
5.5.  Ostateczna rewizja testu.............................191
Walidacja krzyżowa................................191
5.6.  Teoria odpowiadania na pozycje testu...................193
Ograniczenia modelu klasycznego......................193
Założenia IRT....................................195
Krzywa charakterystyczna pozycji testowej................195
Parametry pozycji testowej i skala cechy latentnej...........197
Modele formułowane w ramach IRT....................199
Gdzie wykorzystuje się modele IRT?....................202
Podstawowe pojęcia...................................204
Literatura zalecana....................................204
Rozdział 6. Społeczny kontekst stosowania testów psychologicznych 205
6.\. Testowanie psychologiczne - społeczne niebezpieczeństwa.....205
6.2. Prawa osób badanych...............................213
Prawo do wyrażenia świadomej zgody na badanie testem......213
Prawo do informacji o wynikach testowania...............214
Prawo do minimalizowania skutków etykietowania ..........215
Prawo do zachowania tajemnicy o wynikach testowania.......215
Prawo do prywatności..............................217
6.3.  Testy przed sądem.................................217
6.4.  Testy jako produkty rynkowe.........................220
Podstawowe pojęcia...................................224
Literatura zalecana....................................
Część II
Krótki przewodnik, czyli jak samemu zbudować
TEST
Poradnik dla studentów................................
Llteratura.........................................
Indeks nazwisk......................................
227 241 255




-

?




8
i\   ioioir?

Spis rysunków
Rys. 1.1. Definicje semantyczne i syntaktyczne   .........................     19
Rys. 1.2. Podział testów ze względu na rodzaj możliwej odpowiedzi   ..........     24
Rys. 1.3. Podział testów ze względu na rodzaj interpretacji wyniku testowego   ...     25
Rys. 1.4. Proces wnioskowania psychometrycznego   ......................     35
Rys. 2.1. Źródła błędu losowego w badaniu testowym   ....................     42
Rys. 2.2. Metody badania rzetelności   ................................     56
Rys. 2.3. Rzetelność testu jako funkcja jego długości  .....................     61
Rys. 2.4. Schemat badawczy dla układu krzyżowego oraz układu gniazdowego   . .     76
Rys. 2.5. Kolejne etapy postępowania w ramach teorii uniwersalizacji   .........     78
Rys. 3.1. Definicja i rodzaje trafności   ...............................     86
Rys. 3.2. Kiedy test jest trafny treściowo?   ............................     88
Rys. 3.3. Diagramy korelacyjne przedstawiające rodzaje relacji między wynikami
testowymi (X) i zmienną kryterialną (Y) w grupie większości i mniejszości     113 Rys. 3.4. Podział populacji starających się o pracę przy uwzględnieniu
kwalifikacyjnego wyniku testu psychologicznego (oś X) oraz kryterium
pracy zawodowej (oś Y)   ..................................   116
Rys. 3.5. Różne kombinacje stosunku wyboru i stosunku powodzenia przy różnych
stopniach trafności prognostycznej testu   .......................    117
Rys. 4.1. Normy typu standardowego  ................................   135
Rys. 4.2. Rozkład normalny a skala staninowa   .........................   137
Rys. 4.3. Wykorzystanie skali standardowej o szerokim zakresie wyników (Skala
T) i skali standardowej o wąskim zakresie wyników (skala staninowa) do
przedstawienia wyników dwóch osób (X) i (Y)   ..................   139
Rys. 4.4. Efekt niezgodności między długością skali wyników surowych a długością
skali wyników przeliczonych...............................   141
Rys. 4.5. Graficzna reprezentacja istoty procesu normalizacji   ...............   143
Rys. 4.6. Etapy procedury normalizacji   ..............................   145
Rys. 4.7. Skala centylowa  ........................................   148
Rys. 4.8. Związek między centylami a rozkładem normalnym   ..............    149
Rys. 4.9. Siatka centylowa obrazująca możliwość porównywania dwóch wyników
wyrażonych w centylach   ..................................   150
Rys. 5.1. Etapy tworzenia testu   ....................................   159
Rys. 5.2. Rodzaje związków między wynikiem danej pozycji testowej a ogólnym
wynikiem w teście   ......................................   176
Rys. 5.3. Ilustracja problemu nakładania się zakresów   ....................    181
Rys. 5.4. Związek między wynikiem otrzymanym w teście a poziomem mierzonej
cechy w klasycznej teorii testów oraz w IRT   ....................   194
Rys. 5.5. Przykład hipotetycznej krzywej charakterystycznej pozycji testowej (item
characteristic curve, ICC)   .................................   196
Rys. 5.6. Dwie krzywe ICC różniące się współczynnikami mocy dyskryminacyjnej
pozycji testowej   ........................................   197
Rys. 5.7. Dwie krzywe ICC różniące się współczynnikami trudności pozycji testowej    198
Rys. 5.8. Dwie krzywe ICC różniące się współczynnikami zgadywania   ........   200
Rys. 5.9. Trzy hipotetyczne sytuacje, w których stronniczość pozycji testowych
wynika z (a) różnej mocy dyskryminacyjnej pozycji testowej w obu grupach,
(b) różnej trudności i (c) różnego współczynnika zgadywania  ........   203
Spis tabel


10
Tab. 1.1. Elementy sytuacji badania testem objęte procedurą standaryzacji   ......     27
Tab. 1.2. Kryteria pozwalające odróżnić dobry test od testu złego   ............     31
Tab. 1.3. Najważniejsze daty w historii pomiaru psychologicznego   ...........     39
Tab. 2.1. Podstawowe źródła błędu w różnych metodach szacowania rzetelności   .     57
Tab. 3.1. Minimalne wartości współczynnika trafności treściowej (CVR), pozwalające
uznać otrzymaną wielkość CVR za istotną statystycznie (dla a = 0,05)   . .     89
Tab. 4.1. Kwotowy układ polskiej próby normalizacyjnej dla testu WAIS-R(PL)   .   132
Tab. 4.2. Przykład normalizacji rozkładu oraz obliczania norm typu standardowego    144
Tab. 4.3. Przykład obliczania norm typu centylowego   ....................   147
Tab. 4.4. Wady i zalety norm typu równoważnikowego   ...................   153
Tab. 5.1. Konstruowanie pozycji testowej wielokategorialnej zjedna opcją do wyboru    167 Tab. 5.2. Wartości wskaźnika trudności dla poszczególnych pozycji oraz średnia
trudność testu Słownik z baterii WAIS-R (PL)   ..................   172
Tab. 5.3. Rozkład wartości poprawionego wskaźnika trudności (To) dla pozycji
posiadających różną liczbę kategorii odpowiedzi   .................   174
Tab. 5.4. Przykładowe wyniki dla trzech wybranych pozycji testowych   ........   177


Wstęp

W tym roku mija 113 lat od ukazania się pierwszej pracy poświęconej statystycznej teorii wyników testowych (Edgeworth, 1888, 1892)1. W ciągu ponad stulecia psychometria - dział psychologii zajmujący się budowaniem teorii wyników otrzymywanych za pomocą testów psychologicznych - osiągnęła status samodzielnej dyscypliny naukowej, a praktyczne konstruowanie i stosowanie testów stało się przemysłem rynkowym. W okresie tym ukazały się tak znaczące prace, jak An Introduction to the Theory of Mentol and Sociał Measurement E.L. Thorndike'a (1919), Theories of Mentol Tests H. Gulliksena (1950), A Theory ofTest Scores RM. Lorda (1952), Probabilis-tic Models for Some Intelligence and Attainment Tests G. Rascha (1960), Statistical Theories ofMental Test Scores F.M. Lorda i M.R. Novicka (1968) czy The Dependability of Behavioral Measurement L.J. Cronbacha, G.C. Gleser, H. Nandy, N. Rajaratnama (1972) - by wymienić tylko najważniejsze. Prace te wyznaczyły sposób myślenia badaczy oraz kierunek podstawowych rozwiązań, jakie wypracowano w tej dziedzinie.
Robert Sternberg (1992, s. 134) - wybitny teoretyk inteligencji - opisując drogę, jaką przebyła psychometria, posłużył się interesującą metaforą. Na przełomie wieków obraz świata uległ ogromnej zmianie dzięki nowemu rewolucyjnemu wynalazkowi - samochodowi. Na początku przyjmowany nieufnie, samochód szybko przekonał ogromne rzesze ludzi o swojej użyteczności. Dzisiejsze marki, chociaż różniące się wyglądem i parametrami technicznymi, w gruncie rzeczy niewiele odbiegają od swojego pierwowzoru: mają cztery koła, silnik i kierownicę, a ich zadaniem jest dowieźć nas tam, gdzie sobie życzymy. Podobnie przedstawia się sytuacja z testami. Dzisiejsze metody testowe - mimo innych opakowań, nieco lepszej trafności i rzetelności - niewiele się różnią od pierwszego testu opracowanego przez Bineta i Simona (1905a, b, c). Składają się z pozycji testowych i mają służyć oszacowaniu wartości określonych cech psychologicznych. Tu jednak kończą się podobieństwa. Szacowanie wartości cech psychologicznych nie jest samo w sobie celem - na podstawie ich wyników podejmowane są decyzje o dużej doniosłości społecznej (to, gdzie ludzie jeżdżą samochodami, nie budzi wszak większego zainteresowania społecznego).
Rzeczywisty cel stosowania testów psychologicznych jest jednak znacznie poważniejszy: „Psychologowie (...) mierzą za pomocą testów, by osiągnąć
1 Prawdopodobnie pierwszą polską pracą z dziedziny psychometrii jest praca Bolesława Błażka pt Studya psychometrycwe. Pomiary na uczniach, wydana w roku 1900, we Lwowie, nakładem Towarzystwa Wydawniczego. Panu Prof. Jerzemu Brzezińskiemu serdecznie dziękuję za udostępnienie egzemplarza tej książki.
11
Wstęp
12
jeden z dwóch celów (lub oba te cele jednocześnie): albo opisać badaną osobę ze względu na interesujące psychologa parametry lub aby przewidywać zachowanie tej osoby w określonej sytuacji" (Paluchowski, 1991, s. 58). Co więcej, ów opis lub przewidywanie są wykorzystywane dalej w procesie „aktywnego poszukiwania danych potrzebnych do podjęcia decyzji o działa-niach zmierzających do zmiany aktualnego stanu (położenia) psychospołecznego ludzi" {ibidem, s. 32).
Testy będą z całą pewnością w coraz szerszym użyciu - od szkoły począwszy na rynku pracy skończywszy. Pytania dotyczące ich uczciwego stosowania będą zyskiwały coraz większe społeczne uznanie. Wraz z rosnącymi wymogami posiadania bardziej pogłębionego wykształcenia ogólnego oraz z coraz częściej obserwowaną tendencją do zmniejszania się znaczenia formalnych ocen szkolnych czy formalnych dyplomów osoby odpowiedzialne za dobór kadr będą poszukiwać bardziej precyzyjnych i bardziej obiektywnych metod oceny kwalifikacji kandydatów, bardziej trafnych metod selekcji np. osób starających się o pracę. Standaryzowane testy w sposób niekwestionowany udowodniły swoją przydatność dla tych celów. Psychologowie, jako grupa zawodowa, muszą jednak umieć odpowiedzieć na pytania: na czym polega idea wnioskowania psychometrycznego; jakie kryteria powinien spełniać dobry test; czy testy zastosowane w konkretnej sytuacji nie są stronnicze (w sensie psychometrycz-nym); czy procedura selekcji oparta na wynikach testowych jest uczciwa w stosunku do wszystkich zainteresowanych osób i jakie są społeczne konsekwencje testowania. Książka ta poświęcona jest tym właśnie zagadnieniom.
Struktura książki
Praca ta składa się z dwóch części. W części pierwszej omówione zostały podstawowe zagadnienia psychometryczne, takie jak definicja testu i rodzaje testów, klasyczna teoria testów i jej współczesne odmiany, teoria rzetelności, zagadnienia trafności oraz koncepcja norm. Osobny rozdział poświęcony został problematyce konstrukcji testów. Wszystkie te problemy zostały przedstawione w sposób maksymalnie nietechniczny, aby zwrócić uwagę Czytelnika na istotę zagadnień psychometrycznych, która często - w gąszczu wzorów i reguł - schodzi na dalszy plan. Czytelników zainteresowanych bardziej matematycznym wykładem prezentowanych treści odsyłam przede wszystkim do prac Lorda i Novicka (1968), Nowakowskiej (1975), Magnus-sona (1981) czy Machowskiego (1993). Ostatni rozdział tej części poświęcony został omówieniu społecznych konsekwencji testowania. Takie problemy jak prawa osób rozwiązujących testy czy testy jako produkty rynkowe wymagają bowiem - jak sądzę - oddzielnego i szczegółowego omówienia. W części drugiej omówione zostały zasady obowiązujące przy konstruowania metod testowych; ma ona formę poradnika przeznaczonego dla studentów. I chociaż w większości wypadków korzystamy dziś z gotowych metod testowych, zdarza się i tak (szczególnie często dotyczy to studentów), że
Wstęp
trzeba opracować metodę niezbędną do realizacji konkretnych celów diagnostycznych. Ten przewodnik ma pomóc studentom w rozstrzyganiu wątpliwości, jakie towarzyszą takiemu zadaniu.
Na zakończenie chciałabym złożyć serdeczne podziękowania Recenzentom podręcznika - Panu Profesorowi Jerzemu Brzezińskiemu oraz Panu Profesorowi Tadeuszowi Markowi. Ich uwagi pozwoliły mi na lepsze wyartykułowanie omawianych problemów.
Poznań, sierpień 2001 roku
Elżbieta Hornowska

?
13







.



















Część I Podstawowe problemy psychometrii
'













Wszystko, co istnieje, istnieje w jakiejś mierze. Aby dobrze poznać dany obiekt, należy go określić zarówno pod kątem jakościowym, jak i ilościowym.
E.L. Thorndike (1904)
Rozdział 1

Wnioskowanie psychometryczne
1.1. CZYM ZAJMUJE SIĘ PSYCHOMETRIA?

Jak mówi Słownik języka polskiego (Szymczak, 1979, tom 2, s. 1071): „psychometria (...) to dział psychologii zajmujący się teorią i opracowywaniem testów psychologicznych", zaś według Słownika psychologicznego (Szewczuk, 1979, s. 239) to „dział metodologii psychologicznej zajmujący się pomiarem zachowań ludzkich w aspekcie psychologicznym". Z kolei według Słownika psychologii (Reber, 2000, s. 597) psychometria to „dziedzina obejmująca badania psychometryczne (...) na ogół odnoszące się do różnych aspektów procesów psychicznych, w tym badania osobowości, inteligencji, określania zdolności (...) [odnosząca się też - przyp. E.H.] (...) do kwestii zastosowania zasad matematycznych i statystycznych w psychologii".
Aby dokładnie zrozumieć, co kryje się pod tymi dość ogólnikowymi definicjami, przeanalizujmy trzy następujące sytuacje:
a)  psycholog zatrudniony w firmie doradztwa personalnego tworzy test zdolności korektorskich, na podstawie którego chce zaproponować kandydatów na stanowisko w firmie komputerowej;
b)  psycholog szkolny opracowuje skalę pozwalającą mu określić zakres słów, jakie opanowało dziecko;
c)  psycholog - stosując test inteligencji - pomaga klientowi poznać jego własne, mocne strony.
Wszystkie te sytuacje, choć opisujące różne cele, są do siebie podobne. Wszystkie one dotyczą pomiaru wartości cech psychologicznych1. Cechy te (konstrukty teoretyczne) nie są bezpośrednio obserwowalne (mierzalne). Takie pojęcia bowiem, jak „sukces w pracy na określonym stanowisku", „zakres posiadanego słownictwa" czy „mocne strony", zanim będą mogły zostać wyrażone ilościowo, wymagają najpierw operacyjnego zdefiniowania (są bezpośrednio nieobserwowalne). Ta właśnie charakterystyka pomiaru
1 Nie będziemy tu wnikać w kontrowersje wynikające z różnych sposobów definiow pojęcia cechy. Wystarczy, że przyjmiemy, iż „wartość cechy u danego człowieka prostu (...) parametrem rozkładu charakteryzującego częstości występowania okre; zachowań się tego człowieka w danych sytuacjach" (por. Nowakowska, 1975, s. 20)1


Rozdział 1
18
psychologicznego (czyli poznawanie nieobserwowalnych bezpośrednio właściwości) sprawia, że niezbędne staje się opracowanie teorii wiążącej efekty badania za pomocą narzędzia pomiarowego (np. testu psychologicznego) z cechą psychologiczną, którą owe efekty (np. wartości liczbowe) odzwierciedlają.
Dokładna analiza przedstawionych wyżej i innych sytuacji pozwala na sformułowanie pięciu zasad (reguł), które charakteryzują pomiar cech psychologicznych (por. Crocker, Algina, 1986, s. 6-7). Są to następujące reguły:
1.  Cechy psychologiczne powinny  być  definiowane nie tylko w terminach operacyjnych, ale także w terminach związków z innymi konstruktami teoretycznymi czy obserwowalnymi zjawiskami. Wyniki pomiaru psychologicznego nie będą użyteczne, jeżeli nie będzie ich można odnieść do mierzonego konstruktu. Z tego też powodu Lord i Novick (1968, s. 15) podkreślali, że konstrukry psychologiczne powinny być zawsze definiowane na dwóch poziomach. Po pierwsze, mierzony konstrukt powinien zostać zdefiniowany w terminach zjawisk obserwowalnych. Ten rodzaj definicji (zwanych przez autorów definicjami   semantycznymi) określa przedmiot pomiaru (tj. zakres obserwowalnych zachowań, które będą rejestrowane). Definicje te stanowią bowiem reguły korespondencji między teoretycznymi konstruktami i obserwowalnymi zachowaniami. Po drugie, mierzony konstrukt powinien zostać powiązany z innymi konstruktami w ramach określonego systemu teoretycznego. Ten drugi rodzaj definicji (nazywanych przez Lorda i Novicka definicjami syntaktycznymi) dostarcza ramy interpretowania otrzymanych wyników. Definicje te są wyrażane w postaci formalnych związków logicznych (matematycznych). Bez definicji syntaktycznych pomiar psychologiczny nie będzie miał żadnej użytecznej wartości (por. rys. l.l)2.
2.  Żadna  realizacja  pomiaru   psychologicznego   nie ma charakteru  uniwersalnego. Ponieważ pomiar cech psychologicznych jest zawsze pomiarem pośrednim, opartym na obserwowalnych bezpośrednio zachowaniach, ten sam konstrukt psychologiczny może zostać powiązany z różnym zbiorem zachowań. Różne definicje operacyjne prowadzą zaś do różnych procedur pomiarowych; te z kolei mogą prowadzić do różnych wniosków końcowych. Dobrym przykładem ilustrującym ten stan rzeczy jest pomiar inteligencji. I tak np. inteligencja rozumiana jako „(...) zagregowana (ogólna) zdolność jednostki do podejmowania działań celowych, racjonalnego myślenia i do efektywnego radzenia sobie we własnym środowisku" (Wechsler, 1998, s. 16) znalazła swój wyraz w - opracowanej przez D. Wechslera (1939) - baterii składającej się z 11 testów, mierzących różne aspekty przystosowania do środowiska. Z kolei inteligencja pojmowana jako zdolność edukacji (tj. zdolność uzyskiwania nowego wglądu,
----------------------------
2 W sprawie pojęcia i zasad operacjonalizacji por. też Hornowska, 1989, 2000a.

Wnioskowanie psychometryczne
Rys. 1.1. Defitiicje semantyczne i syntaktyczne (opracowano na podstawie Lord i Novick, 1968, s. 17)
Poziom obserwacji (zachowania)
Poziom teoretyczny
Wynik obserwowany X

 Założony rozkład  wartości X
Zachowanie X Brak zachowania X
Szacowana średnia częstość pojawiania się zachowania X
 x=1
 f(x/p)
Prób (X=11 p)=p Prob(X=0|p)=1-p
 :
 ? (X| p) = p
-------------j-----------------------------------------------------
w dużej liczbie pomiarów
i
definicje semantyczne (reguły korespondencji) semantyczna interpretacja
definicje syntaktyczne

spostrzegania i określania relacji) może być mierzona za pomocą Testu Matryc opracowanego przez J.C. Ravena (Raven, Court, Raven, 1994).
Mówiąc o pomiarze psychologicznym, nie wystarczy zatem wskazywać na mierzony konstrukt. Aby wyniki pomiaru zostały właściwie zinterpretowane, niezbędna jest znajomość teorii, w ramach której mierzony konstrukt został zdefiniowany. Ten sam wynik uzyskany za pomocą różnych narzędzi ma bowiem zupełnie inne znaczenie psychologiczne.
3.  Pomiar psychologiczny jest najczęściej oparty na ograniczonej próbce zachowań. Formułując definicje semantyczne, trudno jest uwzględnić cały możliwy repertuar zachowań, które mogą zostać powiązane z mierzoną cechą psychologiczną. Dlatego też dokonując pomiaru psychologicznego, zawężamy zarazem interesujący nas obszar zachowań do tych zachowań, które uważamy za najbardziej adekwatne. Określenie kryteriów wyboru takiej próbki zachowań staje się wtedy koniecznością.
4.  Wyniki pomiaru psychologicznego są zawsze obarczone określonym błędem. Ponieważ pomiar psychologiczny jest ograniczony do wybranej próbki zachowań i najczęściej dokonuje się go tylko w jednym punkcie czasowym, nie odzwierciedla on w sposób jedno-
 19
Rozdział 1
znacznie dokładny rzeczywistej wartości mierzonej cechy czy funkcji psychologicznej. Gdyby przeprowadzić ten sam pomiar powtórnie, to najpewniej jego wyniki będą nieco inne. Przyczyną tego stanu rzeczy mogą być takie czynniki, jak np. zapominanie, chwilowe fluktuacje uwagi, zgadywanie czy wreszcie uczenie się. Każdy z nich (a także inne) wpływa na wyniki dokonanego pomiaru. Istotnym elementem pomiaru psychologicznego jest zatem ustalenie sposobu określania wielkości błędu popełnionego przy zastosowaniu danej procedury pomiarowej.
5. Wyniki pomiaru psychologicznego nie zawsze przekładają się na skale o dobrze zdefiniowanych jednostkach. W jakim stopniu wyniki otrzymane w pomiarze psychologicznym odzwierciedlają rzeczywiste różnice między badanymi osobami? Czy „zerowy" wynik w teście oznacza zerowy poziom cechy psychologicznej? Na te i inne pytania dotyczące interpretacji otrzymanych wyników także trzeba odpowiedzieć, zanim zastosuje się określone narzędzie pomiarowe.
Problemami opisanymi powyżej zajmuje się rozwinięta dziś gałąź psychologii -tj. psychometria, inaczej teoria testów. W ramach psycho-metrii podejmuje się wiele zagadnień szczegółowych, takich jak sposoby budowania pozycji testowych (ang. test items), opracowywanie kryteriów wyboru pozycji testowych o najlepszych parametrach, zasady przekształcania odpowiedzi testowych na wyniki liczbowe, zasady oceny jakości tych wyników, zasady ich interpretacji czy wreszcie zasady określania stopnia stronniczości wyników testowych względem określonej grupy społecznej.
Psychometria (czyli teoria testów) dostarcza modelowych rozwiązań, i w tym sensie różni się od - mającego bardziej aplikacyjne znaczenie - pomiaru psychologicznego. To ostatnie pojęcie wiąże się raczej ze szczegółowymi zasadami posługiwania się konkretnymi metodami. Wypracowane w ramach teorii testów rozwiązania mogą być natomiast uogólniane na sytuacje pomiaru różnych cech psychologicznych. Rozwiązania te, najczęściej w postaci modeli matematycznych czy statystycznych, są największym dorobkiem psychometrii3.
>• Psychometria jest to gałąź psychologii zajmująca się określaniem warunków, jakie powinny spełniać narzędzia wykorzystywane do pomiaru cech psychologicznych, oraz budowaniem modeli wiążących wyniki takich pomiarów z rzeczywistymi wartościami mierzonych cech.
20
3 W psychologii często wprowadza się rozróżnienie między tzw. diagnozą psychometryczną a diagnozą kliniczną (por. np. Geller, Kość, 1976; Paluchowski, 1991). Osiowymi pojęciami diagnozy psychometrycznej mają być jej obiektywność, standaryzacja, trafność, rzetelność i odniesienie do norm. Diagnozą kliniczną zaś opisuje się niekiedy jako impresjonistyczną, podkreślając w ten sposób fakt korzystania z różnych przesłanek wychodzących poza dane pomiarowe, a będących podstawą wnioskowania i przewidywania przez nią (też Cronbach, 1990, s. 34). W tej pracy koncentrować się będziemy na specyficznej klasie narzędzi diagnozy psychologicznej, jaką są metody testowe. Te zaś - bez względu na cel ich zastosowania - muszą spełniać określone kryteria, opisywane w skrócie jako kryteria psychometryczne.

Wnioskowanie psychometrygzne
Współcześnie można mówić o dwóch podstawowych teoriach psychomet-rycznych: teorii losowego doboru próby {random sampling theory) i teorii odpowiadania na pozycje testu (item response theory - Lord, 1952a). Każda z tych teorii w odmienny sposób wiąże wynik pomiaru testowego (wynik obserwowany) z tzw. wynikiem prawdziwym danej osoby. W ramach teorii losowego doboru próby rozpatrywane są dwa podstawowe modele: klasyczny (Gulliksen, 1950) wraz z modyfikacjami (Lord, Novick, 1968) oraz model znany jako teoria uniwersalizacji (Cronbach, Gleser, Nanda, Rajaratnam, 1972). Związek między wynikiem obserwowanym i prawdziwą wartością mierzonej cechy w teorii losowego doboru próby ujmuje się jako problem generalizacji danych z próby na większe populacje (uniwersa). Z kolei w ramach teorii odpowiadania na pozycje testu przyjmuje się, że określenie sposobu, w jaki osoba badana odpowiada na kolejne pozycje testu, pozwala na bezpośrednie określenie rzeczywistego wyniku tej osoby. O obu tych podejściach będzie mowa w niniejszej pracy.
ja
I
1.2. DEFINICJA TESTU I RODZAJE TESTÓW eflnicja testu
Omawiając podstawowe zadania teorii testów, posługiwaliśmy się - na razie
sposób nieformalny - pojęciem testu. Pora zatem na bliższe przyjrzenie się temu, czym jest test psychologiczny i jakie są jego podstawowe cechy charakterystyczne.
Test jest narzędziem pomiarowym i jak każde narzędzie tego typu może lostarczać użytecznych wyników. I podobnie jak w wypadku każdego narzędzia pomiarowego, posługiwanie się złym testem musi prowadzić do błędnych, a także szkodliwych społecznie decyzji.
Czym są zatem testy psychologiczne, jakie powinny być ich właściwości oraz jakich korzyści powinny oczekiwać osoby badane - to pytania, na które przede
szystkim należy odpowiedzieć. Zgodnie z definicją sformułowaną przez Amerykańskie Towarzystwo Psychologiczne w Standardach dla testów stosowanych w psychologii i pedagogice (APA, 1985a, s. 8) „test psychologiczny jest specyficzną procedurą diagnozowania. Może on być zbiorem zadań lub pytań, które - w standardowych warunkach - mają wywoływać określone rodzaje zachowań i dostarczać wyników o pożądanych właściwościach psychometrycz-nych, tj. posiadających wysoką rzetelność i wysoką trafność". Podobnie definiują test Anastasi i Urbina (1999, s. 21), dla których jest to „obiektywna i wy standaryzowana miara próbki zachowania". Cronbach (1990, s. 32) z kolei podkreśla, że „test to systematyczna procedura obserwowania zachowania i opisywania tego zachowania za pomocą skal numerycznych lub ustalonych kategorii". Wreszcie -według Choynowskiego (1971, s. 66) - „testy to zbiory pytań lub sytuacje, służące do badania własności jednostek lub grup ludzkich przez wywoływanie u nich określonych obserwowalnych reakcji werbalnych lub niewerbalnych, będących w miarę możności reprezentatywnymi próbkami ich zachowania się".
21
Rozdział 1
Jeszcze inaczej określa test Paluchowski (1991, s. 41). Jego zdaniem „badanie testowe to taka sytuacja, w której osoba badana uczestniczy dobrowolnie, świadoma celu, jakim jest jej ocena. Jest to sytuacja tworzona specjalnie dla celów diagnostycznych, w której wywołuje się zachowania typowe pod względem tej charakterystyki, jaka ma być przedmiotem celowej obserwacji. Jest to sytuacja, która od diagnosty nie wymaga osobistego zaangażowania i w której jasno jest określony zakres i rodzaj dopuszczalnych zachowań". W definicji tej autor zwraca uwagę na warunek kooperacyjnej postawy osób badanych, który stanowi milczące założenie każdego twórcy testu. Psycholog stosujący metody testowe powinien umieć taką postawę uaktywniać. W rozważaniach dotyczących testów psychologicznych warunek ten, niestety, często jest pomijany.
Podsumowując ten krótki przegląd definicji testu, można stwierdzić, że test psychologiczny jest narzędziem, które:
a)  pozwala na uzyskanie takiej próbki zachowań, o których można przyjąć (np. na podstawie założeń teoretycznych), że są wskaźnikami interesującej nas cechy psychologicznej. Zachowania te nie muszą ściśle przypominać zachowań, które chcemy oszacować na podstawie testu. Wystarczy wykazać, że istnieje między nimi określony związek;
b)  dostarcza reguł obliczania wartości mierzonej cechy;
c)  spełnia określone kryteria formalne, takie jak obiektywność, standaryzacja, rzetelność, trafność i normalizacja;
d)  jasno określa zakres i rodzaj dopuszczalnych zachowań ze strony diagnosty;
e)  zakłada kooperacyjną postawę osoby badanej.
>Test psychologiczny jest to narzędzie pozwalające na uzyskanie takiej reprezentatywnej próbki zachowań, o których można przyjąć (np. na podstawie założeń teoretycznych lub związków empirycznych), że są one wskaźnikami interesującej nas cechy psychologicznej. Jest to narzędzie obiektywne, wystandaryzowa-ne, trafne, rzetelne i znormalizowane, wyposażone w reguły obliczania wartości mierzonej cechy psychologicznej oraz jasno określające zakres i rodzaj dopuszczalnych zachowań ze strony diagnosty. Nadto, badanie testowe to taka sytuacja, w której osoba badana uczestniczy dobrowolnie, świadoma celu, jakim jest jej ocena.
22
Rodzaje testów
W literaturze można spotkać wiele różnych klasyfikacji metod testowych (por. Cronbach, 1990; Anastasi, Urbina, 1999). Jedna z takich klasyfikacji dzieli testy na techniki standaryzowane i niestandaryzowane. Testy standaryzowane to takie testy, które posiadają dokładnie sprecyzowane zasady ich stosowania oraz zostały wyposażone w normy, otrzymane w wyniku przebadania reprezentatywnej próby pochodzącej z populacji, dla której test ma być stosowany. Normy te stanowią podstawę interpretacji wyników otrzymanych przez osoby badane. Z kolei do testów niestandaryzowanych można zaliczyć np. testy wiadomości budowane przez nauczycieli na ich
Wnioskowanie psychometryczne

własny użytek, w których dopuszcza się możliwość interakcyjnego modyfikowania sytuacji badania. Testy takie często są stosowane tylko jeden raz. W innej klasyfikacji wyróżnia się testy indywidualne i grupowe. Testami indywidualnymi można badać osoby jedynie pojedynczo, podczas gdy testy grupowe pozwalają na jednoczesne testowanie dużych grup osób. Podział na testy indywidualne i grupowe ma u swoich podstaw kryterium wydajności, a kolejny podział na testy szybkości i mocy odwołuje się do kryterium czasowego. Testy szybkości to takie testy, których czas rozwiązania jest ograniczony i - z założenia - żadna osoba badana nie powinna go ukończyć w wyznaczonym czasie. W teście szybkości różnice indywidualne są głównie determinowane szybkością wykonania. Składa się on z zadań generalnie niezbyt trudnych, tj. takich, które mogą zostać rozwiązane przez osoby, dla których przeznaczony jest test. Z kolei testy mocy to testy stwarzające każdej osobie badanej szansę na podjęcie próby rozwiązania wszystkich pozycji testu. Trudność zadań w takim teście stopniowo rośnie. Znajdują się w nim również takie zadania, które są na tyle trudne, że mało kto trafi je rozwiązać. Tym samym jedynie niewielka liczba osób ma szansę itrzymać w takim teście maksymalny wynik. W tym wypadku otrzymany ynik jest determinowany przede wszystkim poziomem mierzonej cechy. Czwarty rodzaj klasyfikacji wyróżnia testy obiektywne i nieobiekty-n e. Tu z kolei kryterium klasyfikacji jest sposób obliczania wyników w teście osoba oceniająca ma swój udział w „tworzeniu" wyniku). Testy obiektywne posiadają tak starannie opracowane, stałe metody obliczania wyników, że sam wynik może zostać obliczony nawet przez osobę bez przygotowania psychologicznego (najczęściej procedura obliczania wyników polega na przyłożeniu szablonu arkusza odpowiedzi). Inaczej w testach nieobiekty wnych - ocena odpowiedzi ;oby badanej wymaga zazwyczaj dużej znajomości przedmiotu pomiaru otrzymany wynik często odzwierciedla subiektywne umiejętności psychologa. Testy mogą zostać także poklasyfikowane ze względu na rodzaj zadań, jakich są zbudowane. Ten podział pozwała wyróżnić testy słowne i bezsłowne. Niektóre testy zawierają zadania zbudowane wyłącznie z materiału werbalnego (jak np. testy wiadomości), inne mogą polegać na wykonywaniu określonych czynności, np. wskazywaniu brakujących elementów czy też rysowaniu drogi w labiryncie. W zadaniach słownych jednym z kryteriów branych pod uwagę przy ocenie stopnia wykonania takiego zadania jest sprawność językowa osoby badanej, w zadaniach bezsłownych słabe opanowanie języka nie jest czynnikiem wpływającym istotnie na otrzymywane wyniki. I wreszcie przedostatni rodzaj klasyfikacji - najważniejszy z psycho-metrycznego punktu widzenia, bo wskazujący na dwie odmienne klasy problemów natury psychometrycznej, które muszą zostać rozwiązane - to podział metod na testy właściwości poznawczych i właściwości afekty wnyc h. Te pierwsze, czyli testy właściwości poznawczych, to testy mierzące wytwory procesów poznawczych (np. testy zdolności,
23
Rozdział 1
uwagi, pojemności pamięci), te drugie z kolei to testy mierzące postawy, wartości, zainteresowania czy inne, pozapoznawcze, aspekty osobowości. W pierwszym wypadku każde zadanie testowe ma ściśle określoną odpowiedź prawidłową, a dodatkowym problemem, który należy tu wziąć pod uwagę, jest problem zgadywania. W drugim wypadku w ogóle nie istnieje kategoria odpowiedzi prawidłowej4, a problemem, z jakim trzeba się uporać, jest problem trafności samoopisu dokonywanego przez osobę badaną (por. rys. 1.2).
Rys. 1.2. Podział testów ze względu na rodzaj możliwej odpowiedzi
Testywiedza umiejętności zdolności/uczucia postawy osobowość
właściwości poznawczewłaściwości afektywne
riemocje wierzeniaistnieje odpowiedź prawidłowaautoekspresja brak odpowiedzi prawidłowej1
ZGADYWANIETRAFNOŚĆ1
SAMOOPISUNa koniec warto wspomnieć o jeszcze jednym podziale testów, podziale na testy zorientowane na normy oraz zorientowane na kryte r i u m5. Tutaj kryterium podziału stanowi sposób interpretacji wyników. W testach zorientowanych na normy punktem odniesienia dla interpretacji wyników jest konkretna populacja osób, a w testach zorientowanych na kryterium tym punktem jest konkretny zakres wiedzy. Ta ostatnia kategoria testów pozwala na dokonanie opisu badanej jednostki w kategoriach specyficznych umiejętności, jakie udało się jej opanować (por. rys. 1.3). Z kolei w testach zorientowanych na normy punktem odniesienia jest przeciętny
24
4  Trudno np. twierdzić, że istnieje prawidłowa odpowiedź na pytanie „Czy zdarza ci się lubić ludzi, którzy wyznają inne wartości niż ty?". W takim wypadku możemy mówić jedynie o odpowiedzi diagnostycznej (zgodnej z kluczem) lub o odpowiedzi niediagnostycznej (niezgodnej z kluczem).
5  Termin test „zorientowany na kryterium" został zaproponowany przez Glasera (1963), jednak stosowany był dość dowolnie. Dlatego też dzisiaj proponuje się w jego miejsce termin „test zorientowany na standard wykonania" (por. dyskusję w tej sprawie Anastasi i Urbina, 1999, s. 111). Co więcej, termin   kryterium   bywa również stosowany na określenie trafności kryterialnej i ma - w tym kontekście - inne znaczenie. Tutaj termin „kryterium" czy „standard wykonania" oznacza pewien wzór, iw takim sensie będzie używany dalej.
Wnioskowanie psychometryczne Rys. 1.3. Podział testów ze względu na rodzaj interpretacji wyniku testowego
Wynik testowy
rodzaj interpretacji
podstawa interpretacji
efekt interpretacji
normatywna
względem kryterium
grupa odniesienia
zdefiniowane kryterium
statystyczny ile osób jest lepszych lub gorszych
stopień realizacji kryterium
poziom wykonania testu w określonej grupie odniesienia. Tym samym normatywna interpretacja wyniku testowego jest interpretacją relatywną i zależy od tego, kto wchodził w skład badanej grupy osób.
1.3. KRYTERIA DOBROCI TESTÓW PSYCHOLOGICZNYCH
Testem psychologicznym nie jest każdy zbiór pytań lub zadań, a tylko taki zbiór, który spełnia wszystkie - wymienione w definicji - warunki. Co więcej, test psychologiczny powinien również spełniać określone kryteria formalne, które za Brzezińskim (1984, s. 9) najczęściej określane są jako tzw. kryteria dobroci testów; tj. test powinien być obiektywny, wystandaryzowany, rzetelny, trafny i znormalizowany. Omówimy je pokrótce, dodając jeszcze jedno kryterium - właściwą adaptację, które ma szczególne znaczenie wtedy, gdy na rynku polskim stosuje się testy opracowane za granicą.
Obiektywność, czyli niezależność wyników testowania
Test jest obiektywny, jeżeli dwie różne osoby opracowujące jego wyniki dochodzą do tego samego rezultatu. Aby było to możliwe, test musi posiadać jasno określony klucz oceniania odpowiedzi, zmniejszający do minimum wpływ subiektywnych interpretacji. Najbardziej klasyczną metodą badania stopnia obiektywności testu jest technika tzw. ślepej diagnozy. Technika ta polega na rozesłaniu tego samego, wypełnionego arkusza testowego do różnych osób oceniających. Jeżeli otrzymane wyniki i ich interpretacje będą do siebie podobne, można uznać dany test za obiektywny. Jest to diagnoza ślepa, bo jest dokonywana bez kontaktu z osobą badaną. W sytuacji rzeczywistej diagnozy kontakt z osobą badaną jest bardzo ważnym źródłem informacji. W tej

25
Rozdział 1
konkretnej sytuacji chodzi jednak o to, aby indywidualne umiejętności korzystania z takich źródeł informacji nie wpływały na sposób oceniania wyników testowych. Warunek obiektywności zatem oznacza, że niezależnie od tego kto, gdzie i kiedy dokonuje oceny wyników tego samego testu, wykonanego przez tę samą osobę, powinien otrzymać takie same rezultaty.
Standaryzacja, czyli jednolitość warunków badania
Aby wyniki danego testu można było ze sobą porównywać, dany test powinien być zawsze przeprowadzany w identycznych warunkach. Tylko wtedy bowiem różnice w wynikach testowych badanych osób można przypisać czynnikom indywidualnym, a nie np. zewnętrznym warunkom badania. Jeżeli w trakcie interpretacji wyników testowych będziemy chcieli skorzystać z norm testowych, to jednolitość warunków badania testem (standaryzacja) jest warunkiem absolutnie koniecznym.
Warunek standaryzacji obejmuje następujące elementy sytuacji testowania (por. tab. 1.1): instrukcję, pomoce oraz zasady oceniania i interpretowania wyników. Szczególną rolę w badaniu testowym odgrywa instrukcja stosowania testu. Jej przestrzeganie jest podstawowym elementem gwarantującym powtarzalność warunków badania. W podręczniku testowym znajdziemy wszystkie ważne informacje dotyczące zasad badania testem, a więc: czy jest to badanie grupowe czy indywidualne, jaki jest czas badania, jaka jest kolejność zadań lub testów, czy istnieje możliwość powrotu do poprzednich zadań i wreszcie: jaki jest zakres pomocy udzielanej badanemu (por. też Anastasi, Urbina, 1999; Jaworowska, 1996).
Przestrzeganie instrukcji podawanej osobie badanej jest tak ważnym czynnikiem decydującym o wyrównaniu warunków badania, że w Standardach dla testów stosowanych w psychologii i pedagogice (1985a, s. 25) zaleca się, aby w trudnych sytuacjach, tj. takich, w których modulacja głosu, pauzy czy wyraz twarzy osoby badającej mogą mieć znaczenie, nagrać instrukcję na taśmę magnetofonową. I choć na pierwszy rzut oka takie zalecenie wydaje się sensowne, to jednak z uwagi na obowiązek motywowania osób badanych i nawiązywania z nimi sprzyjającego kontaktu trudno pogodzić się z wprowadzaniem „bezdusznej" maszyny w miejsce rzeczywistych relacji. Sądzę, że dobre szkolenia osób badających, obejmujące techniki nawiązywania kontaktów, są lepszym gwarantem rozumienia konieczności przestrzegania procedury standaryzacji przewidzianej dla danego testu niż mechaniczne odtwarzanie instrukcji z magnetofonu.
Rozumiejąc istotę procedury standaryzacji, trudno zakceptować wcale nierzadkie fakty stosowania np. testu przeznaczonego do badań indywidualnych w sposób grupowy, tworzenia własnych, samodzielnie wykonanych pomocy testowych (bo te oryginalne są drogie i należy je kupić za granicą), podawania instrukcji w różny sposób (np. podawania więcej informacji tym, którzy z jakichś względów są nam bliżsi) czy też zadawania tylko części 26     pytań zawartych w danym teście (bo reszta wydaje się niepotrzebna).
Wnioskowanie psychometryczne
Tab. 1.1. Elementy sytuacji badania testem objęte procedurą standaryzacji (opracowano na podstawie Standardów dla testów stosowanych w psychologii i pedagogice, 1985a, b; 1999)
Czego dotyczy procedura standaryzacji?Procedura badania testemZasady ogólneWskazówki dotyczące badania testem powinny być przedstawione na tyle jasno i wyraźnie, aby testujący mógł i chciał powtórzyć sposób badania zastosowany przy ustalaniu norm.

Stosując metody testowe, należy dokładnie przestrzegać procedury badania testem opisanej w podręczniku.
InstrukcjaW instrukcji należy omówić takie zagadnienia, jak fakt badania indywidualnego czy grupowego, liczebność badanej grupy, limity czasowe, sposoby zaznaczania odpowiedzi na arkuszach, możliwość powrotu do poprzednich zadań lub pytań, problem zgadywania, kolejność stosowania testów lub zadań oraz zakres pomocy udzielanej badanemu.

Jeżeli dopuszcza się możliwość rozszerzania lub uszczegółowiania instrukcji przedstawionej w podręczniku testowym, to należy przedstawić warunki, w jakich postępowanie to jest dopuszczalne.
PomoceAby utrzymać standaryzację metody testowej, należy okresowo sprawdzać materiał testu, wyposażenie oraz stosowaną procedurę.Procedura obliczania wynikówKlucz do oceny odpowiedziOsoby stosujące testy są odpowiedzialne za dokładne obliczanie, sprawdzanie, kodowanie i rejestrowanie wyników testowych.

Należy okresowo kontrolować stosowany system obliczania wyników.
Obliczanie wynikówProcedura obliczania wyników testowych powinna zostać przedstawiona w podręczniku testowym na tyle szczegółowo i dokładnie, aby prawdopodobieństwo popełnienia błędu było jak najmniejsze.Procedura interpretowania wynikówNormyNormy przedstawione w podręczniku testowym powinny zostać opracowane dla wyraźnie zdefiniowanych i opisanych populacji. Populacje te muszą odpowiadać tym grupom osób, z którymi badający testem będzie zazwyczaj porównywał osoby badane.

Należy brać pod uwagę normy właściwe dla osoby badanej.Podkreślmy wyraźnie: każde odstępstwo od standardowych, przewidzianych w podręczniku testowym, warunków badania sprawia, że badanie to nie jest już badaniem testowym! Wyniki takiego badania mogą być ewentualnie interpretowane jakościowo, absolutnie nie można jednak - w takim wypadku - korzystać z norm testowych (por. Anastasi, Urbina, 1999; Jaworowska, 1996).
27
Rozdział 1
Rzetelność, czyli dokładność pomiaru
Rzetelność to inaczej dokładność pomiaru. Innymi słowy, jest to wielkość błędu, jaki popełnia psycholog, interpretując wyniki danego testu. Nie ma idealnego testu - tak jak nie ma idealnej linijki czy innego narzędzia pomiarowego. Dlatego też trzeba wiedzieć, jak duży popełniamy błąd, stosując określony test, i określić granice interpretacji otrzymanego wyniku testowego.
Zgodnie ze „rzetelność określana jest jako stopień, w jakim wyniki testowe można przypisać oddziaływaniu systematycznych źródeł wariancji" (Standardy..., 1985a, s. 58). Oznacza to, że rzetelność mówi nam o tym, w jakim stopniu wynik danego testu odzwierciedla poziom mierzonej cechy u danej osoby, a nie wpływ czynników losowych. Nie ma jednej uniwersalnej metody badania rzetelności, bowiem w każdej konkretnej metodzie bierze się pod uwagę różne źródła błędu. Dlatego też interpretując przedstawione w podręczniku testowym dane o rzetelności danego testu, należy zawsze oceniać je w kontekście metody, za pomocą której je otrzymano.
Technicznie korzystanie z danych o rzetelności testu oznacza umiejętność zbudowania przedziału ufności dla tzw. wyniku prawdziwego badanej osoby. W podręczniku każdego profesjonalnego testu psychologicznego można znaleźć odpowiednie dane o wielkości standardowego błędu pomiaru, pozwalające na określenie granic przedziału, w którym - z odpowiednim prawdopodobieństwem - mieści się wynik prawdziwy badanej osoby. Do obowiązków psychologa należy uwzględnienie wielkości tego błędu przy interpretowaniu wyników (por. też Anastasi, Urbina 1999; Jaworowska, 1996). I dlatego aby testy były użyteczne, powinny posiadać odpowiednie tabele, pozwalające łatwo określić wielkość standardowego błędu pomiaru.
Trafność, czyli obszar zastosowania testu
Testy psychologiczne są zawsze stosowane w określonym celu. Najczęściej służą przewidywaniu zachowania osoby badanej w określonych sytuacjach. Np. możemy być zainteresowani przewidywaniem - na podstawie wyników testów inteligencji - predyspozycji menedżerskich badanych kandydatów, a na podstawie testu stylów kierowania określeniem tego, czy dana osoba może być dobrym kierownikiem. O tym, czy dany test możemy wykorzystywać w taki, a nie inny sposób, decydują dane o trafności. Trafność testu to - empirycznie potwierdzony - obszar zastosowania testu.
W Standardach dla testów stosowanych w psychologii i pedagogice (1985a, s. 33) trafność określa się następująco: „Pytanie o trafność to pytanie o to, co można poprawnie wywnioskować na podstawie wyniku testowego. Pojęcie trafności dotyczy poprawności wniosków wyprowadzonych na podstawie wyników testowych lub innych form badania. Wszelkie potencjalne pytania o trafność dadzą się sprowadzić do dwóch: (a) jakie wnioski można wyciągnąć na temat tego, co jest mierzone przez test; oraz (b) jakie wnioski można sformułować o innych (pozatestowych) zachowaniach?". Mówiąc 28     jeszcze inaczej, trafność to informacja o tym, jak test pełni swoją funkcję.
Wnioskowanie psychometryczne
W podręczniku testowym można znaleźć informacje na ten temat. Pamiętać należy jednak o tym, że trafność zawsze dotyczy konkretnego zastosowania. Nie ma testów, które można by stosować wszędzie i w każdym celu. Dlatego też dane dotyczące trafności powinny być analizowane szczególnie starannie, a wybór konkretnego testu powinien zostać poprzedzony dokładną analizą celu badania.

Normy, czyli nadawanie znaczenia wynikom testowym
Wynik otrzymany w teście psychologicznym nie ma żadnego znaczenia tak długo, jak długo nie można odnieść go do precyzyjnego i jednolitego układu odniesienia. Istota testów psychologicznych polega bowiem na tym, że podstawą interpretacji wyników testowych jest zawsze jakiś układ odniesienia. Najczęściej układ ten ma charakter statystyczny. Oznacza to, że wynik surowy (otrzymany w wyniku badania testem) danej osoby odnosi się do rozkładu wyników otrzymanego w próbie standaryzacyjnej; pozwala to stwierdzić, w którym miejscu rozkładu mieści się osoba badana. Podstawą formułowania wniosków o właściwościach psychologicznych osób badanych jest zawsze ocena tego, jak badana osoba wypada na tle innych osób (grupy odniesienia). Wybór grupy odniesienia ma zatem kluczowe znaczenie dla tego, jakie wnioski końcowe zostaną wyprowadzone (por. Anastasi, Urbina, 1999; Jaworowska, 1996).
Czym jest zatem procedura normalizacji? Według Brzezińskiego (2000, s. 412) „normalizacja testu to procedura tworzenia zbiorów, w specjalny sposób przetworzonych, wyników testu dla osób o określonych właściwościach zdefiniowanych za pomocą kryterium zewnętrznego; osoby te stanowią reprezentatywną, w sensie statystycznym, próbę". Efektem normalizacji testu jest zbudowanie zestawu norm, które stanowią podstawę interpretacji wyników testowych uzyskanych przez konkretne osoby badane.
Normy testowe mają zatem charakter relatywny - zależą bowiem od tego, kto tworzy grupę odniesienia. Inaczej mówiąc, wynik tej samej osoby może zostać raz zinterpretowany jako niski, raz jako przeciętny, a raz jako wysoki -wszystko zależy od tego, z jaką grupą odniesienia wynik ten został porównany. Brak właściwych (np. opracowanych dla populacji polskiej) norm dyskwalifikuje zatem metodę jako test psychologiczny. Cóż bowiem może wynikać z porównania Polaka badanego w roku 2000 z normami opracowanymi dla populacji amerykańskiej w latach 50? Nic, oczywiście, poza fałszywym przekonaniem, że dziś - być może -jesteśmy lepsi (por. też dyskusję na temat znaczenia norm w kwestionariuszu MMPI - Paluchowski, 1987).
Właściwa adaptacja, czyli dopasowanie testu do polskich warunków
Spora część testów stosowanych w Polsce to testy obcojęzyczne. Aby takie testy mogły być stosowane u nas, powinny zostać nie tylko przetłumaczone (co jest raczej oczywiste), ale także zaadaptowane do warunków polskiej kultury. Adaptacja to proces przystosowania wersji pierwotnej do specyfiki kultury lokalnej i nie sprowadza się ona jedynie do właściwego przetłumaczenia tekstu oryginału.
29
Rozdział 1
Przystępując do kulturowej adaptacji każdej techniki diagnostycznej, przyjmować można dwie różne strategie tworzenia takiego narzędzia: a) strategię psychometryczną, dla której kryterium tożsamości jest empirycznie potwierdzone podobieństwo rozkładów odpowiedzi na pozycje testowe i/lub rozkładów wyników globalnych, oraz b) strategię pragmatyczną, dla której takim kryterium jest podobieństwo funkcji, jaką ma pełnić dana technika i decyzje oparte na uzyskanych za jej pomocą wynikach.
Adaptacja kulturowa według strategii psychometrycznej w istocie niczym nie różni się od tworzenia równoległej do oryginalnej kultury wersji narzędzia. Adaptacja według strategii określonej jako pragmatyczna odwołuje się natomiast do kulturowego i społecznego kontekstu badania diagnostycznego za pomocą danego narzędzia oraz teoretycznego zaplecza, do którego odwołuje się psycholog, interpretując wyniki tego narzędzia6.
Często uważa się, że podstawą dobrej adaptacji jest wierne przetłumaczenie oryginału. Tymczasem bezrefleksyjne tłumaczenie słowa po słowie może przynieść opłakane skutki (por. Ciechanowicz, 1996; Drwal 1990). Przytoczmy jeden taki przykład (za: Ciechanowicz, 1996, s. 39)7. Oto w tłumaczeniu testu inteligencji można znaleźć co następuje:
Która z następujących liczb wyraża najlepiej podobieństwo między
przedstawionymi niżej słowami: 7, 5, 3, 9, 11, czy 19?
czerwony, pies, łóżko, kot, dziesięć, chłopiec?
Zadanie to, choćby nie wiem ile czasu mu poświęcić, nie daje się w ogóle rozwiązać. Czy to znaczy, że jest ono bardzo trudne, a my po prostu nie potrafimy tego zrobić? Otóż nie: bezmyślny tłumacz przełożył bowiem oryginalny zestaw słów
red, dog, bed, cat, ten, boy
w sposób dosłowny, zupełnie natomiast zapomniał, po co to robi!
Problem adaptacji nie sprowadza się jedynie do mądrego przekładu oryginalnej metody. Przeanalizujmy taki przykład. Oto w jednej z najbardziej znanych metod przeznaczonych do badania inteligencji ludzi dorosłych znajduje się w oryginale taka pozycja testowa: „How many pints make a quart?". Pytanie to jest traktowane jako łatwe dla populacji amerykańskiej i znajduje się na piątym z kolei miejscu w teście. Tymczasem w polskiej adaptacji testu pytanie to zastąpiono pytaniem: „Ile tuzinów liczy kopa?". Rzecz w tym, że Amerykanie do dziś przeliczają objętość na pinty oraz kwarty i te miary objętości są im dobrze znane, dla Polaka zaś pytanie o kopy i tuziny jest pytaniem o miary archaiczne, i dlatego jest trudniejsze od amerykańskiego odpowiednika.
Sprawą decydującą o jakości adaptacji jest zachowanie koncepcyjnych podstaw metody przyswajanej w obrębie danej kultury. Znajomość ich pozwala bowiem na odtworzenie reguł oryginalnej metody, a co za tym
6  Szerzej w sprawie kryteriów adaptacji por. Brzeziński, Hornowska (2000).
7  Więcej przykładów kłopotliwej adaptacji można znaleźć w pracy pod redakcją Ciecha-
30       nowicz Kulturowa adaptacja testów (1990).
Wnioskowanie psychometryczne
idzie - logicznie z nimi spójnych reguł adaptacji. Tylko dzięki temu proponowane kulturowe odpowiedniki wywodzić się będą z oryginalnej bazy teoretycznej, a koncentracja na zapewnieniu trafności pozwoli na interpretowanie wyników danej adaptacji metody zgodnie z oryginalną teorią metody.
Nie ma i nie może być jednego optymalnego sposobu adaptacji testu. Zawsze zależy to od celu, dla jakiego przeznaczony jest test. Zgodzić się należy zatem z tym, że „jeżeli chcemy posiadać narzędzie jak najlepiej mierzące pewne cechy w Polsce i przydatne dla praktyki w naszym kraju, trzeba je opracować na nowo, uwzględniając w jak największym stopniu specyfikę lokalną (...)" (Drwal, 1990, s. 133).
Podsumowując, należy w tym miejscu wyraźnie podkreślić, że dobry test to test, który spełnia wszystkie wymienione wyżej warunki. Jest metodą obiektywną, wystandaryzowaną, trafną, rzetelną, znormalizowaną i dodatkowo - w wypadku testów obcojęzycznych - właściwie przystosowaną do kultury polskiej. Pomijanie (czy niedocenianie) któregokolwiek z tych warunków należy traktować jako brak profesjonalnej dbałości o własne instrumentarium pomiarowe. Trudno bowiem w wypadku ąuasi-testu (a więc takiej metody, która tylko z pozoru przypomina test psychologiczny) mieć pewność, że mierzy ona to, co chcemy, żeby mierzyła, że czyni to odpowiednio dokładnie, a otrzymane w wyniku jej zastosowania wyniki mają jakieś znaczenie psychologiczne (por. też tab. 1.2).
Tab. 1.2. Kryteria pozwalające odróżnić dobry test od złego testu
(opracowano na podstawie Standardów dla testów stosowanych w psychologii
i pedagogice, 1985; Ciechanowicz, 1996; Anastasi, Urbina, 1999)
Warunki, jakie powinien spełniać dobry testKryterium decyzyjneNa co należy zwrócić uwagę w ramach danego kryteriumAutor testuTest powinien mieć autora. Test zagraniczny powinien również mieć autora polskiej adaptacji.Podręcznik testowyOpis teorii lub sposobu doboru grup empirycznych.
Opis grupy, na której przeprowadzono badania standaryzacyjne.
Opis procedury badania i interpretowania wyniku.
Opis badań dotyczących rzetelności i błędu standardowego pomiaru.
Opis badań dotyczących trafności zalecanej interpretacji. Opis procedury normalizacji i normy dla wyraźnie zdefiniowanych populacji.PomoceOpis materiałów testowych, pomocy, arkusza pytań, arkusza odpowiedzi; test powinien także posiadać oryginalny komplet pomocy testowych.Zabezpieczanie testuPowinny być podejmowane wszelkie możliwe kroki, aby materiał testowy został właściwie zabezpieczony.Ochrona prawnaTest powinien podlegać wyłącznie legalnej dystrybucji.
31
Rozdział 1
Każdy test psychologiczny powinien spełniać następujące kryteria dobroci: winien być obiektywny, wystandaryzowany, rzetelny, trafny i znormalizowany, oraz w wypadku testów obcojęzycznych - właściwie kulturowo zaadaptowany.
•  obiektywność-to niezależność wyników testowych od tego kto, gdzie i kiedy dokonuje ich oceny
•  standaryzacja-to jednolitość reguł badania danym testem
•  trafność-to dokładność, z jaką test realizuje założone cele pomiarowe
•  rzetelność-to precyzja realizowanego pomiaru
•  normalizacja-to procedura wyposażania testu w statystyczne kryteria interpretacji wyniku testowego (normy)
•  adaptacja kulturowa- przystosowanie oryginalnego testu do nowych warunków kulturowych.
1.4. PROCES WNIOSKOWANIA PSYCHOMETRYCZNEGO
Wiedząc już, czym jest test oraz jakie kryteria dobroci powinien test psychologiczny spełniać, zastanówmy się nad tym, jak na podstawie wyniku testowego wyprowadza się wnioski o wartościach cech psychologicznych badanych osób. Proces ten nazywać będziemy dalej procesem wnioskowania psychometrycznego.
>• Proces wnioskowania psychometrycznego jest to proces wyprowadzania wniosków o wartościach cech psychologicznych badanych osób na podstawie wyników, jakie otrzymały one w testach psychologicznych.
32
Istotą stosowania testów psychometrycznych jest stworzenie możliwości wnioskowania o nieobserwowalnych właściwościach psychologicznych na podstawie obserwowalnego zachowania w kontrolowanych warunkach (laboratoryjnych) oraz wyrażającego go wyniku testowego. Punktem wyjścia psychometrycznej definicji pojęcia cechy psychologicznej jest przyjęcie założenia, że cesze odpowiada hipotetyczne kontinuum, na którym można rozmieścić wszystkie badane osoby zgodnie z wartością (natężeniem) tej cechy. Pozycja jednostki na tym kontinuum jest relatywnie stała i wyjaśnia stałość zachowania w podobnych sytuacjach (por. Lord, Novick, 1968). Dokonując oceny wartości natężenia cechy, psycholog przyjmuje, że im częściej (a dokładniej: w im większej liczbie sytuacji, w których przejawia się owa cecha) dana osoba przejawia określone zachowania, tym wyższy jest poziom cechy, której te zachowania są manifestacją. Test psychometryczny (ergo - definicja operacyjna) zarówno pozwala na uzyskanie próbek zachowań, jak i dostarcza reguł obliczania wartości estymatora mierzonej cechy dla danej osoby (por. definicja testu).
Podstawą wnioskowania psychometrycznego jest zatem wynik otrzymany w teście, nazywany dalej wynikiem obserwowanym. Wynik obserwowany odzwierciedla jedynie poziom wykonania zadań (pozycji) tworzących konkretną próbkę, jaką jest zastosowany test, w konkretnym czasie i w konkret-
Wnioskowanie psyghometrygzne
nym miejscu. Dlatego też wynik ten może (ale nie musi) odzwierciedlać rzeczywisty poziom mierzonej cechy u osoby badanej. Technicznie wynik obserwowany jest uzyskiwany najczęściej poprzez przypisywanie wartości liczbowych odpowiedziom lub reakcjom na pozycje testu (zadania czy pytania). Pozycje testowe są oceniane w kategoriach odpowiedzi prawdziwej (diagnostycznej) lub nieprawdziwej (niediagnostycznej), a wynik ogólny w teście jest sumą udzielonych odpowiedzi. Określając liczbę zachowań uznanych za diagnostyczne, psycholog dokonuje oceny ogólnej wartości natężenia cechy, rozumianej jako inwariant sytuacji i czasu. Im więcej diagnostycznych zachowań stwierdzi u danej osoby, tym wyższą wartość cechy jest skłonny jej przypisać8.
>• Wynik obserwowany jest to wynik, jaki badana osoba otrzymuje w teście
psychologicznym. > Wynik   prawdziwy jest to wynik odzwierciedlający rzeczywistą wartość
mierzonej cechy u danej osoby.
Gdybyśmy mogli przebadać tę samą osobę wszystkimi możliwymi pozycjami testowymi (a więc dysponować jej odpowiedziami dla całego uniwersum możliwych pozycji, a nie tylko dla próby pochodzącej z owego uniwersum), w różnych możliwych warunkach i w różnym czasie, to moglibyśmy oszacować wartość wyniku prawdziwego9 dla tej osoby. Oczywiście, byłoby rzeczą idealną, gdyby decyzje dotyczące badanych osób mogły opierać się nie na wynikach obserwowanych, a na wynikach prawdziwych. W rzeczywistości jednak decyzje te zawsze są oparte na wynikach obserwowanych, wyniki prawdziwe bowiem są jedynie pewną idealizacją. Rzetelność, tj. wielkość współczynnika korelacji między wynikiem obserwowanym a wynikiem prawdziwym, mówi nam, w jakim stopniu nie obserwowane wyniki prawdziwe wyjaśniają wariancję wyników obserwowanych. Im wyższa rzetelność testu, tym dokładniej możemy oszacować wynik prawdziwy badanej osoby.
Rzetelność jest rozsądnym kryterium jakości testu, o ile można przyjąć, że pozycje testowe są trafnymi wskaźnikami mierzonej cechy. Może być bowiem tak, że oszacowany na podstawie wyniku obserwowanego wynik
8  Takie częstościowe (statystyczne) rozumienie wyniku testu psychologicznego umożliwiło zastosowanie do jego opisu aparatu statystyki i opracowanie teorii wyników testowych.
9  Wynik prawdziwy rozumiany bywa najczęściej na dwa sposoby. Zgodnie z tzw. m o -delem platońskim, wynik prawdziwy jest utożsamiany z rzeczywistą wartością mierzonej cechy. Podobnie jak każdy obiekt fizyczny posiada określone wartości swoich cech fizycznych, niezależnie od aktu dokonywania pomiaru i wyboru narzędzia pomiarowego, tak i każdy człowiek (w danym momencie czasu) posiada prawdziwe (choć nie znane) wartości swoich cech psychologicznych. Wynik prawdziwy zatem istnieje niezależnie od aktu dokonywania pomiaru (por. Gulliksen, 1950). Z kolei zgodnie z tzw. modelem statystycznym, wynik prawdziwy jest średnią rozkładu skłonności danej osoby w określonym teście. Rozkład skłonności zaś tworzony jest przez wszystkie możliwe wyniki owego testu u tej osoby (por. Lord, Novick, 1968).
33
Rozdział 1
prawdziwy nie odzwierciedla wcale tej cechy psychologicznej, o którą psychologowi chodzi. To, że autor testu konstruował swoją metodę z intencją realizacji konkretnego celu, nie jest jeszcze gwarancją sukcesu! I tak np. jeżeli test uzdolnień matematycznych składa się wyłącznie z zadań tekstowych wymagających wcześniejszego przeczytania, to wysoki wynik otrzymany w takim teście wcale nie musi odzwierciedlać wysokich zdolności matematycznych, a np. też lub tylko wysokie kompetencje językowe. Wynik prawdziwy zatem musi być traktowany jako pewien wskaźnik; ściślej, jako wskaźnik tego, jaką cechę (konstrukt psychologiczny) mierzy dany test. Sam wynik prawdziwy jako taki odzwierciedla „coś", a o tym, co to jest, mówią nam dane dotyczące trafności testu. Mówiąc jeszcze inaczej - trafność jest związkiem zachodzącym między wynikiem prawdziwym a przedmiotem pomiaru (por. rys. 1.4). Im więcej posiadamy danych na temat trafności testu, tym większy jest zakres interpretacji wyniku otrzymanego w teście10.
W rzeczywistej sytuacji testowania rozpoczynamy zazwyczaj od etapu, który na rys. 1.4 znajduje się na samym dole, tj. od pomiaru. Na tym etapie przekształcamy odpowiedzi udzielone przez osobę badaną na wartości liczbowe. Następnie szacujemy, w jakim stopniu wynik otrzymany odzwierciedla wynik prawdziwy badanej osoby. Wreszcie oceniamy trafność naszych wnioskowań, a więc to, co możemy powiedzieć na podstawie oszacowanego wyniku prawdziwego badanej osoby.
Celem przedstawionego schematu (por. rys. 1.4) jest wskazanie na istotne elementy procedury wnioskowania o wartościach cech psychologicznych. Mechaniczne utożsamianie wyniku otrzymanego w teście z poziomem mierzonej cechy (co wcale nierzadko ma miejsce!) jest zarówno świadectwem braku profesjonalizmu, jak i braku odpowiedzialności za podejmowane decyzje. I choć może truizmem jest stwierdzenie, że testy stosujemy nie po to, aby uzyskać jakiś wynik, ale po to, by zwiększyć wiedzę o osobach badanych, i po to, aby to one - na podstawie uzyskanych wyników - miały szansę np. na zmianę, warto ten prosty fakt tu podkreślić. Od wyniku otrzymanego w teście do diagnozy psychologicznej wiedzie długa droga, a jej początkowy odcinek wymaga znajomości znaków topograficznych, którymi dla nas są pojęcia, takie jak wynik otrzymany, wynik prawdziwy, rzetelność i trafność.
34
10 Warto w tym miejscu wspomnieć o pewnym paradoksie. Wynik testowy będący sumą odpowiedzi diagnostycznych jest otrzymywany przy założeniu, że odpowiedź na każdą pozycję testową posiada to samo znaczenie, jakie nadaje się wynikowi globalnemu. Stąd też podstawowym założeniem klasycznej teorii testów jest założenie homogeniczności pozycji testowych — każda pozycja, jak również wszystkie razem, posiada to samo znaczenie. Homo-geniczność pozycji testowych gwarantuje otrzymanie wysokiej rzetelności pomiaru, obniża natomiast trafność testu (por. Crocker, Algina, 1986) - a ta cecha testu jest przecież najważniejsza z punktu widzenia stosującego go psychologa! Do zagadnienia tego wrócimy później.
Wnioskowanie psychometryczne
Rys. 1.4. Proces wnioskowania psychometrycznego (opracowano na podstawie Suen, 1990, s. 6)
Konstrukt teoretyczny Cecha psychologiczna
nieobserwowalna cecha będąca przedmiotem pomiaru
trafność
wynik prawdziwy
prawdziwa wartość mierzonej cechy

wynik otrzymany
testy właściwości poznawczych
rzetelność
standardowy błąd pomiaru
wynik otrzymany
na podstawie badania testem
pomiar
......................
testy właściwości afektywnych
1.5. DWA SŁOWA O HISTORII TESTOWANIA


0 tym, że ludzie różnią się zdolnościami, osobowością czy zachowaniem i że te różnice można w jakiś sposób określić, wiedziano już od dawna. Źródeł badań testowych można bowiem szukać już w starożytnych Chinach. Jak podaje DuBois (1970) około roku 2200 p.n.e. w Cesarstwie Chińskim opracowano system egzaminów pozwalający wybierać pracowników do służb publicznych. Każdy z urzędników przechodził przez sito egzaminacyjne co trzy lata". Za czasów panowania dynastii Shang (lub też -jak chcą inne źródła - dynastii Zhou), tj. około roku 1115 p.n.e., system ten został zmodyfikowany i w tej formie przetrwał aż do roku 1905, kiedy to został zaniechany.
" Co ciekawe, wzorowany na tym systemie sposób rekrutacji urzędników w XIX-wiecznej Francji i Anglii okazał się bardzo skuteczny.                                                                               35
Rozdział 1
36
I może nie warto by wspominać o tym fakcie, gdyby nie to, że jak się okazuje, już cztery tysiące lat temu przedmiotem dociekań były te same zagadnienia, jakie są podejmowane przez współczesnych psychometrów. To tedy bowiem narodziła się idea, że ludzie piastujący ważne stanowiska powinni posiadać określone umiejętności, co - biorąc pod uwagę, że były to czasy wszechwładnego nepotyzmu -jest niewątpliwie godne podziwu. Co więcej, już wtedy formułowano kryteria, jakie każdy kandydat spełniać powinien (np. były to wysokie umiejętności jeździeckie, arytmetyczne, wysoka sprawność pisania
- por. DuBois, 1970). Można więc powiedzieć - używając dzisiejszej terminologii
- że budując testy, już wówczas brano pod uwagę ich trafność kryterialną! W średniowiecznej Europie problem określania różnic indywidualnych
między ludźmi, przynajmniej z naukowego punktu widzenia, nieomal nie istniał. W tym okresie bowiem fakt urodzenia się w danej klasie społecznej był czynnikiem decydującym o tym, jakie działania mogli ludzie podejmować, a ich własna aktywność i umiejętności schodziły zdecydowanie na dalszy plan. Wiek XVI i początki kapitalizmu przyniosły odrodzenie idei indywidualizmu, jednakże zasadnicze zmiany w dziedzinie badania różnic indywidualnych nastąpiły dopiero w wieku XIX.
Na początku XIX wieku naukowcy nie byli szczególnie zainteresowani pomiarem różnic indywidualnych. Różnice te dostrzegano głównie w obszarze zdolności sensomotorycznych oraz umysłowych i były one raczej traktowane jako przeszkoda w formułowaniu ogólnych praw nauki niż jako przedmiot badań naukowych. Zanim wynaleziono precyzyjne narzędzia do pomiaru wielkości fizycznych, dokładność pomiaru czasu czy odległości zależała przede wszystkim od zdolności percepcyjnych obserwatorów. Obserwatorami były zazwyczaj osoby szkolone i wyćwiczone w tym, co mają robić, a mimo to pomiary dokonywane przez różne osoby, jak też przez te same osoby w różnych sytuacjach, nigdy nie były takie same. Ponieważ trudno budować ogólne prawa nauki, gdy pomiar istotnych wielkości nie może być uznany za pomiar rzetelny, naukowcy początkowo kierowali swoją uwagę na budowanie instrumentów pomiarowych, które dawałyby bardziej stałe i precyzyjne wyniki niż bezpośrednia ludzka obserwacja. Zainteresowanie badaniami różnic indywidualnych systematycznie rosło w drugiej połowie XIX wieku, głównie za sprawą pojawienia się psychologii jako nauki oraz pracy Karola Darwina zatytułowanej On the Origins ofSpecies by Means ofNatural Selection (O powstawaniu gatunków drogą doboru naturalnego). Sam Darwin był Anglikiem, jednak psychologia naukowa narodziła się pod koniec XIX wieku nie w Anglii, a w Niemczech. To wtedy właśnie badacze, tacy jak Gustaw Fechner, Wilhelm Wundt czy Hermann Ebbinghaus, udowadniali, że zjawiska psychologiczne można wyrażać w terminach ilościowych. Wtedy również swój wkład do mierzenia różnic indywidualnych wnieśli badacze z Francji i ze Stanów Zjednoczonych. I tak, badania psychiatrów i psychologów francuskich zajmujących się upośledzeniami umysłowymi wpłynęły na rozwój klinicznych i testowych technik diagnozy, a rosnące
Wnioskowanie psychometryczne
zainteresowanie egzaminami pisemnymi, jakie przeprowadzano w amerykańskich szkołach, wpłynęło na rozwój standaryzowanych testów osiągnięć (por. też Stachowski, 2000).
Wiele postaci odegrało pod koniec XIX wieku istotną rolę w tworzeniu podstaw współczesnej psychometrii. Na szczególne podkreślenie zasługują prace Franciszka Galtona, Jamesa McKeena Cattella i Alfreda Bineta. Galton (notabene kuzyn Darwina) zajmował się dziedzicznymi podstawami inteligencji i technikami mierzenia zdolności. Szczególnie interesował się dziedziczeniem wśród „geniuszy" i formułował tezy dotyczące istoty zdolności umysłowych. Jego zdaniem o byciu „geniuszem" decydowały dwie cechy: energia działania i wrażliwość zmysłowa. Galton stworzył również - i to jest jego najważniejsza zasługa dla rozwoju psychometrii - wiele prostych testów sensomotorycznych i opracował kilkanaście metod analizy wielkości różnic indywidualnych. Posługując się swoimi testami, zebrał dane pochodzące z badań ponad 9000 osób w wieku od 5 do 80 lat! Był to pierwszy duży, systematyczny zbiór danych dotyczących różnic indywidualnych. Warto też w tym miejscu powiedzieć, że jednym z ważniejszych metodologicznych osiągnięć Galtona było wprowadzenie pojęcia i techniki „ko-relacji", powszechnie stosowanej dziś metody analizowania danych (DuBois, 1970).
James McKeen Cattell był Amerykaninem, który po zrobieniu - pod kierunkiem Wundta - doktoratu w Niemczech osiadł w Anglii i pracował jako asystent Galtona. Tam poznał jego testy i metody, co zainspirowało go na tyle, że po powrocie do Ameryki zajął się propagowaniem idei badań testowych. W trakcie swojej pracy na Uniwersytecie Pensylwańskim Cattell starał się powiązać wyniki tych prostych testów umysłowych12 badających czas reakcji i różnicowanie sensoryczne ze stopniami szkolnymi. Otrzymane korelacje były jednak bardzo niskie. W ten sposób powstała potrzeba skonstruowania testów, które byłyby dobrymi predyktorami osiągnięć szkolnych. Człowiekiem, który podjął się takiego zadania, był Francuz, Alfred Binet.
Alfred Binet i współpracujący z nim lekarz Teodor Simon otrzymali w roku 1904, z francuskiego Ministerstwa Edukacji Publicznej, zadanie stworzenia metody identyfikującej dzieci mające trudności w uczeniu się (upośledzone umysłowo). W tym celu stworzyli test przeznaczony do badań indywidualnych, składający się z 30 zadań ułożonych według rosnącej trudności. Przedmiotem pomiaru tego pierwszego testu inteligencji, opublikowanego w 1905 roku, były zdolności oceniania, rozumowania i wnioskowania. W 1908 roku ukazała się pierwsza rewizja testu, zawierająca większą liczbę
12 To Cattell właśnie, w jednej ze swoich publikacji z roku 1890, wprowadził pojęcie „testów umysłowych". On także był inspiratorem założenia Psychologicai Corporation, instytucji, której celem miało być „wspieranie psychologii i promocja użytecznych zastosowań psychologii". Jego osoba jest też często utożsamiana z tzw. „Skalą Inteligencji dla Dzieci Cattell" (Cattell Infant Intelligence Scalę), której autorką była w rzeczywistości jego córka Psyhe (por. Cohen, Swerdlik, 1999).
37
Rozdział 1
zadań, odpowiednio pogrupowanych dla poziomów wiekowych od 3 do 13 lat. Wtedy też Binet wprowadził pojęcie wieku umysłowego jako sposób wyrażania wyniku otrzymanego w teście. Kolejna rewizja Skali Inteligencji Bineta-Simona, opublikowana w 1911 roku, tuż po niespodziewanej śmierci Bineta, pozwalała również na badanie ludzi dorosłych.
Do pionierów testowania należy również zaliczyć Charlesa Spearmana, który wniósł wkład do teorii testów, Edwarda L. Thorndike'a (testy osiągnięć), Lewisa Termana (testy inteligencji), Roberta Woodwortha i Hermana Rorschacha (testy osobowości) oraz Edwarda K. Stronga (testy zainteresowań) - by wymienić tylko niektórych. Prace Artura Otisa nad testami inteligencji typu papier i ołówek bezpośrednio przyczyniły się do powstania „Testu Alfa dla Wojska" (Anny Alpha) oraz „Testu Beta dla Wojska" (Army Betha), stworzonych przez psychologów wojskowych w trakcie I wojny światowej. Oba testy, „Alfa" dla osób piśmiennych i „Beta" dla osób niepiśmiennych, były testami grupowymi pozwalającymi na jednoczesne badanie dużej liczby osób (por. też Aiken, 1982).
Począwszy od I wojny światowej możemy obserwować bardzo dynamiczny rozwój zarówno teorii testowania, jak i samych metod testowych. Nazwiska osób, które odegrały istotną rolę w kształtowaniu dzisiejszych testów, ciągle widnieją w nazwach stworzonych przez nich metod. Trudno w tak skrótowym przeglądzie wspomnieć wszystkich badaczy. Warto jednak wracać do korzeni, bowiem -jak pisze Anastasi - „kierunek, w jakim zmierzają współczesne badania testowe, można jaśniej dostrzec w świetle rzucanym przez prace ich prekursorów. Specyficzne zalety i ograniczenia testów stają się bardziej zrozumiałe w kontekście danych pokazujących ich genezę" (Anastasi, Urbina, 1999, s. 56).
.
38
Podstawowe pojęcia:
• Kryteria dobroci testów obiektywność standaryzacja rzetelność trafność normalizacja adaptacja Test
Testy obiektywne i testy nieobiektywne Testy słowne i testy bezsłowne Testy standaryzowane i testy niestandaryzowane Testy właściwości poznawczych i testy właściwości afektywnych Testy zorientowane na normy i testy zorientowane na kryterium Wnioskowanie psychometryczne Wynik obserwowany Wynik prawdziwy
Wnioskowanie psychometryczne
Tab. 1.3. Najważniejsze daty w historii pomiaru psychologicznego (opracowano na podstawie DuBois, 1970; Cronbach, 1990; Goldberg, 1994; Anastasi, Urbina, 1999; Cohen, Swerdlik, 1999)
DataWydarzenie2200 p.n.e.Uruchomienie w Chinach programu testowania kandydatów na stanowiska urzędników państwowych1219 n.e.Pierwsze formalne, ustne egzaminy z prawa na Uniwersytecie w Bolonii1575J. Huarte publikuje rozprawę Examen de Ingenios, poświęconą różnicom indywidualnym1636Uniwersytet w Oksfordzie wprowadza ustne egzaminy przy nadawaniu stopnia naukowego1860Początek stosowania egzaminów ustnych na szeroką skalę zarówno w Europie, jak i w Stanach Zjednoczonych1869Publikacja Galtona Classification of Men According to Their Natural Gifts rozpoczyna badania naukowe nad różnicami indywidualnymi1879W Lipsku powstaje pierwsze laboratorium psychologiczne, założone przez W. Wundta1888J.M. Cattell otwiera laboratorium na Uniwersytecie Pensylwańskim1893Na wystawie w Chicago J. Jastrow demonstruje testy senso-motoryczne1904C. Spearman występuje z dwuczynnikową teorią inteligencji1905Ukazuje się „Skala Inteligencji Bineta-Simona". C. Jung wprowadza pojęcie testu skojarzeń słownych1908Rewizja „Skali Inteligencji Bineta-Simona" oraz opublikowanie „Testu Arytmetycznego" C. Stone'a1908-1914E.L. Thorndike publikuje standaryzowane testy arytmetyczne, ęzykowe, sprawności pisania1916L. Terman publikuje amerykańską wersję „Skali Inteligencji Bineta-Simona"1917Zastosowanie pierwszych testów do badań grupowych, tj. Army Alpha i Army Betha; wykorzystanie „Arkusza Danych Osobistych" opracowanego przez R. Woodwortha1919L. Thurstone opracowuje test wykorzystywany przy egzaminach wstępnych do college'u1920Ukazuje się test „Plamy Atramentowe" H. Rorschacha1921Cattell, Thorndike oraz Woodworth zakładają Psychological Corporation, pierwszą instytucję zajmującą się wydawaniem estów1925-1950klasowe stosowanie testów w Stanach Zjednoczonych, niemal we wszystkich obszarach życia39
Rozdział 1
cd. tab. 1.3



40
1938Ukazuje się pierwsza publikacja O.K. Burosa „Mental Measure-ments Yearbook"1939D. Wechsler publikuje test do badania inteligencji osób dorosłych „Wechsler Adult-lntelligence Scalę"1942Ukazuje się test MMPI („Minnesota Multiphasic Personality lnventory")1949D. Wechsler publikuje drugi z serii swoich testów, tym razem przeznaczony do badania dzieci i młodzieży („Wechsler Intel-ligence Scalę for Children")1967Ukazuje się trzeci test D. Wechslera, przeznaczony do badania małych dzieci („Wechsler Preschool and Primary Scalę of Intelligence")1970Liczne publikacje nowych metod testowych, w tym także ich wersji komputerowych1971Pierwsza sprawa sądowa dotycząca testów. W Stanach Zjednoczonych sąd nakazuje, aby testy wykorzystywane dla celów selekcji były merytorycznie powiązane z rodzajem wykonywanej pracy (sprawa Griggs vs. Duke Power)Literatura zalecana
Anastasi A., Urbina S. (1999). Testy psychologiczne. Warszawa: Pracownia Testów Psychologicznych Polskiego Towarzystwa Psychologicznego.
Brzeziński J. (1996). Metodologia badań psychologicznych. Warszawa: Wydawnictwo Naukowe PWN.
Brzeziński J. (2000). Teoria testów psychologicznych: ABC psychometrii, w: J. Strelau (red.), Psychologia. Podręcznik akademicki. Tom 1: Podstawy psychologii (s. 400-415). Gdańsk: Gdańskie Wydawnictwo Psychologiczne.
Guilford J.P. (1988a). Teoria testów psychologicznych. Biblioteka Psychologa Praktyka. Tom II: Problemy teorii, rzetelności, konstrukcji i analizy wyników testów psychologicznych (s. 9-50). Warszawa: Polskie Towarzystwo Psychologiczne, Laboratorium Technik Diagnostycznych.











Rozdział 2

Klasyczna teoria testów jako podstawa wnioskowania o rzetelności testu
W języku potocznym termin rzetelność oznacza niezawodność (dokładność). Z kolei w psychometrii termin ten odnosi się do powtarzalności otrzymanych wyników. Stosując określony test, jesteśmy bowiem zainteresowani tym, czy ponowne badanie tej samej osoby w podobnych warunkach przyniosłoby takie same efekty. Mówiąc jeszcze inaczej, rzetelność oznacza zgodność wyników otrzymanych przez te same osoby, które zostały przebadane kilka razy tym samym testem.
W pewnym sensie wszystkie pomiary psychologiczne są w jakimś stopniu nierzetelne. Gdybyśmy dwukrotnie w odstępie jednego miesiąca przebadali tę samą grupę osób, powiedzmy, testem wiadomości z historii, to jest rzeczą mato prawdopodobną, że za drugim razem osiągnęłyby one takie same wyniki jak za pierwszym.
Co w takim razie sprawia, że wyniki testowe są nierzetelne? Przypomnijmy, że osoba badana, udzielając odpowiedzi na pozycje testu, odpowiada jedynie na pewną próbkę pozycji ze zbioru wszystkich możliwych pozycji dla tego testu. Tym samym otrzymany przez nią wynik nigdy nie jest idealnym odzwierciedleniem rzeczywistej wartości mierzonej cechy, natomiast zawsze jest obciążony pewnym błędem. Zastanówmy się zatem, co może być przyczyną powstawania błędu w badaniach testowych.
2.1. ŹRÓDŁA BŁĘDU W POMIARZE TESTOWYM
Błąd pomiaru może mieć charakter systematyczny bądź losowy. Błąd systematyczny to błąd, który nie ma nic wspólnego z mierzoną cechą psychologiczną i jest spowodowany stałymi cechami badanej osoby lub narzędzia pomiarowego. Taki właśnie błąd ujawni się w sytuacji, w której osoba badana, odpowiadając np. na kolejne pozycje skali postaw, zawsze zakreśla odpowiedź „nie zgadzam się", kiedy nie rozumie treści pytania. Ponieważ w kolejnym badaniu będzie ona reagowała tak samo, błąd, z którym będziemy mieli do czynienia, będzie błędem systematycznym i w taki sam sposób będzie wpływać na wyniki testowania w obu sytuacjach (tj. za pierwszym i drugim razem).
41
Rozdział 2

Błędy drugiego rodzaju, tj.błędy losowe, powstają w wyniku działania przyczyn przypadkowych. Błędy te mogą zarówno zwiększać, jak i zmniejszać wynik testowy. Do czynników, które w sposób losowy wpływają na wynik testowy, należą: sposób konstrukcji testu, sytuacja testowania oraz sposób oceny wyników (por. rys. 2.1). Omówimy je pokrótce (por. też Anastasi, Urbina, 1999; Cohen, Swerdlik, 1999; Guilford, 1988a; Magnusson, 1981).
Rys. 2.1. Źródła błędu losowego w badaniu testowym
Źródła błędu w badaniach testowych

konstrukcja testu

sytuacja testowania

ocena wyników
czynniki sytuacyjne osoba badana osoba badająca
błędy mechaniczne
subiektywizm w ocenie
wyników
42
dobór treści
Konstrukcja testu
Jednym ze źródeł błędu, z jakim mamy do czynienia w pomiarze testowym, jest sposób konstrukcji testu. Dokładnie rzecz biorąc, źródłem tego błędu jest specyficzny dobór treści, z jakiej zbudowane są pozycje testu. Jak już wspominaliśmy w poprzednim rozdziale, konkretny test powinien być zawsze traktowany jako próbka treści pochodząca z określonego uni-wersum. Wyobraźmy sobie zatem taką sytuację. Czeka nas rozwiązanie testu mierzącego naszą wiedzę z historii. Czujemy się znakomicie przygotowani z historii XIX i XX wieku, gorzej zaś jeżeli chodzi o pozostałe okresy historyczne. Nic dziwnego zatem, że naszym marzeniem jest otrzymanie takiego zbioru pytań, które w przeważającej części dotyczyć będą tego, a nie innego okresu historycznego. Jeżeli mamy szczęście, to może się tak właśnie stać. W każdej sytuacji testowania niektóre osoby badane otrzymują wyższe wyniki testowe tylko dlatego, że specyficzna treść pozycji testowych szczególnie im odpowiada lub szczególnie ich dotyczy. Stopień, w jakim wyniki testowe odzwierciedlają specyficzną treść testu - bardziej lub mniej dostępną konkretnym osobom badanym - jest zatem jednym ze źródeł błędu.
Sytuacja testowania
W trakcie rozwiązywania testu przez osobę badaną może zdarzyć się wiele sytuacji, które np. obniżą motywację osoby badanej (chociażby gdy usłyszy ona przed wejściem do pokoju, że testy, które ma rozwiązać, niczemu nie służą) lub wpłyną na jej stopień koncentracji uwagi (gdy w trakcie rozwiązywania testu ktoś za ścianą włączy młot pneumatyczny).
Klasyczna teoria testów jako podstawa wnioskowania o rzetelności testu
Ogólnie rzecz biorąc, źródła błędu związane z sytuacją badania obejmują: czynniki sytuacyjne (temperaturę w pomieszczeniu, oświetlenie, hałas itp.), czynniki związane z osobą badaną (ilość snu w przeddzień testowania, lęk przed testowaniem, zażywanie leków, chwilowe fluktuacje uwagi, itp.), czynniki związane z osobą badającą (obecność lub nieobecność w trakcie badania, sposób zwracania się do osoby badanej, umiejętność nawiązywania kontaktu, itp.).
Sposób oceny wyników
W wypadku wszystkich niemal testów, także tych, w których ocena wyników polega na mechanicznym przyłożeniu klucza do arkusza odpowiedzi i ręcznym policzeniu odpowiedzi zgodnych z kluczem, trzeba się liczyć z możliwością popełnienia błędu (wolne od tego rodzaju błędu są jedynie te testy, w których obliczanie wyników zostało zautomatyzowane czy skomputeryzowane). Popełniane błędy mogą być dwojakiego rodzaju. Po pierwsze, mogą to być błędy mechaniczne (źle przyłożony arkusz; błędnie obliczona suma wyników). Po drugie, mogą to być błędy wynikające ze zbyt ogólnych kryteriów oceniania odpowiedzi (z takim przypadkiem mamy np. do czynienia w wielu testach inteligencji lub osobowości, w których klucz oceny wyników zawiera tylko ogólne kryteria punktacji odpowiedzi). W tym drugim wypadku wynik otrzymany w teście odzwierciedla również indywidualne doświadczenie osoby oceniającej odpowiedzi.
Wszystkie czynniki, które nie mają związku z celem badania testowego, stanowią źródło błędu. Błędy systematyczne nie są przyczyną braku powtarzalności wyników pomiaru, jednak mogą wpływać na wyniki testowe i tym samym zmniejszać ich użyteczność. Z kolei błędy losowe powodują, że wyniki testowe nie są ani powtarzalne, ani użyteczne. Trudno zakładać, że pomiar testowy będzie użyteczny, jeżeli nie będzie powtarzalny. Dlatego też jednym z zadań konstruktora testu jest wykazanie, że wyniki otrzymywane za pomocą jego metody są powtarzalne, a więc rzetelne. Mówiąc bardziej fachowo, powinien on wykazać, jaką część ogólnej wariancji wyników testowych stanowi wariancja wyników prawdziwych. Potwierdzenie faktu odpowiedniej rzetelności testu wymaga przyjęcia teoretycznego modelu opisującego związek między błędem pomiaru a wynikami otrzymywanymi w teście oraz przeprowadzenia badań empirycznych według schematu zgodnego z tym modelem. W tym rozdziale zajmiemy się zatem zarówno prezentacją takich modeli teoretycznych, jak i analizą ich praktycznych konsekwencji.
2.2. MODEL WYNIKU PRAWDZIWEGO I JEGO ZAŁOŻENIA - KLASYCZNA TEORIA TESTÓW
Źródeł koncepcji klasycznego modelu wyniku prawdziwego można już upatrywać w pracach Spearmana (1904, 1907). W pracach tych argumentował on, że otrzymane wyniki testowe są niedokładnymi miarami cech psychologicznych. Ta myśl Spermana była rozwijana przez Guilforda (1936), Gullik-
43
Rozdział 2
sena (1950) oraz Lorda i Novicka (1968) i dzisiaj znana jest jako klasyczny model wyniku prawdziwego (por. też Guilford, 1988a; Machowski, 1993).
Istotą myśli Spearmana (ibidem) było założenie, że każdy wynik obserwowany w teście jest składową dwóch, nieobserwowalnych bezpośrednio wielkości - wyniku prawdziwego (T - ang. true score) oraz błędu pomiaru (E - ang. error). Zależność ta wyrażana jest w następującej postaci i znana jako równanie klasycznej teorii testów:
X= T+E
gdzie: X - oznacza wynik otrzymany w teście, T - wynik prawdziwy, a E - błąd pomiaru.
Przyjmując to równanie jako podstawę naszego wnioskowania, widzimy wyraźnie, że wynik otrzymany w teście (czyli wynik obserwowany - X) nie ma w zasadzie żadnego praktycznego znaczenia. Na jego podstawie bowiem trudno cokolwiek orzekać o prawdziwej wartości mierzonej cechy, gdyż wynik prawdziwy i błąd pomiaru są ze sobą nierozerwalnie związane. Np. wynik testowy X może wynosić 10 i będzie tak wtedy, gdy T= 8 i E = 2, oraz wtedy, gdy 7=120 i ?'=-110. To wynik prawdziwy (T) jest tym, co nas interesuje, i wartość tego wyniku będziemy chcieli oszacować. Żeby to jednak było możliwe, musimy przyjąć dodatkowe założenia.
Przede wszystkim musimy mieć jakieś oczekiwania co do wielkości błędu pomiaru, a więc musimy określić, jak niedokładne mogą być wyniki otrzymane w teście. W klasycznej teorii testów przyjmujemy, że wszystkie błędy, jakie otrzymalibyśmy, badając tym samym testem tę samą osobę nieskończenie wiele razy, mają rozkład normalny, a ich średnia wynosi zero1. Założenie to jest formalnie wyrażane następująco:
gdzie symbol ME oznacza średnią arytmetyczną błędu (ang. mean - „średnia arytmetyczna"). Założenie to, znane też pod nazwą założenia o nieobciążono-ści narzędzia pomiarowego, mówi tyle, że błąd, z jakim mamy do czynienia w pomiarze testowym, jest wyłącznie błędem losowym.
Aby można było stworzyć statystyczne metody szacowania wielkości błędu, konieczne jest jeszcze przyjęcie dwóch kolejnych założeń. Pierwsze z nich dotyczy związku między wynikiem prawdziwym a błędem pomiaru.
44
1 Założenie to, de facto, jest założeniem kontrfaktycznym, ponieważ w sytuacjach praktycznych nie jest możliwe otrzymanie nieskończenie wielu, niezależnych od siebie wyników pochodzących z badania testem tej samej osoby. Każde badanie testowe jest bowiem badaniem „inwazyjnym" („niszczącym") w tym sensie, że osoba badana, rozwiązując ten sam test po raz drugi, dysponuje już jakąś wiedzą o tym teście -jest więc w pewnym sensie „inną" osobą badaną. Tu jednak przyjmujemy idealizacyjnie, że gdyby można było dokonać nieskończenie wielu niezależnych od siebie pomiarów tej samej cechy u tej samej osoby i za pomocą tego samego testu, to rozkład wartości błędu w tym teście dla tej osoby byłby rozkładem normalnym, ze średnią równą zeru.
Klasyczna teoria testów jako podstawa wnioskowania o rzetelności testu
Jeżeli przyjmujemy założenie pierwsze, a więc zakładamy, że błąd pomiaru ma charakter losowy, to jego konsekwencją jest przyjęcie, iż nie ma związku między wynikiem prawdziwym a błędem pomiaru. To założenie znane jest jako założenie o niezależności:
rTE = 0
Innymi słowy, przyjmujemy, że współczynnik korelacji między wynikiem prawdziwym a błędem pomiaru (rTE) wynosi zero.
I wreszcie założenie trzecie. Jeżeli błąd pomiaru ma charakter losowy, to również nie możemy oczekiwać istnienia żadnego związku między błędami otrzymanymi w dwóch kolejnych badaniach tym samym testem, a więc:
rElE2 = 0 Te trzy założenia stanowią podstawę klasycznej teorii testów.
> Zgodnie zklasyczną teorią testów przyjmuje się, że:
X=T+E gdzie: X- oznacza wynik otrzymany w teście, T— wynik prawdziwy, a E—błąd pomiaru.
>  Jednocześnie w teorii tej przyjmuje się trzy następujące założenia:
•  ME=0 (tzw. założenie o nieobciążoności narzędzia pomiarowego)
•  rTE=0 (tzw. założenie o niezależności)
2.3. DEFINICJA RZETELNOŚCI
Wiedząc już, że wyniki obserwowane jako takie są praktyczne bezużyteczne (bez dodatkowych informacji nie wiemy bowiem, na ile dobrze odzwierciedlają one wyniki prawdziwe), podstawowym pytaniem, jakie musimy sobie zadać - zanim zastosujemy określony test - jest pytanie o wielkość związku, jaki zachodzi między wynikami obserwowanymi a wynikami prawdziwymi. Współczynnik korelacji między wynikami obserwowanymi a wynikami prawdziwymi nazywany jest wskaźnikiem rzetelności (ang. reliability index).
Współczynnik rzetelności możemy zatem zapisać jako2:
GXT
Pat—~~~"
gdzie: pXr oznacza współczynnik korelacji między wynikami otrzymanymi a wynikami prawdziwymi, Oxr oznacza kowariancję wyników otrzymanych
2 Wzór ten otrzymaliśmy, podstawiając odpowiednie wielkości (tj. T i X) do klasycznego wzoru na współczynnik korelacji:
CovXY
rXY =
'XY—----------------------                                                                                                  A c
(SDX)(SDY)                                                                 45
Rozdział 2
i wyników prawdziwych, a ax oraz aT oznaczają, odpowiednio, odchylenia standardowe wyników otrzymanych i wyników prawdziwych.
Przyjmując klasyczny model teorii testów, tj. że X= T+E, możemy podstawić, w miejsce wielkości X, wielkość T+E. Otrzymamy wtedy następujące wyrażenie:

PXT =
G(T+E)T
OxOt
Ponieważ na mocy założeń klasycznej teorii testów wiemy, że rTE = 0 (nie ma korelacji między wynikami prawdziwymi a błędem pomiaru), to w naszym wypadku również wyrażenie oTe=0 (kowariancja między wynikami prawdziwymi a błędem pomiaru) będzie równać się zeru. Po uwzględnieniu tego założenia korelacja między wynikami obserwowanymi a wynikami prawdziwymi będzie zatem wynosić:
o2r
Pxt=
Upraszczając to ostatnie wyrażenie, otrzymamy:
46
Ponieważ ze statystyki wiemy, że miarą siły związku między dwiema zmiennymi jest tzw. współczynnik determinacji, który jest kwadratem współczynnika korelacji (por. Ferguson i Takane, 1997, s. 142), podnieśmy zatem obie strony naszego równania do kwadratu:     <"%   ? -^   ^wia-t^^T-Tirn--
&'                                                        PXT=—                                 *   jX'
O&kiES •                                                            <Jx
To ostatnie wyrażenie traktowane jest jako definicja rzetelności testu. Rzetelność testu to zatem kwadrat korelacji między wynikami otrzymanymi a wynikami prawdziwymi, czyli jest to stosunek wariancji wyników prawdziwych do wariancji wyników otrzymanych. Mówiąc jeszcze inaczej, rzetelność testu mówi nam o tym, w jakim stopniu wariancja wyników prawdziwych określa wariancję wyników otrzymanych.
Wariancja wyników prawdziwych jest wielkością nie obserwowaną, a co za tym idzie - nie dającą się bezpośrednio zmierzyć, i dlatego definicja ta nie ma praktycznego znaczenia w tym sensie, że nie można na jej podstawie dokonać oszacowania rzetelności testu. Spróbujmy się w takim razie zastanowić, w jaki sposób można by rozwiązać ten problem.
Jak już wspominaliśmy na początku tego rozdziału, pojęcie rzetelny - w sensie psychometrycznym - oznacza „powtarzalny". Można by zatem zaproponować takie rozwiązanie: przebadajmy dwukrotnie tym samym testem
Klasyczna teoria testów jako podstawa wnioskowania o rzetelności testu
te same osoby i obliczmy wielkość współczynnika korelacji między wynikami otrzymanymi za pierwszym i za drugim razem. Im wyższą wartość współczynnika korelacji otrzymamy, tym wyższą rzetelność testu możemy zakładać. Problem polega jednak na tym (o tym również wspominaliśmy już w niniejszym rozdziale), że w praktyce nie możemy otrzymać dwóch niezależnych pomiarów tym samym testem dla tej samej osoby. Badanie testowe jest bowiem badaniem uwrażliwiającym i rozwiązywanie tego samego testu po raz drugi tworzy inną sytuację niż wtedy, gdy test rozwiązywany był po raz pierwszy. Co zatem możemy zrobić?
W psychometrii rozwiązaniem jest wprowadzenie pojęcia tzw. testów równoległych. Testy równoległe to testy, które mierzą dokładnie to samo i dokładnie tak samo, jednak pozycje testowe składające się na te testy zbudowane są z różnych treści. Formalnie rzecz biorąc, testy równoległe to testy spełniające następujące warunki (por. Gulliksen, 1950; Guilford, 1954; Yaremko i in., 1982):
1)  XA=XB
2)   <TA = oB
3)    r?? ? = r
-V     ' IAJA         ' IBJB
4)   rAZ=rBZ
Dwa testy są zatem testami równoległymi wtedy, kiedy: średni wynik otrzymany w teście A jest równy średniemu wynikowi otrzymanemu w teście B, odchylenie standardowe wyników otrzymanych w teście A jest równe odchyleniu standardowemu wyników otrzymanych w teście B, interkorelacje pozycji w teście A są takie same jak interkorelacje pozycji w teście B i wreszcie współczynnik korelacji wyników otrzymanych w teście A z pewną zmienną Z, jest taki sam, jak współczynnik korelacji wyników otrzymanych w teście B z tą samą zmienną.
 D wa testy są testami równoległymi wtedy, kiedy spełnione są następujące
wajtinki:
• XA=XB
Teraz możemy obliczyć współczynnik korelacji między dwoma testami równoległymi:                                    J
Korzystając z równania klasycznej  teorii testów, podstawmy - zamiast wielkości X- wyrażenie T+E. Otrzymamy wtedy:
_
G(T+EA)(T+EB)
Mnożąc oba nawiasy występujące w liczniku tego wyrażenia, otrzymamy
z kolei:                                                                                                              47
Rozdział 2

48

 Or+

Ponieważ na mocy założeń przyjętych w ramach klasycznej teorii testów wiemy, że gTea - 0 i Gteb = 0 oraz gEaeb = 0, az definicji testów równoległych
wynika, że oA = gb, stąd możemy przyjąć, że:                      ,                         M
:vms? myj y/óT?imoq rb^nsai"
&xAOxB- GxGx=Gx    v« mainubad msiwod 3 W związku z tym:                                                   pnm ^<nowj rąuib sjti
i—5-y xt
W ten sposób udowodniliśmy, że współczynnik korelacji między wynikami dwóch testów równoległych, czyli rABy jest równy stosunkowi wariancji wyników prawdziwych do wariancji wyników otrzymanych, czyli jest równy rzetelności testu. Współczynnik korelacji między wynikami dwóch testów równoległych może być zatem traktowany jako współczynnik rzetelności testu3. W dalszym ciągu współczynnik rzetelności będziemy oznaczać jako r„ podkreślając w ten sposób, że jest to współczynnik między dwoma zbiorami wyników testowych.
 Wskaźnik rzetelności jest to współczynnik korelacji między wynikami otrzymanymi w teście a wynikami prawdziwymi osób badanych.  Rzetelność testu jest to stosunek wariancji wyników prawdziwych do wariancji wyników otrzymanych.
 Współczynnikrzetelności jest to współczynnik korelacji między wynikami otrzymanymi w dwóch testach równoległych.
Interpretacja współczynnika rzetelności
Każdy współczynnik rzetelności można bezpośrednio interpretować jako odsetek w arian ej i wyników otrzymanych, jaką można przypisać wynikom prawdziwym. Jest to możliwe, ponieważ rzetelność została zdefiniowana jako współczynnik determinacji, czyli kwadrat współczynnika korelacji między wynikami otrzymanymi w teście a wynikami prawdziwymi. I tak np. przyjmijmy, że otrzymana przez nas wartość współczynnika korelacji między dwoma testami równoległymi wynosi 0,81. Oznacza to zatem, że 81% wariancji wyników otrzymanych stanowi, w tym wypadku, wariancja wyników prawdziwych. To oczywiście znakomicie, jeżeli chodzi o użyteczność wyników tego testu, bowiem błąd popełniany przy szacowaniu wyniku prawdziwego wynosi 19% (co można uznać za zupełnie
3 Przedstawione tu rozumowanie zostało pokazane w sposób maksymalnie nietechniczny i jest raczej zarysowaniem określonego sposobu myślenia niż szczegółową prezentacją podstaw klasycznej teorii testów. Czytelnika zainteresowanego bardziej formalnym wyprowadzeniem przedstawionych tu konepecji odsyłam do prac Lorda i Novicka (1968), Magnussona (1981), Machowskiego (1993) oraz Nowakowskiej (1974).
Klasyczna teoria testów jako podstawa wnioskowania o rzetelności testu
przyzwoity rezultat). Ponieważ rzetelność testu jest kwadratem współczynnika korelacji między wynikami otrzymanymi a wynikami prawdziwymi, dlatego też nigdy nie jest ujemna. Na podstawie tego wyniku możemy nadto powiedzieć, że współczynnik korelacji między wynikami otrzymanymi w tym teście a wynikami prawdziwymi wynosi ^0,81, a więc 0,90 (por. też Anastasi, Urbina, 1999, s. 142-143).
2.4. METODY BADANIA RZETELNOŚCI
Pojęcie współczynnika rzetelności raczej opisuje pewną ideę związaną z dokładnością pomiaru, niż dostarcza informacji o tym, jak faktycznie można oszacować rzetelność różnych testów. Spróbujmy się zatem zastanowić, co w praktyce oznacza pojęcie testów równoległych i w jaki sposób można oszacować wielkość współczynnika rzetelności. Jak się dalej okaże, istnieje wiele metod szacowania rzetelności testu, tak jak istnieje wiele źródeł błędu pomiaru testowego. Bez względu jednak na to, jaka to będzie metoda, będziemy zawsze zainteresowani określeniem wielkości współczynnika korelacji między dwoma zbiorami pomiarów. Zbiory te będziemy traktować jako realizacje pomiarów równoległych4.
Badanie rzetelności metodą powtarzania testu (tzw. technika test-retest)
Najbardziej oczywistym sposobem otrzymania dwóch zbiorów pomiarów - choć najmniej przestrzegającym założenia o inwazyjności pomiaru testowego - jest dwukrotne zastosowanie tego samego testu. Wielkość współczynnika korelacji między wynikami testowymi otrzymanymi za pierwszym i za drugim razem jest traktowana jako współczynnik rzetelności testu. Im wyższy współczynnik korelacji, tym oczywiście wyższa wartość współczynnika rzetelności.
Współczynnik rzetelności szacowany tą metodą, nazywany też współczynnikiem stabilności bezwzględnej (por. Choynowski, 1971; Brzeziński, 1996; 2000), mówi nam o tym, w jakim stopniu wyniki testowe są wrażliwe na przypadkowe zmiany, dotyczące zarówno osoby badanej, jak i warunków badania.
Wraz z upływem czasu ludzie się zmieniają. Mogą np. nauczyć się czegoś nowego lub zapomnieć to, o czym wiedzieli. Długość przerwy między pierwszym a drugim testowaniem staje się - w przypadku tej metody - istotnym czynnikiem wpływającym na wielkość otrzymanego współczynnika rzetelności. Im dłuższa przerwa między pierwszym a drugim badaniem za pomocą tego samego testu, tym częściej otrzymamy niższy współczynnik rzetelności. Dlatego też interpretując wartość tego współczynnika, musimy znać długość przerwy, jaka upłynęła między kolejnymi testowaniami.
4 Dobry wykład metod szacowania rzetelności można znaleźć w pracy Anastasi i Urbiny (1999, s. 131-150).                                                                                                                      49
Rozdział 2
50
Określając długość przerwy między kolejnymi badaniami tym samym testem, musimy wziąć pod uwagę dwa sprzeczne ze sobą warunki. Po pierwsze, przerwa ta powinna być na tyle długa, aby osoby badane zapomniały swoje poprzednie odpowiedzi w teście. I po drugie, przerwa ta powinna być na tyle krótka, aby w trakcie jej trwania nie doszło do zmian w wyniku procesów rozwojowych, np. nauczenia się czegoś nowego (ogólnie: zmiany właściwości podmiotowej, którą test ma mierzyć). Oba rodzaje czynników w różny sposób wpływają na wielkość współczynnika rzetelności. Zapamiętywanie poprzednich odpowiedzi będzie sztucznie zwiększać wielkość współczynnika rzetelności, zaś uczenie się nowych rzeczy będzie ten współczynnik sztucznie obniżać.
To, na jak długą przerwę się zdecydujemy, zależy od celu testowania i od tego, dla kogo nasz test jest przeznaczony. I tak np. w przypadku testów osobowości (a więc względnie stabilnych cech) przerwy mogą być dłuższe, zaś w przypadku testów przeznaczonych do badania dzieci (dynamiczny rozwój) przerwy powinny być krótsze. Generalnie rzecz biorąc, długość przerwy, jaką stosuje się w badaniach rzetelności metodą test-retest, waha się od kilku tygodni do kilku miesięcy. Wszelkie zmiany bowiem, które pojawiają się w okresie dłuższym niż kilka miesięcy, raczej mają charakter zmian progresywnych niż zmian losowych (por. Anastasi, Urbina, 1999, s. 132).
Specyficzną odmianą tej techniki jest dwukrotne badanie tej samej grupy osób tym samym testem bez żadnej przerwy czasowej. Z punktu widzenia osoby badanej jest to jedno badanie, w którym dwukrotnie powtarzają się te same pozycje. Współczynnik korelacji między wynikami pierwszego i drugiego testu jest opisywany jako współczynnik wiarygodności testu (por. np. Choynowski, 1971; Brzeziński, 1996). W technice tej maksymalizowany jest czynnik zapamiętywania, zaś minimalizowany jest czynnik uczenia się.
Jakie źródła błędu możemy oszacować, stosując te technikę? W tym wypadku na błąd składają się takie czynniki, jak chwilowe fluktuacje uwagi czy zmęczenie osoby badanej. Ogólnie rzecz biorąc, jest to metoda pozwalająca uchwycić wpływ wszystkich tych przypadkowych czynników, które są związane z osobą badaną i których zmienność jest krótsza niż czas trwania badania.
Technika szacowania rzetelności metodą dwukrotnego testowania tej samej grupy osób, mimo jej intuicyjnej prostoty, budzi jednak wiele wątpliwości. W Standardach dla testów stosowanych w psychologii i pedagogice (1985a, s. 58) wyraźnie podkreśla się, że „(...) nie jest to pożądana technika badania rzetelności", bowiem -jak pisze Nowakowska (1975, s. 38) - „(...) możliwy wpływ różnych czynników ubocznych, takich jak zapamiętywanie, uczenie się, ewentualne różnice w warunkach badania icp., stawia pod znakiem zapytania adekwatność założenia równoległości". A przecież to założenie
Klasyczna teoria testów jako podstawa wnioskowania o rzetelności testu
było podstawą wyprowadzenia koncepcji współczynnika rzetelności. Technika ta daje się zaakceptować w wypadku testów motorycznych czy różnicowania sensorycznego (tj. takich testów, w których zakłada się, że powtarzanie badania nie wpływa w sposób istotny na wyniki testowania), jednak dla większości testów psychologicznych poszukać musimy innej techniki szacowania rzetelności.
Rzetelność szacowania metodą wersji równoległych (alternatywnych)
Jednym ze sposobów badania rzetelności testu, który jest wolny od kłopotów właściwych dla techniki test-retest, jest wykorzystanie tzw. alternatywnych wersji testu. Wersje alternatywne to dwie wersje tego samego testu, świadomie konstruowane w taki sposób, aby spełnione było założenie o ich równoległości5.
Metoda wersji równoległych polega na tym, że ta sama grupa osób rozwiązuje najpierw pierwszą, a następnie drugą wersję tego samego testu. Wielkość współczynnika korelacji otrzymanego między wynikami pierwszego i drugiego testowania jest miarą rzetelności testu.
Podobnie jak poprzednio, technika ta ma dwie odmiany. Możemy bowiem zastosować dwa testy równoległe bez przerwy czasowej, i w efekcie otrzymamy tzw. współczynnik równoważności między te s to w ej. Ten współczynnik mówi nam przede wszystkim o tym, w jakim stopniu wariancja błędu zależy od różnic między obiema wersjami testu (tj. jaki jest wpływ specyficznej treści pozycji testowych na otrzymany wynik w każdej z wersji). Możemy tak przyjąć, bowiem takie czynniki, jak osoba badającego, czynniki sytuacyjne czy czynniki związane z kondycją osób badanych, są tu kontrolowane. Należy jednak pamiętać, że w im mniejszym stopniu obie wersje są faktycznie równoległe (np. nie powstają poprzez losowanie pozycji, testowych z uniwersum pozycji, a przez dopasowywanie pozycji do pozycji lub też druga pozycja powstaje przez zmianę frazeologii pierwszej), tym bardziej zawyżamy sztuczne podobieństwo między wersjami. Współczynnik rzetelności takich form będzie oczywiście również zawyżony (por. Standardy..., 1985a, s. 63).
Druga odmiana tej techniki polega na zastosowaniu obu wersji alternatywnych z uwzględnieniem przerwy czasowej między kolejnymi badaniami. Otrzymany w tej sytuacji współczynnik rzetelności to tzw. współczynnik stabilności względnej. Łączy on w sobie dwa rodzaje informacji o rzetelności testu: jest miarą stabilności wyników testowych oraz wpływu treści na wyniki testowe. W wypadku tego współczynnika należy
5 Dokładnie rzecz biorąc, w psychometrii odróżnia się pojęcie „testów alternatywnych" (ang. alternate tests) i „testów równoległych" (ang. parallel tests). Testy alternatywne to dwie wersje tego samego testu konstruowane tak, by spełnione zostało założenie o ich równoległości. Technicznie najczęściej próbuje się o to osiągnąć, biorąc pod uwagę poziom trudności poszczególnych zadań testowych oraz ich treść. Testy równoległe z kolei to testy, w których obie ich wersje są czysto losowymi próbkami pytań i które idealnie spełniają wszystkie cztery - wspomniane wyżej - warunki równoległości.
51
Rozdział 2
wziąć pod uwagę wszystko to, co mówiliśmy zarówno o wpływie przerwy czasowej na uzyskiwane wyniki, jak i o spełnieniu warunku równoległości (por. też Anastasi, Urbina, 1999, s. 133-135).
Rzetelność szacowania na podstawie wyników jednokrotnego badania danym testem
Technika wersji alternatywnych, choć eliminująca większość problemów związanych z dwukrotnym badaniem tym samym testem, ma jednak swoje słabe strony. Stosowana z przerwą czasową między badaniami obliguje nas do uwzględnienia takich czynników jak wpływ czasu na otrzymane wyniki, a bez przerwy czasowej - do uwzględnienia takich czynników jak wpływ ćwiczenia. Ponadto, w wielu przypadkach konstruowanie dwóch alternatywnych wersji testu tylko w celu badania rzetelności jest - z ekonomicznego punktu widzenia - mało opłacalne6. W tej sytuacji zainteresowanie psycho-metrów zostało skierowane na opracowanie technik szacowania rzetelności, które wymagałyby tylko jednokrotnego badania określonym testem.
Metoda połówkowa (ang. split-half method). Pierwsze wypracowane rozwiązanie polega na znalezieniu form równoległych danego testu w obrębie jednego testu. Rolę form równoległych mogą spełniać poszczególne części tego testu, a przede wszystkim jego połowy.
Podział testu na dwie części (połowy) powinien zostać tak przeprowadzony, aby obie były równoległe względem siebie. Można wskazać wiele możliwych sposobów podziału, jednak większość z nich nie jest zalecana wtedy, kiedy chcemy badać rzetelność testu. Przyjęcie za punkt podziału np. środkowej pozycji w teście nie jest dobrym rozwiązaniem, bowiem takie czynniki jak różnice w charakterze poszczególnych pozycji, ich trudność czy wreszcie wpływ innych czynników, takich jak zmęczenie czy utrata motywacji osób badanych w trakcie wykonywania testu, działają w różny sposób na początku i pod koniec testu.
Generalnie zaleca się trzy sposoby dzielenia testu na połowy. Pierwszy z nich polega na losowym przyporządkowaniu pozycji testowych do jednej bądź drugiej połowy testu, drugi - na podziale testu na pozycje nieparzyste i parzyste, trzeci wreszcie - na podziale z uwzględnieniem treści pozycji testowych i ich trudności (por. Cohen, Swerdlik, 1999, s. 153). Metodą stosowaną stosunkowo najczęściej i dającą dobre efekty (w sensie spełnienia warunku równoległości) jest podział testu na pozycje nieparzyste (ang. odd) i parzyste (ang. even).
Aby określić współczynnik rzetelności, musimy obliczyć wielkość współczynnika korelacji między wynikami otrzymanymi w pierwszej i w drugiej połowie testu. Choynowski (1971, s. 98) nazywa ten rodzaj współczynnika rzetelności   współczynnikiem   równoważności    między-
6 Są oczywiście takie sytuacje, w których posiadanie dwóch wersji alternatywnych ma duże znaczenie praktyczne (np. w badaniach podłużnych), jednak zdecydowanie częściej - dla 52       celów praktycznych - wystarcza jedna wersja testu.

Klasyczna teoria testów jako podstawa wnioskowania o rzetelności testu
połówkowej. Źródłem błędu w wypadku tej metody są przede wszystkim
różnice między połówkami, wynikające głównie - ze specyficznego dla
każdej połowy - doboru treści. Współczynnik ten może być jednak traktowany jedynie jako oszacowanie
rzetelności połowy testu, otrzymany bowiem został dla dwóch wersji testu o połowę krótszych od testu oryginalnego. Dlatego aby obliczyć rzetelność całego testu na podstawie znajomości rzetelności jego połowy trzeba dokonać odpowiedniego oszacowania. Możemy to zrobić za pomocą, licznych wzorów (por. zwłaszcza Guilford, 1954), jednak najczęściej stosuje się tzw. wzór Spearmana-Browna:
2r
pp
1.1 r - ,
i *r r,
pp


gdzie: r„ oznacza współczynnik rzetelności całego testu, a rpp współczynnik rzetelności jego połowy (por. ibidem).
Koniecznym warunkiem zastosowania tej metody jest udzielenie odpowiedzi na wszystkie pozycje testu przez wszystkie osoby badane. Tym samym jest to metoda nadająca się wyłącznie do testów mocy.
Badanie zgodności wewnętrznej. Inną odmianą metody szacowania rzetelności, w której korzystamy tylko z jednokrotnego badania danym testem, jest metoda badania zgodności wewnętrznej. W wypadku tej metody wychodzimy z następującego założenia: ponieważ istnieje wiele różnych sposobów podziału testu na połowy, to dla tego samego testu możemy otrzymać wiele różnych współczynników rzetelności. Stąd byłoby rzeczą interesującą dowiedzieć się, jaki jest średni współczynnik rzetelności testu, uwzględniając wszystkie możliwe jego przepołowienia. Rozwiązanie tego problemu nastąpiło w latach 30. za sprawą dwóch psychometrów: G.F. Kudera i M.W. Richardsona.
Przyjęli oni, że maksymalna liczba części, na jakie można podzielić dany test, jest równa liczbie jego pozycji testowych. Analizując właściwości statystyczne poszczególnych pozycji testowych i poszukując współczynnika ich zgodności, możemy uzyskać informacje o rzetelności całego testu (por. Kuder i Richardson, 1937). Współczynnik ten nazywany jest też współczynnikiem zgodności we wnętrznej. Im wyższa jest wartość tego współczynnika, tym bardziej jednorodne są pozycje testowe.
Z opracowanych przez Kudera-Richardsona wzorów7 najczęściej stosowane są dwa: tzw. wzór KR20 oraz KR2i. Pierwszy z nich dotyczy sytuacji, w której bierzemy pod uwagę średnią wariancję wszystkich pozycji testowych, drugi zaś sytuacji, w której bierzemy pod uwagę średnią trudność pozycji testowych. Pierwszy wzór (KR20) ma następującą postać:
7 Wszystkie opracowane przez nich wzory są oznaczane literami KR (od ich nazwisk) i określane kolejnym numerem, np. KR2o- Łącznie obaj autorzy opracowali 21 wzorów.               53
Rozdział 2
po,-                                A/?20 =
k-l

gdzie: A: oznacza liczbę pozycji testowych, /?, - proporcję odpowiedzi diagnostycznych (poprawnych) na daną pozycję testową, ą, - proporcję odpowiedzi niediagnostycznych (niepoprawnych), zaś o* jest wariancją ogól-
k
nych wyników w teście. Wyrażenie X PĄi oznacza sumę wariancji odpowiedzi na poszczególne pozycje testowe.
Drugi wzór (KR2i) jest najczęściej przedstawiany w postaci (por. Guilford, 1988b):
KR2l=
k-\


gdzie:
 k oznacza liczbę pozycji testowych, p - X pUn oznacza średnią
1=1
trudność danej pozycji testowej, a 0% - podobnie jak poprzednio - jest wariancją ogólnych wyników w teście.
Generalnie rzecz biorąc, zaleca się stosowanie wzoru KR2o- Wzór KR2i wymaga bowiem założenia, że pozycje testowe mają jednakową trudność. Ponieważ zazwyczaj tak nie jest, stąd ten sposób szacowania zgodności wewnętrznej testu, w większości sytuacji, nie jest poprawny.
Cronbach (1951) udowodnił, że współczynnik rzetelności Kudera-Richard-sona jest rzeczywiście średnią ze wszystkich współczynników równoważności międzypołówkowej, obliczonych dla różnych podziałów testów. Ponieważ współczynnik rzetelności połówkowej jest obliczany dla połówek - z założenia - równoważnych, dlatego też im mniej jednorodne będą pozycje testu, tym wyższa też będzie wartość współczynnika rzetelności połówkowej w porównaniu z wartością współczynników Kudera-Richardsona (por. też Anastasi, Urbina, 1999, s. 139). Dlatego też różnicę między wartościami tych dwóch współczynników można wykorzystać jako wskaźnik stopnia heterogeniczności metody.
Współczynniki rzetelności Kudera-Richardsona nadają się do obliczania rzetelności testów złożonych jedynie z tzw. pozycji dwukategorialnych, tj. takich, dla których istnieją tylko dwa rodzaje odpowiedzi: odpowiedzi diagnostyczne (poprawne) i odpowiedzi niediagnostyczne (niepoprawne). Aby przezwyciężyć to ograniczenie, Cronbach (1951) zaproponował rozszerzenie wzoru KR20 na pozycje wielokategorialne. Wzór ten, uznawany dziś za najlepszy sposób szacowania rzetelności, znany jest jako alfa Cronbacha:
cc=-
54
k-l
Ser;


Klasyczna teoria testów jako podstawa wnioskowania o rzetelności testu
We wzorze tym, jak poprzednio, k oznacza liczbę pozycji testowych, a wy-
k
rażenie Xaf oznacza sumę wariancji dla poszczególnych pozycji testowych.
Pamiętać jednak należy, że i ta metoda - podobnie jak każda z metod szacowania rzetelności - nie jest metodą uniwersalną i wolną od ograniczeń. Daje ona dobre oszacowania rzetelności testu w sytuacji, gdy ma on strukturę jednoczynnikową (jest metodą homogeniczną), a poszczególne pozycje testowe są względem siebie równoległe (por. Guilford, 1988b, s. 64-67).
Rzetelność jako zgodność ocen

Na zakończenie przeglądu różnych metod i technik szacowania rzetelności warto jeszcze wspomnieć o rzetelności rozumianej jako zgodność ocen sędziów. W tym wypadku źródłem błędu, które nas interesuje, jest osoba badająca testem, a dokładnie rzecz biorąc - jej sposób oceny odpowiedzi. W wypadku niektórych testów ten rodzaj rzetelności ma duże znaczenie.
Sama metoda jest prosta. Wystarczy te same arkusze testowe przedstawić dwóm osobom oceniającym i następnie obliczyć wielkość współczynnika korelacji między ocenami dokonanymi przez pierwszą i druga osobę (sędziego). Im wyższy współczynnik korelacji, tym oczywiście wyższa zgodność między sędziami.
We wszystkich tych wypadkach, w których ocena nie odbywa się przez przyłożenie klucza do arkusza odpowiedzi, warto zadać sobie trud oszacowania rzetelności rozumianej jako zgodność ocen. Jeżeli rzetelność ta okazałaby się niska, to poszukanie przyczyn takiego stanu rzeczy zdecydowanie przyczyni się do lepszego oszacowania wyniku prawdziwego osoby badanej. Być może wystarczy bardziej precyzyjnie sformułować kryteria oceny czy wprowadzić szkolenia, podczas których przyszli użytkownicy testów ćwiczyliby swoje umiejętności w ocenianiu odpowiedzi.
Porównanie poszczególnych współczynników rzetelności
Każdy współczynnik rzetelności (por. rys. 2.2) jest miarą innego źródła wariancji błędu. Współczynnik stabilności bezwzględnej i względnej mówi nam przede wszystkim o stabilności cechy w czasie; współczynnik równoważności międzytestowej i międzypołówkowej o niezależności wyników testowych od specyficznej treści, z jakiej zbudowane są pozycje testowe, a współczynniki zgodności wewnętrznej - o stopniu homogeniczności metody (por. tab. 2.1).
Każdy z tych współczynników daje też różne oszacowania rzetelności testu. I tak, współczynnik stabilności względnej jest najbardziej rygorystyczną metodą ze wszystkich i -jak twierdzi Choynowski, 1971, s. 97) - „prowadzi do estymacji dolnej granicy rzetelności, dając niższe współczynniki niż inne metody", a współczynnik równoważności międzypołówkowej „daje przecenianie rzetelności, a nawet jej górną granicę, gdyż nie bierze pod uwagę źródeł błędu, zależnych od zmienności w czasie" {ibidem, s. 99).
55


Rys. 2.2. Metody badania rzetelności

wskaźnik rzetelności
WYNIK PRAWDZIWY
WYNIK OBSERWOWANY
założenie o równoległości pomiarów
współczynnik rzetelności
badanie formami alternatywnymi tego samego testu
dwukrotne badanie tym samym testem
jednokrotne badanie danym testem
współczynnik równoważności międzypołówkowej
współczynnik stabilności względnej
współczynnik stabilności bezwzględnej
współczynnik zgodności wewnętrznej
współczynnik równoważności międzytestowej
współczynnik wiarygodności

s
N B





Klasyczna teoria testów jako podstawa wnioskowania o rzetelności testu
Tab. 2.1. Podstawowe źródła błędu w różnych metodach szacowania rzetelności (opracowano na podstawie: Anastasi, Urbina, 1999, s. 142-143; Brzeziński, 1996, s. 466-476; Guilford, 1988, s. 51-72)
MetodaŹródło błędówPowtarzanie testu badanie jedno po drugimCzynniki losowe, związane z osobą badaną, ujawniające się w krótkim okresie czasuPowtarzanie testu przerwa czasowa między pierwszym a drugim badaniemZmienność w czasieWersje alternatywne badanie jedno po drugimDobór treściWersje alternatywne przerwa czasowa między pierwszym a drugim badaniemDobór treści oraz zmienność w czasieMetoda połówkowaDobór treściWspółczynniki Kudera-Richard-sona i a CronbachaDobór treści (heterogeniczność pozycji testowych)Zgodność ocen sędziówRóżnice między sędziamiJak piszą Autorzy Standardów... (1985a, s. 59), „współczynnik rzetelności jest pojęciem ogólnym. Do jego obliczenia można wykorzystywać różnorodne zbiory danych, co z kolei prowadzi do różnych interpretacji. Należy zatem pamiętać o dokładnym przedstawianiu każdej metody zastosowanej przy szacowaniu rzetelności". Nie ma zatem takiego pojęcia jak „rzetelność testu w ogóle". Wybór odpowiedniej metody szacowania rzetelności, a co za tym idzie, wybór konkretnego współczynnika rzetelności powinien być podyktowany rodzajem testu (metoda homogeniczna czy heterogeniczna) i sposobem myślenia o rzetelności pomiaru (stabilność w czasie czy wiarygodność testu). Nie wystarczy zatem powiedzieć, że dany test ma rzetelność o określonej wielkości - musimy dokładnie wiedzieć, o jaki rodzaj rzetelności chodzi (por. też Magnusson, 1981, s. 176).
Rzetelność testów szybkości
Specjalne zagadnienia szacowania rzetelności testów wiążą się ze szczególnym rodzajem metod, jakimi są testy szybkości. Przypomnijmy (por. rozdz. 1), że cechą charakterystyczną testów szybkości jest - przez skracanie czasu odpowiadania - ograniczanie możliwości rozwiązania całego testu przez osoby badane. W takim teście każda z badanych osób rozwiązuje różną liczbę pozycji testowych.
W wypadku testów szybkości tym czynnikiem, który przede wszystkim wpływa na wynik testowy, jest szybkość wykonywania zadań. Dlatego też techniki szacowania rzetelności powinny być oparte na badaniu zgodności szybkości pracy (por. Anastasi, Urbina, 1999, s. 145). Ta charakterystyka testów szybkości określa jednocześnie, jakie techniki badania rzetelności będą w tej sytuacji dopuszczalne. Na pewno właściwe będzie
57
Rozdział 2
58
posłużenie się zarówno metodą powtórnego testowania, jak i metodą wersji alternatywnych (powinniśmy bowiem zrealizować dwa badania, aby móc porównać szybkość wykonania testu i za pierwszym, i za drugim razem). Natomiast techniki, w których wykorzystuje się jednokrotne zastosowanie testu, nie nadają się do interesującego nas celu.
Przeanalizujmy, z jakim efektem mielibyśmy do czynienia, gdyby mimo wszystko obliczyć - w omawianej przez nas sytuacji - współczynnik Kudera--Richardsona lub współczynnik zgodności między dwiema połówkami testu. Okazuje się, że otrzymalibyśmy współczynnik zawyżony. Dlaczego tak się dzieje? Przypuśćmy, że nasz hipotetyczny test szybkości składa się ze 100 zadań i że jest to doskonały test szybkości w tym sensie, iż poziom jego wykonania zależy wyłącznie od szybkości pracy, a nie od liczby popełnionych błędów. Przypuśćmy też, że chcemy zastosować metodę połówkowania jako metodę badania rzetelności naszego testu. Co możemy zauważyć? Jeżeli ktoś w naszym teście zdążył rozwiązać tylko dwa zadania (to jedno z nich było parzyste, a drugie nieparzyste), jeżeli natomiast ktoś inny rozwiązał 50 zadań (to 25 z nich było zadaniami parzystymi, a 25 - zadaniami nieparzystymi). Możemy zatem przyjąć, że w teście szybkości każda osoba rozwiąże tyle samo zadań parzystych i nieparzystych, bez względu na to, z iloma zadaniami w ogóle uda jej się zmierzyć. Co z tego wynika? Gdybyśmy dla naszego testu policzyli współczynnik równoważności międzypołówkowej (korelację między wynikami w części parzystej i nieparzystej), to - jak widać z powyższego przykładu - korelacja ta wynosiłaby +1,00! (dla każdej osoby liczba rozwiązanych pozycji parzystych byłaby taka sama jak liczba rozwiązanych pozycji nieparzystych - por. ibidem).
Z podobnym efektem spotkamy się również wtedy, kiedy zastosujemy współczynnik KR20- Przypomnijmy, że współczynnik ten składa się z dwóch wielkości: p (proporcji odpowiedzi poprawnych) i q (proporcji odpowiedzi niepoprawnych). Na początku testu, kiedy większość osób badanych odpowiada na kolejne pozycje testowe, proporcja p będzie wynosić 1 (wszyscy odpowiedzieli poprawnie), a proporcja q będzie równa 0 (nikt nie popełnił błędu). Natomiast wraz z upływem czasu coraz więcej osób nie będzie w ogóle odpowiadać na kolejne zadania (bowiem skończył się przeznaczony na to limit czasu). W efekcie pod koniec badania nastąpi odwrócenie proporcji: nikt nie będzie odpowiadał poprawnie (ściślej: będziemy mieli do czynienia z brakiem odpowiedzi, tak więc p = 0, a q = 1). W większości wypadków zatem (jeżeli nie we wszystkich) wyrażenie pq występujące we wzorze KR2o będzie wynosić zero. W takim wypadku, oczywiście, także suma (Lpq) występująca w liczniku tego wzoru będzie wynosić 0. Tym samym wartość współczynnika KR2o będzie równa 1, a to jest oczywisty artefakt!
Jakie zatem techniki można w omawianej sytuacji zastosować? Powtórzmy raz jeszcze - możemy stosować zarówno technikę powtórnego testowania, jak i wersji alternatywnych. Możemy także zastosować technikę połówkowania, ale
Klasyczna teoria testów jako podstawa wnioskowania o rzetelności testu
dokonując pewnej jej modyfikacji. Dokładnie rzecz biorąc, modyfikacja ta polega na wcześniejszym podziale testu na połowy i potraktowaniu każdej połowy jako oddzielnego testu. Osoby badane powinny rozwiązać każdą z połówek w czasie również o połowę krótszym. W tym wypadku zatem podział dotyczy zarówno testu, jak i czasu rozwiązywania8. Podobnie jak w wypadku oryginalnej metody, współczynnik korelacji między wynikami otrzymanymi w pierwszej i drugiej części testu jest współczynnikiem rzetelności połowy testu. Aby oszacować rzetelność całego testu, należy zatem zastosować formułę Spearmana-Browna.
Rzetelność testów zorientowanych na kryterium (standard wykonania)
Tradycyjne pojęcie rzetelności odnosi się do testów zorientowanych na normy (por. rozróżnienie tych dwóch rodzajów testów w rozdz. 1). Istota tych testów polega na możliwości dokonywania różnicowania badanych osób ze względu na poziom mierzonej cechy. Miarą tego poziomu jest wynik ogólny otrzymany w teście.
W wypadku testów zorientowanych na kryterium celem badania jest podział badanych osób na dwie grupy: osoby, które osiągnęły wymagane kryterium, oraz osoby, które tego kryterium nie spełniają. Dlatego też tradycyjne metody szacowania rzetelności są w tym wypadku nieadekwatne. Aby zrozumieć, dlaczego tak się dzieje, przypomnijmy, że rzetelność jest definiowania jako stosunek wariancji wyników prawdziwych do wariancji wyników otrzymanych. Tym samym rzetelność testu zależy od wariancji wyników testowych, a więc od ich zróżnicowania (o tej zależności będziemy mówić szerzej w dalszej części tego rozdziału). Z im mniejszym zróżnicowaniem wyników testowych będziemy mieli do czynienia, tym mniejsza będzie również rzetelność naszego testu. W wypadku testów zorientowanych na kryterium różnice między badanymi osobami mają marginalne znaczenie - ważne jest tylko to, czy osoby te spełniają założone kryterium.
W literaturze przedmiotu można znaleźć wiele różnych technik szacowania rzetelności właściwych dla testów zorientowanych na kryterium (por. np. Berk, 1984). Jedną z ciekawszych (i łatwych) metod jest - zaproponowana przez Lindemana i Merendę (1979, s. 129-134), a opracowana w przedstawionej postaci przez Aikena (1982, s. 79) - technika oparta na współczynniku kappa:
K=
bn-fs
bn+l(b+n+l)
gdzie: b (z ang. both) oznacza liczbę osób, które osiągnęły wyznaczone kryterium w obu badaniach danym testem; / (z ang. first) oznacza liczbę osób, które spełniły kryterium tylko w pierwszym badaniu tym testem; 5 (z ang. second) oznacza liczbę osób które spełniły kryterium tylko w drugim
8 Metoda ta jest równoznaczna z badaniem dwoma wersjami alternatywnymi, bez przerwy pomiędzy badaniami.
59
Rozdział 2
badaniu tym testem; n (z ang. neither) oznacza liczbę osób, które w ogóle nie osiągnęły wyznaczonego kryterium; z kolei / (z ang. lesser) oznacza mniejszą z dwóch wartości s lub /.
Aby zilustrować funkcjonowanie tego współczynnika, przeanalizujmy następujący przykład. Przypuśćmy, że interesujący nas test mierzący standard wykonania został dwukrotnie rozwiązany przez 100 osób. Uzyskaliśmy następujące wyniki: 6 = 85,/= 20, s= 10, n = 5, /= 10 (bo s jest mniejsze od f). Podstawiając te wartości do wzoru, otrzymamy:
•«/«    on/im        oo«

K=
85(5)-20(10)         225
85(5)+10(85+5+10)   1425
= 0,16

Otrzymany w tym przypadku współczynnik rzetelności jest bardzo niski i nasz test nie powinien być dalej wykorzystywany.
Czynniki wpływające na wielkość współczynnika rzetelności
Na wielkość współczynnika wpływa w sposób istotny wiele czynników. Dwa spośród nich mają szczególne znaczenie. Omówimy je po kolei.
Długość testu. Rzetelność testu jest funkcją liczby zadań, z jakich składa się test. Każdy test o określonej długości prowadzi również do określonej wielkości błędu pomiaru. Zwiększanie długości testu (przez dołączanie do niego nowych, równoważnych pozycji) prowadzi w bezpośredni sposób do zmniejszenia wielkości błędu pomiaru, a zwiększenia wariancji wyników prawdziwych (por. rys. 2.3).
W jakim stopniu zatem zwiększanie długości testu wpływa na zwiększenie jego rzetelności? Rozwiązanie tego problemu jest znane jako tzw. proroczy wzór Spearmana-Browna, który pozwala na obliczenie tzw. współczynnika krotności testu, tj. liczby mówiącej nam, ile razy powinniśmy wydłużyć nasz test, aby osiągnąć rzetelność o pożądanej wielkości (por. Magnusson, 1981, s. 105-113). Wzór ten ma następującą postać9:
rnni}-r„)

n =
r„(\-rnn)
gdzie: rnn oznacza pożądaną rzetelność (rzetelność nowego testu po wydłużeniu), a r„ - rzetelność testu wyjściowego. Np. jeżeli skonstruowany
9 Proroczy wzór Spearmana-Browna jest przekształceniem wzoru już w tej pracy wprowadzonego. Mianowicie, wzór Spearmana-Browna, pozwalający obliczyć rzetelność całego testu na podstawie znajomości jego połowy, jest konkretnym przypadkiem ogólniejszego wzoru, mówiącego o rzetelności testu składającego się z n części:
r„ = -

gdzie: rM oznacza rzetelność pojedynczej części testu, a n jest liczbą części testu. Przekształcając ten wzór w taki sposób, aby wielkość n znalazła się przed znakiem równości, otrzymamy 60       proroczy wzór Spearmana-Browna.
Klasyczna teoria testów jako podstawa wnioskowania o rzetelności testu
Rys. 2.3. Rzetelność testu jako funkcja jego długości (na podstawie Magnusson, 1981, s. 105)

1.0 0.9 0,8 0,7 0.6 0.5 0,4 0,3 0.2 0.1
Se________   -—Sl               _____—---------'--------------------^—-                  ___.___-—--------------------/___/?sl..........................:.......: - St3               4               5               6
liczba pozycji testowych
9                10
przez nas dziesięciozadaniowy test osiąga rzetelność jedynie 0,60, a zadowala nas rzetelność równa przynajmniej 0,85, to powinniśmy wydłużyć nasz test prawie czterokrotnie (do czterdziestu pozycji):
0,85(1-0,60)   _o/
 = 38(raZa)
Jak widać, wydłużanie testu jest metodą skuteczną, wymaga jednak spełnienia jednego podstawowego warunku. Pozycje testowe, które dołączamy do testu wyjściowego, powinny spełniać warunek równoległości w takim sensie, w jakim mówiliśmy o tym w wypadku testów. Co więcej, gdy test wyjściowy jest stosunkowo długi, dalsze jego wydłużanie zwiększy jego rzetelność tylko w nieznacznym stopniu. Technika wydłużania jest skutecznym sposobem zwiększenia rzetelności w wypadku testów krótkich (co wydaje się także intuicyjnie zrozumiałe - im więcej bowiem posiadamy informacji o osobie badanej, tym bardziej precyzyjne będą nasze wnioski).
Przed podjęciem decyzji o mechanicznym wydłużeniu testu warto się jednak zastanowić, czy nasz wysiłek da oczekiwane rezultaty. Zabieg ten ma sens wtedy, kiedy nowe pozycje są tak „dobre" jak pozycje w teście wyjściowym. Może zatem lepiej jest popracować nad krótszą wersją testu
61
Rozdział 2 jaTasfl o wnAWOHeomw AWATeooH oha^ wóTear aibost ahsoyha.1
i poprawić składające się na nią pozycje niż za wszelką cenę wymyślać nowe zadania. Krótki test składający się z „dobrych" pozycji testowych jest na pewno lepszy niż długi test zawierający pozycje o słabych właściwościach 10. W literaturze przedmiotu można znaleźć opisy takich krótkich testów posiadających zadowalające parametry psychometryczne, np. Marketing Norms Scalę (6 pozycji, r„ = 0,82 - por. Vitell, Rallapalli i Singhapakdi, 1993), Opinion Leadership (7 pozycji, r„ = 0,82 - por. Davis i Rubin, 1983) czy Motivation To Work (8 pozycji, r„ = 0,74 - por. Hart, Moncrief, Parasu-raman, 1989).                                                f\
Zawężenie zakresu mierzonej cechy. Drugim ważnym czynnikiem wpływającym na wielkość współczynnika rzetelności jest zakres (zmienność) mierzonej cechy w badanej próbie osób. Wielkość współczynnika rzetelności zależy bowiem od wielkości wariancji wyników prawdziwych w badanej próbie. Im większa wariancja wyników prawdziwych, tym większa oczywiście rzetelność naszego testu (por. definicja rzetelności). Fakt ten można łatwo zrozumieć, odwołując się do właściwości współczynnika korelacji, który przecież jest miarą rzetelności. Wyobraźmy sobie, że chcemy obliczyć korelację między dwiema cechami: powiedzmy, zdolnościami matematycznymi a zdolnościami muzycznymi. Tak się złożyło, że w badanej przez nas grupie osób znalazły się wyłącznie osoby o bardzo wysokich, jednakowych zdolnościach matematycznych (mamy więc do czynienia z małą wariancją tej cechy). W takiej sytuacji obliczony przez nas współczynnik korelacji między tymi cechami będzie miał wartość zerową! Im bardziej homogeniczna - pod względem mierzonej cechy -jest badana przez nas grupa, tym mniejszy będzie otrzymany współczynnik rzetelności testu.
Magnusson (1981, s. 116) podaje wzór pozwalający obliczyć, jak zmieni się rzetelność testu, gdy zmieni się wariancja (zmienność) wyników testowych w badanej próbie osób:
gdzie: S\ oznacza wariancję ogólnych wyników testowych w próbie oryginalnej; Sp oznacza wariancję ogólnych wyników testowych w nowej próbie; r„ jest rzetelnością oryginalnego testu, a rpp - rzetelnością testu dla nowej próby. I tak np. jeżeli rzetelność naszego testu wynosi 0,85, wariancja ogólnych wyników testowania w oryginalnej próbie wynosi 70, a w nowej próbie, dla której chcemy zastosować nasz test, spada aż do 30, to rzetelność testu dla nowej próby również spadnie, i to aż do poziomu 0,65:

rpp~~
70(1-0,85) ~30
= 0,65
10 Pojęcie „dobrych" i złych" pozycji testowych omawiamy w rozdz. 5, poświęconym 62       zasadom konstrukcji testu.
Klasyczna teoria testów jako podstawa wnioskowania o rzetelności testu
Z przytoczonego wyżej przykładu jasno wynika, że wartość współczynnika rzetelności jest pochodną zakresu mierzonej cechy w badanej grupie osób. Dlatego też w każdym podręczniku testowym powinny się znaleźć informacje o tym, kto był badany przy obliczaniu parametrów testu i jaki był zakres (wariancja) mierzonej cechy w badanej grupie osób. Warunek ten powinien mieć zarówno dla autora testu, jak i dla wszystkich osób korzystających z testu charakter imperatywny! Bezmyślne - tj. bez sprawdzenia rzetelności metody w nowych warunkach - stosowanie tego samego testu dla innych grup badanych niż grupa wyjściowa (np. przez agencje doradztwa personalnego dla grupy osób starających się o określone stanowisko, a więc - niejako na mocy definicji -bardziej do siebie podobnych) może przynieść opłakane skutki społeczne11.
2.5. OCENA RZETELNOŚCI INDYWIDUALNEGO WYNIKU
Współczynnik rzetelności testu jest parametrem opisującym stopień precyzji wyników otrzymywanych za pomocą określonego testu. Znajomość wartości tego współczynnika pomaga nam wybrać przydatną do naszych celów metodę. W sytuacji wykorzystywania testu dla r°lów indywidualnej diagnozy znacznie bardziej interesuje nas jednak możliwość oceny wyniku prawdziwego konkretnej osoby badanej. Czy współczynnik rzetelności testu może się tu okazać użyteczny?
Standardowy błąd pomiaru
Przypomnijmy, rzetelność zdefiniowaliśmy jako stosunek wariancji wyników prawdziwych do wariancji wyników otrzymanych. Przekształćmy zatem to wyrażenie w taki sposób, aby można było na jego podstawie obliczyć błąd pomiaru (skorzystamy tu z równania klasycznej teorii testów, a mianowicie: X = T-E, czyli T=X-E):
Przekształcając dalej to wyrażenie w taki sposób, aby błąd pomiaru, czyli wyrażenie S|, znalazło się przed znakiem równości, otrzymamy:
>  Standardowy błąd pomiaru jest to odchylenie standardowe różnic X-T. Jest to błąd, który popełniamy wtedy, kiedy przyjmujemy, że wynikiem prawdziwym danej osoby jest średni wynik, jaki uzyskałaby ona w nieskończenie wielu pomiarach tym samym testem. Błąd ten wynosi: SEM=SxVi-rrt.
>  Standardowy błąd estymacji jest to odchylenie standardowe rozkładu różnic między T* i T, a więc między estymowaną wartością wyniku prawdziwego i jego wartością rzeczywistą. Błąd ten wynosi: SEE=yrtt SEM.
>  Standardowy błąd różnicy jest to odchylenie standardowe wszystkich możliwych różnic między dwoma wynikami. Błąd ten wynosi: SEMX-Y=ySEM$+SEI\Ą.
" Rozdz. 6 tej pracy został w całości poświęcony społecznym skutkom testowania.
63
Rozdział 2

gdzie: SEM oznacza standardowy błąd pomiaru (ang. standard error of measurement), Sx to odchylenie standardowe ogólnych wyników w teście, a r„ to rzetelność testu.
Standardowy błąd pomiaru ma rozkład normalny i jest definiowany jako odchylenie standardowe różnic X-T. Mówiąc jeszcze inaczej, jest on definiowany jako odchylenie standardowe rozkładu błędów, które popełniamy wtedy, kiedy przyjmujemy, że wynikiem prawdziwym danej osoby jest średni wynik, jaki uzyskałaby ona w nieskończenie wielu pomiarach tym samym testem (por. Magnusson, 1981, s. 120).
Tak definiowany błąd pomiaru jest wykorzystywany do oceny precyzji naszych wniosków o wyniku prawdziwym osoby badanej. Technicznie rzecz biorąc, wnioskowanie to polega na budowaniu - dla wyniku otrzymanego w teście - tzw. przedziału ufności. Przedział ufności dla wyniku otrzymanego pozwoli nam na określenie granic, w których - z określonym prawdopodobieństwem - znajduje się wynik prawdziwy osoby badanej. Im większy będzie zbudowany przez nas przedział (np. 95% lub 99%), tym będziemy mieć większą pewność, że wynik prawdziwy badanej osoby mieści się właśnie w tym przedziale.
Przedział ufności dla wyniku otrzymanego. Jak zatem obliczamy przedział ufności dla wyniku otrzymanego? Podstawowa metoda budowania przedziału ufności polega na odjęciu pewnej stałej wartości od wyniku otrzymanego (otrzymamy wtedy dolną granicę przedziału) oraz dodaniu jej do wyniku otrzymanego (otrzymamy wtedy górną granicę przedziału). Ta stała wartość jest równa wyrażeniu {Zan) (SEM). Jak zatem widzimy, jest to iloczyn wartości wyniku standaryzowanego z (odczytanego dla poziomu istotności a/212) oraz standardowego błędu pomiaru. Przedział ufności ma zatem następującą postać:


\X+ZanSEM)
Wynik standardowy z relatywizuje przedział ufności do rozkładu normalnego i określa, z jaką pewnością będziemy budować nasz przedział.
Aby zilustrować sposób określania przedziału ufności, przeanalizujmy następujący przykład. Przebadaliśmy testem WAIS-R(PL) osobę w wieku 23 lat. Otrzymała ona wynik równy 93 pkt. IQ w Skali Pełnej. Rzetelność testu dla tego poziomu wieku wynosi 0,902 (dane z podręcznika testowego - por. Brzeziński i in., 1996, s. 39^10), a wartość zai dla oc = 0,10 wynosi 1,64. Wiedząc, że w tym teście Sx= 15 (ibidem), obliczamy wartość standardowego błędu pomiaru: SEM= 15-^1-0,902 = 4,680. Dysponując wszystkimi danymi, możemy teraz zbudować 90% przedział ufności dla wyniku otrzymanego tej osoby:
12 Wartość z odczytujemy dla poziomu istotności a/2 dlatego, że przedział ufności jest 64       przedziałem dwustronnym, a wiec cały poziom istotności a rozkłada się na dwie części.
Klasyczna teoria testów jako podstawa wnioskowania o rzetelności testu
(93 - (1,64)(4,680); 93+(l ,64)(4,680)> (85; 101>

Wynik prawdziwy osoby badanej mieści się zatem - z 90% ufnością - w przedziale od 85 do 101 pkt. w skali IQ.
Przedział ufności dla wyniku prawdziwego. Zamiast obliczania przedziału ufności dla wyniku otrzymanego, możemy obliczyć przedział ufności dla estymowanego wyniku prawdziwego osoby badanej. Estymowany wynik prawdziwy możemy oszacować według następującego wzoru:
gdzie: T* oznacza estymowany wynik prawdziwy, X - wynik otrzymany w teście, X - średni wynik otrzymany w populacji, do której należy badana osoba, a r„ - rzetelność zastosowanego testu.
Standardowy błąd estymacji wyniku prawdziwego (SEE - ang. standard error of estimatioń) jest równy:
SEE=^r~„SEM

gdzie SEM to oczywiście standardowy błąd pomiaru (por. Choynowski, 1971, s. 112). SEE - podobnie jak SEM - posiada rozkład normalny i jest definiowany jako odchylenie standardowe rozkładu różnic między T* i T, a więc między estymowaną wartością wyniku prawdziwego i jego wartością rzeczywistą. Przedział ufności budowany dla estymowanego wyniku prawdziwego ma następującą postać:
<r«X+(l -r„)X-ZaaSEE; r„X+(\ -r,,)X + ZanSEE)
Przeanalizujmy ten sam przykład, co w wypadku wykorzystywania SEM do budowania przedziału ufności, aby zobaczyć, jakie różnice dają obie metody. Przypomnijmy zatem, że nasza hipotetyczna osoba badana otrzymała 93 pkt. w Skali WAIS-R(PL). Rzetelność testu dla jej grupy wiekowej wynosi 0,902, średni wynik skali IQ w populacji wynosi 100, a wartość SEM=4,680 (por. wyżej). Standardowy błąd estymacji wyniku prawdziwego (SEE) wynosi zatem (por. Brzeziński i in., 1996, s. 39):
i-------------------
SEE=V0,902(4,680) = 4,445
a- podobnie jak poprzednio - 90% przedział ufności ma następujące granice:
czyli
DOLNA = (0,902)(93)+(1 - 0,902)( 100) - (1,64)(4,445) GÓRNA = (0,902)(93)+(1 - 0,902)( 100) - (1,64)(4,445)
<86; 101)

Wynik prawdziwy osoby badanej mieście się zatem w przedziale między 86 a 101 pkt.
65
Rozdział 2
66
Którą z tych metod należy zatem wybrać? Niektórzy psychometrzy twierdzą (por. Nunnally, 1978), że budowanie przedziału ufności dla estymowa-nego wyniku prawdziwego (a więc przy wykorzystaniu wartości SEE) jest bardziej poprawną metodą postępowania, bowiem estymowane wyniki prawdziwe są lepszym przybliżeniem prawdziwej wartości mierzonej cechy niż wyniki otrzymane w teście. Powszechnie jednakże utrwaliła się praktyka obliczania przedziału ufności budowanego dla wyniku otrzymanego. Jak widać z powyższych przykładów, różnice w wartościach granic otrzymanych przedziałów ufności nie są duże, a różnice w prostocie obliczeń - zdecydowanie tak. Można zatem - mimo zastrzeżeń co do pierwszej z metod - bez wahania ją polecić.
Czym się kierować, podejmując decyzję o szerokości przedziału ufności? To kolejne pytanie, na które musimy odpowiedzieć, zanim przystąpimy do odpowiednich obliczeń. W naszym przykładzie obliczyliśmy 90% przedział ufności, co oznacza, że gdyby ta sama osoba była niezależnie badana 100 razy tym samym testem, to otrzymany przez nią wynik tylko w 10 przypadkach znalazłby się poza wyznaczonym przedziałem ufności. Wydaje się zatem, że im dokładniejszy przedział ufności wybierzemy (np. 95% lub 99%), tym mniejszym błędem będą obarczone nasze decyzje. Oczywiście, jest to prawda, jednak - jak to zwykle bywa - „nie ma róży bez kolców".' W naszym wypadku niski błąd oznacza posługiwanie się szerokim (czyli o odległych od siebie granicach) przedziałem ufności. W takiej sytuacji interpretacja otrzymanego wyniku może okazać się kłopotliwa. Dlaczego?
Wyobraźmy sobie taką sytuację: wynik, jaki otrzymała osoba badana, wynosi 100. Aby przekonać się, na ile ten wynik jest precyzyjny, zbudowaliśmy dwa przedziały ufności: 90% i 99%. W pierwszym wypadku przedział ten wyznaczony jest granicami (95; 105), a w drugim (90; 110). Jednocześnie z podręcznika testowego wiemy, że wyniki mieszczące się w przedziale od 95 do 105 pkt. można traktować jako wyniki przeciętne, wyniki poniżej 95 pkt. to wyniki niskie, a wyniki powyżej 105 pkt. to wyniki wysokie. W pierwszym wypadku obliczony przez nas przedział ufności dokładnie pokrywa zakres wyników przeciętnych i nie mamy żadnych kłopotów z interpretacją wyniku, jaki uzyskała nasza osoba badana. Wiemy, uwzględniając błąd pomiaru, że jest to wynik przeciętny. Natomiast w drugim wypadku mamy prawdziwy kłopot. Obliczone przez nas granice przedziału ufności pokrywają cały zakres interpretacji wyniku testowego: dolna granica przedziału wskazuje na wynik niski, zaś górna na wynik wysoki. Z takim problemem spotkamy się w wypadku prawie każdej interpretacji przedziałowej. Dlatego też podejmując decyzje o szerokości przedziału ufności, musimy pogodzić ze sobą dwa warunki: (1) przedział powinien być na tyle precyzyjny, abyśmy mieli wystarczające zaufanie co do wartości otrzymanego wyniku w teście; (2) przedział ufności powinien być na tyle wąski, aby nie sprawiał nam kłopotów interpretacyjnych. Rozwiązaniem tego dylematu może być

Rozdział 2
Którą z tych metod należy zatem wybrać? Niektórzy psychometrzy twierdzą (por. Nunnally, 1978), że budowanie przedziału ufności dla estymowa-nego wyniku prawdziwego (a więc przy wykorzystaniu wartości SEE) jest bardziej poprawną metodą postępowania, bowiem estymowane wyniki prawdziwe są lepszym przybliżeniem prawdziwej wartości mierzonej cechy niż wyniki otrzymane w teście. Powszechnie jednakże utrwaliła się praktyka obliczania przedziału ufności budowanego dla wyniku otrzymanego. Jak widać z powyższych przykładów, różnice w wartościach granic otrzymanych przedziałów ufności nie są duże, a różnice w prostocie obliczeń - zdecydowanie tak. Można zatem - mimo zastrzeżeń co do pierwszej z metod - bez wahania ją polecić.
Czym się kierować, podejmując decyzję o szerokości przedziału ufności? To kolejne pytanie, na które musimy odpowiedzieć, zanim przystąpimy do odpowiednich obliczeń. W naszym przykładzie obliczyliśmy 90% przedział ufności, co oznacza, że gdyby ta sama osoba była niezależnie badana 100 razy tym samym testem, to otrzymany przez nią wynik tylko w 10 przypadkach znalazłby się poza wyznaczonym przedziałem ufności. Wydaje się zatem, że im dokładniejszy przedział ufności wybierzemy (np. 95% lub 99%), tym mniejszym błędem będą obarczone nasze decyzje. Oczywiście, jest to prawda, jednak - jak to zwykle bywa - „nie ma róży bez kolców". W naszym wypadku niski błąd oznacza posługiwanie się szerokim (czyli o odległych od siebie granicach) przedziałem ufności. W takiej sytuacji interpretacja otrzymanego wyniku może okazać się kłopotliwa. Dlaczego?
Wyobraźmy sobie taką sytuację: wynik, jaki otrzymała osoba badana, wynosi 100. Aby przekonać się, na ile ten wynik jest precyzyjny, zbudowaliśmy dwa przedziały ufności: 90% i 99%. W pierwszym wypadku przedział ten wyznaczony jest granicami (95; 105), a w drugim (90; 110). Jednocześnie z podręcznika testowego wiemy, że wyniki mieszczące się w przedziale od 95 do 105 pkt. można traktować jako wyniki przeciętne, wyniki poniżej 95 pkt. to wyniki niskie, a wyniki powyżej 105 pkt. to wyniki wysokie. W pierwszym wypadku obliczony przez nas przedział ufności dokładnie pokrywa zakres wyników przeciętnych i nie mamy żadnych kłopotów z interpretacją wyniku, jaki uzyskała nasza osoba badana. Wiemy, uwzględniając błąd pomiaru, że jest to wynik przeciętny. Natomiast w drugim wypadku mamy prawdziwy kłopot. Obliczone przez nas granice przedziału ufności pokrywają cały zakres interpretacji wyniku testowego: dolna granica przedziału wskazuje na wynik niski, zaś górna na wynik wysoki. Z takim problemem spotkamy się w wypadku prawie każdej interpretacji przedziałowej. Dlatego też podejmując decyzje o szerokości przedziału ufności, musimy pogodzić ze sobą dwa warunki: (1) przedział powinien być na tyle precyzyjny, abyśmy mieli wystarczające zaufanie co do wartości otrzymanego wyniku w teście; (2) przedział ufności powinien być na tyle wąski, aby nie sprawiał 66      nam kłopotów interpretacyjnych. Rozwiązaniem tego dylematu może być
Klasyczna teoria testów jako podstawa wnioskowania o rzetelności testu
następujące zalecenie (formułowane w większości współczesnych podręczników testowych): dla potrzeb diagnozy indywidualnej wystarczająco precyzyjny jest 90% przedział ufności, zaś w badaniach naukowych precyzja przedziału ufności może zostać zwiększona do 95%. Inne stanowiska (np. Choynowski, 1971, s. 111), zalecające stosowanie jeszcze węższych przedziałów ufności (nawet 68%), wydają się w tym wypadku nadmiernie liberalne.
Podsumowanie. Jak pisze Anna Anastasi (Anastasi, Urbina, 1999, s. 153), ,JSEM (lub inny wskaźnik dokładności pomiaru) stanowi pewne zabezpieczenie przed przywiązywaniem nadmiernej wagi do pojedynczego wyniku liczbowego. Jest to tak ważne zastosowanie SEM, że w publikowanych testach coraz częściej zaleca się podawanie wyniku nie w postaci pojedynczej liczby [podkreślenie moje - E.H.], lecz jako pasma wyników [E.H.], w którym, jak można oczekiwać, będzie się mieścił prawdziwy wynik osoby badanej". Tę radę, jednej z najwybitniejszych osób zajmujących się psychometrią, każdy użytkownik testów powinien potraktować jako nakaz. Wydaje się, że w świetle tego, co mówiliśmy o błędzie, jaki popełniamy, stosując określony test, nie trzeba Czytelnika specjalnie przekonywać o roli i wadze tego zalecenia. Interpretowanie wyniku testowego tylko na podstawie jednej wartości, jaką osoba badana uzyskała w teście, jest wyrazem braku profesjonalnej dbałości o jakość wyprowadzanych wniosków. W każdym współcześnie publikowanym podręczniku zamieszczone są gotowe tabele wartości, jakie należy odjąć i dodać do wyniku otrzymanego w teście, aby otrzymać określony przedział ufności. Budowanie takiego przedziału jest zatem bardzo proste i nie wymaga żadnych dodatkowych działań!
Zakończmy przytoczeniem słów autorów Standardów... (1985a, s. 60): „Współczynniki rzetelności mają ograniczone znaczenie praktyczne dla osób badających testami. Bardziej użyteczny jest dla nich standardowy błąd pomiaru. Z powodu względnej niezależności od zmienności grupy, dla której go obliczono, jest on dla danej populacji wysoce stabilny. Umożliwia również określanie granic przedziału, w którym - z takim, a nie innym prawdopodobieństwem - mieści się wynik prawdziwy danej osoby. Badający mogą też posługiwać się współczynnikami rzetelności, porównując testy między sobą, ale przy interpretowaniu wyników testowych powinni wykorzystywać standardowy błąd pomiaru".
Standardowy błąd różnicy między dwoma wynikami
Kolejnym ważnym elementem postępowania diagnostycznego, w którym również będziemy wykorzystywać informacje o rzetelności testu i jego standardowym błędzie pomiaru, jest dokonywanie porównań między- oraz wewnątrzosobniczych. W sytuacji, gdy interesują nas porównania między badanymi osobami, musimy stwierdzić, czy różnica w ich wynikach testowych jest na tyle rzetelna, że na jej podstawie możemy odpowiedzialnie podjąć decyzję dotyczącą np. wyboru jednego z dwóch kandydatów na     67
Rozdział 2
określone stanowisko. Natomiast w drugim wypadku chcielibyśmy wiedzieć, czy różnica między wynikami, jakie uzyskała ta sama osoba w różnych testach jest na tyle rzetelna, że można jej nadać znaczenie diagnostyczne.
Dokonywanie oceny wielkości różnicy między dwoma wynikami wymaga wyprowadzenia wzoru na obliczanie błędu standardowego różnicy między dwoma pomiarami. Błąd ten (por. Magnusson, 1981, s. 136-137) wynosi:
SEMX_Y =
gdzie: SEMX to standardowy błąd pomiaru dla jednego testu, a SEMY to standardowy błąd pomiaru dla drugiego testu. Innymi słowy, standardowy błąd różnicy między dwoma wynikami to suma kwadratów błędów standardowych pierwszego i drugiego testu, z której wyciągnięto pierwiastek. W zależności od tego, z jaką konkretnie sytuacją mamy do czynienia, wzór ten będzie miał różną postać. I tak:
(1) gdy obliczamy różnicę między wynikami dwóch testów wyrażonych na różnych skalach:
 )
XY   V^xl)     Kv,)
gdzie: Sx to odchylenie standardowe wyników w pierwszym teście, r^ to rzetelność pierwszego testu, SY to odchylenie standardowe wyników w drugim teście, a ryy to rzetelność drugiego testu;
(2) gdy obliczamy różnicę między wynikami dwóch testów wyrażonych na tej samej skali standardowej13:
gdzie: Sx to odchylenie standardowe wyników w teście X (a ponieważ wyniki testowe są wyrażone na tej samej skali to Sx = SY), r^ to rzetelność pierwszego testu, a ryr to rzetelność drugiego testu; (3) gdy obliczamy różnicę między wynikami tego samego testu:

gdzie: Sx to odchylenie standardowe wyników w teście, a r„ to rzetelność testu. W jaki sposób zatem wykorzystujemy standardowy błąd pomiaru między dwoma wynikami do oceny rzetelności zaobserwowanej różnicy? Przedstawmy sposób rozumowania na konkretnym przykładzie. Będzie to przykład porównywania dwóch wyników otrzymanych w dwóch różnych testach, wyrażonych na dwóch różnych skalach. Załóżmy zatem, że nasza hipotetyczna osoba badana otrzymała wynik w pierwszym teście X=15 i w drugim teście Y=22. Różnica między tymi wynikami wynosi 7 pkt. i chcielibyśmy wiedzieć, czy możemy jej nadać znaczenie diagnostyczne i np. stwierdzić,
68
13 Pojęcie skali standardowej i jej odmiany omówimy dokładnie w rozdz. 4, poświęconym normom testowym.
Klasyczna teoria testów jako podstawa wnioskowania o rzetelności testu
że zdolności językowe tej osoby są gorsze od jej zdolności matematycznych. Wiemy także, że #•„ = 0,781, rvv = 0,752, SX = 2J\6, a SY=2,964. Obliczmy zatem standardowy błąd różnicy między wynikami, korzystając z pierwszego z przedstawionych wyżej wzorów:
SEMx_y = a/2,7 162(1 -0,781)+ 2,9642(1 - 0,752) = ^3A3= 1,84= 1,8

Różnica obliczona między wynikami tych dwóch testów wynosi 7 pkt. Minimalna zaś różnica, pozwalająca nam uznać różnicę otrzymaną za różnicę rzetelną, którą obliczamy według wzoru ZaiiSEM, wynosi (dla oc = O,O5):(196)(l,8) = 3,52. Ponieważ zgodnie z kryteriami decyzyjnymi: jeżeli różnica obl iczona j es t równa bądź większa od różnicy minimalnej, to jest ona istotna statystycznie (ma znaczenie diagnostyczne), naszą różnicę równą 7 pkt. możemy uznać za wystarczająco rzetelną, aby ją dalej interpretować w takim kierunku, jak to wyżej założyliśmy.
Podobnie jak obliczanie przedziału ufności dla wyniku otrzymanego, również ocena rzetelności różnic między dwoma wynikami powinna wejść na stałe do rutynowego postępowania osób stosujących testy psychologiczne. Nie ma niczego bardziej nagannego niż interpretowanie różnic między dwoma wynikami (np. wybieranie kandydata A zamiast kandydata B) bez sprawdzenia ich rzetelności. Różnica, która na pierwszy rzut oka wydaje się duża (bo liczy nawet kilkanaście pkt.), może okazać się różnicą nieistotną statystycznie, a więc taką, która powstała wyłącznie w wyniku działania czynników przypadkowych. Podejmowanie decyzji diagnostycznych, np. selekcyjnych (szczególnie w wyniku analizy konfiguracyjnej profilu) na jej podstawie, nigdy zatem nie powinno mieć miejsca.
2.6. TEORIA UNIWERSALIZACJI
JAKO ODMIANA KLASYCZNEJ TEORII TESTÓW

Choć przedstawione wyżej techniki są powszechnie stosowanymi metodami szacowania rzetelności testu, w wielu wypadkach mogą okazać się niewłaściwe. Przypuśćmy, że mamy do czynienia z taką sytuacją: interesuje nas sprawdzenie wiedzy, jaką w ciągu semestru przyswoili sobie studenci. Przygotowaliśmy odpowiedni test, polegający na opracowaniu dłuższej pisemnej odpowiedzi na kilka pytań. Odpowiedzi te będą oceniane - na skali od 1 do 10 pkt. - przez trzech niezależnych wykładowców. Zanim jednak przystąpimy do badań, chcielibyśmy poznać rzetelność naszego testu.
>-Teoria uniwersalizacji stawia pytania dotyczące wielkości wariancji wynikającej z konkretnych źródeł błędu. Pytania te mają postać: „Co w tej konkretnej procedurze jest błędem pomiaru?" oraz „Jak duża jest wariancja wynikająca z każdego z tych źródeł?". Istotnym elementem teorii uniwersalizacji jest określanie schematów badawczych pozwalających uzyskać dane na ten temat.
69
Rozdział 2
I
70
Opisane wyżej metody szacowania rzetelności wymagają, aby osoba badana rozwiązała ten sam test dwa razy. Współczynnik rzetelności został bowiem operacyjnie zdefiniowany jako współczynnik korelacji między dwoma wynikami testowymi - otrzymanymi za pierwszym i za drugim razem. Jednakże w wielu sytuacjach psychologicznych - podobnie jak w powyższym rzykładzie - nie jest możliwe otrzymanie dwóch pomiarów (czy za pomocą powtórnego testowania, czy za pomocą dzielenia testu na części).
Jednym z ciekawszych rozwiązań, które pozwala na oszacowanie współczynnika rzetelności i wariancji błędu w takiej właśnie sytuacji, jest teoria uniwersalizacji (Cronbach i in., 1972). Elementy tej teorii znane już były wcześniej (por. np. Lindquist, 1953), jednak dopiero Cronbach ze współpracownikami nadał jej formalny kształt. Wydaje się, że warto poświęcić jej nieco miejsca, bo choć - w porównaniu z modelem klasycznym - jest zdecydowanie rzadziej wykorzystywana w praktyce, formułowane w jej ramach idee dotyczące pomiaru i pojęcia rzetelności są nader inspirujące.
Najbardziej istotną różnicę między klasyczną teorią testów a teorią uniwersalizacji można określić jako różnicę perspektywy (por. Suen, 1990; Gruijter, Van der Kamp, 1991). Ściśle rzecz biorąc, w ramach klasycznej teorii testów błąd pomiaru opisywany jest za pomocą ogólnego pojęcia błędu losowego. Pojęcie to nie relatywizuje błędu do konkretnej sytuacji, w jakiej ma miejsce badanie testem. Tymczasem w teorii uniwersalizacji rzetelność testu zależy od kontekstu testowania.
Z technicznego punktu widzenia teoria uniwersalizacji różni się od klasycznej teorii testów w dwóch ważnych aspektach. Po pierwsze, w miejsce silnego założenia o równoległości testów, przyjmuje się w niej założenie słabsze, tj. założenie o tzw. losowej równoległości. Dwa testy są losowo równoległe (ang. randomly parallel), jeżeli można przyjąć, że pozycje tych testów są losowymi próbkami pobranymi z tego samego uniwersum pozycji. Po drugie, teoria uniwersalizacji daje możliwość określania wielu różnych źródeł błędu. Tym samym, zamiast jednego współczynnika rzetelności, jak to ma miejsce w klasycznej teorii testów, możemy obliczyć tyle współczynników rzetelności, ile pytań dotyczących źródeł błędu potrafimy sformułować (por. Gruijter, Van der Kamp, 1991, s. 45).
Wariancja wyników testowych
Przypomnijmy, że terminem wariancja oznaczamy wielkość zróżnicowania otrzymanych wyników wokół ich wartości średniej. Mówiąc inaczej, wariancja opisuje nam wielkość błędu, jaki popełniamy wtedy, kiedy średni wynik traktujemy jako dobre odzwierciedlenie wszystkich wyników indywidualnych. Podkreślmy wyraźnie, wariancję możemy zatem traktować jako miarę popełnianego błędu. Mała wariancja (czyli niewielkie zróżnicowanie wyników wokół wartości średniej) wskazuje, że średni wynik dobrze (rzetelnie) odzwierciedla wyniki indywidualne. Duża wariancja zaś wskazuje, że wartości średniej nie można traktować jako rzetelnej miary wyników indywidualnych (por. Suen, 1990, s. 40).
Klasyczna teoria testów jako podstawa wnioskowania o rzetelności testu
Ta cecha wariancji sprawia, że jest to bardzo ważna statystyka w psycho-metrii. Znając bowiem wielkość wariancji, możemy wyciągać ważne wnioski dotyczące wielkości błędu, czyli wnioski dotyczące rzetelności testu.
Źródła wariancji
W każdym konkretnym zbiorze danych (także danych testowych) możemy wyróżnić różne źródła wariancji (zmienności) wyników. W psychometrii różne źródła wynikają z różnych cech sytuacji testowania. Wróćmy do naszego przykładu studenta zdającego egzamin pisemny. Jeżeli jedna z osób oceniających dała mu 8 pkt. w dniu, w którym pisał egzamin, to nie wiemy, czy ocenę te możemy traktować jako ocenę rzetelną (powtarzalną). Gdyby ta sama osoba oceniająca (ten sam wykładowca), oceniając tę sama pracę ponownie, np. na drugi dzień, również dała 8 pkt. to możemy powiedzieć, że jest to osoba doskonale rzetelna. W tym wypadku mamy do czynienia z wysoką rzetelnością wewnątrz osoby oceniającej (ang. intrąjud-ge). Gdyby jednak ten sam wykładowca różnie oceniał tę samą pracę w kolejnych dniach, możemy powiedzieć, że mamy do czynienia z brakiem rzetelności ocen pochodzących od tej samej osoby oceniającej. Dobrą miarą rzetelności ocen jest tu wielkość wariancji ocen, jakie ta sama osoba oceniająca dała tej samej pracy. Im niższa wariancja ocen, tym - oczywiście - większa ich rzetelność (por. Suen, 1990, s. 43-45).
Zamiast prosić jedną osobę o ocenę tej samej pracy, możemy poprosić kilku wykładowców (doskonale rzetelnych) o jednorazową ocenę tej samej pracy. W efekcie otrzymamy zbiór ocen. W zbiorze tym każda ocena pochodzić będzie od innego wykładowcy. Tym razem wariancja ocen nie będzie wskazywać na rzetelność ocen pochodzących od jednej osoby oceniającej (wszystkie osoby oceniające są bowiem doskonale rzetelne i każda z nich zawsze tak samo ocenia tę samą pracę), a na rzetelność ocen pochodzących od różnych wykładowców. Możemy zatem powiedzieć, że w tym drugim wypadku wariancja ocen jest wskaźnikiem rzetelność ocen pochodzących od różnych wykładowców (czyli między osobami oceniającymi- ang. interjudge).
Może się również zdarzyć i tak, że jeden wykładowca (doskonale rzetelny) zostanie poproszony o ocenę kilku różnych prac tego samego studenta. I chociaż kolejne oceny tej samej pracy są zawsze takie same (bo pochodzą od doskonale rzetelnej osoby oceniającej), to oceny różnych prac mogą być różne. W tym wypadku źródłem zmienności są same prace studenta (czyli różne pozycje testowe, mówiąc językiem psychometrii). Innymi słowy, źródłem błędu, jaki pojawia się w tej sytuacji, jest brak zgodności wewnętrznej między pracami (pozycjami testowymi - ang. internat consistency).
I wreszcie w czwartej sytuacji: doskonale rzetelny (zgodny wewnętrznie) test, składający się z kilku pytań wymagających pisemnej odpowiedzi, rozwiązało kilku studentów. Kilku doskonale rzetelnych wykładowców doskonale rzetelnie oceniło te prace. Wyniki różnych studentów okazały się     71
Rozdział 2

72
jednak różne. Tym razem źródłem błędu były różnice między osobami badanymi (studentami). Wariancja otrzymanych ocen wynika tu z wariancji między osobami badanymi (ang. variance across subjects).
Zarysowane powyżej cztery hipotetyczne sytuacje opisują cztery różne źródła wariancji, jakie mogą się pojawić w badaniach testowych. Znajomość wielkości tych źródeł (wariancji) pozwala na obliczenie wielu współczynników rzetelności, w zależności od tego, jakie źródło błędu uznamy za najważniejsze. Jak pisze sam Cronbach (1990, s. 196): „Teoria uniwersalizacji wykracza pozaklasyczną analizę rzetelności w tym sensie, że wprost stawia pytania o to, «co, w tej konkretnej procedurze, jest błędem pomiaru ?» oraz «jak duża jest wariancja wynikająca z każdego z tych źróde ł?». Wiedza o poszczególnych źródłach wariancji w ogromnym stopniu przyczynia się do lepszej interpretacji mierzonego konstruktu".
Wariancja prawdziwa oraz wariancja błędu
Przeanalizujmy raz jeszcze nasz przykład. Możemy przyjąć, że z punktu widzenia jakości pomiaru psychologicznego nie jest rzeczą pożądaną, aby występowały takie źródła błędu jak zarówno zróżnicowanie ocen wewnątrz jednej osoby czy też między osobami oceniającymi, jak i brak zgodności wewnętrznej między zadaniami (pozycjami testowymi). Będą one zawsze wskaźnikami braku rzetelności pomiaru. Ogólnie rzecz biorąc, wszystkie źródła wariancji niepożądanej z punktu widzenia jakości pomiaru stanowić będą wariancję błędu. Natomiast wariancja między osobami badanymi jest właśnie tym, co chcemy osiągnąć, wprowadzając badanie testowe. Wyniki testowe mają bowiem służyć jako podstawa określenia poziomu różnic indywidualnych między osobami badanymi. Dlatego też wariancja między osobami badanymi nie może być traktowana jako błąd pomiaru, ale jako wskaźnik stopnia rozproszenia wyników, czyli inaczej stopnia zróżnicowania między osobami badanymi. Innymi słowy możemy powiedzieć, że jest to wariancja prawdziwa.
Wariancja wewnątrz i między osobami oceniającymi czy wariancja między pozycjami testowymi to tylko niektóre przykłady wariancji błędu. W rzeczywistej sytuacji testowania źródłem błędu może być nieskończenie wiele czynników. Takimi źródłami mogą być np. różnice w sytuacji testowania, różnice między formami równoległymi testu, itd. Istotą teorii uniwersalizacji jest możliwość definiowania tych źródeł błędu i określania ich wielkości (por. Cronbach, 1990, s. 196-197; Suen, 1990, s. 43-44).
Schematy badawcze
Istotnym elementem teorii uniwersalizacji jest określanie schematów badawczych pozwalających uzyskać dane na temat wielkości wariancji, która wynika z konkretnych źródeł błędu. Jak być może Czytelnik już się zorientował (choćby przy analizie pojęcia zróżnicowania wewnątrz i między osobami oceniającymi), dokonując estymacji różnych współczynników rzetel-
Klasyczna teoria testów jako podstawa wnioskowania o rzetelności testu
ności, będziemy posługiwać się dobrze znaną i powszechnie stosowaną techniką analizy wariancji (ANOVA). Bogactwo schematów badawczych, jakie wypracowano w ramach ANOVA, pozwala na analizę nawet bardzo złożonych sytuacji pomiarowych. Wprawdzie w ogólnym przeglądzie trudno omówić - choćby wybrane - ich przykłady14, warto jednak zwrócić uwagę na czynniki, które powinny zastać wzięte pod uwagę przy wyborze określonego schematu.
Przedmiot pomiaru. Najważniejszym zadaniem jest właściwe określenie przedmiotu pomiaru. Przedmiot pomiaru zazwyczaj określamy, wskazując, co chcemy mierzyć.
W klasycznej teorii testów przedmiot pomiaru jest stosunkowo oczywisty: zakładając, że warunki badania są we wszystkich ważnych aspektach ujednolicone (wystandaryzowane), chcemy mierzyć zróżnicowanie między osobami badanymi. Interesują nas zatem dwie wariancje: wariancja wyników prawdziwych i wariancja błędu.
W teorii uniwersalizacji -jak pamiętamy - możemy określić wiele źródeł wariancji. W tym wypadku to, co stanowi obiekt pomiaru, nie jest już tak oczywiste, jak w przypadku klasycznej teorii testów. Przedmiotem pomiaru mogą być bowiem nie tylko osoby badane, ale np. osoby oceniające wyniki testu. To, kto (lub co) będzie przedmiotem pomiaru, prowadzi do wyboru innego schematu zbierania danych oraz innych analiz psychometrycznych. Umiejętność wyraźnego wskazania przedmiotu pomiaru staje się w tym wypadku elementem niezbędnym, gdyż w ten sposób określamy źródło wariancji prawdziwej. Wybierając zaś określony schemat badawczy, będziemy się kierować zasadą maksymalizacji wariancji prawdziwej oraz minimalizacji wariancji błędu (por. Suen, 1990, s. 45).
Wróćmy ponownie do naszego przykładu, w którym kilku wykładowców oceniało prace pisemne studentów, a ich oceny różniły się między sobą. Jeżeli przedmiotem pomiaru będzie zróżnicowanie zdolności studentów, to pojawił się tu duży błąd pomiaru, gdyż ta sama praca została inaczej oceniona przez każdego wykładowcę. Gdyby jednak tym, co nas interesuje, była indywidualna ocena pracy każdego wykładowcy, duże zróżnicowanie wyników między wykładowcami będzie dla nas pożądane. W tym drugim wypadku chcemy bowiem dokonać różnicowania między ocenami sędziów i zróżnicowanie ocen będzie stanowić wariancję prawdziwą. W zależności od przedmiotu pomiaru, różne wariancje są różnie interpretowane i mogą mieć różne znaczenie.
Czynniki pomiaru. W każdym pomiarze mamy do czynienia z różnymi źródłami wariancji wyników. Jednym z tych źródeł jest przedmiot pomiaru. Wariancja, której źródło stanowi przedmiot pomiaru, jest zawsze wariancją prawdziwą. Wszystkie inne źródła są źródłami wariancji błędu. Źródła wariancji błędu - w teorii uniwersalizacji - nazywa się czynnikami pomiaru (ang. facets).
14 Osobom zainteresowanym techniczną prezentacją schematów ANOVA, które można wykorzystać w badaniach rzetelności testu, polecam następujące prace: Crocker i Algin (1986); Shavelson i "'ebb (1991); Brzeziński (1984).                                                                              73
Rozdział 2
74
W analizowanym przez nas przykładzie możemy wyróżnić trzy wariancje: wariancję między studentami, wariancję między wykładowcami i wariancję między pytaniami, na które odpowiadali studenci. Jeżeli przyjmiemy, że przedmiotem pomiaru jest poziom wiedzy studentów z określonej dziedziny, to wykładowcy i pytania będą źródłami wariancji błędu, czyli czynnikami pomiaru. Schemat badawczy, jaki powinniśmy zatem zastosować w tej sytuacji, będzie schematem dwuczynnikowym.
Z kolei zróżnicowanie w ramach danego czynnika jest traktowane jako poziom tego czynnika (por. Suen, 1990, s. 45). I tak, w naszym przykładzie, gdyby studenci odpowiadali na pięć pytań i oceniani byli przez trzech sędziów, to mielibyśmy 5 poziomów w obrębie jednego czynnika i 4 poziomy w obrębie drugiego czynnika.
Czynniki losowe i czynniki stałe. Czynniki, z jakimi mamy do czynienia w sytuacji pomiaru, mogą mieć charakter czynników losowych (ang. rondom facets) bądź charakter czynników stałych (ang. fixed facets). W wypadku czynników losowych przyjmujemy, że poziomy tych czynników są losową próbką wszystkich możliwych poziomów tego czynnika. Prowadzi to do tego, że w każdym kolejnym badaniu wykorzystywane poziomy czynnika mogą być inne. Czynniki stałe zaś to czynniki, których poziomy się nie zmieniają - pozostają stałe w różnych sytuacjach badawczych.
Czynniki stałe odnoszą się do wystandaryzowanych warunków badania. Im bardziej warunki badania zostaną wystandaryzowane (ujednolicone), z tym mniejszą liczbą źródeł błędu będziemy mieli do czynienia. Dlaczego? I znowu wróćmy do naszego przykładu. Wiemy, że jeden z wykładowców ocenił pracę studenta na 8 pkt. Możemy się oczywiście zastanawiać, czy ten sam wykładowca oceniłby tak samo tę pracę, gdyby zrobił to innego dnia. A co byłoby wtedy, kiedy inny wykładowca oceniłby te pracę, lub gdyby ocenie poddać inne prace tego samego studenta? Myśląc w ten sposób, wprowadzamy trzy czynniki: czas oceny, oceniającego wykładowcę oraz różne prace studenta. Gdybyśmy te wszystkie czynniki potraktowali jako czynniki stałe, to automatycznie wyeliminowalibyśmy je jako źródła błędu. Mówiąc inaczej, zdefiniowalibyśmy naszą sytuację jako sytuację oceny jednej pracy przez jednego wykładowcę w jednym momencie czasu.
Zakładając zatem, że wszystkie inne warunki są również stałe, ocenę, jaką otrzymał nasz student (8 pkt.), możemy potraktować jako ocenę całkowicie rzetelną. Ale - konsekwentnie - byłaby to rzetelna ocena zdolności studenta w ocenie tego konkretnego wykładowcy i w tym konkretnym momencie. Przykład ten pokazuje jedną ważną konsekwencję teorii uniwersalizacji. Eliminowanie źródeł błędu (traktowanie ich jako czynników stałych) zdecydowanie upraszcza analizę i ułatwia interpretowanie konkretnego wyniku, jednak zbyt duże zawężenie tego, co jest przedmiotem pomiaru, może sprawić, że przestanie on mieć jakiekolwiek psychologiczne znaczenie (bę-
Klasyczna teoria testów jako podstawa wnioskowania o rzetelności testu
dziemy interpretować konkretny wynik, otrzymany i obliczony w konkretnej sytuacji testowania przez konkretnego badającego, itd.).
Aby można było zastosować rozwiązania wypracowane przez teorię uni-wersalizacji, przynajmniej jeden z czynników musi być losowy. Gdyby bowiem absolutnie wszystkie czynniki były stałe, otrzymany wynik byłby całkowicie rzetelny i przeprowadzenie badań okazałoby się zbędne. Nadto, przedmiot pomiaru zostałby skrajnie zawężony (por. Cronbach, 1970, s. 152).
Wynik prawdziwy a wynik uniwersalny. W klasycznej teorii testów wynikiem prawdziwym danej osoby określaliśmy średni wynik, jaki otrzymałaby ona w nieskończenie wielu badaniach tym samym testem. Wynik prawdziwy jest zatem pewną stałą charakterystyką badanej osoby i nie zależy od kontekstu badania.
W teorii uniwersalizacji zaś przyjmuje się, że dana osoba może zostać scharakteryzowana za pomocą wyniku uniwersalnego, tj. odpowiedniego wyniku średniego otrzymanego przy losowym wyborze poziomów odpowiedniego czynnika. „Każda osoba będzie zazwyczaj posiadać kilka wyników uniwersalnych dla różnych uniwersów. Wynik uniwersalny, jaki otrzymała Mary, rozwiązując test 5 maja, nie będzie dokładnie odpowiadał jej wynikowi uniwersalnemu dla całego tego miesiąca (...) Niektórzy badacze nazywają średni wynik otrzymany w dużej liczbie porównywalnych pomiarów «wynikiem prawdziwym», np. «prawdziwa szybkość pisania na maszynie, jaką osiągnęła Mary w 3-minutowym teście». My jednak wolimy mówić o «wyniku uniwersalnym», podkreślając w ten sposób, że każdy wynik zależy od branego pod uwagę uniwersum. W każdym pomiarze można wskazać wiele «wyników prawdziwych», każdy odnoszący się do innego uniwersum" (Cronbach, 1970, s. 153).
Badania typu G i badania typu D. Teoria uniwersalizacji postuluje dwa rodzaje badań. Pierwsze z nich to tzw. badania typu G (ang. generalizability study). Celem ich jest oszacowanie wielkości wariancji związanej z każdym czynnikiem pomiaru. Znając owe wariancje, możemy określić konsekwencje zmiany w przyjętym schemacie myślenia i poszukiwać układu optymalnego. Możemy np. określić, jak zmniejszyłby się błąd pomiaru, gdyby niektóre czynniki potraktować jako stałe (a więc wystandaryzować je). Możemy też określić, czy nasz test możemy zastosować w innej sytuacji lub co się stanie po jego wydłużeniu. Ten drugi rodzaj badań, a więc określanie rzetelności naszego testu w różnych sytuacjach, nazywany jest badaniami typu D (ang. decision study) (por. Suen, 1990, s. 46).
Schematami badawczymi stosowanymi w badaniach typu G są odpowiednie schematy ANOVA, pozwalające określić interesujące nas komponenty wariancji. Mogą to być albo schematy krzyżowe (ang. crossed desigń), albo gniazdowe (ang. nested desigń). Jeżeli każda osoba jest badana na każdym poziomie danego czynnika, to mówimy o skrzyżowaniu osób z tym czynnikiem; podobnie, jeżeli każdy poziom jednego czynnika jest połączony
75
Rozdział 2
Rys. 2.4. Schemat badawczy dla układu krzyżowego oraz układu gniazdowego (opracowano na podstawie Nowakowska, 1975, s.65)
Schemat krzyżowy
1                 2pozycje testu
3                 45612ro  3CO     -
18 4x> S 5§6789
Schemat gniazdowy
pozycje testu
12               3              4             5
1
ro   3
ro
ro   5
w   6 7
8 9
76
6

Klasyczna teoria testów jako podstawa wnioskowania o rzetelności testu
z każdym poziomem drugiego czynnika, wtedy mówimy o skrzyżowanym układzie tych czynników.
Jeżeli każda osoba jest badana przy określonych poziomach (nie wszystkich) lub też poszczególne poziomy danego czynnika łączone są tylko z niektórymi poziomami drugiego czynnika, wtedy mówimy o układzie gniazdowym (por. rys. 2.4). W naszym przykładzie, gdyby wszyscy wykładowcy oceniali wszystkie egzaminy wszystkich osób, mielibyśmy układ krzyżowy, gdyby zaś każdy z nich oceniał inne prace, byłby to układ gniazdowy.
Wpływ różnych czynników na wielkość wyniku testowego jest odzwierciedlany przez tzw. współczynnik uniwersalizacji (ang. coefficient of gene-ralizability). „Kiedy traktujemy pojedynczą obserwację jako odzwierciedlenie pewnego uniwersum, to znaczy, że dokonujemy uogólnienia. Uogólniamy wyniki testowe, sposób dokonywania selekcji, a nawet konkretne dni. Jeżeli wynik, który otrzymamy w wyniku zastosowania konkretnej procedury, będzie ściśle odpowiadał wynikowi uniwersalnemu, to możemy powiedzieć, że procedura ta jest «dokładna», «rzetelna» «dająca się uogólnić». Jeżeli ponadto wyniki otrzymane w różnych procedurach są do siebie podobne, to powiemy, że są one «zgodne» i że są obarczone «niską wariancją błędu» (...) Pojęciem najczęściej wykorzystywanym w literaturze jest pojęcie «rzetelnoś-ci». Autor woli jednak pojęcie «uniwersalności», ponieważ to pojęcie określa wprost zakres, na jaki uogólniamy nasze wyniki" (Cronbach, 1970, s. 154). Na podstawie danych uzyskanych w badaniach typu G określamy w badaniach typu D różne współczynniki rzetelności naszego testu. To, którym będziemy się dalej posługiwać, zależy od naszego konkretnego zapotrzebowania (por. rys. 2.5). Cronbach (1970, s. 152) tak uzasadnia konieczność przeprowadzania badań typu D: „Podjęcie decyzji, że uczeń z sukcesem ukończył dany przedmiot lub że możemy podjąć decyzję o zakończeniu terapii określonego pacjenta, nie może w istotnym stopniu zależeć od błędów losowych, chwilowego zróżnicowania poziomu wykonania testu czy wyboru konkretnych zadań przez osobę stosującą test. Podjęcie błędnej decyzji może przynieść nieodwracalne skutki zarówno dla jednostki, jak i dla społeczeństwa. Nawet wtedy, kiedy błędna decyzja zostanie zmieniona, będzie spostrzegana jako niesprawiedliwa i może wpłynąć na morale osoby badanej czy też może zahamować jej rozwój".
Cronbach i inni (1972), proponując swoją teorię uniwersalizacji, twierdzili, że istotą pomiaru psychologicznego (podobnie jak każdych badań naukowych) jest umiejętność uogólniania otrzymanych wyników. Przeprowadzając badania typu G i typu D, użytkownik testu może świadomie podjąć decyzję o zakresie możliwej uniwersalizacji wyników. Rzetelność testu, którym się posługuje, zależy bowiem od okoliczności, w jakich test był tworzony, stosowany i interpretowany.
77
Rozdział 2

78
Rys. 2.5. Kolejne etapy postępowania w ramach teorii uniwersaiizacji (opracowano na podstawie Suen, 1990, s. 53)

rzetelność wyników w sytuacji 1

rzetelność wyników w sytuacji 2

wariancja prawdziwa
i wariancja błędu
w sytuacji 1

wariancja prawdziwa
i wariancja błędu
w sytuacji 2
badania D dla sytuacji 1
badania D dla sytuacji 2

oszacowanie komponentów wariancji
analiza wariancji
zbieranie danych
1
rzetelność wyników w sytuacji 3
wariancja prawdziwa
i wariancja błędu
w sytuacji 3
badania D dla sytuacji 3



wybór schematu badawczego
(badania typu D) (badania typu G)

przedmiot pomiaru
czynniki pomiaru



Klasyczna teoria testów jako podstawa wnioskowania o rzetelności testu




Podstawowe pojęcia:
•  badania typu G i D
•  błąd losowy
•  błąd pomiaru
•  błąd systematyczny
•  klasyczna teoria testów
•  przedział ufności
•  rzetelność
•  standardowy błąd pomiaru
•  standardowy błąd różnicy
•  technika połówkowania
•  technika testów równoległych
•  technika test-retest
•  teoria uniwersalizacji
•  testy równoległe
•  wskaźnik rzetelności
•  współczynnik rzetelności
•  współczynnik uniwersalizacji
•  wynik otrzymany
•  wynik prawdziwy
Literatura zalecana
Anastasi A., Urbina S. (1999). Testy psychologiczne. Warszawa: Pracownia Testów Psychologicznych Polskiego Towarzystwa Psychologicznego.
Brzeziński J. (1996). Metodologia badań psychologicznych. Warszawa: Wydawnictwo Naukowe PWN.
Guilford J.P. (1988b). Rzetelność i trafność pomiarów. Biblioteka Psychologa Praktyka. Tom II: Problemy teorii, rzetelności, konstrukcji i analizy wyników testów psychologicznych (s. 51-103). Warszawa: Polskie Towarzystwo Psychologiczne, Laboratorium Technik Diagnostycznych.





79

Rozdział 3

Trafność, czyli określanie obszaru
zastosowania testu

W poprzednim rozdziale zajmowaliśmy się sposobami określania siły związku między wynikiem otrzymanym w teście a wynikiem prawdziwym. Obliczając współczynnik rzetelności testu, określaliśmy siłę tego związku. Otrzymany wynik w teście był tym lepszym odzwierciedleniem wyniku prawdziwego, im wyższa była otrzymana wartość współczynnika rzetelności. Na tej podstawie jednak nie możemy stwierdzić, czy wynik testowy jest dobrym odzwierciedleniem tej cechy psychologicznej, którą zamierzaliśmy mierzyć. Mówiąc inaczej, znajomość samego współczynnika rzetelności nie jest wystarczającym kryterium wyboru testu. Musimy jeszcze wiedzieć, na ile trafne są wyniki naszego testu.
3.1. POJĘCIE TRAFNOŚCI

80
W języku codziennym, mówiąc, że coś jest trafne, mamy na myśli, że jest to właściwe, stosowne czy słuszne (por. Szymczak, 1981, tom 3, s. 521). W tym sensie mówimy o trafnej teorii, trafnej argumentacji czy trafnych powodach. Podobnie i w psychometrii: posługujemy się terminem „trafny" wtedy, kiedy wynikom testowym chcemy nadać psychologiczny sens.
W psychometrii pytanie o trafność to pytanie o to, „co dany test mierzy?". I choć wydaje się ono oczywiste, można wskazać na wiele przykładów (opisanych w literaturze przedmiotu czy znanych z praktyki) stosowania testów bez zwrócenia należytej uwagi na to, czy nadają się one do określonego celu. Mogłoby się to wydawać o tyle zaskakujące, że przecież każdy test posiada swoją nazwę, która może być traktowana jako źródło informacji o jego przeznaczeniu. Warto jednak pamiętać, że nazwa testu jest jedynie wyrazem w i a r y jego autora w to, że test mierzy to, o co intencjonalnie temu autorowi chodziło. Test zdolności może się np. okazać testem sprawności werbalizowania, zaś test osiągnięć może się okazać testem inteligencji ogólnej. Bez sprawdzenia, czy dany test nadaje się do konkretnego wykorzystania (a więc czy jest trafny), jest on praktycznie bezużytecznym psychologicznie narzędziem.
Pojęciu trafności testu przez lata nadawano różne znaczenie. Pierwotnie przez trafność testu rozumiano po prostu dokładność, z jaką test realizuje
Trafność, czyli określanie obszaru zastosowania testu
założone cele. W tym rozumieniu trafność traktowana była - podobnie jak współczynnik rzetelności - jako stała właściwość wyników testowych (por. Suen, 1990, s. 134). Koncepcja ta staje się zrozumiała, jeśli uwzględnić, jak pierwsze testy były tworzone i oceniane. Autor testu zazwyczaj z góry decydował o tym, co test będzie mierzył, i konstruował go w taki sposób, aby osiągnąć swój cel, a następnie starał się wykazać, jak dobrze ten cel osiągnął. Możliwość, że dany test równie dobrze (albo i lepiej) mierzy jakąś inną cechę, rzadko była brana pod uwagę.
Po ukazaniu się słynnej pracy Cronbacha i Meehla (1955) oraz późniejszej pracy Messicka (1989) pojęcie trafności testu przestało być tak statycznie rozumiane. Początkowe pytanie, „jak dobrze test realizuje zamierzenia jego autora?", zastąpiono pytaniem „co test mierzy i jak dobrze to robi?". Oczywiście, autorzy testów nadal konstruowali je w określonym celu, jednak ich użytkownicy coraz częściej zadawali sobie pytania: ,jaki jest obszar zastosowania danego testu?" oraz „czy ten test odpowiada moim celom?". Definicja trafności sformułowana przez Messicka (1989, s. 13) wydaje się najlepiej oddawać tę zmianę perspektywy: „trafność jest to zintegrowany proces oceny stopnia, w jakim dowody empiryczne i rozważania natury teoretycznej potwierdzają adekwatność i poprawność interpretacji oraz programów działania wyprowadzonych na podstawie wyników testowych czy innych narzędzi pomiaru". Trafność stała się - w miejsce zamkniętej procedury - otwartym procesem badawczym. Co więcej, w definicji tej nastąpiło wyraźne przesunięcie punktu ciężkości - z pojęcia trafności testu na pojęcie trafności interpretacji wyników danego testu. W takim też duchu formułują definicję trafności Standardy... (1985a, s. 33), gdzie czytamy: „pojęcie trafności dotyczy poprawności wniosków wyprowadzanych na podstawie wyników testowych lub innych form badania", i dalej „(...) trafność jest pewnym wnioskiem, a nie pomiarem. W podręczniku testowym można przedstawić jedynie współczynniki trafności. To na ich podstawie wyciąga się wnioski o trafności konkretnego zastosowania testu (...)".
Określanie trafności danego testu, nazywane w psychometrii procesem walidacji testu (ang. validatioń), polega na zbieraniu i ocenie danych świadczących o trafności określonej interpretacji wyników testu. Im więcej przeprowadza się badań z udziałem danego testu, tym szerszy jest potencjalny obszar jego zastosowania. Procedura walidacji testu nie kończy się zatem na podaniu jednego współczynnika trafności, a polega na prowadzeniu ciągłych badań i gromadzeniu informacji (por. też Bechtold, 1969).
W procesie walidacji ważną rolę odgrywa zarówno autor testu, jak i jego użytkownik. Do obowiązków autora testu należy „(...) podanie informacji potwierdzających trafność każdej zalecanej interpretacji wyników testowych, a jeżeli dane dotyczące określonej interpretacji nie zostały zebrane, to fakt ten powinien zostać wyraźnie podkreślony" (Standardy..., 1985a, s. 40). Z kolei użytkownicy testów często stoją w obliczu konieczności określenia
81
Rozdział 3
trafności danego testu dla konkretnej grupy osób badanych. Takie „lokalne" badania walidacyjne są koniecznie zawsze wtedy, kiedy użytkownik testu chciałby wykorzystać jego wyniki do wąsko rozumianych - i nie potwierdzonych w badaniach walidacyjnych - celów1.
W jaki zatem sposób możemy ocenić trafność naszego testu? Zanim odpowiemy na to pytanie, scharakteryzujmy rodzaje trafności wyników testowych, a dopiero potem wynikające z nich strategie badawcze.
3.2. RODZAJE TRAFNOŚCI

W psychometrii na ogół wyodrębnia się trzy rodzaje trafności: trafność treściową, trafność kryterialną oraz trafność teoretyczną - zwane też za Guionem (1980) Świętą Trójcą (ang. Holy Trinity). Za sprawą Standardów... (1985a) upowszechniła się maniera rozłącznego ich traktowania, i dlatego poszczególne źródła informacji o potencjalnych obszarach zastosowania testu traktowane były niezależnie. Przyjmowano, że potwierdzenie trafności testu w jednym z tych trzech aspektów jest wystarczające dla praktycznej użyteczności metody. Współcześnie jednak stanowisko to uległo zmianie.
Zdaniem Cronbacha (1990, s. 151) wymienione trzy rodzaje trafności są raczej trzema aspektami trafności, trzema różnymi metodami badawczymi niż trzema różnymi rodzajami trafności, co więcej - niesłusznie traktowanymi jako niezależne rodzaje informacji. Każde badanie trafności testu powinno integrować informacje z wszystkich tych źródeł. Według Anastasi i Urbiny (1999, s. 159-160) „każda z tych procedur przynosi cenne informacje, które są specyficzne tylko dla niej i niezastąpione przy ocenie testów przeznaczonych do określonych celów". Także w kolejnej edycji Standardów... (APA, 1985b, s. 9)2 można już zauważyć zmianę stanowiska: zamiast mówić o rodzajach trafności mówi się tu o dowodach na rzecz trafności testu, wynikających z różnych źródeł (por. też Brzeziński, 1996, s. 520).
Przyjrzyjmy się zatem, co się kryje pod pojęciami trafności treściowej, kryterialnej i teoretycznej, które - dla łatwości prezentacji - omówimy

82
1  Dzięki temu, że ukazuje się dziś na świecie kilka periodyków zajmujących się integracją danych o wydawanych testach, łatwiej jest również śledzić badania dotyczące trafności określonego testu. Do najbardziej znanych publikacji tego typu należą Mental Measurements Yearbook (MMY), zapoczątkowane przez O.K. Burosa w roku 1934, oraz Test Critiąues, wydawane przez Test Corporation of America. W pierwszym ukazują się recenzje testów dokonywane przez przynajmniej dwie niezależne osoby; można w nim także znaleźć kompletne wykazy publikacji dotyczące każdego - angielskojęzycznego - testu. Drugie publikuje głównie informacje dotyczące testu i pochodzące od jego wydawcy. Również w kwartalniku Educatio-nal and Psychological Measurement istnieje stały dział pt. „Validity Studies". Warto też odnotować pojawienie się pierwszej edycji Test Validity Yearbook, pisma, w którym ukazywać się będą informacje na temat badań walidacyjnych testów psychologicznych (por. Cronbach, 1990, s. 148).
2  Polskie tłumaczenie Standardów... (1985a) oparte jest na trzecim wydaniu amerykańskim z 1974 r.
Trafność, czyli określanie obszaru zastosowania testu
niezależnie. Za Cronbachem (1990) podkreślać jednak będziemy, że pojęcia te odnoszą się do różnych sposobów zbierania danych dotyczących trafności testu.
Trafność treściowa. Trafność treściowa, nazywana też trafnością wewnętrzną lub logiczną (ang. content validity) jest definiowana jako „zakres, w jakim pozycje testowe właściwie reprezentują uniwersum pozycji testowych lub interesujący nas konstrukt" (Suen, 1990, s. 136) czy też (por. Anastasi, Urbina, 1999, s. 160) jako zakres, w jakim treść testu stanowi „reprezentatywną próbę dziedziny, która ma być przedmiotem pomiaru". Jak piszą autorzy Standardów... (1985a, s. 36) „aby potwierdzić trafność treściową zbioru wyników otrzymanych w teście, należy wykazać, że zachowania demonstrowane w badaniu testowym są reprezentatywną próbką zachowań ujawniających się w interesującej badacza sferze". Mówiąc inaczej, trafność treściowa jest wyrażana jako stopień poprawności losowania zbioru pozycji tworzących test z szerszego zbioru (uniwersum) możliwych pozycji, reprezentujących określony obszar zachowania (por. też Bechtold, 1969).
Trafność treściową należy odróżnić od tzw. trafności fasadowej (ang. face validity). To ostatnie pojęcie nie oznacza trafności w sensie definicyjnym i „dotyczy nie tego, co test rzeczywiście mierzy, lecz tego, co «wydaje się mierzyć»" (Anastasi, Urbina, 1999, s. 164). Trafność fasadowa opisuje, jak spostrzegają test osoby badane i czy - z ich punktu widzenia
- wydaje się on trafnie mierzyć to, co ma mierzyć. Mówiąc jeszcze inaczej, trafność fasadowa zapewnia, że dany test wydaje się - w opinii osób badanych
- adekwatny w wypadku określonego celu.
I choć trafność fasadowa niewiele ma wspólnego z pojęciem trafności jako miary dobroci testu, nie należy bagatelizować jej znaczenia. Brak trafności fasadowej może bowiem zaowocować brakiem właściwej motywacji w trakcie rozwiązywania testu, i w ten sposób wpłynąć bezpośrednio na otrzymane wyniki. Dany test może być wysoce trafnym narzędziem z punktu widzenia konkretnego celu, jeżeli jednak nie będzie tak spostrzegany przez osoby badane, to wynikające z tego negatywne konsekwencje (wspomniany spadek motywacji czy odrzucenie testu w ogóle) mogą sprawić, że wyniki testowe okażą się psychologicznie bezużyteczne.
Trafność kryterialna. „O trafności kryterialnej mówimy wtedy, gdy na podstawie wyników testowych wnioskuje się o przypuszczalnej pozycji badanego względem innej zmiennej - tzw. kryterium" (Standardy..., 1985a, s. 35). Innymi słowy, trafność kryterialna wskazuje na zakres, w jakim wyniki testowe są empirycznie powiązane z interesującym nas kryterium. I tak np. wyniki testu mierzącego introwersję można potraktować jako wskaźnik jakości relacji interpersonalnych nawiązywanych przez osobę badaną, a wyniki testu stanowiącego egzamin wstępny na wyższą uczelnię można potraktować jako wskaźnik późniejszych osiągnięć w trakcie studiów.                        83
Rozdział 3
84
Trafność kryterialna (ang. criterion-related validity) określa zatem skuteczność testu w diagnozowaniu i/lub prognozowaniu funkcjonowania jednostki w określonej sferze (por. Anastasi, Urbina, 1999, s. 165). Trafność diagnostyczna (ang. concurrent validity) określa, w jakim zakresie można wykorzystywać dany test do określania aktualnej pozycji osoby badanej względem kryterium, a z kolei trafność prognostyczna (ang. predictive validity) mówi o tym, w jakim stopniu można - na podstawie wyników testowych - przewidywać przyszłą pozycję osoby badanej względem zmiennej kryterialnej {Standardy..., 1985a, s. 35).
Trafność teoretyczna. W roku 1955 ukazał się artykuł Cronbacha i Meehla (1955), w którym postulowali oni szerokie wprowadzenie pojęcia trafności teoretycznej (ang. construct validity)3. Artykuł ten rozpoczął dyskusję nad rozumieniem pojęcia trafności wyników testowych w ogóle, a szczególnie nad rolą teorii w wyjaśnianiu rezultatów otrzymanych w wyniku zastosowania testów psychologicznych. Jak piszą autorzy (ibidem), „określanie trafności teoretycznej ma miejsce wtedy, kiedy wyniki testu mają być interpretowane jako miara pewnego atrybutu lub pewnej właściwości, które nie są zdefiniowane operacyjnie".
Czym jest zatem trafność teoretyczna? Trafność teoretyczna jest oceną stopnia, w jakim wnioski wyprowadzone na podstawie wyników testowych odzwierciedlają pozycję osoby badanej na pewnym teoretycznym kontinuum, zwanym konstruktem4. Trafność teoretyczna jest określana przez:
a)  definiowanie - tak jasno jak to możliwe - mierzonej cechy (konstruktu), oraz
b)  wiązanie wyników testowych z zachowaniami osób badanych w takich sytuacjach, w jakich - z założenia - mierzony konstrukt jest traktowany jako ważna zmienna (por. Cohen, Swerdlik, 1999, s. 197).
Trafność teoretyczna pokazuje zatem stopień, w jakim test mierzy daną cechę (konstrukt teoretyczny). Warto w tym miejscu podkreślić, że wyniki testowe nie są równoznaczne z mierzonym konstruktem (Messick, 1989; też Brzeziński, 1996). Konstrukty przejawiają się na wiele różnych sposobów -przez wiele różnych wskaźników (por. też Hornowska, 1989, 1993a, 2000a).
Trafność teoretyczną, w odróżnieniu od trafności diagnostycznej oraz trafności prognostycznej, ocenia się nie za pomocą jednego współczynnika korelacji między wynikiem testu a wynikiem na kontinuum zmiennej kryterialnej, lecz raczej na podstawie kumulacji wyników wielu badań, których celem jest potwierdzenie hipotez wynikających z teorii mierzonej cechy (Magnus-son, 1981, s. 195).

3  Formalnie rzecz biorąc, termin „trafność teoretyczna" został wprowadzony w roku 1954 przez American Psychological Association (por. APA, Technical Recommendations..., 1954, s. 13-18).
4  W sprawie rozważań na temat pojęcia konstruktu patrz: Cronbach i Meehl (1955).
Trafność, czyli określanie obszaru zastosowania testu
>? Trafność testu jest to stopień, w jakim test realizuje stawiane przed nim cele. Trafność odzwierciedla relację, jaka zachodzi między koncepcją właściwości psychologicznej a użytymi wskaźnikami tej właściwości, czyli - inaczej mówiąc — trafność operacjonalizacji wielkości psychologicznej. Rozróżniamy następujące rodzaje trafności:
•  trafność treściową (stopień, w jakim treść testu reprezentuje całokształt zachowań, których próbkę pobiera test)
•  trafność kryterialną (stopień, w jakim test pozwala na ocenę - w czasie teraźniejszym lub przyszłym - określonej właściwości psychologicznej innej niż ta, którą test bezpośrednio mierzy
•  trafność teoretyczną (stopień, w jakim test pozwala na pomiar nasilenia u osoby badanej hipotetycznej właściwości - czyli psychologicznego konstruktu - o której mają świadczyć odpowiedzi na bodźce testowe)
3.3. SPOSOBY BADANIA TRAFNOŚCI
W jaki sposób zatem można określić, na ile dany test jest trafny treściowo, kryterialnie lub teoretycznie? Na początku tego rozdziału wspomniano, że mowa w nim raczej o różnych strategiach badawczych niż całkowicie niezależnych pytaniach o trafność wyników testowych. Omówimy je w kolejności definiowania, zachowując w ten sposób historyczny podział na trzy sposoby rozumienia pojęcia trafności wyników testów psychologicznych. Raz jeszcze jednak warto podkreślić, że są to trzy różne sposoby zbierania informacji
0 trafności testu i nie można ich traktować całkowicie rozłącznie (por. rys. 3.1).
Trafność treściowa
Trafność treściowa - przypomnijmy - to stopień, w jakim treść pozycji testowych reprezentuje pewne szersze uniwersum treści. I tak np. możemy zapytać, czy test wiadomości z matematyki zawiera pytania treściowo reprezentatywne dla wiedzy z matematyki na danym poziomie nauczania lub też na ile pozycje tworzące test asertywności reprezentują uniwersum zachowań, które mogą być traktowane jako wskaźniki tej cechy.
Kluczem do oceny stopnia trafności danej metody są zatem dwa pojęcia: pojęcie uniwersum i pojęcie reprezentatywności. Pojęcie uniwersum treści opisuje pełen zakres dziedziny, której test ma dotyczyć. Jeżeli zatem chcemy badać poziom wiedzy z matematyki w klasie piątej, to uniwersum treści dla naszego testu zostanie zdefiniowane przez wymagania programowe z tego przedmiotu i na tym poziomie nauczania. I choć inne zagadnienia matematyczne mogą nam się wydawać także istotne, w tym wypadku nie będą wchodzić w zakres interesującego nas uniwersum. W wypadku testu asertywności (por. Król-Fijewska, 1991) możemy opisać uniwersum jako zbiór określonych zachowań, takich jak obrona swoich praw w sytuacjach społecznych, obrona swoich praw w kontaktach osobistych, inicjatywa i kontakty towarzyskie, wyrażanie i przyjmowanie krytyki
1 pochwał, wyrażanie próśb, wyrażanie uczuć, wyrażanie opinii, wystąpienia publiczne, kontakt z autorytetem oraz naruszenie cudzego terytorium.               85
00 O
--------
Rys. 3.1. Definicja i rodzaje trafności


trafność wyników testowych
dokładność, z jaką test mierzy to, co ma mierzyć

KONSTRUKT PSYCHOLOGICZNY MIERZONA CECHA
stopień, w jakim test jest w stanie osiągnąć stawiane mu cele
relacja, jaka zachodzi między koncepcją
właściwości psychologicznej (konstruktu)
a użytymi wskaźnikami tej właściwości
wielkość błędu spowodowana rozbieżnością
między zamierzeniami autora testu
a tym, co test faktycznie mierzy

trafność treściowa
trafność kryterialna
trafność teoretyczna

trafność diagnostyczna
trafność prognostyczna                -^
Trafność, czyli określanie obszaru zastosowania testu
Pierwszym krokiem na drodze oceny trafności treściowej testu jest zatem określenie zakresu uniwersum. Najczęściej korzysta się w tym celu z pomocy sędziów-ekspertów, którzy na podstawie swojej wiedzy o tym, co ma być przedmiotem pomiaru, przygotowują taką definicję. W wypadku testów osiągnięć szkolnych w roli ekspertów mogą wystąpić np. nauczyciele danego przedmiotu, w przypadku testów psychologicznych - specjaliści z danej dziedziny.
Kolejnym krokiem jest określenie, w jakim stopniu pozycje składające się na test można traktować jako reprezentatywną próbkę zdefiniowanego uniwersum. W sensie statystycznym o reprezentatywności można mówić wtedy, kiedy pozycje testowe byłyby losową próbką uniwersum pozycji. Jednakże w wypadku trafności treściowej odwoływanie się do takiej koncepcji reprezentatywności byłoby raczej mało sensowne. Dlatego też przyjmuje się, że pozycje testowe powinny reprezentować czy odtwarzać interesujące nas uniwersum odpowiednio proporcjonalnie (por. Cohen, Swerdlik, 1999; Ana-stasi, Urbina, 1999).
Dany test jest zatem trafny treściowo wtedy, kiedy spełnione są oba warunki:
a)  wszystkie pozycje tego testu należą do zdefiniowanego uniwersum, oraz
b)  cały test proporcjonalnie reprezentuje zdefiniowane uniwersum.
I tak, jeżeli w teście z matematyki znajdą się pytania z fizyki, to powiemy, że test nie jest trafny w sensie warunku pierwszego. Jeżeli natomiast w tym samym teście z matematyki 90% pytań dotyczyć będzie wiedzy z geometrii, a tylko 10% pozostałych treści, test ten również nie będzie trafny treściowo, gdyż tym razem nie został spełniony warunek drugi (por. rys. 3.2).
W jaki sposób zatem można praktycznie określić trafność treściową testu? Najprostszym sposobem jest przeprowadzenie analizy logicznej (stąd inna nazwa tego rodzaju trafności) treści testu. Dysponując definicją uniwersum, możemy poprosić sędziów-ekspertów o ocenę stopnia, w jakim każda pozycja testowa reprezentuje to uniwersum. Analizując każdą pozycję oddzielnie, a następnie cały zbiór pozycji, możemy określić, czy skonstruowany test spełnia oba warunki trafności treściowej.
Prostą ilościową metodę obliczania zgodności ocen sędziów przedstawił Lawshe (1975)5. Metoda ta polega na poproszeniu każdego sędziego-eksperta o wyrażenie swojej opinii o każdej proponowanej pozycji testowej na następującej skali: • pozycja ta ma zasadnicze znaczenie dla testu;
•  pozycja ta jest użyteczna, jednak nie ma zasadniczego znaczenia;
•  pozycja ta nie powinna znaleźć się w obrębie testu.
Następnie notuje się, ilu sędziów przyznało danej pozycji zasadnicze znaczenie. Według Lawshego (ibidem), jeżeli więcej niż połowa sędziów
5 Jako miarę zgodności ocen sędziowskich możemy też wykorzystać współczynnik zgodności ocen sędziów W Kendalla (por. np. Brzeziński, 1978).
87
Rozdział 3
Rys. 3.2. Kiedy test jest trafny treściowo?
Uniwersum treści (U) ogólny zbiór wszystkich możliwych bodźców wywołujących pożądane zachowania testowe
/



Test (T)
próba pochodząca z uniwersum treści (podzbiór zbioru ogólnego)


Test jest trafny treściowo, jeżeli (1) wszystkie pozycje tego testu należą do zdefiniowanego uniwersum oraz (2) cały podzbiór reprezentuje uniwersum treści
a) warunek (1) nie został spełniony


.
b) warunek (2) nie został spełniony         TEST JEST TRAFNY TREŚCIOWO
U
T
'.»


88
c) warunki (1) i (2) nie zostały spełnione
uzna daną pozycję za istotną dla testu, można przyjąć, że pozycja ta jest trafna treściowo. Im większy stopień zgodności sędziów co do znaczenia danej pozycji testowej, tym oczywiście większa jej trafność treściowa (por. też Cohen, Swerdlik, 1999, s. 179). Wychodząc z tego założenia, Lawshe (1975, s. 569) zaproponował metodę, którą określił jako współczynnik trafności treściowej (CVR - ang. content validity ratid):
UT
Trafność, czyli określanie obszaru zastosowania testu


CVR =
ne-N/2

N/2
gdzie: ne oznacza liczbę sędziów, którzy określili daną pozycję testową jako „zasadniczą" dla testu, a N oznacza ogólną liczbę sędziów. Współczynnik trafności treściowej może mieć wartość ujemną (mniej niż połowa sędziów uznała daną pozycję za zasadniczą dla testu), może wynosić zero (zrobiła to dokładnie połowa sędziów) i wartość dodatnią (więcej niż połowa sędziów pozytywnie oceniła daną pozycję). Lawshe (1975) zaleca, aby z ostatecznej wersji testu eliminować te pozycje, dla których szansa, iż zaobserwowana zgodność sędziów ma u swojego podłoża wyłącznie czynniki przypadkowe, jest większa niż 5% (por. tab. 3.1, która zawiera odpowiednie wartości krytyczne).
Tab. 3.1. Minimalne wartości współczynnika trafności treściowej (CVR), pozwalające uznać otrzymaną wielkość CVR za istotną statystycznie (dla a = 0,05) (opracowano na podstawie Lawshe, 1975, s. 573)

Liczba sędziówMinimalna wartość wskaźnika CVR50,9960,9970,9980,7890,75100,62110,59120,56130,54140,51150,49200,42250,37300,33350,31400,29Trafność treściową analizuje się szczególnie w wypadku testów wiadomości, testów umiejętności i osiągnięć szkolnych oraz niektórych testów uzdolnień. Ma ona jednak również znaczenie w wypadku testów zawodowych lub
stów zorientowanych na kryterium (por. Anastasi, Urbina, 1999, s. 162).

89
Rozdział 3

Trafność kryterialna
Drugim rodzajem trafności jest trafność kryterialna. Ten rodzaj trafności mówi nam, w jakim stopniu wyniki danego testu są powiązane z jakąś inną zmienną, zewnętrzną w stosunku do tego testu. Tę zmienną nazywamy kryterium. Trafność kryterialna jest wyznaczana przez stopień zgodności dwóch pomiarów: zmiennej testowej i zmiennej kryterialnej (por. Jakubowski, 1983).
Definicja kryterium. Kryterium jest to zatem pewien standard, względem którego ocenia się jakość wyników testowych. Innymi słowy, możemy powiedzieć, że
a)  kryterium jest to pewne zachowanie czy właściwość, o której chcemy wnioskować na podstawie wyników danego testu,
b)  jest to zmienna pozatestowa, oraz
c)  kryterium jest pomiarem innej zmiennej niż ta, którą bezpośrednio mierzy test.
I tak np. na podstawie testu rozwoju poznawczego możemy określić postępy szkolne dziecka (kryterium), na podstawie wyników w teście rysowania figur geometrycznych możemy określić stopień uszkodzenia ośrodkowego układu nerwowego (kryterium), na podstawie wyników testu koordynacji wzrokowej możemy określić przydatność do zawodu pilota (kryterium), a na podstawie wyników testu temperamentu możemy określić, jakie jest ryzyko zachorowania na chorobę alkoholową (kryterium).
Cechy kryterium. Każda zmienna, którą chcemy wykorzystać jako kryterium, powinna dawać - podobnie jak test - rzetelne wyniki. Rzetelność kryterium pozostaje bowiem w bezpośredniej zależności z trafnością kryterialna testu6.
Powinna to być także zmienna istotna (adekwatna) z punktu widzenia tego, co mierzy dany test. Chcąc np. na podstawie wyników testu wiadomości dotyczącego udzielania pierwszej pomocy określić-powodzenie w zawodzie pielęgniarki, możemy - jako zmienną kryterialna - wybrać obserwację przyszłych pielęgniarek w trakcie stażu w szpitalu. Trudno natomiast uznać, że np. ich stosunek do zwierząt byłby tu istotną zmienną kryterialna (choć oczywiście i w tym wypadku osoba uparta mogłaby poszukać sensownego uzasadnienia). Należy zatem starannie wybierać zmienną kryterialna, pamiętając, że każdy test może zostać sprawdzony w stosunku do wielu zmiennych kryterialnych. Tych zmiennych może być tyle, ile jest potencjalnych za-
6 Związek między trafnością kryterialna a rzetelnością kryterium jest wyrażany jako (por. Magnusson, 1981, s. 218-220):
90
gdzie: r,k oznacza współczynnik trafności kryterialnej, r„ jest współczynnikiem rzetelności testu, a rtt jest współczynnikiem rzetelności kryterium. Innymi słowy, współczynnik trafności kryterialnej jest mniejszy lub równy pierwiastkowi iloczynu współczynnika rzetelności testu i kryterium. Im mniejsza będzie zatem rzetelność testu lub kryterium, tym mniejsza trafność kryterialna testu.
Trafność, czyli określanie obszaru zastosowania testu
stosowan danego testu. Jednakże ważne jest, aby były to zmienne adekwatnie dobrane.
Ponadto powinna to być zmienna trafna z punktu widzenia celu pomiaru. Jeżeli test A ma być wykorzystywany jako kryterium dla testu B, to oczywiście musi być on trafnym narzędziem pomiarowym. Jeżeli np. chcemy wykorzystać, jako dane kryterialne, diagnozy lekarskie, to powinniśmy wcześniej sprawdzić, na ile są one trafne.
Kontaminacja kryterium. Kolejnym problemem związanym z oceną wyników dla zmiennej kryterialnej jest problem tzw. kontaminacji kryterium (ang. criterion contaminatioń). Z problemem kontaminacji („skażenia") kryterium mamy do czynienia wtedy, kiedy znajomość wyników, jakie osoba badana uzyskała w teście, może wpływać na ocenę wyniku tej osoby względem analizowanej zmiennej kryterialnej. Przypuśćmy np., że interesuje nas możliwość określania - na podstawie wyników w teście MMPI - takiego kryterium, jakim jest rodzaj zaburzenia psychicznego funkcjonowania. W trakcie badań, czekając na wyniki ekspertyz psychiatrycznych (miara kryterium), poinformowaliśmy psychiatrów, jakie wyniki otrzymały osoby badane w teście MMPI. Czy może to w jakiś sposób wpłynąć na oceny psychiatrów? Musimy założyć, że tak! Psychiatrzy mogą bowiem - niekoniecznie świadomie - kierować się tymi informacjami. W efekcie uzyskamy wysoki stopień podobieństwa między wynikami testu a wynikami kryterium - co przecież jest wyraźnym artefaktem (por. Anastasi, Urbina, 1999, s. 166-167; patrz też Crocker, Algina, 1986, s. 226).
Współczynnik trafności kryterialnej. W jaki sposób zatem możemy formalnie wyrazić trafność kryterialną? Trafność kryterialna jest wyrażana w postaci współczynnika korelacji między wynikami testu a wynikami zmiennej kryterialnej, zebranymi dla tej samej grupy badanych osób. Im wyższa wartość współczynnika korelacji, tym wyższa trafność kryterialna testu. Zazwyczaj jako ocenę stopnia trafności kryterialnej stosuje się współczynnik korelacji r Pearsona, jednakże w zależności od charakteru zebranych danych (skala pomiarowa czy kształt rozkładu) można (a nawet należy) wykorzystywać inne miary siły związku (np. współczynnik rho Spearmana).
Podobnie jak w wypadku współczynnika rzetelności, tak i w wypadku współczynnika trafności czynnikiem wpływającym na wielkość korelacji jest zakres mierzonej cechy. Im mniejszy zakres (im mniejsze rozproszenie wyników), tym mniejszą wartość współczynnika korelacji otrzymamy. Dlatego planując badania walidacyjne, trzeba uważać, aby nie zawęzić badanej próby (np. badając tylko pacjentów hospitalizowanych i tylko jednego oddziału), gdyż w ten sposób zmniejszymy wariancję wyników, czyli otrzymamy niższy współczynnik trafności kryterialnej. Z drugiej zaś strony stosując test o znanej trafności kryterialnej do grupy osób o mniejszym zróżnicowaniu mierzonej cechy (np. grupy kandydatów poddanych preselekcji), powinniśmy pamiętać o możliwości zmniejszenia się trafności tego testu. Żadna decyzja nie powinna być podejmowana mechanicznie!
91
Rozdział 3

Kolejnym czynnikiem wpływającym na wielkość współczynnika trafności jest rzetelność, i to zarówno testu, jak i kryterium. Ponieważ stosowane przez nas testy i kryteria nigdy nie są idealnie rzetelne (por. przyp. 6), tym samym otrzymany empirycznie współczynnik trafności jest zazwyczaj niższy niż współczynnik, jaki otrzymalibyśmy wtedy, kiedy obie zmienne byłyby wolne od błędu. I dlatego kiedy zainteresowani jesteśmy oceną związku między wynikami prawdziwymi dla obu zmiennych, możemy zastosować tzw. poprawkę na obniżenie wielkości współczynnika (por. Magnusson, 1981, s. 218). Poprawka ta wskazuje, jaką maksymalną trafność kryterialną otrzymalibyśmy wtedy, kiedy test i kryterium byłyby całkowicie rzetelne:



gdzie: rtk oznacza współczynnik trafności kryterialnej, r„ współczynnik rzetelności testu, a rw współczynnik rzetelności kryterium. Np. w sytuacji, w której wartość współczynnika korelacji między wynikami testu a kryterium wynosi 0,80, rzetelność testu 0,96, a rzetelność kryterium 0,85, współczynnik trafności kryterialnej dla całkowicie rzetelnego testu i kryterium wynosiłby:
0,80
V(0,96)(0,85)
= 0,88

92
I
Poprawka ta bywa zazwyczaj wykorzystywana wtedy, kiedy istnieje potrzeba porównania ze sobą kilku współczynników trafności kryterialnej, uzyskanych dla kryteriów o różnym stopniu rzetelności (por. Magnusson, 1981, s. 219). tt Trafność diagnostyczna. Omawiając różne sposoby wyprowadzania wniosków o trafności kryterialnej testu, posługiwaliśmy się dwoma rodzajami przykładów. Pierwszy dotyczył sytuacji, w których na podstawie wyników ocenianego testu chcieliśmy wnioskować o zachowaniu (czy poziomie cechy) aktualnie występującym u osoby badanej. Było tak np. wtedy, kiedy na podstawie wyników testu MMPI (np. na podstawie wskaźnika nasilenia patologii - por. Modlin, 1947) chcieliśmy wnioskować o stopniu zaburzeń w funkcjonowaniu osób badanych.
k< Taki rodzaj trafności kryterialnej, w którym kryterium dla ocenianego testu jest pomiar zachowania lub cechy aktualnie występującej u osoby badanej, nazywa się trafnością diagnostyczną. Istotę trafności diagnostycznej można zobrazować za pomocą następującego pytania: „Czy osoba badana posiada cechę X?" (np. czy jest neurotykiem?). Dane testowe i dane kryterial-ne w tym wypadku zbiera się w tym samym czasie (por. Anastasi, Urbina, 1999, s. 165-166; Cohen, Swerdlik, 1999, s. 183-184; Jakubowski, 1983, s. 228).
Można w takim razie zadać sobie następujące pytanie: po co opracowywać trafność kryterialną testu i stosować test, jeżeli w tym samym czasie mamy
Trafność, czyli określanie obszaru zastosowania testu
bezpośredni dostęp do kryterium? Testy są zazwyczaj prostszym, szybszym, a więc po prostu bardziej ekonomicznym sposobem uzyskania tych informacji, jakie uzyskalibyśmy, zbierając dane kryterialne. Lepiej jest np. skorzystać z wyników trafnego testu niż prowadzić długotrwałą obserwację osoby badanej (por. Anastasi, Urbina, 1999, s. 166).
Trafność prognostyczna. Druga z opisywanych sytuacji obejmowała takie przykłady, w których wyniki testowe były wykorzystywane do przewidywania przyszłego zachowania osób badanych. Taki rodzaj trafności kryterialnej, w którym kryterium dla ocenianego testu jest pomiar zachowania lub cechy występującej w przyszłości u osoby badanej, nazywa się trafnością prognostyczną. Istotę trafności prognostycznej można zobrazować za pomocą następującego pytania: „Jakie jest prawdopodobieństwo tego, że osoba badana będzie posiadać cechę X?" (np. czy stanie się neurotykiem?). Dane testowe i dane kryterialne w tym wypadku zbiera się w różnym czasie - ściśle rzecz biorąc, dane kryterialne zbiera się znacznie później niż dane testowe (por. Anastasi, Urbina, 1999, s. 165-166; Cohen, Swerdlik, 1999, s. 183-184; Jakubowski, 1983, s. 228).
Testy o znanej trafności prognostycznej są szczególnie przydatne dla potrzeb selekcji i klasyfikacji (rekrutacja pracowników, przyjmowanie do zawodów wymagających szczególnych predyspozycji, ocena ryzyka pojawienia się późniejszych zaburzeń zachowania, itd.).
Warto w tym miejscu podkreślić, że różnica między trafnością diagnostyczną a trafnością prognostyczną nie polega na różnicy czasu w zbieraniu danych kryterialnych (tu i teraz w wypadku trafności diagnostycznej i później, w przyszłości - w wypadku trafności prognostycznej). Podstawowa różnica polega tu na różnym przedmiocie badania: przy diagnozie interesuje nas ocena stanu istniejącego, przy prognozie zaś - przewidywanie skutków stanu aktualnego. Wysoka trafność diagnostyczna testu nie gwarantuje jeszcze jego wysokiej trafności prognostycznej (Edwards, 1970, s. 49).
Zamykając problem trafności kryterialnej, zwróćmy uwagę na jeszcze jeden problem. Tak jak do obowiązków autora testu należy przedstawianie danych empirycznych na temat trafności kryterialnej testu, tak do obowiązków użytkownika testu należy staranne czytanie tych danych i ich ocena w świetle własnych potrzeb. Użytkownik testu powinien umieć określić, czy na ich podstawie może wykorzystywać test do takich, a nie innych celów, czy charakterystyki próby, na której przeprowadzono badania walidacyjne, odpowiadają charakterystykom tej grupy osób, dla której test ma być stosowany, wreszcie: czy podane współczynniki trafności są wystarczająco wysokie. Tę ostatnią decyzję użytkownik testu musi podjąć sam, biorąc pod uwagę własny, indywidualny cel zastosowania testu7.
7 Cronbach i Gleser (1965) byli zdecydowanie przeciwni podawaniu jakichkolwiek sztywnych reguł pozwalających uznać dany współczynnik trafności za wystarczająco wysoki. Ich zdaniem tylko użytkownik testu jest w stanie podjąć taką decyzję odpowiedzialnie i nic (zwłaszcza arbitralnie ustalane granice) nie powinno go z tego zwalniać.

93
Rozdział 3



94
Trafność teoretyczna
Trafność teoretyczna jest oceną stopnia, w jakim dany test odzwierciedla cechę psychologiczną (konstrukt), która ma być przedmiotem pomiaru. Mówiąc inaczej, trafność teoretyczna pokazuje na związek między cechą psychologiczną, wywodzącą się z określonej teorii psychologicznej, a narzędziem pomiarowym (testem), będącym operacjonalizacją owej cechy (por. Brzeziński, 1996; Jakubowski, 1983; Anastasi, Urbina, 1999).
„«Konstrukt psychologiczny* jest pewnym pojęciem teoretycznym, które wprowadzono po to, aby wyjaśnić i uporządkować niektóre fragmenty istniejącej wiedzy" (Standardy..., 1985a, s. 38). Konstruktami są pojęcia, takie jak „lęk", „satysfakcja z pracy", „inteligencja", „przystosowanie emocjonalne" czy „twórczość". Pojęcia te są nieobserwowalne, zaś test jest traktowany jako sposób ich operacyjnego definiowania. Bez potwierdzenia tego, że test jest trafny teoretycznie, tzn. że odpowiedzi na pozycje tego testu można potraktować jako sposób przejawiania się określonej cechy, wyniki testu są psychologicznie nieużyteczne. Trafność teoretyczna odpowiada wprost na pytanie o przedmiot pomiaru testowego.
Ze względu na istotę informacji, jakie przynosi znajomość trafność teoretycznej testu, już Loevinger (1957) postulowała, że jest to najważniejszy rodzaj trafności. Campbell (1960), Cronbach (1970), Guion (1980) i Messick (1989) przyczynili się do współczesnego rozumienia, czym jest trafność testu, twierdząc, że można mówić tylko o trafności teoretycznej, która obejmuje i podsumowuje wszystkie rodzaje informacji. I tak zarówno trafność treściowa, jak i trafność kryterialna powinny być traktowane jako aspekty trafności. Podobnie sądzą Anastasi i Urbina (1999, s. 187), które piszą, że: „(...) trafność treściowa, kryterialna i teoretyczna nie stanowią odrębnych ani logicznie równorzędnych kategorii. Wręcz przeciwnie, trafność teoretyczna jest szerokim pojęciem, które zawiera w sobie inne rodzaje trafności".
Istotą procesu oceny trafności teoretycznej testu jest odwołanie się do teorii mierzonej cechy. Teoria ta powinna opisywać wewnętrzną strukturę konstruktu, sposób powiązania konstruktu z jego wskaźnikami i związki konstruktu z innymi zmiennymi (por. Lord i Novick, 1968; Hornowska, 1989, 2000a). Z teorii tej wyprowadzane następnie są hipotezy, które poddaje się weryfikacji, wykorzystując w tym celu wyniki testowe.
W literaturze przedmiotu opisano wiele metod badania trafności teoretycznej testu. Powszechnie akceptuje się podział metod badania trafności teoretycznej, wprowadzony już przez Cronbacha i Meehla (1955; por. też Anastasi, Urbina, 1999; Brzeziński, 1996; Cohen, Swerdlik, 1999; Jakubowski, 1983; Magnusson, 1981). Również w niniejszej pracy podział ten zostanie wykorzystany jako sposób organizacji prezentowanego materiału.
Do podstawowych metod badania trafności teoretycznej testu należą:
•  analiza różnic międzygrupowych
•  analiza macierzy korelacji
Trafność, czyli określanie obszaru zastosowania testu
•  analiza czynnikowa
•  analiza struktury wewnętrznej testu
•  analiza zmian nieprzypadkowych wyników testu
•  analiza procesu rozwiązywania testu Omówimy je pokrótce.
Analiza różnic międzygrupowych. Metoda ta polega na weryfikowaniu hipotez dotyczących różnego zachowania się dwóch grup osób. Hipotezy te wyprowadzane są z teorii mierzonej cechy, a badane grupy różnią się ze względu na ogólny wynik w teście. Są to zatem grupy różniące się nasileniem cechy badanej przez test. Najczęściej są to tzw. grupy skrajne, tj. grupa o niskich wynikach oraz grupa o wysokich wynikach w teście.
Istota tej metody polega na przyjęciu następującego założenia: jeżeli test jest trafną miarą określonego konstruktu, to wyniki testowe otrzymane przez osoby różniące się między sobą ze względu na ten konstrukt także powinny być różne.
Wyobraźmy sobie, że skonstruowaliśmy test religijności8. Z teorii zachowań religijnych, leżącej u podstaw naszego testu, wyprowadzamy następującą hipotezę: osoby o wysokim stopniu religijności częściej biorą aktywny udział w życiu Kościoła w porównaniu z osobami o niskim stopniu religijności. Następnie badamy grupę osób naszym testem i na podstawie uzyskanych wyników testowych dzielimy te osoby na dwie grupy: osoby
0 wysokim stopniu religijności (wysokie wyniki w teście) oraz osoby o niskim stopniu religijności (niskie wyniki w teście). Dalej przeprowadzamy wywiad z każdą z badanych osób, rejestrując, w jakim stopniu i jak często uczestniczy ona w życiu Kościoła. Zgodnie z naszą hipotezą oczekujemy, że średnie wyniki dotyczące uczestniczenia w życiu Kościoła powinny być statystycznie różne w obu grupach.
A oto inny przykład (za Cohen, Swerdlik, 1999, s. 201). Roach i współpracownicy (1981) postanowili sprawdzić trafność teoretyczną skonstruowanej przez siebie „Skali Zadowolenia z Małżeństwa". Zgodnie z hipotezą oczekiwali, że w grupie osób o wysokich wynikach oceny jakości związku małżeńskiego badanych osób, dokonywane przez ich rówieśników i profesjonalnych terapeutów, będą wyższe niż w grupie o niskich wynikach.
I jeszcze inny przykład. Matczak z zespołem (1995), sprawdzając trafność teoretyczną skonstruowanej przez siebie skali inteligencji ogólnej APIS-Z, przyjęła następującą hipotezę: wyniki ocenianego testu będą się różnić w zależności od wykształcenia osób badanych. Inteligencja skrystalizowana, a taką ma mierzyć APIS-Z, jest bowiem także funkcją kształcenia (Matczak
1 inni, 1995, s. 44). Przeprowadzone badania, w których analizowano różnicę między średnimi wynikami testu w grupie studentów i uczniów, potwierdziły
8 Rzeczywisty przykład badania trafności teoretycznej skali postaw wobec Kościoła Thur-stone'a i Chave'a podają Cronbach i Meehl (1955).                                                                    95
Rozdział 3
zakładaną hipotezę, przemawiając tym samym na rzecz trafności teoretycznej tego narzędzia.
Każdy z tych trzech przykładów pokazuje nieco inne zastosowanie techniki analizowania różnic międzygrupowych do badania trafności teoretycznej testu. Jednak istota tej technika pozostaje niezmieniona: punktem wyjścia jest zawsze hipoteza sformułowana na podstawie teorii mierzonej cechy, a jej weryfikacji dokonuje się, oceniając różnicę między wynikami testowymi w dwóch grupach osób, które różnią się ze względu na mierzony konstrukt.
Przykłady te wskazują również na to, że proces oceny obszaru trafności teoretycznej testu w zasadzie nigdy się nie kończy. Możemy bowiem przeprowadzić tyle badań, ile sensownych hipotez jesteśmy w stanie sformułować. Weryfikacja (bądź brak weryfikacji) każdej hipotezy przyczynia się do lepszego zrozumienia mierzonego konstruktu. Pamiętajmy jednak: potwierdzenie hipotezy wyprowadzonej z teorii jednego testu nigdy nie może być wykorzystywane na rzecz potwierdzenia trafności innego testu!
Analiza macierzy korelacji. Drugą metodą oceny trafności teoretycznej testu jest analiza współczynników korelacji wyników analizowanego testu z innymi testami. Generalnie oczekuje się, że korelacje wyników ocenianego testu z wynikami testów mierzących podobne cechy powinny być wysokie, zaś korelacje z wynikami testów mierzących inne cechy powinny być niskie. Do szczególnie znanych i zalecanych metod wypracowanych w tej grupie technik należy tzw. analiza macierzy wielu cech-wielu metod, opracowana przez Campbella i Fiskego (1959).
Metoda ta polega na dokonaniu pomiaru dwóch lub więcej niezależnych cech za pomocą dwóch lub więcej niezależnych metod (np. kwestionariuszy, ocen obserwatorów i technik projekcyjnych). Następnie sporządza się macierz korelacji dla wszystkich cech i wszystkich metod. Zgodnie ze stanowiskiem Campbella i Fiskego (1959), aby dany test można było uznać za trafny teoretycznie, nie wystarczy tylko wykazać, że jego wyniki korelują odpowiednio wysoko z wynikami podobnych testów (tzw. aspekt zbieżny trafności), ale i że nie korelują one z wynikami testów mierzących inne cechy (tzw. aspekt różnicowy trafności)9.
Współcześnie podkreśla się, że tylko pełna informacja (tj. zarówno o aspekcie zbieżnym, jak i aspekcie różnicowym) pozwala uznać dany test za trafny teoretycznie (por. Gaul 1989; Standardy..., 1985b; a także stanowisko polskich autorów zajmujących się zagadnieniami psychometrycznymi: Brzeziński, 1996; Drwal, 1995). Analiza „macierzy wielu cech-wielu metod" dostarcza takich danych i pozwala na przełamanie niechlubnej praktyki w tym względzie. Owa praktyka to dominacja badań poświęconych wyłącznie szukaniu danych dotyczących trafności zbieżnej. Ciągle jeszcze można

96
9 Metodę Campbella i Fiskego szczegółowo omawia Brzeziński (1996, s. 525-532), a także Anastasi i Urbina (1999, s. 179-182).
Trafność, czyli określanie obszaru zastosowania testu
spotkać testy, w których jedynymi danymi, jakie przytacza się na rzecz trafności teoretycznej, są wartości współczynników korelacji z innymi, mierzącymi podobne konstrukty, testami. Jak pisze Drwal (1995, s. 27), niektóre przytaczane korelacje zamiast świadczyć na rzecz trafności testu zdecydowanie jej zaprzeczają. Dlatego też - podkreślmy raz jeszcze - pełne, korelacyjne badanie trafności teoretycznej powinno dotyczyć obu jej aspektów: zbieżnego i różnicowego.
Przykładem zastosowania tej metody do oceny trafności teoretycznej testu mogą być badania przeprowadzone przez Brzozowskiego i Drwala (1995) w trakcie opracowywania przez nich polskiej adaptacji „Kwestionariusza Osobowości" Eysencka. Autorzy ci zastosowali zmodyfikowaną analizę macierzy wielu cech-wielu metod i uzyskali dane potwierdzające wysoką trafność zbieżną i różnicową przygotowywanej przez siebie metody (ibidem, s. 62-63).
Analiza czynnikowa. Kolejną metodą stosowaną w badaniu trafności teoretycznej jest również metoda, w której podstawą jest analiza korelacji. Tą metodą jest analiza czynnikowa.
Mówiąc najprościej, „cel analizy czynnikowej można ująć w sposób następujący: jest nim odnalezienie nowej grupy zmiennych, mniej licznej niż grupa zmiennych oryginalnych, które wyrażają to, co jest wspólne między oryginalnymi zmiennymi. Jest więc to technika statystyczna używana do identyfikowania relatywnie małych grup czynników, mogących reprezentować relacje między grupami wielu wzajemnie skorelowanych zmiennych" (Zakrzewska, 1994, s. 7).
W jaki sposób można wykorzystać technikę analizy czynnikowej do badania trafności testu? Przede wszystkim pozwala ona sprawdzić, czy otrzymane dane empiryczne są zgodne z zakładaną strukturą teoretyczną testu. Mówiąc inaczej, czynniki otrzymane w wyniku zastosowania analizy czynnikowej powinny odpowiadać teoretycznie zakładanym wymiarom (ich operacjonalizacją są najczęściej tzw. podskale w teście).
I tak np. przyjmuje się, że wariancję wyników otrzymanych w jedenastu testach Skali Wechslera WAIS-R można wyjaśnić trzema czynnikami: rozumowania werbalnego, organizacji percepcyjnej oraz pamięci i odporności na dystraktory (por. Zakrzewska, 1993, s. 302; 1997; 2000). Wyniki przeprowadzonych badań potwierdzają tę hipotezę (ibidem).
Z kolei Brzozowski i Drwal (1995) zastosowali metodę analizy czynnikowej do oceny trafności teoretycznej wspomnianego już „Kwestionariusza Osobowości" Eysencka. Zgodnie z założeniami teoretycznymi oczekiwali ujawnienia się czterech czynników odpowiadających zakładanym czterem wymiarom teoretycznym kwestionariusza. Przeprowadzona przez nich analiza potwierdziła, że cztery najsilniejsze czynniki w kwestionariuszu są zgodne z czterema wyodrębnionymi skalami: neurotycznością, ekstrawersją, kłamstwem i psychotycznością (ibidem, s. 64).
Stosowanie metody analizy czynnikowej wymaga przebadania stosunkowo dużej grupy (nie mniejszej niż 100-200 osób) i umiejętności podjęcia decyzji     97
Rozdział 3
technicznych, takich jak wybór metody szacowania zasobu zmienności wspólnej czy wybór kryterium rotacji czynników. Nie jest to zatem metoda polecana dla osób z podstawową tylko wiedzą statystyczną. Jednakże dzięki obecności literatury fachowej (zob. zwłaszcza Zakrzewska, 1994) oraz dostępności pakietów statystycznych można sądzić, że zainteresowanie polskich psychologów tą metodą analizy trafności teoretycznej będzie rosło.
Analiza struktury wewnętrznej testu. Termin zgodność wewnętrzna (homo-geniczność) zasadniczo oznacza stopień, w jakim dany test można uznać za miarę jednego konstruktu. Jeżeli można przyjąć w świetle teorii, że mierzona cecha jest cechą homogeniczną, to wysoki współczynnik zgodności wewnętrznej może być traktowany jako dowód trafności teoretycznej testu.
Jedną z metod szacowania stopnia zgodności wewnętrznej jest analiza współczynników korelacji między wynikiem każdej pozycji testu a ogólnym wynikiem w tym teście. Istotą tej metody jest poszukiwanie takich pozycji testowych, które różnicują badaną grupę osób w takim samym kierunku co cały test, i eliminowanie tych pozycji, które nie spełniają tego warunku. Można również zastosować tę metodę, biorąc pod uwagę poszczególne skale, z których składa się cały test. Analizując wielkość korelacji między wynikami w poszczególnych skalach a ogólnym wynikiem w teście, można ocenić, na ile dany test jest jednorodnym narzędziem.
W taki sposób m.in. oceniano trafność teoretyczną Skali Inteligencji W AIS - R. W polskich badaniach standaryzacyjnych i normalizacyjnych otrzymano następujące współczynniki korelacji między poszczególnymi testami a ogólnym wynikiem odpowiednio wSkali Pełnej, Skali Słownej i Skali   Bezsłownej (por. Brzeziński i in., 1996, s. 42):
Współczynniki korelacji między poszczególnymi testami a ogólnym wynikiem w Skali Pełnej, Skali Słownej i Skali Bezsłownej w teście WAIS-R
98
Grupa wiekowa 20-24 lataTestSkala PełnaSkala SłownaSkala BezsłownaWiadomości0,7890,8640,551Powtarzanie Cyfr0,6750,7330,481Słownik0,8360,8820,631Arytmetyka0,7810,7930,633Rozumienie0,8060,8160,656Podobieństwa07760.8050,606Braki w Obrazkach0,6810,5750,717Porządkowanie Obrazków0,6750,5710,710Klocki0,6450,5060,734Układanki0,5340,3680,680Symbole Cyfr0,6290,5270,668Trafność,
 określanie obszaru zastosowania testu
Chociaż homogeniczność testu jest pożądaną jego właściwością (gwarantuje, że wszystkie jego elementy składowe mierzą „to samo"), nie można jednak jej traktować jako wyczerpującej informacji o trafności teoretycznej testu. Pozwala ona scharakteryzować mierzony konstrukt, lecz nic nie mówi
0  związkach mierzonego konstruktu z innymi cechami czy zachowaniami. Dlatego też informacje na temat stopnia homogeniczności danej metody można traktować jedynie jako dane uzupełniające wnioski o trafności teoretycznej testu (por. Anastasi, Urbina, 1999, s. 178-179).
Analiza zmian nieprzypadkowych wyników testu. Ta metoda badania trafności teoretycznej polega z kolei na porównywaniu wyników dwukrotnego badania tym samym testem10. W przerwie między badaniami wprowadza się oddziaływanie eksperymentalne, wyprowadzone z teorii mierzonej cechy. Wynik porównywania powinien być zgodny z założonymi efektami manipulacji (a więc wyniki tzw. post-testu powinny się obniżyć albo podwyższyć).
Najczęściej taką formą manipulacji, po której oczekujemy zmiany w wynikach testowych, jest formalne kształcenie, terapia, cykl leczenia czy zwiększanie doświadczeń związanych z wykonywaną pracą. Jednakże dokładne określenie czynników, które mogą zmienić wyniki testowe w określonym kierunku, jest możliwe jedynie w kontekście ocenianego testu.
Tę metodę sprawdzania trafności teoretycznej zastosował sam Eysenck (2000, s. 81-82), pracując nad skonstruowanym przez siebie „Kwestionariuszem Osobowości" (por. też Jakubowski, 1983). Jedna z hipotez, jaką postawił, dotyczyła wymiaru introwersji-ekstrawersji. Eysenck mianowicie przyjął, że u introwertyków silniejsze są procesy pobudzenia od procesów hamowania. Dlatego też podanie im leków uspokajających wzmocni procesy hamowania korowego, prowadząc w efekcie do zmian zachowania na bardziej ekstrawer-tywne. I odwrotnie, podanie leków pobudzających powinno wzmocnić procesy pobudzenia korowego i prowadzić do zmian zachowania na bardziej introwertywne. Przeprowadzone badania empiryczne potwierdziły ten punkt widzenia (pod działaniem leku uspokajającego zaobserwowano wzrost wyników w tej skali, a pod działaniem leku pobudzającego - ich spadek).
Stosowanie tej metody wymaga starannego zaplanowania procedury eksperymentalnej (szczególnie pod kątem jej trafności teoretycznej, wewnętrznej
1 zewnętrznej), tylko wtedy bowiem można przypisać zaobserwowane efekty końcowe tym czynnikom, które były przedmiotem manipulacji (por. szczegółowe kompendium wiedzy na temat stosowania eksperymentu w psychologii - Brzeziński, 2000).
Analiza procesu rozwiązywania testu. Ostatnią z prezentowanych metod badania trafności teoretycznej jest analiza procesu rozwiązywania testu11.
10  Pierwsze badanie nazywane jest pre-testem, a drugie post-testem; technika ta jest również znana jako analiza zmian między pre-testem a post-testem.
11  Inne metody (w tym modelowanie za pomocą równań strukturalnych) można znaleźć u Anastasi i Urbiny (1999).
99
Rozdział 3
Metoda ta w pewnym sensie powstała jako wyraz uznania dla dorobku psychologii poznawczej i polega na analizowaniu zadań testowych z punktu widzenia procesów przetwarzania informacji. Obserwacja kolejności wykonywanych czynności, elementów zadania sprawiających najwięcej trudności, elementów pomijanych, popełnianych błędów (taką analizę przeprowadzał już Raven - por. Hornowski, 1970; też Okręglicka-Forysiak, 1993) czy analiza czasu potrzebnego do udzielenia odpowiedzi są wykorzystywane jako źródło informacji o mierzonym konstrukcie.
Szczególnie ciekawą propozycją w tym zakresie jest technika dekompozycji zadania zaproponowana przez Embretson (1985; też Anastasi, Urbina, 1999). Technika ta - mówiąc najprościej - polega na eksperymentalnym manipulowaniu złożonością zadania, liczbą dostarczanych wskazówek, kolejnością prezentowania jego elementów po to, aby określić, jakie procesy przetwarzania informacji są zaangażowane w rozwiązanie określonych zadań i jaka wiedza jest w tym celu niezbędna.
Technika ta - ciągle jeszcze traktowana jako zbyt nowa -jest niedoceniana jako metoda badania trafności teoretycznej testu. Pozwala ona na wgląd w procesy odpowiadania na pozycje testu, zmieniając dotychczasową koncentrację na analizie samych odpowiedzi. „Co więcej -jak piszą Anastasi i Urbina (1999, s. 186-187) - analiza indywidualnych wyników odwołująca się do elementarnych procesów, które do nich doprowadziły, powinna wreszcie umożliwić dokładne określenie, jakie są źródła mocnych i słabych stron każdej osoby, a co za tym idzie - zwiększyć diagnostyczną wartość testów".
3.4. STRONNICZOŚĆ TESTÓW12
Wraz z pierwszym praktycznym zastosowaniem testów inteligencji pojawiło się pytanie o to, czy różne wyniki testowe uzyskiwane przez wyodrębnione grupy badanych osób odzwierciedlają rzeczywiste różnice inteligencji, czy też jest to efekt „przychylności" zastosowanego narzędzia pomiarowego wobec pewnych grup osób, tj. „stronniczości" testów psychologicznych (ang. test bias). Już bowiem w roku 1905 Binet i Simon (por. 1905a, 1905b, 1905c, 1916) zwrócili uwagę na fakt, że skonstruowana przez nich metoda, która wystandaryzowana została na grupie dzieci paryskich robotników, daje zdecydowanie wyższe wyniki w wypadku dzieci pochodzących ze środowisk o wyższym statusie społecznym. Podobny efekt opisany został w latach 30. przez psychologów belgijskich, niemieckich i amerykańskich (Jensen, 1980).

100
12 Szerokie omówienie problematyki stronniczości testów psychologicznych wraz z praktycznymi wskazówkami dla autorów testów znajdzie czytelnik w monografii Stronniczość testów psychologicznych (Hornowska, 1999).

Rozdział 3
Metoda ta w pewnym sensie powstała jako wyraz uznania dla dorobku psychologii poznawczej i polega na analizowaniu zadań testowych z punktu widzenia procesów przetwarzania informacji. Obserwacja kolejności wykonywanych czynności, elementów zadania sprawiających najwięcej trudności, elementów pomijanych, popełnianych błędów (taką analizę przeprowadzał już Raven - por. Hornowski, 1970; też Okręglicka-Forysiak, 1993) czy analiza czasu potrzebnego do udzielenia odpowiedzi są wykorzystywane jako źródło informacji o mierzonym konstrukcie.
Szczególnie ciekawą propozycją w tym zakresie jest technika dekompozycji zadania zaproponowana przez Embretson (1985; też Anastasi, Urbina, 1999). Technika ta - mówiąc najprościej - polega na eksperymentalnym manipulowaniu złożonością zadania, liczbą dostarczanych wskazówek, kolejnością prezentowania jego elementów po to, aby określić, jakie procesy przetwarzania informacji są zaangażowane w rozwiązanie określonych zadań i jaka wiedza jest w tym celu niezbędna.
Technika ta - ciągle jeszcze traktowana jako zbyt nowa -jest niedoceniana jako metoda badania trafności teoretycznej testu. Pozwala ona na wgląd w procesy odpowiadania na pozycje testu, zmieniając dotychczasową koncentrację na analizie samych odpowiedzi. „Co więcej -jak piszą Anastasi i Urbina (1999, s. 186-187) - analiza indywidualnych wyników odwołująca się do elementarnych procesów, które do nich doprowadziły, powinna wreszcie umożliwić dokładne określenie, jakie są źródła mocnych i słabych stron każdej osoby, a co za tym idzie - zwiększyć diagnostyczną wartość testów".
3.4. STRONNICZOŚĆ TESTÓW12
Wraz z pierwszym praktycznym zastosowaniem testów inteligencji pojawiło się pytanie o to, czy różne wyniki testowe uzyskiwane przez wyodrębnione grupy badanych osób odzwierciedlają rzeczywiste różnice inteligencji, czy też jest to efekt „przychylności" zastosowanego narzędzia pomiarowego wobec pewnych grup osób, tj. „stronniczości" testów psychologicznych (ang. test bias). Już bowiem w roku 1905 Binet i Simon (por. 1905a, 1905b, 1905c, 1916) zwrócili uwagę na fakt, że skonstruowana przez nich metoda, która wystandaryzowana została na grupie dzieci paryskich robotników, daje zdecydowanie wyższe wyniki w wypadku dzieci pochodzących ze środowisk o wyższym statusie społecznym. Podobny efekt opisany został w latach 30. przez psychologów belgijskich, niemieckich i amerykańskich (Jensen, 1980).
100
12 Szerokie omówienie problematyki stronniczości testów psychologicznych wraz z praktycznymi wskazówkami dla autorów testów znajdzie czytelnik w monografii Stronniczość testów psychologicznych (Hornowska, 1999).
Trafność, czyli określanie obszaru zastosowania testu
Powstało zatem pytanie, czy różnice w wynikach testowych dzieci - spowodowane przynależnością do różnych warstw społecznych - odzwierciedlają rzeczywiste różnice w poziomie inteligencji tych dzieci, czy też zaobserwowana kulturowa stronniczość testu (tu: raczej stronniczość wynikająca z położenia społecznego grupy) jest artefaktem, spowodowanym doborem pozycji testowych trafnych tylko w stosunku do jednej grupy społecznej?
Z czasem coraz więcej psychologów zaczęło zwracać uwagę na różnice w wynikach testowych badanych osób, wynikające przypuszczalnie z przynależności do różnych warstw społecznych. Bardzo szybko zaczęto też podkreślać konieczność tworzenia specjalnych testów dla osób z niskim poziomem wykształcenia, słabo posługujących się językiem, w jakim test został napisany, lub analfabetów. W ramach tej właśnie polityki psychomet-rycznej psychologowie w czasie I wojny światowej stworzyli baterię testów domierzenia inteligencji ogólnej, tzw. test Test Alfa dla Wojska, przeznaczony do selekcji poborowych, oraz - równolegle - pierwszy nieję-zykowy test do pomiaru inteligencji, tzw. Test Beta dla Wojska, przeznaczony dla analfabetów i poborowych nie mówiących po angielsku (por. Einhorn, Bass, 1971; Crocker, Algina 1986).
Na ogół problem stronniczości testów wynika ze specyfiki pomiaru psychologicznego. Jak stwierdzili Reynolds i Brown (1984, s. 15): „Testy psychologiczne mierzą cechy, które nie są bezpośrednio obserwowalne, które różnie są definiowane i które mierzone są jedynie w sposób pośredni. Z tej perspektywy problem stronniczości testów inteligencji jest częścią szerszego - w sposób oczywisty ważniejszego - problemu niejednoznaczności. Problem ten dotyczy generalnie wszelkich testów psychologicznych. Stronniczość bowiem może się ujawnić nie tylko w wypadku testów inteligencji, ale również testów osobowości, testów psychopatologicznych czy testów zawodowych". Jeżeli dodać, że badanie za pomocą testu wymaga współpracy od osoby badanej, to jej brak - będący wynikiem niezrozumienia sytuacji, w jakiej realizowany jest pomiar psychologiczny - znacząco może wypłynąć na wynik testu, nie odzwierciedlając wcale poziomu zmiennej, która w intencji twórcy testu miała być mierzona.
Termin „stronniczość", opisujący jedną z cech narzędzi pomiarowych (testów) stosowanych w diagnozie ilościowej (szczególnie w obszarze diagnozowania poziomu funkcjonowania intelektualnego), ma swoje specyficzne i unikatowe znaczenie. Ze względu jednak na to, że pojęcie to - szczególnie z powodu swoich językowych skojarzeńl3 - ciągle budzi wiele nieporozumień i przypisuje się mu sens spoza rozważanej tu problematyki (psychometrycz-
13 Zgodnie ze Słownikiem języka polskiego pod redakcją M. Szymczaka (1981, tom 3, s. 350) stronniczy oznacza „nieobiektywny, tendencyjny, kierujący się osobistymi uprzedzeniami, sympatiami, własnym interesem, niesprawiedliwy".
101
Rozdział 3
nego znaczenia wyników testowych), spróbujmy najpierw sprecyzować jego znaczenie14.
Stronniczość testu psychologicznego to błąd systematyczny:
•  w sensie statystycznym oznacza to tyle, że stronniczość wpływa na wyniki testowania zawsze w stały sposób;
•  w sensie psychometrycznym stronniczość polega na tym, że poszczególne pozycje testowe są mniej lub bardziej trudne dla osób należących do różnych wyodrębnianych podgrup (np. ze względu na wiek czy płeć) w ramach tej samej populacji.
Definicja stronniczości
W statystyce termin „stronniczość" (czy raczej „obciążenie") oznacza systematyczne niedoszacowywanie lub przeszacowywanie parametru popula-cyjnego na podstawie danych z próby. Na gruncie psychometrii „stronniczość" to również błąd systematyczny- tyle że związany z wynikami testowymi osób należących do konkretnej podgrupy populacji. „Stronniczość" zatem to pojęcie techniczne, związane z szeroko rozumianą przynależnością grupową - rasową, klasową, narodowościową, religijną - lub np. wiekiem.
Tak też definiują stronniczość autorzy zajmujący się tą problematyką, np. według Jensena (1980, s. 375): „W psychometrii «stronniczość» odnosi się do systematycznych błędów związanych z trafnością prognostyczną lub trafnością teoretyczną wyników testowych, które wynikają z przynależności grupowej badanych osób. Stronniczość jest terminem ogólnym i nie jest ograniczona jedynie do «stronniczości kulturowej». Może ona dotyczyć każdego rodzaju przynależności grupowej - ze względu na rasę, klasę społeczną, narodowość, płeć, religię czy wiek. Szacowanie stronniczości jest problemem wyłącznie obiektywnym, empirycznym, statystycznym i ilościowym, niezależnym od subiektywnych sądów wartościujących i rozważań etycznych dotyczących uczciwego i nieuczciwego stosowania testów. Stronniczość w sensie psychometrycznym jest to zbiór właściwości statystycznych, charakteryzujących jednocześnie dany test i dwie lub więcej grupy wyodrębnione z populacji".
102
14 Por. interesująca analiza kłopotów językowych dotyczących funkcjonowania terminu „stronniczość" w języku codziennym i języku nauki, dokonana przez Nancy Cole (1993). Zwraca ona uwagę na różnice pomiędzy społecznym a technicznym znaczeniem tego terminu oraz na różnice między jego znaczeniem na poziomie teoretycznym i operacyjnym. W rozumieniu społecznym stronniczość jest zjawiskiem złym - oznacza brak równych szans dla wszystkich osób badanych testami (np. testy wiadomości będą ZAWSZE stronnicze względem osób o niskim poziomie wiedzy z danego obszaru); w sensie technicznym stronniczość jest zjawiskiem niepożądanym z punktu widzenia właściwości testu, nie jest jednak „złem społecznym" (ibidem, s. 27). Ta rozbieżność znaczeń powoduje, że w dyskusjach nad społecznymi konsekwencjami testów psychologicznych opinia publiczna i psychometrzy są jak „statki mijające się ciemną nocą" (ibidem).
Trafność, czyli określanie obszaru zastosowania
Stronniczość zatem jest definiowana w kategoriach systematycznego błędu pomiaru i jak każdy błąd wpływa na wszystkie pomiary - raz je zwiększając, a raz obniżając. Termin ten różni się pojęciowo i operacyjnie od pojęć, takich jak uczciwość, równość, uprzedzenia, preferencje, lub od innych podobnych pojęć używanych w języku codziennym. Stronniczość to termin techniczny oznaczający - ni mniej, ni więcej tylko „stałe zniekształcenie danych testowych" (por. Osterlind, 1983).
Niektórzy autorzy, podejmując próbę zdefiniowania, czym jest stronniczość testu, odwołują się do pojęcia uczciwej selekcji. I tak np. zdaniem Lorrie Shepard (1981, s. 80) stronniczość testu to odchylenie w sposobie pomiaru przez test tego, co z założenia ma on mierzyć: jest to błąd systematyczny, powodujący, że wykonanie testu stawia w niekorzystnym położeniu jedną grupę w porównaniu z drugą15. Zauważmy, że w definicji tej autorka kładzie nacisk na efekty stronniczości w postaci niekorzystnego położenia jednej z grup. Posługiwanie się pojęciem „niekorzystnego położenia" oznacza w gruncie rzeczy uznanie, że test stronniczy jest z definicji testem nieuczciwym. W podobnym tonie sformułowali swoją definicję Shepard, Camilli i Averil (1981, s. 318), pisząc, że: „stronniczość jest rodzajem braku trafności, który dotyka jedną grupę bardziej niż drugą. W dobrze skonstruowanym teście osiągnięć, w którym próbka treści została właściwie wylosowana, stronniczość mimo wszystko może się pojawić, ponieważ format pytań czy sposób ich prezentacji będzie nieuczciwy w stosunku do jednej z grup (...)".
Wprowadzanie do definicji stronniczości pojęcia uczciwości (ang. test fairness) nie jest dobrym rozwiązaniemI6, gdyż nie pozwala wyraźnie odróż-
TESTU
15  Te dwie grupy to tzw. grupa większości i grupa mniejszości. Pojęcia grupy większości (ang. majority group) i mniejszości (ang. minority group) wykorzystywane są do opisywania dwóch grup pochodzących z tej samej populacji i branych pod uwagę przy ocenie potencjalnej stronniczości testu. W tym kontekście pojęcie większości oznaczać może: a) tę grupę, która jest większa w populacji, b) tę grupę, na której test został wystandaryzowany, i c) tę grupę, która uzyskuje wyższy średni wynik w teście, o ile grupy te różnią się pod względem tych wyników (Jensen, 1980, s. 376). Grupa większości nie oznacza zatem wyłącznie najliczniejszej grupy etnicznej, ale po prostu tę część osób badanych testem, która - ze względu na wyróżnione parametry - stanowi właśnie większość (i tak np. wśród starających się o pracę pielęgniarki w szpitalu kobiety mogą stanowić grupę większości, a mężczyźni mniejszości, a wśród kandydatów na lotników odwrotnie).
16  Przyjmijmy, że terminy „uczciwe" i „nieuczciwe stosowanie testu" będziemy odnosić do sposobu, w jaki wyniki testowe (bez względu na to, czy test może zostać uznany za stronniczy czy też nie) są wykorzystywane w sytuacji selekcji. Pojęcie „uczciwości" odwołuje się zawsze do jakiegoś systemu wartości. Dlatego też nie można sprowadzać problemu uczciwego stosowania testu do decyzji o charakterze wyłącznie statystycznym. Praktyka stosowania testów pokazuje, że sformułowano jak dotąd wiele - często wzajemnie się wyłączających - kryteriów uczciwości i żadna procedura statystyczna czy psychometryczna per se nie pozwala określić, które z nich jest najlepsze. Decyzja dotycząca kryteriów uczciwego stosowania testu powinna być lokowana w sferze (a) kompetencji psychologa, (b) polityki społecznej, (c) rozwiązań prawnych i wreszcie (d) konsekwencji praktycznych. „Uczciwego" stosowania testu nie należy zatem utożsamiać z jego cechą formalną - tj. stronniczością.
103
Rozdział 3
nić stronniczości rozumianej jako cecha  testu od pojęcia uczciwości dotyczącego sposobu stosowania tego testu.
Podsumujmy zatem: termin „stronniczość" wykorzystywany jest najczęściej przy opisie właściwości testów zdolności i definiowany w terminach systematycznego błędu pomiaru. W sensie statystycznym oznacza to tyle, że stronniczość wpływa na wyniki testowania zawsze w stały sposób. W sensie psychometrycz-nym natomiast stronniczość polega na tym, że poszczególne pozycje testowe są mniej lub bardziej trudne dla osób należących do różnych wyodrębnianych podgrup (np. ze względu na wiek czy płeć, a nie mierzoną właściwość podmiotową) w ramach tej samej populacji. O stronniczości pozycji testowych mówimy zatem wtedy, gdy prawdopodobieństwo udzielenia prawidłowej odpowiedzi na daną pozycję testową jest różne dla osób o tej samej wartości mierzonej cechy, a pochodzących z różnych grup należących do tej samej populacji (por. Shepard, Camilli, Averill, 1981; Hulin, Drasgow, Parsons, 1983). Przyczyną tego zjawiska może być stosowanie specyficznych pojęć, właściwych dla wąsko pojętej podkultury i bardzo rzadko używanych w populacji, włączanie do testu pozycji, w których występują pojęcia nie używane przez którąś z grup, lub pozycji, które zostały źle przetłumaczone z języka obcego, itp.
Stronniczość nie oznacza błędu losowego (ten ostatni jest zawsze taki sam dla wszystkich wyłonionych grup). Oczywiście, żaden test nie mierzy danej cechy w sposób idealnie dokładny. Jeżeli błąd pomiaru w jednakowym stopniu dotyczy wszystkich członków różnych grup pochodzących z tej samej populacji, to nie istnieją powody, dla których test mógłby zostać określony jako stronniczy. Ta ostatnia uwaga jest niezmiernie istotna w badaniach nad stronniczością. Nie jest bowiem tak, że stronniczość testu pozwala wyjaśnić każdą obserwowaną różnicę wyników między dwiema grupami. Gdyby tak było, każdy test byłby „stronniczy" w stosunku do jakiejś grupy osób wyróżnionych ze względu na płeć, pochodzenie etniczne czy jakąkolwiek inną zmienną, którą zawsze dałoby się jakoś nazwać. Konsekwencje społeczne przyjęcia hipotezy o stronniczości testu, kiedy nie jest ona prawdziwa, mogłyby być dramatyczne. W takim wypadku bowiem obserwowane rzeczywiste różnice w wynikach testowych będą traktowane jako artefakt i prowadzić będą do decyzji abstrahujących od wyników testowych - np. dzieci nie będą kierowane do odpowiednich placówek wychowawczych, choć byłoby to dla nich najlepsze.
>• Uczciwość to termin odnoszący się do strony etycznej testowania. Pojęcie uczciwości, społecznej sprawiedliwości i jednakowej ochrony przez prawo to pojęcia moralne i prawne, i w tym sensie należy je odróżniać od pojęcia stronniczości testu, traktowanej jako cecha testu.
104
Potencjalne źródła stronniczości testu
Analizując literaturę przedmiotu, można zauważyć, że różne klasy czynników bywają traktowane jako przyczyny stronniczości testu. Jak się wydaje,
Trafność, czyli określanie obszaru zastosowania testu
można je pogrupować na siedem następujących kategorii (por. też Reynolds, Brown, 1984, s. 17; Van de Vijver, Tanzer, 1997, s. 268):
Niewłaściwa treść testu - osoby pochodzące z grup społecznych np. o niższym statusie mogą nigdy nie zetknąć się ze specyficznym materiałem, który złożył się na treść pozycji testowych. Może to dotyczyć zarówno języka, wiedzy, jak i wartości. Utożsamianie stronniczości testu z niewłaściwą treścią pozycji testowych znalazło swoje najsilniejsze odzwierciedlenie w twierdzeniu, że każda pozycja testowa zawierająca treści odnoszące się do wybranej kultury w obszarze stosowania testu jest stronnicza. Zdaniem zwolenników takiego stanowiska pozycje testowe powinny być całkowicie wolne od wpływu czynników kulturowych. Tak rozumiana stronniczość jest utożsamiana z brakiem trafności treściowej testu.
Pomiar różnych charakterystyk - ten sam test może mierzyć odmienne charakterystyki (wielkości psychologiczne), jeżeli stosowany jest w stosunku do osób pochodzących spoza kultury, która była „źródłem" pozycji testowych. Test jest zatem trafny teoretycznie tylko w stosunku do osób należących do jednej kultury i nietrafny w stosunku do osób spoza owej kultury. Różna trafność teoretyczna tego samego testu w różnych kulturach może być przeto istotą zjawiska stronniczości.
Zakłócenia trafności prognostycznej - test może umożliwiać dokonywanie dobrych prognoz w wypadku członków grup większości, lecz nie pozwalać na skuteczne przewidywanie analogicznych zachowań w wypadku członków grup mniejszości. Tym samym decyzje podejmowane na podstawie wyników testowych mogą być obciążone błędem stronniczości zawsze wtedy, kiedy badania walidacyjne nie są pełne (zwłaszcza w zakresie trafności prognostycznej), a test jest stosowany także w wypadku tych osób, które należą do grup nie objętych takimi badaniami.
Język, w jakim test został sformułowany - osoby poddane badaniu testowemu w innym - niż własny - języku uzyskują generalnie niższe wyniki. Jednakże wyniki uzyskane przez osoby mówiące innym językiem niż język testu nie muszą być wskaźnikiem mniejszych zdolności, mogą zaś być - po prostu - wskaźnikiem trudności komunikacyjnych. Taki test należy uznać zatem za stronniczy językowo. Źródłem stronniczości jest w tym wypadku wadliwa procedura badania testem i nieprzestrzeganie standardów postępowania w tym zakresie (tj. nieupewnienie się, że osoba badana dobrze rozumie zadanie, jakie przed nią stoi, i że zrobiono wszystko, aby umożliwić jej jak najlepsze wykonanie testu - por. np. APA, Standardy..., 1985a, s. 75).
Niewłaściwa próba standaryzacyjna - jeżeli w próbie standaryzacyjnej nie są reprezentowane wszystkie grupy, które mogą być badane określonym testem, to test należy uznać za narzędzie stronnicze w stosunku do tych grup, które nie zostały w próbie standaryzacyjnej uwzględnione. Przy takim sposobie ujmowania stronniczości wychodzi się z założenia, że w próbach standaryzacyjnych brak jest właściwej (w sensie statystycznym) reprezentacji    105
Rozdział 3
grup mniejszościowych, co musi stronniczo wpływać na opracowywane normy. Na tej podstawie właśnie Williams (por. Williams, Dotson, Dow, Williams, 1980) krytykował test WISC-R (Wechsler, 1974) z powodu wadliwie -jego zdaniem - skonstruowanej próby standaryzacyjnej. W próbie tej odtworzono bowiem procentowy skład populacji amerykańskiej (tj. na 2200 badanych osób 330 stanowili przedstawiciele mniejszości narodowych), a zdaniem Williamsa (ibidem) tak mała reprezentacja w żaden sposób nie może wpłynąć na normy testowe. Taki test musi być zatem stronniczy wobec mniejszości (tu: Murzynów).
Okazuje się jednak, że w świetle zebranych danych empirycznych stanowisko to nie znajduje swojego uzasadnienia, a co najmniej budzi wątpliwości. I tak np. stwierdzono, że w teście Wechslera, przeznaczonym do badania inteligencji ludzi dorosłych i wystandaryzowanym na populacji amerykańskiej (WAIS-R), Japończycy (a więc grupa całkowicie spoza próby standaryzacyjnej) uzyskują ilorazy inteligencji o około 6 punktów wyższe niż Amerykanie, a Eskimosi zamieszkujący Arktykę, uzyskują w teście Ravena przeciętne wyniki porównywalne z populacją Anglików (Jensen, 1984, s. 516).
Różnice grupowe w średnim wykonaniu testu - każda różnica wykonania testu przez dwie grupy (różniące się rasą, pochodzeniem lub np. płcią) jest traktowana jako dowód oczywistej stronniczości testu. U podstaw takiego stanowiska leży przyjmowane a priori założenie o wyjściowej równości wszystkich grup pod względem wszystkich charakterystyk mierzonych przez test. I choć takie stanowisko - nazwane przez Jensena błędem egalitaryzmu (Jensen 1980, s. 370) - trudno dziś zaakceptować, stało się ono podstawą wielu wyroków, wydanych przez sądy w Stanach Zjednoczonych, w rozprawach, w których decyzje podejmowano na podstawie wyników badań testami psychologicznymi.
Niejednakowe konsekwencje społeczne - decyzje podejmowane na podstawie wyników testowych są podstawą podejmowania decyzji często określających przyszłość osób badanych (rekrutacja do szkół czy przyjmowanie na dane stanowiska). W efekcie zastosowania stronniczego testu decyzje te (np. dotyczące dalszego kształcenia) mogą być niekorzystne w stosunku do członków grup mniejszości - którzy już i tak, ze względu na przynależność do tych grup, mieli mniejsze możliwości - i pogłębiają tym samym istniejące nierówności społeczne.
Jak widać z przedstawionego wyżej zestawienia, większość z wymienianych w literaturze przedmiotu źródeł stronniczości można generalnie zaliczyć do problematyki walidacji testu (etap konstrukcji) lub jego stosowania - powinny one zatem stać się elementem analiz psychometrycznych. Natomiast w wypadku niejednakowych konsekwencji społecznych sprawa jest nieco bardziej złożona. Problem ten bowiem generalnie dotyczy testowania psychologicznego i nie można go analizować wyłącznie z punktu widzenia grup 106    mniejszości. Społeczne konsekwencje tworzenia ścieżek edukacyjnych czy
Trafność, czyli określanie obszaru zastosowania testu
zawodowych powinny być analizowane w ramach psychologii rozwojowo--wychowawczej czy psychologii pracy lub poradnictwa zawodowego, a nie bezrefleksyjnie utożsamiane z problematyką stronniczości.
Psychologowie wykorzystujący w praktyce instrumentarium testowe powinni zdawać sobie sprawę z możliwości wystąpienia efektu stronniczości. Zarzut stronniczości jednak musi wynikać z obiektywnych przesłanek i musi stać się elementem obiektywnego postępowania (podobnie jak w wypadku trafności czy rzetelności). Subiektywna intuicja czy wrażliwość społeczna nie są tu wystarczającym uzasadnieniem. Spróbujmy zatem sformułować obiektywne kryteria stronniczości i wskazać na możliwe techniki jej szacowania. Ponieważ problematyka stronniczości testów psychologicznych jest przede wszystkim łączona z zagadnieniem trafności - od tego problemu zacznijmy.
Stronniczość testu a trafność treściowa
Przypomnijmy, że trafność treściowa - zgodnie ze Standardami dla testów stosowanych w psychologii i pedagogice (APA, 1985a) - wymaga wykazania, że „zachowania demonstrowane w badaniu testowym są reprezentatywną próbą zachowań ujawniających się w interesującej badacza sferze" (ibidem, s. 36). Dany test może zostać uznany za stronniczy, jeżeli uniwersum pozycji testowych zostało trafnie określone tylko w stosunku do członków jednej grupy (np. grupy większości). Taki test - ze względu na brak trafności treściowej - będzie stronniczy w stosunku do wszystkich pozostałych osób. Co ciekawsze, problem stronniczości treści pozycji testowych jest najczęściej podnoszony przez autorów generalnie potępiających stosowanie testów inteligencji wobec grup mniejszościowych (por. np. Williams, 1974; Hilliard, 1979).
Można wskazać na trzy przyczyny stronniczości z punktu widzenia trafności treściowej (por. Berk, 1982; Reynolds, 1982a, b, Camilli, Shepard, 1994):
a)  pozycje testowe są stronnicze, ponieważ wymagają od członków grupy mniejszości odpowiedzi na takie tematy, z którymi osoby te nigdy nie miały szansy się zetknąć. Np. młodzież uczęszczająca do innych szkół niż licea ogólnokształcące może mieć trudności z wymieniem współczesnych poetów polskich ostatniego dziesięciolecia;
b)  pozycje testowe są stronnicze, ponieważ nieprawidłowo skonstruowany został klucz do ich oceny. Autor testu zdecydował bowiem arbitralnie o tym, jaka odpowiedź zostanie potraktowana jako prawidłowa. W efekcie członkowie grupy mniejszości są karani za dawanie odpowiedzi prawidłowych z punktu widzenia własnej kultury, a nieprawidłowych z punktu widzenia kultury autora testu. Np. w zadaniu sprężyna jest częścią (samochodu, motocykla, wagonu, zegarka) za prawidłową odpowiedź uznawany

107
Rozdział 3
jest jedynie zegarek, choć każdy mający niewielką tylko wiedzę techniczną chętnie wskazałby i inne możliwości17;
c) pozycje testowe są stronnicze, ponieważ sposób sformułowania pytania jest tak obcy dla członków grupy mniejszości, że choć znają oni prawidłową odpowiedź, nie są w stanie jej udzielić, ponieważ nie rozumieją pytania. Np. pytanie „co to za część statku, która jest zszyta z brytów, wzmocniona bantem i obszyta likliną?" zostało sformułowane z punktu widzenia osób zainteresowanych sportem wodnym, stając się mało czytelnym dla pozostałych. Analizując wymienione wyżej potencjalne źródła stronniczości treściowej, można zauważyć, że wszystkie one mają jedną cechę wspólną: stronnicza pozycja testowa okazała się w jakimś aspekcie trudniejsza dla członków grupy mniejszości w porównaniu z grupą większości. Dlatego też można przyjąć za Reynoldsem (1982a, s. 188) następującą ogólną definicję stronniczości treściowej: „Pozycja testowa (...) może zostać określona jako stronnicza treściowo, jeżeli udowodniono, że jest ona relatywnie trudniejsza dla członków jednej grupy w porównaniu z drugą, mimo że ogólny poziom zdolności obu grup pozostaje taki sam i w żaden sposób nie można racjonalnie wyjaśnić obserwowanych różnic w jakości odpowiedzi na tę pozycję (...)"l8. Uznanie, że niewłaściwa treść testu może być przyczyną stronniczości, zwróciło uwagę wielu instytucji na konieczność opracowania zbioru zasad, które byłyby pomocne przy tworzeniu pozycji testowych. Takim zbiorem są m.in. wskazówki opublikowane przez wydawnictwo Macmillan pt. Guidelines for creating positive sexual and racial images in educational materials (1975)19, które mają obowiązywać nie tylko przy konstruowaniu testów, ale w ogóle wszelkich materiałów dydaktycznych. Wskazówki te mają pozwalać na tworzenie pozytywnego kontekstu i unikanie negatywnego kontekstu, w jakim przedstawia się kulturę grup mniejszości narodowych. Możemy tu przeczytać m.in.: „Reprezentantów grup mniejszości należy przedstawiać jako osoby tworzące swoje własne drogi rozwoju, wypracowujące własne rozwiązania, posiadające własne osiągnięcia i pomagające innym. Bohaterów z grup mniejszości należy opisywać głęboko, a nie jedynie powierzchownie. Osoby z grup mniejszości powinny być głównymi, wielowymiarowymi bohaterami opowiadań i przykładów" (Macmillan, 1975, s. 35).
108
17  Przykład ten podaje Witwicki (1928) jako ilustrację sytuacji, w której klucz odpowiedzi stworzono w sposób mechaniczny, bez sprawdzenia jego zasadności.
18  Zjawisko stronniczości treściowej zatem nie oznacza ipso facto stronniczości w stosunku do grupy mniejszości, a jest źródłem różnic odpowiedzi między dwoma zdefiniowanymi grupami. Rzecz jest o tyle istotna, że wielu autorów ma tendencję do utożsamiania zjawiska stronniczości wyłącznie z negatywnym oddziaływaniem na grupę mniejszości, tymczasem można wskazać na przykłady testów stronniczych w stosunku do grup większości (Reynolds, Brown, 1984, s. 25).
19  Podobne wskazówki opublikowało też wydawnictwo McGraw-Hill (na podstawie Tittle, 1982): Recommended multiethnic publishing guidelines (1968) i Guidelines for eąual treatment of the sexes (1974).
Trafność, czyli określanie obszaru zastosowania testu
W literaturze przedmiotu można znaleźć szereg metod zaprojektowanych specjalnie w celu szacowania stronniczości treściowej (por. zwłaszcza Jensen, 1980; Tittle, 1982). Metody te, wbrew oczekiwaniom ich twórców, nie przyniosły jednak oczekiwanych rezultatów. I tak np. analizy treści dokonywane przez zespoły ekspertów składające się z przedstawicieli grup większości i grup mniejszości nie okazywały się wcale lepsze od subiektywnych ocen samych autorów, a dotyczących tego, które z pozycji testowych mogłyby być stronnicze ze względu na ich treść (Reynolds, Brown, 1984). Ocena stronniczości wymaga wypracowania obiektywnych (statystycznych) kryteriów, a odwoływanie się wyłącznie do aspektu trafności treściowej, jako próby zdefiniowania istoty tego zjawiska, nie jest wystarczające.
Stronniczość testu a trafność kryterialna
O stronniczości z punktu widzenia trafności kryterialnej, głównie prognostycznej, mówi się najczęściej w kontekście zastosowania testów do celów selekcyjnych. Psychologom praktykom najbliższa jest perspektywa prognostyczna. Z punktu widzenia „(...) tradycyjnych zastosowań testów zdolności i inteligencji trafność prognostyczna jest bowiem najistotniejszym rodzajem trafności, gdy myślimy o potencjalnej stronniczości testu" (Reynolds, Kaiser, 1990, s. 511). Podstawowym celem stosowania testów w takiej sytuacji jest uzyskanie możliwości dokonywania przewidywania przyszłych zachowań na podstawie wyników testowych. Ponieważ stronniczość jest tu traktowana jako cecha testu, a nie cecha procedury selekcji, można przyjąć następującą definicję stronniczości z punktu widzenia trafności prognostycznej (Reynolds, 1982a, s. 201): „Test może zostać potraktowany jako stronniczy z punktu widzenia jego trafności prognostycznej, jeżeli wnioski uzyskiwane na podstawie wyników testowych nie są wyprowadzane z najmniejszym dopuszczalnym błędem lub jeżeli pojawił się stały błąd [przeszacowywanie lub niedosza-cowywanie - przyp. E.H.] w przewidywaniu przyszłych zachowań badanych osób, będący wynikiem ich przynależności do określonej grupy". Te same uwagi można również sformułować w stosunku do trafności diagnostycznej.
Innymi słowy, wykorzystywanie wiedzy o przynależności osoby badanej do określonej grupy w procesie przewidywania - na podstawie wyniku testowego -jej aktualnego lub przyszłego zachowania może wpływać stronniczo na dokładność stawianych diagnoz lub prognoz.
Nie obciążone stronniczością prognozy będą odzwierciedlały
a)  poziom osiągnięć właściwy dla danej grupy,
b)  będzie się to działo z jednakową dokładnością dla każdej z grup (McCor-nack, 1983).
W kontekście stronniczości rozważane są zatem zazwyczaj dwie grupy wyników:
a)  wyniki zastosowania określonego testu psychologicznego oraz
b)  wyniki innych zmiennych pozatestowych, stanowiących kryterium przewidywania przyszłych zachowań.                                                                 109
Rozdział 3
Ten sam test może być testem stronniczym prognostycznie jedynie ze względu na określone kryteria. Stronniczość prognostyczna odwołuje się bowiem zawsze do konkretnego kryterium i dotyczy użyteczności wyników testowych jako predyktorów tego właśnie kryterium oraz tego, czy wyniki testowe są jednakowo dobrym predyktorem przyszłych zachowań dla różnych grup pochodzących z tej samej populacji.
Ujmowanie stronniczości z punktu widzenia relacji między wynikami testowymi a miarami kryterialnymi późniejszego funkcjonowania jednostki najbardziej zainteresowało specjalistów z dziedziny psychometrii i pomiaru psychologicznego (por. np. Darlington, 1971; Thorndike, 1971; Bernal, 1975; McNe-mar, 1975; Angoff, 1976; Cronbach, 1976; Petersen, Novick, 1976). Efektem ich dociekań było wypracowanie wielu modeli uczciwej selekcji,a nie zdefiniowanie stronniczości jako cechy narzędzia pomiarowego - testu. Zagadnienie uczciwej selekcji pozostaje poza problematyką stronniczości i generalnie związane jest z określaniem systemów wartości obowiązujących przy podejmowaniu decyzji na podstawie wyników testowych. Modele uczciwej selekcji nie odwołują się też do tego, co ma być istotą definicji stronniczości z punktu widzenia trafności prognostycznej - tj. szacowania wielkości stałego błędu popełnianego przy prognozowaniu wyniku kryterialnego, jako funkcji przynależności grupowej (por. też Anastasi, Urbina, 1999, s. 230-231).
Podkreślmy raz jeszcze: stronniczość z punktu widzenia trafności kryterial-nej to stały błąd w przewidywaniu wyniku kryterialnego na podstawie wyników testowych, będący rezultatem przynależności osób badanych do określonej grupy. Techniki szacowania tak rozumianej stronniczości odwołują się do obiektywnych kryteriów jakości diagnozy lub prognozy.
Stronniczość testu a trafność teoretyczna
Trafność teoretyczna (Cronbach, Meehl, 1955) odnosi się do zakresu, w jakim test mierzy określony konstrukt teoretyczny (cechę psychologiczną). O istnieniu stronniczości z punktu widzenia trafności teoretycznej powiemy zatem wtedy, kiedy (Reynolds, 1982a, s. 194): „(...) test mierzy różne cechy hipotetyczne (konstrukty psychologiczne) w wypadku różnych grup lub gdy mierzy tę samą cechę, lecz z różnym stopniem dokładności".
Pytanie o istnienie stronniczości z punktu widzenia trafności teoretycznej ma ogromne znaczenie zarówno z punktu widzenia teorii, jak i praktyki psychologicznej. Gdyby bowiem wykazano istnienie stałej stronniczości metod testowych z punktu widzenia trafności teoretycznej dla jakichkolwiek grup (wyłonionych ze względu na płeć, rasę czy pochodzenie społeczne), to dorobek psychologii różnic indywidualnych powinien być podany w wątpliwość, gdyż może się on odwoływać do artefaktów! Ogólne badania trafności teoretycznej należy zatem uważać za niewystarczające i trzeba rozszerzyć je o badania potencjalnej stronniczości w tym zakresie. Jeżeli 110    okaże się, że w wypadku danego testu można mówić o takiej stronniczości,
Trafność, czyli określanie obszaru zastosowania testu
to wszystkie badania naukowe, w których wykorzystywano ten test, powinny zostać co najmniej skorygowane z punktu widzenia potencjalnej stronniczości.
Problematyka stronniczości z perspektywy braku trafności teoretycznej zaowocowała wieloma rozwiązaniami natury technicznej - zaproponowano wiele szczegółowych technik pozwalających szacować tego typu stronniczość (już Cronbach, 1970). Do najczęściej wymienianych metod należy analiza czynnikowa. Stwierdzenie identycznych czynników w grupach wyodrębnionych w ramach tej samej populacji można potraktować jako dowód, że test mierzy ten sam konstrukt we wszystkich grupach (Reynolds, Brown, 1984). Takie same wyniki analiz czynnikowych pozwalają przyjąć, że osoby należące do wszystkich grup (zwykle grupy większości i grupy mniejszości) tak samo spostrzegają i interpretują materiał testowy.
Dobrym przykładem testów, o których można powiedzieć, że są stronnicze pod względem trafności teoretycznej, są testy inteligencji powstające w obszarze kultury zachodniej. W większości takich testów kładzie się nacisk na umiejętność rozumowania, posiadaną wiedzę i zakres pamięci. Umiejętności funkcjonowania społecznego są znacznie rzadziej brane pod uwagę, a te mogą mieć zdecydowanie większe znaczenie w innych kulturach (np. w chińskiej, w której zakres powinności dzieci wobec rodziców decyduje o ich wychowaniu i zdobywanej wiedzy -por. Van de Vijver, Tanzer, 1997, s. 264). Powstaje zatem pytanie: czy można bezpośrednio porównywać wyniki w testach, które z nazwy mierzą to samo (np. inteligencję), a zostały wykonane przez osoby należące do różnych kultur? Rozwiązaniem jest tu odwołanie się do trafności teoretycznej. Jeżeli wykażemy, że pojęcie inteligencji jest tak samo operacjo-nalizowane w interesujących nas kulturach, to zyskamy podstawy dla takiego porównania. Porównywalna trafność teoretyczna może być zatem kluczowym dowodem braku stronniczości testów stosowanych w różnych kulturach.
Jak widać z przedstawionego wyżej omówienia, problematyka stronniczości testów psychologicznych jest ściśle związana z problematyką trafności, a badania nad stronniczością powinny stać się elementem badań walidacyj-nych. Bardzo wielu autorów definiuje stronniczość jako wskaźnik braku trafności testu - właściwości opisującej sposób zastosowania testu, a nie właściwości testu jako takiego. Stronniczość testu zatem powinna być traktowana jako szczególny rodzaj braku trafności.
Techniki szacowania stronniczości testu
Generalnie rzecz biorąc, empiryczne szacowanie stronniczości testu sprowadza się do oceny funkcjonowania testu z punktu widzenia jego trafności kryterialnej. Stosowane testy powinny być - z założenia - wysoko skorelowane z kryterium będącym podstawą podjęcia decyzji o charakterze kwalifikacyjnym (czy to diagnostycznych, czy prognostycznych). Ponieważ trafność kryterialna jest często najważniejszą użytkową cechą testu, dlatego jego ewentualna stronniczość może być rozważana w kategoriach związku między    111
Rozdział 3

112
kryterium a predyktorami. Możemy zatem powiedzieć, że test stronniczy to test nietrafny kryterialnie. Jest to taki test, którego wyniki nie pozwalają na trafne przewidywanie zachowań występujących aktualnie lub w przyszłości w stosunku do wszystkich badanych osób, bez względu na ich przynależność grupową.
Najważniejszym - z tego punktu widzenia - wskaźnikiem stronniczości testu jest zatem wielkość korelacji między wynikami testu a wybranymi miarami kryterium. Test bezstronny powinien posiadać podobne korelacje z tymi samymi miarami kryterium dla wszystkich analizowanych grup. Ponieważ związek między wynikami testowymi a kryterium jest operacjo-nalizowany w postaci równania regresji, stronniczość testu jest operacyjnie definiowana właśnie jako nierówność linii regresji w dwóch wyodrębnionych grupach (grupie mniejszości i grupie większości). I tak, w wypadku testu stronniczego związek między wynikami testowymi a prognozowanym kryterium będzie inny w każdej z grup.
Bartlett i 0'Leary (1969) przedstawili jedenaście modelowych sytuacji pokazujących wzajemne zależności między testem a kryterium dla dwóch grup (np. mniejszości i większości). Sytuacje te przedstawiono na rys. 3.3 (za: Jensen, 1980, s. 390).
Na rysunku tym zamieszczono wykresy korelacji między wynikami testowymi (X) a wynikami zmiennej kryterialnej (Y). Elipsa ilustruje istotną korelację między tymi zmiennymi, a koło - brak związku. Zgodnie z definicją stronniczości jako nierówności linii regresji w dwóch grupach, tylko sytuacja przedstawiona jako pierwsza (na zacieniowanym polu) ilustruje przykład testu bezstronnego.
Zewnętrznym standardem ewaluacji testu jest tu zmienna kryterialna. Dany test uznamy za stronniczy, jeżeli diagnozowanie lub prognozowanie przyszłego funkcjonowania badanych będzie obarczone stałym błędem i błąd ten zależeć będzie od przynależności do różnych grup (definiowanych ze względu, np. wiek, płeć czy rasę). O stronniczości testu zatem świadczyć będą zawsze zbyt wysokie lub zawsze zbyt niskie wyniki zmiennej kryterialnej, otrzymane dla osób należących do różnych grup, a oszacowane na podstawie linii regresji wyznaczonej dla całej populacji (por. też Anastasi, Urbina, 1999, s. 224-230).
Podsumujmy: stronniczość testów oznacza zatem błąd systematyczny popełniany przy prognozowaniu wartości zmiennej kryterialnej dla osób z różnych grup, będący rezultatem:
a)  oparcia diagnozy lub prognozy na wspólnej linii regresji wyznaczonej dla wszystkich osób bez względu na ich populacyjną przynależność, lub też
b)  oparcia diagnozy lub prognozy wyników kryterialnych osób należących do jednej grupy na równaniu regresji wyznaczonym dla innej.
Test oceniany jest pod kątem trafności diagnozy lub prognozy w stosunku do członków określonych grup pochodzących z tej samej populacji. Badanie
Rys. 3.3. Diagramy korelacyjne przedstawiające rodzaje relacji między wynikami testowymi (X) i zmienną kryterialną (Y) w grupie większości i mniejszości (opracowano na podstawie Jensen, 1980, s. 390)




o o
a
O
CD
o
C/l
8
n
U)
c
Rozdział 3
stronniczości polega na wyznaczeniu linii regresji dla każdej z grup, a następnie na ocenie ich zgodności20.
3.5. WYKORZYSTANIE TESTÓW DLA CELÓW SELEKCYJNYCH21
Procedury selekcyjne są dzisiaj jednym z podstawowych elementów działań rekrutacyjnych prowadzonych przez rozmaite instytucje i przedsiębiorstwa. Mają też daleko idące konsekwencje dla samej instytucji, kandydatów, jak i społeczeństwa. Z punktu widzenia instytucji procedury selekcyjne pozwalają na tworzenie właściwych zespołów pracowników czy zespołów osób kształcących się. Trafny dobór ludzi do firmy, jej poszczególnych jednostek organizacyjnych i stanowisk może prowadzić do jej późniejszych sukcesów. Jeżeli firma potrafi znaleźć najzdolniejszych, najlepszych i najbardziej przydatnych kandydatów, ma szansę przetrwania i rozwoju (por. Listwan, 1993).
Z punktu widzenia kandydatów procedury selekcyjne stwarzają optymalne szansę na zatrudnienie w zawodzie dającym możliwości awansu, przyczyniającym się do zwiększenia prestiżu społecznego, pozwalającym na zwiększanie dóbr - zarówno tych materialnych, jak i niematerialnych, na kształcenie się w odpowiednim obszarze. Na poziomie społecznym natomiast procedury selekcyjne są jednym ze sposobów dzielenia rynku pracy czy ofert edukacyjnych. Można wręcz stwierdzić, że procedury te są również odpowiedzialne za to, kto zostanie dotknięty bezrobociem i będzie dyskryminowany na rynku zawodowym czy edukacyjnym. Społeczna i ekonomiczna rola procedur selekcyjnych jest zatem ogromna. Nie może też dziwić, że osoby poddawane tym procedurom domagają się gwarancji ich obiektywności i uczciwości.
Zarządzanie potencjałem społecznym jest procesem ciągłym, którego elementem są zarówno rekrutacja i selekcja (obsada stanowisk pracy, kontakty z rynkiem pracy i z jego organizacjami), jak i ocena przy awansach pracowników już zatrudnionych w firmie (ocena osiąganych rezultatów oraz ocena możliwości rozwoju pracowników). Selekcja to proces zbierania informacji o kandydatach na uczestników organizacji oraz wyboru najbardziej odpowiedniego spośród nich na wakujące stanowisko pracy.
Nie ma zatem wątpliwości, że społeczne zainteresowanie problematyką selekcji będzie coraz większe, a opinia publiczna domagać się będzie rozwiązań, które będzie mogła uznać za bezstronne, tj. takich, które prowadzić będą do oceny kandydatów wyłącznie ze względu na ich przydatność na dane stanowisko. Uczciwa selekcja to taka procedura, w ramach której formułuje się - wynikające
114
20   Linie regresji wyznaczone dla różnych grup mogą różnić się ze względu na standardowy błąd pomiaru (wariancję błędu), współczynnik nachylenia i przesunięcia. Istotność różnic linii regresji wyznaczonych dla różnych grup można ocenić za pomocą testu identyczności równań regresji (por. Neter, Wasserman, 1974, Domański, 1979).
21  Ten podrozdział jest skróconą wersją rozdziału zatytułowanego „Filozofia uczciwej selekcji", zamieszczonego w pracy Stronniczość testów psychologicznych (Hornowska, 1999).
Trafność, czyli określanie obszaru zastosowania testu
z rzetelnie przeprowadzonej analizy pracy na danym stanowisku i dotyczące tylko wiedzy, umiejętności, zdolności i zakresu doświadczeń - kryteria określające zasady przyjmowania na określone stanowiska. Nierzetelne, a nawet nielegalne, są kryteria pozamerytoryczne, takie jak narodowość, religia czy płeć. Problem opracowania takich strategii selekcyjnych, które będą „uczciwe" wobec przedstawicieli wszystkich kultur, przestaje zatem być problemem interesującym głównie teoretyków. Coraz częstsze stosowanie wywiadów i testów psychologicznych w procesie doboru przyszłych pracowników sprawia, że rozwiązań tych oczekuje się również od psychologów. Zasadność stosowania testów potwierdzają następujące ich zalety:
a)  gwarantując standaryzację sytuacji egzaminacyjnej, testy zapewniają wszystkim kandydatom jednakowe szansę, gdyż wyniki testów nie pozostają pod wpływem osobistych względów i uprzedzeń, kwestii pozamerytorycznych lub nieistotnych informacji;
b)  skale ocen i odniesienia są jawne, co ułatwia porównywanie wyników poszczególnych kandydatów;
c)  przed zastosowaniem testy są badane pod względem jakości merytorycznej i przydatności empirycznej; z uwagi na to, że zostały opracowane według racjonalnego schematu, ich wyniki mogą być wykorzystane także w okresie późniejszym;
d)  testy mogą uzupełniać zebrane już informacje o kandydacie lub je korygować, co w inny sposób byłoby trudne lub niemożliwe.
W Stanach Zjednoczonych, aby zapewnić stosowanie procedur selekcyjnych nie prowadzących do dyskryminacji żadnej z grup (większości czy mniejszości), już w 1978 roku opracowano dokument pt. Uniform Guidehnes on Employee Selection Procedur es (Roe, Greuter, 1991) ustalający zasady selekcji kandydatów. Biorąc pod uwagę przemiany na dzisiejszym rynku pracy (nowe technologie, zmieniające się warunki pracy, optymalizację wykorzystania zasobów ludzkich, także zmianę systemów edukacyjnych), zagadnienie uczciwej selekcji ponownie powinno znaleźć się w centrum naukowego zainteresowania psychologów.
Od strony psychometrycznej sytuację selekcji można opisać następująco (za: Guilford, 1964, s. 386-395; por. też Anastasi, Urbina, 1999, s. 198): przyjmijmy, że kryterium wyboru jest wynik testu psychologicznego. Test ten powinien być wysoce skorelowany z kryterium, którym może być np. poziom wykonywania przyszłej pracy zawodowej czy postępy w kształceniu. Niech oś X przedstawia skalę wyników testów psychologicznych, a oś Y skalę kształcenia lub pracy zawodowej. Populacja osób starających się o pracę czy przyjęcie do szkoły może zostać podzielona na cztery kategorie (por. też rys. 3.4):
(A)  osoby, które zostaną wybrane i osiągną powodzenie,
(B)  osoby, które zostaną odrzucone, a które osiągnęłyby powodzenie, gdyby zostały wybrane,
(C)  osoby, które zostaną wybrane i nie osiągną powodzenia,

115
Rozdział 3
(D) osoby, które zostaną odrzucone i które nie osiągnęłyby powodzenia.
gdyby zostały wybrane.
Problem skutecznej selekcji można zatem rozważać w kategoriach trafnej prognozy (por. wyżej - definicja stronniczego testu). I tak, na rys. 3.4 widać, że trafna prognoza (i właściwa decyzja selekcyjna) dotyczy osób wpadających
Rys. 3.4. Podział populacji starających się o pracę przy uwzględnieniu kwalifikacyjnego wyniku testu psychologicznego (oś X) oraz kryterium pracy zawodowej (oś Y) (opracowano na podstawie Guilford, 1964, s. 387)
|

wybrani, którzy osiągnęli powodzenie
odrzuceni, którzy osiągnęliby powodzenie j
odrzuceni, którzy
nie osiągnęliby
powodzenia
wybrani, którzy nie osiągnęli powodzenia
[

Odrzuceni     Przyjęci
Test
116
do kategorii oznaczonych jako A i D, nietrafną decyzję zaś podjęto w przypadku osób z kategorii B i C.
Od czego zatem zależy wielkość obszarów A, B, C i D, czyli inaczej - trafność decyzji selekcyjnej? Czynnikami, które determinują wielkość błędu popełnianego przy prognozowaniu kryterium, będą - obok, oczywiście, wielkości korelacji między testem i kryterium - różne punkty podziału wprowadzone na skali powodzenia i na skali wyników testowych. Punkty te zostały nazwane przez Taylora i Russella (1939, za Guilford, 1964, s. 388)
Trafność, czyli określanie obszaru zastosowania testu
stosunkiem powodzenia i stosunkiem wyboru22. Stosunek powodzenia to proporcja przyjętych kandydatów, którzy osiągną powodzenie, zaś stosunek wyboru to proporcja wszystkich kandydatów, którzy zostali przyjęci (ibidem) - por. rys. 3.5.
Rys. 3.5. Różne kombinacje stosunku wyboru i stosunku powodzenia przy różnych stopniach trafności prognostycznej testu (opracowano na podstawie Guilford, 1964, s. 389)
(a)                                                                      (b)
T
y


22 Warto w tym miejscu przytoczyć koncepcję współczynnika selekcji, którą formułuje się w naukach o zarządzaniu, czyli poza psychologią. I tak np. Szałkowski (1995, s. 83) opisuje współczynnik selekcji, rozumiany jako stosunek liczby kandydatów podlegąiących procesowi selekcji na danym etapie do liczby potencjalnych kandydatów:
liczba kandydatów poddanych selekcji
Współczynnik selekcji =---------------------------------------------------
liczba potencjalnych kandydatów
Wartość tego współczynnika zależy nie tylko od przyjmowanych założeń, ale także od popytu i podaży, charakteryzujących dany rynek pracy - w wypadku pewnych branż, firm czy stanowisk podaż osób o odpowiednich kwalifikacjach (w konkretnej procedurze selekcji) może być tak mała lub ogólny popyt na nie tak duży, że współczynnik ten będzie mieć wartość 1, a wypadku innych przyjmować będzie wartości mniejsze od 1.
117
Rozdział 3
118
Analiza rys. 3.5 pozwala zauważyć, że skuteczność selekcji za pomocą testów nie zależy wyłącznie od trafności testu, lecz od odpowiedniej kombinacji stosunku powodzenia i stosunku wyboru. I tak na wykresie a i b stosunek powodzenia jest wysoki, a na wykresach c i d bardzo niski. Testy a i c to testy mało trafne, a testy b i d to testy o zadowalającej trafności.
Przyjrzyjmy się dokładniej wykresowi c. Jest to ilustracja sytuacji, w której
- mimo że stosujemy test o niskiej trafności - możemy dokonać skutecznej selekcji (odrzucamy bowiem parokrotnie więcej potencjalnych niepowodzeń niż potencjalnych powodzeń). Z kolei na wykresie a mamy do czynienia z sytuacją, w której ustalenie zbyt wysokiego punktu odcięcia (wyniku kwalifikacyjnego) w wypadku testu o niskiej trafności prowadzi do odrzucania osób o najlepszych kwalifikacjach (Guilford, 1964, s. 389-390). Wykresy te są dobrą ilustracją faktu, że trafność procedury selekcji zależy nie tylko od trafności prognostycznej wykorzystanego narzędzia psychologicznego, ale także od szeregu innych czynników, które mogą w sposób znaczący wpływać na ostateczne rezultaty.
Ogólnie rzecz biorąc, w tworzeniu schematu procedury selekcyjnej należy
- jak się wydaje - wziąć pod uwagę pięć rodzajów wymagań:
a)  trafność- czyli dobór takich informacji, które pozwalają na dokonywanie prognoz i zapewniają trafność decyzji wyprowadzonych na ich podstawie. Innymi słowy, metoda ma faktycznie mierzyć te cechy i zdolności, które zgodnie z koncepcją jej autora mierzy (powinna być trafna teoretycznie), oraz przewidywać te przyszłe efekty pracy bądź zachowania, których pomiar jest jej przypisywany. Może to prowadzić np. do włączenia pewnych rodzajów pytań do podania aplikacyjnego, do stosowania określonych testów zdolności, kombinacji tych testów, korzystania z danych biograficznych czy próbek pracy;
b)  skuteczność - czyli właściwą kombinację stosunku powodzenia i stosunku wyboru;
c)  etyczne postępowanie- czyli dbanie o to, aby w procedurze selekcyjnej nie pojawiły się takie aspekty, jak naruszenie prawa do prywatności, prawa do odwołania czy prowadzenie polityki dyskryminacyjnej. Dbałość o etyczne postępowanie może prowadzić do zadawania pytań na tematy drażliwe dopiero pod koniec sesji, do włączania do selekcji procedur załatwiania odwołań czy tworzenie różnych procentowych kryteriów przyjmowania osób należących do różnych grup etniczno-kulturowych;
d)  opłacalność- czyli łączną sumę kosztów i zysków wynikających ze stosowanych procedur selekcyjnych. Opłacalność można zwiększyć przez włączenie tańszych informacji (np. stopni szkolnych), stosowanie krótszych testów czy prowadzenie selekcji etapowych;
e)  wydajność- czyli odpowiedni stopień strukturalizacji procedur selekcyjnych. Wydajność jest związana z automatyzacją postępowania selekcyjnego, optymalnym wykorzystaniem możliwości zespołu prowadzącego
Trafność, czyli określanie obszaru zastosowania testu
postępowanie kwalifikacyjne i standaryzacją procedur testowania. Jest
czynnikiem minimalizującym ponoszone koszty.
Na gruncie psychometrii formułuje się trzy ogólne koncepcje selekcji. Koncepcje te opisane, przez Huntera i Schmidta (1976; też Jensen, 1980; Hunter, Schmidt, Rauschenberger, 1984) jako indywidualizm nieograniczony (ang. unqua.lifi.ed individualism), indywidualizm ograniczony (ang. ąualified individualism) i dobór kwotowy (ang. ąuotas), raczej odzwierciedlają odmienne stanowiska filozoficzne, niż tworzą zbiory praktycznych reguł postępowania. Ze względu jednak na to, że pozwalają sformułować odmienne kryteria etyczne dotyczące uczciwości procedury selekcyjnej, warto się im bliżej przyjrzeć. Co więcej, tworzą one wygodny system klasyfikacyjny dla opisywanych (licznie w literaturze przedmiotu) konkretnych strategii postępowania.
Na gruncie psychometrii formułuje się trzy ogólne koncepcje selekcji. Są to:
•  indywidualizm nieograniczony—instytucja dokonująca selekcji powinna wybierać tych kandydatów, którzy otrzymali najwyższy przewidywany wynik kryterialny, bez względu na to, jakie zmienne predykcyjne zostały uznane za najbardziej trafne (mogą to być takie zmienne informacje, jak te dotyczące pochodzenia etnicznego, płci, religii czy statusu socjoekonomicznego badanych osób);
•  indywidualizm ograniczony- instytucja dokonująca selekcji również powinna się kierować zasadą maksymalizowania trafności predykcyjnej. Jednakże w procedurze selekcji nie wolno brać pod uwagę wszystkich tych zmiennych, na podstawie których można by zidentyfikować, do jakiej grupy należy badana osoba. Takie zmienne, jak rasa, płeć, pochodzenie etniczne, nie mogą być - z zasady - włączane do zbioru zmiennych predykcyjnych;
•  dobór kwotowy- według tego stanowiska trafna procedura selekcji to taka procedura, która w proporcjach przyjętych kandydatów z grupy mniejszości i większości uwzględnia szeroko rozumiane kryteria społeczne.
Indywidualizm nieograniczony
Zgodnie ze stanowiskiem indywidualizmu nieograniczonego, instytucja dokonująca selekcji powinna wybierać tych kandydatów, którzy otrzymali najwyższy przewidywany wynik kryterialny. Do ustalenia wyniku kryterial-nego można wykorzystać dowolne zmienne predykcyjne (lub kombinacje tych zmiennych). Nakłada się na nie jeden tylko warunek - muszą mieć one najwyższą z możliwych trafność prognostyczną. Zgodnie z tym stanowiskiem, w trakcie postępowania selekcyjnego - obok zmiennych predykcyjnych, takich jak wyniki testowe - można wykorzystywać wszelkie informacje o przynależności grupowej, np. informacje dotyczące pochodzenia etnicznego, płci, religii czy statusu socjoekonomicznego (por. Hunter, Schmidt, 1976, s. 1055-1057; też Jensen, 1980, s. 392-394).
Ogólnie rzecz biorąc, każda zmienna demograficzna czy biologiczna może zostać potraktowana jako dopuszczalna zmienna predykcyjna, o ile tylko jest skorelowana z prognozowanym kryterium. To, czy zostanie ona wyko-
119
Rozdział 3
120
rzystaną czy też nie, zależy zatem od rozważań natury statystycznej, a nie etycznej. Jeżeli włączenie danej zmiennej do zbioru predyktorów zwiększa trafność prognostyczną tego zbioru, jest to wystarczający argument, aby tak uczynić. Jedynie kryteria natury praktycznej (koszty, czas), zestawione z ewentualnym wzrostem trafności prognostycznej, mogą przemawiać przeciwko wykorzystaniu takich informacji jako zmiennych predykcyjnych (por. Jensen, 1980, s. 394). Jeżeli rasa, płeć czy wiek okażą się trafniejszymi predyktorami kryterium w danej sytuacji selekcyjnej niż inne zmienne pre-dykcyjne, to - zgodnie ze stanowiskiem indywidualizmu nieograniczonego - mamy etyczne prawo się nimi posłużyć dla celów selekcyjnych.
Co więcej, zgodnie ze stanowiskiem indywidualizmu nieograniczonego, nie trzeba stosować tego samego testu czy zmiennych predykcyjnych w stosunku do wszystkich kandydatów. Można bowiem wykorzystywać różne predyktory, zgodnie z przynależnością kandydatów do grup społecznych. Jeżeli jakikolwiek test okaże się bardziej trafny dla członków jednej grupy, a inny test dla członków drugiej grupy, to każda grupa powinna wypełniać ten test, który jest dla niej bardziej trafny. Etyczny wymóg stanowiska indywidualizmu nieograniczonego można zatem sprowadzić do wymogu tworzenia takich procedur selekcyjnych, które są najbardziej trafne dla danej osoby. Dlatego też np. kobiety powinny być testowane za pomocą testów najbardziej trafnych dla kobiet, a mężczyźni dla mężczyzn. Kandydaci powinni być następnie wybierani w porządku rangowym, od najlepszego do najgorszego, ze względu na prognozowany wynik w kryterium, tak długo, aż nie zostanie przekroczony punkt odrzucenia ustalony przez instytucję dokonującą selekcji.
Celem postępowania selekcyjnego jest maksymalizowanie trafności prognozy, a nie określanie, jak dana osoba mogłaby funkcjonować, gdyby stała za nią inna historia życia, gdyby pochodziła z lepszego czy gorszego środowiska lub posiadała inną kombinację genów (Jensen, 1980, s. 393). Jeżeli zatem osoba należąca do konkretnej grupy zostanie odrzucona przez strategię indywidualizmu nieograniczonego, to stało się tak nie dlatego, że jest członkiem tej grupy, ale dlatego, że jest to najlepsza prognoza kryterium dla tej osoby.
Ten rodzaj selekcji pozwala również na stworzenie wszystkim pracownikom wyrównanych szans na przyszły awans. Hunter i Schmidt (1976, s. 1069) opisali np. przypadek przedsiębiorstwa, które w znacznym stopniu obniżyło standardowe kryterium zatrudniania, aby można było przyjąć więcej czarnych pracowników. Jednakże pracownicy ci nie mogli sprostać wewnętrznym kryteriom awansowania, co sprawiło, że zajmowali najniższe stanowiska w tym przedsiębiorstwie. W efekcie prowadzania takiej polityki przedsiębiorstwo to znalazło się przed sądem z powodu prowadzenia dyskryminacyjnej polityki awansowania.
Oczywiście i w tej strategii zdarzają się błędy prognozy. Zawsze będą tacy kandydaci, którzy zostaną odrzuceni, choć przyjęci zostali ci, którzy
Trafność, czyli określanie obszaru zastosowania testu
uzyskali gorsze wyniki. Takie błędy prognozy są jednak nieuniknione i zdarzają się w każdej sytuacji selekcji, w której stosujemy niedoskonale trafny zbiór predyktorów. To, co rzeczywiście można zrobić na podstawie dostępnych informacji o kandydatach, to podjęcie wysiłku minimalizowania błędów prognozy. Zaakceptowanie takiej koncepcji selekcji gwarantuje, że cel ten może zostać osiągnięty.
Jakie są główne zarzuty w stosunku do tego stanowiska? Podstawowy zarzut, jaki można sformułować, dotyczy tego, co miało być siłą tej propozycji. Przypuśćmy, że dla jednej z grup nie można skonstruować trafnego zbioru predyktorów lub że zbiór skonstruowany dla tej grupy ma zdecydowanie niższą trafność niż zbiór dla drugiej grupy. W tej sytuacji nawet najlepsi kandydaci z tej grupy będą mieli mniejsze szansę na pozytywną decyzję w porównaniu z kandydatami należącymi do drugiej grupy. W tym sensie strategia selekcji może zostać potraktowana jako nieuczciwa w stosunku do członków tej grupy, dla której predyktor (zbiór predyktorów) ma niższą trafność. Wyobraźmy sobie taki skrajny przypadek, w którym trafność predyktóra wynosi zero. Linia regresji wyznaczona dla wyniku testowego i wyniku kryterialnego dla tej grupy będzie wówczas równoległa do osi X (będzie pozioma). W tej sytuacji prognozowanym wynikiem kryterialnym będzie średnia grupowa. Jeżeli średnia wypadnie poniżej punktu odrzucenia przyjętego przez pracodawcę, to żadna osoba z tej grupy nie zostanie przyjęta. Jeżeli z kolei średnia znajduje się powyżej punktu odrzucenia, to wszyscy kandydaci z tej grupy mają jednakowe szansę na przyjęcie, i w efekcie najlepsi z nich nie będą promowani (Jensen, 1980, s. 394). Jednakże najbardziej na tym traci instytucja przyjmująca. W pierwszym wypadku bowiem zmienna predykcyjna nie pozwala na identyfikowanie najlepiej rokujących kandydatów; w drugim zaś może zdarzyć się tak, że zostaną przyjęte osoby niekompetentne (Hunter, Schmidt, 1976, s. 1070).
Warunkiem stosowania strategii indywidualizmu nieograniczonego jest zatem stworzenie maksymalnie trafnego zbioru predyktorów dla każdej z grup i upewnienie się, że różnica współczynników trafności w obu grupach jest najmniejsza z możliwych. Jeżeli okaże się, że nie jest to możliwe, stanowi to poważne wyzwanie dla uczciwej polityki selekcji. Zagorzały zwolennik tej strategii będzie jednak twierdzić, że żadna inna możliwość nie jest bardziej uczciwa niż ta, w której wykorzystuje się najlepszy z dostępnych zbiorów predyktorów, bowiem tylko w ten sposób można zminimalizować błędy prognozy. Czy rzeczywiście ta argumentacja jest do przyjęcia? Przyjrzyjmy się, co mają do zaproponowania zwolennicy pozostałych dwóch koncepcji.

Indywidualizm ograniczony
Na gruncie indywidualizmu ograniczonego, podobnie jak w koncpecji indywidualizmu nieograniczonego, główny nacisk kładzie się na zasadę maksymalizowania trafności predykcyjnej. Jednakże przedstawiciele tego stanowiska wprowadzają zasadnicze ograniczenia w stosunku do zbioru
121
Rozdział 3

dopuszczalnych predyktorów: w procedurze selekcji nie wolno brać pod uwagę wszystkich tych zmiennych, na podstawie których można by zidentyfikować, do jakiej grupy należy badana osoba. Tym samym takie zmienne, jak rasa, płeć, pochodzenie etniczne, nie mogą być - z zasady - włączane do zbioru zmiennych predykcyjnych (por. Hunter, Schmidt, 1976, s. 1058).
W sytuacji, kiedy test wykorzystywany jako predyktor nie jest testem stronniczym, obie strategie prowadzą do takich samych rezultatów: każdy wynik w teście pozwala na dokonywanie trafnych prognoz niezależnie od przynależności grupowej. W wypadku testu stronniczego pojawia się jednak poważny problem. Zwolennik stanowiska indywidualizmu ograniczonego nie może bowiem zastosować różnych testów dla obu grup, gdyż identyfikacja grupowa jest zakazana. Nie może też, oczywiście, wykorzystać zmiennych identyfikujących przynależność grupową jako zmiennych predykcyjnych nawet wtedy, kiedy ich włączenie do zbioru predyktorów istotnie podniosłoby jego trafność predykcyjną.
Zgodnie z koncpecją indywidualizmu ograniczonego, jednym ze sposobów radzenia sobie w sytuacji, kiedy wykorzystywany test okaże się testem stronniczym, jest włączanie do równania regresji dodatkowych zmiennych, nie pozwalających na identyfikację przynależności grupowej jednostki. To zaś może prowadzić do wybierania takich zmiennych, które skorelowane z kryterium, mogą też pośrednio być skorelowane23 z przynależnością grupową. Takimi zmiennymi są wszelkie dane biograficzne, np. data urodzenia, wykształcenie własne i wykształcenie rodziców lub miejsce zamieszkania. Czy posługiwanie się takimi danymi zamiast danymi dotyczącymi przynależności grupowej jest bardziej uczciwe, niż gdyby były to dane o rasie, płci czy religii?
Przedstawiciele indywidualizmu ograniczonego zgadzają się, że płeć czy rasa to zmienne, które rzeczywiście posiadają trafność predykcyjną w wypadku prognozowania wielu specyficznych osiągnięć szkolnych czy powodzenia w specjalistycznych zawodach. Źródło tej trafności nie jest jednak jasne i wzbudza spory wśród naukowców. Nie można zatem - nie znając istoty powiązania między predyktorem a kryterium - wykorzystywać tych zmiennych w równaniu regresji.
Wykorzystywane predyktory powinny mieć trafność wewnętrzną, tj. posiadać jasne, funkcjonalne powiązania ze zmienną kryterialną. Jeżeli np. szukamy kandydatów do pracy na stanowisku urzędnika w banku, to możemy jako jedną ze zmiennych predykcyjnych zastosować test szybkości spostrzegania, jeżeli tylko wykażemy, że wyniki tego testu są powiązane z sukcesem w pracy na tym stanowisku. Zwolennicy indywidualizmu nieograniczonego będą jednak twierdzić, że - w tym sensie - każdy predyktor posiada trafność wewnętrzną, o ile jest istotnie skorelowany ze zmienną kryterialną.
-
23 Wskaźnik pośredni jest tu definiowany jako taka zmienna, która jest bardziej skorelowana 122    z przynależnością grupową niż ze zmienną kryterialną (por. Jensen, 1980, s. 395).
Trafność, czyli określanie obszaru zastosowania testu
Decyzja o tym, które zmienne można włączyć do zbioru predyktorów (zakładając, że wszystkie są istotnie skorelowane z kryterium), ma charakter subiektywny. To jednak nie podlega już żadnym metodom kontroli naukowej. Główną zaletą ograniczonego indywidualizmu - wedle jego orędowników - jest możliwość wybierania spośród kandydatów osób najlepiej wykwalifikowanych, i to - ich zdaniem - w sposób uczciwy, bowiem bez korzystania z informacji o przynależności grupowej badanych osób. Jest to strategia, która zmusza do poszukiwania zbioru najlepszych predyktorów, i to takich, które odwołują się wyłącznie do indywidualnych umiejętności jednostki (np. zdolności czy motywacji). Przeciwnicy tego stanowiska twierdzą natomiast, że jego zwolennicy - wbrew deklaracjom - nie starają się postępować zgodnie z zasadą maksymalizacji trafności predykcyjnej, bowiem odrzucają część danych (te o przynależności grupowej). Mogą natomiast włączać pośrednie wskaźniki przynależności grupowej, a nawet włączać do testu obciążone kulturowo pozycje testowe jako substytuty przynależności grupowej.
Dobór kwotowy
Zgodnie ze stanowiskiem, którego istotą jest kwotowy (proporcjonalny) dobór kandydatów z grupy mniejszości i większości, pojęcie uczciwej selekcji nie odwołuje się do maksymalizowania trafności i minimalizowania błędów prognozy (indywidualizm nieograniczony) czy do tworzenia procedur niezależnych od przynależności grupowej (indywidualizm ograniczony). Zwolennicy dobru kwotowego uważają, że uczciwa procedura selekcji to taka procedura, która w proporcjach przyjętych kandydatów z grupy mniejszości i większości uwzględnia szeroko rozumiane kryteria społeczne. I tak, jeżeli w danym mieście mieszka 45% czarnych i 55% białych, to każda strategia, która dopuszcza inne proporcje wśród wybranych białych i czarnych kandydatów, jest „politycznie stronnicza" (Hunter, Schmidt, Rauschenberger, 1984, s. 56). Ustalanie uczciwych proporcji (ang. fair-share ąuotas) może być oparte na procentowym składzie populacji czy innych czynnikach, niezależnych od prognozowanego wyniku kryterium (Darlington, 1971).
Strategia postępowania zgodnie z doborem kwotowym może być jawna lub ukryta w statystycznych procedurach selekcji. Jej istota pozostaje jednak nie zmieniona - dobieranie kandydatów z grupy mniejszości i większości w sposób proporcjonalny powinno przeważać nad zasadą doboru według najwyższego prognozowanego wyniku kryterialnego. Im szerzej będą definiowane obie grupy (mniejszości i większości), tym większe będą korzyści społeczne wynikające z doboru kwotowego i tym bardziej będą przeważać nad stratami wynikającymi z obniżenia prognozowanego wyniku kryterialnego.
W strategii opartej na doborze kwotowym wychodzi się zatem z założenia, że warto poświęcić formalną zasadę dobierania kandydatów zgodnie z najwyższym prognozowanym wynikiem kryterialnym na rzecz innych korzyści, mających większą wartość społeczną. Np. ze społecznego punktu widzenia    123
Rozdział 3
sprawą niezmiernie ważną może być podjęcie decyzji o preferowaniu kandydatów z grupy mniejszości (wybranie większej ich proporcji), aby w ten sposób zrekompensować mniejsze ich szansę w przeszłości, i w ten sposób zadość uczynić przeszłej, niesprawiedliwej polityce społecznej (np. preferowanie dzieci pochodzenia robotniczego i chłopskiego przy przyjmowaniu na studia wyższe w PRL, praktyka political correctness w USA czy prawnie usankcjonowane tworzenie drużyn sportowych w RPA, proporcjonalnie do rasowego składu populacji). Preferowanie kandydatów z grupy mniejszości jest zatem społecznie uzasadnione nawet wtedy, kiedy z konieczności zmusza do obniżenia ich prognozowanego wyniku kryterialnego i prowadzi do częstszych ich niepowodzeń w nauce czy pracy. Istota doboru kwotowego - choć działającego w odwrotnym kierunku, tj. dyskryminująco - znalazła swoje szczególne odzwierciedlenie w realizowanej w latach 30. w Polsce zasadzie numerus clausus (ograniczanie ogólnej liczby osób z pewnej kategorii - tu: pochodzenia żydowskiego - przy przyjmowaniu na studia wyższe, do stowarzyszeń lub do pracy w urzędach)24 czy zasadzie numerus nullus (niedopuszczaniu w ogóle pewnych grup kandydatów do studiów czy stowarzyszeń - por. też Walasek, 1994).
Czy rzeczywiście ta strategia doboru jest społecznie uczciwa, i w związku z tym przeważa nad strategiami indywidualizmu nieograniczonego i ograniczonego? Podstawowym pytaniem w doborze kwotowym jest pytanie o to, jakie grupy społeczne powinny być w kwocie faworyzowane i jak duże powinny być to kwoty (proporcje). Bez względu na decyzję zawsze staniemy w obliczu następującego problemu: przyjęliśmy mniej wykwalifikowanych kandydatów (w terminach prognozowanego wyniku kryterialnego) z jednej grupy i odrzuciliśmy lepiej wykwalifikowanych kandydatów z drugiej. Wybrani kandydaci z grupy faworyzowanej zaakceptują selekcję kwotową z powodu oczywistych korzyści, jakie im ona daje. Jednakże kandydaci z drugiej grupy, którzy mieli jednakowo wysokie wyniki testowe i zostali odrzucenie będą mieli zdecydowanie mniej powodów do zadowolenia. Problemu tego nie da się jednak rozwiązać w terminach psychometrycznych czy statystycznych, a odpowiednia decyzja musi zostać podjęta na innych podstawach.
Kiedy jednak decyzja ta zostanie już podjęta, można się odwołać do precyzyjnych, matematycznych strategii ustalania optymalnych punktów odrzucenia dla różnych grup i określić najbardziej prawdopodobne konsekwencje danej strategii (por. Roe, Greuter, 1991). Najczęściej jako optymalny sposób postępowania przy wypełnianiu odpowiednich kwot wybiera się
24 W sprawie zasady numerus clausus obowiązującej przy przyjmowaniu młodzieży pochodzenia żydowskiego na studia medyczne w Polsce por. też Wojtkiewicz-Rok (1996, s. 154-155), która opisuje wiec ogólnoakademicki mający miejsce 15 III 1923 roku na Uniwersytecie Poznańskim. Podczas tego wiecu postulowano zróżnicowanie zasady numerus clausus dla poszczególnych ośrodków akademickich w zależności od ich specyfiki. Ponieważ na terenie poznańskiego ludność żydowska stanowiła 1 %) uczestnicy wiecu proponowali, aby 124    na Uniwersytet Poznański przyjmować właśnie 1% osób tego pochodzenia.
Trafność, czyli określanie obszaru zastosowania testu
następująca zasadę: „dla każdej z grup należy - posługując się maksymalnie tratnym lejcem dla tej grupy - ustalić prognozowany wynik kryterialny" (Hunter, Schmidt i Rauschenberger, 1984, s. 79). Preferowana strategia selekcji kandydatów w ramach kwot odwołuje się zatem wprost do indywidualizmu nieograniczonego, tj. maksymalizowania wyniku kryterialnego i minimalizowania błędu prognozy wewnątrz każdej grupy.
Jakie zatem zastrzeżenia można sformułować pod adresem tej koncepcji? Jak się wydaje, podstawowy problem strategii opartej na doborze kwotowym polega na tym, że średni wynik kryterialny kandydatów z grupy mniejszości jest zawsze niższy od średniego wyniku kandydatów z grupy większości, a przeciętna różnica między wybranymi kandydatami z grupy większości i mniejszości będzie się powiększać. Ta cecha charakterystyczna doboru kwotowego ma znaczenie nie tylko ze statystycznego punktu widzenia, ale przede wszystkim z powodu społecznych konsekwencji. Jak pisali Hunter i Schmidt (1976, s. 1069): „dobór kwotowy w sposób oczywisty zaniża średnie wyniki uczniów kończących szkołę, i dlatego musi obniżać jej prestiż. Podobne uwagi można sformułować w stosunku do rynku pracy". Dobór kwotowy może też stać się
- wbrew intencji jego zwolenników - narzędziem dyskryminacji (określanie grup mniejszości i większości dla doraźnych celów politycznych).
Inne zastrzeżenie sformułowane przez Huntera i Schmidta (ibidem) dotyczy konsekwencji strategii doboru kwotowego dla kandydatów z preferowanej grupy mniejszości. Ich zdaniem, osoby należące do grupy mniejszości i wybrane zgodnie z systemem kwotowym, które zostałyby również wybrane, gdyby zastosować strategię indywidualizmu nieograniczonego, płacą społeczne koszty w postaci mniejszego prestiżu i mniejszej samooceny. Jest to spowodowane ogólnie niższymi wynikami kryterialnymi całej grupy mniejszości i traktowaniem wszystkich osób należących do tej grupy jako mniej wykwalifikowanych w porównaniu z odrzuconymi kandydatami z grupy większości. A to powinno uwrażliwić wszystkich decydentów na, być może, zbyt duże koszta indywidualne - w porównaniu z zyskami społecznymi
- wynikające ze stosowania strategii selekcji opartej na doborze kwotowym. Literatura na temat stronniczości selekcji nie dostarcza definicji uniwersalnej, dającej się zastosować w każdej sytuacji społecznej, nawet jeżeli pojęcie uczciwej selekcji ograniczymy wyłącznie do trafności prognostycznej. Jak się wydaje, ogromną rolę w podejmowaniu decyzji dotyczących preferowanych strategii selekcji odgrywają przyjęte systemy wartości. Odwołanie się wyłącznie do procedur statystycznych nie jest tu rozwiązaniem, chyba że uznamy, iż jedynym celem selekcji jest maksymalizacja trafności prognozy wyniku kryterialnego. Ta ostatnia zasada sama w sobie jest już jednak wartością i jak przekonywał Ellett (1980), powinna również stać się przedmiotem moralnej debaty (szerzej na temat pojęcia uczciwej selekcji i modeli decyzyjnych wykorzystywanych dla potrzeb selekcji por. Anastasi, Urbina, 1999; Hornowska, 1999, 2000b).
125
Rozdział 3
Podsumowanie. Nasza refleksja na temat stronniczości testu i jego uczciwego stosowania na pozór wykracza poza obszar tradycyjnie zarezerwowany dla problematyki trafności. Jednakże zagadnienia te - co, mam nadzieję, udało się wyraźnie pokazać - są ściśle powiązane z trafnością testu, a analiza stronniczości powinna być traktowana jako element badań walidacyjnych. Badania nad stronniczością w sposób oczywisty rozszerzają nasze rozumienie trafności testu.
Wczesne standardy dotyczące wymogu trafności można nazwać „wymogiem prawdziwości etykietowania" - twórca testu musiał wykazać, że test mierzy to, co z założenia ma mierzyć. Rosnące zainteresowanie testami i wadliwe ich stosowanie zwiększyły społeczny nacisk na wymóg trafności. Po to, aby można było prowadzić badania, które potwierdziłyby wnioski wyciągane na podstawie wyników testowych, badacze musieli umieć sformułować te wnioski i następnie je badać. Stało się wyraźne, że wnioski te zależą od konkretnego zastosowania testu. Już w 1971 roku Cronbach (1971) twierdził, że jeżeli wyniki testowe mają stać się podstawą decyzji (zwłaszcza selekcyjnych), to konsekwencje tych decyzji muszą być elementem badań walidacyjnych. Stąd w Standardach dla testów stosowanych w psychologii i pedagogice wydanych w 1985 roku (APA, 1985b) sformułowano już - idąc za Cronbachem (1971) - następującą dyrektywę: jeżeli test jest wykorzystywany np. do podejmowania decyzji o kierowaniu do różnych placówek (np. szkół specjalnych), należy wykazać, że idący za tym inny sposób oddziaływania stanie się skuteczny. Kluczowym pojęciem staje się skuteczność - dzieci skierowane do szkół specjalnych muszą się lepiej rozwijać tam, niż gdyby zostały w dotychczasowym środowisku. Podczas gdy tradycyjne badania walidacyjne można określić jako udowadnianie prawdziwości w etykietowaniu, współczesne można porównać do testowania nowego leku - z jednakowym naciskiem na efekty uboczne, jak i zamierzone korzyści.
Problem stronniczości testów psychologicznych nie może być więc problemem ignorowanym przez psychologów. Każdy test powinien zostać obiektywnie zbadany pod tym względem za pomocą wszelkich dostępnych technik psychometrycznych i statystycznych. Jeżeli hipoteza o istnieniu stronniczości testu zostanie potwierdzona, kwestionowanej metody nie powinno się stosować przynajmniej do badania tej grupy, która jest przez nią dyskryminowana, lub powinna być ona stosowana w sposób umożliwiający kontrolowanie wyników testowania ze względu na stronniczość. Warto też pamiętać że w stronniczych testach można często zrewidować oraz wyeliminować - jeżeli nie całkowicie, to w sposób wyraźny - ich stronniczość w stosunku do konkretnej grupy społecznej. Nim jednak zdecydujemy się odrzucić jakiś test całkowicie, powinniśmy także koniecznie rozważyć, czy to co nam zostaje w zamian - a więc pozatestowe techniki szacowania - gwarantuje mniej stronnicze i bardziej uczciwe decyzje w stosunku do zdefiniowanej, 126    określonej grupy osób badanych.
Trafność, czyli określanie obszaru zastosowania testu
Zakończmy tę część cytatem z dzieła wielkiego filozofa: „Zane jest stare powiedzenie głoszące, iż równość czyni przyjazne uczucia między ludźmi. Słuszne jest ono i traf ne. Ale j ak taką równość znaleźć, n ie u świ a-damiamy sobie jasno, i z tego powodu wszystko straszliwie mąci się i miesza" (IV Księga Praw Platona).
Podstawowe pojęcia:
•  dobór kwotowy
•  indywidualizm nieograniczony
•  indywidualizm ograniczony
•  kontaminacja kryterium
•  macierz wielu cech-wielu metod
•  stronniczość testu
•  trafność
•  trafność fasadowa
•  trafność kryterialna
trafność diagnostyczna trafność prognostyczna
•  trafność teoretyczna
•  trafność treściowa
•  uniwersum treści
Literatura zalecana





Anastasi A., Urbina S. (1999). Testy psychologiczne. Warszawa: Pracownia Testów Psychologicznych Polskiego Towarzystwa Psychologicznego.
Brzeziński J. (1996). Metodologia badań psychologicznych. Warszawa: Wydawnictwo Naukowe PWN.
Guilford J.P. (1988b). Rzetelność i trafność pomiarów. Biblioteka Psychologa Praktyka. Tom II: Problemy teorii, rzetelności, konstrukcji i analizy wyników testów psychologicznych (s. 51-103). Warszawa: Polskie Towarzystwo Psychologiczne, Laboratorium Technik Diagnostycznych.
Hornowska E. (1999). Stronniczość testów psychologicznych. Problemy - kierunki - kontrowersje. Poznań: Wydawnictwo Fundacji Humaniora.
Jakubowski J. (1983). Elementy klasycznej teorii trafności testów psychologicznych, w: W.J. Paluchowski (red.), Z zagadnień diagnostyki osobowości (s. 223-247). Wrocław-Warszawa: Ossolineum.

127
HOZDZIAL 4
Normy, czyli nadawanie znaczenia wynikom testowym

Termin „norma" zgodnie ze słownikową definicją oznacza „ustaloną, ogólnie przyjętą zasadę; regułę, przepis czy wzór" (Szymczak, 1979, tom II, s. 389). Jest to pojęcie powszechnie i wszechstronnie wykorzystywane. Możemy się z nim spotkać, mówiąc np. o normie czasu pracy, normie moralnej, normie psychicznej, normie technicznej, normie wiekowej czy wreszcie normie grupowej.
Generalnie rzecz biorąc, posługując się pojęciem normy, mamy na myśli (por. Swirydowicz, 1985):
a)  powszechność, masowość, częstość występowania określonego zachowania (cechy) w populacji;
b)  zgodność z oczekiwaniami, konwencją, wzorami zachowań charakterystycznymi dla danej populacji;
c)  zgodność z zasadami obowiązującymi w danej populacji.
Sowa (1984) wyróżnia trzy koncepcje normy: normę definiowaną przez kryterium teoretyczne, kryterium kulturowe i kryterium statystyczne. Zgodnie z kryterium teoretycznym norma wyznaczona jest przez jakąś teorię (koncepcję) psychologiczną. Zasadniczym znaczeniem terminu norma jest pewien wzór (model) wynikający z przyjętej teorii, pozostałe zaś znaczenia mieszczą się w tych ramach. Według kryterium kulturowego normę określają przepisy i wzory kulturowe. Bez względu na treść tych wzorów istotą normy jest zgodność z takim przepisem. Z kolei według kryterium statystycznego normą jest to, co jest opisywane jako „zachowanie większości" czy jako „zachowanie średnie lub przeciętne" (por. ibidem). Co zatem oznacza pojęcie „normy" na gruncie psychometrii?
128
4.1. POJĘCIE NORMY W PSYCHOMETRII
Przypuśćmy, że osoba badana otrzymała w teście 20 pkt. Jest to tzw. wynik surowy (ang. raw score) otrzymany w tym teście. Czy możemy ten wynik już zinterpretować, czyli określić, jak jest on wysoki? Dopóki nie będziemy dysponować jakimś układem odniesienia, taka interpretacja nie jest możliwa. Wyniki testowe jako takie (tj. wyniki surowe) pozbawione są znaczenia psychologicznego. Nie wiemy bowiem (Matuszewski, 1984, s. 58):
Normy, czyli nadawanie znaczenia wynikom testowym
a)  czy na tle określonej populacji otrzymany wynik surowy jest wynikiem przeciętnym, niskim czy też może wysokim;
b)  na ile odbiega od wyniku przeciętnego, jeżeli nie jest to wynik przeciętny;
c)  czy odchylenie od wyniku przeciętnego - w porównaniu z innymi osobami z populacji - jest znaczące;
d)  jak ocenić aktualnie otrzymany wynik w teście na tle wyników poprzednio otrzymanych przez tę osobę.
Jednym ze sposobów nadawania znaczenia wynikom testowym jest odnoszenie ich do norm1. Normą - w sensie psychometrycznym -jest „standard ilościowy, wyznaczony przez średnią, medianę lub inną miarę tendencji centralnej obliczoną dla grupy przedstawicieli danego typu (gatunku)" (por. Ricks, 1993, s. 50). Mówiąc inaczej, normą jest typowe zachowanie (typowy wynik w teście) otrzymany dla określonej grupy osób. W psychometrii zatem przyjmujemy statystyczne rozumienie normy (por. wyżej). Podkreślmy wyraźnie: norma nie oznacza standardu „dobrego" wykonania testu; norma opisuje poziom typowego wykonania testu przez osoby należące do określonej grupy.
Dzięki istnieniu norm możemy odpowiedzieć na pytanie „jaka jest wartość wyniku testowego otrzymanego przez osobę badaną w stosunku do wyników otrzymanych przez inne osoby" (por. Niemierko, 1975, s. 136). Co więcej, odwołanie się do norm pozwala na porównywanie ze sobą dwóch wyników testowych. Przeprowadzanie takiego porównania bezpośrednio dla wyników surowych nie jest możliwe, ponieważ każdy z nich może być wyrażony w różnych jednostkach i mógł zostać otrzymany w testach różniących się poziomem trudności (por. Anastasi, Urbina, 1999, s. 77). Dopiero przeliczenie wyników surowych na wspólną skalę pozwala na dokonanie takiego porównania. Jak pisze Jaworowska (1996, s. 10), „jeśli stosujemy test w diagnozie indywidualnej i chcemy orzekać o właściwościach psychologicznych badanego, to podstawą formułowanych wniosków jest zawsze ocena, jak ów badany wypada na tle innych osób. Wybór tła ma kluczowe znaczenie dla efektu końcowego, czyli formułowanych wniosków".
Istotą normatywnej interpretacji wyników testowych jest zatem odwołanie się do sposobu wykonania danego testu przez określoną grupę osób. Grupa ta stanowi tzw. grupę odniesienia, inaczej nazywaną też grupą normalizacyjną. Wybór właściwej grupy normalizacyjnej jest istotnym czynnikiem decydującym o jakości interpretacji wyników testowych.
Znaczenie grupy odniesienia
Zgodnie ze Standardami... (1985a, s. 28) „normy przedstawiane w podręczniku testowym powinny zostać opracowane dla wyraźnie zdefiniowanych
1 Innym sposobem interpretacji wyników testowych jest odwoływanie się do treści, co ma miejsce w tzw. testach zorientowanych na kryterium. Zagadnienie to krótko omówimy na końcu tego rozdziału.
129
Rozdział 4
populacji. Populacje te muszą odpowiadać tym grupom osób, z którymi badający testem będzie zazwyczaj porównywał osoby badane". Co to oznacza? Oznacza to tyle, że właściwa interpretacja wyników testowych zależy od cech charakterystycznych tej grupy osób, której wyniki zostały wykorzystane do obliczenia norm.
Jak piszą Gaul i Zakrzewska (1993, s. 107), „Jest rzeczą oczywistą, że struktura próby osób badanych (...) powinna, tak dalece jak jest to możliwe, odzwierciedlać strukturę populacji, dla której test ten jest przeznaczony. Innymi słowy, próba powinna być dla tejże populacji reprezentatywna". Problem polega na tym, że prosty dobór losowy, z jakim najczęściej kojarzymy pojęcie reprezentatywności, nie jest najlepszym rozwiązaniem wtedy, kiedy więcej niż jedna cecha charakteryzująca populację (np. wiek, płeć, miejsce zamieszkania czy wykształcenie) jest istotna dla badanego problemu (ibidem). Lepsze rozwiązanie w takim wypadku to dobór warstwowy lub dobór kwotowy, gwarantujący, że cechy uznane za ważne zostaną proporcjonalnie odzwierciedlone w próbie.
Dobór warstwowy- mówiąc najprościej - polega na podzieleniu populacji na warstwy2 i niezależnym losowaniu określonej liczby osób z każdej warstwy (Brzeziński, 1996, s. 241). Wariant proporcjonalny losowania warstwowego dodatkowo pozwala nam na uwzględnienie proporcjonalnego wkładu każdej warstwy do całej próby. Jak piszą Frankfort-Nachmias i Nachmias (2001, s. 202), „Badacze posługują się próbą warstwową przede wszystkim po to, aby mieć pewność, że różne grupy składające się na populację są właściwie reprezentowane w próbie". Ten sposób doboru próby normalizacyjnej jest bardziej użyteczny i lepiej reprezentuje populację pod względem kryteriów podziału na warstwy niż próba wylosowana w sposób indywidualny nieograniczony (ibidem).
Dobór kwotowy z kolei polega na takim doborze próby, aby uzyskać maksymalne podobieństwo do wyjściowej populacji (Frankfort-Nachmias, Nachmias, 2001, s. 199). Istotą doboru kwotowego jest określenie procentowego składu populacji i odtworzenie go w próbie. I tak jeżeli wiadomo, że 52% populacji stanowią kobiety, a 48% mężczyźni, w próbie liczącej 100 osób powinny się znaleźć dokładnie 52 kobiety oraz 48 mężczyzn.
Jeżeli normy testowe mają być psychologicznie użyteczne, to w „podręczniku testowym opis próby normalizacyjnej powinien być na tyle dokładny, aby badający testem umiał ocenić jej adekwatność, biorąc pod uwagę sposób, w jaki korzysta z testu" (Standardy..., 1985a, s. 29). Normy testowe opisują bowiem poziom wykonania określonej grupy osób i w tym sensie zawsze mają charakter relatywny. Bez posiadania informacji o tym, kto tworzył
130
2 Warstwa jest to grupa osób minimalnie różniących się między sobą pod względem wartości cechy będącej kryterium podziału na warstwy. I tak np. możemy osoby podzielić na trzy homogeniczne warstwy ze względu na poziom wykształcenia. Do pierwszej warstwy będą należeć tylko te osoby, które mają wykształcenie podstawowe, do drugiej te z wykształceniem średnim, a do trzeciej - osoby z wykształceniem wyższym.
Normy, czyli nadawanie znaczenia wynikom testowym
grupę normalizacyjną, użytkownik testu nie może ocenić przydatności publikowanych norm do własnych celów.
Podkreślmy jeszcze raz: normy testowe opisują typowy poziom wykonania testu przez ściśle określoną grupę odniesienia. Znajomość tej grupy jest kluczem do prawidłowej interpretacji wyników testowych.
Ważnym czynnikiem, który musimy wziąć pod uwagę przy określaniu grupy odniesienia, jest jej wielkość. Reprezentatywność próby zależy bowiem nie tylko od procedury wyboru osób, które wchodzą w jej skład, ale także od jej wielkości (por. Magnusson, 1981, s. 361). Dlatego też w podręczniku testowym zawsze powinny się znaleźć informacje o wielkości badanej próby, a gdy próba jest zbyt mała, „należy zachować wielką ostrożność przy wykorzystywaniu danych normalizacyjnych do porównań w sytuacjach decyzyjnych" (ibidem).
Kolejnym ważnym czynnikiem decydującym o jakości zebranych danych normatywnych jest ich aktualność. Jeżeli nawet odpowiednie dane testowe będące podstawą obliczenia norm zostały zebrane dla dobrze określonej grupy (lub grup), lecz miało to miejsce dawno temu, to mogą one przyczyniać się do błędnych interpretacji. Zgodnie ze Standardami... (1985b, s. 33) dane normatywne prezentowane w podręczniku testowym powinny zawierać informacje o roku, w którym zostały zebrane. Tylko wtedy każdy użytkownik testu może ocenić ich przydatność dla własnych celów.
Pamiętajmy, że normy testowe starzeją się z różnych powodów. Cronbach (1990, s. 130) podaje następujący przykład dezaktualizacji norm. W jednym z testów „umiejętności strukturalizacji" zadania polegały na układaniu koła z przedstawionych dziewięciu nieregularnych elementów. W pierwszej wersji testu elementy, z których układano koło, wykonane były z aluminium. Po paru latach zastosowano elementy z cięższego drewna, bo tak było wygodniej i taniej. Norm nie zmieniono, bo autorom testu wydawało się, że niedługi czas, jaki upłynął od badań normalizacyjnych (kilka lat), nie ma w tym wypadku większego znaczenia. Tymczasem okazało się, że zasadniczo zmienił się średni czas układania zadań w tym teście: wzrósł ze 140 do 182 sekund dla tych samych osób badanych! Brak nowych norm prowadził zatem do poważnych błędów w interpretacji wyników testu. Wiedząc o tym, autorzy innego testu, testu „Szybkości i dokładności spostrzegania", obliczali nowe normy za każdym razem, gdy tylko zmieniał się arkusz odpowiedzi. Inne normy obowiązywały, kiedy na jednej stronie arkusza mieściło się 51 zadań, inne gdy 42 zadania, a jeszcze inne w trzeciej wersji, gdy na jednej stronie mieściło się 48 zadań (ibidem).
Normy ogólnokrajowe
Jednym ze sposobów interpretowania wyników testowych jest odwołanie się do wyników - reprezentujących z założenia - populację ogólną. I tak np. normy otrzymane w próbie, która odzwierciedla populację uczniów klas ósmych, wszystkich dorosłych Polaków, pracowników kopalń czy kobiet, są    131
Rozdział 4
normami ogólnokrajowymi. Normy tego typu są użyteczne w wypadku wszystkich rodzajów testów. Chronią one przed zbyt wąskim („zaściankowym") sposobem interpretacji wyników testowych. Umożliwiają bowiem zestawienie wyników otrzymanych przez osobę badaną z wynikami reprezentującymi populację całego kraju.
Ogólnokrajowa próba normalizacyjna była podstawą w opracowaniu polskich norm m.in. dla Skali Inteligencji Wechslera WAIS-R. Badana próba została zdefiniowana kwotowo ze względu na cztery zmienne metryczkowe: wiek, płeć, miejsce zamieszkania oraz wykształcenie, i liczyła 1817 osób (Gaul, Zakrzewska, 1993, s. 107). Ostateczny kształt próby został opracowany na podstawie Mikrospisu Ludności z roku 1984, przeprowadzonego przez Główny Urząd Statystyczny. W tab. 4.1 przedstawiono szczegółowy skład próby normalizacyjnej dla Skali WAIS-R(PL).
Normy ogólnokrajowe są bardzo użyteczne, mają jednak pewne ograniczenia. Nie zawsze bowiem pozwalają na uzyskanie rzeczywiście potrzebnych
Tab. 4.1. Kwotowy układ polskiej próby normalizacyjnej dla testu WAIS-R(PL) (opracowano na podstawie Gaul, Zakrzewska, 1993, s. 116-117)
Grupa wiekowaPłećMiasto powyżej 100 000 mieszkańcówMiasto poniżej 100 000 mieszkańcówWieś

wykształceniewykształceniewykształcenie

12341234123416-17M K——9 1118 15—_10 1323 21——9 1132 3018-19M K_5 1018 146 5_2
720 187 6—627 2414 1220-24M K1 115 2112
73 219
1614 9co co_Ol 0026 179
725-34M KLO CO11 1612 84 4co co10 1614 95 51
16 1019 1012 1235-44M K7 610 1510 600 Ol4 310 1311 68 111 14 510 519 2145-54M K6 49 128
4co coro co00 008
412
161 1co co6 229 3355-64M K5 200 00LO CO12 182 16 45 215 21—2 13
138 4165-69M K3
17 7ro cn12 2014 34
116 21—1
12
145 4570-74M K3 1to to4 213 211co co4 116 22_1 1247 45Łącznie - 1817 osóbOznaczenia: 1 - pełne wyższe; 2 - pełne średnie, policealne, niepełne wyższe; 3 - średnie 132    nieukończone, zasadnicze zawodowe; 4 - podstawowe oraz brak danych.
Normy, czyli nadawanie znaczenia wynikom testowym
informacji. Wyobraźmy sobie, że interesuje nas to, jak na tle innych kandydatów zgłaszających się do pracy w zawodzie programisty wypada konkretna osoba. W takiej sytuacji ocena jej wyniku na tle wszystkich osób w jej grupie wiekowej mogłaby się okazać nad wyraz korzystna. Gdyby jednak ten sam wynik zestawić tylko z wynikami innych osób starających się o taką samą pracę, ocena ta mogłaby być zupełnie inna.
Normy lokalne
W bardzo wielu sytuacjach zatem z punktu widzenia konkretnego celu testowania użyteczniejsze są tzw. normy lokalne. Ponieważ rzadko daje się opracować normy rzeczywiście reprezentatywne dla populacji ogólnej, dlatego najczęściej oblicza się je dla wąsko zdefiniowanych populacji, odpowiadających specyficznemu wykorzystaniu danego testu. Są to właśnie normy lokalne.
Przymiotniki „ogólne" i „lokalne" są terminami relatywnymi i ich znaczenie zależy od punktu zakotwiczenia. Ricks (1993, s. 50) podaje następujący przykład ilustrujący oba znaczenia:
Na obu listach kategoria pojawiająca się wcześniej jest „lokalna" w stosunku do kategorii następnej. Najczęściej jako lokalne traktuje się normy opisujące najwęziej zdefiniowane grupy; w naszym przykładzie byłyby to pierwsze dwie kategorie z listy (ibidem).
Normy lokalne odwołują się zatem do rozkładów częstości wyników testowych w grupach o mniejszym zakresie i są wykorzystywane dla realizacji wąsko zdefiniowanych celów. Takimi normami mogą być średnie wyniki testu wiadomości z określonego przedmiotu, uzyskane przez uczniów danego rocznika w danej szkole, czy też przeciętne wyniki uzyskiwane w testach przez kandydatów starających się o określone stanowisko w danym przedsiębiorstwie.
Odwołanie się do norm lokalnych zamiast do norm ogólnokrajowych prowadzić może do zupełnie odmiennych interpretacji (patrz przykład wyżej). Dlatego też „wynik uzyskany w teście należy interpretować jako ocenę wykonania testu w określonych warunkach [i na tle określonej grupy odniesienia - przyp. E.H.], a nie jako bezwzględną właściwość badanego, dającą się uogólniać na wszelkie inne okoliczność i". To zdanie ze Standardów... (1985a, s. 79) każdy użytkownik testów powinien uznać za podstawową zasadę postępowania.
szkolnictwoprzemysłklasa budynek system stan lub regionstanowisko pracy fabryka spółka przemysł stalowynaródcały przemysł133
Rozdział 4

4.2. RODZAJE NORM ZE WZGLĘDU NA SPOSÓB ICH KONSTRUKCJI
Istnieje wiele różnych sposobów przedstawiania norm. Do najczęściej spotykanych należą normy typu standardowego, normy typu rangowego (centyle) oraz normy typu równoważnikowego (tzw. równoważniki wieku i równoważniki klasy). Omówimy je pokrótce.
Norma  psychometryczna jest to standard ilościowy, wyznaczony przez liczbę osób uzyskujących dane wyniki lub przez średnią, medianę czy inną miarę tendencji centralnej, obliczoną dla przedstawicieli danej grupy. Ze względu na sposób definiowania grupy odniesienia wyróżniamy:
•  normy ogólnonarodowe
•  normy lokalne
Ze względu na sposób konstrukcji wyróżniamy:
•  normy typu standardowego
•  normy typy rangowego
•  normy typu równoważnikowego
Normy standardowe
Normy standardowe powstają przez przekształcenie wyników surowych otrzymanych w teście na wyniki standardowe z. Przekształcenia tego dokonujemy według wzoru (por. np. Fergusson, Takane, 1997, s. 92):
_Xj-X
s
gdzie: Xt oznacza wynik surowy w teście, jaki otrzymała osoba badana, X oznacza średni wynik w tym teście dla właściwej grupy odniesienia, a s oznacza odchylenie standardowe wyników tego testu w tej samej grupie odniesienia. Wyniki standardowe mają średnią równą 0 i odchylenie standardowe równe 1. Mówiąc inaczej, wynik z pokazuje nam, jak bardzo wynik surowy otrzymany przez daną osobę badaną odchyla się od średniego wyniku grupowego. Odległość ta jest wyrażona w jednostkach odchylenia standardowego (por. rys. 4.1).
Znając wynik z danej osoby, możemy powiedzieć, czy jest to wynik wysoki (powyżej średniej i ile powyżej) lub niski (poniżej średniej i ile poniżej). Najbardziej przyjętą typologią wyników jest następująca klasyfikacja3:

(około 2,27% populacji) (około 13,59% populacji) (około 68,26% populacji) (około 13,59% populacji)
(około 2,27% populacji)
wyniki bardzo niskie:     -2z i poniżej
wyniki niskie:                 -Iz do -2z
wyniki przeciętne:          -Iz do +lz
wyniki wysokie:             +lz do +2z
' c • wyniki bardzo wysokie: +2z i powyżej
Jeżeli zatem nasza osoba badana otrzymałaby wynik surowy 20 pkt. i po przeliczeniu na wyniki z okazałoby się, że wynik ten odpowiada wartości
3 Każda klasyfikacja ma charakter umowny. Nic nie stoi zatem na przeszkodzie, aby wprowadzać inne typologie wyników. Tak zrobił np. Wechsler, który dokonując klasyfikacji ilorazów inteligencji, odwołał się nie do wartości odchylenia standardowego, a do tzw. błędu 134    prawdopodobnego pomiaru (por. Brzeziński, 1993; Brzeziński i in., 1996, s. 22).
Normy, czyli nadawanie znaczenia wynikom testowym

o
i 1
(8
1
<s
?o
U)





N
i
w
i
w
i    I
(O                W
 i
 w


135
,__
Rozdział 4
+2,25z, to możemy powiedzieć, że jej wynik - na tle tej grupy odniesienia - może być oceniony jako wysoki.
Ze skalą wyników z nie spotykamy się jednak w podręcznikach testowych. Dlaczego? Powód jest bardzo prosty. Interpretowanie wyników testowych -jeśli pamięta się o tym, że punkt 0 nie oznacza początku skali, a wartość średnią, oraz
0 tym, że co innego oznaczają wyniki ujemne, a co innego wyniki dodatnie - może być kłopotliwe. Dlatego też zaproponowano, aby dokonując kolejnej transformacji liniowej, przekształcić wyniki z w taki sposób, by początek skali znajdował się po lewej stronie, a kolejne punkty skali miały wyłącznie wartości dodatnie.
Transformacja tego typu polega na wybraniu dla nowej skali jej wartości średniej i jej odchylenia standardowego. Ogólnie wzór transformacyjny ma następującą postać:
jednostka nowej skali = (S)(z) + M
gdzie: M oznacza średnią nowej skali, S jest odchyleniem standardowym nowej skali, a z to wynik standardowy. Wybierając dowolne kombinacje wartości średniej (M) i odchylenia standardowego (5), można stworzyć nieskończenie wiele nowych skal, na które można przeliczyć wyniki surowe otrzymane w teście. W praktyce upowszechniło się kilka konkretnych skal
1  są one zazwyczaj wykorzystywane w podręcznikach testowych.
Skala T. Jedną z najpopularniejszych skal tego typu jest Skala T opracowana przez McCalla (1939). Skala ta została tak nazwana na cześć profesora E.L. Thorndike'a. Parametry tej skali są następujące: M=50, S= 10. Skala ta obejmuje swoim zasięgiem przedział od -5 do +5 odchyleń standardowych w rozkładzie normalnym (por. rys. 4.1). Dzięki temu jest to skala o największym zakresie i znakomicie nadaje się do różnicowania zarówno bardzo niskich, jak i bardzo wysokich wyników. Jest ona rutynowo wykorzystywana w kwestionariuszu MMPI. Skala ta liczy 101 jednostek (od 0 do 100 pkt.).
Wyniki surowe przelicza się na skalę T według następującego wzoru:
136
Skala stenowa. Kolejną często stosowaną skalą wyników przeliczonych jest tzw. skala stenowa. Jej nazwa pochodzi od ang. standard ten, czyli „standardowa dziesiątka". Parametry tej skali są następujące: M=5,5, 5 = 2.
Jest to skala 10-punktowa, obejmująca swym zasięgiem od -2,25 do +2,25 odchylenia standardowego wyników w rozkładzie normalnym (por. rys. 4.1). Liczy ona 10 jednostek. Skalę tę możemy znaleźć np. w Kwestionariuszu Temperamentu PTS Strelaua i Zawadzkiego (1998).
Wyniki surowe przelicza się na skalę stenowa według następującego wzoru: sten = 2z + 5,5.
Skala staninowa. Skala staninowa to skala 9-punktowa. Liczy ona 9 jednostek, stąd jej nazwa od ang. standard nine („standardowa dziewiątka"). Skala ta pierwotnie została skonstruowana dla potrzeb Armii Stanów Zjed- noczonych, a dziś jest szeroko wykorzystywana w różnego rodzaju testach.
Normy, czyli nadawanie znaczenia wynikom testowym
Powód powstania tej skali był nader prozaiczny. Stosowane w tym czasie karty perforowane, m.in. do komputerów i sorterów IBM, zawierały w każdej kolumnie jedynie dziewięć pól - można zatem było wprowadzić tylko 9 wartości dla każdej zmiennej. Stąd powstała konieczność przeliczania wyników surowych tylko na 9 wartości przeliczonych (Mehrens, Lehman, 1973, s. 153).
Skala ta rozciąga się od -2 do +2 odchyleń standardowych wyników w rozkładzie normalnym. Jest to najkrótsza ze skal (obejmuje swoim zasięgiem-środek rozkładu normalnego - por. rys. 4.2), i dlatego nadaje się do testów, które są przeznaczone dla szeroko rozumianej normy. Skalę staninową wykorzystali np. Zawadzki i Strelau (1997), opracowując normy do stworzonego przez siebie Kwestionariusza Temperamentu (FCZ--KT).
Parametry tej skali są następujące: M=5, 5 = 2, a wyniki surowe przelicza się na skalę staninową według następującego wzoru: stanin = 2z+5. Na rys. 4.1 przedstawiono powszechnie przyjętą interpretację wyników przeliczonych na skalę staninową (por. Cohen, Swerdlik, 1999, s. 113).
Rys. 4.2. Rozkład normalny a skala staninową (opracowano na podstawie Cohen, Swerdlik, 1999, s. 113)
wyniki niskiewynik/ przet
???*iętne
Nwyniki wysokiewyniki bardzo niskie^^/f\SJwyniki ^.   bardzo wysokie_____?—^4%7%12%17%20%17%12%7%4% [^^^^?^?^staniny123456789Skala ilorazów inteligencji IQ. Skala ilorazów inteligencji IQ została upowszechniona dzięki testom inteligencji Davida Wechsiera. Zaproponował on przedstawianie wyników na skali o średniej równej 100 i odchyleniu standardowemu równemu 15 pkt. Powstała w ten sposób skala tylko z nazwy nawiązuje do klasycznego rozumienia pojęcia ilorazu inteligencji i jest taką samą skalą wyników standardowych, jak skale opisane powyżej (por. Brzeziński, 1993, s. 84-93; też Anastasi, Urbina, 1999, s. 96-97).
Wyniki surowe przelicza się na skalę IQ według następującego wzoru: /<2=15z+100.
Skala tetronowa. Ostatnią z prezentowanych skal (przypominamy jednak, że skal standardowych można stworzyć nieskończenie wiele - por. wyżej) jest skala często stosowana w testach wykorzystywanych w poradniach psychologiczno-pedagogicznych w Polsce. Skala ta została opracowana przez Matuszewskiego (1984). Jest to skala 21-punktowa (od 0 do 20 punktów)
137
Rozdział 4
i obejmuje swoim zasięgiem od -2,5 do +2,5 odchylenia standardowego wyników w rozkładzie normalnym. Skala ta ze względu na swój zasięg, podobnie jak skala staninowa czy stenowa, nadaje się do tych testów, które są przeznaczone dla szeroko rozumianej normy.
Skala tetronową opisywana jest przez średnią równą 10 i odchylenie standardowe równe 4. Wyniki surowe przelicza się na skalę tetronową według następującego wzoru: tetron = 4z+ 10.
>? Normy typu standardowego otrzymuje się, stosując następującą transformację liniową:
jednostka skali standardowej = {S){z) + M
gdzie: M oznacza średnią nowej skali, Sjest odchyleniem standardowym nowej skali, a z to wynik standardowy, otrzymany według wzoru:
X,-X
z=------
s
gdzie: X, oznacza wynik surowy w teście, jaki otrzymała osoba badana, X oznacza średni wynik w tym teście dla właściwej grupy odniesienia, a s oznacza odchylenie standardowe wyników tego testu w tej samej grupie odniesienia. >? Najczęściej stosuje się następujące transformacje:
•  T=10z+50
•  sten = 2z+5,5
•  stanin = 2z+5
•  !Q Wechslera=15z+100
•  tetron = 4z+10
Uwaga: prostego przeliczenia wyników surowych na wyniki z, a następnie na wybraną skalę standardową możemy dokonać tylko wtedy, kiedy rozkład wyników surowych jest rozkładem normalnym. Jeżeli tak nie jest, najpierw dokonujemy normalizacji rozkładu wyników surowych.
138
Czym się kierować przy wyborze skali? Już z tego krótkiego przeglądu widać, że skal standardowych jest wiele i że mają one różne właściwości. Niektóre z tych skal mają niewielki zakres (jak skala stenowa czy staninowa), inne zaś rozciągają się od -5 do +5 odchyleń standardowych wyników w rozkładzie normalnym (jak np. skala T). Niektóre są skalami długimi (skala T - 101 jednostek), inne z kolei są bardzo krótkie (skala staninowa - 9 jednostek). Na co zatem powinniśmy zwrócić uwagę, decydując się na wybór którejś z tych skal?
Pierwszym kryterium, jakie powinniśmy wziąć pod uwagę, jest cel testowania. Jeżeli jest nim dobre różnicowanie w zakresie patologii (bardzo niskich lub bardzo wysokich wyników), to, rzecz jasna, wybrana przez nas skala musi obejmować swym zasięgiem krańce rozkładu normalnego. Jeżeli natomiast chcemy móc dobrze różnicować osoby mieszczące się w granicach tzw. normy (w granicach środkowych wyników), to zupełnie wystarczająca będzie skala obejmująca swoim zasięgiem środek rozkładu normalnego. Dlaczego?
Przeanalizujmy rys. 4.3. Przedstawiono na nim wyniki dwóch hipotetycznych osób badanych: osoby (X), która uzyskała w teście wynik surowy
Normy, czyli nadawanie znaczenia wynikom testowym
Rys. 4.3. Wykorzystanie skali standardowej o szerokim zakresie wyników (Skala T) i skali standardowej o wąskim zakresie wyników (skala staninowa) do przedstawienia wyników dwóch osób (X) i (Y)
0
©

°*Ł3





p
1
W
 N            c
 I         ?
 MU)


139
Rozdział 4
odpowiadający wynikowi z = 3,0, oraz osoby (Y), która otrzymała równie wysoki wynik w tym teście (z = 3,25). W sytuacji A dokonaliśmy przeliczenia wyników tych osób na Skalę T (o szerokim zasięgu), a w sytuacji B na skalę staninową (o niewielkim zakresie). I cóż się okazało? W sytuacji A pozycja zarówno osoby (X), jak i osoby (Y) została dokładnie odzwierciedlona na Skali T (mamy do czynienia z taką samą różnicą zarówno między wynikami z, jak i odpowiadającymi im wynikami T). Z kolei w sytuacji B - mimo różnicy w wynikach z - obie osoby otrzymały taki sam, najwyższy z możliwych wynik na skali staninowej. I dlatego wyrażając wynik w staninach, nie będziemy mogli ocenić, która z tych osób faktycznie otrzymała wyższy wynik. Widać zatem wyraźnie, że standardowa skala wyników o niewielkim zakresie „gubi" zróżnicowanie między tymi wynikami, które znajdują się na jej krańcach.
Drugim kryterium, jakie powinniśmy wziąć pod uwagę, podejmując decyzję o wyborze konkretnej skali standardowej, jest długość testu. Reguła, która jest tu brana pod uwagę, brzmi następująco: dla krótkich testów wybieramy krótkie skale (liczące niewiele punktów), dla długich testów możemy wybrać skalę dłuższą (liczącą więcej punktów). Tym razem kierujemy się zasadą dopasowania skali wyników surowych do skali wyników przeliczonych. Gdyby bowiem skala wyników surowych była krótka (krótki test), a skala wyników przeliczonych długa, to tylko niektóre z wyników skalowych znalazłyby swój odpowiednik w wynikach surowych (por. rys. 4.4). Taki efekt końcowy może się przyczyniać do trudności w interpretacji wyników testowych, a z całą pewnością nie jest to rezultat pożądany.
Dlaczego sprawdzenie zgodności rozkładu wyników surowych z rozkładem normalnym jest niezbędnym elementem procedury tworzenia norm typu standardowego? Wyniki otrzymywane przez liniowe przekształcenie jakiegoś rozkładu wyników surowych (np. wyniki standardowe) rzadko mają dokładnie określone znaczenie statystyczne. W praktyce w ogóle takich wyników nie da się zinterpretować, ponieważ względna pozycja, jaką wyznacza taki wynik, zależy całkowicie od kształtu rozkładu wyników surowych. Nie znając kształtu tego rozkładu, nie możemy wiele powiedzieć o statystycznych właściwościach otrzymanych wyników (por. Magnusson, 1981, s. 347).
Można oczywiście sporządzić rozkład wyników surowych i spróbować określić jego właściwości, jednak praktycznie jest to zadanie bardzo trudne. Znacznie prościej można rozwiązać ten problem, dokonując nieliniowego  przekształcenia  rozkładu wyników surowych do rozkładu o już znanych właściwościach. Takim rozkładem jest np. dobrze nam znany rozkład normalny. Zabieg przekształcania rozkładu wyników surowych na rozkład normalny nazywa się  normalizacją  rozkładu4. Dokonując
4 Zwróćmy uwagę, że termin „normalizacja" występuje w dwóch znaczeniach: normalizacja jako procedura tworzenia norm oraz normalizacja jako nieliniowe przekształcanie rozkładu
140    wyników surowych do rozkładu normalnego.
Normy, czyli nadawanie znaczenia wynikom testowym
Rys. 4.4. Efekt niezgodności między długością skali wyników surowych a długością skali wyników przeliczonych
Skala wyników surowych

J

Skala tetronowa








0
1
2
3 4


.

141
Rozdział 4

normalizacji, rozkładu wyników testowych, możemy interpretować każdy wynik standardowy zgodnie z właściwościami rozkładu normalnego. Wiemy więc np., jaki odsetek osób znajduje się powyżej lub też poniżej danego wyniku5. W taki też sposób interpretowaliśmy wyniki wyrażone w jednostkach zaprezentowanych wyżej skal standardowych.
Na rys. 4.5 przedstawiono istotę zabiegu normalizacji (por. Guilford, 1964, s. 503). Jak widzimy, rozkład empiryczny jest rozkładem skośnym. Dokonując jego normalizacji, zmieniamy kształt rozkładu, nie zmieniamy jednak odpowiadających sobie pól powierzchni. I tak: powierzchnie P(l), P(2), P(3), P(4), P(5), P(6) oraz P(7) odpowiadają proporcjom powierzchni P(l'), P(2'), P(3'), P(4'), P(5'), P(6'), i P(V).
Wróćmy zatem do zagadnienia tworzenia norm typu standardowego i odpowiedzmy na pytanie zawarte w tytule tego paragrafu: Dlaczego sprawdzenie zgodności rozkładu wyników surowych z rozkładem normalnym jest niezbędnym elementem procedury tworzenia norm typu standardowego? Jeżeli przy interpretacji wyniku testowego chcemy korzystać z właściwości rozkładu normalnego, to musimy się najpierw upewnić, czy rozkład wyników surowych jest zgodny z rozkładem normalnym6. Dopiero potem możemy dokonywać liniowej transformacji wyników z na dowolnie wybraną skalę standardową.
Normalizacja rozkładu. Co zatem trzeba zrobić wtedy, kiedy otrzymany rozkład wyników surowych nie jest rozkładem normalnym? Czy fakt ten uniemożliwia nam korzystanie z norm typu standardowego? Oczywiście nie! Jednakże procedura tworzenia norm jest nieco bardziej złożona. Zanim bowiem będziemy mogli dokonać liniowego przekształcenia wyników z na określoną skalę standardową, musimy najpierw dokonać normalizacji rozkładu.
Na czym praktycznie polega procedura normalizacji? Przeanalizujmy następujący przykład. Chcemy obliczyć normy dla stworzonego przez nas testu liczącego 12 zadań. Przebadaliśmy w tym celu 40 osób7 i otrzymaliśmy wyniki, które przedstawia w tab. 4.2 (por. też Magnusson, 1981, s. 347-349; Brzeziński, 1996, s. 540). W kolumnie (1) znajdują się uporządkowane, kolejne wyniki surowe, jakie można było otrzymać w naszym teście. Kolumna (2) zawiera proste liczebności otrzymanych wyników (jest to rozkład empiryczny wyników surowych), a kolumna (3) rozkład skumulowany. W kolumnie (4) wprowadzono tzw. poprawkę na ciągłość. Ponieważ wyniki naszego testu są wynikami dyskretnymi (są to kolejne wartości ze zbioru
142
5  Inny rodzajem przekształcenia nieliniowego jest przekształcenie wyników w skalę cen-tylową dającą rozkład prostokątny. Skalę tę omawiamy dalej w tym rozdziale.
6  Istnieje wiele testów pozwalających nam ocenić zgodność empirycznego rozkładu wyników z założonych rozkładem teoretycznym (tu: normalnym). Takim testem może być np. test zgodności chi2 (por. Domański, 1979).
7  Pamiętajmy, że próba normalizacyjna powinna być też próbą odpowiednio liczebną (por. wyżej). Tylko dlatego, aby przedstawiony przykład był wystarczająco czytelny, ograniczono liczbę badanych osób do 40.
Normy, czyli nadawanie znaczenia wynikom testowym
8
5 a o
o
3
a
!
a ?
i
!
!
o

8
|
«


ST


'"??••,..
'????...
'??"-,
"V



liczb całkowitych), a rozkład normalny jest rozkładem zmiennej ciągłej, powinniśmy to uwzględnić w dalszych obliczeniach. Poprawkę na ciągłość oblicza się według następującej reguły: do skumulowanej liczebności poniżej    143


Rozdział 4
danego wyniku surowego dodaje się połowę liczebności dla danego wyniku (obliczamy w ten sposób liczebności, uwzględniając środek każdego przedziału). I tak np. dla wyniku surowego 3 dokonujemy następujących obliczeń: poniżej tego wyniku liczebność skumulowana (czyli ej) wynosi 3, a połowa prostej liczebności (czyli j) dla tego wyniku wynosi 1 (2/2=1). Zatem suma obu tych wartości wynosi 3+1=4. Dla każdej poprawionej w ten sposób liczebności skumulowanej obliczamy następnie skumulowaną proporcję (p), dzieląc wartości z kolumny (4) przez liczbę badanych osób (AO. Wreszcie z tablic dystrybuanty rozkładu normalnego (np. Greń, 1974) odczytujemy wyniki z odpowiadające kolejnym proporcjom skumulowanym. I na koniec dokonujemy przeliczenia wyników z na wybraną skalą standardową. W naszym przykładzie wyniki zostały przeliczone na trzy skale standardowe: skalę stenową, tetronową i skalę T (dociekliwy Czytelnik będzie mógł sam ocenić, co dzieje się wtedy, kiedy wyniki krótkiego testu są przeliczane na długą skalę wyników przeliczonych).
Tab. 4.2. Przykład normalizacji rozkładu oraz obliczania norm typu standardowego (na podstawie Magnusson, 1981, s. 347-349; Brzeziński, 1996, s. 540)
(1)(2)(3)(4)(5)(6)(7)(8)O)ws1cfcf poniżej danego wiersza + 0,5f dla danego wierszaPzStenyTetronyT1110,50,0125-2,2411282232,00,05-1,6423343254,00,1-1,2835374497,00,175-0,934641551411,50,2875-0,564844651916,50,4125-0,225948762522,00,550,1361151842927,00,6750,4561255943331,00,7750,66713571033634,50,88251,09814611133937,50,93751,53916651214039,50,98752,24101972Podsumowanie. Zbierzmy zatem wszystko, co powiedzieliśmy o tworzeniu norm typu standardowego. Normy tego typu pozwalają nam na interpretowanie wyniku otrzymanego w teście przez odwołanie się do właściwości rozkładu normalnego. Dlatego aby taka interpretacja była uzasadniona, musimy się upewnić, czy rozkład wyników surowych jest rozkładem normalnym. Zazwyczaj jest tak rzeczywiście, jednak czasami rozkład wyników surowych jest rozkładem
144
Normy, czyli nadawanie znaczenia wynikom testowym
na tyle skośnym, że nie możemy go uznać za wystarczające dobre przybliżenie rozkładu normalnego. W takiej sytuacji powinniśmy najpierw dokonać normalizacji rozkładu, a dopiero potem skorzystać z możliwości liniowego przekształcenia odczytanych wyników z na wyniki wybranej skali standardowej. Kolejne etapy postępowania przy tworzeniu norm przedstawiono na rys. 4.6.
Rys. 4.6. Etapy procedury normalizacji
Etapi
Przebadać testem dobrze zdefiniowaną grupę osób (tzw. grupę normalizacyjną)Etap 2
Sporządzić rozkład wyników surowych?<Etap 3
Sprawdzić, czy rozkład wyników surowych jest rozkładem normalnymTAK    /                                                \    NIEEtap 4
Dokonać liniowej transformacji wyników surowych na odpowiadające im wyniki „z"Etap 4
Dokonać normalizacji rozkładu za pomocą transformacji nieliniowej1                                  1Etap 5
Dokonać liniowej transformacji wyników „z" na wyniki wybranej skali standardowejEtap 5
Odczytać wyniki „z" odpowiadające odpowiednim wartościom pola pod krzywą normalnąit

Etap 6
Dokonać liniowej transformacji wyników „z" na wyniki wybranej skali standardowej

145

Rozdział 4
146
Na koniec podkreślmy, że korzystanie z norm jest niezbędne wtedy, kiedy dokonujemy diagnozy indywidualnej bądź chcemy dokonywać porównań wewnątrzgrupowych. Jeżeli natomiast naszym celem jest dokonanie prostej selekcji (mamy przyjąć określoną liczbę kandydatów), to możemy odwołać się do wyników surowych i przyjąć tych, którzy uzyskali najwyższe wyniki w teście (pamiętajmy jednak, że wykorzystywany w tym celu test musi być trafny, i nie wolno wam tego zaniedbać!). Podobnie postępujemy również prowadząc badania naukowe (por. Magnusson, 1981, s. 362; Brzeziński, 2000, s. 414).
Normy rangowe
Innym sposobem przedstawiania wyników testowych jest ich przedstawianie w postaci tzw. centyli. C e n t y 1 to punkt na skali, poniżej którego leży określony odsetek rozkładu (Magnusson, 1981, s. 352). Podobnie jak inne miary położenia (np. mediana), centyle stanowią wygodne punkty odniesienia przy opisywaniu danego rozkładu wyników surowych i przy porównywaniu go z innymi rozkładami.
Przypuśćmy, że w naszych badaniach okazało się, iż na 40 zbadanych osób 2 osoby były lepsze od osoby A, a 37 osób otrzymało wyniki gorsze niż osoba A. Jeżeli osobę A (i wszystkie inne osoby mające taki sam wynik jak ona) przydzielimy arbitralnie to jednej z dwóch grup: lepszych bądź gorszych od niej, to otrzymamy: 2,5 przypadka w grupie lepszych oraz 37,5 przypadka w grupie gorszych. Ponieważ 37,5 z 40 stanowi 94%, możemy powiedzieć, że wynik osoby A jest równy 94. centylowi. Innymi słowy, oznacza to tyle, że w badanej grupie 94% osób otrzymało wyniki gorsze od naszej osoby badanej (Cronbach, 1990, s. 110). Zwróćmy także uwagę, że przy takim sposobie obliczania centyli osoba, która wypadnie najlepiej, nie otrzyma wyniku centylowego równego 100. Jeżeli bowiem 2 osoby otrzymałyby 40 pkt., to jedną z nich przydzielamy do grupy gorszych, a drugą do grupy lepszych od niej. Wówczas każda z tych osób otrzyma wynik centylowy równy 97,5 (100x39/40). Gdyby wynik równy 40 otrzymała tylko jedna osoba, odpowiadający mu centyl wynosiłby 98,75 (100 x 39,5/40)8.
Jeżeli przeliczamy wyniki surowe na centyle w taki właśnie sposób, osoba znajdująca się dokładnie w środku rozkładu zostanie opisana za pomocą 50. centyla. Centyl 50 odpowiada medianie rozkładu. W tym sensie możemy powiedzieć, że 50 centyl opisuje poziom wykonania testu przez „typową" osobę badaną.
Jak zatem szybko można obliczyć centyle? Przeanalizujmy ponownie tab. 4.2, w której przedstawiliśmy sposób obliczania norm typu standardowego. Zaczynamy tak samo - od sporządzenia rozkładu częstości wyników surowych (kolumna 2), następnie kumulowanego rozkładu częstości (kolumna 3), poprawionego rozkładu kumulowanego (kolumna 4) do obliczenia proporcji (kolumna 5). Centyle otrzymamy, przeliczając proporcje na procenty, i dla ułatwienia wyrażamy je w postaci liczb całkowitych (por. tab. 4.3).
8 Ten zabieg przydzielania, w jednakowej proporcji, osób badanych do grupy lepszych i gorszych odpowiada poprawce na ciągłość (por. wyżej).
Normy, czyli nadawanie znaczenia wynikom testowym
Tab. 4.3. Przykład obliczania norm typu centylowego
(na podstawie Magnusson, 1981, s. 352; Brzeziński, 1996, s. 540).
* .

(1)(2)(3)(4)(5)(6)wsfcfcł poniżej danego wiersza + 0,5f dla danego wierszaPCentyle (C)1110,50,012512232,00,0553254,00,1104497,00,17518551411,50,287529651916,50,412541762522,00,5555842927,00,67568943331,00,775781033634,50,8825881133937,50,9375941214039,50,987599Chociaż centyl definiowany jest jako odsetek, nie jest tym samym co powszechnie stosowane wyniki procentowe. W pierwszym wypadku mówimy bowiem o odsetku osób, które znajdują się poniżej jakiegoś punktu na skali, w drugim zaś odsetek to wynik surowy, dotyczący poprawnie rozwiązanych zadań.
Skala centylowa pozwala na ocenę wyniku danej osoby w stosunku do wyników innych osób należących do określonej populacji. Są to wyniki czytelne, i dlatego chętnie stosowane. Problem polega jednak na tym, że skala centylowa nie odzwierciedla kształtu rozkładu wyników surowych. Rozkład otrzymywany w rezultacie przeliczenia wyników surowych na odsetki jest prostokątny - niezależnie od kształtu wyjściowego rozkładu wyników (por. Magnusson, 1981, s. 353). Rozkład prostokątny to inaczej rozkład równoprawdopodobny, czyli rozkład, w którym wszystkie wartości zmiennej pojawiają się z tym samym prawdopodobieństwem. Na rys. 4.7 przedstawiono rozkład prostokątny z naniesionymi nań centylami. Jak widać, wszystkie pola powierzchni rozkładu prawdopodobieństwa, odpowiadające kolejnym wynikom, są sobie równe i wynoszą 1%. Nie dotyczy to tylko dwóch skrajnych części. Pole każdej skrajnej powierzchni wynosi bowiem 0,5%. Skala centylowa liczy 101 jednostek (0 jest początkiem skali) i podział na 101 równych jednostek prowadziłby do tego, że pole całkowite nie sumowałoby się do 100% (por. Matuszewski, 1984, s. 64).
147
Rozdział 4
Rys. 4.7. Skala centylowa (opracowano na podstawie Matuszewski, 1984, s. 64)
148
0,5%
1,0%
1,0%

1,0%
1,0% 0,5%
CENTYL 0
>? Normy centylowe  obliczamy według następującego wzoru:
Centyl{Q=
N
 100%
gdzie: cf oznacza liczebność kumulowaną, f - prosta liczebność, a W - liczbę badanych osób.
CENTYL1
CENTYL 2

Skala centylowa ma jednak i inne wady. Jeżeli rozkład wyników surowych jest rozkładem normalnym, to skala centylowa prowadzi do przeceniania wielkości różnic pośrodku rozkładu, a niedocenianiu ich na krańcach tego rozkładu (ibidem). W rozkładzie normalnym bowiem najwięcej wyników lokuje się w środku rozkładu. Dlatego też różnice między wynikami skupiającymi się w środku rozkładu mogą w rzeczywistości być niewielkie, lecz nawet najmniejsze różnice zostaną odzwierciedlone w centylach. Z kolei na krańcach rozkładu, gdzie rzeczywiste różnice między wynikami mogą być duże, będą one odzwierciedlone jedynie przez małe różnice między centylami. Efekt ten przedstawiono na rys. 4.8.
Normy centylowe są normami typu rangowego (porządkowego). Oznacza to, że normy tego typu dobrze odzwierciedlają uporządkowanie osób badanych w grupie normalizacyjnej, nie odzwierciedlają natomiast względnych różnic między tymi osobami. Jednym z rozwiązań tego problemu może być sporządzanie tzw. siatki centylowe j, w której centyle są tak rozmieszczone, aby odpowiadały równym odległościom w rozkładzie normalnym (por. Anastasi, Urbina, 1999, s. 91). Siatka centylowa poprawnie odzwierciedla rzeczywiste różnice między wynikami osób badanych. Na rys. 4.9 przedstawiono wyniki czterech osób badanych. Różnica w wynikach centylowych między osobą A i B oraz między osobą C i D jest taka sama i wynosi 10 pkt., co nie

CENTYL 98
CENTYL 99
CENTYL100
Rys. 4.8. Związek miedzy centyiami a rozkładem normalnym (opracowano na podstawie Cronbach, 1990, s. 112)



-3z
skala wyników surowych
skala centylowa


10          20        30    40 50 60    70        80          90  mm
i
Mediana
99

O
o
N m Z
o
w
O
Rozdział 4
odpowiada rzeczywistej wielkości różnicy między nimi. Siatka centylowa pozwala to zróżnicowanie uchwycić (por. rys. 4.9).
Rys. 4.9. Siatka centylowa obrazująca możliwość porównywania dwóch wyników wyrażonych w centy lach (opracowano na podstawie Anastasi, Urbina, 1999, s. 91)
o
S
V)
3>
J
4
90
80
70
60 50 40
30 20
10
d,<d,<d3


E





150
ABC
Normy typu równoważnikowego
Kolejnym rodzajem norm, dziś stosunkowo rzadko stosowanym, są normy typu równoważnikowego. Normy te określa się również mianem norm rozwojowych, bowiem pozwalają określić, ,jak daleko na drodze normalnego rozwoju znalazła się jednostka" (Anastasi, Urbina, 1999, s. 84). Normy te mają głównie charakter opisowy, a wyniki wyrażone w nich „są psychomet-rycznie surowe i nie nadają się do precyzyjnej obróbki statystycznej" {ibidem). Do najbardziej znanych norm tego typu należą tzw. równoważniki wieku i równoważniki klasy.
Równoważniki wieku. Równoważniki wieku to liczby wskazujące na kolejny rok i miesiąc życia badanych osób, odpowiadające średniej arytmetycznej lub medianie wykonania testu na danym etapie rozwoju. Innymi słowy, są to dane informujące nas o przeciętnym poziomie wykonania testu w określonych grupach wiekowych, z uwzględnieniem roku i miesiąca życia badanych osób (por. Niemierko, 1975, s. 153; Anastasi, Urbina, 1999, s. 84-85). Np. równoważnik wieku dla dziecka, które otrzymało 40 pkt.
Normy, czyli nadawanie znaczenia wynikom testowym
w pewnym teście, może wynosić 10-4 (co oznacza 10 lat i 4 miesiące). Oznacza to tyle, że taki właśnie wynik (40 pkt.) osiągają przeciętnie dzieci dokładnie w tym wieku9.
Jednym z rodzajów norm typu równoważników wieku jest tzw. wiek umysłowy. Pojęcie to wprowadzone zostało przez Bineta i Simona (1908) na określenie poziomu rozwoju umysłowego dziecka i stosowane jest głównie w obszarze testów inteligencji10. Mówiąc najprościej (por. też Matczak, 1994, s. 111), wiek umysłowy oblicza się następująco: na podstawie badania grup normalizacyjnych (tak definiowanych, aby każda z nich obejmowała dzieci w innym wieku) dobiera się zestawy zadań testowych w taki sposób, aby ich wykonanie różnicowało te grupy. Wskaźnikiem określonego etapu rozwoju umysłowego badanego dziecka jest odpowiedni odsetek poprawnie wykonanych zadań w grupie normalizacyjnej (ibidem). Wynik ten porównuje się z wiekiem życia osoby badanej i na tej podstawie podejmuje decyzje diagnostyczne11.
Normy tego typu są powszechnie akceptowane, jeżeli chodzi o pomiar cech fizycznych (np. wzrostu czy wagi), budzą natomiast sporo zastrzeżeń w przypadku cech psychologicznych12. Przede wszystkim - i to jest podstawowy zarzut - jednostka wieku umysłowego maleje wraz z wiekiem, gdyż tempo rozwoju umysłowego jest szybsze w młodszym wieku, a maleje wraz z dojrzewaniem (Anastasi, Urbina, 1999, s. 85). Dlatego też nie można wyników wyrażonych w postaci równoważników wieku porównywać bezpośrednio. Co innego oznacza przyśpieszenie rozwoju o rok, gdy dziecko ma 6 lat, a co innego, gdy dziecko ma 10 lat. Choć i tu, i tu mamy do czynienia z różnicą jednego roku, znaczenie psychologiczne tej różnicy jest zupełnie inne w każdym wypadku (Cronbach, 1990, s. 242).
Normy tego typu bywają też nadmiernie uogólniane. Bardzo często dochodzi do następujących nieporozumień: bez względu na wiek chronologiczny dziecka przyjmuje się, że jego wiek umysłowy wskazuje na ogólny (a więc dotyczący różnych obszarów zachowania) poziom rozwoju, który jest charakterystyczny dla grupy normalizacyjnej. Jednakże fakt, że w jakimś teście (np. zdolności werbalizowania) 6-latek uzyskał wynik właściwy dla 12-latka, wcale nie oznacza, że jest on podobny do dzieci w wieku 12 lat we wszystkich obszarach (np. jego rozwój społeczny nadal może być właściwy dla jego własnej grupy wiekowej). Równoważniki wieku należy zatem bardzo ostrożnie interpretować; trzeba też dbać o to, aby ich niesłusznie nie uogólniać.
9  Równoważniki wieku zapisuje się właśnie w ten sposób (np. 10-4), gdyż rok kalendarzowy liczy 12 miesięcy i danych tych nie można przedstawić w postaci dziesiętnej.
10  Szczegółowe informacje dotyczące sposobu obliczania wieku umysłowego można znaleźć w pracy Strelaua (1987, s. 97-100).
" Pojęcia wieku umysłowego i wieku życia są wykorzystywane w klasycznej definicji ilorazu inteligencji rozumianego jako stosunek wieku umysłowego do wieku życia:
WU
IQ------100%
WZ
12 Notabene te same zastrzeżenia można również sformułować w stosunku do wielkości fizycznych.
151
Rozdział 4
Równoważniki klasy. Równoważniki klasy z kolei definiowane są jako liczby wskazujące na rok i miesiąc nauczania w roku szkolnym, odpowiadające średniej arytmetycznej lub medianie wykonania testu na danym etapie rozwoju (Niemierko, 1975, s. 153). Ponieważ rok szkolny liczy zazwyczaj dziesięć miesięcy, dlatego normy tego typu można łatwo wyrazić w systemie dziesiętnym. Osoba badana, będąca typowym przedstawicielem swojej grupy normalizacyjnej, powinna uzyskać wynik w postaci równoważnika klasy dokładnie odpowiadającego jej poziomowi nauczania (np. typowe dziecko badane w trzeciej klasie, w piątym miesiącu nauczania, powinno osiągnąć wynik w postaci równoważnika klasy równego 5,3).
Normy tego typu oblicza się w ten sposób, że określa się średni wynik w teście dla dzieci będących aktualnie w określonej klasie. Wyniki liczbowe, odpowiadające kolejnym miesiącom nauczania, otrzymuje się zasadniczo przez interpolację, choć oczywiście można również badać dzieci w każdym miesiącu nauki szkolnej (Anastasi, Urbina, 1999, s. 86).
Równoważniki klasy mają te same wady co równoważniki wieku - przede wszystkim bywają nadmiernie uogólniane. Można je stosować tylko w ograniczonym zakresie - w stosunku do dzieci chodzących do szkoły. Ponadto - jak piszą Anastasi i Urbina (ibidem) - normy tego typu są przeznaczone tylko dla przedmiotów nauczanych na „wszystkich poziomach, dla których test jest przeznaczony. W zasadzie norm tych nie da się stosować w szkole średniej, ponieważ wielu przedmiotów naucza się tam przez rok lub dwa (...) Innymi słowy, jednostki pomiarowe, które w tym przypadku stanowią klasy, są wyraźnie nierówne i nierówności te występują w sposób nieregularny w zakresie różnych przedmiotów nauczania".
>• Normy typu równoważnikowego to inaczej normy rozwojowe.
•  Równoważniki wieku to liczby wskazujące na kolejny rok i miesiąc życia badanych osób, odpowiadające średniej arytmetycznej lub medianie wykonania testu na danym etapie rozwoju.
•  Równoważniki klasy to liczby wskazujące na rok i miesiąc nauczania w roku szkolnym, odpowiadające średniej arytmetycznej Tub medianie wykonania testu na danym etapie rozwoju.
Krytyka norm typu równoważnikowego. Najpoważniejsze zastrzeżenia wobec norm typu równoważnikowego można sformułować następująco (por. też Crocker, Algina, 1986, s. 450-451; Cohen, Swerdlik, 1999, s. 122-123): a) podstawowe zastrzeżenie dotyczy tego, że normy tego typu zakładają
liniowy związek między wiekiem (rokiem nauczania) a mierzoną funkcją.
Wiele danych wskazuje jednak na to, że jest to założenie kontrfaktyczne,
i to nie tylko w grupie osób dorosłych (co raczej oczywiste), ale także
w grupie dzieci (por. np. Sattler, 1974);

152

Normy, czyli nadawanie znaczenia wynikom testowym
b)  normy tego typu prowadzą do większych nieporozumień niż normy standardowe, zwłaszcza wśród nieprofesjonalistów. Załóżmy np., że osoba badana otrzymała pod koniec nauczania w klasie 7 wynik równy 8,3 w matematyce i fizyce. Wynik ten należy zinterpretować następująco: osoba badana, biorąc pod uwagę zadania właściwe dla klasy siódmej.rozwiąza-łaje tak, jak rozwiązuje je typowy uczeń klasy ósmej, w trzecim miesiącu nauczania. Nie oznacza to jednak, że ta sama osoba badana wypadłaby identycznie wtedy, kiedy rozwiązywałaby test przeznaczony dla uczniów klas ósmych. Sformułowanie wyniku w taki sposób może jednak prowadzić do niesłusznego przekonania, że badana osoba zdoła sobie poradzić z materiałem właściwym dla innego poziomu nauczania czy innego poziomu wieku;
c)  trudno porównywać równoważniki klasy otrzymane dla tej samej osoby, ale dla różnych obszarów zachowania. I tak np. wynik 4-2 w matematyce i 4-2 w języku polskim świadczyłby o jednakowej biegłości w obu przedmiotach nauczania. To jednak niekoniecznie musi być prawdą. Przeliczenie tych samych wyników np. na centyle może pokazać, że w pierwszym przypadku wynik ten odpowiada 65. centylowi, a w drugim 45. centylowi. Widać zatem wyraźnie, że pozycja osoby badanej w grupie normalizacyjnej jest inna dla matematyki (powyżej przeciętnej) i inna dla języka polskiego (poniżej przeciętnej).
Dlatego też niektórzy specjaliści w dziedzinie pomiaru psychologicznego zaapelowali o moratorium na stosowanie norm typu równoważnikowego. I tak np. Cronbach (1970, s. 98) opisuje normy tego typu jako archaiczne. Uważa on, że „równoważniki klasy nigdy nie powinny być wykorzystywane ani do oceny ucznia, ani klasy, ani też nie powinny być stosowane w badaniach naukowych. Lepszym sposobem przedstawiania wyników jest od-
Tab. 4.4. Wady i zalety norm typu równoważnikowego (opracowano na podstawie Niemierko, 1975; Crocker, Algina, 1986; Cohen, Swerdlik, 1999)
ZaletyWady• osiągnięcia badanych są traktowane rozwojowo
• rok szkolny i rok życia stanowią naturalne, dobrze znane wszystkim użytkownikom testów jednostki miary
• równoważniki klasy bądź wieku pokazują opóźnienia bądź przyspieszenie w uczeniu się albo w stosunku do średnich osiągnięć uczniów tej samej klasy, albo w stosunku do rówieśników
• normy te można dostosować do każdego miesiąca nauki• przyjmuje się w nich założenie o równomiernym rozwoju
• bywają podstawą zbyt daleko idących uogólnień
• bywają mylnie uważane za opis zakresu wymagań programowych
• wartość norm typu równoważnikowego zależy od przedmiotu nauczania i polityki władz szkolnych
• normy takie nadają się tylko do niektórych treści nauczania • ustalanie ich jest pracochłonne i kosztowne153
Rozdział 4
woływanie się do centyli lub norm standardowych. Podobnie i równoważniki wieku mogą prowadzić do błędnych interpretacji". W tab. 4.4 zestawiono wady i zalety norm typu równoważnikowego.
4.3. INTERPRETACJA WYNIKÓW TESTÓW ZORIENTOWANYCH NA KRYTERIUM
W poprzednim paragrafie przedstawiliśmy jeden z możliwych sposobów interpretacji wyników testowych, a mianowicie: nadawanie znaczenia wynikowi testowemu przez odnoszenie go do innych wyników otrzymanych w tym samym teście. Ten sposób interpretacji wyników testowych nazywa się interpretacją normatywną czy zorientowaną na normy (ang. norm--referenced).
W przeciwieństwie do podejścia normatywnego, podejście zorientowane na kryterium (ang. criterion-referenced) nie opisuje poziomu wykonania testu w stosunku do innych osób z grupy normalizacyjnej. Wyniki testowe są interpretowane ze względu na pewne kryterium czy poziom wykonania13. Przykładów takich interpretacji można podać wiele. Np. nauczyciel w szkole może chcieć poznać, jakie konkretne umiejętności opanowali jego uczniowie, a przedstawiciel linii lotniczych może przyjmować do pracy tylko tych kandydatów na pilotów, którzy uzyskali odpowiedni poziom w testach sprawnościowych, itd.
Kryterium będące podstawą oceny indywidualnego wyniku otrzymanego w teście jest zazwyczaj pochodną wartości czy standardów uznawanych przez daną jednostkę lub organizację. Linie lotnicze nie są zainteresowane tym, na ile dobrze - na tle innych kandydatów na pilotów - wypadła osoba badana. Aby zapewnić bezpieczeństwo swoim pasażerom, przyjmą do pracy wyłącznie tych, którzy spełniają określone minimum w zakresie funkcji uznanych za ważne. Jeżeli w badanej grupie nikt nie spełniłby takiego kryterium, nikt też nie zostałby przyjęty bez względu na to, jak dobrze wypadł na tle pozostałych osób.
Ten sposób interpretacji wyników testowych bywa różnie nazywany w literaturze przedmiotu. Używa się tu takich określeń, jak „odwołanie się do treści" czy „odwołanie się do celów kształcenia"w. Istotą takiego podejścia jest bowiem nacisk na konkretny zakres wiedzy czy umiejętności. To nie grupa normalizacyjna jest tu punktem odniesienia, a dobrze zdefiniowany zakres wymagań. Anastasi i Urbina (1999, s. 111) proponują, aby w miejsce terminu interpretacja zorientowana na kryterium wprowadzić określenie interpretacja
154
13  Problematyka dotycząca testów zorientowanych na kryterium jest tak obszerna, że może być przedmiotem odrębnej książki. Czytelnika szerzej zainteresowanego tą problematyką odsyłam do pracy Berka (1984).
14  Termin „interpretacja zorientowana na kryterium" został wprowadzony przez Glasera (1963).
Normy, czyli nadawanie znaczenia wynikom testowym
„zorientowana na standard wykonania". Ich zdaniem to drugie określenie jest określeniem budzącym najmniej niepożądanych skojarzeń15. W testach zorientowanych na standard wykonania „wyniki osoby badanej opisuje się, np. wskazując na specyficzne operacje matematyczne, jakie opanowała, szacowany rozmiar jej słownika, poziom trudności lektur, jakie jest w stanie zrozumieć (...) lub szansę osiągnięcia określonego poziomu wykonania w zakresie zewnętrznego kryterium (edukacyjnego lub zawodowego)" (ibidem).
Ogólnie rzecz biorąc, można powiedzieć, że interpretacja zorientowana na standard wykonania dostarcza informacji o tym, c o osoby badane potrafią zrobić, zaś interpretacja zorientowana na normy mówi o tym, jak osoby badane są oceniane na tle innych osób do nich podobnych (należących do tej samej grupy normalizacyjnej). Istotą interpretacji zorientowanej na standard wykonania jest zatem odwołanie się do kategorii treściowych. Dlatego też podstawowym wymaganiem przy tego rodzaju interpretacji wyników testowych jest staranne zdefiniowanie - w kategoriach treści - tego, co jest przedmiotem pomiaru (standardu wykonania). Oczywiście, w zależności od celu testowania standard ten będzie mniej lub bardziej szeroko określany. W testach diagnostycznych cele te są zazwyczaj węższe (np. poprawne rozpoznawanie słowa składającego się z rdzenia i przedrostka), natomiast w testach oceniających osiągnięcia pod koniec roku nauczania - szersze (np. stopień rozumienia tekstu naukowego - por. Hambleton, Rogers, 1991, s. 5).
Interpretację zorientowaną na standard wykonania stosuje się przede wszystkim w testach biegłości i w testach osiągnięć. Jest ona powszechnie wykorzystywana w programach kształcenia wspomaganych komputerowo, w których przejście do następnego poziomu nauczania jest uwarunkowane wcześniejszym opanowaniem odpowiedniego zakresu materiału. Często stosowana jest także w pedagogice przy określaniu tego, czy uczeń opanował podstawowe umiejętności czytania, pisania lub liczenia. Testy tego typu służą również do oceny poziomu opanowania umiejętności niezbędnych do pracy w armii, straży pożarnej, policji czy innych służbach tego typu, a także wszędzie tam, gdzie otrzymanie licencji (lub prawa wykonywania określonego zawodu) wymaga osiągnięcia określonych kompetencji16. _________________
15  Warto w tym miejscu wspomnieć, że w Standardach... (1985a, s. 27) wprowadzono rozróżnienie między testami zorientowanymi na treść (ang. content-referenced) i testami zorientowanymi na kryterium (ang. criterion-refrenced). W testach zorientowanych na treść „wynik jest interpretowany bezpośrednio w terminach poziomu wykonania testu, w każdym punkcie mierzonego kontinuum" {ibidem), zaś w testach zorientowanych na kryterium „wynik testu jest interpretowany bezpośrednio w terminach poziomu wykonania w danym punkcie kontinuum, tworzonego przez jakąś zmienną zewnętrzną w stosunku do testu. Zmienną taką mogą tworzyć np. średnie oceny szkolne lub poziom wykonywania zadań wynikających z podjętej pracy" (ibidem). Podobne rozróżnienie wprowadza Cronbach (1990, s. 105)
16  W Stanach Zjednoczonych ta zasada dotyczy około 900 zawodów (Hambleton, Rogers, 1991, s. 3).
155
Rozdział 4
Entuzjaści oceniania wyniku testowego z punktu widzenia pewnego standardu wykonania podkreślają, że - zwłaszcza w edukacji - otrzymują w ten sposób informacje pozwalające im indywidualnie traktować każdego ucznia. Uczeń, który w trakcie roku szkolnego poprawi swoje wyniki, może zostać niedoceniony, jeżeli w typowym teście zorientowanym na normy ciągle wypada poniżej średniej. Test zorientowany na standard wykonania pozwoli uchwycić taką zmianę (np. Hambleton, Rogers, 1991, s. 4-5).
Krytycy twierdzą natomiast, że odwoływanie się wyłącznie do standardu wykonania prowadzi do utraty ważnych informacji, jakimi są dane o relatywnej pozycji badanej osoby w grupie odniesienia. I chociaż dane odnoszące się do standardu wykonania są niewątpliwie przydatne, jeżeli chodzi o ocenę poziomu opanowanej wiedzy czy umiejętności, to nie da się ich odnieść do maksymalnego poziomu wykonania (trudno np. na tej podstawie prognozować, jakie mogą być przyszłe osiągnięcia osoby badanej w dziedzinie mierzonej przez test). Co więcej, normy tego typu, jak pisze Niemierko (1975, s. 160), omawiając testy osiągnięć szkolnych, „są obciążone istotnym brakiem w postaci subiektywizmu, to jest zależności od osobistych poglądów dydaktycznych ich twórcy. Wprawdzie subiektywizm można zmniejszyć przez powierzenie analiz treści większej liczbie - pracujących niezależnie - specjalistów, mimo to pozostanie on znaczny tak długo, jak długo programy nauczania będą nasuwały wątpliwości co do wymagań".
Interpretacja zorientowana na kryterium (standard wykonania) to
taki sposób oceny wyniku testowego, w którym nacisk kładzie się na konkretny
zakres wiedzy czy umiejętności.
Dostarcza ona informacji o tym, c o osoby badane potrafią zrobić, w odróżnieniu
od interpretacji zorientowanej na normy, która mówi o tym, jak osoby badane są
oceniane na tle innych osób do nich podobnych (należących do tej samej grupy
normalizacyjnej).
Wszystkie testy są w gruncie rzeczy testami odwołującymi się do norm, a „normatywny układ odniesienia jest zawarty implicite w każdym badaniu testowym, bez względu na to, w jaki sposób wyraża się wyniki" (Anastasi, Urbina, 1999, s. 116; też Cohen, Swerdlik, 1999). To bowiem, co jest przedmiotem pomiaru, zależy od naszej wiedzy o tym, czego można oczekiwać na danym etapie rozwoju, a także naszej decyzji dotyczącej tego, jaki zakres wiedzy czy umiejętności powinien zostać uznany za standard wykonania (a ta decyzja ma już charakter normatywny).
Podstawowe pojęcia:
•  grupa odniesienia
•  normalizacja rozkładu
•  normy
156    • normy lokalne
Normy, czyli nadawanie znaczenia wynikom testowym





normy ogólnokrajowe
normy typu rangowego
centyle
normy typu równoważnikowego
równoważniki klasy
równoważniki wieku
normy typu standardowego
przekształcenie liniowe
przekształcenie nieliniowe
skala ilorazów inteligencji
skala staninowa
skala stenowa
skala T
skala tetronowa
Literatura zalecana
Anastasi A., Urbina S. (1999). Testy psychologiczne. Warszawa: Pracownia Testów Psychologicznych Polskiego Towarzystwa Psychologicznego.
Brzeziński J. (1996). Metodologia badań psychologicznych. Warszawa: Wydawnictwo Naukowe PWN.
Matuszewski, A. (1984). Interpretacja formalna wyników w testach psychologicznych, w: J. Brzeziński (red.), Wybrane zagadnienia z psychometrii i diagnostyki psychologicznej (s. 47-72). Poznań: Wydawnictwo Naukowe UAM.
Ricks J.H. (1993). Normy lokalne - kiedy i dlaczego? w: J. Brzeziński, E. Hornowska (red.), Z psychometrycznych problemów diagnostyki psychologicznej (s. 49-58). Poznań: Wydawnictwo Naukowe UAM. •

157


Rozdział 5


158
KONSTRUOWANIE  TESTU — PODSTAWOWE PROCEDURY
Każdy test składa się z pozycji testowych. Pozycje te można scharakteryzować za pomocą takich samych kategorii pojęciowych, jak cały test. I tak np. pytanie „Czy często miewasz zmienne nastroje?" ma swoją własną punktację (powiedzmy „0" dla odpowiedzi „nie" i „1" dla odpowiedzi „tak"), i może okazać się pytaniem nierzetelnym (te same osoby pytane w różnych momentach dają różne odpowiedzi), może być pytaniem nietrafnym (odpowiedź „tak" lub „nie" może wskazywać na zupełnie inną cechę psychologiczną niż ta, o którą nam chodziło), wreszcie może być pozycją stronniczą (osoby należące do różnych grup społecznych mogą częściej udzielać jednej lub drugiej kategorii odpowiedzi).
Stwierdzenie, że dobry test powinien składać się z dobrych pozycji testowych, może się wydawać truizmem. Jednakże - o czym świadczy wcale nie taka mała liczba przykładów - etap budowy testu bywa niedoceniany. Jakość całego testu zależy od jakości jego elementów składowych, czyli właśnie pozycji testowych. Posiadanie odpowiedniej wiedzy na temat przedmiotu pomiaru nie wystarczy do tego, aby tworzenie testu zakończyło się sukcesem. Zbudowanie dobrego testu to proces wymagający dobrej znajomości obowiązujących w tym zakresie procedur. W niniejszym rozdziale przedstawimy podstawowe zasady obowiązujące w tej dziedzinie.
Mówiąc najkrócej, budowanie testu rozpoczynamy od konceptualizacji tego, co ma być przedmiotem pomiaru (definiujemy mierzoną cechę oraz dokonujemy jej operacjonalizacji). Następnie formułujemy dużą pulę pozycji testowych, którą poddajemy analizie językowej i treściowej. Odrzucając pozycje, które nie spełniają przyjętych kryteriów, tworzymy pierwszą, eksperymentalną wersję testu. Po przeprowadzeniu badań pilotażowych i obliczeniu statystycznych właściwości poszczególnych pozycji podejmujemy decyzję, które z nich nadają się do ostatecznej wersji budowanego przez nas narzędzia. Analiza statystyczna pozycji testowych pozwoli nam ocenić, które pozycje testowe nie wymagają już żadnych zmian, które należy poddać rewizji, a które całkowicie zmienić. Poprawioną pierwszą wersję testu ponownie sprawdzamy w badaniach pilotażowych. Jeżeli okaże się, że pozycji testowych spełniających nasze wymagania jest zbyt mało, rozpoczynamy całą procedurę właściwie od początku, tj. od zbudowania nowej puli pozycji testowych. Na rys. 5.1 przedstawiono kolejne etapy tworzenia testu.
Rys. 5.Konstruowanie testu - podstawowe procedury 1. Etapy tworzenia testuEtapi
Zdefiniowanie mierzonej właściwości i jej operacjonalizacjaEtap 2
Określenie formatu bodźca i formatu odpowiedziEtap 3
Generowanie pozycji testowychiinkiEtap 4
Analiza językowo-treściowa pozycji
e wan1zbyt mała liczba pozycji spełnia założonEtap 5
Ustalenie klucza odpowiedzi;
S*                                           Etap 6                                      ^^N
\.                                  Badanie pilotażowe                             ^^S

Etap 7
Obliczenie wybranych wskaźników statystycznych dla wszystkich pozycji testu
Etap 8Zbudowanie ostatecznej wersji testu1 cniRozdział 5
160
5.1. OD CZEGO ZACZYNAMY?


Zanim przystąpimy do tworzenia pozycji testowych, musimy sobie odpowiedzieć na dwa podstawowe pytania: czemu ma służyć tworzony przez nas test? oraz: jak definiujemy obszar interesujących nas zachowań?
Określanie celu pomiaru
Pierwszym zadaniem, jakie stoi przed autorem nowego testu, jest określenie tego, czemu ma służyć test. Wyobraźmy sobie np., że chcemy skonstruować test kompetencji społecznych. Test ten może być przeznaczony dla celów selekcyjnych (wybieramy na jego podstawie osoby, które przyjmiemy do szkoły kształcącej przyszłych pracowników socjalnych), może być podstawą decyzji kadrowych (wpłynie na to, że będziemy awansować pracowników) bądź testem diagnostycznym (pomoże nam określać indywidualny zakres kompetencji społecznych jednostki).
Trudno sobie wyobrazić, aby jeden test jednakowo dobrze realizował wszystkie trzy cele. Test, którego wyniki mają być podstawą selekcji, powinien dobrze różnicować w zakresie wysokich kompetencji społecznych, z kolei test przeznaczony do diagnozy indywidualnej powinien jednakowo dobrze różnicować na całym kontinuum mierzonej właściwości (a więc zarówno w zakresie niskich, jak i wysokich kompetencji). I podobnie, treść pozycji testowych powinna być inna wtedy, kiedy interesuje nas badanie osób, które starają się o przyjęcie na specjalistyczny kurs, a inna wtedy, kiedy chcemy określać indywidualne możliwości każdej osoby i np. planować na tej podstawie dalsze działania terapeutyczne.
Jasne określenie celu głównego obszaru zastosowania testu i hierarchii decyzji, jakie będą podejmowane na podstawie jego wyników testowych, w dużym stopniu zwiększa nasze szansę na to, że ostateczna wersja testu spełni nasze oczekiwania.
Określanie obszaru zachowań identyfikowanych z mierzonym konstruk-tem (procedura operacjonalizacji)'
Większość konstruktów psychologicznych to pojęcia bardzo szerokie, najczęściej nie posiadające wyraźnych definicji. Przykładami takich właśnie pojęć są: „wysiłek umysłowy", „konformizm", „zaangażowanie", „lęk", „popęd" czy „osobowość". Tworząc test, musimy być przygotowani na konieczność precyzyjnego wskazania, co rozumiemy pod pojęciem „kom-
1 W literaturze przedmiotu opisuje się generalnie dwie strategie tworzenia narzędzi - strategię racjonalną i empiryczną (Edwards, 1970; Wiggins, 1994). Punktem wyjścia konstrukcji metod za pomocą strategii racjonalnej jest teoria mierzonej cechy. W strategii empirycznej rozpoczynamy od dowolnej puli pytań i poszukujemy empirycznie potwierdzonych różnic między odpowiednio dobranymi grupami kontrastowymi. W skalach empirycznych kryterium zakwalifikowania twierdzeń do ostatecznej wersji skali jest związek między kryterium podziału na grupy a treścią twierdzeń (dokładniej na ten temat por. Paluchowski, 2001). Tu zajmiemy się strategią racjonalną jako bardziej ogólną.
Konstruowanie testu - podstawowe procedury
petencji społecznych" czy „postawy". Co więcej, nasze definicje powinny zostać sformułowane w języku dających się obserwować zachowań.
Między pojęciami i obserwowalnymi zachowaniami może istnieć bardzo długi łańcuch powiązań i często trzeba wprowadzić wiele pośrednich pojęć i relacji, zanim ustalimy związek między terminami teoretycznym i zachowaniami. Wiązanie terminów teoretycznych z obserwacjami jest podstawowym sposobem wyjaśniania, co przez nie rozumiemy. W każdym więc wypadku musimy być przygotowani na to, by każdej zainteresowanej osobie móc wyjaśnić treść ważnych dla nas pojęć przez dokładne pokazanie ich powiązań z obserwowalnymi zachowaniami. Procedura wiązania terminów teoretycznych (odnoszących się do nieobserwowalnych właściwości zdarzeń i obiektów) z terminami obserwacyjnymi (oznaczającymi obserwowalne właściwości i relacje) nazywa się procedurą operacjonalizacji (por. Hornowska, 1989, 2000a).
Zabieg operacjonalizacji to zbiór procedur pozwalających badaczowi (także autorowi testu) na powiązanie mierzonej cechy (pojęcia teoretycznego) z konkretnym zbiorem obserwacji. Innymi słowy, to zabieg, który określa, co należy zrobić i co należy obserwować, aby badane zachowania można było potraktować jako wskaźniki mierzonej cechy psychologicznej2. Cecha i narzędzie zatem są ze sobą ściśle związane, gdyż narzędzie odzwierciedla tę cechę na poziomie zachowań.
I tak np. Zawadzki i Strelau (1997), konstruując swój kwestionariusz temperamentu (FCZ-KT), przyjęli za punkt wyjścia twierdzenia regulacyjnej teorii temperamentu, sformułowanej przez Strelaua (1995). Podstawowe dla tego kwestionariusza pojęcie temperamentu zostało zdefiniowane następująco: temperament odnosi się do „(...) podstawowych, względnie stałych czasowo cech osobowości, które manifestują się w formalnej charakterystyce zachowania (parametrach energetycznych i czasowych). Cechy te występują we wczesnym dzieciństwie i są wspólne dla człowieka i zwierząt. Będąc pierwotnie zdeterminowany przez wrodzone mechanizmy fizjologiczne, temperament podlega zmianom zachodzącym pod wpływem dojrzewania (i starzenia się) oraz niektórych czynników środowiskowych" (Zawadzki, Strelau, 1997, s. 12). W obrębie poziomu energetycznego zachowania autorzy wyróżnili siedem własności temperamentu: wrażliwość sensoryczną, wrażliwość emocjonalną, odporność emocjonalną, odporność na dystraktory, odporność na zmęczenie oraz aktywność. W obrębie poziomu czasowego wyróżnili pięć kategorii zachowań: ruchliwość, szybkość, tempo, powtarzanie i utrzymywanie zachowania (ibidem, s. 48). Szczegółowe definicje wszystkich kategorii stały się podstawą wygenerowania wyjściowej puli pozycji testowych - w tym wypadku twierdzeń.
Ci sami autorzy (Strelau, Zawadzki, 1998), tworząc inny kwestionariusz temperamentu (PTS), jako podstawę konstrukcji przyjęli pawłowowską kon-
2 Koncepcję operacjonalizacji szczegółowo omawiam w dwu pracach (Hornowska, 1989; 2000a).
161
Rozdział 5
?
162
cepcję temperamentu. Do właściwości temperamentu Pawłów zaliczył: siłę procesu pobudzenia, siłę procesu hamowania, równowagę między tymi procesami i ruchliwość procesów nerwowych (ibidem, s. 10). Dla każdej z tych właściwości - na podstawie szczegółowej analizy prac Pawłowa oraz doświadczeń badawczych autorów - wyodrębniono 17 składników definicyjnych, a dalej wygenerowano różne ich wskaźniki na poziomie obserwacji (ibidem, s. 34). To samo pojęcie - temperament - zostało w obu wypadkach inaczej zdefiniowane. Konsekwencją różnych podejść teoretycznych było powstanie dwóch różnych kwestionariuszy temperamentu.
Podsumowując: jeżeli chcemy zbudować test, to właściwym punktem startu jest wyraźne zdefiniowanie mierzonej cechy oraz jej operacjonalizacja. W ten sposób możemy określić obszar zachowań, które będziemy traktować jako wskaźniki interesującej nas cechy, a pozycje testowe powinny ten obszar odzwierciedlać.
»? Dwa pierwsze etapy konstrukcji testu to: • określenie celu pomiaru oraz
określenie obszaru zachowań identyfikowanych z mierzonym konstruktem
5.2. ZASADY BUDOWANIA POZYCJI TESTOWYCH
Po zdefiniowaniu mierzonej właściwości i określeniu obszaru interesujących nas zachowań możemy przystąpić do układania pozycji testowych. Wyjściowy zbiór pozycji testowych nazywać będziemy dalej pulą pozycji (ang. item pool). Pula ta powinna być stosukowo duża (zazwyczaj zaleca się skonstruowanie dwa razy tylu pozycji, ile liczyć ich ma ostateczna wersja testu), gdyż gwarantuje to nam uzyskanie odpowiedniej liczby pozycji spełniających wymagane kryteria.
Zanim sami lub zaproszeni przez nas eksperci zaczną tworzyć pozycje testowe, powinniśmy najpierw odpowiedzieć na pytanie, jaki wybieramy format pozycji testowej. Zgodnie z Pophamem (1981) można mówić generalnie o dwóch formatach pozycji: formacie otwartym (ang. construc-ted-response format) iformacie zamkniętym (ang. selected-response format). W pierwszym wypadku zadanie osoby badanej polega na swobodnym udzieleniu odpowiedzi. Np. pytanie: „Co to jest błąd standardowy pomiaru?" posiada format otwarty. Osoba badana, o ile tylko rozumie sens pytania, odpowiada na nie całkowicie swobodnie, spontanicznie, posługując się swoim własnym językiem (por. też Frankfort-Nachmias, Nachmias, 2001). Natomiast w przypadku pozycji zamkniętych osobie badanej przedstawia się zbiór odpowiedzi, a jej zadanie polega na wybraniu jednej bądź kilku z nich. Pozycje zamknięte często też nazywa się pozycjami obiektywnymi z tego względu, że ich ocena jest w mniejszym stopniu obciążona subiektywizmem.
Konstruowanie testu - podstawowe procedury
 Pozycje, z jakich składa się test, mogą mieć format otwarty lub zamknięty:
•  typowymi przykładami pozycji o formacie otwartym są pozycje do uzupełnienia, krótkie wypowiedzi oraz opowiadanie;
•  typowymi przykładami pozycji o formacie zamkniętym są pozycje alternatywne, pozycje wielokategorialne z wieloma opcjami do wyboru, pozycje z dopasowywaniem, pozycje w formacie skali Likerta oraz dwubiegunowe skale przymiotnikowe.
Typowymi przykładami pozycji o formacie otwartym są pozycje do uzupełnienia (ang. compłetion item), krótkie wypowiedzi (ang. short answer) oraz opowiadanie (ang. essay) - por. też Niemierko, 1975; Cohen, Swerdlik, 1999.
• Pozycje do uzupełnienia wymagają dokończenia przez osobę badaną rozpoczętego zdania. Formułowane są one najczęściej w sposób następujący3:
rzetelność testu jest to
Pozycja tego typu powinna zostać tak zbudowana, aby odpowiedź prawidłowa (zgodna z kluczem) dawała się wyraźnie określić. W przeciwnym wypadku bowiem możemy napotkać na poważne trudności w ocenianiu odpowiedzi udzielonych na takie pozycje.
Pozycje testowe wymagające krótkiej wypowiedzi formułuje się tak, aby osoba badana rzeczywiście mogła w związku z nimi przygotować zwięzłą wypowiedź. Zazwyczaj za krótką wypowiedź uznaje się tekst o objętości jednego lub dwóch paragrafów (Cohen, Swerdlik, 1999, s. 229). Pozycja tego typu może zostać zbudowana następująco:
Jakie założenia przyjmuje się w klasycznym modelu wyniku prawdziwego?
• pozycje testowe, na które odpowiedź ma charakter opowiadania, stosuje się wtedy, kiedy interesuje nas np. określenie głębokości wiedzy na dany temat. Pozycje tego typu nie tylko uruchamiają posiadaną wiedzę (wymagają bowiem odwołania się do pamięci), ale również pozwalają na ocenę stopnia jej integracji (zaplanowania i ustrukturalizowania wypowiedzi - ibidem), przykładowo:
Omów badania psychologiczne poświęcone problemowi konformizmu i posłuszeństwa.
W wypadku pozycji zamkniętych do najczęściej stosowanych w testach psychologicznych należą tzw. pozycje alternatywne (ang. alternate choice),
3 Aby ujednolicić sposób prezentacji tej części materiału, podawane przykłady będą generalnie dotyczyć testów właściwości poznawczych. Omawiane rodzaje pozycji testowych mają swoje zastosowanie również i w testach właściwości afektywnych.
163
_
Rozdział 5

pozycje wielokategorialne z jedną lub wieloma opcjami do wyboru (ang. multiple choice), pozycje z dopasowywaniem (ang. matching), pozycje w formacie skali Likerta (ang. Likert format) oraz dwubiegunowe skale przymiotnikowe (ang. bipolar adjective checklist)4. • Pozycje   alternatywne  to twierdzenia lub pytania zawierające
tylko dwie możliwe odpowiedzi (tak-nie lub prawda-fałsz). Taki format
właśnie posiada pozycja:
Potrafię polubićludzimającychinnewartościnizjaprawdafałszdla której przewidziano właśnie tylko dwa rodzaje odpowiedzi: „prawda" lub „fałsz". Ten rodzaj pozycji nadaje się zarówno do testów właściwości poznawczych (testów umiejętności), jak i testów właściwości afektywnych (np. testów osobowości). Pozycje tego typu powinny być formułowane w prostym języku, warto też unikać sformułowań w postaci przeczeń (zwłaszcza podwójnych przeczeń), bowiem może wtedy istnieć niebezpieczeństwo niewłaściwej oceny odpowiedzi osoby badanej (por. Mehrens, Lehmann, 1973, s. 271-274).
Pozycja z wieloma opcjami do wyboru składa się z trzonu (w którym przedstawione jest pytanie bądź problem), odpowiedzi prawidłowej (bądź zgodnej z kluczem) oraz kilku odpowiedzi nieprawidłowych (bądź niezgodnych z kluczem), nazywanych dystraktorami, przykładowo:
Trafność kryterialna to inaczej:trzona. trafność diagnostyczna i prognostycznaodpowiedź prawidłowab. trafność predykcyjna i treściowadystraktorc. trafność diagnostyczna i treściowadystraktord. trafność teoretyczna i treściowadystraktorDobra pozycja tego typu powinna: posiadać jedną prawidłową odpowiedź, wszystkie możliwości odpowiedzi powinny być gramatycznie równoważne, powinny być podobnej długości, powinny być zgodne gramatycznie z trzonem, a dystraktory nie powinny być dziwacznie sformułowane (por. Cohen, Swerdlik, 1999, s. 227). Czasami stosuje się testy z pozycjami wielokategorialnymi i wieloma opcjami do wyboru. Te jednak są trudniejsze do obróbki psychomet-rycznej. Ten rodzaj pozycji testowych stosuje się głównie w testach osiągnięć. Pozycje z dopasowywaniem to pozycje składające się z dwóch list - listy bodźców i listy odpowiedzi. Obie listy są ułożone w porządku losowym. Zadanie polega na dopasowaniu bodźców do odpowiedzi. Przykładowo:
4 Różne rodzaje pozycji testowych omawiają też: dla testów osiągnięć - Niemierko (1975), 164    oraz dla testów osobowości - Cohen, Swerdlik (1999)
Konstruowanie testu - podstawowe procedury
Połącz poszczególne pojęcia z ich definicjami, wstawiając numer definicji w wykropkowane miejsce obok litery oznaczającej dane pojęcie..........a. zmienna kontrolowana1. zmienna, która oddziałuje na inne zmienne..........b. zmienna zależna2. właściwość przyjmująca różne wartości dla obiektów, których dotyczy..........c. zmienna niezależna3. zmienna, której wpływ na zmienną zależną badacz jest w stanie ustalić..........d. zmienna nominalna4. zmienna pozwalająca stwierdzić, ile razy natężenie danej zmiennej dla danego obiektu jest większe lub mniejsze od natężenia tej zmiennej dla innego obiektu..........e. zmienna porządkowa5. zmienna pozwalająca stwierdzić, o ile natężenie danej zmiennej dla danego obiektu jest większe lub mniejsze od natężenia tej zmiennej dla innego obiektu..........f. zmienna interwałowa6. zmienna pozwalająca na uporządkowanie osób według przysługujących im wartości zmiennej..........g. zmienna ilorazowa7. zmienna kategorialna, jakościowa, będąca prostą klasyfikacją..........h. zmienna8. zmienna, która podlega oddziaływaniom ze strony innych zmiennych9. zmienna, której wpływu na zmienną zależną badacz nie jest w stanie ustalić 10. zmienne, które burzą jasny obraz zależności między zmienną zależną a zmiennymi dla niej głównymiPozycje testowe tego typu powinny być konstruowane według następujących zasad (por. Mehrens, Lehmann, 1973, s. 261-264): obie listy powinny być stosunkowo krótkie, lista odpowiedzi nie powinna się składać ze zbyt długich wyrażeń (najlepiej, aby były to pojedyncze zdania), pojedyncze zadanie powinno dotyczyć jednego pojęcia czy obszaru pojęciowego, lista odpowiedzi nie powinna być tej samej długości co lista bodźców (łatwiej wtedy bowiem ustalić prawidłowe połączenia tylko na drodze eliminacji), wreszcie: wszystkie zadania powinny być poprawne gramatycznie. Ten rodzaj pozycji również stosuje się przede wszystkim w testach osiągnięć. • Pozycje w formacie skali Likerta są twierdzeniami, do których dołączono pięć kategorii odpowiedzi: całkowicie się zgadzam, zgadzam się, trudno powiedzieć, nie zgadzam się, całkowicie się nie zgadzam. Osoba badana określa stopień aprobaty treści twierdzenia, wybierając jedną z opcji odpowiedzi. Tego typu pozycje testowe wykorzystuje się z kolei przede wszystkim w testach właściwości afektywnych, głównie do pomiaru postaw (zgodnie z oryginalnym sposobem ich wykorzystania - por. Likert, 1932; też Brzeziński, 1978 - w sprawie szczegółowych zasad konstrukcji skali postaw Likerta). Przykładowo:
165
Rozdział 5



Wszystkie dzieci powinny bezwarunkowo wykonywać polecenia swoich rodziców
całkowicie się zgadzam
zgadzam się
trudno powiedzieć
nie zgadzam się
całkowicie się nie zgadzam
Dwubiegunowe skale przymiotnikowe to z kolei rodzaj pozycji testowych zaczerpniętych z metody dyferencjału semantycznego. Osgood, Suci, Tannenbaum (1957; por. też Czapiński, 1978) zaproponowali - do pomiaru znaczenia konotacyjnego pojęć - stosowanie zbioru skal zdefiniowanych przez parę spolaryzowanych przymiotników, przykładowo:

Gwiazdajasna-1-2-30+1+2+3ciemnagorąca-1-2-30+1+2+3zimnaduża-1-2-30+1+2+3mała166
Autorzy ci przeanalizowali szereg par przymiotników i stwierdzili, że większość z nich można pogrupować na trzy kategorie: wartościowanie (ang. evaluatioń), siła (ang. potency) i aktywność (ang. activity). W efekcie otrzymali wystandaryzowane narzędzie, składające się z kilkunastu skal. Pozycje testowe w postaci dwubiegunowych skal przymiotnikowych bywają wykorzystywane poza oryginalną metodą dyferencjału semantycznego. W takiej sytuacji jednak to na autorze testu ciąży obowiązek wykazania w jaki sposób zbudowane przez niego skale przymiotników wiążą się z badaną właściwością, jak będą oceniane i interpretowane. Przedstawione przykłady formatu pozycji testowych nie wyczerpują oczywiście wszystkich możliwości. Dobre opracowanie tego zagadnienia można znaleźć w pracach Niemierki (1975), Thorndike'a i Hagen (1977), Cronbacha (1990), oraz Cohena i Swerdlika (1999).
Na koniec warto podkreślić, że decyzje dotyczące formatu pozycji testowej powinny zostać podjęte bardzo starannie. Należy rozważyć konsekwencje wprowadzenia takiego, a nie innego formatu (dobrze jeżeli decyzje takie są poprzedzone badaniami empirycznymi)5. Tak zrobili np. Zawadzki i Strelau (1997), tworząc kwestionariusz temperamentu. Na jednym z etapów przygotowywania kwestionariusza poproszono osoby badane o wybranie jednej z dwóch możliwych opcji: TAK/NIE lub czterostopniowej skali Likerta (całkowicie się zgadzam, zgadzam się, nie zgadzam się i całkowicie się nie zgadzam - ibidem, s. 50). W badaniach okazało się, że osoby w grupie
5 Taką konsekwencją może być zwiększenie prawdopodobieństwa ujawnienia się tzw. stylu odpowiadania, tj. skłonności do odpowiadania na pozycje testowe niezależnie od treści tych pozycji. Do stylów najczęściej opisywanych należą tzw. tendencja do potakiwania, unikanie odpowiadania, poświęcanie dokładności na rzecz szybkości odpowiadania, udzielanie odpowiedzi składających się z kilku słów, gdy wymagana odpowiedź ma mieć formę opowiadania, czy nieco inny mechanizm znany jako odpowiadanie zgodnie ze zmienną aprobaty społecznej (Cronbach, 1990, s. 175; szerzej patrz Wiggins, 1994).
Konstruowanie testu - podstawowe procedury
wiekowej 20-65 lat preferują format TAK/NIE. Ponieważ kwestionariusz ten jest przeznaczony do badania dorosłych, autorzy zdecydowali się na taki właśnie format pozycji testowych.
Ilustracją tego, co powiedzieliśmy na temat formatu pozycji testowych, niech będzie tab. 5.1, w której na przykładzie testu sprawdzającego poziom wiedzy z matematyki przedstawiono sposób konstruowania pozycji testowej wielokategorialnej z jedną opcją do wyboru.
Tab. 5.1. Konstruowanie pozycji testowej wielokategorialnej z jedną opcją do wyboru (na przykładzie testu sprawdzającego poziom wiedzy z matematyki)
Rodzaj wiedzy: umiejętność mnożenia ułamków dziesiętnych Rodzaj pozycji testowej: obliczanie iloczynów dwóch ułamków dziesiętnychCechy bodźcaCechy odpowiedzi1. Zadanie z treścią wymagające obliczenia iloczynu dwóch ułamków dziesiętnych1. Odpowiedzi są podawane w postaci wartości iloczynów, w porządku malejącym lub rosnącym2. Każdy z ułamków powinien zawierać jedno lub dwa miejsca po przecinku2. Każde zadanie posiada cztery odpowiedzi do wyboru: a) odpowiedź prawidłowa b) dystraktor - błąd wynikający z nieprawidłowego   określenia   miejsca dziesiętnego c) dystraktor - błąd wynikający ze złego ustawienia („podpisania") ułamków d) dystraktor - błąd wynikający z niezrozumienia treści zadania3. W żadnym zadaniu nie powinny się dwukrotnie powtórzyć te same liczby5.3. ANALIZA ZADAŃ
Mając już gotową pulę pozycji testowych, możemy przystąpić do ich oceny. Ocena ta powinna zostać przeprowadzona na trzech płaszczyznach: językowej, treściowej i statystycznej. Efektem tego będzie ustalenie ostatecznej wersji budowanego testu.
 Analiza zadań obejmuje trzy etapy:
•  analizę językową
•  analizę treściową
•  analizę statystyczną
Analiza językowo-treściowa
Pierwszym krokiem pozwalającym nam sprawdzić jakość wygenerowanych przez nas pozycji testowych jest sprawdzenie ich pod kątem poprawności językowej i trafności treściowej. Ten etap analizy zadań przeprowadza się    167
Rozdział 5

zazwyczaj przed uruchomieniem badań pilotażowych i przeprowadzeniem analizy statystycznej pozycji (Nunnally, 1978, s. 262)6. Taka wstępna selekcja pozycji testowych pozwoli na odrzucenie pozycji językowo bądź teoretycznie wadliwych i tym samym będzie sprzyjać zbudowaniu rzetelnego i trafnego testu o
Analiza językowa. Analiza językowa jest zazwyczaj przeprowadzana przez językoznawców. Ich zadanie polega na przeanalizowaniu każdej pozycji pod kątem jej poprawności gramatycznej, zrozumiałości, stosowanego słownictwa czy też długości, konkretności lub metaforyczności. I choć generalnie za właściwe uznaje się reguły danego języka, można sformułować kilka zasad ogólnych. I tak - pozycja testowa (por. Thorndike, Hagen, 1977; Nunnally, 1978; Crocker, Algina, 1986):
•  nie powinna być zbyt długa (preferowane są pozycje jednozdaniowe, chyba że mają stanowić opis pewnej sytuacji lub problemu);
•  powinna być raczej zbudowana ze zdań prostych niż złożonych, jeżeli dana pozycja wymaga dłuższego sformułowania;
•  powinna być sformułowana w trybie oznajmującym (przeczenia, zwłaszcza podwójne, mogą prowadzić do nieporozumień interpretacyjnych);
•  stosowany język powinien być prosty (nie powinny zawierać trudnych zwrotów lub wrażeń);
•  powinna być napisana językiem dostosowanym do przeciętnych kompetencji językowych badanych osób (a więc innym dla dzieci oraz dla dorosłych);
•  powinna być poprawnie sformułowana gramatycznie;
•  nie powinna zawierać takich określeń, jak „czasami", „rzadko", „niekiedy", „kilka" „wiele" „nigdy" czy „zawsze", ponieważ osoby badane mogą im przypisywać różne znaczenia.
Każda pozycja testowa jest po kolei analizowana. Autor testu może ją pozostawić bez zmian, przeformułować lub odrzucić. Staranna analiza językowa pozwala wyeliminować zasadnicze błędy w sposobie formułowania pozycji testowych. Dzięki temu pozycje składające się na pierwszą wersję testu powinny być wolne od błędów językowych.
Analiza treściowa. Kolejnym etapem wstępnej analizy pozycji testowych jest ich analiza pod kątem treściowym. Pytanie, na jakie powinien odpowiedzieć autor testu, to pytanie o to, czy wszystkie pozycje testowe można treściowo wywieść z teorii mierzonej cechy. Podstawą tej analizy jest oczywiście treść pozycji testowych. I tym razem zespół ekspertów dokonuje oceny zgodności treści poszczególnych pozycji testowych z przyjętymi
168
6 Niekiedy analizy językowo-treściowe są przeprowadzane po badaniach pilotażowych. Zaproszeni eksperci analizują tylko te pozycje, które spełniają formalne kryteria. Ponieważ zazwyczaj po badaniach pilotażowych wiele pozycji jest przeformułowywanych, ten sposób jest ekonomicznie mało efektywny, nie pozwala bowiem na zaoszczędzenie czasu i kosztów związanych z tworzeniem nowego testu (taka analiza powinna być przeprowadzona nie tylko dla wyjściowej puli pozycji, ale także i dla ostatecznej wersji testu).
Konstruowanie testu - podstawowe procedury
wcześniej założeniami. Innymi słowy, zespół ten udziela odpowiedzi na dwa pytania:
a)  czy wszystkie pozycje testowe można traktować jako operacjonalizację mierzonej cechy, oraz
b)  czy pozycje testowe reprezentują uniwersum zachowań, ważnych z punktu widzenia tej cechy.
Odpowiednio wysoki współczynnik zgodności między sędziami może być dobrą podstawą podjęcia decyzji o jakości pozycji testowej (por. omówienie problemu trafności treściowej w rozdz. 4). Ten rodzaj analizy pozwala także wyeliminować -już na wczesnych etapach konstrukcji testu - wiele pozycji nie spełniających kryterium trafności treściowej.
Aby zilustrować praktycznie nasze rozważania dotyczące analizy językowo--treściowej, odwołajmy się do wspomnianego już kwestionariusza temperamentu (FCZ-KT) Zawadzkiego i Strelaua (1997). Na pierwszym etapie konstrukcji kwestionariusza autorzy poprosili studentów psychologii i dyplomowanych psychologów o sformułowanie pozycji typowych dla zdefiniowanych wcześniej własności temperamentu. W ten sposób uzyskali 600 oryginalnych (czyli nie pochodzących z innych narzędzi) pozycji testowych (ibidem, s. 48). Następnie pozycje te zostały poddane ocenie językowej (przez 30 studentów wyższych lat polonistyki i dyplomowanego lingwistę) oraz analizie treściowej (przez 12 psychologów różnic indywidualnych). W efekcie tej procedury pozostały 392 pozycje (ibidem, s. 49), które zostały ocenione pod kątem formalnym.
Badanie pilotażowe
Po odrzuceniu pozycji testowych źle sformułowanych pod względem językowym i nietrafnych treściowo przygotowujemy pierwszą wersję naszego testu. Tę wersję sprawdzamy następnie w badaniach pilotażowych.
Badanie pilotażowe (próbne testowanie) powinno zostać przeprowadzone na tej grupie osób, dla której test jest przeznaczony. I tak np. jeżeli tworzony przez nas test jest przeznaczony do badania młodzieży uczącej się w gimnazjum, to badanie pilotażowe powinno zostać przeprowadzone na próbie uczniów gimnazjów. Obok decyzji: kogo powinniśmy przebadać, musimy także podjąć decyzję jak liczna powinna być to grupa. W podręcznikach trudno znaleźć proste rady na ten temat, jednak najczęściej zaleca się przebadanie od 5 do 10 osób, licząc na każdą pozycję testową (por. np. Nunnally, 1978, s. 279; Crocker, Algina, 1986, s. 83; Cohen, Swerdlik, 1999, s. 230)7. Co więcej, próba ta nie powinna być nigdy mniejsza niż 100 osób. Im większa próba, tym oczywiście lepiej, bowiem pozwoli to nam uniknąć przypadkowych wyników (zalecenie to jest szczególnie ważne, kiedy planujemy zastosowanie analizy czynnikowej). Jeżeli test jest stosunkowo długi,
7 Niestety, lektura wielu podręczników testowych wskazuje, że zasada ta nie jest przestrzegana, a prezentowane w nich wyniki analizy zadań mogą być - ze względu na zbyt małą liczebność próby - niewiarygodne.
169
Rozdział 5
to dopuszczalną procedurą jest podział testu na części i zbadanie każdą z części innej grupy osób.
Badanie pilotażowe powinno przebiegać w takich samych warunkach, w jakich gotowy już test będzie stosowany. Oznacza to, że zarówno instrukcja, ewentualne limity czasowe, charakter badania (indywidualny czy grupowy), jak i atmosfera w trakcie badania powinny być takie, jak w trakcie właściwego badania tym testem. Jak pisze Nunnally (1978, s. 279): ,Jeżeli w badaniu pilotażowym osoby badane mogą dowolnie długo rozwiązywać test, a w wersji końcowej planuje się wprowadzenie poważnych ograniczeń czasowych, to analiza zadań najprawdopodobniej dostarczy nam - wprowadzających w błąd - informacji. Jeżeli odpowiedzi na pozycje testowe inwentarza osobowości są uzyskiwane w atmosferze zachęcającej do szczerości, a ostateczna wersja testu będzie stosowana w atmosferze zniechęcającej do mówienia o sobie złych rzeczy, to analiza zadań przyniesie nam wadliwe dane o naszym teście" (por. też Cohen, Swerdlik, 1999, s. 230).
Wyniki otrzymane w badaniu pilotażowym są następnie analizowane i każda pozycja testowa jest opisywana za pomocą wybranych wskaźników statystycznych. Typowymi wskaźnikami tu: wskaźnik trudności pozycji i współczynnik mocy dyskryminacyjnej. Do ostatecznej wersji testu włączane są tylko te pozycje, których właściwości statystyczne okażą się wystarczająco zadowalające.
Wskaźnik trudności
Najprostszą miarą pozwalającą nam podjąć decyzję o tym, które pozycje testowe mogą wejść do ostatecznej wersji testu, jest tzw. wskaźnik trudności pozycji (ang. item-difficulty index). Wskaźnik ten oblicza się głównie w testach właściwości poznawczych (musi istnieć kategoria odpowiedzi prawidłowej, poprawnej) i jest on wykorzystywany do wybrania takich pozycji testowych, które mają odpowiedni - z punktu widzenia celu testowania - poziom trudności8.
Wskaźnik trudności jest definiowany następująco:
r=-'=/?,*100% N
gdzie: T oznacza wskaźnik trudności, «, - liczbę osób, które odpowiedziały prawidłowo na daną pozycję testową, a N- ogólną liczbę osób, które udzieliły odpowiedzi na tę pozycję. Innymi słowy, jest to proporcja osób, które poprawnie odpowiedziały na daną pozycję testową (/?,), wyrażona w procentach. Im wyższa wartość T, tym łatwiejsza jest dana pozycja testowa (bo tym więcej osób znało prawidłową odpowiedź). Ze względu na taki właśnie sposób interpretacji wielkości współczynnika T czasami nazywa się go
8 Odpowiednikiem tego wskaźnika w testach osobowości jest tzw. wskaźnik częstości odpowiadania w określony sposób (ang. item-endorsement index), który pozwala ustalić, jak 170     często osoby badane odpowiadają np. „tak" na daną pozycję testową.
Konstruowanie testu - podstawowe procedury
wskaźnikiem łatwości zadania, aby nie wprowadzać zbędnych trudności interpretacyjnych.
Jaka zatem wartość tego wskaźnika uprawnia nas do zakwalifikowania danej pozycji testowej do ostatecznej wersji testu? Jeżeli naszym celem jest różnicowanie badanych osób na całym kontinuum zmienności cechy, to dobrą pozycją testową jest taka pozycja, która gwarantuje nam to zróżnicowanie. A dana pozycja różnicuje tym lepiej, im bardziej jej wskaźnik trudności zbliża się do 50%9. Dlatego też optymalne pod względem trudności są takie pozycje testowe, których trudność oscyluje wokół tej wartości.
Taka prosta reguła decyzyjna może być stosowana pod jednym wszakże warunkiem, a mianowicie, że pozycje testowe nie pozostają ze sobą w żadnym związku. Zazwyczaj jednak założenie to jest trudne do spełnienia. Większość testów to testy jednorodne, a im bardziej jednorodny jest test, tym większe są korelacje między jego pozycjami. Aby zilustrować tę zależność, wyobraźmy sobie taką sytuację: nasz test składa się z 10 identycznych pozycji (np. „Co to jest współczynnik trudności pozycji testowej?"). W takim teście korelacje między poszczególnymi pozycjami testowymi będą oczywiście maksymalne i wyniosą 1. Gdyby trudność wszystkich pozycji testowych wynosiła 50% i gdybyśmy takim testem przebadali grupę 10 osób, to otrzymalibyśmy następujący rezultat: dokładnie 5 osób znałoby poprawną odpowiedź, a 5 nie umiałoby jej udzielić. W efekcie zamiast dobrze zróżnicować badaną grupę pod względem wiedzy o zasadach budowy testu otrzymalibyśmy podział tylko na dwie kategorie: tych, którzy mają maksymalną wiedzę na ten temat, i tych, którzy nic nie wiedzą. To, oczywiście, nie może być dobry sposób postępowania. Co zatem możemy zrobić? W takim przypadku zaleca się, aby pozycje testowe posiadały zróżnicowaną trudność (od najłatwiejszych do najtrudniejszych); zróżnicowanie to powinno być tym większe, im większa jest korelacja między pozycjami. Pozycje testowe należy dobrać tak, by średnia trudność całego testu oscylowała wokół 50% (por. Nunnally, 1978, s. 242-243; Anastasi, Urbina, 1999, s. 235; Cohen, Swerdlik, 1999, s. 232). W taki właśnie sposób m.in. dobrano pozycje do ostatecznej wersji testu S ł o w n i k w Skali Wechslera WAIS-R(PL) - por. tab. 5.2.
W niektórych wypadkach jednak ogólna reguła, że średnia trudność testu powinna oscylować wokół 50%, nie ma zastosowania. Dotyczy to przede wszystkim testów przeznaczonych do celów selekcyjnych. Testy tego typu __________________
9 Aby wyjaśnić, dlaczego tak się dzieje, musimy najpierw przypomnieć sobie, jak oblicza się miarę zróżnicowania (czyli wariancji) dla pozycji dwukategorialnej. Otóż miara ta jest definiowana następująco:
a2x=p,qt
gdzie: pt oznacza proporcję odpowiedzi prawidłowych, a q, proporcję odpowiedzi nieprawidłowych {pi + qi = 1) - por. np. Ferguson i Takane (1997). Otóż jak łatwo się przekonać, miara ta będzie miała największą wartość wtedy, kiedy p, = q{ = 0,5, czyli 50% (bo 50x50 = 2500 porównań). W każdym innym wypadku wartość ta będzie mniejsza.
171
Rozdział 5
Tab. 5.2. Wartości wskaźnika trudności dla poszczególnych trudność testu Słownik z baterii WAIS-R (PL) (opracowano na podstawie Hornowska, 1993b, s. 180)
pozycji oraz średnia
Nr pozycji testowejTNr pozycji testowejT194,41857,9279,11956,9374,52055,6473,22155,0573,12254,6670,02351,1769,62449,7868,42547,4968,22645,91066,62744,81166,32840,91263,82935,21362,63032,01461,93129,61560,73228,61660,23309,31759,23406,43505,17= 53,65%172
powinny zawierać pozycje testowe o takiej trudności, jaka jest najbliższa pożądanemu współczynnikowi selekcji. I tak np. jeżeli interesuje nas wybranie najlepszych 30% kandydatów, to najoptymalniejsze będą te pozycje, których wskaźnik trudności waha się właśnie wokół 30% (po uwzględnieniu problemu zgadywania wskaźnik ten może być nieco wyższy - patrz niżej). Innymi słowy, im bliżej punktu krytycznego (punktu selekcji) znajduje się wskaźnik trudności pozycji, tym lepiej z uwagi realizację celu pomiaru. To właśnie przeznaczenie testu powinno decydować o tym, jakie pozycje testowe znajdą się w ostatecznej jego wersji. Decyzji tych - jak piszą Anastasi i Urbina (1999, s. 242) - „nie można podejmować w sposób rutynowy, nie wiedząc, do czego będą wykorzystywane wyniki testowe".
Problem zgadywania. Przedstawiona wyżej reguła postępowania może być stosowana w wypadku pozycji z formatem otwartym. W wypadku pozycji z formatem zamkniętym musimy jeszcze dodatkowo uwzględnić problem zgadywania. Nikogo, kto rozwiązywał jakiekolwiek testy, nie trzeba przekonywać, że przy braku wiedzy szansa udzielenia prawidłowej odpowiedzi na pytanie:
Konstruowanie testu - podstawowe procedury
Co to jest zmienna?
jest znacznie mniejsza niż wtedy, kiedy pytanie zostałoby sformułowane w następujący sposób: Zmienna jest to:
a)  właściwość przyjmująca różne wartości dla obiektów, których dotyczy;
b)  właściwość  przyjmująca  tylko jedną  wartość   dla wszystkich obiektów.
Efekt zgadywania musi zatem zostać uwzględniony przy doborze pozycji testowych do ostatecznej wersji testu.
Zgadywanie w bezpośredni sposób wpływa na wartość wskaźnika trudności. Osoby, które nie znają prawidłowego rozwiązania, mogą skreślić właściwą odpowiedź, i tym samym otrzymana przez nas wartość /?, będzie większa niż zazwyczaj. Aby technicznie rozwiązać problem zgadywania i uwzględnić go w schematach doboru pozycji testowych, przyjmuje się założenie, że osoby badane nie dysponują żadną wcześniejszą wiedzą i że odpowiadają w sposób całkowicie losowy (wszystkie opcje odpowiedzi są dla nich jednakowo prawdopodobne czy jednakowo atrakcyjne). To założenie znane jest jako model losowego zgadywania (ang. random guessing model) -por. Crocker, Algina, 1986, s. 312; Suen, 1990, s. 75. Wiele praktycznych sytuacji pokazuje jednak, że najczęściej osoby badane dysponują już jakąś wcześniejszą wiedzą na temat przedmiotu pomiaru i na jej podstawie odrzucają z góry niektóre odpowiedzi jako mało prawdopodobne. Dokonując wyboru, wybierają zatem jedną możliwość z mniejszej liczby pozostałych, co zwiększa szansę udzielenia odpowiedzi prawidłowej. Do problemu tego wrócimy jeszcze nieco dalej.
Przyjmując założenie o losowym zgadywaniu, możemy określić, ile wynosi proporcja osób, które podały prawidłowa odpowiedź, mimo że jej faktycznie nie znały. Proporcja ta zależy od liczby kategorii odpowiedzi, w jakie wyposażona jest dana pozycja testowa, i wynosi Mm, gdzie m jest liczbą kategorii do wyboru. Dlatego też trudność pozycji testowych - z uwzględnieniem zgadywania - powinna być obliczana jako suma proporcji osób, które faktycznie znały odpowiedź, oraz tej części spośród nie znających odpowiedzi, którzy ją losowo wskazali, tj:
To = (po + qo/m)\00%
gdzie: To oznacza wskaźnik trudności poprawiony ze względu na zgadywanie, p0 jest proporcją osób, które faktycznie znały odpowiedź, qo proporcją osób, które nie znały odpowiedzi, a m liczbą kategorii do wyboru (Crocker, Algina, 1986, s. 313).
Przypomnijmy, w sytuacji, w której nie uwzględnialiśmy możliwości zgadywania, optymalna trudność pozycji testowych (dla testów maksymalnie różnicujących) oscylowała wokół 50%. Jeżeli jednak przyjmiemy, że taka    173
Rozdział 5
możliwość istnieje, to aby zmaksymalizować wariancję wyniku prawdziwego, optymalna wartość wskaźnika T powinna być nieco wyższa i - np. dla pozycji dwukategorialnych - wynosić: 7=0,5 + 0,5/2 = 0,75 = 75%. Dobieranie pozycji o odpowiedniej (poprawionej) wartości wskaźnika T zwiększa rzetelność całego testu. W tab. 5.3 zamieszczono poprawione wskaźniki trudności dla pozycji testowych z różną liczbą kategorii odpowiedzi.
Tab. 5.3. Rozkład wartości poprawionego wskaźnika trudności (To) dla pozycji posiadających różną liczbę kategorii odpowiedzi
Liczba kategorii odpowiedziProporcja osób odpowiadających prawidłowoProporcja osób zgadujących odpowiedźPoprawiony współczynnik trudności (To)2 kategorie0,500,50/2=0,250,50+0,25=0,75           (75%)3 kategorie0,500,50/3=0,170,50+0,17=0,67           (67%)4 kategorie0,500,50/4=0,1250,50+0,125=0,623       (63%)5 kategorii0,500,50/5=0,100,50+0,1=0,60             (60%)Jak wspomnieliśmy, losowy model zagadywania oparty jest na założeniach mało realistycznych (rzadko bowiem zdarza się tak, aby osoba badana nie posiadała żadnej wiedzy na temat przedmiotu pomiaru i odpowiadała w sposób czysto losowy). Dlatego też Lord (1952b) w jednym ze swoich badań symulacyjnych obliczał wskaźniki trudności pozycji dla różnych sytuacji. Jego zdaniem (ibidem), aby zminimalizować wpływ zgadywania (przy uwzględnieniu faktu, że nie wszystkie opcje odpowiedzi są jednakowo prawdopodobne) i zwiększyć rzetelność metody, cały test powinien być jeszcze nieco łatwiejszy. Lord podał następujące wartości średniego wskaźnika trudności testu dla różnych formatów odpowiedzi:
Format pozycjiOptymalna średnia trudność testów różnicujących w maksymalnym stopniuFormat otwarty Pięć kategorii do wyboru Cztery kategorie do wyboru Trzy kategorie do wyboru Dwie kategorie do wyboru50% 70% 74% 77% 85%174
Podkreślmy wyraźnie raz jeszcze: ten sposób doboru pozycji do ostatecznej wersji testu jest optymalny wtedy, kiedy interesuje nas zbudowanie testu maksymalnie różnicującego badane osoby. Jeżeli cel testowania jest inny, pozycje testowe należy dobierać w taki sposób, aby uzyskać możliwość różnicowania w tym punkcie kontinuum, który jest dla nas ważny (patrz wyżej).
Poprawka na zgadywanie. Fakt, że dany test jest zbudowany z pozycji o formacie zamkniętym i że może to wpłynąć na wyniki otrzymywane w tym teście, powinien zostać również uwzględniony przy interpretacji wyniku
Konstruowanie testu - podstawowe procedury
indywidualnego. Odpowiednia poprawkę na zgadywanie podaje np. Mag-nusson (1981, s. 335). Przyjmując, że wszystkie kategorie odpowiedzi mają jednakowe prawdopodobieństwo wyboru, liczbę zadań, jakie dana osoba potrafiła rozwiązać bez zgadywania, możemy obliczyć następująco:
F m-\
 = R-
gdzie: C to wynik danej osoby poprawiony ze względu na zgadywanie, R - liczba odpowiedzi prawidłowych, F- liczba odpowiedzi nieprawidłowych, m - liczba opcji dostępnych do wyboru. Np. jeżeli osoba A w teście składającym się z 20 pozycji pięciokategorialnych odpowiedziała prawidłowo na 15 pozycji i nieprawidłowo na 5 pozycji, to jej wynik poprawiony ze względu na zgadywanie wynosi: C= 15-(5/4)= 13,75, czyli w przybliżeniu 14 pkt.
Indywidualna korekta wyników w taki sposób, jak przedstawiono wyżej, powoduje wyrównanie różnic między osobami badanymi ze względu na zgadywanie. Pozwala nam to ocenić rzeczywisty poziom mierzonej cechy niezależnie od różnej skłonności tych osób do zgadywania (ibidem).
Wpływ zgadywania na liczbę poprawnych odpowiedzi zależy od liczby kategorii odpowiedzi. Im więcej kategorii osoba badana ma do wyboru, tym mniejsze prawdopodobieństwo znalezienia prawidłowej odpowiedzi przez przypadek, i tym samym mniejsza będzie wielkość poprawki.
Podobną poprawkę możemy również zastosować wtedy, kiedy interesuje nas rzeczywista częstość odpowiedzi prawidłowych na dana pozycję w określonej grupie osób. Poprawka ta może zostać obliczona według wzoru (Mag-nusson, 1981, s. 338):
F
Rf
gdzie: R to liczba osób, które rzeczywiście umiały rozwiązać zadanie, fi to liczba osób, które podały prawidłowe odpowiedzi, F - liczba osób, które podały złe rozwiązania, a m - liczba opcji do wyboru.
Współczynniki mocy dyskryminacyjnej
Wiele testów stosuje się po to, aby uzyskać informacje o różnicach indywidualnych w zakresie mierzonego konstruktu lub w zakresie jakiegoś zewnętrznego kryterium, które chcemy przewidywać na podstawie wyników testowych. W każdym z tych wypadków test powinien składać się z takich pozycji testowych, które przede wszystkim umożliwiają dokonanie różnicowania między osobami uzyskującymi niskie i wysokie wyniki na interesującym nas kontinuum. Idealny test powinien dawać następujący efekt: osoby z niskim ogólnym wynikiem powinny rzadziej odpowiadać poprawnie (czy bardziej ogólnie - diagnostycznie) na daną pozycję testową, zaś osoby z wysokim ogólnym wynikiem testowym - częściej. Ponieważ zazwyczaj - w trakcie konstruowania testu - nie dysponujemy żadną inną miarą mierzonego konstruktu poza samym ogólnym wynikiem w tym teście, wynik ten
175
Rozdział 5

właśnie jest najczęściej traktowany jako operacyjna definicja pozycji osoby na określonym kontinuum. Takie rozumowanie stało się podstawą opracowania różnych wskaźników dobroci pozycji testowych, nazywanych ogólnie współczynnikami mocy dyskryminacyjnej (ang. item discrimination power index). Współczynnik mocy dyskryminacyjnej to stopień, w jakim dana pozycja testowa różnicuje badaną populację w zakresie zachowania, które dany test ma mierzyć. Wartość tego współczynnika generalnie jest interpretowana następująco (Niemierko, 1975, s. 260; por. też rys. 5.2):
a)  pozycja testowa o dodatniej mocy dyskryminacyjnej jest częściej rozwiązywana przez osoby badane o wysokich ogólnych wynikach w teście, a więc różnicuje te osoby w zgodzie z innymi pozycjami testu, i tym samym zwiększa wariancję wyników testowania;
b)  pozycja testowa o ujemnej mocy dyskryminacyjnej jest częściej rozwiązywana przez osoby badane o niskich ogólnych wynikach w teście, a więc różnicuje te osoby przeciwnie niż inne pozycje testu, i tym samym zmniejsza wariancję wyników testowania.
Do ostatecznej wersji testu powinny wejść oczywiście te pozycje, które zwiększają wariancję wyników testowania, a więc o dodatniej, wysokiej mocy dyskryminacyjnej.
W literaturze przedmiotu można znaleźć informacje o kilkudziesięciu współczynnikach tego typu. Można je pogrupować na trzy kategorie:
•  proste wskaźniki dyskryminacyjne
•  współczynniki oparte na analizie korelacji między wynikiem danej pozycji o ogólnym wynikiem w teście
Rys. 5.2. Rodzaje związków między wynikiem danej pozycji testowej a ogólnym wynikiem w teście
korelacja dodatnia                                                          korelacja ujemna
SswYblwasia Yfns  1

diisyJs/isi^w^wAr^iei
-mp&cc
\.....>\
ogólny wynik
w teście   yymlzsi ffl&stsr^afr
ogólny wynik w teście
176
odpowiedź diagnostyczna zwiększa ogólny wynik w teście
odpowiedź diagnostyczna zmniejsza ogólny wynik w teście
Konstruowanie testu - podstawowe procedury
• współczynniki oparte na analizie różnic między tzw. skrajnymi grupami.
Omówimy je po kolei.
Wskaźnik dyskryminacji. Najprostszym współczynnikiem mocy dyskryminacyjnej jest tzw. wskaźnik dyskryminacji (ang. index of discrimination), który można stosować tylko w wypadku pozycji dwukategorialnych. Wskaźnik ten wymaga ustalenia punktu podziału osób badanych na dwie grupy: tzw. dolną grupę (tj. grupę o niskich wynikach w teście) i grupę górną (tj. grupę osób o wysokich wynikach w teście). Podział taki może zostać przeprowadzony w punkcie mediany (i wówczas obie grupy będą liczyły po 50% ogółu badanych osób) lub tak, aby brać pod uwagę tylko wyniki skrajne, a nie analizować wyniki środkowe. W klasycznych już badaniach Kelley (1939) udowodnił, że najoptymalniejszym punktem podziału jest wyodrębnienie po 27% badanych osób na każdym krańcu kontinuum. Przy takim podziale bowiem stosunek otrzymanej różnicy do jej błędu standardowego jest maksymalny (ibidem). Przy odpowiednio liczebnych próbach podobny efekt możemy także otrzymać, przyjmując jako punkt podziału po 25% z każdej strony lub dzieląc w punkcie mediany.
Mając wyodrębnioną dolną i górną grupę osób badanych, możemy obliczyć wskaźnik dyskryminacji według następującego wzoru:
gdzie: D jest wskaźnikiem dyskryminacji, pu oznacza proporcję odpowiedzi poprawnych (diagnostycznych) w górnej grupie osób badanych, a pt - proporcję odpowiedzi poprawnych (diagnostycznych) w dolnej grupie (Crocker, Algina, 1986, s. 314; Anastasi, Urbina, 1999, s. 249).
Współczynnik ten może przybierać następujące wartości: od -1,00 (gdy pozycja testowa idealnie różnicuje w przeciwnym kierunku niż ogólny wynik w teście) do +1,00 (gdy pozycja testowa idealnie różnicuje w tym samym kierunku co ogólny wynik w teście). W tab. 5.4 podano przykładowe wyniki dla trzech różnych pozycji testowych (dla uproszczenia przyjęto punkt podziału w środku rozkładu, dzieląc osoby badane na dwie podgrupy po 50% osób).
Tab. 5.4. Przykładowe wyniki dla trzech wybranych pozycji testowych
Pozycja testowaDolna grupa osób badanychGórna grupa osób badanych
12345678910poz. 10000110111poz. 20011010001poz. 30110100010ogólny wynik w teście10141618212224252830Uwaga: „0" oznacza odpowiedź niediagnostyczną, a „1" odpowiedź diagnostyczną. Osoby badane zostały już uporządkowane ze względu na wysokość wyniku ogólnego w teście.            177
Rozdział 5
Przeprowadzając odpowiednie obliczenia dla danych z tab. 5.4, otrzymamy:
Dj = 0,8 -0,2 = +0,6 D2 = 0,4 -0,4 = +0,0 D3 = 0,2 -0,6 = -0,4
Czym się zatem należy kierować, podejmując decyzję o tym, które pozycje testowe możemy włączyć do ostatecznej wersji testu? Ebel (1965) podał następujące kryteria decyzyjne (por. też Crocker, Algina, 1986, s. 315):
a)  jeżeli D > = 0,40, pozycję testową można włączyć do testu,
b)  jeżeli 0,30 =<D = <0,39, pozycja testowa wymaga niewielkich zmian,
c)  jeżeli 0,20=<D = <0,29, pozycja testowa ma znaczenie marginesowe i wymaga poważnych zmian,
d)  jeżeli D = <0,19, pozycja testowa powinna zostać wyeliminowana z testu lub całkowicie zmieniona.
W naszej hipotetycznej sytuacji zatem tylko pozycja 1 może zostać bez przeszkód włączona do ostatecznej wersji testu. Pozostałe dwie powinny zostać wyeliminowane.
Wskaźnik dyskryminacji, mimo swojej prostoty, daje dobre oszacowania mocy dyskryminacyjnej. Jego słabą stroną jest to, że nieznany jest kształt jego rozkładu z próby, i dlatego też nie możemy określić, jak duża wartość D jest statystycznie istotna. Dzięki prostej interpretacji jest on jednak często wykorzystywany (Crocker, Algina, 1986, s. 315).
Korelacyjne współczynniki mocy dyskryminacyjnej. Drugą grupę współczynników mocy dyskryminacyjnej stanowią współczynniki oparte na analizie korelacji między wynikiem danej pozycji testowej a ogólnym wynikiem w teście. Podobnie jak w wypadku wskaźnika korelacji i tu przyjmujemy, że operacyjnym wskaźnikiem pozycji danej osoby względem mierzonego kon-struktu jest ogólny wynik w teście. Im wyższą dodatnią wartość współczynnika korelacji otrzymamy, tym lepsze właściwości różnicujące, w pożądanym kierunku, będzie posiadała dana pozycja testowa. Istnieje wiele korelacyjnych współczynników mocy dyskryminacyjnej, jednak najczęściej stosowane są trzy współczynniki, odpowiadające trzem modelowym sytuacjom, z jakimi możemy mieć do czynienia. Są to: współczynnik korelacji dwuseryjnej, współczynnik korelacji punktowo-dwuseryjnej oraz współczynnik korelacji punktowo-czteropolowej (phi).
1) Współczynnik korelacji dwuseryjnej (ang. biserial cor-relatioń) może zostać obliczony w sytuacji, w której spełnione są dwa założenia: (a) rozkład wyników cechy mierzonej przez daną pozycję testową jest de facto zmienną ciągłą o rozkładzie normalnym, a jedynie niedoskonałość narzędzia pomiarowego (tu: pozycji testowej) sprawia, że jest to zmienna dyskretna, oraz (b) rozkład ogólnych wyników w teście też jest rozkładem normalnym. Przy tych założeniach możemy współczynnik rb obliczyć następująco (por. Guilford, 1964, s. 306; Magnusson, 178         1981, s. 301):
Konstruowanie testu - podstawowe procedury


 y

gdzie: Xp oznacza średni wynik ogólny w teście w tej grupie osób, które odpowiedziały diagnostycznie (zgodnie z kluczem) na daną pozycję testową, X - średni ogólny wynik w teście dla całej badanej grupy, Sx - odchylenie standardowe ogólnych wyników w teście dla całej grupy, p - proporcję odpowiedzi diagnostycznych (zgodnych z kluczem) na daną (analizowaną) pozycję testową, aj- rzędną rozkładu normalnego w punkcie podziału między proporcjami p i q (q = 1 -p).
Istotność współczynnika rh dla tego współczynnika (Magnusson, 1981, s. 303) wynosi:
gdzie N oznacza liczebność badanej próby.
2) Współczynnik korelacji punktowo- dwu sery j nej (ang. point-biserial correlatioń) jest z kolei obliczany wtedy, kiedy spełnione są następujące założenia: (a) rozkład wyników cechy mierzonej przez daną pozycję testową jest zmienną dyskretną (dwukategorialną) oraz (b) rozkład ogólnych wyników w teście jest rozkładem normalnym. Współczynnik rpb obliczamy następująco (por. Guilford, 1964, s. 310; Magnusson, 1981, s. 297):

'pb
xp-x
gdzie: Xp oznacza średni wynik ogólny w teście w tej grupie osób, które odpowiedziały diagnostycznie (zgodnie z kluczem) na daną pozycję testową, X - średni ogólny wynik w teście dla całej badanej grupy, Sx - odchylenie standardowe ogólnych wyników w teście dla całej grupy, p - proporcję odpowiedzi diagnostycznych (zgodnych z kluczem) na daną (analizowaną) pozycję testową, a q - proporcję odpowiedzi niediag-nostycznych (niezgodnych z kluczem).
Istotność współczynnika rpb oblicza się, oceniając wielkość błędu standardowego (Srpb) dla tego współczynnika (Magnusson, 1981, s. 299):
rPb
gdzie: W, jak poprzednio, oznacza liczebność badanej próby. 3) Współczynnik korelacji punktowo-czteropolowej (phi - ang. phi coefficient) jest obliczany wtedy, kiedy żadne z wymienionych wyżej założeń nie daje się utrzymać, a więc zarówno wynik pozycji testowej, jak i ogólny wynik w teście są traktowane jako zmienne dychoto-miczne (taki wynik może dawać dychotomiczne kryterium, np. sukces i brak sukcesu w terapii). Współczynnik phi obliczamy następująco:
179
Rozdział 5



_pg-Pd

gdzie: pg oznacza proporcję osób, które odpowiedziały zgodnie z kluczem w górnej grupie osób badanych (przypominamy: górna grupa to grupa osób o wysokich ogólnych wynikach w teście), pd oznacza proporcję osób, które odpowiedziały zgodnie z kluczem w dolnej grupie osób badanych, p - proporcję osób, które udzieliły odpowiedzi zgodnej z kluczem w całej badanej grupie, a q - proporcję osób, które udzieliły odpowiedzi niezgodnej z kluczem również w całej badanej grupie.
Istotność współczynnika phi obliczamy korzystając ze statystyki chi--kwadrat:
%2
180
gdzie N jest liczbą wszystkich badanych osób.
Podejmując decyzję o tym, jaki współczynnik korelacyjny mocy dyskryminacyjnej chcemy zastosować, musimy przede wszystkim przeanalizować, jakie założenia dotyczące rozkładu właściwości będącej podstawą odpowiadania na daną pozycje testową oraz rozkładu ogólnych wyników w teście możemy przyjąć. Każdy z omówionych współczynników korelacji daje nieco inne oszacowania mocy dyskryminacyjnej dla tych samych danych: najwyższe - współczynnik korelacji dwuseryjnej, a najniższe - współczynnik phi. Jeżeli zatem mamy wątpliwości co do rodzaju założeń, jakie możemy przyjąć, bezpieczniej jest zastosować współczynnik nieparametryczny - czyli phi (Magnusson, 1981, s. 310-311).
Ponadto, wielkość współczynnika korelacji punktowo-dwuseryjnej zależy od związku między proporcjami p i q. Im większa jest różnica między p i q, tym mniejszą wartość korelacji otrzymamy. Praktycznie oznacza to tyle, że bardzo łatwe i bardzo trudne zadania testowe będą uzyskiwały systematycznie niższe korelacje z całym testem niż zadania średnio trudne, i tym samym częściej będą odrzucane z ostatecznej wersji testu {ibidem). Jeżeli zatem interesuje nas stworzenie testu składającego się z pozycji testowych o różnym stopniu trudności, to z kolei lepszym współczynnikiem jest współczynnik korelacji dwuseryjnej lub phi (szczegółowe omówienie na ten temat por. Magnusson, 1981, s. 310-314).
Należy również pamiętać o tym, że współczynnik korelacji zawsze zależy od rodzaju populacji, z której pobrano próbę. Z tego punktu widzenia najbardziej stabilny jest współczynnik korelacji dwuseryjnej, i dlatego poleca się go wtedy, kiedy nasz test może być stosowany również i w innych próbach, a nie tylko tej, dla której dokonano odpowiednich obliczeń (Crocker, Algina, 1986, s. 319).
Na koniec części omawiającej korelacyjne współczynniki mocy dyskryminacyjnej warto jeszcze zwrócić uwagę na dwa problemy:
Konstruowanie testu - podstawowe procedury
a)  Czy przy obliczaniu współczynnika korelacji między wynikami danej pozycji a ogólnym wynikiem w teście wynik analizowanej pozycji powinien zostać wyłączony z ogólnego wyniku testowego czy też nie?
b)  Jak powinien wyglądać dobór pozycji testowych ze względu na rzetelność i trafność końcowej wersji testu?
Odpowiadając na pierwsze pytanie, należy zwrócić uwagę na fakt, że jeśli korelujemy wynik ogólny z wynikiem pozycji, będącym częścią tego wyniku ogólnego, to wielkość rit (czyli korelacji wyniku danej pozycji z ogólnym wynikiem w teście) wykazuje tendencję do wzrastania (por. np. Guilford, 1988c, s. 139). Im krótszy test, tym większy będzie wzrost wartości r'. Guilford (ibidem) określa ten problem jako problem nakładania się zakresów. Gdyby hipotetycznie przyjąć, że rzeczywista korelacja wszystkich pozycji z ogólnym wynikiem w teście wynosi zero i zero wynoszą wariancje wszystkich pozycji, to współczynnik korelacji między ogólnym wynikiem (z którego nie wyłączono wyniku danej pozycji) a tą pozycją wynosiłby l/k, gdzie k oznacza liczbę pozycji. I tak, gdyby test składał się z 25 pozycji, to korelacja ta wynosiłaby 0,20 dla wszystkich pozycji. Wartość ta mogłaby się okazać istotna na poziomie istotności równym nawet 0,01, o ile tylko badana grupa będzie wystarczająco liczna. Można by ją zatem traktować jako istotną statystycznie, gdyby nie świadomość, iż jest ona fałszywa (ibidem). Dlatego też przy obliczaniu korelacyjnego współczynnika mocy dyskryminacyjnej zaleca się wyłączanie wyniku danej pozycji z ogólnego wyniku w teście (por. rys. 5.3).
Rys. 5.3. Ilustracja problemu nakładania się zakresów
wynik danej pozycji
jest elementem ogólnego wyniku w teście


wynik danej pozycji
nie jest elementem
ogólnego wyniku w teście

f = 1+2 + 3

•

0 0


Z kolei w wypadku drugiego problemu, jeżeli pod uwagę bierzemy jedynie dane z analizy pozycji, to dobór pozycji ze względu na najwyższą wartość współczynnika korelacji wyniku danej pozycji z ogólnym wynikiem w teście prowadzi bezpośrednio do zwiększenia rzetelności testu (powstaje bowiem
181
Rozdział 5


metoda homogeniczna), zmniejsza się natomiast trafność testu. Test jest tym bardziej trafny, im jest bardziej heterogeniczny (ma wysokie korelacje z zewnętrznym kryterium). Zalecanym rozwiązaniem w tej sytuacji jest konstruowanie testów homogenicznych (wysoka rzetelność) i łączenie ich w heterogeniczne baterie testów (wysoka trafność) (por. Guilford, 1988c; Anastasi, Urbina, 1999).
Analizowanie różnic między skrajnymi grupami. Inną metodą określania mocy dyskryminacyjnej pozycji testowych jest analizowanie różnic między skrajnymi grupami. Te skrajne grupy to - przypomnijmy - górna i dolna grupa osób badanych (a więc grupa osób o wysokich i niskich wynikach w danym teście). Najoptymalniejszym sposobem wyodrębnienia tych grup - przypomnijmy - jest odcięcie z każdego krańca rozkładu wyników testowych po 27% badanych osób (Kelley, 1939). Metoda ta polega na ocenie istotności różnicy między średnim wynikiem dla danej pozycji, jaki otrzymano w grupie górnej, i średnim wynikiem dla tej pozycji, jaki otrzymano w grupie dolnej. W tym celu stosujemy konwencjonalny test t. Edwards (1957, s. 152-154; patrz też Brzeziński, 1978, s. 266-267) podaje odpowiedni wzór, pozwalający obliczyć wartość t dla równolicznych grup skrajnych:

1
n(n-l)
gdzie: Xg oznacza średni wynik w górnej grupie osób badanych, Xd - średni wynik w dolnej grupie osób badanych, n - liczebność grupy (dolnej lub górnej). Do ostatecznej wersji testu kwalifikujemy tylko te pozycje testowe, które w istotny sposób różnicują badane osoby.
Podstawowe parametry statystyczne charakteryzujące pozycję testową to:
•  wskaźnik trudności
•  współczynnik mocy dyskryminacyjnej, w tym: wskaźnik dyskryminacji
współczynniki korelacyjne
współczynniki oparte na różnicy między skrajnymi grupami
182
Rzetelność i trafność pozycji testowej
Każda pozycja testowa może również zostać scharakteryzowana ze względu na swój wkład do współczynnika rzetelności i trafności testu.
Dlatego też warto prześledzić, w jakim stopniu dana pozycja testowa może zwiększać lub zmniejszać najważniejsze parametry testu.
Współczynnik trafności pozycji. Współczynnik trafności pozycji zależy od wielkości korelacji między wynikami danej pozycji a wynikami inte-
Konstruowanie testu - podstawowe procedury
resującego nas kryterium oraz od odchylenia standardowego tej pozycji. Jest on wyrażany następującym wzorem (por. Magnusson, 1981, s. 319):
wskaźnik trafności = r,*s,
gdzie: rik oznacza wielkość korelacji między wynikami dla danej pozycji testowej i wynikami dla zmiennej kryterialnej, a st - odchylenie standardowe wyników w danej pozycji. Im wyższe zatem odchylenie standardowe wyników dla danej pozycji, tym większy wkład tej pozycji do trafności testu (ibidem). Obliczanie wskaźnika trafności może być szczególnie przydatne wtedy, kiedy interesuje nas zbudowanie testu o maksymalnej trafności kryterialnej.
Współczynnik rzetelności pozycji. Współczynnik rzetelności pozycji zależy z kolei od wielkości korelacji między wynikami danej pozycji a ogólnym wynikiem w teście oraz - również - od odchylenia standardowego tej pozycji. Współczynnik ten oblicza się następująco (por. Magnusson, 1981, s. 315);
wskaźnik rzetelności = ritSj
gdzie: rit oznacza wielkość korelacji między wynikami dla danej pozycji testowej i wynikami dla zmiennej kryterialnej, a s, - odchylenie standardowe wyników w danej pozycji. Posiadane informacji o wskaźniku rzetelności jest z kolei przydatne szczególnie wtedy, kiedy chcemy zbudować test maksymalnie homogeniczny (o największej zgodności wewnętrznej).
Związek między rzetelnością a trafnością pozycji. Można wykazać (por. Magnusson, 1981, s. 319), że trafność kryterialna testu, wyrażana w postaci współczynnika korelacji między wynikami ogólnymi w teście a wynikami w zmiennej kryterialnej, bezpośrednio zależy od wskaźników rzetelności i trafności pozycji składających się na ten test. Związek ten jest następujący (ibidem):

rtk= jL
gdzie: r,k oznacza trafność kryterialna testu, wyrażenie w liczniku jest sumą wskaźników trafności dla wszystkich pozycji, a wyrażenie w mianowniku jest sumą wskaźników rzetelności dla tych pozycji. Innymi słowy, trafność kryterialna jest stosunkiem sumy wskaźników trafności do sumy wskaźników rzetelności wszystkich pozycji tworzących test.
Pozycja testowa o jednakowych wskaźnikach rzetelności i trafności mierzy zmienną kryterialna i zmienną testową w tym samym stopniu, i wnosi ona tyle samo do rzetelności, jak i trafności. Aby otrzymać test o maksymalnej trafności kryterialnej, powinniśmy zatem wybierać takie pozycje testowe, dla których stosunek obu wskaźników jest najwyższy (szczegółowe omó-
183
Rozdział 5
wienie tego problemu patrz Magnusson, 1981). W każdym wypadku jednak konkretna decyzja musi być pochodną celu, dla jakiego przeznaczony jest test.
Analiza zadań w testach szybkości
Analiza zadań w przypadku testów szybkości nie jest taka oczywista, jak w wypadku testów mocy. W tym wypadku bowiem, im bliżej końca testu, tym trudniejsze są pozycje testowe. A dzieje się tak z prostego powodu: część osób badanych może w ogóle nie zdążyć rozwiązać danej pozycji testowej. Z kolei te same pozycje testowe (czyli te na końcu testu) mogą się okazać bardziej dyskryminatywne, gdyż osoby o wyższym poziomie mierzonej cechy mogą pracować szybciej, i tym samym odpowiedzieć na większą liczbę pozycji testowych. Konwencjonalna analiza zadać może zatem wprowadzać w błąd (por. Anastasi, Urbina, 1999, s. 259-260; Cohen, Swerdlik, 1999, s. 242).
Jednym z rozwiązań, które w sposób naturalny wydaje się do zaakceptowania w tej sytuacji, jest ograniczenie analizy zadań tylko do tych pozycji, na które odpowiedziały wszystkie osoby badane. Rozwiązanie to nie jest jednak polecane przynajmniej z trzech powodów (por. ibidem):
a)  osoby o wyższym poziomie mierzonej cechy częściej będą rozwiązywać pozycje znajdujące się pod koniec testu. Tym samym, część analizy zadań zostanie przeprowadzona na pełnej próbie, zaś część na próbie wyselekcjonowanej (składającej się z osób o wysokich wynikach);
b)  im więcej osób o wysokim poziomie mierzonej cechy rozwiąże końcowe pozycje testu, tym będą się one wydawać łatwiejsze, niż ma to miejsce w rzeczywistości;
c)  im dalej w teście umieszczona jest dana pozycja testowa, tym mniej osób na nią odpowie. Liczebność próby, dla której obliczono określone wskaźniki, będzie zatem maleć wraz z odległością pozycji testowej od początku testu.
Jeżeli szybkość nie jest najważniejszym czynnikiem definiującym mierzoną cechę, to najlepszym rozwiązaniem jest przeprowadzenie badania pilotażowego z uwzględnieniem takiego limitu czasowego, który pozwala większości ukończyć test. Natomiast normy powinny zostać obliczone z uwzględnieniem takich limitów czasowych, jakie są przewidywane dla ostatecznej wersji testu (Cohen, Swerdlik, 1999, s. 242). I -jak podkreślają Anastasi i Urbina (1999, s. 260) - „dobrze jest pamiętać o tym, że dane służące analizie pozycji uzyskiwane dla testów szybkości są niezbyt pewne i wymagają wnikliwego przyglądania się im".
Analiza zadań w testach zorientowanych na kryterium
Jak podkreśla wielu autorów, krytycznym momentem tworzenia testów zorientowanych na kryterium jest dobór i selekcja pozycji testowych (np. Hambleton, Rogers, 1991). Szczególnie istotny etap stanowi tu określanie obszaru zachowań, których ma dotyczyć test. Specyficzne zadania definiujące przedmiot pomiaru muszą zostać przełożone na pozycje testowe w taki 184    sposób, aby diagnoza biegłości wykonania była trafna.
Konstruowanie testu - podstawowe procedury
W wypadku testów zorientowanych na normy taką selekcję pozycji przeprowadza się, wykorzystując któryś ze wskaźników opisanych wyżej (trudność pozycji lub moc dyskryminacyjną). W wypadku testów zorientowanych na kryterium miary te nie są skuteczne (nie interesuje nas bowiem doskonałe różnicowanie), a najważniejsze staje się zapewnienie wysokiej trafności treściowej pozycji. Dlatego też tworzenie pozycji dla testów zorientowanych na kryterium polega przede wszystkim na dobrym definiowaniu tego, co ma być przedmiotem pomiaru, i ocenie trafności treściowej wygenerowanych pozycji (ibidem, s. 17). Wykazano np., że odpowiednie wytrenowanie osób piszących pozycje testowe zdecydowanie poprawia jakość testu (por. np. Wieberg, Neeb, Schott, 1984).
Innym istotnym czynnikiem, który musi zostać przeanalizowany w wypadku testów zorientowanych na kryterium, jest zakres, w jakim dana pozycja testowa odzwierciedla stopień rozumienia instrukcji (Popham, Husek, 1972, s. 140; Crocker, Algina, 1986, s. 330). Wrażliwość danej pozycji na instrukcję (ang. instructional sensitivity) określa się jako stopień, w jakim dana pozycja testowa różnicuje dwie grupy osób: tych, którym podano instrukcję, i tych, którzy jej nie mieli. Jedną z miar, jaką można by w tym wypadku zastosować, jest miara D, określana następująco:
D=ppost-pPre
gdzie: ppos, oznacza proporcję osób, które odpowiedziały poprawnie na daną pozycję testową przy podaniu instrukcji, a ppre - proporcję osób, które odpowiedziały poprawnie na daną pozycję testową bez podania instrukcji. Wartości D rozciągają się od -1,00 do +1,00. Najbardziej pożądane są wysokie wartości dodatnie (ibidem). Warto jednak podkreślić, że ten parametr pozycji nie powinien być obliczany rutynowo w wypadku każdego testu zorientowanego na kryterium. Może być bowiem tak: selekcja pozycji tylko ze względu na wartość D sprawi, że z ostatecznej wersji testu zostaną usunięte wszystkie te pozycje testowe, które są trafne treściowo. Parametr ten oblicza się wtedy, kiedy stopień rozumienia instrukcji wchodzi w zakres definicji mierzonej cechy.
Generalnie rzecz biorąc, procedura doboru pozycji testowych do testów zorientowanych na kryterium składa się z następujących etapów (Hambleton, Rogers, 1991, s. 10-11):
a)  zdefiniowanie przedmiotu pomiaru,
b)  określenie formatu pozycji testowej i przygotowanie instrukcji dla osób generujących pozycje testowe,
c)  opracowanie odpowiednio licznej wyjściowej puli pozycji,
d)  stworzenie zespołu sędziów ekspertów oceniających pozycje testowe,
e)  ocena wszystkich pozycji testowych pod kątem ich poprawności językowej,                                                                                                             185
Rozdział 5
f)  ocena wszystkich pozycji testowych pod kątem ich trafności treściowej,
g)  wyeliminowanie pozycji nie spełniających zakładanych kryteriów,
h) powrót do etapu (c), jeżeli w wyniku przeprowadzonej analizy pozostało zbyt mało pozycji.
Jak piszą Anastasi i Urbina (1999, s. 113): „bez dobrze przemyślanego określenia treści i kontrolowanego jej wykorzystania rezultaty badania testem zorientowanym na standard wykonania mogą przerodzić się w nieinterpreto-walny groch z kapustą, (...) zaś stopień szczegółowości, z jaką należy oceniać różne obszary treściowe, zależy od natury i celu testu". I dlatego to trafność treściowa proponowanych pozycji testowych jest kryterium decydującym o ich jakości i przydatności do ostatecznej wersji testu.
5.4. STRONNICZOŚCI POZYCJI TESTOWYCH - ZJAWISKO ZRÓŻNICOWANEGO FUNKCJONOWANIA POZYCJI
Równolegle z badaniami dotyczącymi stronniczości testów (ang. test bias) rozwijał się drugi nurt badań nad stronniczością. Podczas gdy w ramach pierwszego koncentrowano się na teście jako całości, w ramach drugiego postawiono inne pytanie - czy psychometryczna analiza pozycji testowych składających się na test jest w stanie dostarczyć wskaźników identyfikujących poszczególne pozycje testowe jako stronnicze (ang. item bias). Jeżeli odpowiedź byłaby pozytywna, konstruktorzy testów zyskaliby nowe, mocne narzędzie konstrukcji testu - narzędzie pozwalające na eliminowanie wadliwych (tj. stronniczych) pozycji testowych już na etapie konstrukcji.
Eells, Davis, Havighurst, Herrick i Tyler (1951) uważali, że źródłem wariancji wyników testowych jest nie tylko cecha, którą z założenia test ma mierzyć. W pomiarze za pomocą testów psychologicznych można również zidentyfikować wiele innych źródeł wariancji błędu. A ponieważ źródeł tych nie da się w żaden sposób wyeliminować, należy zadbać o to, aby nie przyczyniały się one do faworyzowania przez test jednej grupy (np. dzieci pochodzących z wyższych warstw społecznych) na niekorzyść drugiej (np. dzieci pochodzących z niższych warstw społecznych). Sytuacja taka może powstać wówczas, jeżeli w grupie osób o takim samym poziomie mierzonej cechy (np. posiadających taki sam iloraz inteligencji) wariancja błędu będzie się zmieniać w zależności od przynależności grupowej.
Przyjrzyjmy się trzem następującym przykładom:
a) W jednym z testów inteligencji dla dzieci znajduje się następujące pytanie: „Co powinieneś zrobić, jeżeli znajdziesz w sklepie czyjś portfel lub notes?"10. Właściwa odpowiedź to odpowiedź, w której dziecko zdaje sobie sprawę z konieczności zwrócenia portfela. Niektórzy uważają jed-
10 Matczak A., Piotrowska A., Ciarkowska W. (1991). Skala inteligencji D. Wechslera dla dzieci - wersja zmodyfikowana. WISC-R. Podręcznik. Warszawa: Pracownia Testów Psycho-186    logicznych PTP.
Rozdział 5
f)  ocena wszystkich pozycji testowych pod kątem ich trafności treściowej,
g)  wyeliminowanie pozycji nie spełniających zakładanych kryteriów,
h) powrót do etapu (c), jeżeli w wyniku przeprowadzonej analizy pozostało
zbyt mało pozycji.
Jak piszą Anastasi i Urbina (1999, s. 113): „bez dobrze przemyślanego określenia treści i kontrolowanego jej wykorzystania rezultaty badania testem zorientowanym na standard wykonania mogą przerodzić się w nieinterpreto-walny groch z kapustą, (...) zaś stopień szczegółowości, z jaką należy oceniać różne obszary treściowe, zależy od natury i celu testu". I dlatego to trafność treściowa proponowanych pozycji testowych jest kryterium decydującym o ich jakości i przydatności do ostatecznej wersji testu.
5.4. STRONNICZOŚCI POZYCJI TESTOWYCH - ZJAWISKO ZRÓŻNICOWANEGO FUNKCJONOWANIA POZYCJI
Równolegle z badaniami dotyczącymi stronniczości testów (ang. test bias) rozwijał się drugi nurt badań nad stronniczością. Podczas gdy w ramach pierwszego koncentrowano się na teście jako całości, w ramach drugiego postawiono inne pytanie - czy psychometryczna analiza pozycji testowych składających się na test jest w stanie dostarczyć wskaźników identyfikujących poszczególne pozycje testowe jako stronnicze (ang. item bias). Jeżeli odpowiedź byłaby pozytywna, konstruktorzy testów zyskaliby nowe, mocne narzędzie konstrukcji testu - narzędzie pozwalające na eliminowanie wadliwych (tj. stronniczych) pozycji testowych już na etapie konstrukcji.
Eells, Davis, Havighurst, Herrick i Tyler (1951) uważali, że źródłem wariancji wyników testowych jest nie tylko cecha, którą z założenia test ma mierzyć. W pomiarze za pomocą testów psychologicznych można również zidentyfikować wiele innych źródeł wariancji błędu. A ponieważ źródeł tych nie da się w żaden sposób wyeliminować, należy zadbać o to, aby nie przyczyniały się one do faworyzowania przez test jednej grupy (np. dzieci pochodzących z wyższych warstw społecznych) na niekorzyść drugiej (np. dzieci pochodzących z niższych warstw społecznych). Sytuacja taka może powstać wówczas, jeżeli w grupie osób o takim samym poziomie mierzonej cechy (np. posiadających taki sam iloraz inteligencji) wariancja błędu będzie się zmieniać w zależności od przynależności grupowej.
Przyjrzyjmy się trzem następującym przykładom:
a) W jednym z testów inteligencji dla dzieci znajduje się następujące pytanie: „Co powinieneś zrobić, jeżeli znajdziesz w sklepie czyjś portfel lub
notes?"10. Właściwa odpowiedź to odpowiedź, w której dziecko zdaje
sobie sprawę z konieczności zwrócenia portfela. Niektórzy uważają jed-
10 Matczak A., Piotrowska A., Ciarkowska W. (1991). Skala inteligencji D. Wechslera dla dzieci - wersja zmodyfikowana. WISC-R. Podręcznik. Warszawa: Pracownia Testów Psycho-186    logicznych PTP.
Konstruowanie testu - podstawowe procedury
nak, że pytanie to może być pytaniem stronniczym w stosunku do dzieci pochodzących z bardzo biednych rodzin - gdyż tym dzieciom zabranie pieniędzy może się wydawać usprawiedliwione.
b)  W jednej ze skal znajduje się twierdzenie: „Uważam, że moja cera wszystkim się podoba". Można przypuszczać, że twierdzenie to będzie miało inne znaczenie dla osób o białym i czarnym kolorze skóry.
c)  Pisemny test z matematyki zawiera pytanie:, Jaś dostał od mamy dychę. Ile może kupić paczek gum do żucia, jeżeli jedna paczka kosztuje dwa złote?". Pytanie to, chociaż zawiera sformułowania kolokwialne, jest zrozumiałe dla polskich dzieci, może jednak okazać się stronnicze dla dzieci obcokrajowców.
W każdym z tych przykładów można zauważyć dwa elementy wspólne: po pierwsze - przyjęcie założenia, że zróżnicowanie zachowania testowego w danej pozycji testowej wynika z wielu źródeł wariancji, i po drugie - że źródła wariancji błędu różnią się w sposób systematyczny dla dających się wyodrębnić grup osób badanych. Te dwa założenia - tu podane w sposób nieformalny - stanowią istotę rozumienia stronniczości jako cechy pozycji testowych (por. też Crocker, Algina, 1986).
Podobnie jak to miało miejsce w wypadku testu jako całości, i tu stronniczość oznacza stały błąd pomiaru. W sensie psychometrycznym zatem stronniczość pozycji testowych wyraża się w tym, że poszczególne pozycje testowe są mniej lub bardziej trudne dla osób należących do różnych podgrup wyodrębnianych z tej samej populacji (Camilli, Shepard, 1994).
Klasyczne pojęcie trudności pozycji testowej nie wystarcza jednak, aby opisać zjawisko stronniczości. Jest tak dlatego, gdyż w przypadku analizy stronniczości nie interesuje nas trudność pozycji testowych w całej populacji badanych osób, a w poszczególnych grupach o tym samym poziomie ogólnym mierzonej cechy i - co więcej - wyodrębnionych ze względu na kryterium demograficzne, takie jak rasa czy płeć. Dlatego też w miejsce pojęcia trudności pozycji testowej, wprowadzono pojęcie względnej trudności (ang. relative difficulty) pozycji testowych {ibidem). To pozwoliło na sformułowanie bardziej precyzyjnej definicji pojęcia stronniczości pozycji testowych. I tak stronniczość można rozumieć jako: „względną trudność pozycji testowej, która zniekształca stałe czy typowe różnice grupowe (...) dlatego też można stronniczość traktować (...) jako interakcję między sposobem odpowiedzi na daną pozycję testową a przynależnością grupową" (Camilli, Shepard, 1994, s. 15).
Odwoływanie się do pojęcia względnej trudności pozycji testowej jako wskaźnika jej stronniczości nie rozwiązuje jeszcze problemu. Specjaliści w zakresie psychometrii zgadzają się bowiem co do tego, że różnice między grupami - czy to w zakresie średnich wyników i odchyleń standardowych czy skośności rozkładów - nie są jeszcze wystarczającym dowodem istnienia stronniczości (por. Angoff, 1993; Camilli, Shepard, 1994). Dalsze analizy, np. badanie związku między testem a kryterium, między pozycjami testowymi
187
Rozdział 5

188
a ogólnym wynikiem w teście czy związków między poszczególnymi pozycjami testowymi, mogą dostarczyć danych wyjaśniających zaobserwowane różnice (Angoff, 1982). Mówiąc ogólnie: „ocena stronniczości musi być oparta albo na badaniu wzajemnych relacji między wewnętrznymi komponentami testu, albo na analizie wyników testowych w kontekście innych danych empirycznych i zbudowanej niezależnie teorii" (ibidem, s. 96).
Dlatego aby podkreślić, że metody statystyczne (tu: analiza trudności) pozwalają jedynie na wyodrębnienie pozycji testowych, które są różnie rozwiązywane w różnych grupach, a nie pozwalają na wyjaśnienie przyczyn tych różnic, Angoff (1982) wprowadził pojęcie „metod badania rozbieżności pozycji testowych" (ang. item discrepancy method), a Holland i Thayer (1988) zaproponowali pojęcie zróżnicowanego funkcjonowania pozycji testowej (ang. differential item functioning, w skrócie DIF). Jak piszą wspomniani autorzy (ibidem, s. 129): „W odróżnieniu od badań nazywanych pierwotnie badaniami nad «stronniczością pozycji testowych», współczesne podejścia koncentrują się na fakcie, że różne grupy osób badanych mogą reagować różnie na to samo pytanie testowe. Warto analizować te różnice, ponieważ mogą one rzucić więcej światła zarówno na problem pytań testowych, jak i problem dotyczący doświadczenia czy pochodzenia różnych grup osób badanych. Preferujemy bardziej naturalne terminy, takie jak zróżnicowane wykonanie pozycji czy zróżnicowane funkcjonowanie pozycji testowej, tj. DIF [skrót od angielskiego differential item functioning - E.H.], zamiast pojęcia stronniczości pozycji testowych, gdyż dla wielu pozycji, dla których wykazano istnienie DIF, pojęcie stronniczości nie opisywało dokładnie sytuacji".
Dlaczego tak się dzieje? Wykazanie istotnej statystyki DIF (tj. wykazanie, że dana pozycja testowa zachowuje się różnie w różnych grupach osób badanych) nie jest jeszcze dowodem istnienia stronniczości. Procedury statystyczne wskazują bowiem jedynie na to, że dana pozycja testowa jest trudniejsza dla określonych grup osób badanych (różnicuje odmiennie w zależności od przynależności grupowej badanych osób), nic nie mówią natomiast na temat przyczyn takiego stanu rzeczy (tj. celu testowania). Dlatego aby można było potraktować statystyki DIF jako wskaźniki stronniczości, niezbędne jest przeprowadzenie dalszych analiz, zwłaszcza z uwzględnieniem tego, co test z założenia ma mierzyć.
Statystyki DIF dotyczące poszczególnych pozycji testowych (w tym względna trudność pozycji czy zróżnicowane funkcjonowanie) dostarczają użytecznych informacji o wewnętrznej strukturze testu. Statystyki te umożliwiają ponadto wykrycie tego, czy dany test mierzy konstrukt wielowymiarowy. Oznacza to, że na ich podstawie możemy stwierdzić, czy grupy osób podobne do siebie ze względu na główną cechę mierzoną przez test nie różnią się między sobą ze względu na cechy drugorzędowe mierzone przez ten sam test. Mówiąc jeszcze inaczej, statystyki DIF informują nas o rozkładzie cech
Konstruowanie testu - podstawowe procedury
drugorzędowych (np. innych zdolności) w danym teście. Owe drugorzędowe wymiary mogą być swoiste tylko dla jednej pozycji testowej i nie należy ich traktować jako drugiego wymiaru testu, o ile nie zostaną potwierdzone także przez inne pozycje testowe. Z taką sytuacją mamy np. do czynienia w teście mierzącym umiejętności rozwiązywania zadań z matematyki, który składa się z tzw. zadań z treścią wymagających umiejętności czytania. Taki test mierzy nie tylko zdolności matematyczne (główna cecha), ale także umiejętność czytania (cecha drugorzędowa). Gdybyśmy zatem w wyróżnionych grupach osób otrzymali istotne statystyki DIF dla pozycji tego testu (np. test okazał się trudniejszy dla chłopców niż dla dziewczynek), to niekoniecznie musi to świadczyć o stronniczości pozycji tego testu. Obie grupy mogą różnić się bowiem ze względu na umiejętność czytania, a umiejętność czytania jest w uzasadniony sposób również odzwierciedlana przez wyniki tego testu11.
Podsumujmy: możemy powiedzieć że dana pozycja testowa jest stronnicza jedynie wtedy, kiedy okaże się względnie trudniejsza dla jednej grupy i źródłem tej rozbieżności będą czynniki nie związane z konstruktem mierzonym przez test. Podkreślmy ponownie, istotna statystycznie wartość DIF nie oznacza jeszcze stronniczości pozycji testowej. Jest ona jedynie wskaźnikiem odmiennego różnicowania. Jak stwierdziła Lorrie Shepard (1981, s. 99): „Logiczne powiązania określone pierwotnie między pozycjami testu i uniwersum konstruktu muszą zostać ponownie przeanalizowane w świetle nowych danych, dotyczących różnego wykonania testu w różnych grupach badanych (...) Istotnym pytaniem, na które trzeba rozważnie odpowiedzieć, jest pytanie o to, czy wskaźniki «stronniczości» sygnalizują odmienne znaczenia [przypisywane pozycji testowej - E.H.] w różnych grupach badanych. Dlatego też rzeczywistą stronniczość czy prawdziwe różnice w wiedzy należy rozważać w kontekście celu, jakiemu służyć ma test. Wniosek o istnieniu stronniczości i decyzja o usunięciu pozycji testowych z testu będzie zależeć od tego, jakie zdolności - z założenia - test mierzy".
>? Stronniczość pozycji testowej oznacza stały błąd pomiaru. W sensie psycho-metrycznym stronniczość pozycji testowych polega na tym, że poszczególne pozycje testowe są mniej lub bardziej trudne dla osób należących do różnych podgrup, wyodrębnianych z tej samej populacji.
Ze względu na złożoność procedury budowania testów ich konstruktorzy starają się opracować najbardziej efektywne techniki gwarantujące, że skonstruowane metody będą rzetelnym i trafnym narzędziem pomiaru badanych właściwości. Obok opracowywania standardowych procedur, wyznaczających
11 Shepard, Camilli i Williams (1984) wykazali np., że test z matematyki zawierający zadania z treścią jest systematycznie trudniejszy dla czarnych dzieci w porównaniu z białymi. Nie odnotowali natomiast takiego efektu w wypadku testów składających się wyłącznie z „czystych" zadań rachunkowych.
189


Rozdział 5
zasady budowy testów, należy również dbać o to, aby skonstruowany test nie okazał się stronniczy w stosunku do tej populacji, dla której jest przeznaczony. Prowadzenie szerokich badań nad stronniczością pozwoli na:
a)  zidentyfikowanie potencjalnych zmiennych (czynników) odpowiedzialnych za stronniczość konkretnego testu w stosunku do konkretnej podpo-pulacji. Pozwoli określić, czy i jakie zmiany powinny zostać wprowadzone w procedurze budowania testu, aby zminimalizować ewentualne włączenie pozycji stronniczych w przyszły test lub zapobiec takiemu włączeniu;
b)  stworzenie zbioru reguł wykorzystywanych przez konstruktorów testów do eliminowania stronniczości, której źródłem może być język, cechy formalne i treść pozycji testowych oraz test jako całość;
c)  opracowanie procedur statystycznych wykorzystywanych do identyfikowania stronniczych pozycji testowych. Procedury te powinny spełniać funkcję kontroli procesu tworzenia testu przez dostarczanie informacji pozwalających na wyeliminowanie stronniczych pozycji zarówno na wczesnych, jak i na późnych (tj. normalizacji) etapach tego procesu.
W efekcie takiego zapotrzebowania powstało wiele nowych schematów badawczych, pozwalających na sprawdzenie różnych aspektów testowania. I chociaż schematy te różnią się ze względu na przyjmowaną w nich perspektywę teoretyczną, wszystkie one realizują ten sam cel ogólny: wyposażenie konstruktorów testów w skuteczne i szybkie zbiory procedur, które mogą zostać wykorzystane do generowania pozycji testowych i -jednocześnie - do budowania testu wolnego od stronniczości.
W ostatnich latach obserwujemy dynamiczny rozwój technik pozwalających szacować stronniczość pozycji testowych. Techniki te różnią się konceptualiza-cją pojęcia stronniczości, teoretycznym pogłębieniem, statystyczną złożonością, wymaganą wielkością próby i ponoszonymi kosztami. Różnice w konceptuali-zacji najczęściej sprowadzają się do tego, ile w obserwowanym zróżnicowaniu między grupami mniejszości i większości przypisuje się różnicom poziomów zdolności, a ile stronniczości. W każdym badaniu stronniczości badacz stara się ustalić stopień obciążenia (stronniczości) narzędzia pomiarowego za pomocą kryterium, które przynajmniej z założenia jest mniej stronnicze.
Do najpopularniejszych technik szacowania stronniczości pozycji testowych należą techniki oparte na sędziowaniu, techniki oparte na analizie wariancji (Osterlind, 1983; Schmeiser, 1982), na analizie współczynników trudności pozycji testowych (Angoff, 1982), na teście cni2 (Berk, 1982) oraz techniki oparte na analizie ICC, czyli krzywych charakterystycznych pozycji testowych - ang. item characteristic curve (Croker, Algina, 1986). Są to raczej strategie niż konkretne metody. Każda z nich bowiem dostarcza wielu konkretnych rozwiązań w ramach przyjętego modelu teoretycznego, jak również wskazówek dotyczących nie tyle szacowania stronniczości pozycji testowych, ile budowania całego testu. Nie są one również całkowicie odręb-190    ne. Nakładają się na siebie i przed wybraniem którejkolwiek z nich należy
Konstruowanie testu - podstawowe procedury
dokładnie przeanalizować założenia, na jakich są one oparte, oraz pytania badawcze, na jakie pozwolą odpowiedzieć12.
Przypadek Golden Rule. Na zakończenie uwag na temat stronniczości pozycji testowych i ich zróżnicowanego funkcjonowania warto przypomnieć głośną sprawę sądową, w której m.in. odwołano się do pojęcia stronniczości pozycji testowych (por. też Anastasi, Urbina, 1999, s. 267). W sprawie tej chodziło o stosowanie egzaminów licencyjnych przy rekrutacji pracowników do towarzystwa ubezpieczeniowego Golden Rule. Przyjęto, że podstawą decyzji selekcyjnych nie mogą być pozycje stronnicze stosowanego testu, te zaś identyfikowano wyłącznie na podstawie odsetek osób odpowiadających zgodnie z kluczem w różnych grupach społecznych (głównie rasowych). Okazało się jednak, że przy selekcji pozycji stronniczych nie wzięto pod uwagę poziomu zdolności kandydatów i pozycje uznane pierwotnie za stronnicze - przy podziale ze względu na poziom zdolności - mogły być spokojnie zaakceptowane. Co więcej taka praktyka doboru pozycji prowadziła do wyeliminowania najtrafniejszych - z punktu widzenia celu pomiaru - zadań. Gdyby taką procedurę dalej upowszechniać, to jedynie wykazanie, że dwie grupy społeczne odpowiadają inaczej na daną pozycję testową, mogłoby już być podstawą eliminowania „wątpliwych" pozycji testowych. Jak podkreślaliśmy wcześniej, wykazanie, że określone pozycje testowe w zróżnicowany sposób funkcjonują w dwóch grupach badanych, nie jest jeszcze podstawą do stwierdzania ich stronniczości! Dlatego też w Standardach... (1985b, s. 27) sformułowano następujące zalecenie: „należy zawsze sprawdzić, czy obserwowane różnice w sposobie odpowiedzi na daną pozycję testową można przypisać stronniczości tych pozycji". •
5.5. OSTATECZNA REWIZJA TESTU

Analiza zadań dostarcza zawsze ogromnej liczby informacji. Na ich podstawie część pozycji testowych pozostaje bez zmian, część zostaje poprawionych, a część usuniętych z ostatecznej wersji testu. Powstaje zatem praktyczne pytanie: w jaki sposób można efektywnie wykorzystać informacje o trudności pozycji, ich mocy dyskryminacyjnej, trafności, rzetelności i wreszcie stronniczości w ocenie ostatecznej wersji testu? Ostateczna ocena testu nazywana jest procesem rewizji testu i jak piszą Cohen i Swerdlik (1999, s. 245): „istnieje tyle sposobów rewidowania testu, ilu jest ich twórców". Jednakże większość autorów jest zgodna, że najlepszą metodą oceny ostatecznej wersji testu jest tzw. jego walidacja krzyżowa (ang. cross-validatioń).
Walidacja krzyżowa
Co to jest walidacja krzyżowa? Dysponując ostateczną wersją testu, powinniśmy go ponownie sprawdzić. Gdybyśmy jednak dokonali takiej
12 Szczegółowo techniki te omówione są w pracy Hornowska (1999).
191
Rozdział 5

192
oceny na tej samej próbie badanych osób, której wyniki były podstawą dotychczasowych analiz, to wszystkie miary korelacyjne, jakimi się będziemy posługiwać, będą zawyżone. Dlatego też powinniśmy ocenić trafność testu na innej próbie niż ta, która była podstawą selekcji pozycji. Takie niezależne badanie trafności nazywa się właśnie walidacją krzyżową (por. Anastasi, Urbina, 1999, s. 261).
Crocker i Algina (1986, s. 328) proponują stosowanie następującej procedury: biorąc pod uwagę wysiłek związany z oceną pozycji testowych, warto zrealizować obie fazy tworzenia testu (ocenę pozycji i walidację krzyżową) w jednym badaniu. Generalna strategia postępowania jest następująca: wszystkie pozycje testowe wchodzące w skład puli pozycji testowych daje się do rozwiązania dużej grupie osób badanych. Następnie losowo przydziela się część wypełnionych arkuszy testowych do analizy zadań, a część do walidacji krzyżowej. I tak, jeżeli 400 osób badanych rozwiązało 30-pozycyjny test, to wyniki 200 z nich zostaną wykorzystane do oceny pozycji testowych, a wyniki 200 - do rewizji testu. Jeżeli efektem analizy zadań będzie zaakceptowanie 20 pozycji testowych, to wyniki dla tych 20 pozycji z drugiej dwusetki osób badanych zostaną wykorzystane do oceny trafności testu. Można również nieco bardziej skomplikować tę procedurę i wykorzystać wyniki próby 1 do analizy zadań, a próby 2 - do walidacji krzyżowej, a następnie zrobić odwrotnie: wykorzystać wyniki próby 2 do analizy zadań, a próby 1 - do walidacji krzyżowej. Taka procedura nazywa się p o d w ó j n ą walidacją krzyżową (ang. double cross-validation). Podział na dwie grupy nie musi być dokładnie proporcjonalny. Może być tak, że więcej osób tworzy grupę dla analizy zadań (pamiętajmy o wymogu odpowiedniej liczebności tej grupy), a mniej grupę dla walidacji krzyżowej.
Jakich wyników walidacji krzyżowej powinniśmy się spodziewać? Generalnie rzecz biorąc, oczekujemy, że wskaźniki trafności pozycji wybranych do ostatecznej wersji testu będą mniejsze w nowej próbie - ze względu na działanie czynników losowych. To obniżenie się wskaźników trafności, które jest nieuchronną konsekwencją walidacji krzyżowej, nazywa się kurczeniem trafności (ang. validity shrinkage - por. Guilford, 1988c, s. 140; Cohen, Swerdlik, 1999, s. 246).
Zakres, w jakim nastąpi zmniejszenie się trafności pozycji, zależy od wielkości wyjściowej puli pozycji i wielkości badanej próby osób. I tak, im większa była wyjściowa pula pozycji i im mniej pozycji z niej pozostało, tym większe będzie zmniejszenie trafności (sprzyja to bowiem działaniu przypadkowych różnic i zwiększa wskaźnik trafności - ibidem). Z kolei im większa próba, tym łatwiej o uzyskanie wysokich wskaźników trafności; wraz ze zmniejszaniem się próby w badaniach krzyżowych maleć też będą wskaźniki trafności. Nadto, jak piszą Anastasi i Urbina (1999, s. 263), „jeżeli pozycje testowe dobiera się na podstawie wcześniej sformułowanych hipotez wynikających z teorii psychologicznej lub z empirii, spadek trafności przy
Konstruowanie testu - podstawowe procedury
walidacji krzyżowej będzie mniejszy". Ten efekt można potraktować jako jeszcze jedno uzasadnienie wyższości trafności teoretycznej (patrz rozdz. 3). Świadomość efektu kurczenia się trafności może nas uchronić przed mało refleksyjnym akceptowaniem wysokich danych na temat trafności pozycji testowych, biorących się z niewłaściwego wykorzystania tej samej próby do ostatecznej oceny testu. Trudno bowiem o większe rozczarowanie, jak przekonanie się w trakcie stosowania testu, iż daje on mniej trafne wyniki, niż tego - na podstawie danych prezentowanych w podręczniku - oczekiwano.
5.6. TEORIA ODPOWIADANIA NA POZYCJE TESTU
W ostatnich latach coraz większym zainteresowaniem ze strony autorów testów cieszy się zupełnie nowe, odmienne od podejścia klasycznego, spojrzenie na proces budowania testu psychologicznego13. I choć odwołanie się do klasycznej teorii testów nadal dominuje wśród osób tworzących metody testowe, gwałtownie rosnące zainteresowanie teorią odpowiadania na pozycje testu (ang. item response theory) -jako podstawą teoretyczną pomiaru psychologicznego w ogóle - świadczy o gotowości psychologów do zmiany dotychczasowych (klasycznych) poglądów.
Item response theory (IRT), czyli teoria odpowiedzi na pozycje testowe, to zbiór twierdzeń opisujących sposób, w jaki osoba badana odpowiada na pozycje testu. IRT pozwala na określenie związku między odpowiedziami udzielanymi przez osobę badaną a zakładaną, nieobserwowalną cechą leżącą u podstaw zachowań testowych. Modele formułowane w ramach IRT mają postać funkcji matematycznych, wiążących prawdopodobieństwo udzielenia odpowiedzi prawidłowej (zgodnej z kluczem) na daną pozycję testową z ogólnym poziomem mierzonej cechy u osoby badanej (por. rys. 5.4). I tak np. możemy przyjąć, że prawdopodobieństwo udzielenia odpowiedzi prawidłowej w teście rozumienia Skali WAIS-R jest funkcją hipotetycznej, nieobserwowalnej cechy, którą można określić jako rozumienie sytuacji i norm społecznych; z kolei prawdopodobieństwo akceptacji twierdzenia „mieć wyniki świadczące, że to, co robię, robię dobrze" może być funkcją hipotetycznej chęci osiągania mistrzostwa. Owe cechy hipotetyczne to w terminologii IRT cechy latentne (ukryte).
Ograniczenia modelu klasycznego
W klasycznej teorii testów przyjmuje się, że związek między wynikiem prawdziwym (rozumianym jako wynik standardowy z) a wynikiem otrzymanym w teście jest związkiem prostoliniowym (regresją liniową). Przedziały


13 Warto wspomnieć, że teoria wcale nie jest taka nowa. Pierwsze prace należące do omawianego nurtu powstały już w latach 50. i 60. ubiegłego stulecia (np. Lord, 1953; Birnbaum, 1968). Szerokie zainteresowanie takim podejściem widoczne jest dopiero od niedawna.                                                                                                                                193
Rozdział 5

___t    JL_LŁ__ jI__^._ł
194
Rys. 5.4. Związek między wynikiem otrzymanym w teście a poziomem mierzonej cechy w klasycznej teorii testów oraz w IRT (opracowano na podstawie Embretson, 2000, s. 17)
Teoria odpowiadania Klasyczna teoria testów                                           na pozycje testu
A
i\7u    a*~ v*L*^

i
 8
i
*                                              8

- ... ?
*?
wynik otrzymany w teście
wynik otrzymany w teście
ufności (zaznaczone na rysunku 5.4. linią przerywaną) są takie same dla wszystkich wyników, a wartość błędu pomiaru zależy od konkretnej badanej populacji. Podobnie, wartość parametrów charakteryzujących pozycje testowe również zależy od konkretnej populacji. Łatwo możemy sobie wyobrazić sytuację, w której badamy dwie różne populacje osób, powiedzmy: grupę osób bardzo zdolnych i o zdolnościach poniżej przeciętnej. Wskaźnik trudności opisujący pozycję testową będzie oczywiście inny w każdej z tych sytuacji. Kolejny problem związany jest z obliczaniem wyniku ogólnego, który w klasycznej teorii testów jest oszacowaniem poziomu mierzonej cechy. Ponieważ wynik ogólny jest zazwyczaj sumą odpowiedzi prawidłowych (zgodnych z kluczem) na pozycje testu, widać wyraźnie, że zależy on od trudności pozycji tworzących test (por. też Weiss, Yoes, 1991).
Natomiast w ramach teorii odpowiadania na pozycje testu związek między wynikiem prawdziwym a wynikiem otrzymanym nie jest związkiem liniowym, a szerokość przedziałów ufności jest inna w środku, a inna na krańcach rozkładu (przedziały są szersze dla skrajnych wyników). Błąd standardowy pomiaru nie jest związany z konkretną populacją, podobnie jak nie są z nią związane parametry opisujące pozycje testowe. W ramach IRT oszacowania poziomu badanej cechy dokonuje się oddzielnie dla każdej odpowiedzi testowej, kontrolując zarazem parametry danej pozycji testu (np. jej trudność) - por. Embretson (2000, s. 18).
Konstruowanie testu - podstawowe procedury
>? Teoria odpowiedzi na pozycje testowe, czyli item response theory (IRT), to zbiór twierdzeń opisujących sposób, w jaki osoba badana odpowiada na pozycje testu. IRT pozwala na określenie związku między odpowiedziami udzielanymi przez osobę badaną a zakładaną nieobserwowalną cechą leżącą u podstaw zachowań testowych.
Założenia IRT
....
W teorii odpowiadania na pozycje testu przyjmuje się trzy podstawowe założenia: (1) o wymiarach przestrzeni latentnej, (2) o lokalnej niezależności pozycji testowych i wreszcie (3) o krzywej charakterystycznej pozycji testowej.
Pierwsze założenie dotyczy wymiarów przestrzeni latentnej (ang. dimen-tionality oflatent space). W IRT przyjmuje się, że zachowanie osoby badanej w teście można przypisać pojedynczej cesze latentnej (nieobserwowalnej). Cecha latentna zaś to zmienna wyznaczająca zachowanie osób w danym teście. Ta zmienna właśnie determinuje obserwowane zależności statystyczne między pozycjami testu (por. Osterlind, 1983; Camilli, Shepard, 1994).
Test, który mierzy jedną cechę latentna, jest testem jednowymiarowym. Testami jednowymiarowymi są np. testy zdolności (np. matematycznych, językowych czy myślenia technicznego). Wszystkie zależności statystyczne stwierdzane między pozycjami testowymi są wyjaśniane przez odwołanie się do jednej cechy latentnej.
Cechę latentna oznacza się jako theta (0) i przyjmuje, że jest ona ciągła, a jej wartości zawierają się w przedziale od -°° do +«>. Ponieważ skala jest najczęściej wyrażana w postaci konwencjonalnych wartości z, to w praktyce wszystkie wyniki mieszczą się w przedziale od -4z do +4z.
Założenie drugie dotyczy lokalnej niezależności pozycji testowych (ang. local independence ofitem). W założeniu tym przyjmuje się, że odpowiedzi każdej osoby badanej na jedną pozycje testową nie zależą od jej odpowiedzi na jakąkolwiek inną pozycję tego testu. Oznacza to zatem, że rozkład wyników poszczególnych pozycji testowych zależy jedynie od parametru 9; wyniki pozycji testowych są statystycznie niezależne. Jeżeli test jest rzeczywiście jednowymiarowy (założenie 1), to założenie o lokalnej niezależności pozycji testowych jest również spełnione. Wówczas możemy przyjąć, że cecha latentna jest mierzona w sposób niezależny k razy, gdzie k oznacza liczbę pozycji testowych.
Krzywa charakterystyczna pozycji testowej
Najważniejsze założenie przyjmowane w ramach IRT dotyczy krzywych charakterystycznych pozycji testowych (ang. item characteristic curve - ICC) i jest kluczowym założeniem teorii odpowiadania na pozycje testu. Krzywa charakterystyczna pozycji testowej to graficzny obraz funkcji matematycznej, wiążącej prawdopodobieństwo udzielenia odpowiedzi prawidłowej na daną pozycję testową z poziomem cechy, operacyjnie wyznaczonym przez ogólny wynik w teście. Funkcję tę oznacza się jako (0), gdzie: Pt oznacza praw-
195
Rozdział 5
dopodobieństwo udzielenia prawidłowej odpowiedzi na i-tą pozycję testową. Krzywe ICC są bardzo użytecznym sposobem przedstawiania danych dotyczących sposobu odpowiadania na poszczególne pozycje testowe w sytuacji, gdy test jest stosowany w heterogenicznej grupie badanych osób. Na rys. 5.5 przedstawiono przykład hipotetycznej krzywej ICC.
Zauważmy, że mierzona cecha jest tu zmienną ciągłą, a prawdopodobieństwo sukcesu (prawdopodobieństwo udzielenia prawidłowej odpowiedzi na daną pozycję testową) jest funkcją ogólnego poziomu zdolności. Ogólny poziom zdolności z kolei jest szacowany na podstawie wyniku, jaki osoby badane otrzymały w całym teście. Zwróćmy również uwagę, że krzywa ICC przedstawiona na rys. 5.5 nie jest linią prostą (por. rys. 5.4). Nie reprezentuje ona zatem liniowego związku między prawdopodobieństwem sukcesu a ogólnymi zdolnościami osób badanych; jest to krzywa w kształcie litery S,
Rys. 5.5. Przykład hipotetycznej krzywej charakterystycznej pozycji testowej (iłem characteristic curve, ICC) (na podstawie Osterlind, 1983, s. 40)
Prawdopodobieństwo sukcesu (P)
1,00 +

0,75 -  -
0,50-
0,25





/
s




Cecha latentna (0)

196
-3
-2
-1
+1              +2              +3
Konstruowanie testu - podstawowe procedury
zaczynająca się bardzo nisko i rosnąca monotonicznie wraz z ogólnymi zdolnościami badanych osób.
Parametry pozycji testowej i skala cechy latentnej
Każdą krzywą ICC można opisać za pomocą trzech parametrów: parametru a - tj. współczynnika mocy dyskryminacyjnej, parametru b - tj. współczynnika trudności, oraz parametru c - tj. współczynnika zgadywania. Wartości tych parametrów są ustalane empirycznie.
Parametr a. W klasycznej teorii testów współczynnik mocy dyskryminacyjnej jest miarą tego, jak dobrze dana pozycja testowa różnicuje badaną populację. W IRT współczynnikowi mocy dyskryminacyjnej pozycji testowej, czyli parametrowi a, odpowiada na wykresie kąt nachylenia (stopień stromo-ści) krzywej ICC w punkcie przegięcia. Na rys. 5.6 przedstawiono dwie
Rys. 5.6. Dwie krzywe ICC różniące się współczynnikami mocy dyskryminacyjnej pozycji testowej (na podstawie Camilli, Shepard, 1994, s. 54)
1,00--
0,75 - -
0,50--
0,25 - -
Prawdopodobieństwo sukcesu (P)
.
I   -'


Pozycja testowa /'


Pozycja testowa j








Cecha latentna (6)
-3             -2             -1              0
+1
+2
+3
197
Rozdział 5
krzywe ICC różniące się współczynnikami mocy dyskryminacyjnej. Pozycja; jest pozycją bardziej dyskryminatywną niż pozycja i, bowiem w jej wypadku krzywa ICC gwałtowniej rośnie. Wartości parametru a mogą teoretycznie zawierać się w przedziale (-00, +<»), jednak praktycznie najczęściej mieszczą się między 0,5 i 2,5 (Osterlind, 1983, s. 61; Camilli, Shepard, 1994, s. 53). Parametr b. Współczynnik b, czyli trudność pozycji testowej, jest reprezentowany na wykresie przez wartość P(Q) dla danej wartości 014. Wartości tego współczynnika mieszczą się najczęściej w przedziale od -1,5 do +1,5. Wartość 0,0 oznacza pozycję o optymalnej trudności, tj. takiej, dla której prawdopodobieństwo udzielenia odpowiedzi prawidłowej wynosi 50% (Osterlind, 1983, s. 61; Camilli, Shepard, 1994, s. 51). Wysoka dodatnia wartość współczynika b oznacza, że dana pozycja testowa jest bardzo trudna. I odwrotnie, wysoka ujemna wartość współczynika b oznacza, że dana pozycja testowa jest bardzo łatwa. Na rys. 5.7 przedstawiono dwie krzywe ICC różniące się współczynnikami trudności. Krzywa j, której punkt prze-
Rys. 5.7. Dwie krzywe ICC różniące się współczynnikami trudności pozycji testowej (na podstawie Camilli, Shepard, 1994, s. 52)
1,00- -
0,75 - -
0,50
0,25-
Prawdopodobieństwo sukcesu (P)
•


-3           -2           -1            0           +1          +2          +3

14 Dokładnie rzecz biorąc, współczynnik b jest równy wartości w punkcie P(8) = (l +c)/2, 198    gdzie c oznacza współczynnik zgadywania (Camilli, Shepard, 1994, s. 51).
Konstruowanie testu - podstawowe procedury
gięcia przypada w punkcie 9=1,0 (jest bardziej przesunięta na prawo), obrazuje pozycję trudniejszą. Dla tej wartości 9 prawdopodobieństwo udzielenia odpowiedzi prawidłowej na pozycję i wynosi około 0,85, a na pozycję / - 0,50. Pozycja i jest zatem znacznie łatwiejsza. To samo możemy stwierdzić, wykreślając na rys. 5.7 prostą równoległą w punkcie /J(9) = 0,5 (tj. przyjmując, że prawdopodobieństwo poprawnej odpowiedzi wynosi 50%). W tym przypadku widzimy, że udzielenie prawidłowej odpowiedzi na pozycje / wymaga mniejszego poziomu zdolności (cechy latentenej 9) niż na pozycję j. Pozycja i jest zatem łatwiejsza. Linią przerywaną zaznaczono pozycję o optymalnej trudności (maksymalne różnicowanie - P(9) = 0,50 dla 9 = 0,0).
Parametr c. Parametr c reprezentuje prawdopodobieństwo, z jakim osoba badana o niskich wartości cechy latentnej może odpowiedzieć poprawnie na daną pozycję testową. Parametr ten zazwyczaj nazywa się współczynnikiem zgadywania, jako że przyjmuje się, iż osoba badana udzieliła odpowiedzi prawidłowej, stosując strategię nie wynikającą z posiadanej wartości. Graficznie współczynnik zgadywania jest reprezentowany za pomocą dolnej asymp-toty krzywej ICC. W typowej sytuacji testowania prawdopodobieństwo to oblicza się jako l/m, gdzie m oznacza liczbę możliwych kategorii. Jednakże w wypadku krzywych ICC wartość ta rzadko będzie równa l/m. W IRT bowiem przyjmuje się, iż badany, zgadując prawidłową odpowiedź, nie czyni tego w sposób losowy15 (Osterlind, 1983, s. 61).
Ponieważ współczynnik zgadywania jest tożsamy z prawdopodobieństwem udzielenia odpowiedzi prawidłowej, dlatego przybiera on wartości od 0,00 do 1,00. W praktyce współczynnik ten najczęściej mieści się w przedziale od 0,00 do 0,40. Im mniejsza wartość c, tym oczywiście lepiej dla testu.
Na rys. 5.8 przedstawiono dwie krzywe ICC różniące się współczynnikami zgadywania. Dolna asymptota krzywej j wypada w punkcie P(Q) = 0. Można zatem przyjąć, że współczynnik c dla tej pozycji równa się zero. Natomiast w przypadku pozycji i dolna asymptota krzywej ICC wypada w punkcie P(9) = 0,25 i tyle też wynosi współczynnik zgadywania dla tej pozycji.
Krzywe ICC zastępują występujące w klasycznej teorii testów tradycyjne wskaźniki formalne charakteryzujące pozycje testowe, tj. trudność, współczynnik mocy dyskryminacyjnej oraz współczynnik zgadywania. Przewaga krzywych ICC nad klasycznymi wskaźnikami dobroci pozycji testowych polega na tym, że na ich podstawie można określić zależność między prawdopodobieństwem poprawnej odpowiedzi na konkretną pozycję testową a różnymi wartościami cechy latentnej.
Modele formułowane w ramach IRT

Istnieje wiele matematycznych sposobów (modeli) opisywania krzywych ICC. Modele te zależą od matematycznych postaci funkcji opisujących
15 Por. uwagi na temat losowego modelu zgadywania w części poświęconej współczynnikowi trudności.
199
Rozdział 5
krzywe ICC. Najczęściej opisywane modele to modele ogivy rozkładu normalnego (tymi funkcjami są funkcje skumulowanego rozkładu normalnego) oraz jedno-, dwu- i trójparametryczny model logistyczny (oparte na funkcjach logistycznych). Do bardziej znanych należy również tzw. model Rascha, często traktowany jako odmiana jednoparametrowego modelu logistycznego (por. też Hornowska, 1980). Każdy z tych modeli ma określone zalety i ograniczenia. Najbardziej obiecującym z punktu widzenia przydatności do badania stronniczości pozycji testowych jest model trójparametryczny.
Model trójparametryczny. Model trójparametryczny jest modelem najogólniejszym, sformułowanym po raz pierwszy przez Birnbauma (1968). W modelu tym przyjmuje się, że prawdopodobieństwo udzielenia odpowiedzi prawidłowej na daną pozycję testową zależy od trzech parametrów charakteryzujących pozycję testową: trudności pozycji, jej mocy dyskryminacyjnej
200
Rys. 5.8. Dwie krzywe ICC różniące się współczynnikami zgadywania (na podstawie Camilli, Shepard, 1994, s. 55)
Prawdopodobieństwo sukcesu (P)
1,00 ?  -

0,75-   -

0,25



Pozycja testowa i 0,50-
Pozycja testowa j

Poziom zdolności (6)
-3             -2
+1
+2

Konstruowanie testu - podstawowe procedury
oraz współczynnika zgadywania16. Związek między prawdopodobieństwem udzielenia odpowiedzi prawidłowej a pozycją osoby badanej na kontinuum cechy latentnej jest funkcją logistyczną i wyrażany jest w następującej postaci (por. ibidem, s. 405):

I-
l+e "•
gdzie: c, to współczynnik zgadywania dla i-tej pozycji, bt to współczynnik trudności, a( to współczynnik mocy dyskryminacyjnej, a D to stała ma-ksymizująca dopasowanie krzywej logistycznej do ogivy rozkładu normalnego; D=l,7 (por. Hulin, Drasgow, Parsons, 1983, s. 29). Przypomnijmy: wartości wszystkich trzech parametrów są ustalane empirycznie.
Poważnym problemem praktycznym związanym z szacowaniem wartości poszczególnych parametrów w modelu trójparametrycznym jest matematyczna trudność tych obliczeń, a także ich ilość. Najczęściej bowiem, aby rzetelność obliczeń była zadowalająca, trzeba przetworzyć dane uzyskane z przebadania przynajmniej 1000 osób.
Czynnikiem ułatwiającym praktyczne szacowanie odpowiednich parametrów omawianego modelu są odpowiednie programy komputerowe. Do najbardziej znanych należy program LOGIST, który został opracowany w Edu-cational Testing Service, a także MULTILOG, który ma już swoją wersję dla systemu Windows. Program ten pozwala na jednoczesne obliczenie parametrów ah bh i c, metodą największej wiarygodności, za pomocą serii iteracyjnych procedur.
Podsumujmy: pomiar psychologiczny jest pomiarem pośrednim. Pozycję danej osoby na kontinuum cechy, która nie jest bezpośrednio obser-wowalna (kontinuum latentne), możemy określić tylko na podstawie jej zachowania w ściśle określonych zadaniach. Aby to można było zrobić, musimy dysponować modelem wiążącym konstrukt psychologiczny (cechę latentną) z poziomem zachowań. W wypadku klasycznej teorii testów model ten jest prosty. Przypomnijmy: przyjmuje się w niej, że wynik, jaki otrzymała dana osoba w teście, jest sumą dwóch składowych - wyniku prawdziwego tej osoby i błędu pomiaru. Model ten jednak ma swoje ograniczenia. I tak wynik prawdziwy określany jest tylko w stosunku do konkretnego zbioru pozycji testowych, a statystyczne właściwości pozycji testowych nie są bezpośrednio wiązane z zachowaniami testowymi (por. Embretson, 2000, s. 60).
W teorii odpowiadania na pozycje testu buduje się modele wiążące poziom nieobserwowalnej cechy psychologicznej z odpowiedzią na każdą kolejną
16 W modelu dwuparametrycznym przyjmuje się, że współczynnik zgadywania wynosi zero, a w modelu jednoparametrycznym bierze się pod uwagę tylko współczynnik trudności pozycji testowej i przyjmuje się, że współczynnik mocy dyskryminacyjnej jest taki sam dla wszystkich pozycji.
201
Rozdział 5
202
pozycję testową. Zaletą tych modeli jest to, że poziom mierzonej cechy może zostać oszacowany na podstawie każdej pozycji testowej pod warunkiem, że znane są jej parametry, a statystyczne właściwości tych pozycji są bezpośrednio wiązane z zachowaniami testowymi (ibidem).
Gdzie wykorzystuje się modele IRT?
Modele formułowane w ramach IRT są dzisiaj szeroko wykorzystywane. Typowym przykładem ich zastosowania są adaptacja językowa testu, testowanie adaptacyjne (interakcyjne) i szacowanie stronniczości pozycji testowych.
Zastosowanie modeli IRT do tłumaczeń językowych. W ramach IRT podejmowane są próby teoretycznego ujęcia problematyki oceny równoległości tłumaczeń. Analiza tłumaczeń w ramach IRT oparta jest na określaniu podobieństw związku między odpowiedziami na pozycje testowe a leżącą u ich podstaw cechą latentną dla dwóch języków (języka oryginału i języka tłumaczenia). O równoległości oryginalnej pozycji testowej i pozycji przetłumaczonej decyduje podobieństwo krzywych ICC wyznaczonych dla tych pozycji (por. Hulin, Drasgow, Parsons, 1983).
Testowanie adaptacyjne (interakcyjne). Konstruktorzy testów psychologicznych zainteresowani są zazwyczaj stworzeniem metody obejmującej szeroki zakres wartości interesujących ich charakterystyk. Jest to możliwe dzięki dobieraniu pozycji testowych o zróżnicowanym współczynniku trudności w taki sposób, aby średnia ich trudność oscylowała wokół 50%. Niezamierzoną konsekwencją takiego doboru pozycji testowych jest konieczność odpowiadania przez osobę badaną na wiele pozycji zbyt łatwych lub zbyt trudnych. Pomijając samą czasochłonność takiej procedury (zarówno w wypadku osoby badanej, jak i badającej), może on powodować u osoby badanej spadek motywacji do rzetelnego odpowiadania na pozycje testu.
Celem testowania adaptacyjnego jest prezentowanie osobie badanej jedynie takich pozycji testowych, których trudność odpowiada poziomowi mierzonej cechy latentnej. Dzięki temu dana osoba odpowiada jedynie na taki zestaw pozycji testowych, który w optymalny sposób pozwoli określić właściwy dla niej poziom mierzonej cechy (por. Hulin, Drasgow, Parsons, 1983).
Zastosowanie modeli IRT do szacowania stronniczości pozycji testowych. Strategia badania stronniczości pozycji testowych wywodząca się z IRT polega na porównywaniu krzywych ICC opisujących daną pozycję testową, a otrzymanych dla dwóch różnych grup osób należących do tej samej populacji. I tak „(...) zbiór pozycji testowych możemy traktować jako zbiór bezstronny, jeżeli krzywe ICC wyznaczone dla każdej pozycji testowej tworzącej ten zbiór będą takie same dla obu rozważanych grup należących do tej samej populacji" (Crocker, Algina, 1986, s. 377). Tak więc, w ramach IRT stronniczość pozycji testowych definiowana jest jako różnica między krzywymi ICC otrzymanymi dla dwóch grup (np. etnicznych), wyłonionych z tej samej populacji i nie różniących się ogólnym poziomem zdolności (wartością 8).
Konstruowanie testu - podstawowe procedury
Najczęściej stosuje się dwie miary stronniczości: (1) wielkość przestrzeni między krzywymi ICC (Rudner, 1980) oraz (2) test hipotezy o równości trzech parametrów w porównywanych grupach (Lord, 1977; 1980). Na rys. 5.9 przedstawiono trzy hipotetyczne sytuacje, w których stronniczość pozycji testowej przypisy wana jest (a) różnej mocy dyskryminacyjnej pozycji testowej w obu grupach, (b) różnej trudności i (c) różnym współczynnikom zgadywania (por. też Hornowska, 1999).
Stosowanie item response theory jako modelu teoretycznego dającego podstawę do konstrowania konkretnych technik szacowania stronniczości pozycji testowych jest najbardziej dojrzałym rozwiązaniem z wszystkich proponowanych w literaturze przedmiotu. Podstawową barierą utrudniającą jego szerokie stosowanie jest matematyczna złożoność obliczeń. Można mieć jednak nadzieję, że przy dzisiejszym tempie rozwoju oprogramowania komputerowego ta przeszkoda szybko zniknie (dostępnych jest już kilka programów obliczeniowych), a wówczas - nie tylko w omawianym przez nas
Rys. 5.9. Trzy hipotetyczne sytuacje, w których stronniczość pozycji testowych wynika z (a) różnej mocy dyskryminacyjnej pozycji testowej w obu grupach, (b) różnej trudności i (c) różnego współczynnika zgadywania (na podstawie Hulin, Drasgow, Parsons, 1983, s. 176)

Pozycja testowa i \


Pozycja testowa j (8)

Pozycja testowa / \
Pozycja testowa /
 Pozycja testowa;

(0)
203
Rozdział 5
obszarze zagadnień - teoria odpowiadania na pozycje testu, czyli item response theory, zastąpi klasyczną teorię testów.
Podstawowe pojęcia:
•  analiza zadań
•  krzywa charakterystyczna pozycji testowej
•  moc dyskryminacyjna
•  poprawka na zgadywanie
•  pozycje testowe
•  teoria odpowiadania na pozycje testu
•  walidacja krzyżowa
•  wskaźnik dyskryminacji
•  wskaźnik trudności
•  współczynnik korelacji dwuseryjnej
•  współczynnik korelacji punktowo-dwuseryjnej
•  współczynnik korelacji punktowo-czteropolowej
•  zróżnicowane funkcjonowanie pozycji testowych
Literatura zalecana
Anastasi A., Urbina S. (1999). Testy psychologiczne. Warszawa: Pracownia Testów Psychologicznych Polskiego Towarzystwa Psychologicznego.
Brzeziński J. (1996). Metodologia badań psychologicznych. Warszawa: Wydawnictwo Naukowe PWN.
HornowskaE. (1999). Stronniczość testów psychologicznych. Problemy - kierunki - kontrowersje. Poznań: Wydawnictwo Fundacji Humaniora.


~Piii -   (.?




ty^jwch


r^"te'*c,3/s<ł^

r*-j5V«„c. 'V ?b«o  i^*dą tahe ?iairse~.\^'^?<); * •./»»!"-
% te    i" „?, pf IRi

Lł,iv»-vj7.» sr"C otf<i} uanyułi j»ł dWw * "."

204    wartw,.'   4




Rozdział 6




Społeczny kontekst stosowania testów
psycholo gicznych
Pomiar psychologiczny nie jest pomiarem jednoznacznym. Interpretacja wyników testowych wymaga nie tylko odpowiedniego przygotowania merytorycznego (wiedzy psychologicznej), ale również znajomości podstaw pomiaru testowego. Nie wystarczy bowiem nawet najlepsza znajomość procedury stosowania danej metody, jeżeli nie znana jest teoria psychologiczna, leżąca u podstaw konstrukcji testu, oraz teoria psychometryczna, decydująca o sposobie ilościowej interpretacji wyników tego testu. Tymczasem, biorąc pod uwagę liczbę prac naukowych poświęconych teorii pomiaru psychologicznego w Polsce, w porównaniu z ich liczbą publikowaną na świecie, można by sądzić, że przekonanie o możliwości jednoznacznej interpretacji wyników testów psychometrycznych - a co za tym idzie, niska świadomość specyfiki pomiaru psychologicznego -jest w naszym kraju szczególnie silne.
Co gorsza, przywiązywanie coraz większej wagi do ulepszania praktycznej strony testowania (np. komputeryzacja procedury badania testowego), z niemal całkowitym brakiem odniesień do teorii psychometrycznych i dorobku psychologii jako nauki, sprawia wrażenie, że psychometria jako dyscyplina naukowa nie ma dziś do zaproponowania żadnych nowych rozwiązań teoretycznych. Wynikający stąd niski status badań testowych i arefleksyjna postawa wobec stosowanych narzędzi stwarzają znacznie groźniejsze następstwa niż -jak powiedział to obrazowo Robert Sternberg (1992, s. 135), wybitny teoretyk i specjalista w dziedzinie badań inteligencji - „technologia nuklearna, która również powstała w laboratoriach naukowych".
Jakie niebezpieczeństwa społeczne związane są ze stosowaniem testów psychologicznych? Co można zrobić, aby korzystać z zalet tego sposobu poznania psychologicznego, a jednocześnie minimalizować niepożądane społeczne skutki jego stosowania?
6.1. TESTOWANIE PSYCHOLOGICZNE - SPOŁECZNE NIEBEZPIECZEŃSTWA
Testy psychologiczne przestały być dziś celem dla doskonalących je psychomet-rów; ich wyniki stają się podstawą decyzji o ważnych społecznie konsekwencjach.
205
Rozdział 6
206
Społeczne konsekwencje stosowania testów psychologicznych są poważne i oczywiste - wyniki testowania stają się podstawą orzekania w sytuacji selekcji lub w sytuacji, gdy osoba badana staje się pacjentem. Konsekwencje te wykraczają daleko poza ramy teoretycznych dyskusji psychologów, przenosząc się na teren polityki społecznej, i w ten sposób mogą wpływać istotnie na losy ludzi.
Testy w odbiorze społecznym stały się kontrowersyjne, straciły urok obiektywnych miar i bywają traktowane jako niebezpieczne narzędzie uzyskiwania przewagi przez wtajemniczonych profesjonalistów, selekcjonujących ludzi i działających bez społecznego przyzwolenia. Póki testy stanowią marginalne kryterium selekcji, poty społeczne nimi zainteresowanie jest małe. Gdy jednak oparte na testach selekcja i dobór stają się powszechną praktyką, wówczas wzbudzają uzasadniony niepokój społeczny.
W ciągu ostatnich lat obserwujemy właśnie ogromny wzrost zainteresowania wykorzystaniem testów psychologicznych i edukacyjnych dla potrzeb selekcyjnych. Powszechne przekonanie, że testy są technikami obiektywnymi, bo likwidującymi ewentualną stronniczość oceniających, sprawiła, że zaczęły być one masowo stosowane. Użyteczność obiektywnych metod oceny, umożliwiających szybkie klasyfikowanie licznych grup osób, jest niewątpliwie nieoceniona. Jednakże skala tego zjawiska musi budzić niepokój - niemal na każdym etapie naszego życia (przedszkole, szkoła, praca zawodowa) możemy znaleźć się w sytuacji wymagającej od nas poddania się badaniu testowemu. A wyniki badania testowego mogą zostać wykorzystane do podjęcia decyzji mogącej zaważyć na całym naszym życiu
Po raz pierwszy wykorzystano testy do masowego diagnozowania w trakcie
I  wojny światowej. W latach 20. amerykański College Board of Education rozpoczął już szerokie stosowanie testów edukacyjnych jako formy egzaminów wstępnych. W roku 1926 po raz pierwszy zastosowano SAT (Scholastic Aptitude Test) i przebadano nim aż 8000 (!) osób. Jedenaście lat później, w roku 1937, tradycyjny egzamin pisemny będący egzaminem wstępnym do college'u, został zastąpiony testem wiadomości z wielokrotnym wyborem (Angoff, Dyer, 1971).
Wykorzystywanie testów z wielokrotnym wyborem w trakcie oraz po
II wojnie światowej po raz kolejny zademonstrowało użyteczność testów na dużą skalę, nawet przy tak niedoskonałym oprzyrządowaniu, jakim był ówczesny sprzęt wspomagający liczenie wyników. Wraz z rozwojem oprzyrządowania i wprowadzeniem komputerów możliwości obliczania wyników gwałtownie rosły i dzisiaj bez żadnego problemu można ocenić 10 000 wypełnionych arkuszy testowych w ciągu godziny! Testowanie zatem pozwoliło na ocenianie badanych osób na taką skalę, jaka nigdy nie zostanie osiągnięta przy zastosowaniu tradycyjnych metod poznania psychologicznego czy pedagogicznego. Jak podają źródła amerykańskie, już w roku szkolnym 1981-1982 test SAT został rozwiązany przez 1,5 miliona uczniów, a ponad

Rozdział 6
206
Społeczne konsekwencje stosowania testów psychologicznych są poważne i oczywiste - wyniki testowania stają się podstawą orzekania w sytuacji selekcji lub w sytuacji, gdy osoba badana staje się pacjentem. Konsekwencje te wykraczają daleko poza ramy teoretycznych dyskusji psychologów, przenosząc się na teren polityki społecznej, i w ten sposób mogą wpływać istotnie na losy ludzi.
Testy w odbiorze społecznym stały się kontrowersyjne, straciły urok obiektywnych miar i bywają traktowane jako niebezpieczne narzędzie uzyskiwania przewagi przez wtajemniczonych profesjonalistów, selekcjonujących ludzi i działających bez społecznego przyzwolenia. Póki testy stanowią marginalne kryterium selekcji, poty społeczne nimi zainteresowanie jest małe. Gdy jednak oparte na testach selekcja i dobór stają się powszechną praktyką, wówczas wzbudzają uzasadniony niepokój społeczny.
W ciągu ostatnich lat obserwujemy właśnie ogromny wzrost zainteresowania wykorzystaniem testów psychologicznych i edukacyjnych dla potrzeb selekcyjnych. Powszechne przekonanie, że testy są technikami obiektywnymi, bo likwidującymi ewentualną stronniczość oceniających, sprawiła, że zaczęły być one masowo stosowane. Użyteczność obiektywnych metod oceny, umożliwiających szybkie klasyfikowanie licznych grup osób, jest niewątpliwie nieoceniona. Jednakże skala tego zjawiska musi budzić niepokój - niemal na każdym etapie naszego życia (przedszkole, szkoła, praca zawodowa) możemy znaleźć się w sytuacji wymagającej od nas poddania się badaniu testowemu. A wyniki badania testowego mogą zostać wykorzystane do podjęcia decyzji mogącej zaważyć na całym naszym życiu
Po raz pierwszy wykorzystano testy do masowego diagnozowania w trakcie
I  wojny światowej. W latach 20. amerykański College Board of Education rozpoczął już szerokie stosowanie testów edukacyjnych jako formy egzaminów wstępnych. W roku 1926 po raz pierwszy zastosowano SAT (Scholastic Aptitude Test) i przebadano nim aż 8000 (!) osób. Jedenaście lat później, w roku 1937, tradycyjny egzamin pisemny będący egzaminem wstępnym do college'u, został zastąpiony testem wiadomości z wielokrotnym wyborem (Angoff, Dyer, 1971).
Wykorzystywanie testów z wielokrotnym wyborem w trakcie oraz po
II wojnie światowej po raz kolejny zademonstrowało użyteczność testów na dużą skalę, nawet przy tak niedoskonałym oprzyrządowaniu, jakim był ówczesny sprzęt wspomagający liczenie wyników. Wraz z rozwojem oprzyrządowania i wprowadzeniem komputerów możliwości obliczania wyników gwałtownie rosły i dzisiaj bez żadnego problemu można ocenić 10 000 wypełnionych arkuszy testowych w ciągu godziny! Testowanie zatem pozwoliło na ocenianie badanych osób na taką skalę, jaka nigdy nie zostanie osiągnięta przy zastosowaniu tradycyjnych metod poznania psychologicznego czy pedagogicznego. Jak podają źródła amerykańskie, już w roku szkolnym 1981-1982 test SAT został rozwiązany przez 1,5 miliona uczniów, a ponad
Społeczny kontekst stosowania testów psychologicznych
250 tysięcy uczniów rozwiązało również inne testy przygotowane przez College Board. W tym samym czasie ponad milion uczniów rozwiązywało także testy przygotowane przez inne ośrodki - w tym American College Testing Program (Frederiksen, 1984, s. 194).
Przydatność testów w przewidywaniu powodzenia w nauce szkolnej okazała się jedną z najważniejszych przyczyn ich popularności. Fakt ten jednak budził i budzi wiele kontrowersji. Powszechnie stosowana w amerykańskim szkolnictwie praktyka testowych badań inteligencji nie jest bowiem powszechnie akceptowana. Podstawowym zarzutem, jaki stawia się wobec decyzji o charakterze selekcyjnym, opartych na wynikach szeroko rozumianych testów psychologicznych, jest nieuwzględnianie specyficznego pochodzenia kulturowego osób należących do mniejszości etnicznych i niższych warstw społecznych oraz towarzyszące stosowaniu testów przeświadczenie, że gorsze wyniki są rezultatem gorszego wyposażenia genetycznego1. Praktyka ta znalazła swój wyraz w dzieleniu np. uczniów na grupy o różnych programach nauczania, w zależności od osiąganych przez nich wyników w testach inteligencji. W rzeczywistości - z czym również zgodziły się sądy (por. np. Diana vs. California State Board of Education, 1970) - nie było to nic innego jak zamykanie dzieci w obrębie klasy społecznej, z której pochodziły. Przykładem skrajnego stanowiska w tym względzie jest książka Herrnsteina i Murraya (1994) The Bell Curve, w której autorzy dowodzą, że u podłoża różnic w wynikach testów inteligencji leżą przede wszystkim czynniki genetyczne.
Po raz pierwszy społeczne konsekwencje związane z testami dały o sobie znać w latach 30. w ówczesnym Związku Radzieckim. Po rewolucji październikowej w Rosji gwałtownie wzrosło zainteresowanie psychologią i możliwościami jej praktycznego zastosowania (por. Tomaszewski, 1947). Pierwszy Zjazd Psychologiczny odbył się w 1922 roku, a centralnym jego postulatem było „hasło przebudowy psychologii sowieckiej na zasadach materializmu dialektycznego" i wykorzystanie tzw. psychologii obiektywnej {ibidem, s. 8). Efektem zjazdu było - między innymi - powstanie instytucji psychologów szkolnych, sieci instytutów psychotechnicznych oraz szerokie wykorzystywanie testów.
Centralny Komitet Wszechzwiązkowej Partii Komunistycznej podjął 4 lipca 1936 roku uchwałę przeciw tzw. „pedologom" (psychologom szkolnym), zarządzając zamknięcie instytutów psychotechnicznych oraz likwidując stanowiska psychologów szkolnych, a w efekcie powodując wieloletni upadek psychologii w ZSRR. Powodem tego stanu rzeczy były -jak wówczas pisano
1 Warto w tym miejscu wspomnieć, że już w roku 1928 Władysław Witwicki zwracał uwagę na konsekwencje stosowania testów zaczerpniętych z obcych kultur i nieprzystających do naszej kultury, pisząc wprost: „trzeba jednak raz przetrzeć oczy i spojrzeć przytomnie na te harce intelektualne na głowach dzieci, wykonywane w dziurawej szacie metody naukowej" (Witwicki, 1928, s. 32).
207
Rozdział 6
208
-  błędy w założeniach teoretycznych (tzw. „mechanistyczno-fatalistyczny pogląd na człowieka" oraz przyjęcie zasady stałości ilorazu inteligencji i niezmienności środowiska społecznego), a także szkodliwe używanie testów i ankiet, tj. koncentrowanie się na statystyce w oderwaniu od „dialektycznego rozwoju jednostki" (por. Rubinsztejn, 1962, s. 60-61).
Co w istocie było przyczyną tak ostrej reakcji, prowadzącej często do indywidualnych tragedii osób więzionych i zsyłanych do osławionego Guła-gu? Jest niewątpliwie prawdą, że ówczesne testy inteligencji były swoistymi testami wiadomości, a ich wyniki odnoszono raczej do kryteriów zewnętrznych niż do norm. Źródłem zadań w ówczesnych testach były sprawności i umiejętności bliskie ich twórcom, a ówczesna kultura była w swej istocie „kulturą białego człowieka" z kolonialnym wydźwiękiem.
Jednak nie to, jak sądzę, wywołało opisywaną reakcję. Główną przyczyną było automatyczne przenoszenie testów z jednego kraju do innego, bez uwzględniania różnic kulturowych (a często bez świadomości owych różnic). Musiało to prowadzić do kolizji wyników grupy wzorcowej (większościowej) i narodowej (mniejszościowej). Społeczne konsekwencje tego stanu rzeczy były nie do pogodzenia z ówczesną ideologią państwową, a psychologom zarzucano tendencyjność w badaniach dzieci za pomocą testów, która miała wykazać „wyższość burżuazyjnego Zachodu".
I dziś arefeleksyjne stosowanie testów może prowadzić do wielu niekorzystnych zjawisk społecznych. Do najważniejszych - jak się wydaje - można zaliczyć (por. też Ebel, 1972; Bourdieu, Passeron, 1990; Sternberg, 1992; Camara, 1997; Ellis, 1998; też APA, 1985a, 1985b): 1) Rozumienie inteligencji jako jedynej lub głównej cechy   warunkującej   powodzenie   w   bardzo   wąsko
definiowanych zadaniach.
Rodzące się z tego niebezpieczeństwo ma dwa źródła: przyjęcie, iż o powodzeniu (definiowanym przez społeczne kryteria) decyduje intelekt - termin ten przez swoje pozytywne nacechowanie wydaje się dobrze pasować jako synonim sukcesu; nawet opisując rolę emocji, określa się ją jako „inteligencję emocjonalną" (Goleman, 1997) - oraz przyjmowanie ze względów pragmatycznych (praktycznych), iż inteligencja wyraża się w wynikach testów badających inteligencję.
A przecież - powołajmy się na opinię Sternberga wyrażoną w rozmowie z dziennikarzem magazynu Skepłic Frankiem Miele (Miele, 1997, s. 41)
-  „Nie ma absolutnej zgody co do tego, czym jest «inteligencja». Jedną z bitew w tej dziedzinie, ważniejszą niż spór o relację dziedziczność-środo-wisko, jest dyskusja na temat zakresu pojęcia «inteligencja». Nie ma tu rozstrzygającej odpowiedzi, ponieważ Bóg nie mówi nam, co ma na myśli. W dużej mierze inteligencja jest naszym własnym tworem. Stworzono ją po to, aby opisać fakt, że niektórzy ludzie potrafią więcej niż inni (...)".
W efekcie pragmatycznego zawężania pojęcia inteligencji może dochodzić do bardzo niekorzystnego ograniczania w oczach opinii publicznej innych
Społeczny kontekst stosowania testów psychologicznych
społecznie potrzebnych umiejętności i oceniania sukcesów zawodowych ludzi jedynie przez pryzmat posiadania przez nich dobrze wytrenowanych, wąskich umiejętności intelektualnych. Dla osób, które słabo wypadają w tak rozumianych testach inteligencji, istnieje realna groźba „nieotrzymania przepustki i znalezienia się poza systemem" (Sternberg, 1992, s. 41).
Ważnym zadaniem dla psychologów staje się zatem konieczność tworzenia takich instrumentów pomiarowych, które będą odzwierciedlać całą przestrzeń celów edukacyjnych czy zawodowych i nie będą prowadzić do opisywania zachowania testowego badanej osoby przez dopasowanie jej do jednego tylko kryterium.
2) Etykietowanie w zakresie statusu intelektualnego (przez określanie go jako niski, średni czy wysoki) i przewidywanie na tej podstawie przyszłego funkcjonowania osoby badanej.
Psycholog stygmatyzuje ludzi, jeśli „w stawianych przez siebie diagnozach przypisuje im pewne etykiety, jeśli naznacza ich jakimiś społecznie pejoratywnymi właściwościami i naraża na szwank ich poczucie własnej wartości i godności. W diagnozach tych w sposób jawny lub ukryty występuje element wartościowania jednostek i grup społecznych, jeśli wskazuje, w jakim stopniu i pod jakim względem ich społeczne zachowania są niepożądane, szkodliwe, nienormalne, słowem: zakazane" (Poznaniak, 1994, s. 73).
Etykietowanie jest uproszczoną formą kategoryzacji społecznej, ma więc wszelkie cechy swoistego rasizmu. Przypisywane jednostce cechy wynikają z grupowej przecież etykiety, a nie z własności tejże jednostki. Etykietowanie znacząco upraszcza też prognozowanie - zastępuje się bowiem zbiór hipotez („jak być może, o ile zajdzie x, y, z...") diagnozą predykcyjną w postaci (,jak będzie z pewnością, skoro..."), której podstawą jest stopień podobieństwa jednostki do przyjętej grupy odniesienia.
Etykiety, którymi posługuje się w swoich diagnozach psycholog, mogą mieć postać negatywnej oceny, dotyczącej zarówno zachowania osoby badanej, jak i jej samej (Poznaniak, 1994, s. 74). Raz nadaną etykietę trudno zmienić, co w efekcie może prowadzić do nie dających się naprawić szkód w zakresie samooceny czy motywacji. „Stosowanie skrótowych etykietek wiąże się zazwyczaj z wartościowaniem. Niestety, słowa, jakie są w tym wypadku używane, pochodzą często z języka potocznego, i z tego powodu mogą być fałszywie interpretowane. Badający powinien precyzyjnie określić znaczenie stosowanych terminów (np. terminu «opóźniony»), chociaż nie może mieć żadnego wpływu na to, jak to samo słowo będą interpretować sędzia, nauczyciel, rodzice czy dziecko" (APA, 1985a, s. 80).
Praktyka przewidywania przyszłego sukcesu na podstawie wyników w testach inteligencji i idące za tym etykietowanie mają swoje daleko idące konsekwencje społeczne. Wspomiany już Robert Sternberg, rozmawiając z dziennikarzem magazynu Skeptic (Miele, 1997, s. 41), tak skomentował   209
Rozdział 6
210
wszechobecne testowanie inteligencji: „[Testowanie] w dużym stopniu jest to po prostu samospełniające się proroctwo. Tak więc, gdy mówi pan, że na podstawie IQ można przewidzieć późniejsze sukcesy, to ja się z tym zgadzam. Ale gdy otrzyma pan w testach słabe wyniki, to wszystko w pana życiu zaczyna się zmieniać i zaczyna się pan zsuwać w dół po równi pochyłej. I nie jest to eksperyment laboratoryjny - każdy wynik może sprawić, że kolejne drzwi będą się przed panem zamykać!".
Skutkiem klasyfikowania przez etykietowanie jest zatem nie tyle opisywanie aktualnych możliwości osoby badanej, ile raczej determinowanie jej przyszłości. Kto z nas nie zetknął się w szkole z krzywdzącymi opiniami nauczycieli, powstałymi na podstawie nieudolnie opracowanych sprawdzianów!? I nie trzeba chyba przypominać, jak trudno było takie opinie zmienić. Taki rodzaj myślenia znamy z historii - leżał on u podstaw tzw. dewiacyjnej hipotezy Berga (ang. deviation hypothesis; por. Wiggins, 1994; Berg, 1959). Ta nihilistyczna hipoteza mówi, z grubsza rzecz biorąc, że jeżeli ktoś odchyla się w jednej dziedzinie, to musi odchylać się w innej. Zdaniem Berga {ibidem) tendencja do udzielania odpowiedzi dewiacyjnych ma charakter ogólny i ujawnia się zarówno w krytycznych, jak i niekrytycznych obszarach zachowania, niezależnie np. od treści pytania. Hipotezę dewiacji dzieli już tylko niewielki krok od legitymizacji etykietowania.
Możliwość pojawienia się etykietowania w procesie diagnozowania za pomocą testów psychologicznych jest nie tylko teoretycznie możliwa, ale w świetle rosnącej roli testów w określaniu przydatności badanych osób do określonych celów edukacyjnych czy zawodowych zdecydowanie realna. 3) Przy pi sy wani a psychologom roli osób kontrolujących i determinujących losy życiowe badanych osób. Równie istotne niebezpieczeństwo związane z szerokim stosowaniem testów psychologicznych można by określić jako „społeczną dominację testujących". Ma ona swoje źródło w społecznym przyzwoleniu na to, iżby psychologowie mieli prawo kontrolować i determinować losy życiowe badanych osób. Podstawą tego społecznego zwyczaju jest przypisywanie narzędziom stosowanym przez psychologów cechy bezwarunkowego obiektywizmu. Dodatkowym uzasadnieniem jest też to, iż wyniki badań psychologicznych podawane są w liczbach: stwierdzenie „wysoka inteligencja" czy „wysoki poziom niepokoju" wydają się ludziom o wiele mniej precyzyjne niż 11= 118 i N= 17. Jak się wydaje, opieranie bardzo wielu decyzji, istotnych z życiowego punktu widzenia (wybór szkoły, wybór miejsca pracy), na ilościowym ujmowaniu właściwości ludzkich (tu: wynikach testów psychologicznych) sprzyja przypisywaniu psychologom roli „wyroczni" w wielu życiowych sprawach. Psycholog często pełni funkcję kontrolera ludzkich zachowań. Jest też często „elementem systemu kontroli społecznej, kontroli nad zachowaniami indywidualnymi i zbiorowymi, orzekając, co jest dobre, a co złe zarówno w sensie jednostkowym, jak i społecznym" (Poznaniak, 1994, s. 73).

Społeczny kontekst stosowania testów psychologiczn vch
W efekcie, zamiast wykorzystywania wyników testów psychologicznych jako podstawy swobodnych i autonomicznych wyborów dokonywanych przez osoby badane, może dochodzić do podejmowania za nie decyzji dotyczących dalszych kierunków kształcenia czy awansu zawodowego. Realnym niebezpieczeństwem staje się zatem wykorzystywanie wyników testowycn dc replikowania raz zastanej struktury, zamiast kreowania przestrzeni wyDorów dla każdego z nas2.
Takiemu społecznemu odczuciu służy nadmierne chronienie tajemnicy własnego warsztatu przez psychologów i brak edukacji - zwłaszcza urzędników różnego szczebla - w zakresie istoty i zasad pomiaru psychologicznego. Tylko świadomość, że na wyniki testowania może mieć wpływ wiele różnych czynników, może chronić przed przypisywaniem im nadmiernego znaczenia
Trudno nie zgodzić się z Ebelem (1972, s. 11), kiedy stwierdza on: „W tych okolicznościach istnieje pewne niebezpieczeństwo, że możemy [psychologowie] zapomnieć o naszych własnych ograniczeniach i grać rolę Boga w życiu innych ludzi. Pomijanie problemu wieloznaczności pomiaru psychologicznego i niepewności związanej z każdym prognozowaniem może być dla nas bardzo wygodne. Nadmiernie zapatrzeni we własną mądrość i skuteczność, możemy rzutować własny system wartości, tworząc idealny - we własnym mniemaniu - wzorzec zachowania wszystkich ludzi". 4) Biurokratyczne podejmowanie decyzji dotyczących
oceny badanych osób.
Jest faktem, iż jednym z celów stosowania testów psychologicznych jest możliwość prognozowania późniejszego funkcjonowania badanych osób. W tym celu tworzy się reguły postępowania (np. buduje się równania regresji czy zbiera się dane aktuarialne), pozwalające przewidzieć szansę przyszłego sukcesu. Stosowanie takich procedur może sprawiać wrażenie, że zachowanie ludzi jest częścią deterministycznego systemu, który łatwo określić, oraz że to, do czego ludzie dążą, jest dobrze znane i powszechnie akceptowane.
Algorytmiczne prognozowanie pozwala stosować je również osobom bez specjalistycznego, psychologicznego wykształcenia. Stąd już krok do biuro-
2 Pierre Bourdieu i Jean-Claude Passeron (1990) opatrzyli swoją niezwykle ciekawy tekst, poświecony m.in. problemowi odtwarzania struktury społecznej przez system oświatowy, następującym mottem, znakomicie ilustrującym problematykę tej pracy:
Oto historia Jonatana, co w wieku młodym, bez zachodu,
schwytał był ongiś pelikana na wyspie Dalekiego Wschodu.
Rankiem pelikan Jonatana jajo wnet złożył całe białe,
z którego wkrótce się wyłania pelikan całkiem doń podobny.
Drugi pelikan znów z kolei jajo wnet złożył całe białe.
A z wnętrza tego jaja nowy pelikan się wyłania,
który uczyni znów to samo.
Wszystko to może trwać bez przerwy, jeżeli tylko, oczyviście,
nie zrobi się omletu pierwej.
Robert Desnos: Cliantefleurs, Chantefafables     211
Rozdział 6
212
kratyzacji diagnozowania psychologicznego - oderwania zalgorytmizowanej procedury od jej psychologicznego sensu i znaczenia. Od takiego mechanicznego podejścia do diagnozy psychologicznej łatwo już przejść do myślenia o tworzeniu komputerowych systemów diagnostycznych, których siła - w oczach opinii publicznej - leży nie w myśli zawartej w oprogramowaniu, ale w samym fakcie podejmowania decyzji przez obiektywną maszynę. A wszystko to wbrew wspomnianej już kilka razy wcześniej powszechnej zasadzie, mówiącej po prostu, że „jeżeli śmieci włożysz, to śmieci wyjmiesz".
Testy były i będą coraz szerzej wykorzystywane. Jednakże mądre korzystanie z ich dobrodziejstw musi przeważać nad mechanicznym, nierefleksyj-nym i nie pogłębionym podejmowaniem decyzji, a umiejętności psychologiczne nie mogą być ograniczane do automatycznego odczytywania norm dostępnych w podręcznikach testowych. Badany przychodzi przecież do psychologa „z dotychczasową historią swego życia, w której badanie jest tylko chwilą, ze swoimi problemami, potrzebami oraz celami. Badający natomiast przynosi na to spotkanie wiedzę profesjonalną, narzędzia i procedury diagnostyczne, swój system wartości i preferencję do określonego stylu diagnozowania" (Paluchowski, 1991, s. 36).
Badanie testowe jest więc sytuacją, w której badany i badający wchodzą w interakcję. Biurokratyzacja procedury badania testem i automatyzacja procedur interpretowania wyników testowych jest zaprzeczeniem profesjonalnych umiejętności psychologicznych, a dla osoby badanej kończy się mechanicznym (zalgorytmizowanym) podjęciem decyzji dotyczącej często całego jej życia.
Etycznym obowiązkiem psychologa jest ochrona praw i interesów osób, które się do niego zgłaszają. Świadomość konsekwencji społecznych wynikających ze stosowania testów psychologicznych jest jednym z elementów naszej postawy etycznej. W sytuacji rosnącego zapotrzebowania na usługi psychologiczne oraz coraz szerzej wykorzystywanego instrumentarium testowego wiedza o specyfice pomiaru psychologicznego jest jednym z warunków „etycznego diagnozowania".
Warto na końcu -jako formę podsumowania - przytoczyć to, co na temat badania psychologicznego i osób korzystających z pomocy psychologicznej pisał Goldman (1974, s. 28-29): „Są to ludzie żyjący w jakimś miejscu, od może 12 do 65 lat, zanim spotkali psychologa. Przez te wszystkie lata co najmniej dziesiątki ważnych osób informowały ich tysiące razy o ich zdolnościach, osobowości czy zainteresowaniach (...) Teraz przychodzą do psychologa na trwające nie więcej niż 8 do 10 godzin spotkanie czy testowanie. Byłoby (...) rzeczą zdumiewającą, gdyby zgodzili się oni z tą jedną informacją, szczególnie jeżeli nie jest ona zgodna z tysiącami poprzednich lub godzi w stworzony przez te wszystkie lata obraz siebie".
Świadomi tego psychologowie będą wykorzystywać dostępne im instrumentarium testowe w sposób refleksyjny, pamiętając o tym, że test jest
Społeczny kontekst stosowania testów psychologicznych
dobrą metodą poznania diagnostycznego jedynie w określonym zakresie i że wyniki testowe mogą być wykorzystywane tylko jako uzasadnienie proponowanych kierunków działania. Testy nie są podstawą ograniczania naszej odpowiedzialności za podejmowane decyzje diagnostyczne i nie mogą być podstawą ograniczania wolności klientów do swobodnego podejmowania decyzji życiowych na podstawie uzyskanych przez nich wyników testowych.
6.2. PRAWA OSÓB BADANYCH

Profesjonalne stosowanie testów psychologicznych polega nie tylko na wykorzystywaniu metod psychometrycznie dobrze opracowanych i właściwej interpretacji ich wyników, ale również na respektowaniu praw osób badanych. Liczne standardy, jakie zostały w tym zakresie opracowane, nie pozostawiają żadnych wątpliwości: standardem najwyższym jest obowiązek dbania osób stosujących testy o prawa i interesy osób badanych3. Podstawowym celem budowania takich standardów jest nie tylko zwiększanie świadomości osób badanych co do przysługujących im praw, ale także uwrażliwianie osób stosujących testy na etyczną stronę testowania. Przedstawione niżej prawa osób badanych zostały opracowane na podstawie Standardów... (1985a, b; 1999)4 oraz następujących prac: Haney, Madaus, 1991; Brzeziński, 1994; Anastasi, Urbina, 1999; Cohen, Swerdlik, 1999, oraz rozpowszechnianego drogą internetową dokumentu The Rights and Responsibilities ofTest Takers: Guidelines and Expectations5 (1998).
Prawo do wyrażenia świadomej zgody na badanie testem
Osoby badane mają prawo wiedzieć, dlaczego są testowane oraz jakie informacje o wynikach testowania i komu zostaną następnie udostępnione. Informacje takie należy przekazywać w sposób zrozumiały dla osób badanych i na tej podstawie uzyskiwać zgodę na badanie testowe. Należy zatem uwzględnić wiek osoby badanej, jej poziom wykształcenia, a także możliwość nawiązania kontaktu z osobą badającą. Jeżeli uzyskanie zgody na badanie nie jest możliwe bezpośrednio od osoby badanej (np. w wypadku osób
3  Wśród tych standardów mamy takie publikacje, jak:
Standards for Educational and Psychological Tests (1956, 1974, 1985, 1999; wyd. polskie - 1985a)
Principles for the Validation and Use ofPersonnel Selection Procedures (1980)
Ethical Principles of Psychologists (198la)
Speciality Guidelines for the Delivery of Services by Clinical Psychologists (1981b)
Speciality Guidelines for the Delivery of Semices by Counseling Psychologists (1981c)
Speciality Guidelines for the Delivery ofServices by Industrial/Organimtional Psychologists (1981d)
Speciality Guidelines for the Delivery of Semices by School Psychologists (1981e).
4  W czwartym wydaniu Standardów... (1985b) znalazł się już samodzielny rodział poświęcony w całości ochronie praw osób badanych.
5  Autorami tego dokumentu jest 12 psychologów tworzących Joint Committee on Testing Practices, powołany przez APA.
213
Rozdział 6
upośledzonych), zgodę tę należy uzyskać od jej prawnych opiekunów. Niektórzy autorzy zalecają wręcz, aby ta zgoda została udzielona pisemnie (por. np. Cohen, Swerdlik, 1999, s. 81).
Jak słusznie zwracają uwagę Anastasi, Urbina (1999, s. 680), „osoba poddawana badaniu testowemu powinna być oczywiście poinformowana
0  celu badania, rodzaju poszukiwanych danych i sposobie wykorzystania wyników. Nie należy jednak wcześniej pokazywać badanemu pozycji testowych ani informować go, jak będą oceniane określone odpowiedzi. (...) Udzielenie tego rodzaju informacji unieważnia zazwyczaj test".
Prawo do informacji o wynikach testowania
Tak jak to stwierdzono w Standardach... (1985a, s. 80), osoba badana ma prawo nie tylko do informacji o celach badaniach czy o jego konsekwencjach, lecz również prawo do informacji o uzyskanym wyniku i jego znaczeniu. To stanowisko jest przeciwieństwem upowszechnianej, zwłaszcza w obrębie psychologii klinicznej, orientacji, zgodnie z którą psycholog powinien udzielić osobie badanej jak najmniej informacji o wynikach testu, i to jedynie takich, które sprawią, że będzie ona „zadowolona i usatysfakcjonowana" (Klopfer
1 inni, 1954, s. 15). Współcześnie sposób rozumienia interesów osoby badanej jest zdecydowanie inny i generalnie przyjmuje się, że rzetelna informacja o wynikach testowania jest nie tylko konieczna z powodów etycznych, ale wręcz może odnieść pozytywny skutek terapeutyczny (Cohen, Swerdlik, 1999, s. 81). Informowanie o wynikach badań testowych traktuje się bowiem jako „integralną część porady i element kontaktu między psychologiem a klientem. (...) Psycholog powinien, na tyle, na ile jest to możliwe, włączać swych klientów do interpretowania wyników testowych w świetle zgłaszanych przez nich specyficznych problemów. Niezwykle ważne jest, by klient zaakceptował przedstawione mu informacje. Jeżeli którąś z nich z jakiegokolwiek powodu odrzuci, to pozostanie ona bezużyteczna" (Anastasi, Urbina, 1999, s. 684).
Niewątpliwie sposób przekazania informacji o wynikach uzyskanych w teście musi być dostosowany do możliwości osób badanych. Informacje takie nie powinny być przekazywane rutynowo, a powinny dostarczać zindywidualizowanych wyjaśnień interpretacyjnych. Zgodnie ze Standardami... (1985b, s. 85) „osoby stosujące testy w szkole, praktyce klinicznej lub poradnictwie powinny przekazywać osobom badanym (lub ich prawnym opiekunom) odpowiednie i zrozumiałe wyjaśnienia dotyczące otrzymanych przez nie wyników oraz wniosków, jakie z nich wynikają".
Ponieważ komunikowanie wyników badań testowych jest bardzo trudnym etapem badania testowego, należy zrobić wszystko, aby nieudolne przekazanie takich informacji nie wytworzyło u osoby badanej trwale negatywnego nastawienia do udziału w badaniach testowych i ogólnie w badaniach psychologicznych (por. Brzeziński, 1994, s. 97). Jak piszą Cohen i Swerdlik (1999, s. 82), „byłoby rzeczą idealną, gdyby osoby zdruzgotane wynikami testowymi 214    mogły zasięgnąć rzetelnej porady".
Społeczny kontekst stosowania testów psychologicznych
Przekazywanie informacji o wynikach testowych osobom trzecim lub instytucjom powinno mieć miejsce tylko wtedy, kiedy stoją za tym racje merytoryczne. Jak wyraźnie stwierdza się w Standardach... (1985a, s. 80): „(...) ciekawość nie jest tu wystarczającym powodem". Powinny być one przekazywane „(...) jedynie osobom, które mają wystarczające kwalifikacje, aby je zinterpretować" {ibidem). Należy zadbać także o to, aby przekazywać informacje w taki sposób, który nie będzie prowadził do błędnych interpretacji.
Prawo do minimalizowania skutków etykietowania
Zgodnie ze Standardami... (1985a, s. 86), opisując wynik osoby badanej, należy posługiwać się takimi określeniami, które w minimalnie możliwym stopniu etykietyzują osobę badaną (por. też wyżej).
Ciekawą sprawę, która znalazła swój finał przed sądem, a która właśnie dotyczyła stygmatyzowania, opisują Cohen i Swerdlik (1999, s. 83-84). Dotyczyła ona 9-letniej dziewczynki, Jo Ann Iverson, która cierpiała na klaustrofobię. Jej mama zdecydowała się na badanie psychologiczne, które zostało przeprowadzone w szpitalu w Blackfoot, w stanie Idaho. Zajmujący się dziewczynką psycholog przeprowadził m.in. badanie testem inteligencji. W swoim orzeczeniu napisał, że uzyskała ona niskie wyniki, na poziomie debilizmu. Na prośbę szkoły kopia orzeczenia psychologicznego została również do niej wysłana, a to wywołało ogromny szum wokół dziewczynki. Matka Jo Ann skierowała do sądu sprawę o zniesławienie. Psychologowi zarzuciła m.in. to, że badanie inteligencji zostało przeprowadzone bezprawnie, bowiem dziewczynka zgłosiła się z innymi problemami (klaustro fobia) i to badanie wykraczało poza zakres konsultacji. Sprawę przegrała, bowiem sąd stwierdził, że było to profesjonalne badanie, które zostało przeprowadzone w najlepszej wierze. Jednakże psychologowie śledzący tę sprawę zgodnie uznali, że zastosowany termin „debil" jest wysoce społecznie naznaczający i że może to wpłynąć na całe późniejsze życie dziewczynki.
Przygotowując orzeczenie psychologiczne, należy zatem unikać stosowania skrótowych etykietek. Jak stwierdza się w Standardach... (1985a, s. 80), stosowanie takich określeń wiąże się zawsze z wartościowaniem. Dlatego osoby przygotowujące interpretacje wyników testowych powinny starannie określać znaczenie stosowanych terminów i dbać o to, by ci, do których trafi taka interpretacja, nie nadawali jej fałszywego znaczenia.
Prawo do zachowania tajemnicy o wynikach testowania
Osoby badane mają prawo do zachowania tajemnicy o wynikach, jakie otrzymały w danym teście. Dane takie mogą być udostępniane innym osobom tylko po świadomym wyrażeniu na to zgody.
Problem poufności wyników z badań testowych dotyczy ich udostępniania osobom trzecim. Jak piszą Anastasi i Urbina (1999, s. 681), „podstawowa zasada głosi, że protokołu [z badań psychologicznych] nie należy ujawniać bez wiedzy i zgody badanego, chyba że jest to z uzasadnionych powodów
215
Rozdział 6
wymagane lub dopuszczane prawem". Aby ułatwić psychologom podejmowanie decyzji, czy ujawnienia danych testowych jest w konkretnej sytuacji dopuszczalne, Amerykańskie Towarzystwo Psychologiczne opracowało odpowiednie wytyczne (np. Statement on the Disclosure of Test Data, APA, 1996).
Prawo to oznacza zachowanie tajemnicy zawodowej dotyczącej profesjonalnego kontaktu psychologa z klientem dokładnie w takim samym sensie, w jakim mówimy o tajemnicy spowiedzi czy tajemnicy lekarskiej. Psycholog ma zatem obowiązek nieudostępniania informacji, jakie uzyskał od swojego klienta. Jak pisze Stepulak (2000, s. 125): „sprawa dochowywania tajemnicy zawodowej wyrasta nie ze ślepego posłuszeństwa zasadom zawartym w kodeksie etycznym, ale z autonomicznego poglądu etycznego, który ciągle jest budowany przez psychologa pracującego nad kształtem własnej osobowości. (...) Problem tajemnicy zawodowej będzie rozwiązany, iciedy przez wszystkich za naczelną wartość zostanie uznana godność każdego człowieka, z jego prawem do autonomii i dyskrecji".
Obowiązek zachowania tajemnicy zawodowej jako podstawowa dyrektywa etyczna został umieszczony w wielu kodeksach etyczno-zawodowych. W Kodeksie etyczno-zawodowym psychologa (1992) obowiązującym w Polsce również znalazł się zapis dotyczący tajemnicy zawodowej. Sformułowano go bardzo wyraźnie (ibidem, s. 9, §21): „Psychologa obowiązuje przestrzeganie tajemnicy zawodowej. Ujawnienie wiadomości objętych tajemnicą zawodową może nastąpić jedynie wtedy, gdy poważnie zagrożone jest bezpieczeństwo klienta lub innych osób. Jeśli jest to możliwe, decyzię w tej sprawie należy dokładnie omówić z doświadczonym i bezstronnym kolegą. Materiały poufne powinny być komisyjnie zniszczone, jeśli zaistnieją warunki grożące ich ujawnieniem".
Zapis dotyczący obowiązku zachowywania tajemnicy zawodowej znalazł się również w Ustawie o zawodzie psychologa i samorządzie zawodowym psychologów z dnia 8 czerwca 2001 r. W Art. 14, w pkt. 1 stwierdza się: „Psycholog ma obowiązek zachowania w tajemnicy informacji związanych z klientem, uzyskanych w związku z wykonywaniem zawodu". Obowiązek ten nie może być ograniczony w czasie. Zwolnienie z tego obowiązku możliwe jest jedynie wtedy, gdy poważnie jest zagrożone zdrowie, życie klienta lub innych osób, lub tak stanowią inne akty prawne.
Prawo do zachowania tajemnicy o wynikach testowania oznacza również ooowiązek odpowiedniego zabezpieczenia danych przez osoby stosujące testy. Dotyczy to zarówno danych przechowywanych w postaci fizycznej (np. papierowych protokołów), jak i w formie elektronicznei. Oznacza również konieczność określenia, jak długo takie dane należy przecnowywać. Przechowywanie ich w nieskończoność może być bombą z opóźnionym zapłonem. Zawsze bowiem ktoś niepowołany może takie dane wykorzystać 216    w sposób, którego osoba badana nigdy by nie zaakceptowała.
Społeczny kontekst stosowania testów psychologicznych
Prawo do prywatności
Prawo do zachowania tajemnicy o wynikach testowania jest związane z prawem do prywatności. Prywatność oznacza „prawo jednostki do decydowania o czasie, okolicznościach i zakresie, w jakim będzie się ona dzielić z innymi osobami swoimi myślami, uczuciami, zachowaniami i opiniami" (Shah, 1969, s. 57; za: Cohen, Swerdlik, 1999, s. 82). Prawo to, znajdujące również swoje odzwierciedlenie w słynnej amerykańskiej Piątej Poprawce do Konstytucji, jest rozumiane jako prawo jednostki do wolności i samookreślania.
Oczywiście - jak słusznie podkreślają Anastasi i Urbina (1999, s. 679) - „nie daje się tu sformułować żadnych uniwersalnych reguł ochrony prywatności, można jedynie podać ogólne wskazania. Szczegółowe rozwiązania muszą być wypracowane z uwzględnieniem konkretnych przypadków, na miarę świadomości etycznej i odpowiedzialności zawodowej każdego psychologa". Odwoływanie się do celu badania testowego może tu być dobrą wskazówką. I tak np. pytania dotyczące postaw religijnych i preferencji seksualnych mogą zostać uznane za naruszające prywatność, o ile nie znajdą uzasadnienia z punktu widzenia celu testowania.
W takim też sensie zapis o prawie do prywatności funkcjonuje w Kodeksie etyczno-zawodowym psychologa (1992), w którym stwierdza się: „Wnikanie intymne, osobiste sprawy klienta dopuszczalne jest jedynie w takim
w
zakresie, jaki wynika z celów pomocy psychologicznej" (s. 9, §22). I jak pisze Poznaniak (2000), każdy psycholog powinien zdawać sobie sprawę, że zadawane przez niego pytania mogą naruszyć sferę prywatności i że musi się on dobrze zastanowić, zanim zacznie je zadawać, a klient (osoba badana) ma prawo do odmowy odpowiedzi na pytania zadane mu przez psychologa.
>? Osoby badane testami psychologicznymi mają prawo do: do wyrażenia świadomej zgody na badanie testem do informacji o wynikach testowania do minimalizowania skutków etykietowania do zachowania tajemnicy o wynikach testowania do prywatności
6.3. TESTY PRZED SĄDEM
Czy obserwowane różnice w wynikach testowych odzwierciedlają rzeczywiste różnice w poziomie mierzonej cechy? To pytanie było i jest pytaniem najczęściej zadawanym przez osoby, które z różnych powodów chciały (czy też musiały) poddać się testowaniu. Profesjonaliści są świadomi, że odpowiedź na to pytanie nie jest taka prosta. Sami wcześniej spytają: jaki to był test, na jakiej grupie został wystandaryzowany, jaka grupa była podstawą obliczenia norm, wreszcie pytają o trafność i rzetelność metody. Opinia publiczna oczekuje natomiast gwarancji, że decyzje podejmowane na podstawie wyników testowych są „uczciwe". Ponieważ takie gwarancje (jakkol-
217
Rozdział 6
218
wiek by rozumieć pojęcie „uczciwości") nigdy nie będą bezwarunkowe, testy i testowanie nie budzą społecznego zaufania. Jednym ze świadectw takiego stanu rzeczy są liczne sprawy sądowe (głównie w USA - choć sądzę, że nas one również nie ominą), w których stroną oskarżoną były testy. No właśnie: testy czy ich amatorskie stosowanie? Warto zatem prześledzić kilka najgłośniejszych spraw, aby samemu ocenić, po której stronie należy się opowiedzieć: zwolenników czy przeciwników testowania.
Jedną z pierwszych spraw tego typu była sprawa Hobson vs. Hansen (1967; za: Cohen, Swerdlik, 1999, s. 71). W jednej ze szkół, która miała być wolna od problemu segregacji rasowej i w której - na podstawie wyników testów inteligencji - przydzielano dzieci do odpowiedniej klasy (dla lepiej lub gorzej uczących się), doszło do ponownego ujawnienia się problemu rasowego. Okazało się bowiem, że wszyscy czarni uczniowie znaleźli się w klasach przeznaczonych dla dzieci wolniej uczących się. Sąd Najwyższy uznał, że testy, które zostały wystandaryzowane na populacji dzieci białych, zostały bezprawnie wykorzystane jako podstawa umieszczenia dzieci pochodzenia murzyńskiego w tych klasach.
Kolejnym, głośnym przypadkiem była wspomniana już wyżej sprawa Diana vs. California State Board of Education (1970), która została wniesiona do sądu po tym, jak dziewięcioro dzieci hiszpańskiego pochodzenia trafiło do szkoły specjalnej ze względu na orzeczony u nich niski iloraz inteligencji (od 30 II do 72 II). Tymczasem po powtórnym przetestowaniu - tym razem w języku hiszpańskim - siedmioro z nich poprawiło swoje wyniki przeciętnie o 15 pkt. (tj. o jedno odchylenie standardowe!) i znalazło się ponad poprzeczką kwalifikującą do szkoły specjalnej (por. Camilli, Shepard, 1994).
Podobną sprawą był przypadek Larry P. vs. Riles (1979; za: Cohen, Swerdlik, 1999, s. 71), która wynikła wskutek skierowania sześciorga dzieci murzyńskich do klas specjalnych. Podstawą tego skierowania były wyniki w testach inteligencji. Kiedy jednak wszystkie dzieci zostały powtórnie przebadane tym samym testem, w którym zmieniono tylko sposób sformułowania niektórych pytań, by uwzględnić kulturowe pochodzenie badanych, okazało się, że dzieci poprawiły swoje wyniki od 17 do 38 pkt. W efekcie cała szóstka została przeniesiona do zwykłych klas. Sędzia prowadzący tę sprawę stwierdził, że umieszczenie dzieci w klasach specjalnych było niezgodne z konstytucją, ponieważ „testy są rasowo i kulturowo stronnicze". Od decyzji tej władze stanu złożyły odwołanie, jednak została ona w roku 1984 podtrzymana. Konsekwencją tej sprawy był całkowity zakaz stosowania testów inteligencji wobec dzieci murzyńskich w stanie Kalifornia. W efekcie mimo próśb rodziców, którzy świadomi byli tego, że ich dzieci mają kłopoty i że przetestowanie być może pozwoliłoby na określenie przyczyn tego zjawiska oraz wybranie właściwego sposobu kształcenia, przeprowadzenie testu nie było możliwe. Paradoksem w całej tej sprawie jest to, że w roku 1992, w procesie wytoczonym przez czarnych rodziców,
Społeczny kontekst stosowania testów psychologicznych
którzy domagali się, aby ich dzieci zostały poddane testowaniu, sąd ustąpił częściowo ze swojego stanowiska - por. też Seligman (1995, s. 208). Co więcej, jednej z matek - z pochodzenia Meksykance - zaproponowano, aby uznała, ze jej syn jest również Latynosem (miał ojca Murzyna), i w ten sposób uzyskała możliwość legalnego przetestowania swojego syna!
Sprawy sądowe, w których oskarżano testy, toczyły się nie tylko „w obszarze" edukacji. Podobne sprawy miały miejsce zwłaszcza tam, gdzie testy wykorzystywano w procedurze rekrutacji przyszłych pracowników. Tu również podstawowym zarzutem był zarzut dyskryminacji rasowej, której szukano w wynikach testowych. Z tego punktu widzenia szczególnie ciekawe wydają się dwa wyroki.
Pierwszy z nich zapadł w sprawie Griggs vs. Duke Power Company (1971; za: Cohen, Swerdlik, 1999, s. 72). Czarni pracownicy oskarżyli prywatną wytwórnię papieru o dyskryminacyjne praktyki przy przyjmowaniu do pracy. Procedura rekrutacyjna wymagała bowiem przedstawienia świadectwa ukończenia szkoły średniej oraz rozwiązania testu zdolności ogólnych. W efekcie do pracy przyjmowano tylko niewielką liczbę osób pochodzenia murzyńskiego. Sąd Najwyższy zgodził się z powodami, stwierdzając, że w tym przypadku „zakres testowanych umiejętności był zbyt szeroki" i że „testy powinny uczciwie mierzyć taki zakres wiedzy i umiejętności, który jest wymagany na konkretnym stanowisku". Zdaniem sądu „testy powinny określać daną osobę z punktu widzenia podejmowanej przez nią pracy, a nie w kategoriach ogólnych i abstrakcyjnych, niezależnych od tego".
Drugi interesujący wyrok został podjęty w prawie Allen vs. District of Columbia (1993; za: Cohen, Swerdlik, 1999, s. 72). Ten przypadek dotyczył wykorzystywania wyników testów psychologicznych w decyzjach dotyczących awansów pracowników w jednostkach straży pożarnej. Test, który rozwiązywali pracownicy, nie był testem zdolności ogólnych, a zawierał pytania dotyczące różnych aspektów pracy w pożarnictwie. Czarni pracownicy wypadali w nim generalnie gorzej niż biali, czego rezultatem były rzadsze awanse w tej grupie pracowników. Jednakże kierownictwo Straży Pożarnej udowodniło, że zebrane zostały odpowiednie dane walidacyjne i test posiada wysoką trafność prognostyczną. W tym wypadku sąd uznał zasadność stosowania testu jako elementu polityki dotyczącej awansów, stwierdzając: „(...) ponieważ test okazał się trafną miarą zdolności i ewentualnego przyszłego sukcesu badanych nim osób, dlatego też zostaje uznany za prawomocny element polityki zatrudnienia prowadzonej przez Departament Straży Pożarnej" (ibidem).
Czy przedstawione tu sprawy pozwalają na wyciągnięcie jednoznacznych wniosków? Wydaje się, że wszystkie one miały przynajmniej jedną cechę wspólną. Tak naprawdę bowiem to nie generalnie testy jako narzędzia poznania poddawano krytyce, a negowano ich trafność w konkretnych zastosowaniach. Tam, gdzie szkoła lub pracodawca potrafili wykazać, że stosowane przez nich metody są trafne, sądy zazwyczaj odrzucały oskarżenia.    219
Rozdział 6
Niechlubnym wyjątkiem jest stan Kalifornia, w którym sędzia federalny jest osobiście nieprzejednanym wrogiem testów, i to jego decyzje doprowadziły do tego, że część mieszkańców stanu (pochodzenia murzyńskiego) pozbawiona została legalnej możliwości testowania. Czyż nie jest to również przejaw dyskryminacji?
Czy zrezygnowanie z testów zmieni politykę władz szkolnych lub przedsiębiorstw, sprawiając, że stosowane procedury będą uczciwe społecznie? Jak pisze Seligman (1995, s. 212), „wyeliminowanie testów nie będzie oznaczać, że nie ma już potrzeby różnicowania ludzi, np. wśród uczniów na słabszych, którym są potrzebne zajęcia wyrównawcze, i lepszych, którzy mają szansę na uzyskanie stypendiów, czy potrzeby orzekania, który z dorosłych ubiegających się o pracę maszynisty w General Electrics nadaje się do tego zawodu. Pierwszym skutkiem wyeliminowania formalnych testów byłyby od razu nieformalne, mnie precyzyjne lub wyjątkowo stronnicze rozwiązania, takie jak rozmowy z kandydatami do pracy lub stopnie stawiane przez nauczycieli".
W ciągu ostatnich 10 lat uchwalono w Stanach Zjednoczonych ponad 30 aktów prawnych dotyczących procedur stosowanych przez instytucje, które przeprowadzają badania testowe. Jednakże jak się wydaje, problem leży nie tylko w prawnej ochronie interesów osób, które są poddawane testom, a w profesjonalnym przygotowaniu osób, które testy stosują. Uchwalona właśnie w Polsce Ustawa o zawodzie psychologa i samorządzie zawodowym psychologów skutecznie reguluje ten problem. Prawo do stosowania testów psychologicznych i do orzekania na podstawie ich wyników mają dyplomowani psychologowie. Powinno to wyeliminować z rynku nieprofesjonalistów, stosujących bez zastanowienia testy psychologiczne przy każdej okazji6. Miejmy nadzieję, że realizacja Ustawy o zawodzie psychologa sprawi, że przynajmniej część spraw sądowych będziemy znać tylko ze źródeł amerykańskich. Nie da się bowiem „w sposób kompetentny określić, czy zamierzone zastosowanie testu jest «poprawne» (jakąkolwiek przyjmie się tu definicję), jeśli samemu nie dysponuje się odpowiednimi umiejętnościami technicznymi oraz wiedzą konieczną do oszacowania trafności wniosków różnych typów" (Standardy..., 1985a, s. 68).

6.4. TESTY JAKO PRODUKTY RYNKOWE
Testowanie - wykorzystywane w klinice czy w szkole - przestało być usługą, o której zainicjowaniu decydują psychologowie-specjaliści. Powstał rynek usług profesjonalnych, adresowanych do przedsiębiorstw i organizacji. Dziś nikogo nie dziwi mnogość firm zajmujących się audytem kadrowym,
220
6 Nierzadko można przeczytać w naszej prasie takie informacje: „Testy stały się powszechnym narzędziem prześwietlania kandydatów", „Kandydaci nie są już zdziwieni zaproszeniem do pisaińa testu, }ak tywa\o V\\ka \at lemu. (,..} Dx\s\aj Yiawtydal mole spodziewać się wszystkiego" czy „Ponad 4 godziny razem z 11 osobami rozwiązywaliśmy kilkadziesiąt stron testów" (Rzeczpospolita, 11 lipca 2001 r., dodatek „Moja kariera").
Społeczny kontekst stosowania testów psychologicznych
doradztwem personalnym, rekrutacją i selekcją. Podobnie jak w wypadku leków, tylko część testów można kupić wyłącznie „na receptę" wystawioną przez specjalistę, a część bez niej.
Psychologom odebrany został monopol decydowania o zakresie stosowania tworzonych przez nich narzędzi i dziś znaleźli się w mniejszości. Instytucje zajmujące się testowaniem niczym się dzisiaj nie różnią od innych firm w chęci zwiększania wielkości sprzedaży swoich usług, jak i osiąganych z tego powodu zysków. Podobnie jak inne przedsiębiorstwa, odwołują się do promocji swoich usług, i to one w przeważającej mierze kształtują społeczny obraz testowania. O tym więc, czego kupuje się najwięcej, decydują klienci. Ich rozumienie korzyści wynikających ze stosowania testów może być i jest zupełnie odmienne od tego, jak widzą je specjaliści. Od tego momentu już nie psychologowie, ale właśnie ich klienci kształtują rynek testów psychologicznych. Klasyczną korzyścią z wolnego rynku jest większa skuteczność, wynikająca ze specjalizacji, bowiem każdy z uczestników transakcji może skoncentrować się na tym, co umie najlepiej (a na to wskazują m.in. jego powodzenie rynkowe i zyski). Jednakże wolny rynek testów wydaje się równie niebezpieczny, jak wolny rynek usług medycznych - przedmiot usługi jest na tyle skomplikowany, że klient nie jest w stanie rozpoznać, czy otrzymuje produkt wysokiej jakości, czy też bubel, niezależnie od odczuwanego subiektywnie zadowolenia7. Cały więc proces - z założenia nieregulo-wany - może łatwo wymknąć się spod kontroli, szczególnie gdy idzie o jego społeczne konsekwencje (por. też Jaworowska, 2000).
Zdaniem niektórych krytyków rynkowa natura dzisiejszego testowania jest już wystarczającym powodem, aby to społeczne konsekwencje testowania, a nie rozważania na temat technicznych rozwiązań, stały się podstawowym problemem psychometrii (Sternberg, 1992). Sprzedawanie testów jest bowiem bardziej społecznie niebezpieczne niż sprzedawanie jakiekolwiek innej usługi. Jeżeli testy jako produkty rzeczywiście są poddawane oddziaływaniom rynkowym, to zrozumienie praw rządzących rynkiem testów pozwoli lepiej kontrolować ich stosowanie. Taką diagnozę współczesnego rynku testów przedstawił Sternberg (1992). Może się ona wydawać zbyt daleko idąca, bo przyznająca klientom - a nie tylko psychologom - prawo do kształtowania rynku testów psychologicznych. Buduje ona jednak odmienny punkt widzenia niż tradycyjne debaty nad społecznymi konsekwencjami testowania, dlatego też warto przyjrzeć się bliżej przedstawionej w niej argumentacji.
Jakich korzyści oczekują klienci - to pytanie, na które należy odpowiedzieć przede wszystkim. A współczesny klient - przekonany o społecznej zasadności testowania - chciałby, aby testy psychologiczne gwarantowały (Sternberg, 1992, s. 135; Moreland i inni, 1995; też APA, 1985b, s. 85-89): 1) przewidywanie  osiągnięć; podstawowym celem stosowania
testów psychometrycznych (zwłaszcza testów inteligencji) było i będzie
Bo może być ono dowolnie kształtowane przez sprzedawcę (producenta).
221
Rozdział 6
przewidywanie osiągnięć czy to szkolnych, czy to w wykonywaniu określonego zawodu. Klienci oczekują zatem, aby na podstawie wyników testowa nia można było dokonywać trafnego prognozowania, a odpowiedzialność za to, czy jest ono uzasadnione, spoczywa na twórcy - producencie testu;
2)  stabilność wyników; klienci oczekują, że testy będą dawały wyniki relatywnie stabilne w czasie. Nikt nie ma dość czasu i pieniędzy, aby wielokrotnie powtarzać badania testowe - i dlatego aby testy były użyteczne z punktu widzenia klienta, powinny posiadać wysoką rzetelność, rozumianą jako wiarygodność i ocenianą na podstawie porównywania wyników  dwukrotnych  badań  tym  samym testem  (rzetelność  typu test-retest);
3)  właściwą normalizację i s t and ar y zacj ę; ponieważ klasyczna interpretacja psychometryczna polega na odwoływaniu się do norm opracowanych dla odpowiednich grup odniesienia, rzeczą istotną jest, aby grupy te zostały właściwie zdefiniowane, a testy wyposażone w normy pozwalające na rzetelną ocenę każdej (potencjalnej) osoby badanej. Zdaniem więc klientów wszystkie testy pojawiające się na rynku powinny posiadać właściwe i reprezentatywne normy. Jednocześnie niska świadomość specyfiki pomiaru psychologicznego powoduje, że klienci albo nie są świadomi wagi posiadania przez test adekwatnych norm, albo apriorycznie zakładają, że proponowane im testy takie normy posiadają;
4)  łatwość stosowania; w bardzo wielu przypadkach badanie testowe ma charakter grupowy (np. sprawdzanie zakresu posiadanej wiedzy) i jest prowadzone przez osoby posiadające co najwyżej niewielką wiedzę z zakresu psychologii. Testy winny być zatem łatwe w stosowaniu, nie powinny wymagać osobistego zaangażowania, a także posiadać „ukrytych niespodzianek";
5)  łatwość interpretacji; osoby interpretujące wyniki testowe (np. urzędnicy) często posiadają niewielką wiedzę o zasadach interpretacji psychometrycznej. Testy zatem powinny posiadać jasno i wyraźnie określone zasady interpretacji, które nie powinny być czasochłonne i powinny umożliwiać ich stosowanie również przez laików. Adresaci nawet fachowych orzeczeń psychologicznych nie muszą i nie chcą orientować się w złożoności interpretacji. Oczekują jasnych i jednoznacznych diagnoz, pozwalających na formułowanie jednoznacznych rekomendacji, związanych z ich problemami (konkretnych więc, a nie ogólnych);
6)  obiektywną punktację; testy powinny posiadać tak opracowane klucze oceny odpowiedzi, aby osoby je stosujące nie musiały podejmować dyskusji z rodzicami czy z samymi zainteresowanymi klientami na temat tego, ile punktów jest warta dana odpowiedź. Liczbowe interpretacje wyników testowych nie mogą podlegać żadnym kompromisom;
7)  brak stronniczości; każda nowa metoda wprowadzana na rynek 222        jest spostrzegana jako narzędzie pomiarowe uczciwe i bezstronne w sto-
Społeczny kontekst stosowania testów psychologicznych
sunku do wszystkich grup społecznych. Dlatego też każda metoda powinna zostać sprawdzona ze względu na potencjalną jej stronniczość;
8)  uzasadnione  koszty  stosowania; testy powinny gwarantować otrzymywanie informacji wartych kosztów ich zastosowania. W przeciwnym wypadku należy je zastąpić innymi metodami;
9)  ochronę wyników; wyniki testów psychologicznych nie powinny być udostępniane bez zgody zainteresowanych żadnej osobie czy instytucji;
10) sądową kontrolę decyzji administracyjnych; wyniki testów psychologicznych muszą się dawać obronić, gdyby decyzje podjęte na ich podstawie trafiły do sądów.
Lista ta nie jest wyczerpująca i nie opisuje każdego przypadku stosowania testów psychologicznych. Jest ona jednak -jak się wydaje - reprezentatywna dla sposobu myślenia i rodzaju oczekiwań klientów. Można oczywiście opracować inne kryteria - np. wskazać jako ważne podstawy teoretyczne testu czy rodzaj zebranych danych empirycznych - jednakże nie zmieni to istoty sprawy. Testy, analizowane z rynkowego punktu widzenia - jak twierdzi Sternberg (1992, s. 136) - „radzą sobie zadziwiająco dobrze".
W Polsce jednak sytuacja nie jest tak dobra. Masowe stosowanie testów (zwłaszcza dla celów selekcyjnych), najczęściej bez właściwego psychometry-cznego opracowania (brak prac adaptacyjnych, a jedynie proste tłumaczenie, brak norm krajowych, nieznana trafność testu, brak danych na temat rzetelności i stronniczości testu8), sprawia, że nasz rynek testów jest kształtowany przez źle opracowane metody, stosowane przez często niekompetentne osoby. Oceniając stosowane w Polsce testy z rynkowego punktu widzenia, widać wyraźnie, że istnieje ogromna przepaść między wymaganiami psychometrycznymi i oczekiwaniami klientów a jakością oferowanego im produktu. Nic też dziwnego, że testy zyskują sobie złą opinię9. Sytuację tę pogarsza agresywny marketing testów, który zaowocował produkcją złych metod o atrakcyjnych nazwach i składanie fałszywych obietnic klientom (por. też Paluchowski, 1991, s. 100).
Zaproponowany przez Sternberga (1992) rynkowy sposób oceniania testów (konieczność spotkania się oczekiwań klientów i aktualnego statusu psycho-metrycznego testów) może wydawać się budowaniem przewagi marketingowego punktu widzenia nad psychologicznym. Jednakże powstanie rynku testów psychologicznych jest faktem, i nie ma już od niego odwrotu. Klienci, przekonywani przez producentów, kupować będą to, o czym sądzą, że realizować będzie ich potrzeby. Brak specjalistycznej wiedzy uniemożliwia im pełne rozpoznanie, czy i w jakim stopniu potrzeby te zostały zaspokojone. Tak więc
8  Standardowe procedury opracowywania testów nie zawsze bowiem odwołują się do metodologii badania stronniczości, a autorzy metod testowych nie potrafią przedstawić obiektywnych danych gwarantujących uczciwe stosowanie testu.
9  Por. liczne teksty publicystyczne na temat testów psychologicznych stosowanych w Polsce, np. artykuł pt. Pisana kariera, pióra Grzegorza Warchoła, zamieszczony w Polityce (nr 10, 1999).
223
W
Rozdział 6

i na tym rynku grozi nam, że „zły pieniądz wypierać będzie dobry pieniądz". Nigdy nie będzie już tak, że rynek testów będzie kształtowany wyłącznie przez ich autorów - utracili oni realny wpływ na praktykę testowania.
Trudno nie zgodzić się ze Sternbergiem (1992, s. 139), że postęp w dziedzinie testowania jest możliwy jedynie wówczas, kiedy autorzy testów psychologicznych zrezygnują z realizacji wąsko definiowanych celów i zwłaszcza w dziedzinie testowania poziomu funkcjonowania intelektualnego będą świadomi „szerokich horyzontów, jakie rozciągają się przed nimi" (ibidem). Tylko wówczas, kiedy publikowane testy nie będą jedynie odpowiedzią na oczekiwania rynku - można będzie mówić o rzeczywistym wpływie psychologów na sztukę testowania. Nie wystarczy już więc wzgardliwy stosunek do sprymi ty wizowanej, komercyjnej praktyki - trzeba stanąć w szranki z armią hochsztaplerów i nauczyć się komunikować szerokiej publiczności, jakimi kryteriami powinna się kierować, aby mieć gwarancję, że kupiła dobre testy.
Jaka jest zatem przyszłość testów psychologicznych? Zdaniem Matarazzo (1992) testy jako narzędzie poznania psychologicznego umocnią swoją pozycję. Będą wykorzystywane do diagnozowania sytuacji społecznie ważnych (np. poczucia alienacji płynącego z utraty pracy) i będą generalnie nastawione na ocenę umiejętności radzenia sobie z wymaganiami dynamicznie zmieniającego się środowiska. Przedmiotem diagnozowania przestaną być wąskie umiejętności, a istotą pomiaru psychologicznego stanie się kompetencja adaptacyjna jednostki. Nastąpi także przesunięcie punktu zainteresowania - zarówno psychologów, jak i ich klientów - z prognozowania na podstawie stwierdzanego status quo jednostki na możliwość profilaktyki zaburzeń zachowania i pr omocj i psychologicznej jakości życia (ibidem, s. 1015). Nowa epoka testów psychologicznych to epoka metod wykorzystujących dorobek neuropsychologii i psychologii poznawczej (por. też Daniel, 1997).
Już dziś pisze się o nowej generacji testów (Hambleton, Zaal, 1991). Zdaniem wielu autorów (por. np. Hambleton, Rogers, 1991; Haney, Madaus, 1991; Sternberg, 1992) źródłem nowych propozycji dla psychometrii powinien być przede wszystkim dorobek psychologii poznawczej. Proponuje ona bowiem inne spojrzenie na problematykę inteligencji, i tym samym pozwala na konstruowanie nowej generacji testów, zwłaszcza dla celów selekcyjnych. Doskonalenie jedynie statystycznych technik analizy wyników testowych (a w tej dziedzinie postęp jest ogromny) w niczym nie zmienia istoty testowania psychologicznego. Nowe testy to także nowy sposób myślenia o mierzonych właściwościach psychologicznych, a zależy on od dorobku szczegółowych dziedzin psychologii. Jedynie świadome stosowanie metod testowych, z pełną znajomością ich właściwości, pozwoli psychologom na rzetelne uprawianie ich zawodu.
224
Podstawowe pojęcia:
•  etyczne konsekwencje testowania
•  prawa osób badanych


Społeczny kontekst stosowania testów psychologicznych
Literatura zalecana
Brzeziński J. (1994). Testy psychologiczne i ich użytkownicy - analiza kontekstu etycznego, w: J. Brzeziński, W. Poznaniak (red.)- Etyczne problemy działalności badawczej i praktycznej psychologów (s. 83-101). Poznań: Wydawnictwo Fundacji Humaniora.
Ciechanowicz A. (1996). Prawne aspekty tworzenia, adaptacji i rozpowszechniania i stosowania testów psychologicznych, w: A. Ciechanowicz, A. Jawo-rowska, T. Szustrowa (red.), Testy, prawo, praktyka (s. 27-50). Warszawa: Polskie Towarzystwo Psychologiczne, Pracownia Testów Psychologicznych.
Polskie Towarzystwo Psychologiczne (1992). Kodekst etyczno-zawodowy psychologa. Warszawa.
Stepulak M.Z. (2000). Tajemnica zawodowa w działalności badawczej i praktycznej psychologów, w: J. Brzeziński, M. Toeplitz-Winiewska (red.), Etyczne problemy psychologii (s. 103-134). Poznań: Wydawnictwo Fun dacji Humaniora.




? a A^jb uy?,i2251i,.






?


Część II
Krótki przewodnik czyli jak samemu zbudować test
'




Poradnik dla studentów'

Na rynku dostępnych jest wiele testów psychologicznych. Bardzo często jednak, przygotowując prace empiryczne lub pisząc pracę magisterską, przekonujecie się, że potrzebna jest niewielka metoda, pozwalająca Warn zrealizować konkretny cel. Niewielka nie znaczy byle jak zbudowana. Nie może to być luźny zbiór niepowiązanych ze sobą twierdzeń, które powstały w sposób przypadkowy, lub ksero kartek niewiadomego pochodzenia. Każda metoda pomiaru psychologicznego powinna zostać opracowana zgodnie z wymaganiami psychometrycznymi.
Istnieją przynajmniej dwa podstawowe sposoby konstruowania testu (racjonalny i empiryczny). Ten przewodnik dotyczy metod budowanych w sposób racjonalny. Jednakże generalne zasady, jakie zostały w nim przedstawione, obowiązują w każdym wypadku. Sam przewodnik jest zbiorem pytań, na jakie trzeba sobie odpowiedzieć, i decyzji, które trzeba podjąć wtedy, kiedy tworzy się metodę testową. Szczegółowe informacje dotyczące problemów, jakie są w nim poruszane, znajdziecie w poszczególnych rozdziałach niniejszego podręcznika.
Aby zwiększyć czytelność prezentowanego materiału, niektóre jego elementu zostały zilustrowane przykładem rzeczywistej metody (przykłady zaznaczono mniejszą czcionką).
Mam nadzieję, że prześledzenie tego przewodnika pozwoli Warn odpowiedzieć na podstawowe pytania, jakie zadaje się przy takiej okazji, i ułatwi zbudowanie własnej metody.
ETAP I
ZDEFINIOWANE CELU POMIARU

>- Pierwszym krokiem na drodze zbudowania testu jest zadanie sobie pytania: „Po co ten test jest mi potrzebny?". Bez jasnej i precyzyjnej odpowiedzi na to pytanie wyniki testowe mogą okazać się zupełnie bezużyteczne.
Takim celem może być np. zbudowanie kwestionariusza mierzącego stosunek do reklam telewizyjnych (KSRT)2 po to, aby móc stwierdzić, jak inne zmienne psychologiczne (np. system wartości) wpływają na
1  Inspiracją do napisania tego poradnika były dla mnie książka Johna Rusta i Susan Golombok (1995) Modern Psychometrics. The Science of Psychological Assessment, a także własne doświadczenie zdobyte w trakcie konsultowania wielu prac magisterskich.
2  Ten przykład zaczerpnięty został z pracy Paluchowskiego (1999), w której prezentuje on Skalę postaw wobec reklam telewizyjnych, opracowaną przez Pollaya i Mittalla (1993).             227
1
Część druga
mierzoną zmienną (a więc prowadzić badania naukowe), lub po to, by stwierdzić na jakie grupy, ze względu na to, czego ludzie poszukują w reklamie telewizyjnej, można podzielić rynek konsumentów (a więc dla potrzeb badań rynkowych).
Wiesz już, co i po co chcesz mierzyć.

ETAP II

ZDEFINIOWANIE MIERZONEJ CECHY

>? Nic nie zastąpi dobrej definicji tego, co chcesz mierzyć. Przeanalizuj zatem literaturę w interesującej Cię dziedzinie. Zastanów się, czy to, co wiadomo na temat sposobów definiowania interesującej Cię cechy, może stać się podstawą Twojego kwestionariusza. Być może trzeba będzie skorzystać z rady ekspertów w danej dziedzinie. Zasada jest jedna: szukaj tak długo, aż będziesz mieć pewność, że wypracowana przez Ciebie definicja odpowiada koncepcji teoretycznej, którą podzielasz, i że odpowiada ona Twoim celom. Potem już nie ma odwrotu.
>? Pamiętaj! Jedna z żelaznych zasad brzmi: „śmieci włożysz - śmieci wyjmiesz". Żadna analiza statystyczna, choćby najbardziej wyrafinowana, nie zastąpi refleksji teoretycznej.
Autorzy Skali postaw wobec reklamy zrezygnowali z klasycznej strukturalnej definicji postawy (tj. takiej, w której wyodrębnia się aspekt poznawczy, emocjonalny i behawioralny) i przyjęli, że „postawa (aspekt emocjonalny) jest skutkiem przekonań i przyczyną intencji zachowania się w określony sposób". Inaczej mówiąc, uznali, że na „postawę składają się przekonania i emocje, które łącznie wyznaczają zamiar zachowania się i zachowanie to mogą wywoływać" (Paluchowski, 1999, s. 133).
Przedmiot pomiaru został jasno i wyraźnie zdefiniowany.
Definicja ta jest na tyle dokładna, że na jej podstawie można formułować pozycje testu.
ETAP III
PRZYGOTOWANIE PROJEKTU TESTU
>• Wiedząc, po co jest Ci potrzebna metoda, spróbuj opracować projekt swojego testu. Najwygodniej jest przedstawić ów projekt w postaci tabeli, w której - z jednej strony - wpiszesz interesujący Cię obszar treści, 228         a z drugiej - obszar zachowań, jaki można z tą treścią powiązać, np.:
Poradnik dla studentów
obszary treści(a)(b)(c)(d)obszary manifestacji(1)
(2)
(3)
> obszary treści: dobra definicja mierzonej cechy pozwoli Ci na określenie obszarów treściowych, które są dla Ciebie ważne. Jeżeli masz wątpliwości, skonsultuj się z ekspertami w danej dziedzinie.
Tak zrobiono w wypadku Skali postaw wobec reklamy. Eksperci, którymi byli konsumenci (18 studentów oraz 30 dorosłych niestuden-tów), odpowiadali na otwarte pytania dotyczące różnych skutków reklamowania. Na podstawie ich odpowiedzi autorzy uznali dwa obszary za treściowo ważne. Były to funkcje społeczno-ekonomiczne reklamy oraz funkcje osobiste. W ramach każdego obszaru wyróżniono mniejsze wymiary. I tak, w ramach obszaru społeczno-ekonomicznego wyróżniono: (1) wpływ reklamy na gospodarkę, (2) materializm i propagowanie konsumpcji, (3) deprecjonowanie społecznie istotnych wartości oraz (4) wprowadzanie przez reklamę w błąd. W ramach funkcji osobistych wyróżniono natomiast: (5) reklamę jako informację o produktach, (6) reklamę jako propagandę określonego stylu życia oraz (7) reklamę jako przeżywanie przyjemności.
>• obszary manifestacji: drugim elementem projektu testu jest określenie obszarów manifestacji, czyli wskazanie, gdzie i w jaki sposób mogą przejawiać się (manifestować) określone wcześniej obszary treści. W wypadku testów właściwości poznawczych mogą to być różnego rodzaju wytwory, sposób przetwarzania informacji, posiadana wiedza, a w wypadku testów właściwości afektywnych - wierzenia, emocje, przekonania czy zachowania.
W Skali postaw wobec reklamy przyjęto, że istnieją dwa takie obszarów manifestacji: przekonania i emocje. Wyróżnienie siedmiu obszarów treści oraz dwóch obszary manifestacji stało się podstawą skonstruo-/       wania wyjściowej puli pozycji kwestionariusza.
>? Możesz także określić, jaką proporcję pozycji testowych w Twoim teście powinny stanowić określone obszary treści i manifestacji. Wypełnij po prostu tabelkę, starając się określić, ile pozycji testowych powinno się znaleźć w każdej komórce. Ten sposób przygotowania pracy nad testem znacznie ułatwia pisanie pozycji testowych. Jest czasami jak światło latarni morskiej podczas ciemnej nocy.
Projekt testu został opracowany. Ważne obszary treści i obszary jej manifestacji zostały wyróżnione.
229
Część druga
ETAP IV
OKREŚLENIE FORMATU POZYCJI TESTOWYCH

>• Zastanów się najpierw, jaki format pozycji testowych jest najlepszy dla Twojego testu. Najlepiej przygotuj takie zestawienia dla wszystkich rozważanych możliwości:
Format Pozycje z wyborem alternatywnym, tj. zakładasz tylko dwie możliwe odpowiedzi (np. TAK-NIE lub PRAWDA-FAŁSZ).
Zalety Dobrze pozwalają ocenić stopień posiadanej wiedzy czy też stopień zrozumienia materiału przedstawionego w pytaniu. Łatwe dla osób badanych. Skracają czas pracy z testem.
Wady Czasami trudno jest, nawet w testach właściwości poznawczych, określić, co rozumiemy przez dobrą odpowiedź. Co więcej, prawdopodobieństwo, że osoba badana może odpowiedzieć poprawnie jedynie przez przypadek, wynosi aż 50%. W wypadku testów osobowości, symptomów klinicznych czy postaw wybór tylko spośród dwóch kategorii odpowiedzi (np. ZGADZAM SIĘ-NIE ZGADZAM SIĘ) może się okazać bardzo trudny dla osoby badanej.
>? Ten wybór nie może być przypadkowy! Musisz umieć przedstawić powody, dla których decydujesz się na taki, a nie inny format pozycji testowej.
W Skali postaw wobec reklamy zastosowano format typowej skali Likerta, tj. dla każdego zaprojektowano pięć kategorii odpowiedzi: całkowicie zgadzam się, zgadzam się, nie mam zdania, nie zgadzam się, całkowicie się nie zgadzam.
Format pozycji testowej został wybrany. Potrafisz uzasadnić swoją decyzję.
230
ETAP V
WYGENEROWANIE PULI POZYCJI TESTOWYCH
>? Pora teraz przystąpić do pisania pozycji testowych. Wiele osób twierdzi, że to proste zadanie. Tymczasem pisanie pozycji testowych to sztuka, podobnie jak napisanie dobrego wiersza! Wszystkie pozycje powinny być wyprowadzone z teorii mierzonej cechy - warto zatem korzystać z już opracowanego własnego projektu testu. Jeżeli w trakcie pracy okaże się, że trudno jest ułożyć pozycje testowe dla wszystkich obszarów treściowych, które wcześniej zostały określone - to z niczego pochopnie

Poradnik dla studentów
nie rezygnuj! Zastanów się, czy pomięcie jakiegoś obszaru treści nie zmieni przyjętej przez Ciebie definicji mierzonej właściwości. Każda decyzja musi zostać merytorycznie uzasadniona.
>? Rozważ, czy skorzystanie z pomocy ekspertów lub sędziów kompetentnych (np. kolegów i koleżanek z roku) nie ułatwi realizacji tego zadania. Jeżeli tak, to pamiętaj: eksperci muszą otrzymać jasne wskazówki dotyczące tego, jak definiujesz właściwość, która jest przedmiotem pomiaru. Aby uniknąć niejasności, spisz na kartce najważniejsze ustalenia definicyjne. Każdy sędzia kompetentny powinien pracować z takim samym zasobem wiedzy!
>• Wszystkie pozycje powinny być formułowane prostym językiem. Staraj się, aby były to pojedyncze zdania lub pytania. Unikaj określeń, które mogą być różnie rozumiane przez osoby badane (np. słowo „często" dla jednych może oznaczać „przynajmniej raz w miesiącu", a dla innych „przynajmniej raz w tygodniu").
>• Ponieważ są to tylko propozycje pozycji testowych, musi być ich znacznie więcej, niż planujesz ich włączyć do ostatecznej wersji testu. Dobrą zasadą jest zbudowanie od 50% do 100% pozycji więcej w stosunku do planowanej długości testu. Wtedy rzeczywiście będzie można wybrać te, które są najlepsze.
W trakcie prac nad Skalą postaw wobec reklamy wygenerowano wyjściowo pulę liczącą ponad 100 twierdzeń. Były to twierdzenia takie jak:
•  Reklamy upowszechniają wartości niepożądane w naszym społeczeństwie.
•  Reklamy przyczyniają się do podniesienia standardu życia.
•  We współczesnych reklamach jest zbyt wiele seksu.
•  Uważam, że reklamy są niepożądanym przerywnikiem w programach telewizyjnych.
•  Reklamy skłaniają ludzi do kupowania rzeczy, których nie powinni kupować.
Dysponujesz dużą wyjściową pulą pozycji testowych.
ETAP VI
ANALIZOWANIE POZYCJI POD WZGLĘDEM JĘZYKOWYM
>? Pierwszym etapem sprawdzania jakości wygenerowanych pozycji testowych jest ich ocena pod kątem językowym. Zgłoś się do takich osób, których kompetencje językowe są Ci znane (np. poproś o pomoc studentów polonistyki), i przedstaw im zadanie. Takiej analizy nie warto robić samodzielnie. Każdy z nas ma tendencję do pisania w pewien charakterystyczny sposób, nadto - bardzo trudno poprawia się własne błędy.
231
Część druga ja łiittciAfloS
>• Na co warto zwrócić uwagę? Przede wszystkim trzeba sprawdzić, czy wszystkie pozycje testowe są gramatycznie poprawnie sformułowane, czy nie zawierają zbyt trudnych bądź niejasnych określeń, czy nie są
- j zbyt długie, czy przewidziany sposób odpowiadania jest naturalny dla .   sposobu sformułowania pozycji.
>? Warto też sprawdzić, czy sposób, w jaki sformułowane zostały pozycje testowe, nie prowokuje osób badanych do odpowiadania w pewien stały
y sposób, nie mający nic wspólnego z treścią pozycji. Problem ten znany jest jako tzw. style odpowiadania. Z jakimi stylami można się najczęściej
ti spotkać?
Potakiwanie to tendencja do odpowiadania TAK lub ZGADZAM SIĘ bez względu na treść pozycji. Można próbować ją wyeliminować, wprowadzając taką samą lub prawie taką samą liczbę pozycji, których treść została odwrócona. Np. zamiast pozycji Większość reklam wypacza wartości młodego pokolenia można wprowadzić pozycję Większość reklam nie wypacza wartości młodego pokolenia. Odwracając treść danej pozycji, trzeba się upewnić, czy jej sens jest zrozumiały dla osoby badanej. Dlatego też podwójne przeczenia są złym pomysłem.
Brak zdecydowania (lub niechęć do decydowania) to tendencja do wybierania odpowiedzi typu „?", „nie wiem", „trudno powiedzieć". Dlatego warto rozważyć możliwość ominięcia takiej kategorii odpowiedzi. Jest to najprostsze rozwiązanie problemu, jednak warto się zastanowić, czy usunięcie takich kategorii nie spowoduje niechęci osób badanych do odpowiadania na pozycje, na które ich zdaniem nie ma jednoznacznej odpowiedzi.
Błąd tendencji centralnej to tendencja do wybierania odpowiedzi mieszczących się w środku proponowanej skali, a niechęć do wybierania odpowiedzi skrajnych. Niewielkie zwiększenie liczby proponowanych kategorii odpowiedzi może skutecznie rozszerzyć zakres odpowiedzi. Nie warto jednak wydłużać skali odpowiedzi zbyt mocno, bowiem zamiast zmniejszyć błąd tendencji centralnej możemy go zwiększyć. Jak zwykle, każdy kij ma dwa końce! Aprobata społeczna to z kolei tendencja do odpowiadania w sposób społecznie akceptowany. Warto zatem przeanalizować każdą pozycję pod tym kątem. Zastanów się, czy niektórych pozycji nie warto zmienić tak, aby uniknąć takiej tendencji. Np. pozycję Często zdarza mi się bić własne dziecko można przeformułować następująco: Czasami zdarza mi się bić własne dziec-ko lub Zdarza mi się uderzyć własne dziecko lub Niekiedy trzeba bić dzieci. Jednakże w każdym z tych 232             przypadków inaczej budujemy kontekst społeczny, i dlatego musisz


?
Poradnik dla studentów
starannie rozważyć, jaka zmiana jest uzasadniona z punktu widzenia Twojego testu.
Z puli pozycji testowych wyeliminowane zostały te, które nie spełniają kryteriów językowych.
ETAP VII
PRZEANALIZOWANIE POZYCJI POD WZGLĘDEM TRAFNOŚCI
TREŚCIOWEJ
>• Analiza językowa nie kończy prac nad wstępną eliminacją pozycji testowych. Teraz pora na przeanalizowanie każdej z nich pod kątem ich trafności treściowej.
>• W tym celu możesz wykorzystać technikę sędziów kompetentnych. Poproś zatem trzy lub cztery osoby o ocenę każdej pozycji. Przedstaw im dokładną definicję mierzonej właściwości oraz obszary treściowe, które zostały przez Ciebie wzięte pod uwagę na etapie przygotowywania projektu kwestionariusza. Każdy sędzia ma ocenić pozycje testowe pod kątem tego, czy pochodzą one z zakresu uniwersum treści i czy są one dla tego uniwersum reprezentatywne. Dobrą miarą zgodności ocen sędziów kompetentnych może być współczynnik trafności treściowej Lawshego lub współczynnik zgodności ocen sędziów W-Kendalla.
Z puli pozycji testowych wyeliminowane zostały te, które nie są trafne treściowo.
ETAP VIII
OPRACOWANIE KLUCZA OCENY ODPOWIEDZI

>• Każda odpowiedź udzielona przez osoby badane na pytania Twojego testu powinna zostać oceniona. Ocena ta nie może być przypadkowa. Przeanalizuj starannie wszystkie pozycje testowe i określ, która z przewidzianych przez Ciebie opcji odpowiedzi jest wskaźnikiem mierzonej właściwości. Następnie przyporządkuj jej określoną punktację.
>• Jeżeli jest to pozycja składająca się tylko z dwóch kategorii odpowiedzi, to najczęściej odpowiedzi uznanej za diagnostyczną przyporządkowuje się 1 pkt, a odpowiedzi uznanej za niediagnostyczną przyporządkowuje się 0 pkt.
>• Jeżeli jest to pozycja składająca się z wielu kategorii odpowiedzi (np. całkowicie się zgadzam, zgadzam się, nie mam zdania, nie zgadzam się, całkowicie się nie zgadzam), to musisz wyraźnie określić, która z tych kategorii wskazuje na maksymalne nasilenie interesującej Cię cechy. Często    233
Część druga
będzie to odpowiedź „całkowicie się zgadzam", ale równie dobrze może to być odpowiedź „całkowicie się nie zgadzam". Gdy to już ustalisz, możesz ustalić sposób oceny odpowiedzi, np. przyznając kolejno 5, 4, 3, 2, i 1 pkt kolejnym kategoriom, zgodnie z kierunkiem nasilenie mierzonej cechy. Weź pod uwagę również to, że czasami treść pytań bywa odwrócona.
>- Upewnij się, czy przy opracowywaniu klucza nie został popełniony żaden błąd.
Masz już opracowany klucz odpowiedzi. Klucz został sprawdzony i nie zawiera błędów.


ETAP IX
PRZYGOTOWANIE FORMULARZA TESTU
>? Zanim będzie można przeprowadzić badania pilotażowe, musisz opracować formularz testu, na którym będą pracować osoby badane. Nie wystarczy tylko wypisanie kolejnych pytań czy twierdzeń. Taki arkusz testowy powinien zwierać:
•  nazwę testu i jego autora,
•  miejsce na wpisanie danych personalnych osób badanych, które będą Ci dalej potrzebne (np. płeć czy wiek),
•  krótką informację o celu pomiaru (pamiętaj o trafności fasadowej!),
•  instrukcję,
•  przykładowy sposób odpowiadania na pozycje testu,
•  właściwy test.
>? Instrukcja jest niezwykle ważnym elementem Twojego testu. Musi zostać tak sformułowana, aby zadanie, jakie stoi przed osobą badaną, było całkowicie jasne. Powinna ona zawierać informacje o tym, w jaki sposób należy zaznaczać swoją odpowiedź, czy należy odpowiadać szybko bez specjalnego zastanawiania się czy też odpowiedź powinna zostać dobrze rozważona, a także wszystkie te informacje, które mogą wpłynąć na sposób odpowiadania, np. zachętę do szczerości. Zdecyduj też, czy Twój test jest przeznaczony do badań indywidualnych i/lub grupowych. W instrukcji powinno się też znaleźć zapewnienie o pełnej ochronie danych. Pamiętaj! To jest Twój obowiązek.

234
A tak wyglądała instrukcja do Skali postaw wobec reklamy: Instrukcja:
Stwierdzenia zawarte w tym kwestionariuszu dotyczą różnych opinii na temat reklamy.
Proszę ustosunkować się do wszystkich twierdzeń. Proszę opisać szczerze, w jakim stopniu poszczególne twierdzenia oddają Pana/Pani poglądy. Nie ma tu ani dobrych ani złych odpowiedzi.
Poradnik dla studentów




Do każdego twierdzenia należy ustosunkować się, zaznaczając jedną z pięciu możliwych odpowiedzi:
1  - zdecydowanie nie zgadzam się,
2 - nie zgadzam się,
3 - nie mam zdania na ten temat,
4 - zgadzam się,
5 - całkowicie zgadzam się.
Wybraną przez siebie odpowiedź proszę skreślić krzyżykiem. Np.:
Reklama jest  rzeczą  niezbędną           <D ® (D © ©
Jeżeli będzie chciał/a Pan/ Pani zmienić swoją odpowiedź, proszę zamazać odpowiedź niewłaściwą, a skreślić odpowiedź właściwą.
Proszę nie zastanawiać się zbyt długo nad każdym stwierdzeniem. Pierwsza myśl zazwyczaj najtrafniej opisuje nasze poglądy. Proszę się upewnić, czy dana odpowiedź dotyczy właściwego stwierdzenia.
Skala ta jest anonimowa. Otrzymane wyniki będą wykorzystane dla celów naukowych i upowszechniane wyłącznie w postaci zbiorczych danych.

>• Arkusz testowy powinien zostać tak sformatowany, aby maksymalnie ułatwić pracę osobom badanym. Poszczególne pozycje nie mogą być umieszczane zbyt ciasno, a kategorie odpowiedzi muszą być jednoznacznie powiązane z daną pozycją. Tu nie może być żadnych wątpliwości!
Może to wyglądać np. tak:
1. reklama jest rzeczą niezbędną:
?          ?
całkowicie     zgadzam się zgadzam się
?           D            ?
nie mam      nie zgadzam     całkowicie zdania               się         nie zgadzam się
lub tak:
1. reklama jest rzeczą niezbędną:    12       3       4       5

(jeżeli wybierzesz drugi sposób formatowania, to pamiętaj, że wcześniej musi się znaleźć informacja o tym, co oznaczają poszczególne cyfry). Lepiej, aby arkusz testowy składał się z dwóch czy trzech stron - dobrze graficznie opracowanych - niż aby to była jedna, nieczytelna strona.
>• Wydrukuj kilka projektów graficznych i oceń, który z nich jest najlepszy. Przygotuj ostateczną wersję testu przeznaczoną do badań pilotażowych.

Masz juź opracowany arkusz testowy.
235
Część druga
ETAPX
PRZYGOTOWANIE BADANIA PILOTAŻOWEGO
>? Jest rzeczą jasną, że opracowując test, np. dla potrzeb pracy magisterskiej, trudno Ci będzie stworzyć próbę rzeczywiście losową i reprezentatywną. Nie zwalnia Cię to jednak z obowiązku jak najbardziej starannego zadbania o to, aby w miarę Twoich możliwości badana przez Ciebie próba miała określone (pożądane) parametry.
>• Możesz zawsze skorzystać z metody doboru celowego i określić istotne parametry interesującej Cię populacji oraz skonstruować próbę, kierując się tymi ustaleniami. Możliwości jest wiele. Najgorsza z nich to dobór przypadkowy, np. ochotniczy (czyli po prostu - korzystanie z osób, które są w pobliżu). Warto zadać sobie trochę trudu i mieć potem pewność, że otrzymane przez Ciebie wyniki (choć niereprezentatywne w sensie statystycznym) pozwalają Ci na wyciąganie trafnych i rzetelnych wniosków.
Badana próba powinna być stosunkowo liczna. Ideałem byłoby, gdyby można było zbadać 100 osób (być może będzie trzeba obliczać dane procentowe). Ponieważ jednak może to być wymóg mało realistyczny, postaraj się, aby na pewno nie było ich mniej niż 30. Dopuszczalne minimum bowiem to tyle osób badanych, ile pozycji w teście, lecz nie mniej niż 30. Jeżeli trudno jest Ci zgromadzić taką liczbę osób badanych, to lepiej przeprowadzić badanie pilotażowe na mniejszej grupie niż całkowicie z niego zrezygnować. Zawsze się czegoś dowiesz o własnym teście.
W amerykańskich badaniach pilotażowych nad Skalą postaw wobec reklamy przebadano dwie próby liczące łącznie 383 osoby. W skład pierwszej - z założenia - młodszej próby studentów weszły 183 osoby (58% stanowiły kobiety, 37% miało mniej niż 21 lat, 40 % było w wieku od 21 do 30 lat, 15% w wieku od 31 do 40 lat i 8% powyżej 40 lat). Grupa ta okazała się bardziej zróżnicowana wiekowo, niż to pierwotnie zakładano. W drugiej - „starszej" - próbie (obejmującej tzw. głowy rodziny i liczącej 300 osób) znalazło się 69% kobiet, 21% miało mniej niż 30 lat, 20% było w wieku od 31 do 40 lat, 20% w wieku od 41 do 50 lat, 25% w wieku od 51 do 60 lat i 14% powyżej 60 lat.
W polskich badaniach przebadano 806 osób, z czego 505 były to osoby dorosłe wylosowane z próby panelowej do badania widowni telewizyjnej Ośrodka Terenowego w Poznaniu, 84 osoby były pracownikami agencji reklamowych, a 217 osób stanowiła młodzież.



236
Wiesz już, kogo będziesz badać w badaniach pilotażowych i jak liczna będzie próba.
Poradnik dla studentów
FT       „
PRZEPROWADZENIE BADANIA PILOTAŻOWEGO
>? Ten etap wymaga umiejętności organizacyjnych. Jeżeli Twój test może być stosowany w badaniach grupowych, to zastanów się, gdzie można przeprowadzić takie badania. Jeżeli przewidziane zostały tylko badania indywidualne, to musisz mieć wystarczająco dużo czasu, aby zebrać wszystkie dane. Nie odkładaj badań pilotażowych na ostatnią chwilę - musisz mieć czas na ewentualne uzupełnienie brakujących danych!
Amerykańskie badania pilotażowe Skalą postaw wobec reklamy zostały przeprowadzone na Ohio Valley State University oraz na próbie losowej, wylosowanej z próby panelowej do badania widowni telewizyjnej w Missisippi Valley. Badania polskie zostały zrealizowane na próbie złożonej z mieszkańców Poznania. Badania miały zarówno charakter

indywidualny, jak i grupowy.

Dysponujesz danymi, które zostaną wykorzystane w analizie pozycji.
ETAP XII
OBLICZENIE PARAMETRÓW POZYCJI TESTOWYCH
>? Teraz pora na obliczenia statystyczne. Nie jest to wcale trudne. Masz do wyboru wiele pakietów statystycznych (najbardziej znane to SPSS+ oraz CSS STATISTICA). Jednak zanim z nich skorzystasz, musisz najpierw zdecydować, jaki rodzaj współczynnika Cię interesuje. Pamiętaj: komputer to niewolnik - policzy wszystko, nawet jeżeli jest to całkowicie bez sensu. Policzy nawet współczynnik korelacji /--Pearsona między płcią a poziomem wykształcenia! To wyłącznie Ty decydujesz, jakie parametry pozycji testowych posłużą Ci do stworzenia ostatecznej wersji testu.
>• Jeżeli jest to test właściwości poznawczych, to może wystarczy wskaźnik trudności. Jeżeli jest to test właściwości afektywnych, to raczej rozważ możliwość obliczenia współczynnika mocy dyskryminacyjnej. Zdecyduj, jaki typ współczynnika Ci odpowiada: korelacyjny, a może oparty na różnicy między skrajnymi grupami.
>? Decydując o ostatecznej wersji swojego testu, weź pod uwagę nie tylko parametry statystyczne pozycji testowych, ale także np. obszary treściowe, które zostały wyróżnione na etapie projektowania testu. To nie może być mechaniczna decyzja. Czasami warto włączyć do testu pozycje o nieco gorszej mocy dyskryminacyjnej, ale ważne z punktu widzenia trafności treściowej.
237
Część druga
W Skali postaw wobec reklamy obliczano moc dyskryminacyjną metodą analizy różnic między skrajnymi grupami. Do ostatecznej wersji Skali weszły 33 twierdzenia.
Każda pożycia testowa została opisana pod kątem jej właściwości
statystycznych.
ETAP XIII
STWORZENIE OSTATECZNEJ WERSJI TESTU

>? Zrób ostateczny rachunek - pozycje uznane przez Ciebie za „dobre" wejdą do ostatecznej wersji testu. Pozostałe trzeba wyeliminować. Na razie jednak to tylko zbiór pozycji testowych spełniających określone kryteria. Musisz jeszcze się przekonać, czy zbudowana przez Ciebie metoda jest rzetelna i trafna - czy jest zatem testem psychologicznym.
>- Przeanalizuj pozycje, które zostały odrzucone. Ich analiza może wiele powiedzieć na temat tego, czy mierzony konstrukt został właściwie zdefiniowany. A może odpadł cały obszar treści? Warto to wiedzieć.
Ostateczna wersja Twojego testu jest gotowa.
ETAP XIV
OBLICZENIE RZETELNOŚCI TESTU

238
>? Masz do wyboru kilka metod badania rzetelności.
•  Może to być technika test-retest. Wymaga ona dwukrotnego badania tej samej grupy osób w pewnym odstępie czasu. Pozwoli Ci ocenić, na ile badana przez Ciebie cecha jest stabilna w czasie.
•  Może to być technika testów  równoległych. Musisz jednak stworzyć dwie metody, które będzie można uznać za testy równoległe.
•  Może to być technika połówkowania. Jeżeli się na nią zdecydujesz, pamiętaj o sposobie podziału testu na dwie połowy (pozycje parzyste-pozycje nieparzyste).
I wreszcie może to być szacowanie zgodności wewnętrznej testu. Tu jednak musisz pamiętać o jednej zasadzie: technika ta nadaje się do określania rzetelności testów jednorodnych, a więc takich, które dotyczą tylko jednowymiarowego konstruktu. Jeżeli masz wątpliwości, zastosuj analizę czynnikową. To technika, która pozwoli Ci w prosty sposób odpowiedzieć na pytanie, czy masz podstawy do wyróżnienia różnych wymiarów swojego testu. Jeżeli tak, to można stworzyć z nich niezależne skale i obliczać zgodność wewnętrzną w ramach każdej skali oddzielnie.


Poradnik dla studentów
Jako miarę rzetelności zastosowano w Skali postaw wobec reklamy technikę cc Cronbacha. Współczynnik obliczono niezależnie dla poszczególnych siedmiu podskal tworzących homogeniczne wymiary. I tak otrzymano dla skali:
1)  wpływ na życie ekonomiczne - a=0,68
2)  materializm i propagowanie konsumpcji - a = 0,78
3)  deprecjonowanie społecznie ważnych wartości - współczynnika nie policzono, gdyż skala zawierała tylko dwa twierdzenia
4)  wprowadzanie przez reklamę w błąd - = 0,60
5)  reklama jako informację o produktach - a = 0,68
6)  reklama jako propaganda określonego stylu życia - a=0,47
7)  reklama jako przeżywanie przyjemności - a = 0,57

Znasz rzetelność ostatecznej wersji Twojego testu.
ETAP XV
BADANIE TRAFNOŚCI TEORETYCZNEJ TESTU
>? To rzeczywiście jest już pewien problem. Dlatego warto pomyśleć o badaniu trafności teoretycznej wcześniej, aby niezbędne dane można było zebrać już w badaniach pilotażowych.
>? Dobrym rozwiązaniem jest zastosowanie techniki grup skrajnych. Odpowiednie dane możesz zebrać w badaniach pilotażowych. Pomyśl wcześniej, jakie hipotezy możesz wyprowadzić z teorii mierzonej cechy i czy możesz je zweryfikować na podstawie wyników Twojego testu. To jeden z prostszych sposobów na zebranie danych o trafności teoretycznej Twojego testu.
>• Może to być również analiza korelacji wyników Twojego testu z innymi testami mierzącymi podobne cechy (trafność zbieżna) lub inne cechy (trafność różnicowa). Jeżeli się zdecydujesz na ten sposób badania trafności, to zadbaj, aby odpowiednie dane zebrać w badaniach pilotażowych.
Do określenia trafności teoretycznej Skali postaw wobec reklamy wykorzystano metodę analizy czynnikowej. Zastosowano metodę głównych składowych z rotacją VARIMAX. Analiza danych potwierdziła występowanie sześciu czynników (wcześniej zakładano siedem): czterech określonych jako czynniki społeczno-ekonomiczne i dwóch jako osobiste funkcje reklamy (materializm, deprecjacja wartości oraz wprowadzanie w błąd stworzyły jeden czynnik, a pozycje mówiące o reklamie jako niepożądanym zjawisku w ogóle tworzyły czynnik ostatni). Łącznie wszystkie czynniki wyjaśniały 55% wariancji.

Potrafisz wskazać na dane potwierdzające trafność teoretyczną Twojego testu.
239
Część druga
PORÓWNANIA WEWNĄTRZGRUPOWE: NORMY
>• Najczęściej, w wypadku badań naukowych, etap określenia trafności testu kończy prace nad testem. Czasami jednak - obok wyników surowych, jakie otrzymasz w swoim teście - mogą Ci być potrzebne dane normatywne. Te dane wykorzystywane są zawsze wtedy, kiedy dokonuje się porównań między osobami wewnątrz tej samej grupy.
>• Co zatem trzeba zrobić? Sporządź rozkład wyników surowych otrzymanych w swoim teście i sprawdź, czy jest to rozkład normalny. W zależności od tego, jaką otrzymasz odpowiedź, zastosuj odpowiednia procedurę przeliczania wyników surowych na wybraną skalę standardową. A może wystarczy skala centylowa?
>? Pamiętaj! Dla celów badań naukowych w większości wypadków normy wcale nie są potrzebne. Dane surowe są bardziej zróżnicowane. Dobrze się zatem zastanów - czy rzeczywiście warto dokonywać takiej transfor-

macji wyników.
Potrzebne są Ci normy do porównań wewnątrzgrupowych.
Dokonana została transformacja wyników surowych na wyniki
odpowiedniej skali standardowej lub na skalę centylowa.


*    *    *
Czy warto tyle trudu wkładać w opracowanie testu, którego żywot bądź
co bądź będzie najprawdopodobniej krótki - tyle, co napisanie pracy
magisterskiej? Moja odpowiedź jest jednoznaczna. Nie tylko warto,
ale trzeba. Poznanie naukowe nie akceptuje bowiem bezmyślności!



?
240





Literatura
Aiken L.R. (1982). Psychological Testing and Assessment. Boston: Allyn
and Bacon. American Psychological Association, APA (1954). Technical recommen-
dations for psychological tests and diagnostic techniques. Supplement to
Psychologcal Bulletin, 51. American Psychological Association, APA (1980). Principles for the valida-
tion and use of personnel selection procedures. Washington, D.C.: Author. American Psychological Association, APA (198la). Ethical Principles of
Psychologists. Washington, D.C.: Author. American Psychological Association, APA (1981b). Speciality guidelines
for the delivery of services by clinical psychologists. American Psycho-
logist, 36, s. 640-651. American Psychological Association, APA (1981c). Speciality guidelines
for the delivery of services by counseling psychologists. American Psycho-
logist, 36, s. 652-663. American Psychological Association, APA (198Id). Speciality guidelines
for the delivery of services by industrial/organizational psychologists.
American Psychologist, 36, s. 664-669. American Psychological Association, APA (1981e). Speciality guidelines
for the delivery of services by school psychologists. American Psychologist, 36, s. 670-681. American Psychological Association, APA (1985a). Standardy dla testów
stosowanych w psychologii i pedagogice. Warszawa: Polskie Towarzystwo
Psychologiczne, Laboratorium Technik Diagnostycznych. American Psychological Association, APA (1985b). Standards for Educational and Psychological Testing (wyd. 4). Washington D.C.: APA. American Psychological Association, APA (1996). Statement on the disc-
losure of test data. American Psychologist, 51, s. 644-648. American Psychological Association, APA (1999). Standards for Educational
and Psychological Testing (wyd. 5). Washington D.C.: APA. Anastasi A., Urbina S. (1999). Testy psychologiczne. Warszawa: Pracownia
Testów Psychologicznych Polskiego Towarzystwa Psychologicznego. Angoff W.H. (1976). Grup membership as a predictor variable: A comment
on McNemar. American Psychologist, 31, s. 612. Angoff W.H. (1982). Difficulty and discrimination indices, w: A. Berk (red.),
Handbook of Methods for Detecting Test Bias (s. 96-116). Baltimore:
Johns Hopkins University
241

Literatura
242
Angoff W.H. (1993). Perspectives on differential item functioning me-
thodology, w: P.W. Holland, H. Wainer (red.), Differential Item Functioning (s. 3-24). Hillsdale, N.J.: Lawrence Erlbaum. Angoff W.H., Dyer H.S. (1971). The admission testing programs, w:
W.H. Angoff (red.), The College Board Admission Testing Program
(s. 1-13). New York: College Enatrance Examinations Board. Bartlett C.J., 0'Leary, B.S. (1969). A differential prediction model to mode-
rate the effects of heterogeneus grounds in personnel selection and clas-
sification. Personnel Psychology, 22, s. 1-17. Bechtold H.P. (1968). Teoretyczne podstawy metod testowych: trafność
i prognoza. Biuletyn Psychometryczny, 2, s. 7-50. Berg I.A. (1959). The unimportance of test item content, w: B.M. Buss,
A. Berg (red.), Objective Approaches to Personality Assessment (s. 83-99).
New York: Van Nostrand. Berk R.A. (red.), (1982). Handbook of Methods for Detecting Test Bias.
Baltimore: Johns Hopkins University Press. Berk R.A. (1984). A Guide to Criterion-Referenced Test Construction.
Baltimore: Johns Hopkins University Press. Bernal E.M. (1975). A response to "Educational uses of tests with disadvan-
tages students". American Psychologist, 31, s. 612. Binet A., Simon T. (1905a). Sur le necessite d'etablit un diagnostic scien-
tifiąue des etats inferieurs de 1'intelligence. UAnne psychologiąue, 11,
s. 163-190. Binet A., Simon T. (1905b). Methodes nouvelles pour le diagnostic du niveau
intellectuel des anormaux. UAnne psychologiąue, 11, s. 191-244. Binet A., Simon T. (1905c). Application des methodes nouvelles au diagnostic
du niveau intellectuel chez enfants et normaux d'hospice et d'ecole.
UAnne psychologiąue, 11, s. 245-366. Binet A, Simon T. (1908). Le developpment de l'intelligence chez les enfants.
UAnne psychologiąue, 14, s. 1-94. Binet A., Simon T. (1916). The Development of Intelligence in Children.
Baltimore, MD: Williams and Wilkins. Birnbaum A. (1968). Some latent models and their use in inferring an
examinee's ability, w: F.M. Lord, M.R. Novick (red.), Statistical Theories
of Mentol Test Scores (s. 397-471). Reading, MA: Addison-Wesley. Bordieu P., Passeron J.-C. (1990). Reprodukcja. Elementy teorii systemu
nauczania. Warszawa: Państwowe Wydawnictwo Naukowe. Brzeziński J. (1978). Elementy metodologii badań psychologicznych. Warszawa: Państwowe Wydawnictwo Naukowe. Brzeziński J. (1984). Badanie testu psychometrycznego metodą analizy
wariancji, w: J. Brzeziński (red.), Wybrane zagadnienia z psychometrii
i diagnostyki psychologicznej (s. 9-45). Poznań: Wydawnictwo Naukowe
UAM.
Literatura
Brzeziński J. (1993). Standardowe skale wyników WAIS-R: skala dewiacyjnych ilorazów inteligencji i skala wyników przeliczonych, w: J. Brzeziński, E. Hornowska (red.), Skala Inteligencji Wechslera WAIS-R (s. 84-99). Warszawa: Wydawnictwo Naukowe PWN.
Brzeziński J. (1994). Testy psychologiczne i ich użytkownicy - analiza kontekstu etycznego, w: J. Brzeziński, W. Poznaniak (red.). Etyczne problemy działalności badawczej i praktycznej psychologów (s. 83-101). Poznań: Wydawnictwo Fundacji Humaniora.
Brzeziński J. (1995). Rzetelność i trafność testów psychologicznych -jak jest i jak być powinno, w: J. Brzeziński (red.), Z zagadnień diagnostyki psychologicznej (s. 109-123). Poznań: Wydawnictwo Fundacji Humaniora.
Brzeziński J. (1996). Metodologia badań psychologicznych. Warszawa: Wydawnictwo Naukowe PWN.
Brzeziński J. (2000). Badania eksperymentalne w psychologii i pedagogice. Seria: Wykłady z Psychologii, t. 1. Warszawa: Wydawnictwo Naukowe Scholar.
Brzeziński J. (2000). Teoria testów psychologicznych: ABC psychometrii, w: J. Strelau (red.), Psychologia. Podręcznik akademicki. Tom 1: Podstawy psychologii (s. 400-415). Gdańsk: Gdańskie Wydawnictwo Psychologiczne.
Brzeziński J., Gaul M., Homowska E., Machowski A., Zakrzewska M. (1996). Skala Inteligencji Wechslera dla Dorosłych. Wersja Zrewidowana. Polska Adaptacja WAIS-R(PL). Podręcznik. Warszawa: Pracownia Testów Psychologicznych Polskiego Towarzystwa Psychologicznego.
Brzeziński J., Hornowska E. (2000). Adaptacja kulturowa testów psychologicznych, w: J. Strelau (red.), Psychologia. Podręcznik akademicki. Tom 1: Podstawy psychologii (s. 415-426). Gdańsk: Gdańskie Wydawnictwo Psychologiczne.
Brzozowski P., Drwal R. (1995). Kwestionariusz Osobowości Eysencka. Polska adaptacja EPQ-R. Podręcznik. Warszawa: Polskie Towarzystwo Psychologiczne, Pracownia Testów Psychologicznych.
Camara W.J. (1997). Use and consequences of assessments in the USA: Professional ethical and legał issues. European Journal of Psychological Assessment, 13, s. 140-152.
Camilli G., Shepard L.A. (1994). Methods for Identyfying Biased Test Items. Thousand Oaks and London: Sagę Publications.
Campbell D.T. (1960). Recommendations for APA test standards regarding construct, trait, or discriminant validity. American Psychologist, 15, s. 546-553.
Campbell D.T., Fiske D.W. (1959). Convergent and discriminant validation by the multitrait-multimethod matrix. Psychological Bulletin, 56, s. 81-105.
Choynowski M. (1971). Podstawy i zastosowania teorii rzetelności testów psychologicznych, w: J. Kozielecki (red.), Problemy psychologii matematycznej (s. 65-118). Warszawa: Państwowe Wydawnictwo Naukowe.
243
Literatura
244
Ciechanowicz A. (red.), (1990). Kulturowa adaptacja testów. Warszawa: Polskie
Towarzystwo Psychologiczne, Laboratorium Technik Diagnostycznych Ciechanowicz A. (1996). Prawne aspekty tworzenia, adaptacji i rozpowszechniania i stosowania testów psychologicznych, w: A. Ciechanowicz, A. Jawo-
rowska, T. Szustrowa (red.), Testy, prawo, praktyka (s. 27-50). Warszawa:
Polskie Towarzystwo Psychologiczne, Pracownia Testów Psychologicznych. Cohen R.J., Swerdlik M.E. (1999). Psychological Testing and Assessment.
An Introduction to Tests and Measurement. Mountain View, CA: Mayfield. Cole N.S. (1993). History and development of DIF, w: P.W. Holland,
H. Wainer (red.), Differential Item Functioning (s. 25-30). Hillsdale, N.J.:
Lawrence Erlbaum. Crocker L., Algina J. (1986). Introduction to Classical and Modern Test
Theory. New York: Holt, Rinehart and Winston. Cronbach L.J. (1951). Coefficient alpha and the internal structure of tests.
Psychometrika, 16, s. 297-334. Cronbach L.J.  (1970;  1990). Essentials of Psychological Testing (wyd.
3/1970; wyd. 5/1990;). New York: Harper Collins Publishers. Cronbach L.J. (1971). Test validation, w: R.L. Thorndike (red.), Educational
measurement (wyd. 2). Washington D.C.: American Council of Education. Cronbach L.J. (1976). Eąuity in selection: Where psychometrics and political
philosophy meet. Journal of Educational Measurement, 13, s. 31—41. Cronbach L.J., Gleser G.C. (1965). Psychological Test and Personnel Desi-
cions (wyd. 2). Urbana: University of Illinois. Cronbach L.J., Gleser G.C, Nanda H., Rajaratnam N. (1972). The Depen-
dability of Behavioral Measurement. New York: Wiley. Cronbach L.J., Meehl P.E. (1955). Construct validity in psychological tests.
Psychological Bulletin, 52, s. 281-302. Czapiński J. (1978). Dyferencjał semantyczny, w: L. Wołoszynowa (red.),
Materiały do nauczania psychologii. Metody badań psychologicznych.
Seria UJ, tom 3 (s. 257-275). Warszawa: Państwowe Wydawnictwo Naukowe. Daniel M.H. (1997). Intelligence testing: Status and trends. American Psycholo-
gist 10, s. 1038-1045. Darlington R.B. (1971). Another look at "cultural fairness". Journal of
Educational Measurement, 3, s. 71—82. Davis D.L., Rubin R.S. (1983). Identifying the energy conscious consumer:
The case of the opinion leader. JAMS, 11, s. 169-190. Diana vs. California State Board of Education (1970). U.S. District Court for
the Northern District of California.
Domański Cz. (1979). Statystyczne testy nieparametryczne. Warszawa: PWE. Drwal R. (1990). Problemy kulturowej adaptacji kwestionariuszy osobowości,
w: A. Ciechanowicz (red.), Kulturowa adaptacja testów (s. 115-138).
Warszawa: Polskie Towarzystwo Psychologiczne, Laboratorium Technik
Diagnostycznych.
Literatura
Drwal R. (1995). Adaptacja kwestionariuszy osobowości. Warszawa: Wydawnictwo Naukowe PWN.
DuBois P.H. (1970). A History of Psychological Testing. Boston: Allyn and Bacon.
Ebel R.L. (1965). Measuring Educational Achievement. Englewood Cliffs, NJ: Prentice-Hall.
Ebel R.L. (1972). The social consequences of educational testing, w: G.H. Bracht, K.D. Hopkins, J.C. Stanley (red.). Perspectives in Educational and Psychological Measurement (s. 3-13). Englewood Cliffs. N.J.: Prentice-Hall.
Edgewarth F.Y. (1892). Correlated averages. Philosophical Magazine, 34, s. 190-204.
Edwards A.L. (1957). Techniąues ofAttitude Scalę Construction. New York: Appleton-Century-Crofts.
Edwards A.L. (1970). The Measurement of Personality Traits by Scales and Inventories. New York: Holt, Rinehart and Winston.
Eells K., Davis K., Havighurst R.J., Herrick V.E., Tyler R.W. (1951). Intelli-gence and Cultural Dijferences. Chicago: University of Chicago Press.
Einhorn J.J., Bass A.R. (1971). Methodological considerations relevant to discrimination in employment testing. Psychological Bulletin, 75, s. 261-269.
Ellett F.S. (1980). Fairness and the Predictors. Referat wygłoszony na konferencji American Educational Research Association, Boston.
Ellis L. (1998). The evolution of attitudes about social stratification: Why many people (including social scientists) are morally outraged by "The Bell Curve". Personality and Individual Differences, 2, s. 207-216.
Embretson S.E. (1985). Multicomponent latent trait models for test design, w: S.E. Embretson (red.), Test Design: Developments in Psychology and Psychometrics (s. 195-218). Orlando, FL: Academic Press.
Embretson S.E. (2000). Item Response Theory for Psychologists. Mahwah, N.J.: Lawrence Erlbaum.
Eysenck H.J. (2000). Teorie osobowości - ujęcie w terminach cech, w: S.E. Hampson, A.M. Colman (red.), Psychologia różnic indywidualnych (s. 63-85). Poznań: Wydawnictwo Zysk i S-ka.
Ferguson G.A., Takane Y. (1997). Analiza statystyczna w psychologii i pedagogice. Warszawa: Wydawnictwo Naukowe PWN.
Frankfort-Nachmias Ch., Nachmias D. (2001). Metody badawcze w naukach społecznych. Poznań: Wydawnictwo Zysk i S-ka.
Frederiksen N. (1984). The real test biast. Influences of testing on teaching and learning. American Psychologist, 3, s. 193-202.
Gaul M. (1989). Ocena trafności testu za pomocą modeli równań strukturalnych. Przegląd Psychologiczny, 32, s. 435-448.
Gaul M., Zakrzewska M. (1993). Charakterystyka amerykańskiej i polskiej próby standaryzacyjnej i normalizacyjnej, w: J. Brzeziński, E. Hornowska (red.), Skala Inteligencji WAIS-R Wechslera. Polska adaptacja, standaryzacja, normalizacja i wykorzystanie w diagnostyce psychologicznej (s. 107-118). Warszawa: Wydawnictwo Naukowe PWN.
245
Literatura


246
Geller S., Kość Z. (1976). Diagnoza kliniczna a diagnoza psychometryczna, w: L. Wołoszynowa (red.), Materiały do nauczania psychologii. Metody badań psychologicznych. Seria III, tom 3 (s. 365-388). Warszawa: Państwowe Wydawnictwo Naukowe.
Glaser R. (1963). Instructional technology and the measurement of learning outcomes. American Psychologist, 18, s. 519-522.
Goldberg L.R. (1994). Historyczny przegląd skal i inwentarzy osobowości. Biblioteka Psychologa Praktyka. Tom V: Kwestionariusze w diagnostyce psychologicznej i badaniach naukowych (s. 11-82). Warszawa: Polskie Towarzystwo Psychologiczne, Pracownia Testów Psychologicznych.
Goldman L. (1974). Test information in counseling: A critical review. Proceedings of 1973 Invitational Conference on Testing Problems (s. 28-29). New Jersey: Educational Testing Services.
Goleman D. (1997). Inteligencja emocjonalna. Poznań: Media Rodzina of Poznań.
Greń J. (1974). Statystyka matematyczna. Modele i zadania. Warszawa: Państwowe Wydawnictwo Naukowe.
Gruijter D.N.M., Van der Kamp LJ. (1991). Generalizability theory, w: R.K. Hambleton, J.N. Zaal (red.), Advances in Educational and Psychological Testing (s. 45-68). Boston-London-Dordrecht: Kluwer Academic Publishers.
Guilford J.P. (1936; 1954). Psychometrics methods (wyd. 2/1954). New York: McGraw-Hill.
Guilford J.P. (1964). Podstawowe metody statystyczne w psychologii i pedagogice. Warszawa: Państwowe Wydawnictwo Naukowe.
Guilford J.P. (1988a). Teoria testów psychologicznych. Biblioteka Psychologa Praktyka. Tom II: Problemy teorii, rzetelności, konstrukcji i analizy wyników testów psychologicznych (s. 9-50). Warszawa: Polskie Towarzystwo Psychologiczne, Laboratorium Technik Diagnostycznych.
Guilford J.P. (1988b). Rzetelność i trafność pomiarów. Biblioteka Psychologa Praktyka. Tom II: Problemy teorii, rzetelności, konstrukcji i analizy wyników testów psychologicznych (s. 51-103). Warszawa: Polskie Towarzystwo Psychologiczne, Laboratorium Technik Diagnostycznych.
Guilford J.P. (1988c). Tworzenie testu. Biblioteka Psychologa Praktyka. Tom II: Problemy teorii, rzetelności, konstrukcji i analizy wyników testów psychologicznych (s. 104-177). Warszawa: Polskie Towarzystwo Psychologiczne, Laboratorium Technik Diagnostycznych.
Guion R.M. (1980). On trinitarian doctrines of validity. Professional Psycho-logy, 11, s. 385-398.
Gulliksen H. (1950). Theory of Mental Tests. New York: Wiley.
Hambleton R.K., Rogers H.J. (1991). Advances in criterion-referenced measurement, w: R.K. Hambleton, J.N. Zaal (red.), Advances in Educational and Psychological Testing (s. 3-43). Boston-London-Dordrecht: Kluwer Academic Publishers.
Literatura
Hambleton R.K., Zaal J.N. (red.) (1991). Advances in Educational and Psychological Testing. Boston-Dordrecht: Kluwer Academic Publishers.
Haney W., Madaus G. (1991). The evolution of ethical and technical standards for testing, w: R.K. Hambleton, J.N. Zaal (red.), Advances in Educational and Psychological Testing (s. 395-426). Boston-Dordrecht: Kluwer Academic Publishers.
Hart S.H., Moncrief W.C., Parasuraman A. (1989). An empirical investigation of salespeople's performance, effort and selling method during a sales contest. JAMS, 17, s. 29-39.
Herrnstein R., Murray Ch. (1994). The Bell Curve: Intelligence and Class Structure in American Life. New York: Free Press.
Hilliard A.G. (1979). Standardization and cultural bias as impediments to the scientific study and validation of "intelligence". Journal of Research and Development in Education, 12, s. 47-58.
Holland P.W., Thayer D.T. (1988). Differential item performance and the mantel-haenszel procedurę, w: H. Wainer, H.I. Brown (red.), Test Validity. (s. 129-145). Hillsdale, N.J.: Lawrence Erlbaum.
Hornowska E. (1980). Klasyczna teoria testów a model Rascha, w: J. Brzeziński (red.), Poznańskie Studia z Filozofii Nauki. Tom 5: Z zagadnień psychologii ilościowej (s. 117-130). Warszawa: Państwowe Wydawnictwo Naukowe.
Hornowska E. (1989). Opernejonalizacja wielkości psychologicznych. Założenia - struktura - konsekwencje. Wrocław-Warszawa: Ossolineum.
Hornowska E. (1993a). Skala inteligencji Davida Wechslera w świetle teorii inteligencji, w: J. Brzeziński, E. Hornowska (red.), Skala Inteligencji WAIS-R Wechslera. Polska adaptacja, standaryzacja, normalizacja i wykorzystanie w diagnostyce psychologicznej (s. 192-204). Warszawa: Wydawnictwo Naukowe PWN.
Hornowska E. (1993b). Słownik, w: J. Brzeziński, E. Hornowska (red.), Skala Inteligencji WAIS-R Wechslera. Polska adaptacja, standaryzacja, normalizacja i wykorzystanie w diagnostyce psychologicznej (s. 168-182). Warszawa: Wydawnictwo Naukowe PWN.
Hornowska E. (1999). Stronniczość testów psychologicznych. Problemy - kierunki - kontrowersje. Poznań: Wydawnictwo Fundacji Humaniora.
Hornowska E. (2000a). Operacj onalizacj a terminów teoretycznych: czynnik, wielkość, zmienna, w: J. Strelau (red.), Psychologia. Podręcznik akademicki. Tom 1: Podstawy psychologii (s. 389-399). Gdańsk: Gdańskie Wydawnictwo Psychologiczne.
Hornowska E. (2000b). Stronniczość testów psychologicznych, w: J. Strelau (red.), Psychologia. Podręcznik akademicki. Tom 1: Podstawy psychologii (s. 426-431). Gdańsk: Gdańskie Wydawnictwo Psychologiczne.
Hornowski B. (1970). Analiza psychologiczna Skali J. C. Ravena. Warszawa: Państwowe Wydawnictwo Naukowe.
247
Literatura
248
Hulin CL., Drasgow F., Parsons CK. (1983). Item Response Theory. Application to Psychological Measurement. Homewood, DLL.: Dow Jones Irwin.
Hunter J.E., Schmidt F.L. (1976). A critical analysis of the statistical and ethical implications of five definitions of test fairness. Psychological Bulletin, 83, s. 1053-1071.
Hunter J.E., Schmidt F.L., Rauschenberger J. (1984). Methodological, statistical, and ethical issues in the study of bias in psychological tests, w: C.R. Reynolds, T. Brown (red.), Perspectives on Bias in Mental Testing (s. 41-100). New York: Plenum Press.
Jakubowski J. (1983). Elementy klasycznej teorii trafności testów psychologicznych, w: W.J. Paluchowski (red.), Z zagadnień diagnostyki osobowości (s. 223-247). Wrocław-Warszawa: Ossolineum.
Jaworowska A. (1996). Co to jest test psychologiczny?, w: A. Ciechanowicz, A. Jaworowska, T. Szustrowa (red.), Testy, prawo, praktyka (s. 9-26). Warszawa: Polskie Towarzystwo Psychologiczne, Pracownia Testów Psychologicznych.
Jaworowska A. (2000). Dostęp do testów psychologicznych i kompetencje zawodowe ich użytkowników, w: J. Brzeziński, M. Toeplitz-Winiewska (red.), Etyczne problemy psychologii (s. 269-278). Poznań: Wydawnictwo Fundacji Humaniora.
Jensen A.R. (1980). Bias in Mental Testing. New York: Free Press.
Jensen A.R. (1984). Test bias: concepts and criticism, w: C.R. Reynolds, T. Brown (red.), Perspectives on Bias in Mental Testing (s. 507-586). New York: Plenum Press.
Kelley T.L. (1939). Selection of upper and lower groups for validation of test items. Journal of Educational Psychology, 30, s. 17-24.
Klopfer B., Ainsworth M., Klopfer W., Holt R.R. (1954). Developments in the Rorschach Techniąue. Vol. 1: Techniąue and Theory. Yonkers-on--Hudson, N.Y.: World.
Król-Fijewska M. (1991). Trening asertywności. Warszawa: Instytut Psychologii Zdrowia i Trzeźwości, Polskie Towarzystwo Psychologiczne.
Kuder G.F., Richardson M.W. (1937). The theory of estimation of test reliability. Psychometrika, 2, s. 151-160.
Lawshe C.H. (1975). A quantitative approach to content validity. Personnel Psychology, 28, s. 563-575.
Likert R. (1932). A technique for the measurement of attitudes. Archives of Psychology, 140, s. 44-53.
Lindeman R.H., Merenda P.F. (1979). Educational Measurement. Glenview 111.: Scott, Foresman&Co.
Lindąuist E.F. (1953). Design and Analysis of Experiments in Psychology and Education. Boston: Houghton-Mifflin.
Listwan T. (1993). Dobór i ocena kadry menadżerskiej. Wrocław: Wrocławska Biblioteka Współczesnego Menadżera.
Literatura
Loevinger J. (1957). Objective tests as instruments of psychological theory. Psychological Reports, 3, s. 635-694.
Lord F.M. (1952a). A theory of test scores. Psychometric Monograph, 7.
Lord F.M. (1952b). The relation of the reliability of multiple-choice tests to the distribution of item difficulties. Psychometrica, 17, s. 181-194.
Lord F.M. (1953). The relation of test score to trait underlying the test. Educational and Psychological Measurement, 13, s. 517-548.
Lord F.M. (1977). A study of item bias, using item characteristic curve theory, w: Y.H. Poortinga (red.), Basic Problems in Cross-Cultural Psy-chology (s. 19-29). Amsterdam: Swets and Zeitlinger.
Lord F.M. (1980). Applications ofitem Response Theory to Practical Testing Problems. Hillsdale, N.J.: Erlbaum.
Lord F.M., Novick M.R. (1968). Statistical Theories of Mentol Test Score i. Readings, MA.: Addison-Wesley.
Machowski A. (1993). Rzetelność testów psychologicznych. Dwa ujęcia modelowe. Warszawa-Poznań: Wydawnictwo Naukowe PWN.
Macmillan (1975). Guidełines for Creating Positive Sexual and Racial Images in Educational Materials. New York: Author.
Magnusson D. (1981). Wprowadzenie do teorii testów. Warszawa: Państwowe Wydawnictwo Naukowe.
Matarazzo J.D. (1992). Psychological testing and assessment in the 21st century. American Psychologist, 47, s. 1007-1018.
Matczak A. (1994). Diagnoza intelektu. Warszawa: Wydawnictwo Psychologii PAN.
Matczak A., Jaworowska A., Szustrowa T., Ciechanowicz A. (1995). Bateria Testów APIS-Z. Podręcznik. Warszawa: Polskie Towarzystwo Psychologiczne, Pracownia Testów Psychologicznych.
Matuszewski, A. (1984). Interpretacja formalna wyników w testach psychologicznych, w: J. Brzeziński (red.), Wybrane zagadnienia z psychometrii i diagnostyki psychologicznej (s. 47-72). Poznań: Wydawnictwo Naukowe UAM.
McCall W.A. (1939). Measurement. New York: Macmillan.
McCornack R.L. (1983). Bias in the validity of predicted college grades in four ethnic minority groups. Educational and Psychological Measurement, 43, s. 517-522.
McNemar Q. (1975). On so-called test bias. American Psychologist, 30, s. 848-851.
Mehrens W.A., Lehmann I.J. (1973). Measurement and Evaluation in Edu-cation and Psychology. New York: Holt, Rinehart and Winston.
Messick S. (1989). Validity, w: R.L. Linn (red.), Educational Measurement (wyd. 3, s. 13-103). New York: American Council on Education-Mac-millan.
249
Literatura
250
Miele F. (1997). Rozmowa magazynu Skeptic z Robertem Sternbergiem na temat książki The Bell Curve. Czasopismo Psychologiczne, 1, s. 35-42.
Modlin H.C. (1947). A study of the MMPI in clinical practice with notes on the Cornell Index. American Journal of Psychiatry, 103, s. 758-769.
Moreland K.L., Eyde L.D., Robertson G.J., Primoff E.S., Most R.B. (1995). Assessment of test user ąualifications. A research-based measurement procedurę. American Psychologist, 1, s. 14-23.
Neter J., Wasserman W. (1974). Applied Linear Statistical Models. Home-wood, 111.: Richard D. Irwin.
Niemierko B. (1975). Testy osiągnięć szkolnych. Podstawowe pojęcia i techniki obliczeniowe. Warszawa: Wydawnictwa Szkolne i Pedagogiczne.
Nowakowska M. (1975). Psychologia ilościowa z elementami naukometńi. Warszawa: Państwowe Wydawnictwo Naukowe.
Nunnally J.C. (1978). Psychometric Theory (2 wyd.). New York: McGraw-Hill.
Okręgłicka-Forysiak E. (1993). Test Matryc J.C. Ravena. Diagnoza ilościowa i jakościowa, w: E. Okręglicka-Forysiak (red.), Wybrane metody diagnostyczne w psychologii (s. 105-124). Wrocław: Wydawnictwo Uniwersytetu Wrocławskiego.
Osgood C.E., Suci G.J., Tannenbaum P.H. (1957). The Measurement of Meaning. Urbana: University of Illinois Press.
Osterlind S.J. (1983). Test Item Bias. Sagę University Paper series on Quan-titatwe Applications in the Social Sciences, 30. Beverly Hills-London: Sagę Publications.
Paluchowski W.J. (1987). Jacy ci badani właściwie są? Uwagi do artykułu Zbigniewa B. Gasia i Natalii Tomali. Przegląd Psychologiczny, 30, s. 475-479.
Paluchowski W.J. (1991). Diagnozowanie osobowości. Testowanie-interpre-tacja-interwencja. Poznań: Wydawnictwo Naukowe UAM oraz Nakom.
Paluchowski W.J. (1999). Wpływ postawy wobec reklam telewizyjnych na ich odbiór, w: P. Francuz (red.). Psychologiczne aspekty odbioru telewizji (s. 127-150). Lublin: Towarzystwo Naukowe KUL.
Paluchowski W.J. (2001). Diagnoza psychologiczna - podejście ilościowe i jakościowe, seria: Wykłady z Psychologii, t. 7. Warszawa: Wydawnictwo Naukowe Scholar.
Petersen N.S., Novick M.R. (1976). An evaluation of some models for cultural-fair selection. Journal of Educational Measurement, 13, s. 3-29.
Pollay R.W., Mittal B. (1993). Here's the beef: factors, determinants, and segments in consumer criticism of advertising. Journal of Marketing, 57, s. 99-114.
Polskie Towarzystwo Psychologiczne (1992). Kodeks etyczno-zawodowy psychologa. Warszawa.
Popham W.J. (1981). Modern Educational Measurement. Englewood Cliffs, N.J.: Prentice-Hall.
Popham W.J., Husek T.R. (1972). Implications of criterion-referenced measurement, w: G.H. Bracht, K.D. Hopkins, J.C. Stanley (red.), Perspectives in Educational and Psychological Measurement (s. 132-143). Englewood Cliffs, N.J.: Prentice Hali.
Literatura
Poznaniak W. (1994). Diagnozowanie a etykietowanie (stygmatyzowanie)
ludzi, w: J. Brzeziński, W. Poznaniak (red.), Etyczne problemy działalności
badawczej i praktycznej psychologów (s. 73-81). Poznań: Wydawnictwo
Fundacji Humaniora. Poznaniak W. (2000). Prywatność jako wartość w świetle obowiązujących aktów
prawnych, w: J. Brzeziński, M. Toeplitz-Winiewska (red.), Etyczne problemy
psychologii (s. 135-143). Poznań: Wydawnictwo Fundacji Humaniora. Raven J.C., Court J.H., Raven J. (1994). Podręcznik do Testu Matryc Ravena
oraz Skal Słownikowych Ravena. Warszawa: Polskie Towarzystwo Psychologiczne, Pracownia Testów Psychologicznych. Reber A.S. (2000). Słownik psychologii. Warszawa: Wydawnictwo Naukowe
Scholar. Reynolds C.R. (1982a). The problem of bias in psychological assessment,
w: C.R. Reynolds, T.B. Gutkin (red.), The Handbook ofSchool Psychology
(s. 178-208). New York: Willey. Reynolds C.R. (1982b). Construct and predictive bias, w: R.A. Berk (red.),
Handbook of Methods for Detecting Test Bias (s. 199-227). Baltimore:
Johns Hopkins University Press. Reynolds C.R., Brown T. (1984). Bias in testing: Introduction to the issues,
w: C.R. Reynolds, T. Brown (red.), Perspectives on Bias in Mentol Testing
(s. 1-39). New York: Plenum Press. Reynolds C.R., Kaiser H. (1990). Test bias in psychological assessment,
w: T.B. Gutkin, C.R. Reynolds (red.), The Handbook ofSchool Psychology
(wyd. 2, s. 487-525). New York: Wiley. Ricks J.H. (1993). Normy lokalne - kiedy i dlaczego?, w: J. Brzeziński,
E. Hornowska (red.), Zpsychometrycznych problemów diagnostyki psychologicznej (s. 49-58). Poznań: Wydawnictwo Naukowe UAM. Roach R.J., Frazier L.P., Bowden S.R. (1981). The Marital Satisfaction Scalę:
Development of a measure for intervention research. Journal of Marriage
and the Family, 21, s. 251-255. Roe R.A., Greuter M.A.M. (1991). Developments in personnel selection
methodology, w: R.K. Hambleton, J.N. Zaal (red.), Advances in Educa-
tional and Psychological Testing (s. 187-226). Boston-London-Dordrecht:
Kluwer Academic Publishers. Rubinsztejn S.L. (1962). Podstawy psychologii ogólnej. Warszawa: Książka
i Wiedza. Rudner L.M. (1980). Biased items detection techniąues. Journal of Educa-
tional Statistics, 5, s. 213-233. Sattler J.M. (1974). Assessment of Children's Intelligence. Philadelphia:
B. Saunders Company. Schmeiser C.B. (1982). Use of experimental design in statistical item bias
studies, w: R.A. Berk (red.), Handbook of Methods for Detecting Test
bias. Baltimore: Johns Hopkins University Press.
251
Literatura
252
Seashore H.G. (1955). Methods of expressing test scores. The Psychological Corporation Test Service Bulletin, 48.
Seligman D. (1995). O inteligencji prawie wszystko. Kontrowersje wokół ilorazu inteligencji. Warszawa: Wydawnictwo Naukowe PWN.
Shah S.A. (1969). Privileged Communications, confidentiality, and privacy. Privileged Communications. Professional Psychology, 1, s. 56-59.
Shavelson R.J., Webb N.M. (1991). Generalizability Theory: A Primer. Newbury Park, CA: Sagę.
Shepard L. (1981). Identyfying bias in test items, w: B.F. Green (red.), New Direction in Testing and Measurement (s. 79-104). San Francisco: Jossey--Bass.
Shepard L., Camilli G., Averill M. (1981). Comparison of procedures for detecting test-item bias with both internal and external ability criteria. Journal of Educational Statistics, 6, s. 317-376.
Shepard L., Camilli G., Williams D.M. (1984). Accounting for statistical artifacts in item bias research. Journal of Educational Statistics, 9, s. 93-128.
Sowa J. (1984). Kulturowe założenia pojęcia normalności w psychiatrii. Warszawa: Państwowe Wydawnictwo Naukowe.
Spearman C. (1904). The proof and measurement of assosiation between two things. American Journal of Psychology, 15, s. 72-101.
Spearman C. (1907). Demonstration of formulae for true measurement of correlation. American Journal of Psychology, 18, s. 161-169.
Stachowski R. (2000). Historia współczesnej myśli psychologicznej. Od Wundta do czasów najnowszych, seria: Wykłady z Psychologii, t. 4. Warszawa: Wydawnictwo Naukowe Scholar.
Stepulak M.Z. (2000). Tajemnica zawodowa w działalności badawczej i praktycznej psychologów, w: J. Brzeziński, M. Toeplitz-Winiewska (red.), Etyczne problemy psychologii (s. 103-134). Poznań: Wydawnictwo Fundacji Humaniora.
Sternberg R.J. (1992). Ability tests, measurement, and markets. Journal of Educational Psychology, 2, s. 134-140.
Strelau J. (1987). O inteligencji człowieka. Warszawa: Wiedza Powszechna.
Strelau J. (1995). Regulacyjna teoria temperamentu: z perspektywy 20 lat badań, w: W. Łukaszewski (red.), W kręgu teorii czynności. Kolokwia Psychologiczne (tom 5: s. 11-21). Warszawa: Instytut Psychologii PAN.
Strelau J., Zawadzki B. (1998). Kwestionariusz Temperamentu PTS. Podręcznik. Warszawa: Polskie Towarzystwo Psychologiczne, Pracownia Testów Psychologicznych.
Suen H.K. (1990). Principles of Test Theories. Hillsdale, N.J.: Lawrence Erlbaum.
Szałkowski A. (1995). Zarządzanie potencjałem pracy. Warszawa: Wydawnictwo SGH.

Literatura

Szewczuk W. (red.), (1979). Słownik psychologiczny. Warszawa: Wiedza
Powszechna. Szymczak M. (red.) (1979). Słownik języka polskiego. Warszawa: Państwowe
Wydawnictwo Naukowe. Świrydowicz T. (1985). Pojęcie normy w psychologii klinicznej, w: B. Wa-
ligóra (red.), Elementy psychologii klinicznej (s. 5-29). Poznań: Wydawnictwo Naukowe PWN. Taylor H.C., Russell J.T. (1939). The relationship of validity coefficients to
the paractical effectiveness of tests in selection. Journal of Applied
Psychology, 23, s. 565-578. The Rights and Responsibilities of Test Takers: Guidelines and Expectations
(1998). http://www.apa.org/science/ Thorndike R.L. (1904). An Introduction to the Theory of Mental and Social
Measurements. New York, Science Press.
Thorndike R.L., Hagen E. (1977). Measurement and Evaluation in Psychology and Education (wyd. 4). New York: Wiley. Thorndike R.L. (1971). Concepts of cultural-fairness. Journal of Educational
Measurement, 4, s. 63-70. Tittle CK. (1982). Judgmental methods, w: R.A. Berk (red.), Handbook of
Methods for Detecting Test Bias (s. 31-63). Baltimore: Johns Hopkins
University Press.
Tomaszewski T. (1947). O psychologii w ZSRR. Poznań: Poznańskie Towarzystwo Psychologiczne. Van de Vijver F., Tanzer N.K. (1997). Bias and equivalence in cross-cultural
assessment: An overview. European Review of Applied Psychology, 47,
s. 263-279. Vitell S.J., Rallapalli K.C., Singhapakdi A. (1993). Marketing norms: The
influence of personal morał philosophies and organizational ethical culture.
JAMS,21, s. 331-338. Ustawa o zawodzie psychologa i samorządzie zawodowym psychologów.
Dziennik Ustaw RP z dnia 18 lipca 2001, nr 73, poz. 763. Walasek S. (red.), (1994). Studia o szkolnictwie i oświacie mniejszości narodowych
w XIX i XX wieku. Wrocław: Wydawnictwo Uniwersytetu Wrocławskiego. Wechsler D. (1939). The Measurement of Adult Intelligence. Baltimore:
Williams and Wilkins. Wechsler D. (1974). Wechsler Intelligence Scalę for Children - Revisited.
New York: The Psychological Corporation. Wechsler D. (1998). Definicja i natura inteligencji, w: J. Brzeziński,
E. Hornowska (red.), Skala inteligencji Wechslera WAIS-R (s. 15-20).
Warszawa: Wydawnictwo Naukowe PWN. Weiss D.J., Yoes M.E. (1991). Item response theory, w: R.K. Hambleton,
J.N. Zaal (red.), Advances in Educational and Psychological Testing
(s. 69-95). Boston, London, Dordrecht: Kluwer Academic Publishers.
253
Literatura
254
Wieberg H.J.W., Neeb K.E., Schott F. (1984). Empirical comparison of trained and non-trained teachers in constructing criterion-referenced items. Studies in Educational Evaluation, 10, s. 199-204.
Wiggins J.S. (1994). Techniki ustrukturowane. Biblioteka Psychologa Praktyka. Tom V: Kwestionariusze w diagnostyce psychologicznej i badaniach naukowych (s. 93-170). Warszawa: Polskie Towarzystwo Psychologiczne, Pracownia Testów Psychologicznych.
Williams R.L. (1974). From dehumanization to black intellectual genocide: A rejoiner, w: G.J. Williams, S. Gordon (red.), Clinical Child Psychology: Current Practices and Future Perspectives. New York: Behavioral Pub-lications.
Williams R.L., Dotson W., Dow P., Williams W.S. (1980). The war against testing: A current status report. Journal of Negro Education, 49, s. 263-273.
Witwicki W. (1928). O narodowych testach amerykańskich do badania inteligencji. Psychotechnika, 7, s. 23-32.
Wojtkiewicz-Rok W. (1996). Rola wydziału lekarskiego Uniwersytetu Jana Kazimierza w kształtowaniu polskiego modelu nauczania medycyny. Studia medyczne UJK w latach 1920-1939. Wrocław: Akademia Medyczna we Wrocławiu.
Yaremko R.M., Harari H., Harrison R.C., Lynn E. (1982). Reference Hand-book of Research and Statistical Methods in Psychology: For Students and Professionals. Cambridge, MA: Harper and Row.
Zakrzewska M. (1993). Analiza czynnikowa wyników: W-B I, WAIS, WAIS-R, w: J. Brzeziński, E. Hornowska (red.), Skala Inteligencji WAIS-R Wechslera. Polska adaptacja, standaryzacja, normalizacja i wykorzystanie w diagnostyce psychologicznej (s. 295-326). Warszawa: Wydawnictwo Naukowe PWN.
Zakrzewska M. (1994). Analiza czynnikowa w budowaniu i sprawdzaniu modeli psychologicznych. Poznań: Wydawnictwo Naukowe UAM.
Zakrzewska M. (1997). Konfirmacyjna analiza czynnikowa WAIS-R (PL). Wyniki osób od 16 do 54 roku życia. Przegląd Psychologiczny, 40, s. 419-442.
Zakrzewska M. (2000). Trzy różne ilorazy inteligencji: Interpretacja polskiej wersji Skali Inteligencji Wechslera dla Dorosłych [WAIS-R(PL)]. Czasopismo Psychologiczne, 6, s. 159-169.
Zawadzki B., Strelau J. (1997). Formalna charakterystyka zachowania - Kwestionariusz Temperamentu (FCZ-KT). Warszawa: Polskie Towarzystwo Psychologiczne, Pracownia Testów Psychologicznych.

Aiken L.R. - 18, 38, 59, 91, 101, 152, 168, 169, 173, 177, 178, 180, 185, 187, 190, 192, 202,
241,  244 Ainsworth M. - 248
Algina J. - 18, 34, 38, 59, 73, 91, 101, 152, 153, 168, 169, 173, 177, 178, 180, 185, 187, 190, 192, 202, 241, 244
Anastasi A. - 21, 22, 24, 26-29, 38, 39, 42, 49, 50, 52, 54, 57, 67, 79, 82-84, 87, 89, 91-94, 96,99,100, 110,112,115,125,127,129,137, 148, 150-152, 154, 156, 157, 171,172,177,182,184,186,191, 192, 204, 213-215, 217, 241
Angoff W.H. - 110, 187, 188, 190, 206, 241, 242
Averill M. - 104, 252
Bartlett C.J. - 112, 242
Bass A.R. - 101,245,252
Bechtold H.P. - 81, 83, 242
Berg LA. - 210, 242
Berk R.A. - 59, 107, 154, 190, 241,
242, 251, 253 BernalE.M. - 110,242
Binet A. - 11, 37-39, 100, 151, 242
Birnbaum A. - 193, 200, 242
BłażkaB. - 11
BourdieuP. -208, 211, 242
Bowden S.R. - 251
Bracht G.H. - 250
Brown H.I. -60, 101, 105, 108, 109,
111,247,251 Brown T. -248, 251 Brzeziński J. - 11, 13, 25, 29, 30,
38, 49, 50, 57, 64, 79, 73, 82, 84,
Indeks nazwisk
87, 94, 96, 98, 99, 127, 130, 134, 137, 142, 144, 146, 147, 157, 165, 182, 204, 213, 214, 225,
242, 243, 245, 247-249, 251-253 Brzozowski P. - 97, 243
Burosa O.K. - 40, 82
Camara W.J. - 208, 243 Camilli G. - 103, 104, 107, 187, 189, 195, 197, 198, 200, 218,
243,  252
Campbell D.T. - 94, 96, 243
Cattell J.M. - 37, 39
Choynowski M. - 21, 49, 50, 52,
55, 67, 243 Ciarkowska W. - 186 Ciechanowicz A. - 30, 225, 244,
248, 249 Cohen R.J. - 37, 39, 42, 52, 84, 87,
88,  92-95, 137, 152, 153, 156, 163,  164,  166,  169-171,  184, 191, 192, 213-215, 217-219, 244
Cole N.S. - 102, 244
Colman A.M. - 245
Court J.H. - 19, 251
Crocker L. - 18, 34, 57, 73, 91, 101, 149, 152, 153, 168, 169, 173, 177, 178, 180, 185, 187, 192, 202, 244
Cronbach L.J. - 11, 20, 21, 22, 39, 54, 70, 72, 75, 77, 81-84, 93-95, 110, 111, 126, 131, 146, 151, 153, 155, 166, 239, 244
Czapiński J. - 166, 244
Daniel M.H. - 224, 244 Darlington R.B. - 110, *23, 244 Darwin K. - 36, 37                          255
Indeks nazwisk
256
Davis D.L. - 62, 244 Davis K. - 62, 186, 245 Desnos R. -211 Domański Cz. - U4,142,244
DotsonW. -106, 254
Dow P. - 106, 254
Drasgow F. - 30, 31, 96, 97, 104,
201,  202, 203, 243-245, 248 Drwal R. - 30, 31, 96, 97, 104, 201,
202,  243-245, 248 DuBois P.H. - 35-37, 39, 245 Dyer H.S. - 206, 242
Ebbinghaus H. - 36 Ebel R.L. - 178, 208, 211, 245 Edgeworth F.Y. - 11,245 Edwards A.L. - 38, 93, 160, 182,
245
Eells K. - 186, 245 Einhorn J.J. - 101, 245 Ellett F.S. - 125, 245 Ellis L. - 208, 245 Embretson S.E. - 100,194, 201, 245 Eyde L.D. - 250 Eysenck H.J. - 97, 99, 243, 245
Fechner G. - 36 Ferguson G.A. - 171, 245 Fiske D.W. - 96, 243 Francuz P. - 250 Frankfort-Nachmias Ch. - 130, 162,
245
Frazier L.P. - 251 Frederiksen N. - 207, 245
Galton F. - 37, 39 Gaś Z.B. - 250
Gaul M. - 96, 130, 132, 243, 245 Geller S. - 20, 93, 154, 246 Glaser R. - 24, 246 GleserG.C. - 11,21,244 Goldberg L.R. - 39, 246 Goldman L. - 212, 246
Goleman D. - 208, 246 Golombok S. 227 Green B.F. - 252 Greft J. - 144, 246
Greuter MAM. - 115, 124, 251
Griggs - 40, 219
Gruijter D.N. - 70, 246
Guilford J.P. - 38, 42-^4, 47, 53-55, 57, 79, 115-118, 127, 142, 178, 181, 182, 192, 246
Guion R.M. - 82, 94, 246
Gulliksen H. - 21, 43, 47, 246
Gutkin T.B. - 251
Hagen E. - 166, 168, 253
Hambleton R.K. - 155, 156, 184, 185, 224, 246, 247, 251, 253
Hampson S.E. - 245
Haney W. - 213, 224, 247
Hart S.H. - 62, 247
Havighurst R.J. - 186, 245
Herrick V.E. - 186, 245
Herrnstein R. - 207, 247
Hilliard A.G. - 107, 247
Hillsdale N.J. - 242, 244
Holland P.W. - 188, 242, 244, 247
Holt R.R. - 248
Hopkins K.D. - 245, 250
Hornowska E. - 13, 18, 30, 84, 94, 100,114,125,127,157,161,172, 191,200,203, 204,243,245,247
Huarte J. - 39
Hulin CL. - 104, 201-203, 248
Hunter J.E. - 119-123, 125, 248
Husek T.R. - 185, 250
Iverson J.A. -215
Jakubowski J. - 90, 92-94, 99, 127,
248
Jastrow J. - 39 Jaworowska A. - 26-29, 113, 129,
221,225,248,249
Indeks nazwisk
Davis D.L. - 62, 244
Davis K.-62, 186,245
Desnos R. -211
Domański Cz. - 114, 142, 244
Dotson W. - 106, 254
Dow P. - 106, 254
Drasgow F. - 30, 31, 96, 97, 104,
201,  202, 203, 243-245, 248 Drwal R. - 30, 31, 96, 97, 104, 201,
202,  243-245, 248 DuBois P.H. - 35-37, 39, 245 Dyer H.S. - 206, 242
Ebbinghaus H. - 36 Ebel R.L. - 178, 208, 211, 245 Edgeworth F.Y. - 11,245 Edwards A.L. - 38, 93, 160, 182,
245
Eells K. - 186, 245 Einhorn J.J. - 101, 245 Ellett F.S. - 125, 245 Ellis L. - 208, 245 Embretson S.E. - 100, 194, 201, 245 Eyde L.D. - 250 Eysenck H.J. - 97, 99, 243, 245
Fechner G. - 36 Ferguson G.A. - 171, 245 Fiske D.W. - 96, 243 Francuz P. - 250 Frankfort-Nachmias Ch. - 130, 162,
245
Frazier L.P. - 251 Frederiksen N. - 207, 245

Galton F. - 37, 39 Gaś Z.B. - 250
Gaul M. - 96, 130, 132, 243, 245 Geller S. - 20, 93, 154, 246 Glaser R. - 24, 246 Gleser G.C. - 11, 21, 244 Goldberg L.R. - 39, 246 256    Goldman L. - 212, 246
Goleman D. - 208, 246
Golombok S. 227
Green B.F. - 252
Greń J. - 144, 246
Greuter M.A.M. - 115, 124, 251
Griggs - 40, 219
Gruijter D.N. - 70, 246
Guilford J.P. - 38, 42^4, 47, 53-55, 57, 79, 115-118, 127, 142, 178, 181, 182, 192, 246
Guion R.M. - 82, 94, 246
Gulliksen H. - 21, 43, 47, 246
Gutkin T.B. - 251
Hagen E. - 166, 168, 253
Hambleton R.K. - 155, 156, 184, 185, 224, 246, 247, 251, 253
Hampson S.E. - 245
Haney W. - 213, 224, 247
Hart S.H. - 62, 247
Havighurst R.J. - 186, 245
Herrick V.E. - 186, 245
Herrnstein R. - 207, 247
Hilliard A.G. - 107, 247
Hillsdale N.J. - 242, 244
Holland P.W. - 188, 242, 244, 247
Holt R.R. - 248
Hopkins K.D. - 245, 250
Hornowska E. - 13, 18, 30, 84, 94, 100,114,125,127,157,161,172, 191,200, 203, 204,243,245,247
Huarte J. - 39
Hulin CL. - 104, 201-203, 248
Hunter J.E. - 119-123, 125, 248
Husek T.R. - 185, 250
Iverson J.A. - 215
Jakubowski J. - 90, 92-94, 99, 127,
248
Jastrow J. - 39 Jaworowska A. - 26-29, 113, 129,
221,225,248,249
mmmmmmmmm?BfiSSi             WKM1Indeks nazwisk1Jensen A.R. - 101-103, 106, 109,Mehrens W.A. - 137, 164, 165, 2491112, 119-122,248Merenda P.F. - 59, 248|Jung C. - 39Messick S. - 81, 84, 94, 249Miele F. - 208, 209, 250Kaiser H. - 109, 251Mittal B. - 227, 250KelleyT.L. - 177, 182,248Modlin H.C. - 250Kendall M.G. - 87, 233Moncrief W.C. - 62, 247Klopfer B. - 214, 248Moreland K.L. -221, 250Klopfer W. - 214, 248Most R.B. - 250Kość Z. - 20, 246Murray Ch. - 207, 247Kozielecki J. - 243IKról-Fijewska M. - 85, 248Nachmias D. - 130, 162, 2451Kuder G.F. - 53, 54, 57, 58, 248NandyH.-21,244Neeb K.E. - 185Lawshe C.H. - 87-89, 233, 248NeterJ. - 114, 2501Lehmann I.J. - 137, 164, 165, 249Niemierko B. - 129, 150, 152, 153,jLikert R. - 163-166, 230, 248156, 163, ,164, 166, 176, 250Lindeman R.H. - 59, 248Novick M.R. - 11, 12, 18, 19, 21,Lindquist E.F. - 70, 24833,44,48, 94, 110Linn R.L. - 249Nowakowska M. - 12, 17, 48, 50,Listwan T. - 114, 24876, 250Loevinger J. - 94, 249Nunnally J.C. - 66, 168-171, 2501LordF.M. - 11, 12, 18, 19,21, 33,144, 48, 94, 174, 193, 203, 242,0'Leary B.S. - 112, 2421249Okręglicka-Forysiak E. - 100, 2501Łukaszewski W. - 252OsgoodC.E.- 166,250 Osterlind S.J. - 103, 190, 195, 196,|198, 199, 2501Machowski A. - 12, 44, 48, 243,Otis A. - 381249Madaus G. - 213, 224, 247Paluchowski W.J. - 12, 20, 22, 29,Magnusson D. - 12, 42, 48, 57,127, 160, 212, 223, 227, 228,I60-62, 64, 68, 84, 90, 92, 94,248, 2501131, 140, 142, 144, 146, 147,Parasuraman A. - 62, 2471175, 178, 180, 183, 184, 249Parsons CK. - 104, 201, 202, 248Matarazzo J.D. - 224, 249Passeron J.-C. - 203, 208, 211, 242Matczak A. - 95, 151, 249Pawłów I. - 162Matuszewski A. - 128, 137, 147,Petersen N.S. - 110, 250148, 157, 249Piotrowska A. - 186McCall W.A. - 136, 249Platon - 127McCornack R.L. - 109, 249Pollay R.W. - 227, 250McNemar Q. - 110, 241, 249Poortinga Y.H. - 249Meehl P.E. - 81, 84, 94, 95, 110,244Popham W.J. - 162, 185, 250            257JJIndeks nazwisk
Poznaniak W. - 209, 210, 217, 225,
243, 251 Primoff E.S. - 250
Rajaratnam N. - 11, 21, 244 Rallapalli K.C. - 62, 253 RaschG. - 11, 200, 247 Rauschenberger J. - 119, 123, 125,
248 Raven J.C. - 19, 100, 106, 247, 250,
251
Reber A.S. - 17, 251 Reynolds C.R. - 101, 105, 107-111,
248, 251
Richardson M.W. - 53, 57, 248 Ricks J.H. - 129, 133, 157, 251 Roach R.J. - 95, 251 Robertson G.J. - 250
RoeR.A. - 115, 124, 251

Rogers H.J. - 155, 156, 184, 185,
224, 246
Rorschach H. - 38, 39 Rubin R.S. - 62, 244 Rubinsztejn S.L. - 208, 251 Rudner L.M. - 203, 251 RussellJ.T.-116, 253
Rust J. - 227
Sattler J.M. - 152, 251 Schmeiser C.B. - 190, 251 Schmidt F.L. - 119-123, 125, 248 Schott F. - 185 Seashore H.G. - 135, 252 Seligman D. - 219, 220, 252 Shah S.A. - 217, 252 Shavelson R.J. - 252 Shepard L.A. - 103, 104, 107, 187, 189, 195, 197, 198, 200, 218, 243, 252
SimonT. - 11, 37, 39, 100, 151, 242 Singhapakdi A. - 62, 253 258    Sowa J. - 128, 252
Spearman Ch. - 38, 39, 43, 44, 53,
59, 60, 91, 252 Stachowski R. - 37, 252 Stanley J.C. - 245, 250 Stepulak M.Z. - 216, 225, 252 Sternberg R.J. - 11, 205, 208, 209,
221, 223, 224, 250, 252 Stone C. - 39 Strelau J. - 38, 136, 137, 151, 161,
166, 169, 243, 247, 252 Strong E.K. - 38 Suci G.J. - 166, 250 Suen H.K. - 35, 70-75, 78, 81, 83,
173, 252 Swerdlik M.E. - 37, 39, 42, 52, 84,
87, 88, 92-95, 137, 152, 153,
156,  163,  164,  166,  169-171,
184,     191,     192,     213-215,
217-219, 244 Szałkowski A. - 117, 252 Szewczuk W. - 17, 253 Szustrowa T. - 225, 244, 248, 249 Szymczak M. - 17, 80, 101, 128,
253
Świrydowicz T. - 128, 253
Takane Y. - 134, 171, 245

Tannenbaum P.H. - 166, 250 Tanzer N.K. - 105, 111, 253 TaylorH.C. - 116,253 Terman L. - 38, 39 ThayerD.T. - 188, 247 Thorndike R.L. - 11, 17, 38, 39, 110, 136, 166, 168, 244,253
Thursone L. - 39

Tittle C.K. - 108, 109, 253 Toeplitz-Winiewska M. - 225, 248,
251, 252 Tomala N. - 250 Tomaszewski T. - 207, 253 TylerR.W.-186,245
Indeks nazwisk
Urbina S. - 21, 22, 24, 26-29, 38,       Wieberg H.J.W. - 185, 254
39, 42, 49, 50, 52, 54, 57, 67, 79,       Wiggins J.S. - 160, 166, 210 82-84, 87, 89, 91-94, 96, 99, 100,       Williams D.M. - 106, 189, 252 110,112,115,125,127,129,137, 148,  150-152,  154,  156,  157,
Williams R.L. - 106, 107 Williams W.S. - 106, 242
171, 172, 177, 182,184, 186, 191,       Witwicki W. - 108, 207
192, 204, 213-215, 217, 241
Wojtkiewicz-Rok W. - 124 Wołoszynowa L. - 244, 246
Van de Vijver F. - 105, 111, 253         Woodworth R. - 38, 39
Van der Kamp - 70, 246                     Wundt W. - 36, 37, 39, 252
Vitell S.J. - 62, 253
Yaremko R.M. - 47, 254
Walasek S. - 124, 253                         Yoes M.E. - 194, 253
Warchoł G. - 223
Wasserman W. - 114, 250                   Zaal J.N. - 224, 246, 247, 251, 253
Webb N.M. - 73, 252                         Zakrzewska M. - 97, 98, 130, 132,
Wechsler D. - 18, 40, 97, 106, 132,           243, 245
134, 137, 138, 171, 245, 247, 253       Zawadzki B. - 136, 137, 161, 166,
Weiss D.J. - 194, 253                              169, 252





259

W serii „Wykłady z Psychologii" ukazały się następujące książki:
Jerzy Brzeziński
Badania eksperymentalne w psychologii i pedagogice
[t. 1]
Ida Kurcz
Psychologia języka i komunikacji [t. 2]
Anna Brzezińska
Społeczna psychologia rozwoju
[t. 3]
Ryszard Stachowski
Historia współczesnej myśli psychologicznej.
Od Wundta do czasów najnowszych
[t. 4]
Helena Sęk
Wprowadzenie do psychologii klinicznej [t. 5]
Elżbieta Hornowska
Testy psychologiczne. Teoria i praktyka
[t. 6]







Władysław Jacek Paluchowski
Diagnoza psychologiczna. Podejście ilościowe i jakościowe
[t. 7]
Bogdan Wojciszke
Człowiek wśród ludzi. Zarys psychologii społecznej [t. 8]
Augustyn Bańka
Społeczna psychologia środowiskowa [t. 9]
Jan Strelau
Psychologia różnic indywidualnych
[t. 10]
Piotr Oleś Psychologia osobowości


[t- U]

j
••_-__-__**?_W_«ftW_-_-__mmmmmm-m____»»________._amm«mmmmm«a?•________________________