SCOPUL UNITĂŢII DE CURS ▪ oferă noţiuni, explicaţii şi aplicaţii pentru a înţelege şi opera eficient cu programul SPSS 10.0 în scopul prelucrării statistice a datelor. OBIECTIVE OPERAŢIONALE În urma studierii acestei unităţi de curs, studenţii: ▪ vor putea să definească variabilele şi să conceapă o bază de date adecvată; ▪ vor redefini şi transforma variabile; ▪ vor prelucra datele statistice la nivel descriptiv; ▪ vor realiza analiza corelaţională a datelor şi vor interpreta rezultatele obţinute; ▪ vor folosi testul t pentru compararea unui eşantion cu o populaţie şi a două eşantioane (perechi sau independente) şi vor interpreta rezultatele obţinute; ▪ vor utiliza analiza de varianţă pentru analiza efectului unui singur factor şi vor interpreta rezultatele obţinute; ▪ vor utiliza analiza de varianţă pentru analiza efectelor de interacţiune; ▪ vor utiliza metode non-parametrice de analiză a datelor. EVALUARE ▪ 40% din nota finală examen practic care presupune prelucrarea şi interpretarea datelor; ▪ 60% din nota finală evaluările de pe parcursul seminariilor, care vor presupune prelucrări şi analize statistice ale datelor.
OBSERVAŢIE !!! Cursul nu epuizează opţiunile programului SPSS şi nu suplineşte lipsa informaţiilor statistice teoretice.
ANALIZA COMPUTERIZATĂ A DATELOR
I. FAMILIARIZAREA CU PROGRAMUL SPSS 10.0 I.1. TIPURI DE VARIABILE. DIFERENŢA DINTRE VARIABILE, VALORI ŞI SCORURI Variabile sunt definite ca proprietăţi ale fenomenelor, obiectelor sau proceselor, care pot lua diferite valori. Există mai multe criterii în funcţie de care se pot clasifica variabilele: după natura măsurii variabilele pot fi: cantitative (variază cantitativ, cum ar fi de exemplu greutatea sau vârsta subiecţilor) sau calitative (sunt cele care variază calitativ, cum ar fi genul sau etnia subiecţilor); după felul variaţiei, variabilele pot fi: continui (teoretic pot lua orice valoarea, între două valori ale variabilei putând să apară o a treia valoare; vârsta subiecţilor este un exemplu de variabilă continuă) sau discrete (pot avea numai anumite valori, între care nu mai apar altele; religia, tipurile temperamentale sunt exemple de variabile discontinui); după scopul folosirii lor în studii experimentale: independente (sunt variabilele manipulate de experimentator şi care se presupune că influenţează variabila dependentă) sau dependente (reprezintă răspunsurile subiecţilor). O variabilă poate lua diferite valori. Valoarea reprezintă o măsură calitativă sau cantitativă a unui fenomen. Spre exemplu, pentru variabila “nota şcolară” valorile acesteia sunt toate notele de la 1 la 10. Pentru variabila “zilele săptămânii” valorile sunt toate cele şapte zile ale săptămânii. În psihologie se face distincţia între valori şi scoruri. Scorul este valoarea obţinută de o persoană, fenomen sau obiect atunci când ne referim la o anume variabilă. Spre exemplu, nota pe care o obţine un elev la o materie (să zicem 7) reprezintă scorul subiectului la variabila “nota şcolară”. I.2. PREZENTAREA APLICAŢIEI SPSS SPSS (în traducere Pachet statistic pentru ştiinţele sociale) este numele unui pachet de programe care ajută la analiza datelor obţinute în cercetările din domeniul ştiinţelor sociale. Deschiderea programului se poate face cu ajutorul mouse-ului, cu dublu-click asupra pictogramei programului de pe desktop. Aplicaţia mai poate fi deschisă de la butonul START/PROGRAME, opţiunea SPSS FOR WINDOWS, ca în imaginea de mai jos:
Oricare ar fi metoda de deschidere a programului, pe ecran va apărea următoarea fereastră:
251
LOREDANA GHERASIM
Prima bară din partea de sus a ferestrei oferă informaţii despre denumirea aplicaţiei şi numele fişierului cu care se lucrează. Urmează bara de meniuri a programului şi cea cu butoane. Foia cu date este organizată tabelar. Întotdeauna coloanele tabelului reprezintă variabilele studiului, în timp ce liniile, rândurile numerotate ale tabelului reprezintă subiecţii cercetării. În partea de jos a ferestrei sunt două opţiuni: DATA VIEW şi VARIABLE VIEW. Putem vizualiza datele brute ale subiecţilor, dacă este activă opţiunea DATA VIEW sau putem vizualiza descrierea variabilelor introduse în baza de date, dacă este activată opţiunea VARIABLE VIEW. De obicei, atunci când deschidem programul, este activă opţiunea DATA VIEW, cum se poate observa şi în imaginea de mai sus. Printr-un simplu click stânga pe opţiunea VARIABLE VIEW, pe ecran apare un alt tabel care permite definirea variabilelor din baza de date: Din meniul FILE putem alege comanda deschidere a unei noi baze de date (opţiunea NEW DATA) sau a unei noi foi de rezultate (NEW OUTPUT): Acest program prezintă rezultatele prelucrărilor statistice într-o pagină separată, numită OUTPUT. Comenzile care sunt colorate în gri sunt comenzi inactive pentru că baza de date nu conţine, deocamdată, nici o informaţie. Din acest meniu putem deschide, folosind opţiunea OPEN, o bază de date care a fost creată anterior (DATA) sau un fişier cu rezultatele prelucrărilor statistice anteriore (OUTPUT).
252
ANALIZA COMPUTERIZATĂ A DATELOR
Comanda SAVE permite salvarea obişnuită a fişierului cu date sau cu rezultate, comanda SAVE AS permite salvarea unui fişier modificându-i numele. Opţiunile RECENTLY USED DATA şi RECENTLY USED FILES deschid bazele de date şi foile cu rezultate recent create sau utilizate în programul SPSS. Din meniul EDIT, comenzile COPY, CUT şi PASTE sunt folosite pentru copierea sau mutarea datelor din celule, rânduri sau coloane. Copierea sau mutarea datelor presupune selectarea datelor, activarea comenzii COPY/CUT din meniul EDIT, plasarea cursorului în noua locaţie şi apoi activarea comenzii PASTE. I.3. DESCHIDEREA UNEI BAZE DE DATE Pentru deschiderea unei baze de date create anterior se activează meniul FILE/OPEN opţiunea DATA. După activarea comenzii pe ecran apare o casetă de dialog care permite selectarea directorului şi respectiv fişierului care conţine baza de date. Vom deschide fişierul opinii.sav (în aplicaţia SPSS, fişierele cu baze de date au întotdeauna extensia sav) care se găseşte la adresa C:\MY DOCUMENTS\EXEMPLE SPSS. În momentul încărcării bazei de date pe ecran va apărea următoarea imagine: Valorile din baza de date reprezintă răspunsurile brute ale subiecţilor. Pe coloane sunt definite variabilele. În această bază de date avem pe coloană variabile (ca de exemplu, gr_mult, prezent, viitor, directie, guv, parlam), valorile numerice din fiecare coloană reprezentând scorurile subiecţilor la aceste variabile. Rândurile conţin răspunsurile subiecţilor la diferiţi itemi. De exemplu, subiectul de pe rândul 9 are valoare 3 la variabila gr_mult, valoarea 3 la variabila prezent, 4 la variabila viitor etc. Pentru a vedea ce înseamnă fiecare dintre aceste variabile trebuie activată opţiunea VARIABLE VIEW:
253
LOREDANA GHERASIM
Variabilele sunt aşezate pe rânduri, coloanele reprezentând diferite caracteristici ale variabilelor. De exemplu, variabila gr_mult este o variabilă de tip numeric, cu 20 de caractere la partea întreaga şi 0 zecimale, reprezentând itemul „Cât de mulţumit sunteţi în general de felul în care trăiţi?”. I.4. CREAREA UNEI NOI BAZE DE DATE Pentru a crea o nouă bază de date trebuie activată opţiunea DATA VIEW. Vom crea o baza de date care să conţină rezultatele la anxietate obţinute de un număr de subiecţi, înainte şi după intervenţia terapeutică (anxietatea a fost măsurată cu ajutorul unei scale de anxietate). La studiu au participat subiecţi de gen feminin şi masculin. Baza de date va conţine patru variabile: numărul subiecţilor (nrsub), nivelul anxietăţii subiecţilor înaintea terapiei (ANX1) şi nivelul anxietăţii subiecţilor după terapie (ANX2) şi genul subiecţilor (1-subiecţi de gen masculin şi 2-subiecţi de gen feminin). Pentru introducerea datelor se plasează cursorul în celulă şi se introduce valoarea cu ajutorul tastelor. Spre exemplificare, vom introduce prima valoare (1) a primei variabile. După introducerea primei valori automat programul a denumit prima variabilă (var0001), iar indicativul primei linii devine activ.
La fel se vor introduce şi celelalte valori ale primei variabile. Pentru a utiliza cu uşurinţă datele este indicată definirea sau redenumirea variabilelor cu care lucrăm. Definirea variabilelor presupune activarea câmpului VARIABLE VIEW, prin executarea unui dublu click pe numele variabilei (în cazul nostru var0001) sau prin activarea butonului VARIABLE VIEW din partea de jos a câmpului. Rezultatul va fi următorul:
Numele variabilei poate să cuprindă maxim opt caractere, fără spaţiu sau semne de punctuaţie. Pentru a defini o variabilă, trebuie plasat cursorul în celula în care este trecut numele (NAME) generic al variabilei (var0001), apoi se introduce numele variabilei NRSUB folosind tastatura. Opţiunea TYPE permite specificarea tipului de date. Această opţiune poate fi activată cu ajutorul mouse-ului cu un click stânga pe butonul gri din celula corespunzătoare variabilei.
254
ANALIZA COMPUTERIZATĂ A DATELOR
Tipul NUMERIC permite introducerea valorilor cu sau fără zecimale. Tipurile COMMA şi DOT permit introducerea valorilor cu orice număr de zecimale (mai mare de 16), reţinând întreaga valoare. Tipul SCIENTIFIC NOTATION transformă logaritmic valorile introduse, DATE permite folosirea spaţiilor, punctelor, virgulelor, a barelor de separarea pentru a delimita zilele, lunile şi anii, respectiv orele şi minutele. Tipul DOLLAR inserează în faţa valorilor simbolul dolarului, iar CUSTOM CURRENCY permite introducerea de valorilor pozitive dar şi a celor negative, cu sau fără separator pentru mii. Ultima opţiune STRING permite introducerea variabilelor alfanumerice. Este posibilă alegerea numărului de cifre pentru partea întreagă (WIDTH) şi a numărului de zecimale (DECIMAL PLACES). Deşi sunt mai multe tipuri de variabile, în psihologie se utilizează două tipuri de variabile, NUMERIC şi STRING (foarte rar). Automat la crearea unei noi baze de date, apare selectat tipul NUMERIC, presupunându-se că noile variabile vor fi numerice. Opţiunea TYPE este de obicei folosită pentru modifica acest tip de date. Caracteristica LABELS permite definirea detaliată a variabilei (pot fi folosite până la maxim 256 caractere, inclusiv spaţiul). Definirea detaliată a variabilei apare în pagina de rezultate. VALUE LABEL permite descrierea valorile pe care le poate lua o variabilă. Opţiunea este folosită pentru variabile care folosesc coduri numerice pentru a reprezenta categorii (de exemplu, se pot folosi valorile 1 şi 2 pentru a codifica genul feminin şi masculin). MISSING VALUES permite stabilirea valorilor care nu vor fi luate în seamă la prelucrarea datelor. COLUMN permite specificarea numărului de caractere pentru o coloană, afectând vizualizarea datelor. ALIGNMENT permite modificarea modului în care sunt prezentate datele pe ecran, aliniate la stânga, dreapta sau central. În exemplu nostru, vom defini numele variabilei NRSUB şi vom detalia eticheta la opţiunea LABEL ca în imaginea de mai jos:
Vom introduce valorile şi vom defini şi următoarele variabile, ANX1, ANX2 şi Gen. Variabila Gen este de tip categorial, în funcţie de această caracteristică subiecţii fiind împărţiţi în două categorii distincte, femei şi bărbaţi. Din acest motiv trebuie precizată semnificaţia valorilor variabilei. Acest lucru presupune atribuirea de valori şi etichete celor două grupuri de subiecţi. Astfel, subiecţii de sex masculin îi vom codifica cu valoarea 1, iar pe cei de gen feminin cu valoarea 2. În acest scop vom activa opţiunea VALUE:
255
LOREDANA GHERASIM
Se trece valoarea în câmpul VALUE şi numele grupului sau categoriei în câmpul VALUE LABEL, după care se apasă butonul ADD. Astfel, vom scrie „1” în câmpul VALUE şi „subiecţi de gen masculin” în câmpul VALUE LABEL şi activăm butonul ADD, apoi vom scrie „2” în câmpul VALUE şi „subiecţi de gen feminin” în câmpul VALUE LABEL şi activăm butonul ADD.
Se activează butonul OK pentru a salva modificările şi închide caseta de dialog.
Această opţiune se foloseşte numai pentru variabilele categoriale, care împart subiecţii în grupuri distincte. Salvarea fişierelor se face fie acţionând butonul SAVE care se găseşte în bara de instrumente, fie din meniul FILE se alege opţiunea SAVE. Reamintim că trebuie ales mai întâi directorul în care vream să salvăm fişierul si apoi scriem numele fişierului. Vom salva fişierul cu numele Baza1.sav în subdirectorul EXEMPLE SPSS care se găseşte în directorul MY DOCUMENTS.
256
ANALIZA COMPUTERIZATĂ A DATELOR
II. ELEMENTE DE STATISTICĂ DESCRIPTIVĂ II.1. ANALIZA FRECVENŢELOR Tabelele de frecvenţă ajută la descrierea unui grup de scoruri, fiind cele mai simple procedee ale statisticii descriptive, care permit înţelegerea tendinţei unui grup de scoruri. Tabelele de frecvenţa grupează scorurile subiecţilor, informaţia devenind, astfel, mai comprehensibilă. Histogramele, reprezentări grafice ale tabelelor de frecvenţă permit o mai bună înţelegere a tendinţei grupului de rezultate. Acestea presupun transformarea intervalelor de frecvenţă în bare, înălţimea barelor corespunzând frecvenţei fiecărui interval de frecvenţă din tabelul de frecvenţă. Poligoanele de frecvenţă sunt o altă modalitate de reprezentare grafică a datelor din tabelele de frecvenţă. Acestea se obţin, prin unirea mijloacelor părţilor superioare ale barelor histogramelor. Tabelul de frecvenţă, histograma şi poligonul de frecvenţă descriu o distribuţie de frecvenţă, prezentând modul în care se distribuie sau se împrăştie cazurile sau frecvenţele. Modalitatea, înclinarea şi turtirea sunt indicatori care descriu forma distribuţie scorurilor. Modalitatea indică câte “vârfuri” are o distribuţie, cu alte cuvinte, arată valorile în jurul cărora se grupează rezultatele subiecţilor. Din această perspectivă, distribuţiile pot fi unimodale (au un singur vârf), bimodale (au două vârfuri) sau multimodale (au mai multe vârfuri). Înclinarea arată dacă în distribuţie apar mai multe valori mari sau mai multe valori mici. Cele mai multe aspecte măsurate în psihologie prezintă un număr aproximativ egal de cazuri de o parte şi de alta a mijlocului, distribuţiile fiind aproximativ simetrice (nu prezintă tendinţă de înclinare). O distribuţie este înclinată atunci când are o extremă (o parte) mai împrăştiată şi mai lungă. Atunci când curba este înclinată spre dreapta, distribuţia este înclinată pozitiv, iar când curba este înclinată spre stânga, distribuţia este înclinată negativ. Spre exemplu, notele şcolare au o distribuţie înclinată spre dreapta, adică elevii au tendinţa de a obţine mai multe note mari. Turtirea unei distribuţii se raportează la curba normală. Faţă de curba normală o distribuţie poate fi mai turtită (scorurile din cadrul ei variază foarte mult de la medie) sau mai ascuţită (scorurile variază foarte puţin de la medie). Analiza de frecvenţă cu ajutorul programului SPSS Opţiunea FREQUENCIES permite realizarea tabelului de frecvenţă şi a distribuţiei de frecvenţă a rezultatelor. Aceasta se găseşte la meniul ANALYZE – DESCRIPTIVE STATIASTICS:
257
LOREDANA GHERASIM
După activarea opţiunii pe ecran apare următoarea casetă de dialog: În câmpul din stânga al casetei FREQUENCIES sunt afişate toate variabilele din baza de date, în ordinea introducerii lor în baza de date, împreună cu denumirea extinsă a variabilei. Câmpul din dreapta reprezintă câmpul de analiză. Astfel, analiza statistică se realizează doar pentru variabilele trecute în acest câmp. Trecerea variabilelor în câmpul de analiză se realizează cu ajutorul butonului cu săgeată care se găseşte între câmpuri. Se selectează din câmpul din stânga variabila pe care vrem să analizăm apoi se activează butonul de trecere. Acest mod de organizare în două câmpuri apare la aproape toate opţiunile de prelucrare a datelor. Bifarea opţiunii DISPLAY FREQUECY TABLES are ca efect afişarea în foaia de rezultate a tabelul de frecvenţă. Opţiunea STATISTICS deschide o fereastră cu opţiuni de prelucrare statistică, butonul CHARTS permite afişarea histogramei de frecvenţă. Opţiunea FORMAT permite modificarea formei de prezentare a datelor în foia cu rezultate (OUTPUT). Pentru exemplul nostru, dorim realizarea tabelului de frecvenţă şi histogramei pentru variabila „nivelul anxietăţii înainte de terapie” (ANX1). Se selectează variabila ANX1 din câmpul din stânga şi se activează butonul de trecere: Pentru ca în foaia de rezultate să apară tabelul de frecvenţă se selectează opţiunea DISPLAY FREQUECY TABLES. Pentru afişarea histogramei de frecvenţă se activează butonul CHARTS:
Opţiunea CHART TYPE permite alegerea unui tip de grafic (cu bare, plăcintă sau histogramă). CHART VALUES permite alegerea tipului de valori afişate în grafic (Frecvenţe sau Procentaje). Pentru exemplul nostru se selectează opţiunea HISTOGRAMS, se bifează afişarea curbei normale (WITH NORMAL CURVE), apoi se activează butonul CONTINUE. Opţiunea FORMAT permite modificarea formei OUTPUT-ului. Activarea acestui buton are ca efect apariţia următoarei casete de dialog: 258
ANALIZA COMPUTERIZATĂ A DATELOR
Câmpul din stânga al ferestrei conţine opţiuni de aranjare a rezultatelor (în ordine descrescătoare sau crescătoare a valorilor sau cantităţilor), iar cel din dreapta conţine opţiuni de prezentare comparativă a rezultatelor şi de organizare separată a foii de rezultate, pentru fiecare variabilă. Pentru exemplu nostru, vom păstra opţiunile selectate automat. După selectarea opţiunilor de realizare a tabelului de frecvenţă şi histogramei, se activează butonul OK al casetei FREQUENCIES. Pe ecran apare o fereastra cu rezultate, numită OUTPUT:
Fereastra OUPUT este organizată în două câmpuri, cel din stânga, afişează structura sau cuprinsul OUPUT-ului, iar cel din dreapta arată conţinutul foii cu rezultate. Rezultatele sunt organizate în două tabele. În primul tabel se precizează numărul de subiecţi şi numărul de răspunsuri. Pentru exemplul nostru, avem 20 de subiecţi care au răspuns la chestionar (nu lipseşte nici o valoare). Al doilea tabel este organizat în cinci coloane. Coloana VALID prezintă valorile variabilei, prezentate în ordine crescătoare (fără a ţine seama de cazurile lipsă). Coloana FREQUENCY prezintă frecvenţa, adică numărul de subiecţi care obţin o anumită valoare. Coloana PERCENT transformă frecvenţa obţinută pentru fiecare valoare în procentaj ţinând cont de numărul total de subiecţi luaţi în calcul, indiferent dacă aceştia au sau nu scoruri la această variabilă. Spre exemplu, doi subiecţi au obţinut scorul 103, ceea ce reprezintă 10% din totalul numărului de răspunsuri obţinute. VALID PERCENT prezintă procentajul luând în calcul doar subiecţii care au răspuns la această variabilă. În cazul nostru coloanele PERCENT şi VALID PERCENT sunt identice deoarece toţi subiecţii au scoruri la această variabilă. Dacă unii subiecţi nu ar fi răspuns la chestionarul de anxietate, atunci cele două coloane ar fi conţinut valori diferite. Coloana CUMULATIVE PERCENT prezintă procentajul cumulat, de la cel mai mic scor la până la cel mai mare. De exemplu, 60% dintre subiecţi au note mai mici sau egale cu 106. Derulând pagina cu rezultate sau selectând HISTOGRAM în câmpul din stânga, putem vizualiza reprezentarea grafică a frecvenţei scorurilor:
259
LOREDANA GHERASIM
Histograma de frecvenţă se mai poate obţine folosind meniul GRAPHS – HISTOGRAM. Activarea opţiunii duce la apariţia următoarei casete de dialog: 2
1
3
Elementele principale ale ferestrei sunt: 1. câmpul în care sunt prezentate toate variabilele din baza de date 2. câmpul în care se introduce variabila pentru care dorim să realizăm histograma de frecvenţă 3. selectarea acestei opţiuni va duce la afişarea curbei normală de distribuţie a rezultatelor. Pentru exemplificare introducem variabila ANX1, cu ajutorul butonului cu săgeată, în câmpul VARIABLE şi bifăm opţiunea DISPLAY NORMAL CURVE. Se obţine aceeaşi reprezentare grafică ca şi în cazul folosirii butonului CHART al ferestrei FREQUENCIES. Vizualizarea ferestrei OUTPUT sau DATE (baza1.sav) se poate face folosind meniul WINDOW, marcând opţiunea dorită (baza de date sau foaia de rezultate):
II.2. IDENTIFICAREA TENDINŢEI CENTRALE ŞI A VARIABILITĂŢII SCORURILOR Metodele descriptive pentru identificarea tendinţei centrale şi de împrăştiere indică tendinţa centrală a unui grup de scoruri, folosind ca indicatori media, mediana şi modul şi tendinţa de împrăştiere a grupului de scoruri, folosind ca indicatori varianţa şi abaterea standard. Media aritmetică descrie tendinţa centrală într-un grup de rezultate, arată valoarea tipică, reprezentativă a unui grup de scoruri. Media este punctul faţă de care scorurile sunt egal depărtate, deoarece abaterile de la medie într-o direcţie (abaterile scorurilor mici de la medie) sunt egale cu 260
ANALIZA COMPUTERIZATĂ A DATELOR
abaterile în cealaltă direcţie (abaterile scorurilor mari de la medie). Mediana împarte distribuţia în două părţi egale, jumătate dintre scorurile distribuţie având valori mai mici ca mediana, iar cealaltă jumătate valori mai mari. Modul reprezintă valoarea cu frecvenţa cea mai mare. Este indicatorul care este cel mai puţin afectat de schimbările structurii (modificări ale numărului de scoruri sau mărimii scorurilor distribuţiei). Mediana este şi ea destul de puţin afectată de modificările structurii distribuţiei. Media, însă, este cea mai “sensibilă” la modificarea numărului de scoruri sau mărimii scorurilor, fiind indicatorul cel mai descriptiv (deoarece indică orice modificare survenită în distribuţie). Se recomandă utilizarea mediei în distribuţiile simetrice şi unimodale. Mediana şi modulul, care sunt mai stabile sunt recomandate pentru descrierea distribuţiilor asimetrice şi multimodale. Cu toate acestea, media aritmetică rămâne metoda cel mai des utilizată pentru descrierea tendinţei grupului de scoruri, acest indicator intrând în componenţa multor metodele statistice. Există însă metode statistice (cum a fi testele neparametrice) în care se utilizează doar mediana şi modul. Cunoaşterea acestor indicatori nu este suficientă pentru a descrie complet o distribuţie. Trebuie să cunoaştem gradul de variabilitate a scorurilor noastre. Mai precis, trebuie să ştim cât de mult (sau cu cât) se împrăştie scorurile în jurul valorii medii. Varianţa (SD2=( ∑ (X-M)2/N) unei distribuţii arată cât de “împrăştiate” sunt scorurile în jurul valorii centrale, indică gradul de variabilitate a unui grup de rezultate. Este o măsură a gradului de variabilitate a scorurilor şi arată cât de mult se abat scorurile de la tendinţa centrală. Cu cât este mai mare această valoare, cu atât mai mult se împrăştie scorurile în jurul valorii centrale. Pentru a cunoaşte exact cu cât variază scorurile în medie este nevoie să calculăm deviaţia standard. Abaterea standard ne arată cu cât se împrăştie scorurile în jurul valorii centrale şi se măsoară în aceleaşi unităţi de măsură ca şi scorurile iniţial. Abaterea standard este rădăcina pătrată a varianţei (SD = SD 2 ). În intervalul cuprins între medie şi o abatere standard la stânga şi dreapta mediei găsim aproximativ 2/3 din totalul scorurilor. Aceste rezultate sunt considerate tipice sau normale pentru o distribuţie. Ilustrăm grafic acest lucru: m-SD scoruri mici
m scoruri medii, tipice, normale
m+SD scoruri mari
Scorurile care sunt mai mari decât media cu o abatere standard sunt considerare scoruri mari iar cele mai mici decât media cu mai mult de o abatere standard sunt considerate ca fiind scoruri slabe. Calculul tendinţei centrale şi a variabilităţii folosind SPSS Meniul din SPSS care permite calculul indicatorilor tendinţei centrale şi ai împrăştierii se găseşte la ANALYZE – DESCRIPTIVE STATISTICS – FREQUENCIES. Pentru analiză vom folosi baza de date realizată anterior, „Baza1.sav”. Vom calcula parametrii tendinţei centrale şi ai variabilităţii pentru variabila ANX1 (nivelul anxietăţii înaintea terapiei). Se trece variabila în câmpul din dreapta apoi se activează butonul STATISTICS. După cum se poate vede şi în imaginea de mai jos, casetă de dialog care se deschide cuprinde patru câmpuri cu opţiuni:
261
LOREDANA GHERASIM
Câmpul PERCENTILE VALUES conţine opţiuni care permit calculul valorilor corespunzătoare împărţirii subiecţilor în grupuri egale, prin afişarea valorilor care delimitează aceste grupuri. Această opţiune permite calculul cuartilelor (QUARTILES) sau altor cuartile (de exemplu CUT POINTS FOR 10 EQUAL GROUPS) sau centile (PERCENTILE). Opţiunile din câmpul DISPERSION permit calcularea diferiţilor parametri referitori la dispersia (împrăştierea) scorurilor în jurul valorii centrale: abatere standard (STD. DEVIATION), varianţă (VARIANCE), amplitudine (RANGE), valori minime (MINIMUM) şi maxime (MAXIMUM) şi eroare standard (S.E. MEAN care reprezintă abaterea standard a distribuţii tuturor mediilor posibile calculate pentru eşantioane aleatoare repetate). CENTRAL TENDENCY conţine opţiunile folosite pentru calculul indicatorilor tendinţei centrale ale distribuţiei: media (MEAN), mediana (MEDIAN), mod (MODE) şi suma valorilor seriei (SUM). Câmpul DISTRIBUTION oferă posibilitatea aflării indicatorilor de turtire (KURTOSIS)şi înclinare ai unei distribuţii în comparaţie cu cea normală (SKEWNESS). Pentru exemplu nostru ne interesează calculul parametrilor tendinţei centrale ai distribuţiei şi de împrăştiere. În consecinţă se bifează (cu un simplu click stânga al mouse-ului) opţiunile MEAN, MEDIAN, MODE din câmpul CENTRAL TENDENCY şi opţiunile STD DEVIATION şi VARIANCE din câmpul DISPERSION:
Activăm butonul CONTINUE şi apoi cel OK al casetei FREQUENCIES. Valorile indicatorilor sunt grupate în tabelul Statistics:
262
ANALIZA COMPUTERIZATĂ A DATELOR
Astfel, M=107,90, Med=105,5, Mod=104, ceea ce însemnă că distribuţia este unimodală (apare o singură valoare la mod) şi uşor înclinată spre dreapta spre valorile mai mari ale variabilei (valoarea mediei este mai mare decât a medianei). Reprezentarea grafică indică apariţia unui singur vârf (distribuţie unimodală) şi o alungire şi împrăştiere a extremei drepte a distribuţiei (distribuţie înclinată spre dreapta).
La fel se calculează indicatorii tendinţei centrale şi de împrăştiere pentru variabila ANX2 (nivelul anxietăţii subiecţilor după terapie). Rezultatele obţinute sunt următoarele:
Astfel, M=107,95, Med=109,5, Mod=102, Mod=110 (a doua valoare a modul se extrage din tabelul de frecvenţă). Distribuţia scorurilor este bimodală (apar două valori cu frecvenţa cea mai mare) şi înclinată spre valorile mici ale variabilei (media este mai mică decât mediana). Distribuţia scorurilor subiecţilor la această variabilă indică aceeaşi formă.
263
LOREDANA GHERASIM
Comparând reprezentările histogramele de frecvenţă pentru variabilele ANX1 şi ANX2, putem analiza variabilitatea rezultatelor la cele două variabile. Astfel, distribuţia scorurilor pentru prima variabilă este mai ascuţită, valorile fiind mai grupate în jurul medie (şi varianţa şi abaterea standard au valori mai mici). La variabila ANX2 se constată o mai mare variabilitate a rezultatelor, distribuţia fiind mai turtită (în acest caz varianţa şi abaterea standard au valori mai mari). II.3. SCORURILE Z Nota Z indică deviaţia unui scor (x) de la medie (m) exprimată în deviaţii standard. Nota standard Z arată cu câte deviaţii standard se abate un scor de la medie (Z=(X-M)/SD). Distribuţia în note Z este o distribuţie ideală în care media are întotdeauna valoarea 0, iar abaterea standard valoarea 1. Schema de mai jos prezintă notele standard Z corespunzătoare mediei şi limitelor de variaţie maximă şi minimă. Mediei îi corespunde întotdeauna mereu scorul standard 0, limitei minime de variaţie tipică îi corespunde scorul standard -1, iar limitei maxime de variaţie normală îi corespunde nota standard +1. m-SD scoruri”mici”
-1
m scoruri medii, tipice normale
0
x
m+SD scoruri”mari”
+1
Z
Aceasta distribuţie ne permite să stabilim cum este scorul x în raport cu media (care este 0) şi abaterea standard (care are valoarea 1). Trebuie ţinut seama de o serie de reguli. Astfel, un scor x raportat la distribuţia Z este considerat “mic”, dacă scorul său Z are valoare mai mică decât –1; un scor x este considerat “mediu” dacă scorul său Z este cuprins în intervalul [–1, +1]; un scor x este considerat “mare” raportat la distribuţia Z, dacă scorul său Z va fi mai mare decât +1. Scorurile Z îndeplinesc o serie de funcţii. Permit compararea unui scor cu o distribuţie la care cunoaştem parametrii (media şi deviaţia standard), astfel, ne ajută să precizăm dacă un scor este mic, mediu sau mare. De asemenea, notele Z arată de câte ori acel scor este mai mare sau mai mic decât media (ţinând cont de variabilitate). Spre exemplu, dacă scorurile la un test de inteligenţă într-o populaţia sunt descrise de media m=100 şi deviaţia standard SD=15, o persoană cu scorul brut 130 este „de două ori mai deşteptă ca media celorlalţi”, deoarece acestui scor îi corespunde un scor Z de +2 (ceea ce înseamnă că scorul este mai mare ca media cu două deviaţii standard). O altă funcţie a notelor z este aceea că permit compararea scorurilor obţinute de aceeaşi persoană la probe diferite, întrucât notele Z arată raporturi şi sunt adimensionale (nu depind de ceea ce măsurăm). 264
ANALIZA COMPUTERIZATĂ A DATELOR
Calculul notelor Z folosind SPSS Comanda DESCRIPTIVES care se găseşte în meniul ANALYZE – DESCRIPTIVE STATISTICS, permite calculul notelor Z cu ajutorul SPSS. Vom folosi baza de date creată anterior („Baza1.sav”).
Activarea comenzii duce la apariţia pe ecran a casetei de dialog următoare:
1 2
3
4
Prezentăm principalele elemente ale ferestrei DESCRIPTIVES: 1. câmpul în care sunt prezentate variabilele din baza de date 2. câmpul în care se introduc variabilele care vor fi analizate 3. opţiunea SAVE STANDARDIZED VALUES AS VARIABLES permite salvarea în baza de date a scorurilor standard sub forma unei noi variabile. 4. cuprinde opţiuni de calcul ai parametrilor distribuţiei. Pentru exemplificare, vom calcula notele Z pentru variabila ANX1. Se bifează opţiunea SAVE STANDARDIZED VALUES AS VARIABLES. Se activează butonul OPTIONS, care deschide următoarea fereastră:
Automat sunt selectate de computer opţiunile de calcul al mediei, abaterii standard şi al valorii minime şi maxime. Vom activa butonul CONTINUE şi apoi butonul OK al ferestrei pentru a putea face 265
LOREDANA GHERASIM
analiza statistică. Rezultatele obţinute în urma comenzii DESCRIPTIVES sunt mai sumare şi prezentate într-un singur tabel.
Vom vizualiza baza de date pentru a vedea dacă apare noua variabilă care conţine rezultatele subiecţilor transformate în note Z.
Se observă apariţia unei noi variabile, pe ultima coloană, cu numele ZANX1. Putem analiza rezultatele obţinute. Se constată că cel mai mare scor z este 2,6 care corespunde unui scor standard 124 obţinută de subiectul 15, iar cea mai mică valoare la anxietate a obţinut-o subiectul 8, care are un scor z–0,98 pentru o valoare brută de 102. Scorul primului subiect este atipic, nivelul anxietăţii acestuia fiind de 2 ori şi jumătate mai mare decât media, ceea ce semnifică faptul că subiectul are un nivel ridicat al anxietăţii raportat la ceilalţi subiecţi. Subiectul al doilea are un nivel normal al anxietăţii, rezultatul fiind aproape cu o unitate mai mic decât media, dar plasându-se în limita (–1 - +1).
II.4. COEFICIENTUL DE CORELAŢIE PEARSON Notele Z fac posibilă analiza legăturii dintre două variabile. De exemplu, putem analiza legătura dintre nivelul stresului unui manager şi numărul de subordonaţi. Prin transformarea notelor brute obţinute de subiecţi la cele două variabile putem să identificăm dacă exista sau nu o legătură între aceste două variabile. Corelaţia este o metodă statistică descriptivă, întrucât ea descrie ce se petrece într-un grup de rezultate (r=( ∑( Z1 * Z 2) / N ). Corelaţia indică existenţa unei legături între variabile, legătură care poate fi pozitivă (când scorurile slabe la prima variabilă se asociază cu scoruri slabe la a doua variabilă, scorurile medii la prima variabilă se asociază cu scoruri medii la a doua variabilă şi scorurile mari la 266
ANALIZA COMPUTERIZATĂ A DATELOR
prima variabilă se asociază cu scoruri mari la a doua variabilă), negativă (când scorurile slabe la prima variabilă se asociază cu scoruri mari la a doua variabilă, scorurile medii la prima variabilă se asociază cu scoruri medii la a doua variabilă şi scorurile mari la prima variabilă se asociază cu scoruri mici la a doua variabilă). Bineînţeles că între variabile poate să nu apară nici o legătură. Coeficientul de corelaţie (r) indică gradul în care apare paternul unei relaţii între cele două variabile. Acest coeficient poate lua valori de la -1 la +1, corelaţia pozitivă poate lua valori de la 0 la 1, iar corelaţia negativă poate lua valori la de -1 la 0. Analiza corelaţiei dintre două variabile nu permite stabilirea relaţiei de cauzalitate între aceste variabile. Există trei modalităţi de interpretare a unui coeficient de corelaţie obţinut între două variabile (x şi y): fie x poate fi cauză pentru y, fie y poate fi cauză pentru x, fie a apărut a o treia variabilă care a determinat apariţia simultană a celor doua variabile. Pragul de semnificaţie (p) În psihologie este necesară generalizarea concluziile studiilor. Astfel, după analiza rezultatelor corelaţiei ne interesează să vedem dacă legătura găsită (la un grup de oameni) poate fi extinsă la întreaga populaţie. Mai precis, ne interesează să ştim în ce măsură rezultatele se datorează întâmplării. Pragul de semnificaţie, p, indică în ce măsură ne înşelăm atunci când afirmăm ceva. În cazul corelaţiei, pragul de semnificaţie, indică dacă există o legătură între două sau mai multe variabile. În cercetarea ştiinţifică se lucrează de obicei cu două praguri de semnificaţie, corespunzătoare procentajului de eroare: pragul de 0,01 (1% eroare) şi pragul de 0,05 (5% eroare). În general, când se fac predicţii pot să apară patru situaţii, prezentate în tabelul de mai jos: Evenimentul Apare Nu apare Predicţia Apare Corect Eroarea I Evenimentului Nu apare Eroarea II Corect Sunt două situaţii în care se poate greşi: când afirmăm că un eveniment se va produce şi în realitate acesta nu va apărea (eroare de tip I) sau când afirmăm că un eveniment nu se va produce şi aceste va apare (Eroare de tip II). Situaţia I corespunde minciunii, iar situaţia II corespunde ignoranţei. Dacă vrem să evităm primul tip de greşeală care are consecinţe mai grave (de a demonstra ceva ce nu există în realitate), alegem pragul de semnificaţie de 0,010 (prag de eroare de 1%). Dacă dorim însă să avem mai multe şanse în a demonstra ceva şi consecinţele nu sunt grave în caz de greşeală, atunci se preferă pragul de eroare de 5% (deci un p=0,050). În concluzie, vom considera un test statistic ca fiind semnificativ dacă pragul de semnificaţie este mai mic sau cel mult egal cu valoarea 0,050. În psihologie se lucrează cu două modalităţi de formulare a ipotezelor (non-direcţionale sau direcţional). Ipotezele non-direcţionale sunt cele în care nu se precizează tipul de relaţie dintre variabile. În testarea acestor ipoteze probabilitatea de eroare de 1% sau 5% se împarte la cele extremităţi (cozi) ale distribuţiei scorurilor. Testul de semnificaţie pentru verificarea acestui tip de ipoteză este TWO-TAILED. În cazul nostru ipoteza ar putea fi formulată non-direcţional astfel: există o legătură între salariul iniţial şi final al subiecţilor. Ipotezele direcţionale sunt cele în care se precizează tipul de modificare, cercetătorul se aşteaptă la un anumit rezultat. Pentru aceste ipoteze probabilitatea de eroare se stabileşte la una dintre extremităţile distribuţiei. Testul de semnificaţie pentru verificarea acestui tip de ipoteză este ONE-TAILED. Ipoteza din exemplul nostru ar putea fi formulată direcţional,
267
LOREDANA GHERASIM
astfel: legătura dintre salariul iniţial şi final este pozitivă, cu cât salariul iniţial este mai mare cu atât şi salariul final va fi mai mare. Calcularea corelaţiei Pearson cu ajutorul SPSS Pentru a calcula acest coeficient de corelaţie cu ajutorul aplicaţiei SPSS vom crea o nou bază de date “Baza2.sav”, care va cuprinde 3 variabile: STUDII (nivelul de studii al subiecţilor) cu trei valori 1 (studii generale), 2 (studii medii) şi 3 (studii superioare), Sal_in (salariul iniţial al subiecţilor) şi sal_fin (salariul final al subiecţilor). aceste variabile au următoarele valori: • studii:1, 1, 1, 1, 1, 1, 1, 1, 2, 2, 2, 2, 2, 2, 2, 2, 3, 3, 3, 3, 3, 3, 3, 3 • sal_in: 189, 198, 197, 168, 201, 185, 156, 175, 201, 220, 210, 214, 205, 301, 332, 341, 221, 206, 298, 301, 654, 214, 258, 245 • sal_fin: 201, 220, 205, 203, 185, 168, 178, 260, 280, 274, 298, 305, 582, 542, 392, 445, 401, 502, 403, 954, 425, 725, 625, 199 Pentru calculul corelaţiei se activează opţiunea BIVARIATE din meniul ANALIZECORRELATE:
Activarea comenzii va deschide următoarea fereastră: 1
2
3
4
5
5
Elementele principale ale ferestrei sunt: 1. câmpul care prezintă lista variabilelor din baza de date; 2. câmpul de analiză, unde se introduc variabilele ce vor fi analizate; se pot introduce mai multe variabile, calculatorul afişând corelaţiile între variabilele luate două câte două; 3. în câmpul CORRELATION COEFFICIENTS se alege tipul de corelaţie: coeficientul Pearson se foloseşte pentru date parametrice (variabile cantitative şi continui), coeficienţii KENDALL şi SPEARMAN se folosesc pentru date categoriale şi ordinale. 268
ANALIZA COMPUTERIZATĂ A DATELOR
4. câmpul TEST OF SEGNIFICANCE permite selectarea modului de testate a ipotezei (TWOTAILED sau ONE-TAILED); de obicei se foloseşte pragul TWO-TAILED în testarea ipotezelor de cercetare cu ajutorul SPSS. 5. opţiunea FLAG SIGNIFICANCE CORRELATIONS are ca efect apariţia unui asterisc (*) în dreptul corelaţiilor semnificative; 6. butonul OPTIONS este urmat de apariţia unei casete de dialog.
Aceasta permite realizarea unei analize descriptive a datelor (STATISTICS) şi precizarea modalităţii de tratament a datelor lipsă MISSING VALUES, prin excluderea din analiză a perechilor de rezultate în care avem doar una dintre valori (EXCLUDE CASES PAIRWISE) sau de a exclude din analiză un rând întreg dacă doar una dintre valori lipseşte (EXCLUDE CASES LISTWISE). Se recomandă utilizarea primei variante selectată implicit. Pentru baza de date creată vom analiza legătura dintre variabilele salariu iniţial şi final al subiecţilor. Vom introduce variabilele SAL_INI şi SAL_FIN în câmpul din dreapta.
Coeficientul de corelaţie Pearson este selectat implicit de către calculator, la fel ca şi celelalte opţiuni test de semnificaţie TWO-TAILED şi marcarea cu asterisc a corelaţiilor semnificative FLAG SIGNIFICANCE CORRELATIONS. După activarea butonului OK, în foaia OUTPUT sunt afişate următoarele rezultate:
269
LOREDANA GHERASIM
2 4 1 3
5
Se observă că cele două variabile apar pe coloane da şi pe linii. Pe rândul 1 - PEARSON CORRELATION se găsesc valorile coeficienţilor de corelaţie dintre două variabile Pe rândul 2 - SIG. (2-TAILED) apare probabilitatea de eroare la respingerea ipotezei de nul şi acceptare a ipotezei de cercetare Rândul 3 - N conţine numărul de subiecţi care au scoruri la ambele variabile În tabel apare legătura dintre fiecare variabilă şi ea însăşi (ANX1 şi ANX1 şi respectiv între ANX2 şi ANX2) dar şi legătura dintre cele două variabile (între ANX1 şi ANX2 dar şi între ANX2 şi ANX1). Prima celulă din stânga (notată cu 4) prezintă coeficientul de corelaţie între variabila salariul iniţial şi salariul iniţial (ANX1 şi ANX1). Între o variabilă şi ea însăşi apare o corelaţie perfect pozitivă (r=1,0), dar lipsită de semnificaţie (nu apare nici un prag de semnificaţie). Acest coeficient de corelaţie nu aduce nici un fel de informaţie şi în consecinţă nu se analizează. La fel nu se analizează corelaţia dintre variabila salariul final şi salariul final (ANX2 şi ANX2). În celula din dreapta sus apare coeficientul de corelaţie dintre salariul iniţial şi salariul final (ANX1 şi ANX2), semnificaţia acestuia şi numărul de perechi de scoruri. Acelaşi rezultate apar şi în celula din stânga jos care prezintă coeficientul de corelaţie dintre salariul final şi salariul iniţial (ANX2 şi ANX1). Rezultatele sunt identice deoarece corelaţie este bidirecţională (corelaţia dintre variabilele A şi B este acelaşi lucru cu cea dintre variabilele B şi A). În consecinţă rezultatul poate fi extras din oricare din cele două celule. Vom extrage datele pentru legătura dintre salariul iniţial şi salariul final al subiecţilor: Interpretarea corelaţiei: r=0,81 (coeficientul de corelaţie), p<0,001 (pragul de semnificaţie), N=24 (numărul de subiecţi). Sunt mai multe elemente de care trebuie să se ţină seama în interpretarea corelaţiei:
• semnul corelaţiei: arată natura legăturii care există pozitive (dacă semnul este pozitiv) sau negative (dacă semnul este negativ). În cazul nostru, semnul este pozitiv, ceea ce înseamnă că un salar iniţial mic se asociază, după cinci ani, cu un salariu tot mic, un salar iniţial mediu se asociază cu un salar final mediu şi un salar mare iniţial se asociază cu salariu mare final.
• mărimea absolută a coeficientului: descrie tăria legăturii care apare între variabile. Se consideră, astfel, că legătura este slabă dacă valoarea absolută a lui r nu depăşeşte 0,30, legătura este medie la o valoare a lui r cuprinsă între 0,30-0,50, legăturile puternice având o mărime absolută mai
270
ANALIZA COMPUTERIZATĂ A DATELOR
mare de 0,50. În exemplul nostru, tăria legăturii este ridicată (r=0,81) coeficientul având valoare mi mare de 0,50
• pragul de semnificaţie dacă este mai mic de 0,05, atunci putem considera că există o relaţie între variabilele studiate. În exemplu nostru, valoarea este 0,000. În aceste situaţii se raportează un p<0,001, pentru a arăta că probabilitatea de a greşi este mai mică decât 0,1% (calculatorul ne afişează doar primele trei zecimale). Putem spune că există o legătură semnificativă între nivelul iniţial şi final al salariului subiecţilor, pragul de semnificaţie fiind mai mic de 0,05.
• proporţia de varianţă. Coeficientul de corelaţie ridicat la pătrat ne indică proporţia de varianţă explicată de relaţia găsită. Proporţia de varianţă indică la ce procent din populaţia generală apare relaţia. Pentru exemplu nostru proporţia de varianţă are valoarea 0,65 (r=0,81, deci r2=0,65). Se observă că abia 65% din variaţia observată se întâlneşte în realitate, deci relaţia găsită este prezentă la 65% dintre subiecţi. Toate aceste elemente trebuie să apară în interpretare, pentru ca ea să fie completă. Comanda SELECT CASES Uneori este necesară selectarea anumitor cazuri din populaţie pentru a face o prelucrare statistică. Spre exemplu, vrem să vedem dacă legătura dintre salariul iniţial şi salariul final are aceeaşi valoare la subiecţii care au studii generale. Subiecţii sunt împărţiţi în grupe în funcţie de nivelul de studii (studii), fiind codificaţi cu 1 în baza de date. Pentru a selecta numai subiecţii care au studii generale, se foloseşte comanda SELECT CASES din meniul DATA. Activarea meniului este urmată de apariţia următoarei ferestre:
În câmpul din stânga al ferestrei sunt prezentate toate variabilele din baza de date. În dreapta ferestrei apar mai multe opţiuni. Pe noi ne interesează opţiunea IF CONDITION IS SATISFIED, deoarece vrem să selectăm numai cazurile care îndeplinesc o anumită condiţie (să aibă valoarea 1 la variabila studii adică să fie numai subiecţi cu studii generale). Această opţiune se alege cu un simplu click stânga al mouse-ului:
Se activează butonul IF, care deschide următoarea casetă de dialog: 271
LOREDANA GHERASIM
Se selectează variabila în funcţie de cre se face selecţia şi se trece în câmpul dintre dreapta sus. În cazul nostru se selectează variabila STUDII şi se trece în câmpul din dreapta:
Se adăugă condiţia. Pentru exemplul nostru, variabila Studii trebuie să aibă numai valoarea 1 (STUDII=1). Se poate folosi tastatura sau se pot activa butoanele cu cifre şi semne ce se găsesc sub acest câmp. Condiţia va arăta astfel:
Se apasă apoi butonul CONTINUE pentru a salva condiţia:
Se activează butonul OK, baza de date modificându-se, cum se poate observa şi în imaginea de mai jos:
272
ANALIZA COMPUTERIZATĂ A DATELOR
La sfârşitul bazei de date apare o nouă variabilă, intitulată FILTER_$, care indică rezultatul selecţiei. Cazurile neselectate sunt “tăiate”, adică ele vor fi ignorate de la analiză. În partea din dreaptajos a ecranului apare anunţul FILTER ON, care avertizează utilizatorul cu privire la activarea unei comanzi de selecţie Atenţie! Selectarea datelor nu implică şi efectuarea analizei statistice. După selecţie trebuie făcută prelucrarea statistică a datelor. În cazul nostru trebuie utilizată comanda de analiză a corelaţiei dintre salariul iniţial şi cel final. Se obţine următorul tabel în fereastra cu rezultate:
Rezultatul obţinut este următorul: r=0,69, p=0,056. În continuare vom interpreta aceste rezultate:
• semnul corelaţiei: corelaţie pozitivă, legătura este direct proporţională. În cazul subiecţilor cu studii generale se constată că nivelul mic al salariului iniţial se asociază cu un nivel mic al salariului final, salariul iniţial mediu se asociază cu un salar final mediu, salariul iniţial mare se asociază cu un salar final mare.
• mărimea absolută a coeficientului: puterea legăturii dintre cele două variabile este ridicată, valoarea lui r depăşeşte valoarea de 0,50.
• pragul de semnificaţie: valoarea pragului de semnificaţie este mai mare de 0,050, deci nu există o legătură semnificativă între salariul iniţial şi final al subiecţilor care au studii generale.
• proporţia de varianţă explicată de relaţia este r2=0,47, deci relaţia găsită apare la 47% dintre subiecţii cu studii generale. Explicaţia lipsei de semnificaţie a corelaţiei dintre cele două variabile (în condiţiile în care coeficientul de corelaţie are valoare ridicată) este numărul mic de subiecţi. Numărul de subiecţi din analiză influenţează valoarea pragului de semnificaţie al corelaţiei dar nu şi puterea legăturii dintre variabile. 273
LOREDANA GHERASIM
După folosirea acestui “filtru” este indicată dezactivarea. Pentru dezactivarea selecţiei, se deschide din nou în meniul iniţial DATA - SELECT CASES. În partea de jos a ferestrei se găseşte buton RESET. Se activează apoi butonul OK, astfel, comanda de filtrare a datelor dispare. Comanda SPLIT FILE Uneori însă dorim să vedem ce se întâmplă pentru fiecare subgrup de subiecţi în parte. Pentru baza de date BAZA2.sav, vom analiza legătura dintre variabilele salariul iniţial şi salariul final pentru toate categoriile de subiecţi în funcţie de variabila STUDII (nu numai pentru subiecţii cu studii generale dar şi pentru cei cu studii medii şi superioare). Pentru a nu repeta comanda SELECT CASES de multe ori se poate utiliza o altă comandă din meniul DATA, şi anume comanda SPLIT FILE. Activarea comenzii SPLIT FILE deschide următoarea fereastră:
Dintre opţiunile din dreapta alegem ORGANIZE OUTPUT BY GROUPS şi apoi, cu ajutorul săgeţii, introducem variabila de grupare (STUDII) în câmpul care se activează sub această opţiune:
După apăsarea butonului OK, în partea dreaptă-jos a bazei de date apare anunţul SPLIT FILE ON, care avertizează utilizatorii că baza de date este împărţită în funcţie de condiţiile (nivelurile) variabilei de grupare . La fel ca şi în cazul comenzii SELECT CASES, simpla împărţire a bazei de date nu asigură prelucrarea statistică. De aceea, trebuie folosită comanda CORRELATIOS pentru a analiza legătura dintre variabilele salariu iniţial şi final al subiecţilor. Rezultatele analizei statistice sunt prezentate separat, în fişierul OUTPUT, pentru fiecare condiţie a variabilei independente: studii generale, medii şi superioare:
274
ANALIZA COMPUTERIZATĂ A DATELOR
nivelul de studii al subiecţilor = studii generale
nivelul de studii al subiecţilor = studii medii
nivelul de studii al subiecţilor = studii superioare
Graficul corelaţiei Relaţia dintre două variabile poate fi reprezentată grafic sub forma unui nor de puncte. Practic, graficul îl alegem din meniul GRAPHS, comanda SCATTER, care deschide fereastra:
Vom alege un grafic simplu, care să ilustreze relaţia dintre două variabile, deci vom selecta opţiunea SIMPLE. Se activează apoi butonul DEFINE, care deschide următoarea fereastră:
275
LOREDANA GHERASIM
Se introduc cele două variabile în câmpurile axei X şi axei Y (nu contează ordinea în care se introduc variabilele deoarece corelaţia este bidirecţională) şi apoi se apasă butonul OK.
Reprezentarea grafică a corelaţiei este următoarea:
Reprezentarea grafică a corelaţiei apare sub forma unui nor de puncte. Pentru exemplul nostru norul de puncte este ascendent crescător (din stânga-jos spre dreapta-sus) deoarece relaţia dintre variabile este pozitivă, iar punctele sunt apropiate, grupate deoarece coeficientul de corelaţie are valoare ridicată (r=0,81). Dacă relaţia ar fi fost invers proporţională, norul de puncte ar fi fost orientat
276
ANALIZA COMPUTERIZATĂ A DATELOR
descrescător (din stânga-sus spre dreapta-jos). În cazul în care nu ar fi nici o relaţie, punctele ar fi fost distribuite uniform pe grafic.
II.5. COEFICIENTUL DE CORELAŢIE KENDALL'S
TAU-B
Reprezintă o măsură non-parametrică a asocierii variabilelor ordinale sau rangate care presupun cantităţi. La fel ca şi în cazul corelaţiei Pearson, semnul coeficientului de corelaţie Kendall's tau-b indică direcţia relaţiei, iar valoarea absolută a coeficientului indică puterea relaţiei. Cu cât valoarea coeficientului este mai mare cu atât relaţia dintre variabile este mai mare. Acest coeficient de corelaţie poate lua valori doar intre -1 şi 1. Calcularea corelaţiei Kendall cu ajutorul SPSS Pentru a calcula acest coeficient de corelaţie cu ajutorul aplicaţiei SPSS vom crea o nou bază de date “Baza3.sav”, care va cuprinde 3 variabile: elevi (codul de identificare al elevilor), Prof_1 (evaluarea interesului elevilor faţă de şcoală de către primul profesorul) şi Prof_2 (evaluarea interesului elevilor faţă de şcoală realizată de al doilea profesor). În tabelul următor prezentăm valorile acestor variabile.
Pentru a analiza legătura dintre evaluarea făcută de primul profesorul şi evaluarea realizată de al doilea profesor (prof_1 şi prof_2), trebuie să folosim coeficientul de corelaţie Kendall's. Pentru calculul acestei corelaţii se activează opţiunea BIVARIATE din meniul ANALIZECORRELATE, apoi se introduc variabilele prof_1 şi prof_2 în câmpul din dreapta. Din câmpul CORRELATION COEFFICIENTS se bifează coeficientul de corelaţie Kendall's:
După confirmarea comenzii în foaia cu rezultate apare următorul tabel:
277
LOREDANA GHERASIM
Se constată că apare o asociere pozitivă între variabile (r=0,60), elevii clasaţi pe primele locuri de către primul profesor ocupă tot o poziţie fruntaşă din perspectiva celui de al doilea profesor. Asocierea nu este însă semnificativă, p=0,091 posibila explicaţie fiind numărul mic de subiecţi din baza de date. Dacă ar fi apărut o asociere negativă dintre variabile (coeficientul de corelaţie ar fi fost negativ) s-ar fi interpretat astfel: elevii plasaţi pe primele locuri de către primul profesor s-ar fi plasat în coada clasamentului din perspectiva celui de al doilea profesor. II.6. COEFICIENTUL DE CORELAŢIE SPEARMAN Este o măsurare non-parametrică a corelaţiei dintre două variabile ordinale. Pentru toate cazurile, valorile fiecărui tip de variabilă sunt rangate, de la cele mai mici la cele mai mari. Se foloseşte atunci când nu este posibilă măsurarea caracteristicilor analizate ci doar evaluarea lor, în asemenea manieră încât indivizii statistici să fie ordonaţi în funcţie de două criterii X şi Y. Această evaluare presupune atribuirea de valori care indică ierarhia subiecţilor (cum ar fi primul, al doilea, al treilea). Modalitatea de calcul a corelaţiei Spearman este similară coeficientului Pearson (de fapt de aplică formula coeficientului Pearson). Acest coeficient de corelaţie mai este denumit şi coeficient de corelaţie a rangurilor. Calcularea corelaţiei Spearman cu ajutorul SPSS Pentru a calcula acest coeficient de corelaţie cu ajutorul aplicaţiei SPSS vom crea o nou bază de date “Baza4.sav”, care va cuprinde 3 variabile: elevi (codul de identificare al elevilor), eval_i (evaluarea de către profesori a interesul pentru şcoală) şi eval_re (evaluarea de către profesori a relaţiilor cu ceilalţi elevi).
Pentru a analiza legătura dintre evaluarea interesului faţă de şcoală al elevilor şi evaluarea relaţiilor cu ceilalţi colegi (eval_i şi eval_re) se foloseşte coeficientul de corelaţie Spearman. Pentru calculul acestei corelaţii se activează opţiunea BIVARIATE din meniul ANALIZECORRELATE. Se introduc variabilele eval_i şi eval_re în câmpul din dreapta. Din câmpul CORRELATION COEFFICIENTS se bifează coeficientul de corelaţie Spearman:
278
ANALIZA COMPUTERIZATĂ A DATELOR
După confirmarea comenzii în foaia cu rezultate apare următorul tabel:
Se constată că apare o inversare a clasamentului, corelaţia având semn negativ, ceea ce semnifică faptul că elevii plasaţi pe primele locuri ale variabilei interes pentru şcoală ocupă ultimele locuri după cel de al doilea criteriu, relaţii bune cu ceilalţi elevi. Inversarea clasamentului nu este semnificativă, pragul de semnificaţie fiind mai mare de 0,050 (p=0,260). II.7. RECODIFICAREA ŞI TRANSFORMAREA VARIABILELOR Uneori este necesar ca scorurile brute obţinute de subiecţii unui studiu să fie transformate pentru a putea verifica ipoteza studiului. Aplicaţia SPSS are o serie de comenzi care permit transformarea sau recodificarea unei variabile cantitative într-o variabilă calitativă, prin crearea unei noi variabile în baza de date sau modificarea valorilor unei variabile existente în baza de date. Pentru a exemplifica utilizarea comenzilor de recodificare vom crea o nouă bază de date (baza5.sav) care conţine mediile obţinute de elevi la sfârşitul anului şcolar. Valorile variabilei sunt: Media: 8,03, 8,73, 9,19, 8,81, 7,88, 9,06, 9,04, 6,86, 7,69, 7,80, 8,06, 9,06, 7,71, 7,16, 8,88, 8,49, 7,78, 9,76, 8,10, 7,49, 7,79, 6,91, 6,81, 7,54 Vom împărţi elevii în două grupe (grupul elevilor cu performanţe bune şi grupul elevilor cu performanţe slabe). Împărţirea elevilor în două grupe se realizează în funcţie de mediană, acest indicator statistic împărţind şirul de scoruri în două parţi egale (proba medianei). Deci vom calcula mai întâi valoarea medianei şi apoi vom împărţi subiecţii în grupe în funcţie de valoarea acestui indicator. Pentru calculul medianei vom folosi comanda DESCRIPTIV STATISTICS– FREQUENCIES:
279
LOREDANA GHERASIM
Pentru exemplul nostru mediana are valoare 7,95. Subiecţii care au valori mai mici ca mediana (7,95) vor forma grupul celor cu performanţe scăzute, iar subiecţii care au valori mai mari decât mediana vor forma grupul celor cu performanţe ridicate. Pentru recodificarea variabilei MEDIA se utilizează opţiunea RECODE care se găseşte la meniul TRANSFORM:
Comanda RECODE are două opţiuni de recodificare. Se poate păstra variabila ce urmează să fie recodificată (INTO SAME VARIABLES) sau se poate crea o nouă variabilă (INTO DIFFERENT VARIABLES). Comanda RECODE INTO DIFFERENT VARIABLES Selectăm opţiunea de creare a unei noi variabile care să cuprindă grupele obţinute în urma recodificării. Se selectează opţiunea INTO DIFFERENT VARIABLES, ceea ce are ca urmare apariţia următoarei casete de dialog: 2
3 1
5 4
1. câmpul care conţine variabilele din baza de date; 2. în câmpul NAME de la OUT VARIABLE se introduce numele variabilei create; 3 în câmpul INPUT VARIABLE →OUTPUT VARIABLE se introduce atât variabila ce urmează să fie recodificată cât şi numele noii variabile; 4. butonul OLD AND NEW VALUE permite recodificarea variabilei iniţiale 5 butonul IF permite crearea unei noi variabile doar prin selecţia anumitor valori ale variabilei iniţiale Pentru exemplul nostru vom trece variabila pe care dorim să o recodificăm, MEDIA, în câmpul din mijloc al ferestrei cu ajutorul butonului de trecere. Vom denumi noua variabilă NIVPERF. Noul nume se tastează în câmpul NAME al câmpului OUTPUT VARIABLE:
280
ANALIZA COMPUTERIZATĂ A DATELOR
Pentru ca noul nume al variabilei să apară în câmpul din mijloc INPUT VARIABLE →OUTPUT VARIABLE şi astfel să aibă loc recodificarea, se activează butonul CHANGE din câmpul OUTPUT VARIABLE:
Se activează butonul OLD AND NEW VALUE pentru a defini valorile noii variabile. Activarea acestui buton deschide următoarea casetă de dialog: 2 1 3
Această fereastră prezintă mai multe câmpuri: 1. câmpul OLD VALUE se referă valorile variabilei iniţiale 2. câmpul NEW VALUE face referire la valorile noii variabile 3. în câmpul OLD→NEW se reunesc opţiunile de recodificarea a variabilelor În exemplul nostru, trebuie ca valorile variabilei MEDIA (variabila iniţială) să le redefinim, formând o nouă variabilă. Astfel, subiecţii care au obţinut scoruri mai mici decât mediana (7,95) vor forma grupul subiecţilor cu performanţa scăzută, care va reprezenta valoarea 1 a variabilei NIVPERF (ce va fi creată). În consecinţă, vom activa opţiunea RANGE, LOWEST THROUGH din câmpul OLD VALUE şi vom trece în câmpul activat valoarea medianei (7,95). Cu alte cuvinte această opţiune va însemna că toate valorile variabilei MEDIA mai mici de 7,95 vor fi recodificate, prind valoarea în cadrul noii variabile NIVPERF. În câmpul NEW VALUE, în câmpul de lângă opţiunea VALUE, vom tasta valoarea 1:
281
LOREDANA GHERASIM
Se apasă apoi butonul ADD al câmpului OLD→NEW, pentru a putea recodifica următoarele valori. Apoi se activează opţiunea RANGE, THROUGH HIGHEST din câmpul OLD VALUE şi se trece în câmpul activat valoarea medianei (7,95). Această opţiune va însemna că valorile mai mari de 7,95 ale variabilei MEDIA vor fi recodificate în variabila NIVPERF primind valoarea 2. În consecinţă, în câmpul NEW VALUE, în câmpul de lângă opţiunea VALUE, vom tasta valoarea 2, după cum se poate observa şi în imaginea din dreapta. Pentru a fi reţinută şi această a doua condiţie de recodificare, se acţionează din nou butonul ADD din câmpul OLD→NEW. În concluzie, scorurile mai mici de 7,95 ale variabilei MEDIA vor primi valoarea 1 în cadrul variabilei NIVPERF, iar valorile mai mari de 7,95 ale variabilei MEDIA vor reprezenta valoarea 2 al variabilei NIVPERF, imaginea din stânga. Se activează apoi butonul CONTINUE şi butonul OK al ferestrei RECODE INTO A DIFFERENT VARIABLES, ceea ce duce la modificarea bazei de date, cum se poate observa şi în imaginea din mai jos. Se observă că în baza de date apare noua variabilă NIVPERF, cu două valori. Puteţi verifica dacă recodificarea a fost corect realizată. Există posibilitatea de a împărţi valorile unei variabile în mai mult de două grupe. Pentru exemplificare vom împărţi scorurile la variabila MEDIA în trei parţi egale. Prima treime va alcătui grupul subiecţilor cu performanţă scăzută, a doua treime grupul subiecţilor cu performanţă medie, iar ultima treime grupul subiecţilor cu performanţă ridicată. Pentru a putea face împărţirea, mai întâi trebuie să calculăm valorile corespunzătoare percentilelor care împart şirul de scoruri în 3 parţi egale (fiecare parte reprezentând 33,33% din total). Se foloseşte comanda DESCRIPTIV STATISTICS– FREQUENCIES. Din câmpul PERCENTILE VALUES se bifează opţiunea PERCENTILE şi se introduc centilele care împart şirul de scoruri în 3 parţi egale (adică 33,33% şi 66,66%). Subiecţii cu valori mai mici de 7,73 vor forma grupul celor cu performanţa scăzută (grupul 1), cei cu valori cuprinse între 7,73 şi 8,64 vor forma grupul subiecţilor cu performanţă de nivel mediu (grupul 2), iar cei cu medii mai mari de 8,64 vor reprezenta grupului cu performanţa ridicată (grupul 3). 282
ANALIZA COMPUTERIZATĂ A DATELOR
Pentru a crea această nouă variabilă se activează meniul TRANSFORM – RECODE - INTO DIFFERENT VARIABLES. Vom denumi noua variabila NIVPERF2, tastând noul nume în câmpul NAME al câmpului OUT VARIABLE şi apoi activând butonul CHANGE. În acest exemplu, scorurile mai mici de 7,73 ale variabilei MEDIA vor forma primul grupului 1, adică nivelul 1 al noii variabile NIVPERF2. Vom activa opţiunea RANGE, LOWEST THROUGH din câmpul OLD VALUE şi vom trece în câmpul activat valoarea 7,73, iar în câmpul NEW VALUE vom trece valoarea 1. Se activează apoi butonul ADD al câmpului OLD→NEW, pentru a putea introduce următoarea condiţie. Valorile variabilei MEDIE cuprinse între 7,73 şi 8,64 vor reprezenta nivelul 2 al variabilei NIVPERF2. Se activează prima opţiune RANGE THROUGH şi se tastează valorile minime şi maxime. În câmpul NEW VALUE se trece valoarea 2, cum se poate observa şi în imaginea alăturată. Activăm apoi butonul ADD al câmpului OLD→NEW. Pentru crearea ultimului grup, care cuprinde valori mai mari de 8,64 se activează opţiunea RANGE, THROUGH HIGHEST din câmpul OLD VALUE. În câmpul NEW VALUE se trece valoarea 3, apoi se activează butonul ADD. Se activează apoi butonul CONTINUE şi butonul OK al ferestrei RECODE INTO A DIFFERENT VARIABLES, ceea ce duce la modificarea bazei de date, cum se poate observa şi în imaginea alăturată: Se observă că în baza de date apare noua variabilă NIVPERF2, cu trei valori. Comanda RECODE INTO SAME VARIABLES Rezultate similare se obţin dacă se utilizează comanda RECODE opţiunea INTO SAME VARIABLES, cu excepţia faptului că se păstrează numele iniţial al variabilei recodificate. Pentru exemplificare vom utiliza aceeaşi bază de date (baza5.sav) şi vom împărţi în două scorurile subiecţilor. Activarea comenzii duce la apariţia casete de dialog:
283
LOREDANA GHERASIM
În câmpul din stânga apar toate variabilele din baza de date, în câmpul din dreapta se introduc variabilele pe care dorim să le recodificăm. În exemplu nostru vrem să recodificăm variabil Media. Trecem variabila în câmpul din dreapta:
Se activează butonul OLD AND NEW VALUES, care are aceleaşi opţiuni ca în cazul opţiunii anteriore de transformare într-o variabilă diferită:
Recodificare se realiză la fel ca în exemplu anterior, când am utilizat opţiunea de recodificare într-o altă variabilă:
284
ANALIZA COMPUTERIZATĂ A DATELOR
După confirmarea recodificării să vedem modificările din baza de date. Se constată că s-au modificat valorile variabilei MEDIA, aceasta având acum aceleaşi valori ca şi variabila NIVPERF. Acest lucru demonstrează că cele două opţiuni duc la acelaşi rezultat.
Inversarea valorilor variabilelor Comanda de recodificare poate fi utilizată şi pentru recodificarea valorilor scorurilor obţinute la diferiţi itemi. Pentru a exemplifica utilizarea acestor comenzi de recodificare vom crea o nouă bază de date (baza6.sav) care conţine patru variabile: NRCHEST (codul de identificare), PRES (Câtă încredere aveţi în preşedinte?), GUV (Câtă încredere aveţi în guvern?), PARLAM (Câtă încredere aveţi în parlament?). Prezentăm scorurile obţinute de 16 dintre subiecţi. Pentru itemii 1 şi 3 subiecţii au răspuns pe o scală de la 1 (foarte puţin) la 4 (foarte mult). La itemul 2, însă, subiecţii au răspuns pe o scală de la 1 (foarte mult) la 4 (foarte puţin). Pentru a vedea atitudinea subiecţilor faţă de instituţiile statului ar trebui să însumăm răspunsurile subiecţilor de la cei 3 itemi. Pentru a putea face 285
LOREDANA GHERASIM
acest lucru ar trebui ca răspunsurile de la itemul 2 să fie transformate, pentru ca scala de evaluare să aibă aceeaşi semnificaţie cu a ceilalţi doi itemi (valoarea 1 să însemne foarte puţin iar valoare 4 să însemne foarte mult). Recodificarea în acest caz presupune inversarea scalei de evaluare pentru itemul 2, adică valoarea 1 a itemului să devină 4 (ceea ce înseamnă foarte mult), valoarea 2 să devină 3, valoarea 3 să devină 2, iar valoarea 4 a itemului să devină 1 (ceea ce înseamnă foarte puţin). Pentru recodificare ar putea fi utilizată oricare dintre cele două opţiuni prezentate anterior RECODE INTO SAME VARIABLES sau INTO DIFFERENT VARIABLES. Vom folosi comanda RECODE INTO DIFFERENT VARIABLES pentru a putea verifica dacă recodificarea a fost realizată. Vom redenumi variabila recodificată GUV_R: Vom activa butonul OLD AND NEW VARIABLES. Pentru inversarea scalei de evaluare a itemului vom folosi numai opţiunile VALUE din câmpul OLD VALUE şi NEW VALUE. Astfel, valoarea 1 a vechii variabile devine 4 pentru noua variabilă, deci se tastează 1 în dreptul opţiunii VALUE din câmpul OLD VALUE şi cifra 4 în dreptul opţiunii VALUE din câmpul NEW VALUE. Se activează butonul ADD din câmpul OLD→NEW. Apoi se tastează 2 în câmpul de la opţiunea VALUE din câmpul OLD VALUE şi cifra 3 în câmpul de la opţiunea VALUE din câmpul NEW VALUE:
La fel se procedează şi pentru celelalte valori care trebuie recodificate. În final trebuie să avem următoarele transformări în câmpul OLD→NEW:
286
ANALIZA COMPUTERIZATĂ A DATELOR
După activarea butonului CONTINUE şi butonului OK al ferestrei principale, baza de date va conţine o nouă variabilă (GUV_R) care conţine valorile inversate ale itemului 2:
Comanda TRANSFORM COMPUTE Pentru a calcula scorul total la atitudinea faţă de instituţiile statului, trebuie să însumăm scorurile subiecţilor obţinute la cei trei itemi. Pentru a putea face acest lucru se foloseşte meniul TRANSFORM, opţiunea COMPUTE: 3
1
2
Prezentăm caracteristicile principale ale acestei ferestre: 1. în câmpul TARGET VARIABLE se tastează numele noii variabile 2. în acest câmp sunt prezentate variabilele din baza de date
287
LOREDANA GHERASIM
3. în câmpul NUMERIC EXPRESSION se introduce formula de calcul a noii variabile; sub acest câmp se găsesc butoane cu cifre şi semne, dar şi un câmp cu funcţii complexe care pot fi utilizate pentru calculul noilor variabile. Pentru exemplu nostru vom numi noua variabila ATIT, deci vom tasta numele noii variabile în câmpul TARGET VARIABLE:
Apoi vom scrie formula de calcul care va consta în însumarea scorurilor obţinute la cele trei variabile: PRES, GUV_R şi PARLAM. Variabile sunt trecute în câmpul NUMERIC EXPRESSION folosind butonul de trecere. Semnul plus se introduce de la tastatură sau folosind butoanele care se găsesc sub câmpul NUMERIC EXPRESSION:
După activarea butonului OK în baza de date apare o nouă variabila, cu numele ATIT.
Această nouă variabilă reprezintă atitudinea subiecţilor faţă de instituţiile statului şi reprezintă suma răspunsurilor la cei trei itemi.
288
ANALIZA COMPUTERIZATĂ A DATELOR
III. ELEMENTE DE STATISTICĂ INFERENŢIALĂ III.1. DISTRIBUŢIA NORMALĂ Variabilitatea rezultatelor urmează reguli care pot fi modelate matematic. Dacă un fenomen social observat este urmărit o perioadă de timp mai îndelungată, distribuţia rezultatelor se va face după o curbă normală, iar acest lucru poate fi demonstrat matematic. Există trei parametri ai unei distribuţii: modalitatea (indică valorile în jurul cărora se grupează scorurile subiecţilor), înclinarea (indică tendinţa scorurilor de a fi mai mari sau mai mici) şi turtirea (arată cât de mult variază scorurile distribuţiei). Din perspectiva celor trei parametri, curba normală este unimodală, simetrică şi mediu turtită. În plus, curba normală mai posedă anumite proprietăţi speciale. Astfel, matematicienii au pus la punct formule care permit calcularea diferitelor suprafeţe ale curbei. Pentru a înţelege mai uşor despre ce este vorba, să luăm drept exemplu distribuţia rezultatelor la un test de inteligenţă. La acest test media rezultatelor este 100, iar deviaţia standard este 16. În imaginea de mai jos ilustrăm grafic această distribuţie:
34%
34%
14%
14%
2% Scoruri brute Scoruri z
68 -2
2% 84 -1
100 0
116 +1
132 +2
Dacă urmăriţi cu atenţie forma curbei normale veţi constata prezenţa unor „puncte de inflexiune”, puncte în care linia curbă îşi modifică forma. Aceste puncte corespund deviaţiilor standard. Întrucât distribuţia normală este simetrică, exact 50% din cazuri vor avea scoruri sub valoarea medie. Aproximativ 34% din cazuri se vor afla între medie şi o abatere standard la stânga sau la dreapta mediei. Astfel, vom şti că 34% dintre subiecţi au scoruri cuprinse între medie (100) şi o deviaţie standard. Având o deviaţie standard de 16, vom şti că 34% dintre indivizi vor avea scorul cuprins între 100 şi 116 (cei cu IQ situat deasupra mediei) sau între 84 şi 100 (cei cu IQ situat dedesubtul mediei). Observaţi, de asemenea, că şi mai puţine cazuri sunt mai depărtate de medie. Abia 16% din populaţie vor avea scoruri mai mici sau mai mari de o deviaţie standard. Cu alte cuvinte, numai 16% dintre oameni au coeficientul de inteligenţă mai scăzut de 84 sau mai ridicat de 116. Mai mult, doar aproximativ 2% dintre indivizi vor avea scoruri şi mai extreme, mai mici sau mai mari decât două deviaţii standard faţă de medie (adică sub valoarea 68 sau peste valoarea 132). Există o strânsă legătură între scorurile standard (notele z) şi diferite procentaje sau frecvenţe relative. Cunoscând nota Z a unui subiect putem şti cu precizie câţi indivizi din populaţie au scoruri mai 289
LOREDANA GHERASIM
mici sau mai mari decât al subiectului investigat. Orice manual de statistică are la sfârşit un tabel care permite calcularea acestor procentaje cu precizie. În acel tabel, pentru fiecare notă Z, este precizat un procent, care arată câţi subiecţi au scorurile cuprinse între medie şi nota Z. Să presupunem că o persoană obţine la testul de inteligenţă scorul 125, putem calcula nota Z a acestui subiect, care are valoarea 1,56 (după formula: (125-100)/16). Dacă vom consulta unul din tabelele de care aminteam anterior, vom vedea în dreptul lui 1,56 valoarea 44,06%. Aceasta înseamnă că de la medie (100) şi până la scorul nostru (125) sunt 44,06% dintre subiecţi. Aceasta arată că doar 5,94% dintre indivizi vor avea scoruri mai mari (50%-44,06%) şi 94,06% (50%+44,06%) vor avea scoruri mai mici decât subiectul ales de noi.
III.2. ETAPELE TESTĂRII UNEI IPOTEZE. TESTUL Z Pentru a vedea cum se realizează inferenţa statistică, vom analiza cel mai simplu test, testul z, în care se compară un eşantion format dintr-un singur caz cu o populaţie a cărei parametri sunt cunoscuţi. Ca exemplu vom folosi un studiu (Aron & Aron, 1995), în care un grup de farmacişti a sintetizat o vitamină care accelerează procesele de asimilaţie la copii nou-născuţi, aceştia dezvoltându-se mai rapid. Unul dintre efecte este scăderea vârstei la care copii încep să meargă. Farmaciştii au dorit să omologheze vitamina, dar pentru aceasta ei trebuie să demonstreze că într-adevăr vitamina accelerează mersul copiilor. Farmaciştii au primit dreptul să administreze vitamina unui singur copil nou-născut, ales aleatoriu din populaţie. Copilul respectiv, după administrarea vitaminei, a început să meargă de la vârsta de 8 luni. Pot farmaciştii să susţină că vârsta precoce la care a mers copilul se datorează vitaminei, ştiind că vârsta la care merg copii prima dată, în populaţia normală este de 14 luni, cu o abatere standard de 3 luni? Pentru a răspunde cu dovezi statistice la o astfel de întrebare, trebuie să facem apel la distribuţia normală a variabilei alese în cadrul populaţiei şi să respectăm anumite etape pentru verificarea raţionamentului. Prezentăm în continuare curba normală corespunzătoare vârstei de debut de la care copiii încep să meargă:
34%
34%
14%
14%
2% 8 luni
2% 11 luni
14 luni
17 luni
20 luni
Pentru testarea ipotezei trebuie să parcurgem mai multe etape: Etapa I: Reformularea problemei în termenii populaţiilor de comparaţie. Deşi avem doar un singur caz pe care trebuie să îl comparăm cu o populaţie ai cărei parametri sunt cunoscuţi, ipotezele trebuie reformulate în termenii generali ai populaţiilor de comparat pentru a putea face generalizarea ulterioară. Astfel, în exemplul nostru avem de comparat două populaţii: P0 – populaţia copiilor
290
ANALIZA COMPUTERIZATĂ A DATELOR
normali care nu iau vitaminele şi P1 - populaţia copiilor normali care iau vitaminele. Vom formula două ipoteze: Ipoteza de lucru (experimentală): afirmă că noii născuţi care iau vitamina vor merge mai repede decât cei care nu iau vitamina (H1: P0 < P1) Ipoteza de nul: Este ipoteza care descrie situaţia în care intervenţia noastră (vitamina) nu are nici un efect. Dacă vitamina nu ar avea nici un efect, cele două populaţii de copii ar merge la aceeaşi vârstă. H0: P0 = P1 Într-o cercetare se testează de fapt ipoteza de nul pentru că ea descrie situaţia deja existentă înainte intervenţiei sau situaţia în care nu am obţine nici un efect. Dacă ipoteza de nul este respinsă, atunci putem accepta ipoteza de lucru. Etapa II: Stabilirea parametrilor populaţiei de comparaţie şi a distribuţiei de comparaţie. Această etapă presupune cunoaşterea parametrilor (media şi abaterea standard) populaţiei la care ne raportăm (în cazul nostru distribuţia copiilor care nu iau vitamina). În mod obişnuit, fără nici o altă intervenţie, copiii din populaţia normală merg la vârsta de 14 luni, cu o abatere standard de 3 luni. Distribuţia acestei variabile este normală. Etapa III: Stabilirea pragului de semnificaţie şi a notei z a punctului de „tăiere”. Orice ipoteză, mai ales în domeniul ştiinţelor sociale, este testată la un anumit prag de semnificaţie. Acest prag de semnificaţie arată probabilitatea de eroare cu care noi testăm ipoteza. Pragul de semnificaţie poate fi de 1% (când dorim să fim mai precişi) sau de 5% (atunci când putem fi mai puţin exacţi). Pentru această cercetare vom stabili un prag de semnificaţie de 1% întrucât efectele ei sunt importante. După stabilirea pragului, trebuie să vedem care este nota Z corespunzătoare acestuia. Am precizat anterior că fiecărui punct de pe curba de distribuţie normală îi corespunde o anumită notă standard şi o anume distribuţie a cazurilor din populaţie faţă de acel punct. De exemplu, la o valoare Z de 1 (adică 17 luni) se constată că 84% dintre copii merg la vârste mai mici de 17 luni, abia 16% mergând mai târziu de această vârstă. Există două de valori Z de corespunzătoare pragului 1%, una referitoare la scorurile mici (în partea stângă a distribuţiei), care arată cei 1% dintre copii care merg cel mai timpuriu şi o altă valoare referitoare la scorurile mari (în partea dreaptă a distribuţiei) care arată acei 1% dintre copii care merg cel mai târziu. Pe noi ne interesează prima dintre aceste valori.
34% -2,33
34% 14%
14% 2%
Note z
2%
8 luni
11 luni
-2
-1
14 luni
0
17 luni
20 luni
+1
+2
În tabelele statistice găsim valoarea scorului z (z=2,33) corespunzătoare probabilităţii de 1% (numită şi punct de tăiere). În cazul nostru ea va fi –2,33 pentru că ne referim la scorurile mai mici decât media, aflate în partea stângă a curbei de distribuţie. Etapa IV: Colectarea datelor şi transformarea lor în scoruri z. În cazul nostru colectarea datelor înseamnă a observa vârsta la care va merge copilul pentru prima dată (8 luni). Vom transforma scorul 291
LOREDANA GHERASIM
subiectului la variabila vârstă în scor Z, prin raportare la distribuţia populaţiei normale de comparat folosind formula notei Z (X-M)/SD), adică pentru exemplu nostru: Z=(8-14)/3)=-2 Etapa V: Compararea notei z astfel obţinută cu nota z a punctului de tăiere. După obţinerea scorul Z corespunzător datelor colectate, acesta trebuie comparat cu scorul Z corespunzător punctului de tăiere. În cazul nostru, nota Z (-2) corespunzătoare scorului brut este mai mare decât a notei Z a punctului de tăiere (–2,33). În ipoteza noastră experimentală ne aşteptam ca nota Z corespunzătoare scorului brut să fie mai mică decât valoare Z a punctului de tăiere. În consecinţă, acceptăm ipoteza de nul, ipoteza experimentală neconfirmându-se. Cu alte cuvinte, farmaciştii nu au reuşit să dovedească, la un prag de probabilitate de 1% că vitamina lor are efectul scontat. Am prezentat testul Z pentru a înţelege logica testării ipotezelor şi înţelesul pragului de semnificaţie. Vom prezenta în continuare, succint testele de comparaţie cele mai frecvent folosite.
III.3. TESTUL T PENTRU COMPARAREA UNUI EŞANTION CU MEDIA POPULAŢIEI Acest test se aplică atunci când dorim să comparăm rezultatele unui eşantion cu media populaţiei (fără să avem informaţii despre varianţa rezultatelor populaţiei). Pentru a vedea cum anume se foloseşte programul SPSS în această situaţie vom crea o nouă bază de date (baza7.sav), care conţine trei variabile: regiune (zona geografică, cu valorile: 1europeană, 2-asiatică şi 3-africană), ind_d (procentul anual de creştere a populaţiei) şi dens (densitatea populaţiei pe km2). Prezentăm în continuare valorile acestor variabile: dens: 94, 800, 87, 79, 36, 216, 55, 27, 2,8, 5, 124, 36, 47, 39, 105, 4,2, 86, 81, 227, 80, 54, 94, 111, 2,5, 283, 102, 51, 188, 330, 49, 40, 29, 58, 63, 189, 102, 143, 221, ind_d: 0,2, 2,4, 0,7, -0,2, 2,8, 2,3, 2,9, 2,9, 0,7, 2,4, 1,1, 0,5, 3,1, 0,3, 0,5, 1,5, 3,1, 0,8, 0,4, 0,8, -0,1, 0,3, 1,1, 1,9, 1,6, 0,3, 0,2, 0,3, 3,1, 0,5, 3,3, 2,3, 2,1, 1,8, 3,1, 2,8, 1,9 reg: 1, 2, 1, 1, 3, 3, 2, 3, 1, 3, 2, 1, 3, 1, 1, 3, 3, 1, 1, 1, 2, 1, 1, 2, 2, 1, 1, 2, 3, 1, 3, 2, 3, 2, 3, 2, 2
Dorim să comparăm scorurile eşantionului la variabila indice demografic cu media populaţiei, care are valoarea 2,3. Media eşantionului nostru este mai mare sau mai mică comparativ cu cea a populaţiei cu valoarea 2,3? Deoarece nu avem acces la alţi parametri ai populaţiei, în afară de medie va trebui să estimăm variabilitatea sa. Vom aplica testul t pentru a compara un eşantion cu o populaţie la care cunoaştem media. Ipoteza de cercetare: Indicele demografic al eşantionul nostru va avea o avea o valoare diferită de indicele demografic al populaţiei Ipoteza de nul: indicele demografic al eşantionului va avea aceeaşi valoare cu cel al populaţiei Folosirea SPSS pentru compararea unui eşantion cu media unei populaţii Aplicarea testului t se face activând din meniul ANALYZE-COMPARE MERANS opţiunea ONE SIMPLE T TESTS:
292
ANALIZA COMPUTERIZATĂ A DATELOR
După activarea acestei comenzi pe ecran apare următoarea fereastră:
2
1 3
Această fereastră are trei elementele importante: 1. câmpul cu toate variabilele din baza de date; 2. câmpul unde vom introduce variabilele pe care vrem să le analizăm 3. câmpul în care se introduce valoarea medie a populaţiei cu care comparăm eşantionul (cu valoarea 2,3 pentru exemplul nostru). Activare butonului OPTIONS duce la deschiderea următoarei ferestre:
Se observă că automat calculatorul a ales un interval de încredere (CONFIDENCE INTERVAL) de 95%, ceea ce implică un prag de semnificaţie de 5%. Nu vom modifica pragul de semnificaţie. După activarea butonului CONTINUE şi apoi a butonului OK al ferestrei principale, pe ecran va apare fereastra de OUTPUT: 1
One-Sample Statistics
N procentul de crestere anuala a populatiei
Mean 37
1,489
2
Std. Deviation
Std. Error Mean
1,149
,189
3
293
LOREDANA GHERASIM One-Sample Test Test Value = 2.3
t procentul de crestere anuala a populatiei
4
df
-4,294
5
Sig. (2-tailed)
Mean Difference
,000
-,811
36
6
7
95% Confidence Interval of the Difference Lower Upper -1,195
-,428
8
Rezultatele sunt grupate în două tabele. Primul tabel, ONE SAMPLE STATISTICS, conţine elemente de statistică descriptivă. Al doilea tabel, ONE SAMPLE TEST, conţine date despre testul t propriu-zis. În continuare vom analiza elementele OUTPUT-ului: 1. în această celulă este afişată media eşantionului, în cazul nostru m=1,49 2. în această celulă este afişată abaterea standard a eşantionului, SD=1,1 3. celula cuprinde eroarea standard a mediei, mai precis deviaţia standard a populaţiei de eşantioane de aceeaşi mărime cu al nostru (37), populaţie din care provine eşantionul nostru, σm=0,19 4. nota t a eşantionului nostru comparat la populaţia de eşantioane care are media (µm) 2,3 şi abaterea standard (σm) de 0,19. Valoarea lui t este obţinută după formula t=(m- µ m )/ σ m =(1,49-2,3)/0,19≈4,26. Valoarea nu este identică cu cea din tabel datorită aproximărilor făcute. 5. cuprinde gradele de liberate pentru care a fost calculată valoarea lui t şi probabilitatea de respingere a ipotezei de nul; în cazul nostru df=36 6. prezintă pragul de semnificaţie real, care ne spune care este probabilitatea cu care greşim dacă respingem ipoteza de nul şi acceptăm ipoteza de cercetare. În exemplu nostru valoarea pragului de semnificaţie este 0,000, dar se raportează ca un p<0,001, pentru a arăta că probabilitatea de a greşi este mai mică de 0,1% (calculatorul ne afişează doar primele trei zecimale). 7. celula conţine diferenţa dintre media eşantionului şi cea a populaţie la care ne raportăm. 8. prezintă intervalul de încredere al diferenţei dintre cele două medii (-1,1 şi -0,4) corespunzător pragului de semnificaţie de 5%. În interpretarea statistică a notei t, oricare ar fi tipul de test ales, sunt câte elemente pe care de acre trebuie să ţinem seama: • pragul de semnificaţie: care ne indică probabilitatea de eroare atunci când respingem ipoteza de nul. Pentru a confirma ipoteze de cercetare, pragul de semnificaţie trebuie să fie mai mic sau cel mult egal cu 0,05 (adică eroarea nu trebuie să fie mai mare de 5%). • gradul de libertate: arată care este mărimea eşantionului pe care s-a făcut testarea ipotezei. Cu cât eşantionul este mai mare, cu atât putem avea mai multă încredere în rezultatele obţinute, indiferent dacă ele confirmă sau nu ipoteza; • sensul diferenţei: este dat de valoarea mediilor comparate sau de semnul notei t şi arată în ce sens apare diferenţa (care medie este mai mare). Rezultatele pentru exemplul anterior sunt: Mediile: Meş=1,4, Mpop=2,3, Valoarea lui t şi pragul de semnificaţie: t(36)=-4,29, p<0,001. Aceste rezultate indică faptul că diferenţa dintre medii este semnificativă, în sensul că media eşantionului nostru este semnificativ mai mică comparativ cu cea a populaţie. Putem afirmă că 294
ANALIZA COMPUTERIZATĂ A DATELOR
procentul de creştere a populaţie eşantionului nostru este mai mic semnificativ în comparaţie cu cel al populaţiei. Să analizăm acum dacă scorurile la variabila densitate din eşantionul nostru diferă de cea a populaţiei cu valoarea de 0,9. Rezultatele testului ONE SIMPLE T TEST indică următoarele rezultate: One-Sample Statistics
N Numar de oameni/ kilometru patrat
Mean 37
Std. Deviation
Std. Error Mean
895,096
147,153
261,797
One-Sample Test Test Value = 90
t Numar de oameni/ kilometru patrat
1,167
df 36
Sig. (2-tailed)
Mean Difference
,251
171,797
95% Confidence Interval of the Difference Lower Upper -126,643
470,237
Mediile: Meş=261,7, Mpop=90 Valoarea lui t şi pragul de semnificaţie: t(36)=1,16, p=0,251. Rezultatele indică faptul că nu există diferenţe semnificative între densitatea medie a eşantionului şi cea a populaţie, cu valoarea 90 (dacă am accepta ipoteza de cercetare am greşi în 25,1% din cazuri). Putem spune că avem densitatea eşantionului studiat de noi este aceeaşi cu cea a populaţiei.
III.4. TESTUL T PENTRU COMPARAREA A DOUĂ EŞANTIOANE PERECHI În psihologia experimentală se face distincţie între grupele independente şi dependente de subiecţi. Atunci când cercetătorul împarte subiecţii în grupe în funcţie de variabila independentă, fiecărui grup prezentându-i un grad de intensitate al variabilei independente, avem de a face cu grupe independente de subiecţi. Pentru fiecare nivel al variabilei independente vom avea câte un grup de subiecţi. Astfel, dacă variabila independentă are două grade de intensitate, subiecţii vor fi împărţiţi în două grupe, în final comparându-se rezultatele subiecţilor. Fiecare subiect va face parte dintr-un singur grup experimental. Să presupunem că variabila independentă este tipul de feed-back, cu două grade de intensitate, pozitiv şi negativ. Subiecţii vor fi împărţiţi în două grupe, condiţia de feed-back pozitiv şi respectiv condiţia de feed-back pozitiv. Există posibilitatea ca toate nivelurile variabilei independente să fie prezentate aceluiaşi eşantion de subiecţi. Aceeaşi subiecţi vor trece prin toate condiţiile experimentale. În această situaţie vom avea grupe perechi sau dependente de subiecţi. Subiecţii cărora le măsurăm anxietatea înainte şi după intervenţia terapeutică formează eşantioane perechi. Cea mai simplă situaţie de comparare a eşantioanelor este în situaţia de test-retest. De exemplu, măsurăm nivelul anxietăţii subiecţilor înainte şi după terapie, pentru a vedea schimbările care apar ca urmare a intervenţiei terapeutice. Nu cunoaştem nivelul mediu anxietăţii populaţie de subiecţi anxioşi înainte de a veni la terapie şi nici nivelul mediu al anxietăţii după terapie. Ceea ce ştim este nivelul anxietăţii subiecţilor care au
295
LOREDANA GHERASIM
venit la terapie, înainte şi după intervenţia terapeutică. Ceea ce ne interesează pe noi este de fapt diferenţa dintre cele două măsurători ale anxietăţii, înainte şi după terapie. Ipoteza de cercetare: susţine că vor fi diferenţe între cele două măsurători; ne aşteptăm ca nivelul anxietăţii după terapie să fie mai mic decât cel iniţial. Ipoteza de nul: diferenţele dintre cele două măsurători sunt nule, nu există nici o diferenţă între nivelul iniţial şi cel final al anxietăţii. Diferenţele dintre mediile celor două eşantioane vor forma un eşantion de comparaţie. Acest eşantion al diferenţelor se compară cu o populaţie la care cunoaştem media (media are valoarea 0 conform ipotezei de nul). Folosirea SPSS pentru compararea a două eşantioane perechi Pentru a demonstra modul de utilizare a testului t pentru eşantioane perechi, vom folosi baza de date Baza1.sav. Se utilizează testul t pentru eşantioane perechi, pentru că avem rezultatele aceloraşi subiecţi înainte şi după terapie. Aplicarea testului t se face activând din meniul ANALYZE – COMPARE MEANS opţiunea PAIRED-SAMPLES T TEST:
Odată activată comanda va apare fereastra de mai jos:
1
2
3
Prezentăm principalele opţiuni ale ferestrei: 1. câmpul din stânga cuprinde variabilele din baza de date 2. indică selecţia curentă, variabilele selectate pentru analiză; pentru acest tip de test se selectează o pereche de variabile; 3. câmpul în care se introduc cele două variabile pereche După introducerea variabilelor în câmpul de analiză fereastra ar trebui să arate astfel:
296
ANALIZA COMPUTERIZATĂ A DATELOR
Butonul OPTIONS este identic cu cel de la testul t care permite compararea unui eşantion cu o populaţie. Vom păstra intervalul de încredere de 95%. După apăsarea butonului OK fereastra OUTPUT ne va prezenta următoarele rezultate: 3
4
Paired Samples Statistics
2 1
Mean Pair 1
nivelul anxietatii inainte de terapie nivelul anxietatii dupa terapie
N
Std. Deviation
Std. Error Mean
107,9000
20
6,0166
1,3454
107,9500
20
5,3062
1,1865
5
6 Paired Samples Correlations N Pair 1
nivelul anxietatii inainte de terapie & nivelul anxietatii dupa terapie
10 9 8 Pair 1
7
Correlation 20
Paired Samples Test
-,259
8,9940
2,0111
-4,2593
,270
13
11
Paired Differences 95% Confidence Interval of the Difference Std. Error Mean Std. Deviation Mean Lower Upper
nivelul anxietatii ina de terapie - nivelul -0.05 anxietatii dupa tera
Sig.
4,1593
12
t
df
-,025
Sig. (2-tailed) 19
14
,980
15
Rezultatele sunt organizate în trei tabele, pentru fiecare dintre acestea vom analiza celulele. Tabelul PAIRED SAMPLES STATISTICS: 1. conţine perechea de variabile analizată; variabilele trebuie să fie perechi, adică să provină de la aceeaşi subiecţi şi fie cuantificate cu aceeaşi unitate de măsură 2. conţine mediile celor două grupe analizate: Mini=107,9, Mfin=107,95 3. prezintă numărul de subiecţi din fiecare eşantion, N=20 4. conţine deviaţiile standard a scorurilor fiecărui eşantion: Sini=60,1, Sfin=5,3
297
LOREDANA GHERASIM
5. conţine abaterile standard ale populaţiilor de eşantioane de N subiecţi din care provin eşantioanele noastre Tabelul PAIRED SAMPLES CORRELATIONS 6. coeficientul de corelaţie dintre cele două variabile pereche 7. pragul de semnificaţie al corelaţiei, adică probabilitatea de eroare dacă am afirma că există o legătură între cele două variabile Tabelul PAIRED SAMPLES TESTS 8. conţine numele perechii de variabile şi precizează diferenţa dintre variabile, în cazul nostru anx1-anx2 9. cuprinde diferenţa medie dintre cele două grupe de subiecţi. Valoarea negativă indică faptul că anxietatea iniţială este mai mică comparativ cu cea finală 10. cuprinde abaterea standard a eşantionului rezultat din diferenţele celor două eşantioane 11. indică abaterea standard a populaţiei de eşantioane care cuprinde toate eşantioanele de aceeaşi mărime 12. indică intervalul de încredere de 95%al diferenţei dintre mediile celor două grupe 13. valoarea lui t, adică nota t a eşantionului de diferenţe în cadrul populaţiei de eşantioane: t(19)=-0,02 14. gradele de libertate pentru care este calculată nota t, df=19 15. pragul de semnificaţie sau probabilitatea de eroare atunci când respingem ipoteza de nul: p=0,980 În continuare prezentăm rezultatele obţinute în urma analizei realizată anterior: Mediile iniţiale şi finale ale subiecţilor: Mini=107,9, Mfin=107,95 Valoarea lui t şi a pragului de semnificaţie: t(19)=-0,02, p=0,980. Interpretarea se face în funcţie de valoarea lui t şi pragul de semnificaţie. Reamintim că pentru a respinge ipoteza de nul trebuie să avem cel mult 5% erori (p≤0,05). În cazul nostru se constată că nu apare o diferenţă semnificativă între nivelul iniţial şi cel final al anxietăţii (dacă am respinge ipoteza de nul am greşi în 98% din cazuri sau cu alte cuvinte valoarea lui t se plasează în zona de încredere a ipotezei de nul). Subiecţii au acelaşi nivel al anxietăţii după intervenţia terapeutică, astfel că putem spune că terapia nu a avut efect, nu a îmbunătăţit starea subiecţilor. Corelaţia ne arată dacă subiecţii îşi schimbă ierarhia unii faţă de alţii, nu numai nivelul variabilei dependente. Avem trei situaţii posibile: • lipsa corelaţiei semnificative: în acest caz nu există o legătură între ierarhia subiecţilor la prima cu cea de al două măsurare. Putem afirma că diferenţele între măsurători nu sunt sistematice, intervenţia acţionând oarecum haotic. • corelaţie pozitivă semnificativă: indică faptul că ierarhia subiecţilor se păstrează de la o măsurare la alta. Cei care aveau rezultate mici la prima măsurare au rezultate mici şi la a doua, iar cei care aveau rezultate mari la prima măsurare au rezultate mari şi la a doua măsurare. • corelaţie negativă, semnificativă: indică faptul că ierarhia subiecţilor se inversează de la o măsurare la alta. Cei care aveau rezultate mici la prima măsurare au rezultate mari la a doua, iar cei care aveau rezultate mari la prima măsurare au rezultate mici la a doua măsurare. În exemplu nostru avem prima situaţie corelaţie nesemnificativă, r=-0,25, p=0,270, ceea ce indică faptul că cele două variabile sunt independente una de cealaltă, deoarece diferenţele nu sunt sistematice. 298
ANALIZA COMPUTERIZATĂ A DATELOR
III.5. TESTUL T PENTRU COMPARAREA A DOUĂ EŞANTIOANE INDEPENDENTE Acest test se foloseşte când dorim să analizăm influenţa unei variabile independente, care presupune eşantioane independente de subiecţi. Pentru a demonstrat modul de utilizare a testului vom folosi datele din baza de date baza1.sav. Vom analiza dacă genul subiecţilor influenţează nivelul iniţial al anxietăţii pacienţilor. În acest caz variabila independentă este genul subiecţilor (cu două grade de intensitate, 1 - subiecţi de sex masculin şi 2 – subiecţi de gen feminin), variabila dependentă fiind nivelul iniţial al anxietăţii. În funcţie de variabila independentă se creează două grupe de subiecţi independenţi sau diferiţi (grupul 1 va fi format numai din subiecţii de gen masculin, iar grupul 2 numai din subiecţi de gen feminin). Fiecare subiect va putea face parte doar dintr-un singur grup. Ipoteza de cercetare: subiecţii de sex masculin vor avea un nivel al anxietăţii iniţiale diferit de cel al subiecţilor de gen feminin Ipoteza de nul: subiecţii de gen masculin şi feminin vor avea acelaşi nivel al anxietăţii iniţiale. Folosirea SPSS pentru compararea a două eşantioane independente Aplicarea testului t pentru eşantioane independente se face activând meniul ANALYZE – COMPARE MEANS, opţiunea INDEPENDENT SAMPLES T TEST:
Vom introduce variabila dependentă (nivelul anxietăţii înainte terapiei) în câmpul TEST VARIABLE şi variabila independentă în câmpul GROUPING VARIABLE:
1
2 3 4
Sunt trei câmpurile importante pe care trebuie să le avem în vedere: 1. câmpul cu variabilele din baza de date 2. câmpul în care vom introduce variabila dependentă, adică variabila asupra căreia dorim să analizăm influenţa variabilei independente.
299
LOREDANA GHERASIM
3. câmpul unde introducem variabila independentă sau variabila de grupare (cea după care grupăm subiecţii). 4. butonul care permite precizarea celor două niveluri ale variabilei independente; chiar dacă variabila independentă are mai multe grade de intensitate, se pot preciza doar două dintre acestea. Activarea butonului DEFINE GROUPS deschide o fereastră unde vom trece valorile corespunzătoare celor două grupuri alese pentru comparaţie (în acest caz variabila independentă are doar două niveluri 1 şi 2):
În fereastra OUTPUT sunt prezentate următoarele rezultate: 1
2
3
Group Statistics
sexul subiectilor nivelul anxietatii subiecti de gen masculin inainte de terapie subiecti de gen feminin
N 9 11
4
5
Std. Error Mean Mean Std. Deviation 104,8889 2,5712 ,8571 110,3636 6,9753 2,1031
Independent Samples Test
6
7
Levene's Test for Equality of Variances
F nivelul anxietati Equal variance 6,683 inainte de terap assumed
t-test for Equality of Means 5% Confidence Interv of the Difference
Sig. ,019
Equal variance not assumed
8
t
Mean Std. Error Sig. (2-tailed) Difference Difference
df
Lower
Upper
-2,225
18
,039
-5,4747
2,4605 -10,6442
-,3053
-2,411
13,144
,031
-5,4747
2,2711 -10,3756
-,5739
9
10
11
Vom prezenta succint semnificaţia datelor din tabele: 1. celula indică variabila dependentă (nivelul anxietăţii înainte de terapie) care este analizată în funcţie de nivelurile variabilei independente (sexul subiecţilor) 2. indică numărul de subiecţi din fiecare grup independent; în cazul nostru avem 9 subiecţi de sex masculin şi 11 de gen feminin 3. conţine media fiecărui grup independent, se observă că media grupului de subiecţi de gen feminin este mai mare: Mgr1=104,8, Mgr2=110,3 4. conţine deviaţia standard pentru fiecare grup în parte: Sgr1=2,5, Sgr2=6,9
300
ANALIZA COMPUTERIZATĂ A DATELOR
5. precizează deviaţia standard pentru populaţiile de eşantioane de N subiecţi din care provin grupele noastre 6. precizează cele două situaţii posibile în urma testării varianţei populaţiilor: varianţe egale (primul rând) sau varianţe inegale (al doilea rând) 7. arată valoarea testului F, Levene. Înainte de a analiza al doilea tabel, vom preciza faptul că testul LEVENE testează egalitatea varianţelor populaţiilor din care provin eşantioanele noastre. Testul, notat cu F, testează ipoteza de nul care afirmă că varianţele populaţiilor din care provin eşantioanele sunt egale 8. probabilitatea de eroare pentru respingerea ipotezei de nul în cazul testului Levene 9. celula conţine valorile lui t pentru varianţe egale sau inegale ale populaţiilor; semnul lui t ne indică sensul diferenţei dintre medii, fapt de care ne putem da seama uitându-ne la valorile mediilor 10. arată gradele de libertate pentru care a fost calculată semnificaţia notei t; indiferent de rândul pe care îl citim, în funcţie de testul Levene, convenţia este ca să raportăm gradele de libertate de pe primul rând (în cazul nostru df=18) 11. conţine pragul de semnificaţie sau probabilitatea de eroare care apare atunci când respingem ipoteza de nul şi acceptăm ipoteza de cercetare. Pentru a respinge ipoteza de nul pragul de semnificaţie trebuie să fie cel mult egal cu 0,05. Interpretarea rezultatelor obţinute: Mediile: subiecţii de gen masculin - Mgr1=104,8, subiecţi de gen feminin - Mgr2=110,3 Testul Levene are valoarea F=6,6, p=0,019, ceea ce indică faptul că putem respinge ipoteza de nul (care afirmă că varianţele sunt egale). Greşim doar în 1,9% din cazuri dacă respingem ipoteza de nul. Concluzia este că variantele celor două populaţii sunt diferite, vom extrage nota t şi semnificaţia de pe rândul EQUAL VARIANCES NOT ASSUMED. Valoarea lui t şi semnificaţia: t(18)=-2,4, p=0,031. Putem respinge ipoteza de nul, pentru că greşim doar în 3,1% din cazuri şi s acceptăm ipoteza de cercetare. Deci, apar diferenţe semnificative între nivelul anxietăţii iniţiale a subiecţilor de gen masculin şi feminin. Subiecţii de sex masculin au un nivel al anxietăţii semnificativ mai mic comparativ cu a celor de gen feminin. Vom analiza efectul variabilei gen asupra nivelului anxietăţii subiecţilor după terapie. Rezultatele obţinute sunt: Group Statistics
sexul subiectilor nivelul anxietatii subiecti de gen masculin dupa terapie subiecti de gen feminin
N 9 11
Mean 106,1111 109,4545
Std. Deviation 4,0449 5,9053
Std. Error Mean 1,3483 1,7805
Independent Samples Test
Levene's Test for quality of Variance
F nivelul anxie Equal varian 1,326 dupa terapieassumed Equal varian not assumed
Sig. ,265
t-test for Equality of Means
t -1,441
df
95% Confidence Interval of the Difference Mean Std. Error ig. (2-tailedDifferenceDifference Lower Upper
18
,167 -3,3434
2,3201 -8,2178 1,5309
-1,497 17,545
,152 -3,3434
2,2334 -8,0444 1,3575
301
LOREDANA GHERASIM
Mediile celor două grupe: Mgr1=106,1, Mgr2=109,4 Testul LEVENE (F=1,3, p=0,256) este nesemnificativ (am greşi în 26,5% din cazuri dacă am respinge ipoteza de nul care afirmă ă varianţele sunt egale). Deci varianţele celor două populaţii sunt egale şi vom extrage rezultatele din primul rând. t(18)=1,44, p=0,167. Valoarea lui t este nesemnificativă (am greşi în 16,7% din cazuri dacă am respinge ipoteza de nul şi am accepta ipoteza de cercetare). Deci nu apar diferenţe semnificative între nivelul anxietăţii bărbaţilor şi femeilor după terapie.
III.6. ANALIZA DE VARIANŢĂ - ANOVA UNIFACTORIAL Se foloseşte atunci când vrem să analizăm efectul unei variabile independente, care are mai mult de două grade de intensitate (sau nivele), asupra variabilei dependente. Pentru a înţelege logica acestei metode să luăm un exemplu. Să presupunem că suntem interesaţi dacă salariul românilor depinde de nivelul de studii (nivel general, mediu şi superior). Mai precis ne aşteptăm ca subiecţii cu studii medii să aibă un salar mai mic comparativ cu cei cu studii, dar să aibă un salariu mai mare comparativ cu cei cu studii generale. Reprezentarea grafică a situaţiei descrisă anterior este prezentată în imaginea de mai jos:
a
x
b
M1
M2
M3 MG
Cele trei linii curbe mici descriu distribuţia salariilor pentru cele trei categorii de studii, iar linia curbă mai mare descrie distribuţia salariului pentru toate cele trei niveluri de studii luate la un loc. M1, M2 şi M3 reprezintă salariul mediu pentru fiecare nivel de studii, iar MG este salariul mediu total al tuturor salariaţilor. Distanţa a reprezintă poziţia scorului x faţă de media grupului din care aparţine, iar distanţa b exprimă poziţia scorului x faţă de valoarea medie a populaţiei totale (formată din cele trei niveluri de studii la un loc). Variaţia totală a salariului populaţiei poate fi descompusă în două părţi: o parte din variaţie se datorează abaterilor fiecărui scor de la media grupului din care face parte (distanţa a), iar cealaltă parte din variaţie este produsă de abaterile fiecărui scor de la media totală a populaţiei. Pentru a distinge între grupuri ar trebui ca prima componentă a variaţiei să fie mai mică decât cea de a doua, adică persoanele aflate în acelaşi grup să difere mai puţin între ele şi mai mult de subiecţii din celelalte grupe. Atunci când variaţia intragrup este mai mică decât variaţia intergrup înseamnă grupele sunt diferite. 302
ANALIZA COMPUTERIZATĂ A DATELOR
Analiza de varianţă (simbolul este F, coeficientul Fisher), calculează raportul între variaţia provocată de diferenţele întergrupuri, MSB, şi variaţia cauzată de diferenţele intragrup, MSW, (formula de calcul este F=MSB/MSW) şi stabileşte dacă acest raport este suficient de mare pentru a putea distinge între grupe. Semnificaţia coeficientului F se stabileşte în funcţie de două grade de libertate: gradele de libertate intergrup (valoare dată de numărul de grupuri minus 1) şi gradele de liberate intragrup (valoare dată de suma gradelor de libertate a grupurilor sau de numărul total de subiecţi mai puţin numărul grupurilor). Folosirea SPSS - ANOVA unifactorial Vom folosi baza de date Baza7.sav şi vom analiza efectul variabilei regiune (care are trei grade de intensitate: 1-europeană, 2-asiatică şi 3-africană) asupra indicelui de creştere al populaţie. Ipoteza de cercetare: variabila regiune influenţează valoarea densităţii populaţie sau indicele de creştere va varia în funcţie de regiune. Ipoteza de nul: indicele de creştere (densitatea) va avea aceeaşi valoare, indiferent de zona geografică. Pentru realizarea acestei analize se deschide meniul ANALYZE – COMPARE MEANS, opţiunea ONE WAY ANOVA:
Vom introduce variabila dependentă (procentul de creştere al populaţie) în câmpul DEPENDENT LIST şi variabila independentă în câmpul FACTOR:
2 1 3
4
6 5
Să analizăm fereastra: 1. câmpul în care sunt afişate variabilele din baza de date; 2. câmpul în care sunt introduse variabilele dependente (în cazul nostru densitatea); 3. este câmpul în care se introduce variabila independentă sau factor (în exemplul nostru factorul este regiunea); 303
LOREDANA GHERASIM
4. butonul CONTRAST permite realizarea unor comparaţii între grupe în funcţie de variabila independentă; 5. butonul POST HOC permite alegerea unui anumit tip de contrast post-hoc; 6. butonul OPTIONS conţine elemente de statistică descriptivă. Vom descrie pe scurt opţiunile butonului POST-HOC:
Toate testele de la această opţiune indică dacă diferenţele obţinute pe ansamblu prin analiza testului F se regăsesc şi la nivelul comparaţiilor dintre grupuri luate două câte două. Pragurile de semnificaţie a acestor teste sunt ajustate în funcţie de numărul de grupe. Testele sunt prezentate în ordinea descrescătoare a puterii lor. Pentru a analiza efectul variabilei independente asupra celei dependente se foloseşte testul BONFERRONI. Activarea butonului descriptiv deschide următoarea casetă:
Opţiunile pe care le vom bifa sunt DESCRIPTIV pentru a vedea mediile celor trei grupe şi reprezentarea grafică a efectului MEANS PLOT. După activarea butonului OK al ferestrei principale în foia cu rezultate apr următoarele tabele: Descriptives procentul de crestere anuala a populatiei
N europa asia africa Total
304
15 11 11 37
Mean ,433 1,724 2,693 1,489
Std. Deviation ,376 ,956 ,564 1,149
ANALIZA COMPUTERIZATĂ A DATELOR
1
ANOVA
2
procentul de crestere anuala a populatiei
Between Groups Within Groups Total
Sum of Squares 33,261 14,303 47,564
df 2 34 36
3
Mean Square 16,630 ,421
F 39,532
4
Sig. ,000
5
6
Multiple Comparisons Dependent Variable: procentul de crestere anuala a populatiei Bonferroni
7
10
8
9
Mean Difference (I) regiunea geografic (J) regiunea geografic (I-J) Std. Error europa asia -1,290* ,257 africa -2,259* ,257 asia europa 1,290* ,257 africa -,969* ,277 africa europa 2,259* ,257 asia ,969* ,277
11 95% Confidence Interval Sig. Lower Bound Upper Bound ,000 -1,939 -,642 ,000 -2,908 -1,611 ,000 ,642 1,939 ,004 -1,666 -,273 ,000 1,611 2,908 ,004 ,273 1,666
*. The mean difference is significant at the .05 level.
Vom prezenta succint semnificaţia datelor din tabele: 1. în prima coloană sunt trecute cele două componente ale variaţiei totale: cea intergrup şi intragrup; 2. în a doua coloană sunt trecute deviaţiile pătratice care intră în componenţa fiecărui tip de varianţă (intergrup şi intragrup); 3. în această coloană sunt prezentate gradele de libertate pentru care se calculează valoarea prag a lui F, gradul de libertate intergrup (sau between) este 2 (3 grupe-1), iar cel intragrup este 34 (numărul total de subiecţi este 37 minus 3 numărul de grupe); 4. în această coloană sunt prezentate componente ale testului F; 5. conţine valoarea testului F obţinută prin împărţirea mediei varianţei intragrup la media varianţei intergrup (în exemplul nostru: 16,6/0,4=39,5); 6. conţine semnificaţia testului F sau probabilitatea de eroare când respingem ipoteza de nul. Din datele pe care le avem până acum, F(2,34)=39,5, p<0,001, putem concluziona că pe ansamblu, regiunea influenţează valoarea indicelui demografic. Putem spune că doar pe ansamblu se întâmplă acest lucru pentru că rezultatele analizei ANOVA se referă doar la existenţa diferenţelor globale dintre grupe, fără a preciza care sunt grupele între care apar diferenţe semnificative. Pentru a vedea diferenţele dintre grupuri trebuie să analizăm rezultatele prezentate în tabelul POST HOC TESTS: 7. prima coloană indică nivelul de referinţă al variabilei independente, faţă de care se face comparaţia. Coloana este notată cu I. 8. coloana a doua indică nivele variabilei independente care sunt comparate cu nivelurile de referinţă. Coloana este notată cu J. 9. coloana afişează valorile diferenţelor dintre coloana I şi J.
305
LOREDANA GHERASIM
10. steluţa care apare în dreptul diferenţelor dintre medii indică existenţa unor diferenţe semnificative între acestea. 11. coloana conţine valoarea exactă a pragului de semnificaţie pentru fiecare diferenţă. Astfel, în exemplul nostru observăm următoarele rezultate: Mgr1(Europa)-Mgr2(Asia)=-1,2, p<0,001 Mgr1(Europa)-Mgr3(Africa)=-2,2, p<0,001 Mgr2(Asia)-Mgr3(Africa)=-0,96, p=0,004 Între toate grupele apa diferenţe semnificative, cea mai mare valoarea a indicelui demografic îl are regiunea africană (indicele este semnificativ mai mare comparativ cu celelalte două regiuni), urmează apoi regiunea asiatică (indicele este semnificativ mai mare decât cel al regiunii europene, dar mai mici decât cel al regiunii africane). Pe ultimul loc se plasează Europa cu cel mai mic (semnificativ mai mic comparativ cu zona asiatică şi africană) indice demografic. În imaginea de mai jos apare grafică a efectului:
În continuare vom analiza efectul variabilei regiune asupra densităţii. Rezultatele obţinute sunt următoarele:
ANOVA Numar de oameni/ kilometru patrat
Between Groups Within Groups Total
306
Sum of Squares 3133461 25709646 28843107
df 2 34 36
Mean Square 1566730,638 756166,057
F 2,072
Sig. ,142
ANALIZA COMPUTERIZATĂ A DATELOR
Multiple Comparisons Dependent Variable: Numar de oameni/ kilometru patrat Bonferroni
(I) regiunea geografica europa asia africa
(J) regiunea geografica asia africa europa africa europa asia
Mean Difference (I-J) -627,447 21,172 627,447 648,618 -21,172 -648,618
Std. Error 345,186 345,186 345,186 370,789 345,186 370,789
Sig. ,234 1,000 ,234 ,268 1,000 ,268
Din tabelul ANOVA extragem valoarea şi semnificaţia lui F: F(2,34)=2,07, p=0,142. Constăm nu există un efect al variabilei regiune asupra densităţii populaţiei (nu putem respinge ipoteza de nul pentru că am greşi în 14,2% din cazuri). Deci, densitatea populaţiei este aproximativ aceeaşi indiferent de regiune: europeană, asiatică sau africană. Testul POST HOC Bonferroni nu semnalează diferenţe semnificative între cele trei grupe care se formează în funcţie de intensităţile variabilei independente.
III.7. ANOVA UNIVARIATE Cele mai multe studii realizate în domeniul psihologiei studiază efectul mai multor factori (variabile independente) asupra uneia sau mai multor variabile dependente. Metodele prezentate până acum (testele t şi ANOVA unifactorial) permit doar evidenţierea influenţei separate a fiecărui factor. Pentru a analiza efectelor mai multor variabile independente se poate folosi analiza de varianţă factorială. Logica acestei metode este identică cu a modelului ANOVA unifactorial, la fel coeficientul F măsoară raportul dintre variaţia cauzată de împărţirea pe grupuri şi variaţia intrinsecă a grupurilor. Acest tip de analiză prezintă două tipuri de note F corespunzătoare celor două tipuri de efecte pe care le măsoară. Efectele principale măsoară influenţa unei variabile independente asupra variabilei dependente, indiferent de acţiunea celorlalte variabile independente. Efectele de interacţiune măsoară influenţa combinată a două sau mai multor variabile independente asupra variabilei dependente. Folosirea SPSS - GENERAL LINEAR MODEL - UNIVARIATE Pentru a prezenta modul de folosire al programului SPSS pentru aplicarea acestei metode vom crea o nouă bază de date (baza8.sav) care conţine trei variabile: nota (notele obţinute de studenţi la examen), niv_stim (nivelul stimei de sine, cu două valori: 1 - nivel scăzut al stimei de sine şi 2 – nivel ridicat al stimei de sine), niv_anx (nivelul de anxietate cu două valori: 1 - nivel scăzut de anxietate scăzut şi 2 nivel ridicat de anxietate). Prezentăm mai jos datele care trebuie introduse în programul SPSS: Nota: 9, 9, 8, 10, 9, 10, 6, 8, 7, 7, 6, 5, 6, 7, 8, 8, 8, 7, 10, 7, 8, 7, 8, 9, 6, 5, 7, 5, 6, 5, 8 Niv_stim: 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2 Niv_anx: 1, 1, 1, 1, 1, 1, 1, 1, 2, 2, 2, 2, 2, 2, 2, 2, 1, 1, 1, 1, 1,1, 1, 1, 2, 2, 2, 2, 2, 2, 2
307
LOREDANA GHERASIM
În acest exemplu avem două variabile independente niv_stim (nivelul stimei de sine) şi niv_anx (nivelul de anxietate), fiecare din ele având două grade de intensitate. Variabila dependentă este nota obţinută la examen. Vom analiza efectul de interacţiune (sau combinat) al nivelului de anxietate şi al stimei de sine asupra notei obţinute la examen. Pentru analiza efectului combinat voma activa meniul ANALYZE - GENERAL LINEAR MODEL opţiunea UNIVARIATE. Odată activată comanda pe ecran apare următoarea fereastră: 2
3 1 4
5
6
Vom explica această fereastră: 1. conţine variabilele din baza de date 2. în câmpul DEPENDENT VARIABLE se introduce variabila dependentă; se poate introduce o singură variabilă dependentă 3. în câmpul FIXED RACTOR se introduc variabilele independente (sau factorii) a căror efect este controlat (nu este cauzat de întâmplare) 4. în câmpul RANDOM FACTOR pot si trecute variabilele independente, care nu ne interesează în mod direct sau a căror acţiune nu o putem controla 5. în câmpul COVARIATE pot fi trecute variabile independente sau variabile dependente care ar putea avea o legătură sau un efect asupra variabilei dependente; astfel vom vedea dacă variabilele noastre independente (trecute în câmpul FIXED FACTORS) influenţează variabila dependentă indiferent de acţiunea factorilor covarianţi. 6. aici se trec valorile pe care le putem folosi atunci când bănuim că unele variabile independente (factori) ar corela între ele; este o opţiune pentru utilizatorii avansaţi şi nu recomandăm folosirea metodei fără cunoaşterea precisă a semnificaţiei sale. Pentru exemplul nostru, variabilele independente sunt nivelul stimei de sine (NIV_STIM) şi nivelul anxietăţii (NIV_ANX), deci vom trece aceste variabile în câmpul FIXED FACTORS. Variabila dependentă este NOTA (vom trece această variabilă în câmpul DEPENDENT VARIABLE:
308
ANALIZA COMPUTERIZATĂ A DATELOR
În partea dreaptă fereastra principală există o serie de butoane care conţin opţiuni complexe de analiză. Precizăm nu vom folosi în analiză toate opţiunile, acestea putând fi folosite pentru design-uri experimentale mult mai complexe. Butonul MODEL activează următoarea fereastră: 2
1
3
4
Opţiunile din această fereastră folosesc la construirea unor modele de analiză în condiţiile în care situaţia investigată este complicată (conţine multe variabile independente). Să analizăm fereastra: 1. opţiunea FULL FACTORIAL este marcată implicit, ceea ce înseamnă că se vor lua în calcul toate efectele principale şi combinaţiile posibile de factori. Pentru modelele simple se recomandată utilizarea acestei opţiuni 2. opţiunea CUSTOM se foloseşte dacă se doreşte simplificarea modelul cu care se lucrează, bifarea acestei opţiune activează automat câmpurile şi butoanele care se găsesc dedesubt, permiţând calculul anumitor efecte pentru anumiţi factori 3. folosind opţiunile care se deschid din câmpul INTERACTION, putem alege efectele pe care vrem să le analizăm; cu ajutorul butonului cu săgeată se pot selecta factorii pentru care dorim să se calculeze efectele.
309
LOREDANA GHERASIM
4. permite alegerea tipului de interacţiune dintre variabilele independente (cât de complexă să fie interacţiunea) şi calculul unor coeficienţi de regresie ai modelului (există o legătură strânsă între Regresia liniară şi analiza de varianţă). Pentru exemplul nostru, vom păstra opţiunea marcată implicită FULL FACTORIAL. Se apasă butonul CONTINUE pentru a reveni la fereastra principală. Butonul CONTRAST deschide următoarea fereastră:
Opţiunile acestei ferestre permit compararea diferitelor grupuri rezultate din împărţirea subiecţilor în funcţie de valorile sau categoriile variabilelor independente. Aici sunt trecute doar variabilele independente. Se alege variabila independentă pentru care se doreşte calculul contrastul (diferenţa dintre nivelele sale de variaţie). Apoi, se alege tipul de contrast din câmpul CONTRAST. Se recomandă tipul de contrast DIFFERENCE. Pentru exemplificare, am ales variabila NIV_STIM (nivelul stimei de sine).
Prin tipul de contrast DIFFERENCE, se cere programului să analizeze dacă între cele două nivele ale variabilei nivel al stimei de sine vor apărea diferenţe în ceea ce priveşte notele obţinute. Cu alte cuvinte vom vedea dacă cei cu stimă de sine ridicată obţin note diferite de cei cu stimă de sine scăzută). După alegerea tipului de contrast trebuie activat butonul CHANGE.
La fel se procedează şi pentru variabila independentă nivelul anxietăţii.
310
ANALIZA COMPUTERIZATĂ A DATELOR
Butonul PLOTS activează o fereastră dedicată reprezentărilor grafice:
Pe axa HORIZONTAL AXIS se introduce variabila independentă ale cărei categorii dorim să le reprezentăm pe axa X. Pe axa SEPARATE LINES se introduce variabila pentru care se vor trasa linii ce vor reprezenta categorii diferite ale factorului. SEPARATE PLOTS se foloseşte introducerea celui de al treilea factor, ceea ce permite obţinerea mai multor grafice, care indică relaţia dintre variabilele introduse anterior pentru fiecare nivel al factorului trei. În exemplul nostru avem doar doi factori. În consecinţă vom reprezenta notele la examen în funcţie de nivelul stimei de sine, NIV_STIM (pe care o vom trece pe axa X) şi nivelul anxietăţii, NIV_ANX (reprezentată prin linii separate), ca în imaginea de mai jos:
311
LOREDANA GHERASIM
Se activează butonul ADD. Acest buton permite realizarea mai multor grafice, deoarece în urma activării acestuia câmpurile ferestrei se golesc.
Revenim din nou în fereastra principală pentru a activa butonul POST HOC care va deschide fereastra:
Acest buton are opţiuni similare cu butonul POST HOC din fereastra ANOVA ONE-WAY. Această opţiune se foloseşte doar când variabile independente au mai mult de două nivele de variaţie. Pentru a analiza diferenţele dintre grupe se foloseşte testul Bonferroni. Pentru exemplul nostru nu avem nevoie de comparaţii POST HOC, deoarece ambele variabile independente au doar două nivel. Vom reveni la fereastra principală fără a activa vreo opţiune. Butonul SAVE activează următoarea fereastră: Opţiunile la care face referire acest buton se referă la o altă metodă statistică numită Regresia liniară. Nu vom mai comenta aceste opţiuni, dar menţionăm că ele facilitează tratarea analizei de variantă ca un model particular de regresie. Recomandăm folosirea acestor opţiuni doar celor care cunosc regresia. Butonul OPTIONS activează o fereastră specifică acestei analize de varianţă:
312
ANALIZA COMPUTERIZATĂ A DATELOR
2 1
3
Prezentăm elementele principale ale ferestrei: 1. prezintă toate combinaţiile de factori pentru care avem grupuri diferite de subiecţi, permiţând calcularea mediei pentru fiecare grup de subiecţi în parte. Opţiunea OVERALL se referă la media calculată pentru toţi subiecţii, neîmpărţiţi în grupuri 2. este câmpul în care se trec factorii pentru care dorim să calculăm mediile grupurilor de subiecţi 3. prezintă opţiuni ce permit calcularea mai multor parametri. Dintre toate, ne interesează calculul parametrilor descriptivi (media, deviaţia standard, minimul şi maximul), precum şi testele de omogenitate (care trebuie să nu fie semnificative pentru a putea aplica acest model ANOVA). După selecţia opţiunilor fereastră arată astfel:
În continuare vom prezenta foaia cu rezultate. Primele elemente ale output-ului se referă la parametrii descriptivi ai modelului. Primul tabel precizează numărul de subiecţi pentru fiecare grup obţinut în funcţie de nivelurile fiecărei variabile independente. De exemplu, sunt 16 subiecţi în grupul celor cu nivel scăzut al stimei de sine.
313
LOREDANA GHERASIM
Al doilea tabel precizează mediile totale precum şi cele corespunzătoare fiecărui subgrup de subiecţi, subgrup determinat de categoriile factorilor din model. Aceste date sunt rezultatul opţiunilor marcate de noi din fereastra butonului OPTIONS.
Mai departe, în foaia de rezultate sunt prezentate elementele cele mai importante ale outputului, rezultatele testului F.
Tabelul cu testul lui Levene reprezintă tocmai testul de omogenitate, care trebuie să fie nesemnificativ pentru a utiliza această metodă. 4
2
3
1
Cele mai importante elemente ale tabelului se referă la testul F. Ne interesează numai liniile marcate prin acolade. 1. arată variabilele ale căror efecte le luăm în calcul:
314
ANALIZA COMPUTERIZATĂ A DATELOR
•
linia cu NIV_STIM arată efectul principal al factorului nivelul stimei de sine, indiferent de acţiunea celuilalt factor; • NIV_ANX arată efectul principal al factorului nivel de anxietate, indiferent de acţiunea celuilalt factor; • linia NIV_STIM*NIV_ANX se referă la efectul de interacţiune al celor două variabile asupra variabilei dependente; 2. conţine notele F corespunzătoare efectelor principale şi de interacţiune; 3. conţine pragurile de semnificaţie ale testelor F. 4. conţine gradele de libertate between subjects şi within subjects Pentru exemplu nostru s-a obţinut doar un singur F semnificativ (p<0,05) şi anume cel corespunzător liniei NIV_STIM (F(1,30)=22,13, p<0,001). Deci apare un efect principal al variabilei nivelul stimei de sine asupra notelor la examen. Restul efectelor sunt nesemnificative. Nu apare un efect principal al variabilei nivelul anxietăţii (F(1,30)=2,7, p=0,107), deci notele subiecţilor nu depinde de cât de anxioşi sunt aceştia. De asemenea, nu apare un efect de interacţiune al variabilelor independente nivelul stimei de sine şi nivelul anxietăţii (F(1,30)=0,02, p=0,881), deci nota la examen nu este influenţată de efectul combinat al nivelului de anxietate şi al stimei de sine. Pentru a vedea modul în care nivelul stimei de sine (NIV_STIM) influenţează nota la examen, trebuie să ne uităm în tabelul de contrast: Testul de contrast calculează diferenţa între media notelor obţinute de subiecţii cu nivel ridicat al stimei de sine şi a celor cu nivel scăzut al stimei de sine (LEVEL 2 vs. LEVEL l). Această diferenţă a fost comparată cu situaţia în care cele două grupuri ar fi obţinut valoarea zero (HYPOTHESIZED VALUE). Pragul de semnificaţie (notat cu SIG) indică apariţia unei diferenţe semnificative. Sensul diferenţei (-1,93) indică faptul că cei cu nivel ridicat al stimei de sine (LEVEL 2) au obţinut note mai semnificativ mai mici comparativ cu cei cu nivel ridicat al stimei de sine (LEVEL 1). Tabelul alăturat reia analiza contrastelor pentru factorul nivelul anxietăţii: Aici nu mai apar diferenţe semnificative (fapt confirmat şi de lipsa unui efect principal pentru această variabilă), deci nivelul anxietăţii nu afectează nota la examen (Mdif=-0,68, p=0,107). Următoarele tabelele prezintă media obţinută pe ansamblu (tabelul l), mediile obţinute pentru fiecare factor în parte (tabelele 2 şi 3) şi cele pentru grupurile de subiecţi rezultat al combinării nivelurilor celor două variabile independente. Aceste tabele ajută la interpretarea sensului diferenţelor la testele de 315
LOREDANA GHERASIM
contrast şi interacţiunii variabilelor. Tabelele prezintă şi deviaţiile standard şi limitele valorii medii pentru un interval de încredere de 95%.
La finalul foii de rezultate apare reprezentarea grafică a interacţiunii dintre variabilele independente:
Liniile graficului reprezintă nivelurile diferite de anxietate. Efectul principal al variabilei NIV_STIM poate fi observat grafic cu uşurinţă: notele obţinute de subiecţii cu stimă de sine ridicată au valoare mai mică comparativ cu cei care au stimă de sine scăzută. Putem concluziona, pentru exemplul nostru, că nota la examen este influenţată de nivelul stimei de sine dar nu şi de nivelul anxietăţii. Mai mult, nivelul stimei de sine acţionează asupra notei la examen în acelaşi mod indiferent de nivelul anxietăţii.
316
ANALIZA COMPUTERIZATĂ A DATELOR
III.8. ANOVA REPETED MEASURES Modelul ANOVA UNIVARIATE prezentat anterior permite analiza efectului de interacţiune a două variabile independente care presupun grupe independente de subiecţi. Atunci când una dintre variabilele independente presupune eşantioane perechi sau măsurări repetate, trebuie să utilizăm un alt model de analiză de varianţă, şi anume modelul ANOVA cu măsurări repetate. Acest model de analiză de varianţă se utilizează atunci când se doreşte analiza efectului de interacţiune a două variabile independente, una presupunând eşantioane independente, iar cealaltă măsurări repetate. La fel ca şi modelul de varianţă prezentat anterior şi acest tip de analiză prezintă două tipuri de note F corespunzătoare tipurilor de efect măsurate. Efectele principale măsoară influenţa fiecărei variabile independente asupra variabilei dependente, indiferent de acţiunea altei variabile independente. Efectele de interacţiune măsoară influenţa combinată a două sau mai multor variabile independente asupra variabilei dependente. Folosirea SPSS - GENERAL LINEAR MODEL – REPETED MEASURES Pentru a prezenta modul de utilizare a programului SPSS pentru aplicarea acestei metode vom crea o nouă bază de date (baza 8.sav) care conţine trei variabile: ANX1 (scorurile pacienţilor la scala de anxietate înaintea terapiei, ANX2 (scorurile pacienţilor la scala de anxietate după terapie), şi TERAPIE (tipul de terapie utilizat, cu două valori care corespund celor două tipuri de intervenţii terapeutice 1- tip 1 de terapie şi 2 - tip 2 terapie). Prezentăm mai jos datele, care trebuie introduse în programul SPSS: ANX1: 109, 110, 104, 106, 112, 105, 121, 102, 103, 104, 106, 104, 105, 108, 124, 115, 109, 103, 104, 104, ANX2: 110, 102, 103, 105, 115, 116, 110, 110, 112, 103, 102, 104, 110, 110, 102, 102, 102, 109, 115, 117, TERAPIE: 1, 2, 1, 2, 2, 2, 2, 1, 1, 1, 1, 1, 2, 2, 2, 2, 1, 1, 2, 2 Variabila dependentă este reprezentat de scorurile obţinute la scala de măsurare a anxietăţii înainte şi după terapie. Variabila independentă tip de terapie (TERAPIE) are două nivele (tip 1 de terapie şi tip 2 terapie) şi presupune eşantioane independente. Pentru a analiza efectul terapiei asupra stării pacienţilor trebuie să comparăm nivelul iniţial şi cel final al anxietăţii pacienţilor. Astfel, se formează o nouă variabilă independentă, cu măsurări repetate, pe care o vom denumit TRT. Această variabilă independente se referă la momentul măsurării anxietăţii pacienţilor şi are două niveluri, 1 – pretest (înainte terapiei) şi 2 posttest (după terapie). Scopul cercetării ar putea fi analiza eficienţei intervenţiilor terapeutice asupra nivelului anxietăţii. Activarea comenzilor pentru acest model ANOVA se face din meniul ANALYZE - GENERAL LINEAR MODEL opţiunea REPETED MEASURES. După activarea comenzii, pe ecran apare fereastra alăturată: Pentru a putea face analiza trebuie definită variabila care presupune măsurări repetate, în cazul nostru această variabilă este măsurarea repetată a anxietăţii înainte şi după terapie (sau test-retest). Cu alte cuvinte trebuie denumită variabila independentă care presupune măsurări repetate şi trebuie precizate nivelurile acesteia. În locul denumirii generice a variabilei care presupune măsurări repetate, care apare în câmpul WITHIN-SUBJECTS FACTOR NAME (factor 1) vom trece numele noii variabile 317
LOREDANA GHERASIM
TRT. În câmpul NUMBER OF LEVEL trebuie trecut numărul de măsurători repetate. Pentru exemplul nostru vom trece valoarea 2 pentru că anxietatea este măsurată înainte şi după terapie (vezi imaginea din dreapta):
Se activează butonul ADD, pentru a putea utiliza metoda şi defini variabilele independente (vezi imaginea din stânga): După salvarea definirii factorului cu măsurări repetate se activează butonul DEFINE, care activat deschide o nouă fereastră: 2
1
3
4
Vom prezenta câmpurile acestei ferestre: 1. este câmpul ce conţine variabilele din baza de date; 2. aici se introduc variabilele care reprezintă niveluri ale variabilei independente cu măsurări repetate; 3. în acest câmp introducem variabilele independente care presupun eşantioane independente; 4. se introduc variabile independente sau dependente care ar putea avea legătură sau ar influenţa variabila dependentă. În cazul nostru variabilele ANX1 şi ANX2 reprezintă nivelurile variabilei TRT, în consecinţă aceste variabile se introduc în câmpul WITHIN-SUBJECTS VARIABLES (TRT). Variabila tip de terapie (TERAPIE) se introduce în câmpul BETWEEN-SUBJECTS FACTOR, această variabilă presupunând grupe independente de subiecţi şi reprezentând variabila factor.
318
ANALIZA COMPUTERIZATĂ A DATELOR
În partea de jos a ferestrei principale apar o serie de butoane care conţin opţiuni complexe de analiză. Opţiunile sunt similare celor care au apărut în modelul de analiză de varianţă prezentat anterior ANOVA UNIVARIATE. Butonul MODEL activează următoarea fereastră:
Opţiunile din această fereastră folosesc la construirea unor modele în condiţiile în care situaţia investigată este prea complicată. Pentru exemplul nostru, vom păstra opţiunea selectată implicit FULL FACTORIAL, ceea ce va însemna că în foia cu rezultate vor apărea atât efectele principale ale celor două variabile independente cât şi efectul de interacţiune al acestora. Butonul CONTRAST activează următoarea casetă de dialog:
319
LOREDANA GHERASIM
Se observă că deja este selectat tipul de contrast pentru variabila independentă care presupune măsurări repetate (TRT Polynomial). Trebuie să alegem tipul de contrast pentru variabila TERAPIE, care presupune două niveluri. Vom selecta tipul de contrast Difference. Butonul PLOTS activează o fereastră dedicată reprezentărilor grafice. Vom reprezenta nivelul anxietăţii pacienţilor în funcţie de tipul terapiei (pe care o vom trece pe axa X) şi momentul evaluării anxietăţii TRT (reprezentată prin linii separate): Se activează apoi butonul ADD pentru ca aplicaţia SPSS să reţină reprezentarea grafică a interacţiunii dintre variabilele independente:
Butonul POST HOC deschide următoarea fereastră:
Acest buton are opţiuni similare butonului POST HOC din fereastra ANOVA ONE-WAY şi UNIVARIATE. Opţiunea se foloseşte atunci când variabile independente au mai mult de două nivele de variaţie. De asemenea, pentru a analiza diferenţele dintre grupe se foloseşte testul Bonferroni. Pentru exemplul nostru nu avem nevoie de comparaţii POST-HOC, pentru că variabilele independente au dor două niveluri. În consecinţă, vom reveni la fereastra principală fără a activa vreo opţiune.
320
ANALIZA COMPUTERIZATĂ A DATELOR
Butonul SAVE activează următoarea fereastră:
La fel ca la ANOVA UNIVARIATE, butonul se referă la o altă metodă statistică numită Regresia liniară, facilitând tratarea analizei de variantă ca un model particular de regresie. Recomandăm folosirea acestor opţiuni doar celor care cunosc regresia. Butonul OPTIONS activează o fereastră specifică analizei de variantă: La OPTIONS avem posibilitatea de a cere calculatorului să ne afişeze mediile grupelor de subiecţi în funcţie de fiecare variabilă independentă, precum şi în funcţie ambele variabile, deci pentru fiecare grup experimental. În continuare vom prezenta foaia cu rezultate. Primele elemente ale output-ului se referă la parametrii descriptivi ai modelului. Primul tabel precizează nivelurile (ANX1 şi ANX2) variabilei cu măsurări repetate (TRT).
Al doilea tabel precizează numărul de subiecţi pentru fiecare grup obţinut în funcţie de nivelurile factorului care presupune eşantioane independente:
Următorul tabel precizează mediile pentru fiecare subgrup de subiecţi format în funcţie de toate categoriile factorilor din model. 321
LOREDANA GHERASIM
Următoarele două tabele prezintă efectele principale şi de interacţiune ale variabilelor independente. La fel ca şi la modelul de analiză de varianţă anterior se extrag valorile coeficienţilor F, pragul de semnificaţie şi gradele de libertate.
În primul tabel se constată că nu apare un efect al variabilei TRT (p>0,050), ceea ce indică faptul că nivelului iniţial al anxietăţii pacienţilor nu diferă de nivelul final al anxietăţii pacienţilor după terapie (F(1,18)=0,006, p=0,940). Faptul că subiecţii au acelaşi nivel al anxietăţii după intervenţia terapeutică indică faptul că terapia utilizată nu a avut efect. De asemenea, nu apare un efect combinat al variabilelor independente, TRT*TERAPIE (F(1,18)=0,267, p=0,661). Deci subiecţii au acelaşi nivel al anxietăţii înainte şi după terapie, indiferent de tipul de terapie utilizat. Următorul tabel indică efectul variabilei independente tip de terapie, fără a ţine seama de momentul măsurării F(1,18)=13,23, p=0,002. Se constată că apare un efect principal al acestei variabilei independente asupra nivelului anxietăţii pacienţilor după terapie. Pentru a vedea cum influenţează tipul de terapie nivelul anxietăţii pacienţilor vom analiza tabelul Custom Hypothesis. Astfel, pacienţii care au primit tipul 2 de terapie au un nivel al anxietăţii semnificativ mai ridicat comparativ cu pacienţii care au primit terapia de tip 1 (Mdif=4,40, p=0,002). 322
ANALIZA COMPUTERIZATĂ A DATELOR
Următoarele tabelele prezintă media obţinută pe ansamblu (tabelul l), mediile obţinute pentru fiecare factor în parte (tabelele 2 şi 3) şi pentru grupele de subiecţi obţinute în urma combinării nivelurilor celor două variabile independente (tabelul 4). Aceste tabele ajută la interpretarea sensului diferenţelor la testele de contrast şi interacţiunii variabilelor. Tabelele prezintă şi deviaţiile standard şi limitele valorii medii pentru un interval de încredere de 95%.
La finalul foii de rezultate apare reprezentarea grafică a interacţiunii dintre variabilele independente:
Liniile graficului reprezintă momentele măsurării anxietăţii. Efectul principal al variabilei TERAPIE poate fi observat grafic cu uşurinţă. 323
LOREDANA GHERASIM
IV. DATELE NEPARAMETRICE
Datele non-parametrice sunt mai frecvent utilizate în sociologie decât în psihologie, Deoarece avem de a face cu scale nominale sau ordinale, parametrii obişnuiţi pe care i-am folosit până acum în analiză, precum media sau abaterea standard, nu mai pot fi utilizaţi. În consecinţă, datele pe care le obţinem folosind aceste scale de măsură nu mai pot fi analizate folosind metodele prezentate anterior. Aceste date se analizează pornind de la frecvenţele de apariţie ale diferitelor categorii sau de la probabilităţile de apariţie ale acestor categorii. Metodele statistice utilizate pentru analiza acestor date sunt numite teste neparametrice. Aplicarea acestor teste este mai facilă decât folosirea testelor parametrice, deoarece nu există restricţii cu privire la distribuirea normală a rezultatelor. Totuşi, aceste metode pot eşua mai uşor în demonstrarea diferenţele, acolo unde acestea există în realitate. Din acest motiv, recomandăm conceperea instrumentelor utilizând scalele de interval în locul celor nominale sau ordinale. De exemplu, în locul măsurării preferinţei pentru un anume tip de muzică folosind o scală ordinală de tipul „1-deloc, 2-puţin, 3-mediu, 4-mult, 5-foarte mult", este mai indicată măsurarea pe o scală de interval de tipul „1-deloc -2-3-4-5 - foarte mult". În acest fel, pot fi uşor detectate diferenţele folosind metodele parametrice. Vom prezenta câteva dintre metodele neparametrice, fără a intra în detaliile teoretice privind aceste teste.
IV.1. TESTUL CHI PĂTRAT Testul chi-pătrat permite compararea distribuţiei frecvenţelor unei variabile pe mai multe categorii, prin raportare la o distribuţie teoretică stabilită de cercetător. Testul compară abaterile de la această distribuţie teoretică obţinute în realitate şi estimează probabilitatea ca ele să apară aleatoriu. Folosirea SPSS Pentru a demonstrat modul de aplicare a acestei metode vom crea o nouă bază de date (baza9.sav) care cuprinde următoarele variabile: VRST (vârsta subiecţilor), GEN (genul subiecţilor, cu două valori: 1 semnifică subiecţi de gen masculin şi 2 subiecţi de gen feminin) şi VOT (cuprinde răspunsurile subiecţilor la întrebarea „Cu cine aţi votat la ultimele alegeri prezidenţiale?, cu două valori: 1 indicând persoanele care au votat pe Geoană, iar 2 indicând pe cei care au votat Băsescu) şi variabila GR_MULT (conţine răspunsurile subiecţilor la întrebarea „Cât de mulţumiţi sunteţi de situaţia actuală a ţării?”, cu două valori: 1 - deloc mulţumit, 2 - puţin mulţumit şi 3 - foarte mulţumit). Prezentăm scorurile subiecţilor la cele patru variabile:
324
ANALIZA COMPUTERIZATĂ A DATELOR
VRST: 45, 23, 54, 19, 22, 34, 37, 62, 36, 41, 47, 51, 38, 27, 35, 43, 32, 29 GEN: 1, 1, 2, 2, 1, 2, 1, 1, 2, 2, 2, 2, 1, 1, 1, 1, 2, 2 VOT: 2, 2, 1, 2, 2, 2, 2, 1, 2, 2, 2, 2, 1, 21, 2, 2, 2 GR_MULT: 1, 2, 3, 1, 1, 1, 3, 3, 3, 2, 2, 2, 1, 3, 2, 2, 2, 1 În exemplul nostru, dorim să vedem cu cine au votat alegătorii din lotul nostru la ultimele alegeri prezidenţiale. Deci, vom compara frecvenţa cu care oamenii au votat cei doi candidaţi, folosind testul chi pătrat. Vom activa fereastra specifică testului din meniul ANALYZE - NONPARAMETRIC TESTS opţiunea CHI-SQUARE:
Vom introduce variabila VOT în câmpul pentru analiză (TEST VARIABLES LIST). Se observă faptul că în câmpul EXPECTED VALUES este bifată opţiunea ALL CATEGORIES EQUAL, ceea ce semnifică faptul că se va compara situaţia reală a votului cu situaţia în care candidaţii ar obţine acelaşi număr de voturi. Dacă însă doream să comparăm distribuţia cu o alta, în care categoriile nu s-ar mai fi distribuit egal, atunci foloseam opţiunea VALUES şi butonul ADD. Rezultatele testului apar în foaia cu rezultate sub forma a două tabele:
În primul tabel sunt trecute elementele descriptive ale testului, categoriile sale, frecvenţa observată, cea teoretică la care se face raportarea şi abaterile frecvenţei observate de la frecvenţa teoretică (coloana RESIDUALS).
325
LOREDANA GHERASIM
Valoarea statistică a testului, prezentată în tabelul al doilea ( χ 2 = 5,55 ), este semnificativă (p=0,018) la un grad de libertate. Deci oamenii au votat în mod semnificativ diferit cei doi candidaţi la preşedinţie. Semnificativ mai mulţi oameni au votat pe Băsescu ca preşedinte comparativ cu cei care lau votat pe Geoană.
IV.2. TWO INDEPENDENT SAMPLES Aceste teste sunt echivalentul testului t pentru eşantioane independente, doar că în acest caz variabila dependentă măsurată nu este cantitativă, ci calitativă şi ordinală. Toate testele neparametrice ce compară două eşantioane independente au la bază comparaţii ale rangurilor diferitelor intervale observate. Folosirea SPSS Pentru a ilustra aplicarea testului vom utiliza baza de date creată anterior (baza9.sav). Vom analiza dacă apr diferenţe între subiecţii de gen masculin şi cei de gen feminin în ceea ce priveşte gradul de mulţumire faţă de situaţia actuală a ţării. Testul se activează din meniul ANALYZE - NON-PARAMETRIC TESTS opţiunea TWO INDEPENDENT SAMPLES:
Fereastra care apare pe ecran semănă foarte mult cu cea care apare la activarea testului t pentru eşantioane independente. Dintre cele patru tipuri de teste, vom folosi MANN-WHITNEY U, care se bazează pe ierarhia rangurilor observaţiilor din cele două grupuri. Vom trece variabila dependentă (GR_MULT) în câmpul TEST VARIABLE LIST, iar variabila independentă (GEN) în câmpul GROUPING VARIABLE. Grupurile variabilei independente se definesc folosind butonul DEFINE GROUPS, la fel ca şi în cazul testului t. În foaia cu rezultate apar următoarele tabele:
326
ANALIZA COMPUTERIZATĂ A DATELOR
Observaţi că stilul de prezentare al rezultatelor este similar cu cel de la testul chi-pătrat. în primul tabel este prezentată situaţia „descriptivă" (media rangurilor), iar valoarea pragului de semnificaţie a testului este dată în tabelul al doilea (linia denumită ASYMP. SIG). Astfel, rangul mediu pentru subiecţii de gen masculin are valoare 9,83, pentru cei de gen feminin are valoarea 9,17. Valoarea pragului de semnificaţie (p=0,778) este mai mare de 0,050, deci putem trage concluzia că femeile şi bărbaţii din studiul nostru nu diferă semnificativ în ceea ce priveşte gradul de mulţumire cu privire la situaţia actuală a ţării. Dacă diferenţele ar fi fost semnificative (p<0,05), sensul diferenţei ar fi fost dat de semnul notei Z, scrisă imediat deasupra valorii pragului de semnificaţie.
IV.3. TWO RELATED SAMPLES Metodele care compară două eşantioane perechi sunt similare aplicării testului t pentru eşantioane perechi. Pentru a ilustra aplicarea acestui test vom folosi o nouă bază de date (baza10.sav) care cuprinde două variabile: ALINATA (cuprinde răspunsurile subiecţilor la itemul „Evaluaţi contribuţia alianţei în integrarea europeană”; variabila are trei valori 1 - importanta, 2 - medie şi 3 - slabă) şi PSD (cuprinde răspunsurile subiecţilor la itemul „Evaluaţi contribuţia alianţei în integrarea europeană”, variabila are trei valori 1 - importanta, 2 - medie şi 3 - slabă). Prezentăm rezultatele subiecţilor: Alinata: 1, 1, 2, 3, 1, 1, 3, 2, 2, 2, 1, 1, 2, 2, 3, 3, 1, 3, 1, 1, 3, 2, 2, 2, 2, 2 PSD: 2, 3, 1, 1, 3, 2, 2, 1, 1, 1, 2, 2, 3, 1, 1, 1, 2, 1, 2, 2, 1, 2, 1, 1, 1, 2 Dorim să vedem dacă subiecţii au o părere mai bună despre unul dintre cele două partide politice. Deoarece subiecţii răspund la ambele întrebări trebuie aplicată o metodă care să permită compararea eşantioanelor perechi. Se foloseşte din meniul NON PARAMETRIC TESTS opţiunea TWO RELATED SAMPLES. Fereastra seamănă cu cea a testului t pentru eşantioane perechi. Ca şi la acest test, trebuie selectată o pereche de variabile pentru analiză, pentru a se activa opţiunile ferestrei. Pentru exemplul nostru vom selecta variabile ALIANTA şi PSD şi le vom trece în câmpul din stânga:
327
LOREDANA GHERASIM
Vom utiliza testul WILCOXON, care se bazează pe rangul valorilor absolute al diferenţelor dintre două variabile, comparând separat diferenţele pozitive şi negative. Prezentarea rezultatelor testului, în foaia cu rezultate, se face în două tabele, unul pentru valorile descriptive şi altul pentru semnificaţia testului, ca mai jos:
În primul tabel apare media şi suma rangurilor diferenţelor pozitive şi negative, precum şi cazurile în care scorurile sunt la egalitate. Indicii de sub acest tabel arată sensul diferenţelor. Din al doilea tabel observăm că testul este nesemnificativ (p=0,281). Aceste rezultat indică faptul că oamenii consideră ca ambele partide contribuie la fel de mult la integrarea României în Uniunea Europeană.
328