3.4.1
MEDIDAS DE CORRELACION
Para medir el grado de asociación entre dos o más variables se utilizan los coefi coeficie ciente ntes s de corre correlac lación ión.. Exist Existen en vario varios s tipos tipos de corre correlac lación ión que que pueden pueden calcularse y dependen de la escala de medición en que se hallan medido cada una de las variables, enfatizando que la escala más fuerte es la de razón por lo que que la estr estruc uctu tura ra gene genera rall se obti obtien ene e bajo bajo este este enfo enfoqu que e y el coef coefic icie ient nte e de corre correlac lación ión de Pears Pearson on es la forma forma gene general ral de obten obtener er un coefi coefici cien ente te de correlación lineal, los otros tipos son casos especiales, que se describirán en las secciones próximas. in embargo el coeficiente de correlación de Pearson, es el más más impo import rtan ante te y en la may mayor!a or!a de los los trab trabaj ajos os de inve invest stig igac ació ión, n, debi debier era a orientarse orientarse a obtener este tipo de información información para cada uno de las variables, variables, para luego pasar a las otras escalas más d"biles si el estudio lo requiere. # seguir se presentan varios tipos de coeficientes de correlación, iniciando por aquellas que se aplican a las escalas de medición más fuerte y finalizando con aquellas que se aplican a la escala de medición más d"biles.
3.4.1.1
CORRELACION DE DE PE PEARSON
Este coeficiente coeficiente de correlación correlación es el más conocido y usado, se denota por $ r” y se apli aplica ca cuan cuando do las las vari variab able les s en estu estudi dio o han han sido sido medi medido dos s en la escala escala de expresión ón matemáti matemática ca de la relació relación n medición por intervalos o de razón , su expresi entre las dos variables aleatorias, esencialmente se define como la covarianza estandarizada estandarizada entre las variables X e Y, es decir % r& '( ) ' (, pero la expresión más conocida es la razón entre la suma de producto de las variables entre la ra!z cuadrada de la suma de cuadrados de ambas variables, es decir%
1
r=
n
∑ ( X − X ´ ) ( Y −Y ´ )
n i =1
√
1
n
n
∑ ( X − X ´ )2 1 ∑ ( Y −Y ´ )2
n i= 1
n i =1
El coeficiente de correlación $ r” se utiliza para% *a+ omprobar que existe una relación lineal entre dos variables aleatorias, antes de proceder al análisis de regresión*b+ *b+ esu esumir mir en un solo solo n/me n/mero ro * r + la intensidad de la relación lineal entre estas dos variables. El coeficiente de correlación r no debe utilizarse para% *a+ Establecer relaciones causales entre dos variables*b+ uplantar el análisis de regresión*c+ #nalizar la coherencia entre mediciones.
( dentro de los requisitos para su uso se tiene que cumplir con% • 0isponer de un m!nimo de dos observaciones por individuo, medidas en una escala num"rica * Por intervalos o de razón, es decir las variables deben ser continuas+- aunquetambi"n pueden estarlo en escala ordinal con 1 o más puntos para codificar las categor!as ordinales, conjunto nto de obser observa vacio ciones nes que que const constitu ituye yen n la mues muestra tra,, debe debe ser ser • El conju representativo de la población- pues la presencia degrupos heterog"neos en una muestra, por ejemplo el incluir individuos jóvenes y ancianos en la mism mismam amue uest stra ra para para estu estudi diar ar la rela relaci ción ón entr entre e la edad edad y la pres presió ión n sangu!nea, puede resultar inapropiada• El conjunto de observaciones no debe contener datos extremos, ya que el coeficiente de correlación r es es muy sensible a su presencia• 2as observaciones no deben contener errores de medición o "ste ha de ser relativamente !nfimo ya quela baja fiabilidad de las observaciones aten/a el valor de r • 2as variables deben estar relacionadas linealmente, es decir el gráfico de dispersión sigue una l!nea recta diagonal, no significativos• las relaciones curvil!neas pueden producir r no • 2a forma de la distribución de las variables debe ser igual. i no tienen la misma distribución, aunque elajuste sea perfecto, se observará un r 34, y cuanto menos se parezcan las distribuciones más seatenuará r. Este efecto es importante cuando se correlaciona una variable en escala de intervalo conotra ordinal o dicotomizada, distribución de los pares *',(+ debe ser bivariada bivariada normal. Es • #demás, la distribución importante desde el puntode vista inferencial, cuando se trata de valorar la inten intensi sidad dad y la signi signific ficaci ación ón estad estad!st !stica ica de lacorr lacorrela elaci ción. ón. uand uando o la distrib distribució ución n no sea normal, normal, el interva intervalo lo de r pued puede e que que no sea 564 564 , 47. 47. inembargo, el teorema central del l!mite demuestra que para muestras grandes los !ndices implicados enlas pruebas de significación se distribuyen normalmente incluso cuando las propias variables no lo sean.0e cualquier forma, cuando se prefiera evitar este tipo de conflicto, puede recurrirse a utilizar un cálculono param"trico como la 8 de pearman o un estad!stico no param"trico como la $ τ9de :endall2a varianza de las variables debe ser homog"nea *variables homoscedásticas+ y no restringida. i lavarianza es truncada o restringida en una una o vari varias as vari variab able les, s, por por ejem ejempl plo o por por un mues muestr treo eo defi defici cien ente te,, elcoeficiente de correlación puede verse afectado. ;ambi"n por truncación del del inte interv rval alo o de la vari variab able le pord pordic icot otom omiz izac ació ión n de dato datos s cont contin inuo uos s o reducción de la escala. Para establecer la calificación dela magnitud del coeficiente de correlación se usa usa la partic partició ión n del del interv intervalo alo *<,4+ *<,4+ en varia varias s partes partes iguales iguales y luego luego asignar sus calificaciones respectivas, para el lado negativo la calificación es sim"trica. Por ejemplo si dividimos este intervalo en <1 partes, cada cada una con la misma longitud, se tiene las siguientes calificaciones%
<.<< a <.=< >uy ?ajo <.=4 a <.@< ?ajo <.@4 a <.A< >oderado <.A4 a <.B< #lto <.B4 a 4.<< >uy #lto Cbserve que en la calificación moderada, puede decirse que un coeficiente de <.@4 a <.1< es moderadamente bajo, y de <.14 a <.A< es calificado como moderadamente alto. 2a significación del coeficiente de correlación de Pearson se realiza mediante la siguiente prueba de hipótesis% D < % ρ&< versus D4 % ρ≠<, el cual se implementa con el estad!stico de prueba tstudent, el mismo que es dado por la expresión% t Cal =
r
√
2
≅
H 0
1−r n−2
t − Student ( n −2 ) g . l
in embargo, cuando el tamaFo de la muestra esmayor a =1 *n ≥=1+, entonces mediante la transformación de Gisher se encuentra la distribución muestral1 1 + r 1 1+ ρ 1 ln z = ln , ≅ Normal 2 1− r 2 1 − ρ n −3
{ ( ) }
( )
Por lo que usando el estad!stico de prueba de H al , se implementara la siguiente prueba de hipótesis% D < % ρ & ρ< versus D 4 % ρ≠ρ<. 0onde el estad!stico de prueba es dado por la ecuación% ln 1 Z Cal = 2
(
(1 +r ) ( 1 − ρ0 ) (1 −r ) ( 1+ ρ0 )
)
1
n−3
( para el caso de la hipótesis que comparara dos coeficientes de correlación, D< %ρ4 & ρ= versus D4 % ρ4≠ρ=, se usara el estad!stico de prueba-
ln 1 Z Cal = 2
(
( 1+ r )( 1 −r ) ( 1 −r ) ( 1 + r ) 1
1
2
1
2
+
1
n 1 −3 n 2 − 3
)
Ejemplo% 2a administración bibliotecaria universitaria ha formulado un proyecto de inversión en infraestructuras f!sicasde la educación superior, el cual considera la construcción de módulos personales, bipersonales y para estudios grupales fuera de las aulas de clase, dichos módulos han sido implementados durante el /ltimo semestre, y con el fin de evaluar la importancia de dichos modulo en el proceso de enseFanza y aprendizaje, se ha reportado los resultados de un examen aplicado. 2a hipótesis formulada consiste en verificar la importancia o no importancia de los módulos educativos para estudios fuera del aula de clase en el rendimiento acad"mico del estudiante. Por su naturaleza de las dos variables usadas, calificación promedio de las evaluaciones *(+, y las horas de estudio en los módulos educativos fuera del aula de clase*'+, se implementara una prueba estad!stica sobre el coeficiente de correlación de Pearson para verificar la implicancia entre las variables consideradas. En cuanto a la población de los posibles usuarios potenciales de dichos módulos, se ha contabilizado en total a los I&@<<<, desde el cual se ha decidido tomar una muestra como el <.=1J del tamaFo poblacional, es decir se seleccionara aleatoriamente a n&4< estudiantes, a quienes se les registro para el /ltimo periodo lectivo, el n/mero promedio de horas diarias de estudio fuera del aula de clases en los módulos educativos, y el promedio de sus evaluaciones en el periodo lectivo correspondiente. 0ichos promedios son reportados en la siguiente tabla, en donde la columna ' denota al n/mero promedio de horas de estudio fuera del aula de clases, la columna ( denota a los promedios de todas sus evaluaciones en el periodo lectivo en cuestión, a partir de estas dos columnas se obtienen las tres /ltimas columnas, con el objetivo de poder implementar el cálculo del coeficiente de correlación de Pearson mediante su fórmula conocida. Doras estudio ' K A A 1 1 @ L L = = @L
Estudiante
4 = L @ 1 A K B M 4< ;otal
´= X
1
10
43
∑ X = 10 10 = i
i 1
endimiento Promedio ( 4L.@ 4=.M 4=.B 4L.4 4=.= 44.1 44.4 44.L 44 44.A 4=<.M
=4.3 ; ´Y =
1
10
´ X i− X =.K 4.K 4.K <.K <.K <.L 4.L 4.L =.L =.L <
120.9 Y = =12.9 ∑ 10 = 10 i
i 1
´ Y i−Y 4.L4 <.B4 <.K4 4.<4 <.44 <.1M <.MM <.KM 4.
( X − X ´ ) ( Y −Y ´ ) i
i
L.1LK 4.LKK 4.=
10
10
10
i=1
I 01
i= 1
∑ ( X i− X ´ )2=28.1 ;∑ (Y i−Y ´ )2=7.289 ; ∑ ( X i− X ´ ) (Y i−Y ´ ) =13.03 Por tanto el coeficiente de correlación de Pearson es calculado como%
r=
1 10
√
1 10
10
´ ) ( Y −Y ´ ) ( X − X ∑ = i 1
10
∑ ( X − X ´ )2 i= 1
1 10
10
=
( Y −Y ´ ) ∑ = i 1
2
1 (13.03 ) 10
√
1 ( 28.1 ) 1 ( 7.289 ) 10 10
=
1.303 =0.9104 1.431156
Existe una asociación alta entre las horas diarias de estudio fuera del aula en los módulos educativos y el rendimiento acad"mico promedio, para saber si esta influencia es significativa se realizara la prueba de hipótesis, mediante el estad!stico t student-
t Cal =
0.9104
√
1−0.9104 10 −2
= 2
0.9104 = 6.2241 0.1462
0onde la hipótesis estad!stica es formulada como% D<% D4%
El funcionamiento de los módulos educativos no es importante en el rendimiento de los alumnos El funcionamiento de los módulos educativos es importante en el rendimiento de los alumnos
El valor del estad!stico de prueba, supera al valor tabular ttudent con B grados de libertad, que es igual a =.L4, ubicándose en la zona de rechazo de la hipótesis nula, por lo que se rechaza que no exista influencia entre las variables, concluy"ndose que si existe relación entre las horas de estudio en los módulos educativos fuera de las aulas y el rendimiento promedio.
3.4.1.2
CORRELACION PARA VARIABLES ORDINALES
uando las variables en estudio han sido medidas en la escala ordinal , una forma tradicional de aplicar una encuesta con !tems medidas a trav"s de la escala de
2iNert de <1,
A) COEFICIENTE DE CORRELACION DE SPEARMAN(r S ) Este coeficiente de correlación tiene un enfoque no param"trico y se obtiene mediante los rangos o puestos de cada variable, para ello, las observaciones originales de las variables *' e (+ son reemplazadas por sus respectivos rangos, dentro del conjunto de datos y partir de ellos encontrar observación por observación las diferencias entre los rangos respectivos del valor de la variable ' y del valor de la variable (, para luego calcular el estad!stico de prueba para comprobar si podemos rechazar la hipótesis nula de que no existe correlación, o si debemos mantener lo afirmado en la hipótesis de investigación* Dipótesis alternativa+. Para ilustrar el cálculo de este coeficiente de correlación entre los rangos de las variables en estudio, se utiliza el siguiente ejemplo hipot"tico, en donde = y @ constituyen los rangos de de cada variable, y en la columna 1 se reporta las diferencias entre los rangos respectivos, dichos valores se expresan en el cuadro siguiente%
Oalores 'i
angos *'i+
Oalores (i
angos *(i+
0iferencia di & *'i+ *(i+
L 1 < B A M
= L 4 1 @ A
@ K = 4< K B
=
<
3.
!".
4 A
< 4
3.
1
1
4
i hay empates se pone el rango promedio, por ejemplo en los rangos para (, los puestos L y @ están empatados, por lo que se asigna los puestos intermedios, es decir- L,1, a seguir se obtienen las diferencias entre los rangos que asume las variables, sobre estas diferencias se obtendrá el coeficiente de correlación de pearman seg/n la siguiente ecuación--
n
6
r S = 1−
d ∑ =
2
i
i 1 2
n( n
−1 )
0onde% r %es el coeficiente de correlación por rangos de pearman, y toma valores entre 43r 34, n valor cercano a $<9 indica que las variables apenas están relacionadas. di% es la diferencia entre el valor ordinal de la variable ', y el de la variable (, en el elemento i "simo n %es el tamaFo de la muestra.
El coeficiente de correlación de pearman, puede ser contrastado mediante la distribución tstudent con n= grados de libertad, cuando n ≥4<. Por tanto la prueba de hipótesis% D < %ρs &< versus D 4 % ρs≠<, es implementada por el estad!stico de prueba% t Cal =
rs
√−
2
1−r s
n 2
;ambi"n usando la distribución muestral asintótica, la literatura estad!stica, sugiere, que la significación estad!stica del coeficiente de correlación de pearman puede realizarse usando los resultados siguientes-
{
→
r S n → ∞ Normal ρS ;
1
n− 1
}
Por lo que la prueba de significación puede llevarse a cabo tambi"n por el estad!stico $H9, el cual es dado por% Z Cal =
rS
√
1
n− 1
0e manera que, un intervalo de confianza al nivel de significación del 1J, para el coeficiente de correlación verdadero es dado por%
r S −1.96
1
√ n −1
< ρS < r S + 1.96
1
√ n −1
i hay un gran n/mero de empates en las variables se recomienda realizar una corrección, dichas corrección se obtienen a trav"s de las siguientes ecuacionesn
2
2
X + Y −
d ∑ =
2
i
i 1
rS =
2
( √ X Y ) 2
2
0onde% 3
2
X =
n
−3
12
k
−∑ T Xi ; Y = 2
i=1
3
T Xi=
t Xi−t Xi 12
3
n
−3
12
k
−∑ T Yi i=1
3
; T Yi=
t Yi−t Yi 12
t'i % es el n/mero de empates en el rango $i9 de la variable ', t(i % es el n/mero de empates en el rango $i9 de la variable (. 2as caracter!sticas y la interpretación del coeficiente de correlación de pearman son similares a las del coeficiente de correlación de Pearson.
Ejemplo % Para medir las implicancias del desempeFo policial en la seguridad ciudadana en la ciudad de Duacho, se ha considerado las siguientes dimensiones e indicadores% El desempeFo policial*'+, es medido por las dimensiones de patrullaje móvil*'4+, apacitación de las Quntas vecinales*'=+, y la capacidad de respuesta de auxilio*xL+- mientras que la seguridad ciudadana*(+, es medida mediante sus
4
=.LL
(i
=.M
*'i+
41
*(i +
di
4L 2 .00
d= 4.00
= 4.1L
@
L
L 4
M.1 4.1L
12
M.1 4.1L 4
A K
4
= 4.11
L L
L M
4.A1
B
K 4.=K
4< 44
4.A1 4.A
4 4
4.A 4.=
4= 4L
4.A
A L L 4=.1
41
2
5
=1 −
6.25
-
25.0
5.00
0
2.50
6.25
0.00
0.00
-
36.0
6.00
0 25.0 0 12.2 5 0.25
2.50
6.25
2.00
4.00
4 M
12.2
8.50
44
5 72.2
1.1
M.1 30.2
2.50
1.1 0.50 1.1
4.A
;otal 20.9
-
3.50
4@
4.K1
0
M
4.A1
4.1L
5.00
3.50
4@ 4.BK
25.0
5.00
4=.1 4.A 4.4L
-
=
4.1
M
15 ( 225 −1)
[email protected]
@
1
6 ( 237,0 )
1.1
4.A
@
r S = 1−
14.
M.1
5
1.50
2.25 237.
120
120
0.00
00
1422 =1 −0.4232=0.57678 3360
in embargo como existe de varios empates se realizara la corrección respectiva, Para la columna de las ' s hay
2
X =
n
−3
12
k
−∑ T Xi= i=1
15
3
−3
12
−
120 + 60 + 6 12
=
3186 12
2
Y =
n
3
−3
12
k
−∑ T Yi= i= 1
n
2
2
X + Y − rS =
d ∑ = i 1
2
( √ X Y ) 2
2
2
i
=
3
15
−3
−
12
60 + 24 + 6 12
=
3186 3282 + −237,0 12 12 2
√
3186 3282 12 12
3282 12
=
302.0 = 0.5603 538.6406
El cual resulta ligeramente menor. El contraste es realizado mediante el estad!stico tstudent, cuyo valor es dado por%
t Cal =
rs
= 2
0.5603
√− √ 1−r s
n 2
2
1−0.5603 15 −2
=2.43899
>ientras que el valor tabular de la distribución de t con 4L grados de libertad es de =.4A<, de esta manera se concluye que existe un impacto significativo entre el desempeFo policial y la seguridad ciudadana, es decir se puede mejorar la seguridad ciudadana, mejorando el desempeFo policial.
B) COEFICIENTE DE CORRELACION DE #ENDALL Ctro de los coeficientes de correlación que es aplicable cuando ambas variables son ordinales, recae en el coeficiente de correlación τ de :endall, el cual se basa en el cálculo de las concordancias y las discordancias entre los rangos de lavariable dependiente- es decir para el cálculo se considera lo siguiente% El n/mero de concordancias y discordancias que aparecen al comparar las puntuaciones asignadas a los mismos casos seg/n dos criterios *o jueces+ diferentes, por ejemplo, si $'9 recoge las puntuaciones asignadas a los casos seg/n el primer criterio, e $(9 seg/n el segundo criterio,para la obtención de concordancias y discordancias que aparecen entre los dos criterios, se procede de la siguiente forma% • e ordenan los pares de puntuaciones de acuerdo con el orden natural de las puntuaciones asignadas seg/n el primer criterio, '. • e compara cada valor de(, con cada uno de los que le siguen, y se registra una concordancia *S4+ cuando los dos valores siguen el orden natural, una discordancia *4+ cuando el orden está invertido y un empate *<+ cuando coinciden ambas puntuaciones.
e calculan el valor de $P9 que representa el n/mero total de las concordancias, y el valor de $T9 el numero el total de las discordancias y $E9 el n/mero total de empates. El n/mero total de comparaciones incluyendo empates es n*n4+)=. Por ejemplo, si el orden es ascendente, y se ordena los pares seg/n el primer criterio *rangos de '+ en su forma natural, se tendrá que% •
' (
'*4+ &4 (*4+ & V
'*=+ &= (*=+ & V
UUU UUU
'*i+ &i (*i+ & V
UU.. UU..
'*n+ &n (*n+& V
Para cada rango de la variable ' en su forma natural, se le asocia el rango de la otra variable, por tanto para calcular el coeficiente de correlación de :endall, se Procede del siguiente modo% Para hWi sea a h la cantidad de rangos ( *h+ que cumplen la propiedad ( *h+W (*i+ - es decir el numero de concordancias en cuanto al ranNing, y de otro lado sea b h la cantidad de rangos ( *h+ que cumplen la propiedad (*h+3 (*i+ - es decir el numero de discrepancias entre el ranNing de ambas variables. Por tanto cantidad efectiva de rangos escalculada por% n −1
S=
n −1
∑= a −∑= = ! −" h
h 1
h
h 1
0onde, ah X b h es la diferencia entre concordancias y discordancias en los rangos cuando se compara el h "simo rango de (.
2uego el coeficiente τ de :endall es definido por% r ❑=
! −" n ( n −1) 2
P % n/mero total de veces que se registra una concordancia, T% Iumero de veces que se registra una discordancia 2a prueba de hipótesis correspondiente es% D < % ρ&< Oersus D 4 % ρ≠<, el cual puede ser implementado mediante el estad!stico de prueba*cuando n ≥B % Z Cal =
r #
√
2 ( 2 n + 5 ) 9 n ( n −1 )
Nornal { 0,1 }
≅
;ambi"n puede usarse el estad!stico de prueba de la tstudent, para implementar la prueba de hipótesis, es decirt Cal =
r❑
√
2
1−r ❑
n −2
En la literatura se encuentran varias modificaciones del coeficiente de correlación de :endall, y se destacan las siguientes formas% 4.
Coeficiente de Correlación Gamma “ ” .- Este estad!stico Yamma excluye los casos que presentan la misma puntuación en las dos variables *empates+, y se define como. $ =
Coeficiente de Correlación Tau-b de Kendall . Este coeficiente incorpora los empates contemplando por separado los que aparecen en la primera variable E ' y los que aparecen en la segunda variable E (, para luego corregir el calculo del coeficiente de correlacion mediante la ecuacion%
=.
r # =
!−" ! + "
! −"
√{
}{
}
1 1 n ( n− 1 )− % X n ( n −1 )− % Y 2 2
0onde los empates son definidos por% % X =
1
n
1
n
t ( t − 1 ) ∑ t ( t −1 ) ; & % = 2 ∑ =
2 i= 1
Xi
Xi
Y
Yi
Yi
i 1
( los t'i, t(i son los n/meros de empates en el rango $i9 de cada variable respectivamente. L.
Coe$%&%e'e e Correl*&%+' Tau-c de Kendall . Este estad!stico considera el menor n/mero de casos no empatados que presentan ' o (, y se define del siguiente modo%
r #C =
! −" 2
n ( k −1)
iendo N el menor n/mero de casos no empatados que presentan' ó ( @.
.
Coeficiente de correlación “d” de Somers % # diferencia de los anteriores este estad!stico considera que las variables pueden ser sim"tricas o dependientes. En el primer caso, el estad!stico $ d” de Somers coincide con la Tau-b de Kendall . En el segundo supuesto, se diferencia del estad!stico Gamma en que incluye los empates de la variable que considera dependiente. i la variable dependiente es ', entonces d&*PT+)*PSTSE ' +
;odas estas medidas toman valores entre 4 y S4, y alcanza los valores extremos cuando existe concordancia o discordancia perfecta. Oalores próximos a < indican ausencia de asociación, y sus caracter!sticas e interpretación son similares a las del coeficiente de correlación de Pearson.
E,EMPLO% Para investigar el impacto delacapacitación educativa de la madres en el desarrollo mental de sus hijos en una comunidad rural, se ha considerado una muestra aleatoria de n&B madres a las cuales se les ofreció una capacitación educativa, el cual fue medida por el grado de educación o escolaridad alcanzada por la madre, y el desarrollo mental de sus niFos han sido medidos seg/n la escala de Yesel, cuyos resultados se presentan en la siguiente tabla, en donde la variable ' ha sido ordenada de menor a mayor y sus rangos expresan su forma natural de obsevacion. Oariables Criginales Escolaridad de 0esarrollo la madre*'+ mental del niFo *(+ 4Z ecundaria M< 4Z Primaria BK Profesional BM AZ Primaria B< LZ ecundaria B1 LZ Primaria B@ #nalfabeta K1 Preparatoria M4
Oariables Crdenadas ' ( de menor a mayor seg/n ' #nalfabeta K1 4Z Primaria BK LZ primaria B@ AZ Primaria B< 4Z ecundaria M< LZ ecundaria B1 Preparatoria M4 Profesional BM
angos Crdenados ango angos s de de% (*i+ %'*i+ 4 4 = 1 L L @ = 1 K A @ K B B A
2a hipótesis de investigación es formulada como% $Existe un impacto entre el grado de escolaridad de las madres y el desarrollo mental de los niFos9. Para realizar el cálculo del coeficiente de correlación de :endall se encontrara la cantidad de concordancia y discordancias, el mismo que se determina en el siguiente cuadro.
angos Crdenados
antidad de
0iferencias
angos de %'*i+
angos de% (*i+
(*h+ (*i+W< CIC0#I[# ah , h&4,=,U,n4
4 = L @ 1 A K B
4 1 L = K @ B A
K L @ @ 4 = <
< L 4 < = < 4
K < L @ 4 = 4
=4
K
4@
;otal
(*h+ (*i+3< 0[C0#I[# bh
ah X bh .
r ❑=
2uego el coeficiente de correlación de :endall es-
21−7 8 ( 8 −1 )
=
14 =0.50 28
2
uya significación se implementa por el estad!stico de pruebat Cal =
r❑
√
2
1−r ❑
n −2
=
0.5
√
1−0.5 8 −2
2
=1.4142
El cual al ser comparado con $t9 tabular con A grados de libertad *=.@1+, resulta ser menor, luego no existen evidencias estad!sticas para afirmar que el grado de escolaridad de las madres est" relacionado con el desarrollo mental de los niFos .
3.4.1.3
CORRELACION PARA VARIABLES- NA DICOTOMICA / OTRA DE INTERVALO O DE RA0ON
A) CORRELACION BISERIAL e utiliza para establecer el grado de correlación entre dos variables, de las cuales uno es dicotomizada, en este caso se trata de una modificación del coeficiente de correlación de Pearson entre una variable continua ' , y otra ( que se ha sido dicotomizada. Este coeficiente al igual que las anteriores se desprende de la estructura general del coeficiente de correlación de Pearson, por lo que las simplificaciones convergen en la definición del coeficiente para un caso especial,
Para la correlación biserial$r b 9 se tiene que su definición tiene la siguiente expresión%
´ ' − X ´ ( '( X r = S X &
( )
´ '− X ´ ' X = S X &
()
donde% ' es la variable continua ( es la variable dicotomizada ´ ' X es la media de ' cuando ( vale <
´( X es la media de ' cuando ( vale 4 ´ X es la media de la distribución marginal de ' S X
es la desviación t!pica de la marginal de '
p es la proporción de elementos con asignación < en la variable ( q es la proporción de elementos con asignación 4 en la variable ( se define como q&4p y es el valor de la ordenada correspondiente a un valor de x que divide el área de la distribución normal tipificada en dos partes, una igual a p y otra igual a q. e interpreta de forma análoga al coeficiente de correlación de Pearson en lo referente a la intensidad de la relación, no a su sentido- además, cuando la correlación es alta y el requisito de normalidad de ( no se cumple de forma estricta, el coeficiente de correlación biserial puede valer más de 4 o menos de 4.
B) COEFICIENTE DE CORRELACIN BISERIAL PNTAL omo una variante, aunque con id"ntica interpretación y similar notación y expresión, se debe tener presente el coeficiente de correlación biserial-puntual , que se utiliza para medir la correlación entre una variable continua y otra dicotómica por naturaleza, esdefinido por% r '=
´ ' − X ´( X S X
√ '( =
´ '− X ´ ' X S X (
√
Es conviene precisar lo que entendemos por variable dicotómica por naturaleza, y se refiere a aquellas variables en su concepción original presenta /nicamente dos modalidades, tales como el sexo *varónmujer+, la calificación de la respuesta a un
!tem *aciertoerror+, etc. En general, suelen atribuirse a estas modalidades los valores < y 4, aunque no habr!a inconveniente en asignar 4 y =, ó cualquier otro par de valores. Propiedades a+ e demuestra que el coeficiente r bp es resultado de aplicar el coeficiente de correlación de Pearson al caso en que una de las variables tiene carácter dicotómico b+ El valor de r bp no puede ser mayor que 4 ni menor que 4 es decir, se cumple 4 3r bp 3 4. uanto mayor sea la distancia entre la media de los sujetos que presentan la primera modalidad y la media del total de sujetos, más próximo a 4 ó 4 será el coeficiente de correlación que obtengamos c+ n coeficiente de correlación positivo indicará que a puntuaciones altas de ' corresponde pertenecer a la categor!a cuya proporción es p, mientras que a puntuaciones bajas de ' corresponde pertenecer a la categor!a cuya proporción es q. n coeficiente negativo deberá ser interpretado en sentido contrario, es decir, a puntuaciones altas de ' corresponder!a la categor!a cuya proporción es q, y a puntuaciones bajas aqu"lla cuya proporción es p.
Ejemplo%Para evaluar las implicancias de los Proyectos de [nversión P/blica en los colegios del 0istrito de Oentanilla se han seleccionado a =4 colegios de los cuales en
'ondición !"! (Y) % % $ $ % % $ $ $ %
&ota media $% $ $ $/ $+ $0 +% $ $ $
'ondición !"! (Y) % $ $ % % $ $ % % %
$+
%
Para determinar la implicancia de los P[P en infraestructura y el rendimiento acad"mico de los alumnos, se usara el coeficiente de correlación, y trandose de una variable continua*'+ y una variable dicótoma *(+, se aplicara el coeficiente de correlación biserial puntual., para el cual seguiremos el siguiente procedimiento% en primer lugar, calcularemos el valor de las proporciones de colegios que recibieron P[P *p+, y de colegios que no recibieron P[P *q+p & M)=4 & <.@=BA, q &4=)=4 & <.1K4@ # continuación calculamos los valores de la media de la variable ', la media de la variable ' para los M colegios que recibieron P[P y la desviación t!pica de '. ealizando los cálculos oportunos, que dejamos al lector, resulta-
´=1 X
21
21
S X =
X =14.8571 ∑ = i
i 1
√ ( 1 21−1
21
´) ∑ ( X − X =
2
i
i 1
)
=2.988
9
´ != 1 X !i=17.0 X 9 i =1
∑
# partir de estos valores estamos en disposición de calcular el coeficiente de correlación biserial puntual. #plicando una de las expresiones de cálculo de r bp obtendremos
´ ' − X ´ ' 17.00 −14.857 X r '= = 2.988 S X (
√
√
0.4286 =0.6211 0.5714
Por tanto, el valor del coeficiente de correlación entre ambas variables es <.A=44, y al tratarse de un coeficiente de signo positivo, se interpreta que a mayores puntuaciones de la variable ', le corresponde mayores valores de (, es decir para los colegios que revieron P[P los rendimientos acad"micos son mayores, la significación es realizada por el estad!stico de prueba tstudent-
t Cal =
r❑
√
2
1−r ❑
n −2
=
0.6211
√
1−0.6211 21−2
2
=3.4544
El mismo que verifica la hipótesis de investigación, es decir que los P[P en infraestructura tiene una implicancia significativa sobre los rendimientos acad"micos de los alumnos en los colegios del distrito de ventanilla..
3.4.1.4 CORRELACION PARA VARIABLES NOMINALES uando las variables son presentadas en categor!as, esta pueden ser representadas en una tabla de contingencia, y para descubrir la relación de dependencia entre dos factores, se pueden usar el coeficiente χ= denominado hicuadrado, cuya determinación responde al análisis del valor que toman cada una de sus celdas, por ejemplo si dos variables con $h9 y $N9 categor!as, están pueden ser presentadas como la siguiente tabla de contingencia%
Oariable (
' e l b a i r a O
?4
?=
UU
? j
U..
?N
;otal
#4
n44
n4=
U..
n4j
U.
n4N
n4.
#=
n=4
n==
U..
n=j
U.
n=N
n=.
ni4
ni=
U..
nij
U.
niN
ni.
nh4
nh=
U..
nhj
U.
nhN
nh.
n.4
n.=
U..
n.j
U.
n.N
n..
U. #i U. #h
;otal
Cbserve que las notaciones puntuales son escritas como%
k
ni . =
h
n ∑ =
i)
; n. ) =
) 1
n ∑ =
i)
h
; n.. =
i 1
k
∑ ∑n = =
i)
i 1 ) 1
sando las frecuencias observadas y esperadas de cada celda de la tabla de contingencia se calcula el estad!stico chi cuadrado para determinar si existe o no existe dependencia entre las variables.
2
A) COEFICIENTE
CI ! CADRADO
Este coeficiente se utiliza para medir el grado de asociación entre dos variables cualitativas con $h9 y $N9 categor!as respectivamente. El estad!stico de prueba está basado en la comparación de las frecuencias observadas con lasesperadas bajo la hipótesis nula de que existe independencia, y su valor es calculado por la expresión% h
k
❑ =∑ ∑ 2
i = 1 ) =1
( *i)−ei) )
2
ei)
0onde% Cij % son las frecuencias observadas en cada celda, eij % on las frecuencias teóricas o esperadas y se calculan por- i & *e i.e.j +)n.. uando la tabla de contingencia es = '= se aplica la corrección de (ates resultado en un estad!stico modificado el cual es dado por%
2
2
❑2=∑ ∑ i = 1 ) =1
(|* −e |−0.5 ) i)
2
i)
e i)
El coeficiente siempre toma valores no negativos, pero al tratarse de una medida no acotada, es de dif!cil interpretación por s! sola, si bien, cuanto más relacionadas est"n las variables sometidas a estudio más se alejará el coeficiente del valor $<9. u valor depende del n/mero de observaciones y de las categor!as en que "stas se dividen, por tanto el coeficiente 2 y sus derivados no son comparables con cualquier otro coeficiente obtenido con distinto n/mero de categor!as. ( se utilizan una vez que la hipótesis nula es rechazada, para contestar las interrogantes%\uál es la intensidad de la asociación entre esas variablesV \uál es la dirección en que se produce la asociaciónV. on varios los coeficientes de correlaciones usados para estos fines. Entre ellos se pueden citar los coeficientes% Phi, O de ramer, de contingencia, Uetc.
B)
COEFICIENTE
(P%)
na importante medida para determinar la dependencia entre dos variables está basado en el estad!stico 2 chi cuadrado, y se denomina coeficiente (Phi+, que a diferencia del estad!stico chi cuadrado no depende del tamaFo de la muestra, pues su obtención es realizada dividi"ndolo precisamente entre el tamaFo de la muestra, es decir+=
√
❑2 n
C) COEFICIENTE DE CONTINENCIA 5C6 Este coeficiente es usado para medir el grado de asociación entre las variables ' e (, cuando ellas están representados en sus categor!as respectivas, y se define por la expresión%
√
2 ❑ C = 2 n +❑
Para cualquier valor de $n9 el valor del coeficiente de contingencia mide la magnitud de la asociación sin indicar la dirección, es estrictamente menor que 4, teniendo la desventaja de no alcanzar el valor de 4. Por lo que se define el valor máximo de $9 porC a- =
√
u −1 ;dondeu = in (h , k ) u
El valor máximo que puede alcanzar el coeficiente de contingencia depende del n/mero de categor!as de las variables estudiadas. En el caso de una tabla ='=, el máximo valor de es <.K
D) COEFICIENTE 5V6 DE CRAMER n coeficiente que supera la desventaja del coeficiente anterior, es el coeficiente O de ramer que es obtenido por la expresión%
√
2 ❑ = ; /ondem = in ( h , k ) n ( m −1 )
Este coeficiente alcanza valores entre $<9 y $49, toma valor $<9 cuando todas las frecuencias observadas son iguales a todas las frecuencias esperadas, indicando que las variables son independientes, por lo que coeficiente de chi cuadrado es igual a $<9, y toma valor $49 cuando las dos variables tienen iguales marginales, indicando que son dependientes. El coeficiente verifica que% < ] O] 4, y se interpreta igual que el coeficiente de contingencia, teniendo en cuenta que sólo proporciona información sobre la relación entre las variables y no sobre el sentido de la misma.
E) COEFICIENTE 5 6 PARA TABLAS 272 e trata de un coeficiente especialmente indicado para medir la asociación entre dos variables dicotómicas, cuya representación se da en la siguiente tabla de contingencia%
Oariable ( ?4 ?= ;otal (&< (&4
' e l b a i r a O
#4 *'&<+
n44
n4=
n4.
#= *'&4+
n=4
n==
n=.
n.4
n.=
n..
;otal
2uego el coeficiente Phi es definido por%
+=
n 11 n22−n21 n12
√ n1. n2. n.1 n .2
2as frecuencias observadas y las marginales se describen en la tabla de contingencia anterior. En cuanto a su interpretación, el coeficiente toma valores en el intervalo 4] ϕ ] 4, por lo que es similar al coeficiente de Pearson, la intensidad de la asociación
entre las dos variables- salvo que alguna de las frecuencias n ij sea nula, en cuyo caso el coeficiente vale 4 ó 4.