Criterios para la Presentación del Proyecto de Investigación y de Tesis
1
GUÍA DE ESTADÍSTICA ESTADÍSTICA ELEMENT EL EMENTAL AL Es conocido que la estadística es una herramienta que nos ayuda a manejar un número definido de datos y que además nos ayuda a conocer alguna característica específica de estos, pero para definirla formalmente lo haremos de la siguiente manera: “La estadística es la ciencia que proporciona los métodos para recolectar, organizar, presentar, analizar e interpretar el comportamiento de los datos. Esta ciencia es fundamental dentro de la investigación científica.” Lind-Marchal-Mason. (2004), p. 3
TIPOS DE ESTADÍSTICA Dentro de la estadística existen dos grandes divisiones de acuerdo a LindMarchal-Mason. (2004), p. 6,7: •
Estadística descriptiva : Conjunto de métodos para organizar, resumir y presentar los datos de manera informativa.
•
Estadística inferencial : Conjunto de métodos utilizados para saber algo de una población, basándose en una muestra.
De lo anterior podemos notar que la diferencia básica radica en que la estadística inferencial se basa en una muestra, además este tipo de estadística nos obliga a plantear inferencias y sacar conclusiones a partir de lo calculado y graficado, de esta manera el investigador puede llegar a conjeturas más profundas VAC. Academia de Investigación
Criterios para la Presentación del Proyecto de Investigación y de Tesis
2
acerca de su investigación que le permitan encontrar una luz acerca de la problemática en cuestión. Generalmente en los trabajos de tesis, por su naturaleza como propuestas de solución, utilizan a la estadística inferencial, a menos que se trate de una tesis del tipo expositiva, en donde el objetivo es solo evidenciar una problemática o la evolución de la misma. Los datos son el inicio del procedimiento estadístico y se clasifican como: Según (Triola, 2008, p. 6) los datos cualitativos se refieren a las cualidades que identifican a la muestra obtenida para el análisis, y a su vez estos se dividen en:
Datos nominales . Son números o letras que representan categorías donde no es importante el orden pues no cambia el valor de los datos. Ejemplo: 2=masculino, 3=femenino. Utilizar los símbolos nos permite integrar la parte cualitativa de la muestra, reagrupar, separar e identificar los datos dentro del análisis.
Datos ordinales . Son datos ordenados en categorías o utilizados para identificar un grupo de pertenencia; llevan un orden lógico, en este caso, el orden o jerarquía que naturalmente presentan los datos debe tomarse en cuenta para el análisis porque pertenecen a diferentes estratos o niveles de clasificación. De igual manera los datos cuantitativos se dividen en (Triola, 2008, p. 6): VAC. Academia de Investigación
Criterios para la Presentación del Proyecto de Investigación y de Tesis
2
acerca de su investigación que le permitan encontrar una luz acerca de la problemática en cuestión. Generalmente en los trabajos de tesis, por su naturaleza como propuestas de solución, utilizan a la estadística inferencial, a menos que se trate de una tesis del tipo expositiva, en donde el objetivo es solo evidenciar una problemática o la evolución de la misma. Los datos son el inicio del procedimiento estadístico y se clasifican como: Según (Triola, 2008, p. 6) los datos cualitativos se refieren a las cualidades que identifican a la muestra obtenida para el análisis, y a su vez estos se dividen en:
Datos nominales . Son números o letras que representan categorías donde no es importante el orden pues no cambia el valor de los datos. Ejemplo: 2=masculino, 3=femenino. Utilizar los símbolos nos permite integrar la parte cualitativa de la muestra, reagrupar, separar e identificar los datos dentro del análisis.
Datos ordinales . Son datos ordenados en categorías o utilizados para identificar un grupo de pertenencia; llevan un orden lógico, en este caso, el orden o jerarquía que naturalmente presentan los datos debe tomarse en cuenta para el análisis porque pertenecen a diferentes estratos o niveles de clasificación. De igual manera los datos cuantitativos se dividen en (Triola, 2008, p. 6): VAC. Academia de Investigación
Criterios para la Presentación del Proyecto de Investigación y de Tesis
3
De intervalo y de razón . Se refiere a que los datos pertenecen a una escala de medición. Se dice que son de razón cuando incluyen el cero absoluto y son de intervalo cuando al clasificar los datos se forman grupos dentro de la escala de medición.
Datos discretos . Estos surgen por el procedimiento de conteo y toman valores enteros. Ejemplo: El número de hijos en una familia, el número de alumnos de un grupo escolar.
Datos Datos continu os . Son los que surgen cuando se mide alguna característica y toman, teóricamente, cualquier valor dentro de un intervalo. Ejemplo: tensión arterial de una persona, peso, estatura, etc.
POBLACIÓN Cuando hablamos de población la primera imagen que se nos presenta como abstracción es un conjunto de personas, para la estadística es mas complejo que esto, ya que lo elementos de una población pueden ser variados como se menciona en la siguiente definición: “Es el conjunto completo de todos los elementos (puntuaciones, medidas, etc.) que se va a estudiar. El conjunto es completo porque incluye todos los objetos que se estudiarán.” (Triola, 2008, p. 4).
VAC. Academia de Investigación
Criterios para la Presentación del Proyecto de Investigación y de Tesis
4
MUESTRA 1 Como se mencionó en la definición anterior la población abarca la totalidad de los elementos que se van a estudiar, pero en la mayoría de los casos los recursos que tenemos para estudiar a la población son limitados, razón por la cual se tiene que seleccionar una muestra, cuya definición es: “Es un subconjunto de miembros seleccionados de una población." Triola F. Mario, (2008), p. 4. De acuerdo a Triola F. Mario, (2008), p. 26, 27. Los procedimientos de muestreo más comunes son: •
Muestra aleatoria: los miembros de la población se seleccionan de forma que cada miembro individual tenga la misma probabilidad de ser seleccionado.
•
Muestra aleatoria simple : una muestra de “n” sujetos se selecciona de manera que cada posible muestra del mismo tamaño n tenga la misma posibilidad de ser elegida. Para seleccionar una muestra de este tipo es necesario que la población se origen esté codificada o sea fácilmente codificable, con objeto de que se cumpla la aleatoriedad.
1
Podrá encontrar la representación en figura de estos tipos de muestreo en TRIOLA (2008) p. 28.
VAC. Academia de Investigación
Criterios para la Presentación del Proyecto de Investigación y de Tesis
•
5
Muestra probabilística: implica seleccionar miembros de una población, de forma que cada miembro tenga una posibilidad conocida (aunque no necesariamente la misma) de ser elegido.
•
Muestra
sistemática: elegimos algún punto de partida y luego
seleccionamos cada k-ésimo elemento de la población. El valor de k se obtiene de dividir el tamaño de la población entre el tamaño de la muestra y después se obtiene el primer elemento al azar y los subsiguientes se obtienen como sigue: primer elemento + k; 2° elemento + k; 3° elemento + k; etc. Este tipo de muestreo sólo se utiliza cuando la población de origen presenta un orden natural. •
Muestra de conveniencia: Se utilizan resultados que sean muy fácil de obtener. Como por ejemplo pacientes de una institución, internos, etc.
•
Muestra estratificada: subdividimos a la población en al menos dos subgrupos (o estratos) diferentes, de manera que los sujetos que pertenecen al mismo subgrupo compartan las mismas características y luego obtenemos una muestra de cada subgrupo. Aquí es importante que los niveles o estratos elegidos no se traslapen para evitar que un elemento pueda formar parte de 2 o más subgrupos.
•
Muestra
por
conglomerados :
Los
conglomerados
son
lugares
densamente poblados o lugares donde es factible encontrar elementos con características lo más heterogéneas posible para que con muestras pequeñas sea posible capturar la mayor diversidad de opinión sin VAC. Academia de Investigación
Criterios para la Presentación del Proyecto de Investigación y de Tesis
6
desplazamientos amplios. De varios conglomerados posibles de elegir, se seleccionan 2 o 3 y se obtiene la muestra aleatoria requerida. En el caso de plantas en un terreno, por ejemplo primero dividimos el área de la población en secciones (o conglomerados), y luego elegimos al azar algunas de estas secciones, y después elegimos la muestra dentro de cualquiera de los conglomerados seleccionados.
TIPOS DE VARIABLES De acuerdo a Lind-Marchal-Mason. (2004), p. 8, 9. Existen dos grandes clasificaciones: •
Variable cualitativa o atributo: Cuando la característica o variable de estudio es no numérica.
•
Variable cuantitativa: cuando la variable estudiada se puede expresar numéricamente.
Cabe mencionar que ambas se pueden tratar de manera estadística en un trabajo de investigación.
NIVELES DE MEDICIÓN Esta clasificación va en función de las características que presente la naturaleza de los datos, que de acuerdo a Triola (2008), p. 7. quedan de la siguiente manera :
VAC. Academia de Investigación
Criterios para la Presentación del Proyecto de Investigación y de Tesis
•
7
Nivel de medición nominal: se caracteriza por datos que consisten exclusivamente en nombres, etiquetas o categorías. Los datos no se pueden acomodar en un esquema de orden (como del mas bajo al más alto), como por ejemplo las respuestas de si, no e indeciso de una encuesta.
•
Nivel de medición ordinal: Cuando pueden acomodarse en algún orden, aunque no es posible determinar diferencias entre los valores de los datos o tales diferencias carecen de significado, por ejemplo la asignación de calificaciones de un profesor universitario de A, B, C, y D.
•
Nivel de medición de intervalo: se parece al nivel ordinal, pero con la propiedad adicional de que la diferencia entre dos valores de datos cualesquiera tienen un significado. Sin embargo los datos de este nivel no tienen punto de partida cero natural inherente (donde nada de la cantidad está presente), como por ejemplo la temperatura ambiental.
•
Nivel de medición de razón: Es similar al nivel de intervalo, pero con la propiedad adicional de que si tiene un punto de partida cero natural (donde cero indica que nada de cantidad está presente). Para valores a este nivel, tanto las diferencias como proporciones tienen significado, por ejemplo los precios de los libros de texto. Triola F. Mario, (2008), p. 6-9.
Todos los niveles de medición anterior sirven para que el investigador pueda definir desde un principio con que tipos de datos está trabajando y de esta manera darles el manejo correcto. VAC. Academia de Investigación
Criterios para la Presentación del Proyecto de Investigación y de Tesis
8
DISTRIBUCIÓN DE FRECUENCIAS Ya que se sabe con qué tipos de datos se está trabajando, estos se organizan en una distribución de frecuencias. . Una distribución de frecuencias puede hacerse sin agrupar, sólo asociando a cada dato particular el número de veces que se repite, esto es formando dos columnas una con los datos y otra con las frecuencias. Cuando la cantidad de datos es grande, es preferible agrupar los datos estableciendo una distribución por intervalos mutuamente excluyentes (que no se traslapen) y asociando la frecuencia absoluta de acuerdo con el valor de los datos muestrales atendiendo a los límites de cada intervalo, que de acuerdo a Lind-Marchal-Mason. (2004, p. 22) es el “Agrupamiento de datos en categoría mutuamente excluyentes, que indican el número de observaciones en cada categoría”.
GRÁFICAS Posteriormente de haber manejado los datos el siguiente paso es graficarlos, la razón por la cual se utilizan las gráficas es que estas nos permiten visualizar los datos de manera rápida y algunas hacer comparaciones entre muestras. De acuerdo a Lind-Marchal-Mason. (2004, pp. 34-48). Las gráficas utilizadas para la estadística son: •
Histograma: es una gráfica en las que las clases se marcan en el eje horizontal y las frecuencias de clase en el eje vertical. Las frecuencias de VAC. Academia de Investigación
Criterios para la Presentación del Proyecto de Investigación y de Tesis
9
clase están representadas por las alturas de las barras, y estas se colocan adyacentes unas a otras. Es importante, de ser posible, que los intervalos de clase sean del mismo tamaño para que la altura de las barras corresponda a la frecuencia de cada intervalo pues si los intervalos son de diferente tamaño la altura será proporcional al área que representa cada barra en el total. En el ejemplo siguiente se observa esta gráfica con 4 tipos de categorías diferentes para compararlos entre sí.
Fuente:Creación propia (2012)
Este tipo de gráficos se puede utilizar para los datos de todos los niveles. •
Polígono de frecuencias: Está formado por segmentos de recta que unen los puntos medio de clase y las frecuencias de clase.
VAC. Academia de Investigación
Criterios para la Presentación del Proyecto de Investigación y de Tesis
10
Fuente:Creación propia (2012) Como se puede observar en la figura anterior, el polígono de frecuencias se puede construir sobre el histograma o de manera separada y se puede usar para los datos de cualquier nivel. Es muy importante que el polígono esté asentado sobre el eje de las abscisas por lo que sus extremos deben prolongarse hasta la marcas de clase antecedente y posterior a nuestra distribución ya que el área bajo el polígono debe ser unitaria porque representa el 100% de la muestra. Tanto el histograma como el polígono de frecuencia permiten obtener una imagen rápida de las principales características de los datos. •
Gráficas de líneas: Son especialmente efectivas en negocios porque se puede mostrar el cambio de una variable a través del tiempo.
VAC. Academia de Investigación
Criterios para la Presentación del Proyecto de Investigación y de Tesis
11
Fuente:Creación propia (2012)
•
Gráfica de barras: es especialmente útil para mostrar cualquiera de los niveles de medición, estas gráficas se pueden representar de manera horizontal o vertical.
Fuente:Creación propia (2012)
VAC. Academia de Investigación
Criterios para la Presentación del Proyecto de Investigación y de Tesis
12
Fuente:Creación propia (2012) La única diferencia entre estas gráficas y el histograma radica en que en el histograma las barras son adyacentes y en estas no. •
Gráfica circular: Es especialmente útil para mostrar los datos de nivel nominal.
Fuente:Creación propia (2012)
VAC. Academia de Investigación
Criterios para la Presentación del Proyecto de Investigación y de Tesis
13
MEDIDAS DE TENDENCIA CENTRAL Aunque la Moda es una medida de tendencia central, no necesariamente está en el centro e inclusive puede haber más de una moda. A continuación las medidas de tendencia central más comunes.
MEDIA ARITMÉTICA La media aritmética es el valor obtenido al sumar todos los datos y dividir el resultado entre el número total de datos. Normalmente, en un estudio ocurren las repeticiones que en una fórmula aparecerán como frecuencias por lo que la fórmula sería: n
∑ f X i
X =
i
i =1
n
Donde f i es la frecuencia de cada valor de la variable. Ejemplo: La empres Merryl Linch Global Funse especializa en obligaciones a largo plazo de países extranjeros. Interesa saber la tasa de interés de estas obligaciones. Una muestra aleatoria de seis bonos reveló lo siguiente: Bonos del gobierno de:
Tasa de interés
Australia
9.5
Bélgica
7.25
Canadá
6.5
Francia
4.75
Italia
12 VAC. Academia de Investigación
Criterios para la Presentación del Proyecto de Investigación y de Tesis
España
14
8.3
La media aritmética sería: X=(9.5+7.25+6.5+4.75+12+8.3)/6=8.05% Lind-Marchal-Mason. (2004), p.66, 68. Cuando los datos se han agrupado en una distribución de frecuencias debido a lo grande de la muestra, cada intervalo estará representado por su marca de clase (mi ) o centro del intervalo, que se obtiene sumando los límites de cada intervalo y dividiendo entre 2 y la fórmula de la media aritmética será: k
∑ f m i
X =
i
i =1
n
Donde k es el número de intervalos en la distribución de frecuencias y n el total de datos en la muestra, que están agrupados en la tabla. La media aritmética puede ser de mucha ayuda, sin embargo tiene una desventaja muy grande, esta radica en que cuando tenemos valores o muy grandes o muy pequeños en los datos estos convierten a la media en una referencia poco confiable ya que incluye a todos los datos de la muestra y su valor se sesga o se corre hacia los extremos dependiendo que datos predominen, muy altos o muy bajos.
VAC. Academia de Investigación
Criterios para la Presentación del Proyecto de Investigación y de Tesis
15
MEDIANA Cuando se cuenta con datos que contienen valores muy grandes o muy pequeños, en referencia al grueso de la totalidad de la muestra, una medida de tendencia central más conveniente es la mediana, que Lind-Marchal-Mason. (2004, p.72) define como “Al valor que corresponde al punto medio de los valores después de ordenarlos de menor a mayor, o de mayor a menor. Cincuenta por ciento de las observaciones son mayores que la mediana y cincuenta por ciento menores que ella.” Ejemplo: A continuación se indican los rendimientos anuales totales de 5 años, de las 6 acciones con mejor desempeño de fondos comunes de inversión con crecimiento dinámico. ¿ Cuál es la ganancia mediana anual?
NOMBRE DEL FONDO
RENDIMIENTO TOTAL ANUAL
PBHG GROWTH
28.5
DEAN WITTER DEVELOPING
17.2
AIM AGRESSIVE GROWTH
25.4
TWENTY CENTURY ROBERTSON STEVENS EMERGING SELINGMAN FRONTIER
28.6 22.6 21
17.2 21
50% de los datos or arriba de la mediana
VAC. Academia de Investigación
Criterios para la Presentación del Proyecto de Investigación y de Tesis
22.6
16
(22.6+25.4)/2=48/2=24% (MEDIANA)
25.4 28.5
50% de los datos por debajo de la mediana
28.6 Lind-Marchal-Mason. (2004), p.73
El manejo anterior es sencillo si se tienen pocos datos, en caso contrario se tiene que recurrir a ordenarlos en una distribución de frecuencias y posteriormente utilizar una fórmula de interpolación entre los límites del intervalo apropiado: Cuando los datos se han agrupado en una distribución de frecuencias, tanto la mediana como la moda se calculan por interpolación a partir del intervalo que contiene a la mediana o a la moda en su caso. Cálculo de la mediana agrupada.- Se calcula la posición de la mediana como sigue: Pmd =
n +1
2
; después obtiene la columna de frecuencias acumuladas
para ubicar el intervalo que contiene a la mediana y cuyo límite inferior es el punto de inicio de la interpolación, L md.
n2 − F md −1 M d = Lmd + a f md Donde Lmd es el límite inferior del intervalo mediano, n es el total de datos en la muestra y corresponde a la suma de las frecuencias en la distribución; F md-1 es la frecuencia acumulada hasta el intervalo anterior al que contiene la mediana; f md es la frecuencia particular que corresponde al intervalo que contiene a la
VAC. Academia de Investigación
Criterios para la Presentación del Proyecto de Investigación y de Tesis
17
mediana y a es la amplitud o tamaño del intervalo (distancia entre el límite inferior y el límite superior de un intervalo)
MODA “Es el valor de la observación que aparece con más frecuencia”. LindMarchal-Mason. (2004), p.74 Ejemplo: A continuación se muestran los sueldos anuales (en dólares) de gerentes de control de calidad en algunos estados. ¿ Cuál es el valor modal de los sueldos? Estado
Sueldo
Estado
Sueldo
Estado
Sueldo
Arizona
35000
Illinois
58000
Ohio
50000
California
49100
Louisiana
60000
Tennessee
60000
Colorado
60000
Maryland
60000
Texas
71400
Florida
60000
Massachussets
40000
West
60000
Virginia Idaho
40000
New jersey
65000
Wyoming
55000
Si analizamos todos los sueldos, el que repite mas es el de $60000, por lo tanto esa es la moda. El manejo anterior es sencillo si se tienen pocos datos, en caso contrario se tiene que recurrir a ordenarlos en una distribución de frecuencias y posteriormente ver que clase es la que tiene mayor número de observaciones o mayor frecuencia. Para calcular la moda, cuando los datos están agrupados deberá tomarse el intervalo con mayor frecuencia como punto de partida de la interpolación, de acuerdo con la fórmula: VAC. Academia de Investigación
Criterios para la Presentación del Proyecto de Investigación y de Tesis
Mo
18
∆1 = L + a | ∆ + ∆ 2 1 mo
Donde Lmo es el límite inferior del intervalo con mayor frecuencia; ∆ 1 es la diferencia entre la frecuencia del intervalo con mayor frecuencia y la frecuencia del intervalo antecedente; ∆ 2 es la diferencia entre la frecuencia modal y la frecuencia del intervalo posterior (cuando los datos están agrupados de menor a mayor) y a es la amplitud del intervalo.
MEDIA GEOMÉTRICA “Es útil para encontrar el promedio de porcentajes, razones, índices o tasas de crecimiento. Se utiliza principalmente en negocios y la economía.” LindMarchal-Mason. (2004, p.77). MG= Ejemplo: Suponga que reciba un aumento de sueldo de 5% este año, y reciba uno de 15% el próximo. ¿Cuál será el aumento porcentual promedio? MG=
=1.09886%
MEDIDAS DE DISPERSIÓN Anteriormente se estudiaron las medidas de tendencia central, en este aparatado se expondrán las medidas de dispersión ya que sin estas, las primeras serían unos indicadores engañosos.
VAC. Academia de Investigación
Criterios para la Presentación del Proyecto de Investigación y de Tesis
19
Esto se debe a que las medidas de dispersión nos indican si los datos están lejos o cerca de la medida de tendencia central así como la manera en que están distribuidos debajo de la curva.
RANGO “El rango de un conjunto de datos es la diferencia entre el valor máximo y el valor mínimo” Triola F. Mario, (2008), p. 93. Ejemplo: Calcule el rango de los tiempos de espera de la siguiente tabla: Banco 1: filas variables
6
6
6
Banco 2: una sola fila
4
7
7
Banco 3: múltiples filas
1
3
14
Banco 1: Rango=6-6=0 Banco2: Rango=7-4=3 Banco 3: Rango=14-1=13 Esto quiere decir que en el banco 3 los datos están más dispersos con respecto a la medida de tendencia central. Triola (2008, p. 92, 93). VAC. Academia de Investigación
Criterios para la Presentación del Proyecto de Investigación y de Tesis
20
El Rango es relativamente sencillo de calcular, pero como depende de los valores máximo y mínimo no es tan útil como otras medidas de dispersión.
DESVIACIÓN MEDIA 2 De acuerdo a Lind-Marchal-Mason. (2004, p.102) “Es el promedio aritmético de los valores absolutos de las desviaciones con respecto a la media aritmética”
Dm = n
Donde: Xi: es cada uno de los datos X: media aritmética n : número total de datos Ejemplo: el número de pacientes atendidos en una sala de urgencias del hospital St. Luke para una muestra de 5 días el año pasado fue: 103, 97, 101, 106 y 103. Determine la desviación media. X-media
Desviación absoluta
103-102
1
2
La desviación media Dx es poco utilizada porque es una desviación sobreestimada y a la fórmula hay que agregarle la frecuencia de cada diferencia pues no necesariamente vas a tener datos únicos, siempre puede haber repeticiones.
VAC. Academia de Investigación
Criterios para la Presentación del Proyecto de Investigación y de Tesis
97-102
5
101-102
1
106-102
4
103-102
1
Total
12
21
DM=12/5=2.4 Lind-Marchal-Mason. (2004, p.103).
VARIANZA Y DESVIACIÓN ESTANDAR MUÉSTRALES o
Varianza: La media aritmética de las desviaciones cuadráticas con respecto a la media.
o
Desviación estándar: La desviación estándar es la raíz cuadrada positiva de la varianza.
Cálculo de la varianza muestral (S 2) y de la desviación estándar muestral (S): n
∑ ( x
i
2
S x
=
− x )
1=1
n
−1
2
n
∑ ( x
y
S x
=
2 1=1
n
i
− x ) 2
−1
Se divide entre n-1 porque se pierde un grado de aleatoriedad por cada medida estadística que se utilice para definir otra, en este caso se usa la media aritmética para definir a la varianza y la desviación.
VAC. Academia de Investigación
Criterios para la Presentación del Proyecto de Investigación y de Tesis
22
Ejemplo: las edades de los pacientes del pabellón de aislados en el hospital Yellowstone, son: 38, 26, 13, 41 y 22 años. ¿Cuál es la varianza y la desviación estándar de estas personas? Calculando la media: X= 140/5=28 Edad (X)
X-media
(X-media)
38
10
100
26
-2
4
13
-15
225
41
13
169
22
-6
36
Total=140
Total=0
Total=534
Desviación estándar Varianza →
y la desviación
muestral sería la raíz cuadrada de esta varianza muestral En este ejemplo, todos los valores son únicos, por lo tanto no hay repetición y la frecuencia es 1, en el caso de haber repetición cada diferencia (X-media) 2 se multiplica por su frecuencia. El manejo anterior es sencillo si se tienen pocos datos, en caso contrario se tiene que recurrir a ordenarlos en una distribución de frecuencias y posteriormente utilizar la siguiente fórmula: VAC. Academia de Investigación
Criterios para la Presentación del Proyecto de Investigación y de Tesis
n
S x =
f i
2
∑ f x i
i =1
2 i
23
− n x 2
n −1
es la frecuencia particular de cada valor que toma la variable;
En donde: Xi: es cada uno de los datos X: media aritmética N: número total de datos
COEFICIENTE DE VARIACIÓN De acuerdo a Lind-Marchal-Mason. (2004, p.115) “Es la razón (cociente) de la desviación estándar y la media aritmética, expresada como un porcentaje.
C .V . =
S X 100
Donde: S: desviación estándar X: media Esta medida es útil para comparar la variación relativa cuando los datos están en unidades diferentes. Ejemplo: Un estudio sobre el monto de bonos pagados y los años de servicio de varios empleados, dio como resultado los VAC. Academia de Investigación
Criterios para la Presentación del Proyecto de Investigación y de Tesis
24
siguientes datos estadísticos: la media de los bonos pagados fue de $200 y la desviación estándar fue de $40. Compárese las dispersiones relativas. CV= (40/200)*100= 20% Lind-Marchal-Mason. (2004), p.115, 116. Existen otras medidas de dispersión como son los Cuartiles, Deciles y Centiles, estos expresan de igual manera a la dispersión que la desviación estándar, razón por la cual solo se mencionan en este párrafo sin profundizar en los conceptos y fórmulas. Los cuarteles, percentiles, deciles etc., son medidas posicionales que se utilizan para definir valores límite para una fracción determinada de elementos en la distribución ordenada, por ejemplo ¿ cuál es el valor de la variable estudiada cuando se separa el 68% de los datos ordenados? (i ) n100 − F p − C i = L p + f p
1 1
i
i
a
CORRELACIÓN “Una correlación existe entre 2 variables cuando una de ellas está relacionada con la otra de alguna manera.” Triola F. Mario, (2008), p. 517.
VAC. Academia de Investigación
Criterios para la Presentación del Proyecto de Investigación y de Tesis
25
COEFICIENTE DE CORRELACIÓN “El coeficiente de correlación lineal r mide la fuerza o grado de la relación lineal entre los valores cuantitativos apareados x y y en una muestra. El coeficiente de correlación lineal también se conoce como coeficiente de
correlación producto momento de Pearson , en honor a Karl Pearson (18571936), quien lo desarrolló originalmente.” Triola F. Mario, (2008), p. 518. n
∑ x y −n x y i
r =
i
i =1
s x s y n − 1
donde: n: número de pares de observaciones
x es la media de la variable x
∑X: suma de los valores de la variable x
y es la media de la variable y
∑Y: suma de los valores de la variable y
sx es la desviación estándar de x
∑XY: suma de los productos de x y y
sy es la desviación estándar y
Ejemplo: En la siguiente tabla se muestran las llamadas a clientes realizadas y copiadoras vendidas por lo 10 vendedores de una muestra de la empresa Copier Sales of America. representante de ventas tom keller jeff hall brian virost
llamadas a clientes (X) 20 40 20 VAC. Academia de Investigación
Criterios para la Presentación del Proyecto de Investigación y de Tesis
greg fish susan welch carlos ramirez rich niles mike kiel mark reynolds soni jones
26
30 10 10 20 20 20 30
Calcular el coeficiente de correlación. Como primer paso se tiene que graficar el diagrama de dispersión y ubicar la media de ambas variables (líneas rojas) x=22 y y=45, antes de hacerlo es pertinente aclarar que la variable dependiente es el número de computadoras vendidas y la independiente es la cantidad de llamadas hechas. P ara graficar se posiciona a la variable dependiente en el eje Y y la variable independiente en el eje X.
Fuente:Creación propia (2012)
VAC. Academia de Investigación
Criterios para la Presentación del Proyecto de Investigación y de Tesis
27
Si la relación entre las 2 variables es positiva, entonces el número de copiadoras vendidas es mayor a la media así como el número de llamadas hechas. Se calculan los productos que requiere la fórmula de r: representante de ventas tom keller jeff hall brian virost greg fish susan welch carlos ramirez rich niles mike kiel mark reynolds soni jones
llamadas a clientes (X) 20 40 20 30 10 10 20 20 20 30
TOTAL
copiadoras vendidas (Y) 30 60 40 60 30 40 40 50 30 70
220
450
XY 400 1600 400 900 100 100 400 400 400 900
900 3600 1600 3600 900 1600 1600 2500 900 4900
600 2400 800 1800 300 400 800 1000 600 2100 1080 5600 22100 0
Sustituyendo en la fórmula r=
=0.759
Para interpretar este número sería de la forma siguiente: en primera instancia es un número positivo, esto quiere decir, que existe una relación directa entre variables, en segundo lugar es muy cercano a 1, y entre más cercano a 1 la relación es más fuerte. VAC. Academia de Investigación
Criterios para la Presentación del Proyecto de Investigación y de Tesis
28
Se dice que entre más cercano a 1 (cuando la relación es positiva) o a -1 (cuando la relación es negativa) mayor es el grado de asociación entre las variables estudiadas.
REGRESIÓN L INEAL 3 “Dado un conjunto de datos muestrales apareados, la ecuación de regresión Y´=a +bx Describe algebraicamente la relación entre 2 variables. La gráfica de la ecuación de regresión se denomina recta de regresión (o recta del mejor ajuste o recta de mínimos cuadrados).” Triola (2008, p. 542). Donde: Y´: es el valor pronosticado de la variable y para un valor seleccionado x. a: es la ordenada de la intersección con él, es decir, el valor estimado de y cuando x=0. b: es la pendiente de la recta, o el cambio promedio de y´ por unidad de cambio en la variable independiente x.
3
El análisis de regresión sólo se utiliza cuando existe una relación de dependencia entre las variables, esto es Y depende o se modifica cuando el investigador modifica la variable independiente X. Y esto se mide usando el coeficiente de determinación r2. Se considera que el modelo de regresión es adecuado cuando r2 es al menos 0.8 pero entre más cercano a 1 es mejor el ajuste al modelo matemático propuesto.
VAC. Academia de Investigación
Criterios para la Presentación del Proyecto de Investigación y de Tesis
n
∑ x y i
b=
b=
i
29
− n x y
i =1
s x n − 1
Donde x y y son las medias de ambas variables;
sx es la desviación
estándar de la variable x y n es el tamaño de la muestra o número de pares ordenados a = y − b x
a=
donde: X: valor de la variable independiente Y: valor de la variable dependiente N: número de elementos de la muestra Ejemplo: Retomando el ejemplo utilizado en el apartado de correlación ¿Cuál es el número esperado de copiadoras vendidas por un representante que realiza 20 llamadas a sus clientes? Utilizando la tabla expuesta en el ejercicio anterior y sustituyendo en la fórmula tenemos: b=
=1.1842
a=
VAC. Academia de Investigación