Gigi Causio Voinea
Encuestas por Muestreo Muestras complejas con SPSS
2013
Estadística Aplicada
Gigi Causio Voinea
Muestras complejas con SPSS
Muestras complejas con SPSS. Extraer una muestra.
En estadística la palabra población se refiere a la colección de todos los resultados de un experimento aleatorio junto con la asignación de probabilidades para los sucesos. Recordamos que una población finita es un conjunto finito de elementos de cualquier naturaleza, ya sean personas, objetos, animales, plantas, pueblos, familias, países, etc, que pretendemos analizar o investigar, con la ayuda de un diseño y con ciertas técnicas para llevar a cabo dicha investigación. Por varias razones no será posible estudiar todos los individuos de la población. Será necesario restringirse a una parte de ella. Surge así el concepto de muestra. Obviamente la muestra no es cualquier parte de la población. Para que las inferencias que de ella se deduzcan tengan sentido, deberá incorporarse la aleatoriedad al proceso del muestreo. La idea fundamental que justifica el Muestreo Estadístico es básicamente la misma que subyace en toda la Estadística Inferencial: ya que las poblaciones suelen ser grandes con un gran número de elementos, lo que dificulta su estudio exhaustivo, extraeremos de ella una parte más reducida y llevaremos a cabo el análisis de las características de la población completa mediante la información suministrada por dicha pequeña parte. La muestra debe lograr una representación adecuada de la población, en la que se reproduzca de la mejor manera los rasgos esenciales de dicha población que son importantes para la investigación. Para que una muestra sea representativa, y por lo tanto útil, debe de reflejar las similitudes y diferencias encontradas en la población, es decir ejemplificar las características de ésta. La muestra se elige en función de varios criterios. Tenemos que elegir una muestra accesible, en conformidad con los recursos que disponemos. El procedimiento de selección de una muestra se llama Muestreo, y se puede seleccionar un tipo de muestreo o podemos combinar varios tipos. Con la mejora del software IBM SPSS, desde la versión 13, se puede construir y analizar muestras complejas, es decir, construir muestras y analizarlas con la ayuda del programa. Ya se sabe que en la práctica no nos vamos a encontrar con un muestreo básico o directo de los elementos, lo más usual será que vamos a tener que realizar una combinación una mezcla de diferentes estructuras y diseños muestrales. La combinación de varios procedimientos de muestreo nos lleva a lo que se llama un DISEÑO MUESTRAL que es el producto final de la mezcla de todos los diseños muestrales que intervienen. Un diseño muestral de éste tipo se denomina diseño muestral complejo. Las muestras obtenidas con tales diseños se pueden por ello
Página 1
Gigi Causio Voinea
Muestras complejas con SPSS
denominar muestras complejas. El módulo de SPSS denominado precisamente Muestras complejas nos permite: -
Construir éste tipo de muestras mediante distintas opciones de muestreo y, suponiendo que intervienen diferentes estructuras, posiblemente combinadas: estratos y conglomerados.
-
Analizar los datos muestrales para obtener estimaciones de parámetros, tanto si hemos obtenido la muestra ayudándonos con el propio SPSS como si no.
Es importante hacer notar que mediante SPSS podemos analizar una muestra que haya sido diseñada o construida con el propio SPSS. Pero, también podemos analizar muestras obtenidas o construidas de otra forma, siempre que dispongamos de la información adecuada. Antes de empezar el procedimiento de selección de la muestra tenemos que tener bien claro el tipo o tipos de muestreo que vamos a utilizar. Toda unidad de la población debe estar en alguna muestra, pero a veces deseamos que un individuo esté más veces que otro en las diferentes muestras que forman el espacio muestral, o deseamos escoger la muestra a través de la elección de individuos, para ello es necesario conocer las denominadas probabilidades de inclusión. Si queremos estimar parámetros a partir de un muestreo realizado con un diseño complejo, por complicado que sea, al final nos vamos a encontrar con una muestra de elementos, y la clave consiste, básicamente, en calcular las probabilidades de inclusión. Si por ejemplo, queremos estimar el total de la variable Y a partir de una muestra m, por compleja que sea la estructura, la cosa es tan simple como calcular las probabilidades de inclusión de primer orden de los elementos de la muestra, es decir, los , para ∈ y aplicar el estimador de Horvitz-Thomson, =∑ ∈ siendo,
=1
= ∑ ∈
, es decir al final siempre nos encontramos con una combinación
lineal de los valores ponderaciones.
multiplicados por unas cantidades,
que son los pesos o
Es importante notar que el programa SPSS emplea el estimador de Horvitz-Thompson para la estimación de los totales, y el de Hájek para la estimación de medias y proporciones. Es decir, cuando el SPSS estima un total poblacional, emplea el estimador de HorvitzThompson, =∑ ∈
= ∑ ∈
siendo la variable que se estudia, y = 1/ los pesos que suministraremos al programa. Cuando el parámetro es una media poblacional, o una proporción, emplea el estimador de Hájek,
Página 2
Gigi Causio Voinea
Muestras complejas con SPSS
=
∑ ∈ ∑ ∈
1
=
∑ ∈ ∑ ∈
Cuando la muestra a analizar ha sido previamente diseñada y obtenida mediante SPSS, es usual que contenga información sobre los pesos. Si no tenemos los pesos, ya sea porque la muestra ha sido obtenida por otros medios, o por otras razones, tendremos que calcularlos. Entonces tenemos que calcular las probabilidades de inclusión y a partir de las mismas calcular los pesos. En SPSS esto se realiza con la opción Transformar – Calcular variable, y nos aparece una ventana igual a la que se puede ver en la Figura 1. Ésta opción permite construir una variable calculando sus valores. Es una opción muy potente y permite calcular posibilidades de todo tipo. Así, se pueden construir nuevas variables a partir de una fórmula matemática en la que pueden intervenir todo tipo de operaciones y funciones, y también otras variables. También posee funciones lógicas mediante las cuales, por ejemplo, se pueden calcular pesos distintos para elementos que estuvieran en estratos distintos o conglomerados distintos. En éste ejemplo, presentamos el cálculo de los pesos para una Muestra Aleatoria Simple (MAS) y, para éste tipo de muestra las probabilidades de inclusión se calcula, como bien se sabe, con la siguiente fórmula: =
, por lo cual los pesos se calcula de la siguiente forma:
=
. Pero, se
puede calcular los pesos para cualquier tipo de muestreo con probabilidades iguales o desiguales de inclusión.
Figura 1: Calcular variables. Cálculo de los pesos
Página 3
Gigi Causio Voinea
Muestras complejas con SPSS
Por ejemplo si queremos hacer un estudio que tenga como sujetos personas implicadas en el proceso de producción agraria en Andalucía, no podemos realizar un estudio sobre todas estas personas, porque sería muy costoso, por lo cual tendríamos que sacar una muestra. Para llevar a cabo el proceso de selección de una muestra y, elaborar para esto el Plan de Muestreo, tenemos que disponer de datos que representen el Marco de la población. Si por ejemplo disponemos de un marco de 1000 sujetos, podemos sacar una muestra representativa de 100 sujetos y empezar la investigación. La idea básica es pues que primero obtendremos la muestra de individuos y a continuación realizaremos la recolección de datos de estudio sobre la misma. SPSS nos ahorra pues todo el proceso de selección aleatoria de individuos, que en un muestreo de varias etapas puede ser sumamente complicado. Ahora necesitamos elaborar un PLAN DE MUESTREO. Un plan de muestreo es un conjunto de especificaciones que, a partir de la estructura de los datos que vamos a muestrear, sirve al programa SPSS para realizar la selección de elementos. Este plan de muestreo se puede definir de varias formas, pero nosotros lo haremos siempre empleando el llamado Asistente de Muestreo. Al final, este plan o conjunto de especificaciones se graba en un Fichero de Plan, que tiene la extensión .csplan. Elegiremos la opción Analizar - Muestras Complejas - Seleccionar una muestra. El Asistente de muestreo le guía a través de los pasos necesarios para crear, modificar o ejecutar un archivo de plan de muestreo. Antes de utilizar el Asistente, debemos tener en mente, como ya hemos mencionado, una población objetivo bien definida, una lista de las unidades muestrales y un diseño muestral adecuado. Aparece una ventana, como se puede ver en la Figura 2, en la que podemos elegir entre DISEÑAR una muestra nueva, EDITAR un diseño muestral ya existente, o pasar directamente a la EXTRACCIÓN de una muestra (esto requiere que ya haya un plan). En principio, si estamos en el inicio, emplearemos la primera opción. Mediante la opción Examinar es posible escoger el directorio en el cual se grabará el fichero con el plan que creemos, así como su nombre. Por defecto la extensión es .csplan. Una vez empezado la creación de un nuevo diseño muestral podemos elegir en la ventana Variables del diseño las variables de estratificación y conglomeración y definir unas ponderaciones muestrales de entrada. También se puede especificar una etiqueta para la etapa. Recordamos que el muestreo aleatorio estratificado y el muestreo aleatorio por conglomerados pertenecen al Muestreo Probabilístico, que es aquel que se basa en el principio de equiprobabilidad. Es decir, aquel en que todos los individuos tienen la misma probabilidad de ser elegidos para formar parte de una muestra y, consiguientemente, todas las posibles muestras tienen la misma probabilidad de ser seleccionadas. Sólo estos métodos de muestreo probabilísticos nos aseguran la representatividad de la muestra extraída y son, por tanto, lo más recomendables.
Página 4
Gigi Causio Voinea
Muestras complejas con SPSS
Figura 2: Asistente de muestreo. Diseñar una muestra
El Muestreo Aleatorio Estratificado consiste en considerar categorías típicas, diferentes entre si (estratos) que poseen gran homogeneidad respecto a alguna característica, en nuestro caso vamos a estratificar en la primera etapa según el departamento. Lo que se pretende con éste tipo de muestreo es asegurarse de que todos los estratos de interés estarán representados adecuadamente en la muestra. Cada estrato funciona independientemente, pudiendo aplicarse dentro de ellos el muestreo aleatorio simple o el estratificado para elegir los elementos concretos que formarán parte de la muestra. La distribución de la muestra en función de los diferentes estratos se denomina afijación, y puede ser de diferentes tipos: Afijación Simple: A cada estrato le corresponde igual número de elementos muéstrales. Afijación Proporcional: La distribución se hace de acuerdo con el peso (tamaño) de la población en cada estrato. Afijación Óptima: Se tiene en cuenta la previsible dispersión de los resultados, de modo que se considera la proporción y la desviación típica. Tiene poca aplicación ya que no se suele conocer la desviación. En Muestreo Aleatorio por Conglomerados la unidad muestral es un grupo de elementos de la población que forman una unidad, a que llamamos conglomerado. El muestreo por conglomerados consiste en seleccionar aleatoriamente un cierto número de conglomerados (el necesario para alcanzar el tamaño muestral establecido) y en investigar después todos los elementos pertenecientes a los conglomerados elegidos.
Página 5
Gigi Causio Voinea
Muestras complejas con SPSS
Figura 3: Asistente de muestreo. Variables de diseño Introducir ponderación muestral. Si el diseño muestral actual forma parte de un diseño muestral mayor, puede disponer de ponderaciones muestrales de una etapa anterior del diseño mayor. Puede especificar una variable numérica que contenga estas ponderaciones en la primera etapa del diseño actual. Las ponderaciones muestrales se calculan automáticamente para las etapas posteriores del diseño actual. Etiqueta de etapa. Puede especificar una etiqueta de cadena opcional para cada etapa. Esto se utiliza en los resultados para facilitar la identificación de la información por etapas. El siguiente paso es la selección del método de extracción en conformidad con el tipo de muestreo utilizado. Por lo tanto si hemos seleccionado el diseño estratificado solo, sin incluir, por lo menos en ésta etapa, la selección de conglomerados, podemos elegir entre los siguientes métodos: -
Muestreo aleatorio simple Sistemático simple Secuencial simple Probabilidad proporcional al tamaño Muestreo sistemático proporcional al tamaño Muestreo secuencial proporcional al tamaño
Si hemos seleccionado el diseño por conglomerados en la sección previa, a pesar de estos métodos de extracción tenemos a los siguientes:
Página 6
Gigi Causio Voinea
-
Muestras complejas con SPSS
Muestreo de Brewer proporcional al tamaño Muestreo de Murthy proporcional al tamaño Muestreo de Sampford proporcional al tamaño
Figura 4: Asistente de muestreo. Método de muestreo
Los controles de este grupo se utilizan para elegir un método de selección. Algunos tipos de muestreo permiten elegir entre realizar un muestreo con reposición (CR) o sin reposición (SR). Además, los métodos SR están disponibles sólo en la última etapa de un diseño. Si se selecciona un método PPS, deberá especificar una medida del tamaño que defina el tamaño de cada unidad. Estos tamaños pueden definirse explícitamente en una variable o se pueden calcular a partir de los datos. Opcionalmente, se pueden establecer los límites inferior y superior de la MDT, anulando cualquier valor encontrado en la variable MDT o calculado a partir de los datos. Estas opciones solamente están disponibles en la etapa 1. El siguiente paso del diseño es la selección del tamaño de la muestra, que la podemos seleccionar en proporción o en recuentos, para la primera etapa. El tamaño muestral puede ser fijo o variar entre estratos. Para el propósito de especificar el tamaño muestral, se pueden utilizar los conglomerados elegidos en etapas anteriores para definir estratos.
-
Si queremos un valor fijo para cada estrato seleccionamos Valor y, introducimos el valor deseado, como se puede ver en la Figura 5 Si queremos valores distintos para los estratos seleccionamos Valores desiguales para los estratos y, se nos abre una nueva ventanilla donde
Página 7
Gigi Causio Voinea
-
Muestras complejas con SPSS
podemos introducir los valor en proporción o en recuentos, como se puede ver en la Figura 6 o incluso podemos excluir una o varias variables del espacio muestral También existe la posibilidad de usar una variable numérica que contenga los valores de tamaño para los estratos
Figura 5: Asistente de muestreo. Tamaño de la muestra.
Figura 6: Definir tamaños desiguales
El siguiente paso es la selección de nuevas variables, nuevos coeficientes que quisiéramos guardar para futuros cálculos. El tamaño poblacional es el número estimado de unidades en la población de una etapa dada. El nombre raíz de la variable guardada es TamañoPoblació_.
Página 8
Gigi Causio Voinea
Muestras complejas con SPSS
La proporción muestral es la tasa de la muestra en una etapa. El nombre raíz de la variable guardada es TasaMuestreo_. El tamaño muestral es el número de unidades extraídas en una etapa dada. El nombre raíz de la variable guardada es TamañoMuestral_. La ponderación muestral es la inversa de las probabilidades de inclusión, lo que ya hemos definido al principio como los pesos. El nombre raíz de la variable guardada es PonderacióMuestral_. Algunas variables por etapa se generan automáticamente. Entre éstos se incluyen: Probabilidades de inclusión. Proporción de unidades extraídas en una etapa dada. El nombre raíz de la variable guardada es ProbabilidadInclusión_; Ponderación acumulada. ponderación de la muestra acumulada a lo largo de las etapas anteriores a la actual e incluyendo esta última. El nombre raíz de la variable guardada es PonderaciónMuestralAcumulada_. Índice. Identifica las unidades seleccionadas varias veces dentro de una etapa dada. El nombre raíz de la variable guardada es Índice_. Los nombres raíz de la variable guardada incluyen un sufijo entero que refleja el número de etapa, por ejemplo, TamañoPoblación_1_ para el tamaño de la población guardada de la etapa 1.
Figura 7: Asistente de muestreo. Variables de resultado
Página 9
Gigi Causio Voinea
Muestras complejas con SPSS
El siguiente paso sería la continuación con una segunda etapa (no olvidemos que el programa nos permite hasta tres etapas), si tenemos datos de trabajo para hacerla o seguir con el diseño con una sola etapa.
Figura 8. Resumen del Plan
El último paso antes de almacenar y guardar los datos es la extracción de la muestra. También se puede elegir un valor de semilla para la generación de números aleatorios. Incluir los valores perdidos definidos por el usuario significa que los valores perdidos definidos por el usuario son tratados como válidos. Si es así, los valores perdidos definidos por el usuario se tratan como una categoría diferente. Si se selecciona Los datos ya están ordenados el marco muestral está clasificado previamente por los valores de las variables de estratificación, esta opción permite acelerar el proceso de selección. Ya terminado el Plan de Muestreo nos toca empezar la investigación a partir de la muestra conseguida, pudiéndose hacer varios análisis con el SPSS software. Recordamos lo más importante:
-
Frecuencias de muestras complejas
-
Tablas de contingencia de muestras complejas
-
Razones de muestras complejas
-
Modelo lineal general de muestras complejas
-
Regresión logística de muestras complejas
Página 10
Gigi Causio Voinea
Muestras complejas con SPSS
-
Regresión ordinal de muestras complejas
-
Regresión de Cox de muestras complejas
-
Etc
Figura 9. Extraer muestra. Opciones de selección
BIBLIOGRAFÍA
1. F. R. Fernández García, J. A. Mayor Gallego –Muestreo en poblaciones finitas:
Curso básico- , Editora EUB, Barcelona, 1995. 2. IBM_SPSS_Complex_Samples20.
Página 11