~
-
@
EDICIONES ACADÉMICAS
~
"·~Y"""
- :;_;::.i"':
/
MODELOS
PROBABILISTICOS /
Y
OPTIMIZACION
,
MODELOS
PROBABILISTICOS ,
Y
OPTIMIZACION
Víctor Hernández Morales Profesor Titular de Universidad
Eduardo Ramos Méndez Catedrático de Universidad
Ricardo Vélez lbarrola Catedrático de Universidad
' ee
-
@EDICIONES ACADÉMICAS
PRÓLOGO
VIl
1
Modelos probabilísticos discretos
1.1 1.2 1.3 1.4 1.5 1.6
Modelo matemático del Azar. Modelos dinámicos Variables aleatorias discretas . Modelos de distribuciones discretas Vectores aleatorios discretos . Variables aleatorias independientes
2
Modelos probabilísticos continuos
2.1 2.2 2.3 2.4
Variables aleatorias continuas Modelos de funciones de densidad . Funciones de distribución . Vectores aleatorios continuos.
3
Muestreo aleatorio
3.1 3.2 3.3 3.4 3.5
Muestras aleatorias Distribuciones que se presentan en el muestreo Método de Monte Cario Generadores de números aleatorios y pseudoaleatorios Transformaciones de la distribución uniforme.
4
Inferencia estadística
4.1 Estimaciones por punto . 4.2 Intervalos de confianza . 4.3 Contrastes de hipótesis .
1 5 .22 .47 .64 .73 .82
91 .95 108 115 125
141 146 153 165 171 176
187 191 204 214
5
Modelos de optimización
5.1 5.2 5.3 5.4 5.5 5.6 5.7
Optimización: sistemas y modelos . . . . . . Características de los problemas de optimización Formulación de un problema de programación El modelo general de programación lineal El algoritmo del simplex . . . . Postoptimización . . . . . . . El modelo de programación entera.
227
VI
231 239 246 253
297 346 360
Este libro tiene como objetivo principal servir de texto base para la asignatura Estadística de los Grados en Ingeniería Informática y en Tecnologías de la Información que se imparten en la Universidad Nacional de Educación a Distancia (UNED) de España. Para su completa comprensión no se requieren más conocimientos previos que los que proporciona un primer curso de Álgebra y Cálculo, evitado en la medida de lo posible las notaciones sobrecargadas y haciendo más hincapié en las descripciones verbales de los conceptos que en el formalismo subyacente. En síntesis, el desarrollo del texto es elemental, si bien no carente del necesario rigor que hay que exigir en esta materia. El texto introduce a tres bien áreas diferenciadas, pero conectadas entre sí: Probabilidad, Inferencia estadística y Optimización, su objeto es presentar los conceptos generales fundamentales que un ingeniero debe poseer acerca de cada una de estas áreas de conocimiento con un nivel suficiente para comprender sus aplicaciones en la Ciencia de los computadores. Esta estructurado en cinco unidades didácticas. Cada una de ellas desarrolla un bloque homogéneo de contenidos en o referente al modelo o técnica que trata. Los dos primeros desarrollan los principios generales de los modelos probabilísticos en sus dos vertientes: la discreta y la continua. Por tratarse de un curso elemental, está fuera de lugar pretender una teoría general de la probabilidad basad_a completamente en las funciones de distribución y en la integral de LEBESGUE, aunque siempre que ha sido posible hemos procurado sugerir cuál es la formulación general de la teoría. Las dos unidades siguientes tratan dos aspectos cruciales de la Estadística: el muestreo estadístico y los métodos de inferencia. Por razones bastante obvias, hemos destacado los aspectos del muestreo más relacionados con la computación, en detrimento del estudio de los muestreos polietápicos, por conglomerados etc. , más propio del investigador social. Los conceptos de Inferencia estadística se presentan en la forma más elemental posible, haciendo hincapié en su interpretación y la discusión de sus hipótesis, ya que no nos parece apropiado considerar al ingeniero informático con un usuario que debe limitarse a reproducir recetas de manera ciega. La última unidad es una introducción a la Optimización matemática, desarrollando los problemas de la programación lineal y presentando de manera sencilla la programación entera.
Madrid, diciembre de 2010.
VII
ÍNDICE 1.4.4 Distribución de Poisson
1.1 Modelo matemático del Azar 1.1.1 1.1.2 1.1.3 1.1.4
Modelo matemático Propiedades de la probabilidad Asignación de probabilidades Cálculo por el complementario
1.2 Modelos dinámicos 1.2.1 1.2.2 1.2.3 1.2.4 1.2.5
Probabilidades condicionadas Cálculo dinámico Fórmula de Bayes Sucesos independientes Experimentos independientes
1.3 Variables aleatorias discretas 1.3.1 Distribución de una variable 1.3.2 Valor esperado una variable 1.3.3 Varianza y momentos de una variable 1.3.4 Desigualdad de Chebyshev 1.3.5 Entropía de una variable aleatoria
1.4 Modelos de distribuciones discretas 1.4.1 Distribución de Bernoulli 1.4.2 Distribución binomial 1.4.3 Distribución geométrica
1.5 Vectores aleatorios discretos 1.5.1 Distribución conjunta de un vector aleatorio 1.5.2 Distribuciones marginales 1.5.3 Valores esperados en una distribución conjunta 1.5.4 Valor esperado de la suma de dos variables 1.5.5 Covarianza de dos variables 1.5.6 Propiedades del valor esperado 1.5.7 Distribuciones condicionadas
1.6 Variables aleatorias independientes 1.6.1 Conjuntos y sucesiones de variables independientes 1.6.2 Esperanza del producto de variables independientes 1.6.3 Varianza de la suma de variables independientes 1.6.4 Leyes de los grandes números
--------------------------------------------------------------------------------------------Introducción
INTRODUCCIÓN
3
, ~t~
¿ Qué es el Azar?, ¿es un concepto intrínseco u ontológico ligado a ciertos fenómenos o sólo es una invención para justificar nuestra incapacidad de encontrar una causa que explique los resultados? Cuando lanzamos un dado y atribuimos al Azar el resultado, ¿lo hacemos porque hay una imposibilidad lógica o física de prever su resultado, como la Física cuántica supone en la determinación de la energía y localización del electrón?, o bien ¿se debe a que todavía no hemos sido capaces de lograr un modelo de Mecánica newtoniana capaz de predecir qué número saldrá? Cuestiones filosóficas como estas siguen desafiando nuestra comprensión de los fenómenos que denominamos aleatorios, a pesar de que sus nociones y la práctica de los juegos de Azar y de adivinación han acompañado al hombre desde su origen. Parece como si la mente humana, acostumbrada a buscar patrones, tuviera grandes dificultades para intuir las propiedades de los procesos aleatorios y, de hecho, aunque los primeros intentos de analizar matemáticamente los juegos de Azar se remontan al siglo XVI, con CARDAN O, o al XVII, con FERMAT y PASCAL, no se ha logrado una teoría matemática de los fenómenos aleatorios hasta 1933, gracias a los trabajos de A. N . KOLMOGOROV. En este capítulo describimos el modelo de KOLMOGOROV de los experimentos aleatorios denominados discretos, que son los que tienen un número finito o numerable (una sucesión) de resultados posibles. Los experimentos con un continuo de resultados posibles (infinito no numerable) se estudian en el capítulo siguiente. Aunque es posible dar una teoría unificada de los experimentos aleatorios con independencia del número de resultados posibles del experimento, las herramientas matemáticas que requiere esa teoría quedan fuera de lo razonable en una introducción como la que pretendemos hacer. Es preferible presentar por separado los dos casos más frecuentes en las aplicaciones, el discreto y el continuo, ya que pueden ser desarrollados con apenas unas nociones elementales de Álgebra y de Cálculo. Dar un modelo matemático de un fenómeno exige analizarlo y abstraer los componentes que observamos mediante objetos matemáticos cuyas propiedades reproduzcan razonablemente las observadas en nuestro análisis. Una vez formalizado el modelo, cobra vida propia y las propiedades matemáticas se deducen gracias a las relaciones lógicas y a las propiedades supuestas en los objetos que intervienen (los axiomas). Este desarrollo no es un mero entretenimiento. Los resultados alcanzados en las deducciones matemáticas serán interpretados como anticipos de lo que esperamos observar en la realidad. Este campo de aplicación de los resultados teóricos a la realidad debe estar sometido a continua crítica. La exactitud de las previsiones no depende de la
4
UNIDAD DIDÁCTICA 1 Modelos probabilísticos discretos
Las teorías que construye el hombre, y las palabras con que están expresadas a menudo tienen más influencia en su mente que los hechos presentados por la realidad. Wilhem Ropke. Nunca conjeturo. Es un error crucial teorizar antes de tener datos ; insensiblemente, uno comienza a retorcer los hechos para que se ajusten a las teorías, en lugar de hacer que las teorías se ajusten a los hechos. Sir Arthur Conan Doyle, El signo de cuatro .
lógica deductiva, sino de lo bien o mal que la abstracción del modelo recoge lo esencial del fenómeno que queremos estudiar. Modelar matemáticamente un fenómeno exige, inevitablemente, hacer simplificaciones de lo observado en la realidad. Ningún modelo teórico es real. Por ello, cuando el ingeniero aplique los resultados obtenidos por la Teoría debe estar permanentemente en guardia contra la posibilidad de que el modelo no este bien ajustado, sin caer en la superstición de suponer que algo, por el mero hecho de haber sido deducido matemáticamente debe ser cierto en la realidad. Son los modelos los que deben ajustarse a lo real y no el mundo real al resultado de los modelos. El concepto de aleatorio y la cuantificación de la incertidumbre mediante la probabilidad se aplican en condiciones muy generales, más allá de los fenómenos que pueden ser repetidos en idénticas condiciones, como el lanzamiento de un dado o la duración de la vida de un componente electrónico; por ejemplo, la probabilidad se utiliza para tomar decisiones ante fenómenos únicos, sin repetición posible en iguales condiciones, como ocurre en Economía o en las apuestas sobre el resultado de un acontecimiento deportivo. Por otra parte, la idea de aleatorio lleva asociadas las de "resultado imprevisible" o "sin regularidad". Pocas personas aceptarán que la secuencia la secuencia 111111 es aleatoria, pues les parece ''predecible" el resultado de un nuevo término. Sin embargo, si lanzamos un dado seis veces, una de las secuencias posibles es 111111 , y como talla considera el modelo de KOLMOGOROV; además, si el dado no está cargado, el modelo acepta que una secuencia tan regular como 111111 es tan probable como cualquier otra. El modelo de KOLMOGOROV, como toda abstracción matemática, no es sino un reflejo de la realidad, de la que recoge los aspectos que juzga más interesantes. La indagación de KOLMOGOROV se centra en las propiedades de los fenómenos físicos cuyo resultado aceptamos como imposible de predecir con exactitud; no se pregunta si una secuencia determinada de números puede o no ser denominada aleatoria, en su investigación el término aleatorio sólo puede aplicarse a la fuente que genera la secuencia.
Modelo matemático del Azar
1.1
5
Modelo matemático del Azar La primera experiencia de un fenómeno aleatorio proviene de los juegos. Desde la antigüedad, el hombre ha conocido los juegos de azar y ha deseado dominarlos. Lo característico de los juegos de azar es la incertidumbre del resultado. Aunque el juego se repita en condiciones que parecen idénticas, el resultado varía y es imposible predecirlo con exactitud. Para explicar este hecho se ha creado un mito, denominado Azar, al que hacemos responsable de cada resultado. Podemos imaginar el Azar como una voluntad caprichosa que determina el resultado de cada jugada y decimos que los resultados son aleatorios, lo que significa que están determinados por el Azar. La evidencia empírica que proporciona repetir muchas veces un experimento aleatorio es que la frecuencia con que se observa un resultado parece disminuir su variabilidad conforme crece el número de repeticiones, y se aproxima a un número. Por supuesto, esta observación no es un hecho matemático, sino una evidencia experimental que indica que los fenómenos aleatorios muestran regularidades a largo plazo. Para hacer esta observación hemos lanzado doscientas veces un moneda y anotado cada resultado obtenido. En la figura 1.1 aparece representada la proporción o frecuencia relativa de "cara" tras cada lanzamiento. En el eje de abscisas representamos el número de orden del lanzamiento. En el eje de ordenadas representamos la frecuencia relativa del número de caras obtenidas hasta ese momento. Esa frecuencia es igual a nk 1k, donde nk representa el número de caras obtenidas en los k primeros lanzamientos. La gráfica es el resultado de representar 200 puntos de coordenadas (k, nk 1k). La
0.75 0.50 0.25 04-------~-------,--------~----~
o
50
lOO
150
200
Figura 1.1: Gráfica de las frecuencias relativas de cara.
gráfica sugiere la existencia de un valor límite. Evidencias similares se obtienen al observar otros experimentos aleatorios, como lanzar un dado o medir la duración de un circuito y representar la frecuencia relativa de algún suceso relacionado. En todos los casos la gráfica produce la misma impresión. Tras unas oscilaciones iniciales, la frecuencia relativa se aproxima a un límite. Esta evidencia experimental es la base de una ley empírica que denominaremos de regularidad de las frecuencias.
6
UNIDAD DIDÁCTICA 1 Modelos probabilísticos discretos
REGULARIDAD DE LAS FRECUENCIAS
i 1.1-1 Si A es un acontecimiento que puede ocurrir o no al realizar un experimento aleatorio y observamos n repeticiones del experimento, el cociente n(A) In entre el número de veces que A l1a ocurrido, n(A), y el número de repeticiones del experimento, n, se aproxima a un valor fijo cuando n es grande. Ese valor se denomina probabilidad empírica de A y se representa por P(A).
La probabilidad empírica tiene tres propiedades características derivadas de las propiedades de las frecuencias. Propiedad l. Cualesquiera que sean A y n, se tiene O ::; n(A) ::; n, como límn_,oo n(A ) / n ---> P(A), se sigue que P (A) es un número entre O y l. Propiedad 2. Si A es un acontecimiento que ocurre siempre que realizamos el experimento, se tiene n(A) = n y P(A) =l. Propiedad 3. Si A y B son dos acontecimientos que no pueden ocurrir simultáneamente, cualquiera que sea número de veces que repitamos el experimento, se tendrá n(A UB) = n(A) + n(B) , lo que implica P(AUB)
+--
n(AUB) n
=
n(A ) n
+ n(B)
----+P (A) +P(B)
n
Así, la probabilidad empírica debe cumplir P(A UB)
= P(A) + P(B).
Por desgracia, la noción de probabilidad empírica no permite construir un modelo, ya que no podemos definir la idea de probabilidad como un límite que "parece" existir. Sin embargo, nos sugiere las propiedades que debería tener el concepto de probabilidad asociada a los experimentos aleatorios,
1.1.1 Modelo matemático Para que tenga sentido el modelo teórico de los fenómenos aleatorios que vamos a mostrar, además de comprender el formalismo matemático, es esencial conocer la intuición que lo ha inspirado. Por esta razón dedicaremos unas líneas a comentar esa intuición. Imaginaremos que el Azar elige el resultado de cada experimento conforme a un procedimiento fijo y determinado que denominaremos ley de probabilidad. La evidencia empírica de la regularidad de frecuencias nos hace confiar en que sea posible determinar la ley de probabilidad repitiendo el experimento numerosas veces. Si sólo realizáramos unos pocos sorteos, será imposible verificar empíricamente cualquier hipótesis sobre cómo se comporta el Azar en el fenómeno que estemos considerando. Así es cómo la regularidad de las frecuencias sirve de comprobación de la teoría. Abstraer un modelo teórico supone analizar cuáles son los conceptos principales derivados de la observación y cuáles son sus propiedades y relaciones; una vez reconocidos, hay que interpretarlos en términos matemáticos. Esa
Modelo matemático del Azar
En ocasiones, diferentes conjuntos pueden ser, razonablemente, considerados espacios muestrales de un fenómeno aleatorio. Por ejemplo, si el experimento consiste en colocar dos bolas al azar en dos urnas y consideramos como resultado posible el número de bolas que hay en cada urna, el espacio muestra! sería un conjunto con tres elementos.
01 = { (2I O),( l l l ),(O I 2) } donde interpretamos ( 12 11 ) como el caso en que hay dos bolas en la primera urna y ninguna en la segunda. Ahora, si imaginamos que las bolas están marcadas con los números 1 y 2, lo que no parece que cambie el experimento, y consideramos como resultado posible cualquier reparto de las bolas en las urnas, tenemos otro posible espacio muestra] formado por cuatro puntos
Oz = { (1,2 10), (1 12), (211), (0 11,2),} ¿Cuál de los dos espacios debemos escoger? o hay una respuesta general, la decisión depende de las probabilidades que queramos calcular y de lo fácil o difícil que sea definir una probabilidad sobre el espacio escogido, ya que la elección del espacio interviene en la asignación de las probabilidades.
7
interpretación tiene ida y vuelta, ya que las propiedades deducidas mediante razonamientos matemáticos pueden ser interpretadas en términos de hechos reales y las predicciones del modelo contrastadas con la realidad experimental, gracias a lo cual nuestro modelo será, en términos de POPPER, falsable. Primero, precisaremos los componentes del modelo. Hablaremos de experimentos o fenómenos aleatorios y de pruebas de un experimento; una prueba es una ejecución de un experimento aleatorio. Por el momento y con el fin de elaborar un modelo, nos referiremos a experimentos aleatorios que cumplan las condiciones: l. No conocemos de antemano su resultado. 2. Sus resultados posibles están bien determinados de antemano.
3. Puede repetirse en idénticas condiciones tantas veces como queramos.
Lanzar un dado o una moneda son dos ejemplos sencillos de lo que estamos denominando experimento aleatorio. Cada lanzamiento concreto es un ejemplo de prueba. La primera componente que reconocemos al observar un experimento aleatorio es un conjunto bien definido de resultados posibles de cada prueba; por ejemplo, al lanzar el dado, podemos considerar que el conjunto de resultados posibles es { 8 , ~ , [ZJ , ¡;::;] , 1ZJ , [] }. La segunda componente que observamos son los acontecimientos que ocurren o no según cuál sea el resultado de una prueba, a los que denominaremos sucesos. Por ejemplo, un suceso asociado al experimento de lanzar el dado es "sale par", este acontecimiento ocurre si aparece uno de los resultados del conjunto { ~, ¡;::;], []} y no ocurre en otro caso. Por último, la tercera componente que apreciamos es la probabilidad, que mide o valora la "facilidad" con que tiene cada suceso de ocurrir. Para hacer el modelo del experimento es necesario traducimos las componentes anteriores en objetos matemáticos capaces de recoger las propiedades intuitivamente observadas. El conjunto de resultados posibles tiene fácil traducción como un conjunto matemático que contenga tantos elementos como resultados posibles hayamos observado; ese conjunto se denomina espacio muestra] o espacio de posibilidades y se acostumbra a representar por la letra O. EJEMPLO 1.1
Un espacio muestra] del experimento que consiste en lanzar un dado
puede ser
o= { 8, ~. [ZJ, ¡;::;], IZJ, []} Emplear estos u otros símbolos es irrelevante, lo único esencial es que el conjunto elegido tenga seis elementos, uno por cada caso que reconocemos como posible; esto es crucial, si consideramos que O es el espacio muestra] del experimento estamos aceptando que al lanzar un dado sólo hay seis resultados posibles, lo que implica despreciar otras posibilidades como que el dado quede en equilibrio sobre una arista o un vértice. Desde luego, esa aceptación es una simplificación, que tal decisión sea acertada o no es algo que no depende de las Matemáticas sino de lo que dicte la realidad experimental. fruto de esa simplificación. 11
8
UNIDAD DIDÁCTICA 1 Modelos probabilísticos discretos
Una clase .sd formada por subconjuntos de un conjunto O tiene estructura de álgebra de BOOLE si cumple las tres condiciones siguientes: l. El conjunto O está en la clase; O E .sd. 2. La clase es cerrada por complementarios; si A E .sd, entonces A e E .sd. 3. La clase es cerrada por uniones; si A E .sd y BE .sd, entonces A U B E .sd.
Los sucesos asociados a un experimento aleatorio tienen una estructura algebraica evidente. Cada suceso está definido por una proposición lógica que afirma o niega algo acerca del resultado de la prueba. Si la proposición es cie1ta, el suceso ocurre; si es falsa, no ocurre. Por ejemplo, el suceso "sale par" está caracterizado por el cumplimiento de tal proposición. En consecuencia, los sucesos se pueden combinar mediante las operaciones lógicas de conjunción, disyunción y negación. Por ejemplo, dos sucesos A y B se pueden combinar mediante los operadores lógicos y obtener nuevos sucesos como C1 = "A y B ocurren"
C2 = "A o B ocurren" C3 = "A no ocurre"
Nuestro modelo, al traducir a objetos matemáticos los sucesos debe conservar esta estructura que observamos. La idea clave, bien sencilla, para traducir los sucesos en un objeto matemático es caracterizarlos por el subconjunto de elementos de O que hacen que ocurra. Esta correspondencia es claramente biyectiva; a cada suceso le corresponde un único subconjunto y cada subconjunto representa un único suceso; además, la correspondencia conserva la estructura matemática de los sucesos, ya que los subconjuntos de O tienen, como las proposiciones, estructura de álgebra de BOOLE. Por ejemplo, en el experimento que consiste en lanzar un dado, al suceso A = "sale par" le asociaremos el subconjunto { G:J , G:.;J , [] } ; la costumbre es identificar cada suceso con el subconjunto que lo representa, y escribir
Ar-ol ri""!l - {n L!.___J,~,L!..!J De manera similar, ponemos B = "sale múltiplo de 3" = { lZJ , [] }. Así, las operaciones lógicas del álgebra de proposiciones se identifican con sus horneomorfas del álgebra de conjuntos y, por ejemplo, ponemos "A y B ocurren" = A n B = { [] } "A o B ocurren" = A U B = { G:J , [Z] , G:.;l , [] }
También, la negación se identifica con el complementario, "A no ocurre" = A e = { [:] , lZJ , [Z] } , aunque también se acostumbra a denominar a A e el suceso contrario de A. Observemos que la convención del modelo sigue nuestra intuición del experimento: en cada prueba, el Azar escoge un elemento de O (un resultado posible). Si el elemento elegido, w, pertenece a un suceso A , diremos que A ha ocurrido; si no pertenece a A, diremos que A no ha ocurrido. Por ejemplo, si lanzamos el dado y sale G:.;J , diremos que A = "sale par" ha ocurrido, mientras que B ="sale múltiplo de 3" no ha ocurrido. Puesto que consideramos suceso a todo los subconjunto de O, nos encontramos con dos casos extremos; uno es el suceso 0 que no ocurre nunca, puesto que cualquiera que sea el caso w
En el. experimento que consiste en lanzar una illiiiOeda hay dos resultados posibles y 22 = 4 distintos que son
0, {@)}, {@)}, {@), @ } En el experimento que consiste en lanzar un dado. hay 6 resultados posibles y 26 = 64 sudistintos. Observamos que el número de sucesos crece exponencialmente al crecer el. número de resultados posibles.
=
elegido por el Azar no puede pertenecer a 0, y que denominarnos suceso imposible ; otro es el suceso O, que ocurre siempre puesto que cualquiera que sea el caso OJ que el Azar elija, pertenecerá a O, este suceso se denomina seguro. Si dos sucesos, A y B, cumplen A n B = 0, no pueden ocurrir simultáneamente y los denominaremos incompatibles o disjuntos. Designamos a la clase de todos los sucesos por la letra d que, como hemos señalado, posee una estructura matemática denominada álgebra de BOOLE. En los modelos matemáticos más sencillos el conjunto O es finito y todos los subconjuntos de O son considerados sucesos, por lo que el álgebra d es el conjunto de las partes de O. Más adelante, aparecerán otros modelos más complicados en los que no todos los subconjuntos de O pueden ser considerados sucesos y d es una subclase del conjunto de las partes. Los sucesos se clasifican en simples y compuestos. Son sucesos simples aquellos que contienen un único resultado posible (son de la forma { OJ} ). En el ejemplo del lanzamiento del dado, los sucesos: A = "sale par" = { ~ , [;::;,] , [] } y
B
= "sale múltiplo de 3" = { [ZJ, []}
son compuestos, mientras que A n B = { [] } es un suceso simple. EJEMP LO 1.2 Puesto que identificamos sucesos y conjuntos, los diagramas de VENN son buenos auxiliares en los razonamientos con sucesos. Por ejemplo, si A y B son sucesos, el suceso "A ocurre y S no" se identifica con el subconjunto A n Be y se representa en la figura 1.2 a. Recordemos que el cuadrado simboliza al espacio muestra! O y los círculos representan a cada uno de los sucesos. Gracias a los diagramas, las relaciones entre sucesos se hacen casi evidentes. Por ejemplo, en el diagrama (a), resulta evidente que el suceso "A ocurre y B no" es igual al suceso A -B. El su-
EO A
B
a
@ A
(]) B
(Au.B)c =Acn sc e
b
Figura 1.2: Sucesos representados en diagramas de
VEN N
ceso A n s e se suele representar como A - S, "A ocurre y S no" = A n Be = A - B. El suceso "sólo uno de los dos conjuntos ocurre" es igual a (A - B) U (B- A) (ver figura 1.2 b). También lo podemos expresar como (A U S) - (A n S). Por último, el suceso "ninguno ocurre" es igual a A en se, ya que no tiene que ocurrir ni A ni B (ver figura 1.2 e)) . Gracias al diagrama, resulta evidente que también se cumple (A UB) c =A e nBc, observación que podemos razonar ya que la negación de "ocurre alguno" es "ninguno ocurre". •
10
UNIDAD DIDÁCTICA 1 Modelos probabilísticos discretos
Intuitivamente, la probabilidad de un suceso A se entiende como la medida de la "facilidad" con que ocurrirá A cuando realicemos el experimento. Puesto que es una medida asociada a cada suceso, es razonable considerar que la probabilidad es una función definida sobre el álgebra de los sucesos que asocia un número a cada uno de ellos. Las propiedades o axiomas que debe cumplir una función de conjunto para ser una probabilidad fueron formulados por KOLM OGOROV. DEFINICIÓN DE PROBABILIDAD
J2-
Una probabilidad P, definida sobre sobre un álgebra de sucesos, d, de un espacio muestra] finito O, es una función P: d f---7 [O, 1], que a cada suceso A E d le hace corresponder un número real P(A) y que cumple las condiciones siguientes:
l. P(O) =l. 2. Si A y B son disjuntos, se cumple P(A U B)
Figura 1.3: A.N. Kolmogorov Andrei Nikolaevich Kolmogorov, nació en Tambov (Rusia) en 1903 y murió en Moscú en 1987. Se graduó en matemáticas en 1925 en la Universidad de Moscú, ya antes de graduarse había escrito ocho trabajos. Puso los fundamentos del cálculo de probabilidades en una monografía publicada en 1933 . Ha investigado en todos los campos de la matemática, Análisis, Geometría, Topología, Probabilidad, y muchos de la Física.
= P(A) + P(B).
Vemos que cualquier probabilidad cumple tres condiciones. Primera, la probabilidad de cualquier suceso es un número entre cero y uno; esta es una condición de normalización. Segunda, la probabilidad del espacio total es uno. Tercera, la probabilidad de la unión de sucesos disjuntos (suma de sucesos) es la suma de las probabilidades; esta propiedad se denomina aditívidad. Aunque la aditividad se impone a cada par de sucesos disjuntos, resulta claro que también se cumple para a tres o más sucesos. La prueba es simple, si A¡, 1 :S i :S 3 son tres sucesos disjuntos dos a dos, es decir, si i f. j, entonces A¡ nA1 = 0, y consideramos que A1 UA2 UA3 = (A1 UA2) UA3, por la aditividad de dos sucesos se tiene
si aplicamos de nuevo la propiedad de aditividad al suceso A 1 UA2, resulta
Este mismo razonamiento se puede aplicar a cualquier unión finita de sucesos con el mismo resultado: la probabilidad de la unión finita de sucesos disjuntos es igual a la suma de las probabilidades. Observemos que la definición de KOLMOGOROV no ayuda a definir P, tan sólo establece las condiciones que debe cumplir. Para las Matemáticas, el trabajo comienza cuando la función P ya está definida. La tarea de definir P de modo que sea concordante con el modelo, tarea que denominaremos asignar probabilidades a los sucesos, no corresponde a la matemática formal, aunque es crucial para plantear correctamente el modelo. Podría parecer que asignar una probabilidad implica declarar el valor de P(A) para cada A E d, sin embargo, gracias a aditividad, basta conocer la probabilidad de los sucesos simples para tener definida P ya que la probabilidad de los sucesos compuestos es la suma de las probabilidades de los simples
Modelo matemático del Azar
11
en que se descomponen. Para definir una probabilidad sobre un espacio muestra! finito n y un álgebra de sucesos J21 basta con asignar una probabilidad P( w) a cada suceso elemental { w}, para cada w E n , de manera que se cumpla O :S P( w) :S 1 y Iw EO P( w) = l. La probabilidad de cualquier suceso compuesto A E n se calcula como suma de las probabilidades de los sucesos simples en que se descompone.
L P(w)
P(A) =
WEA
Sin duda, la notación que hemos empleado en el enunciado anterior no es completamente correcta, ya que la probabilidad es una función sobre los sucesos y su argumento debe ser un conjunto, no un elemento. Deberíamos haber puesto P( { w} ) en lugar de P( w). Sin embargo, emplearemos la notación anterior por requerir menos símbolos. EJEMPLO 1.3
Lanzamos una vez un dado ; consideremos como espacio muestral el
conjunto:
n
._M==
{nL_j, ro~ 1.'1 ,..., ro=o1 f!!l } l!....J ,~ ) l!....!J'~ 'l!....!J
Como hemos comentado. cualquier subconjunto de O es un suceso, lo que implica que hay 26 = 64 sucesos distintos; sin embargo, para definir una probabilidad no es necesario enumerar la probabilidad de cada uno de esos sucesos, basta con dar las probabilidades de los seis sucesos simples. Esas probabilidades deben ser números entre O y 1, cuya suma sea l. Por ejemplo, el conjunto de valores: 2
P( [Z] ) =9, 1 9'
P( ¡.;¡ ) = l.!..!J
define una probabilidad sobre O ya que cada valor está entre cero y uno, y su suma es igual a uno.
P(O) = P( [)) +P(¡;j) +P( [Z]) +P( ~) + P( [Z]) +P( [])
=1
En este modelo, el dado está cargado de modo que cada número impar es dos veces más probable que cualquier número par. Para hallar la probabilidad del suceso A = "el número obtenido es mayor que tres", basta calcular la suma
P(A) =
L P( ú)) = P( ~ ) + P( [Z]) + P( []) = 94 WEA
.
De manera semejante se calcularía la probabilidad de cualquier otro suceso compues• to.
Debemos advertir la definición de probabilidad que hemos dado esta, deliberadamente, simplificada. Realmente, los axiomas que formuló KOLMOGO ROV tienen dos condiciones que, por el momento, hemos pasado por alto. Exigen que la probabilidad sea continua respecto de sucesiones monótonas de sucesos; es decir, que cumpla límP(An) = P(límAn), cuando {An} es una sucesión creciente. También exigen que J21 no sólo sea cerrada por uniones finitas
12
UNIDAD DIDÁCTICA 1 Modelos probabilísticos discretos
sino también por uniones infinitas numerables. Sobre estas bases se asienta la teoría de la probabilidad matemática. Sin embargo, para formular una teoría elemental, prácticamente no necesitamos esas precisiones, cuando necesitemos la versión más fuerte de los axiomas lo haremos notar. MODELO DE UN EXPERIMENTO ALEATORIO
1.3
El modelo matemático de un experimento aleatorio es una terna
(O,d,P) formada por un espacio muestra] O, un álgebra de sucesos, d, sobre O y una probabilidad sobre d. La terna (O,d,P) se denomina espacio probabilístico.
1.1.2
Propiedades de la probabilidad
Una vez establecido el modelo, se pueden deducir muchas otras propiedades que son útiles para calcular con probabilidades. En este apartado enunciaremos las más importantes, demostrándolas con detalle para que sirvan de modelo y ejercicio. En lo que sigue, consideraremos un espacio probabilístico fijo (O, d ,P). Si A E JZ1 es un suceso, los sucesos A yAc son disjuntos y su unión es el espacio muestral, A UAc =O; entonces, de la propiedad de aditividad, se sigue
de donde se obtiene P(Ac)
= 1- P(A). En particular, cuando A= O, resulta P(0) = 1-P(O) =O
PROBABILIDAD DEL SUCESO
__!_:±___ Si A es un suceso, se cumple P(Ac) hacemos A = O , resulta P (0) =O
= 1- P(A) . En particular,
si
CONTRARIO
Los diagramas de VENN hacen evidentes las relaciones entre conjuntos y evidencian algunas de las propiedades de la probabilidad. En el diagrama (a) de la figura 1.4, resulta evidente que el suceso A es igual a la unión de los sucesos disjuntos A - B y A n B. Esta observación es crucial para probar P(A- B) = P(A ) - P (A n B). De manera semejante, en el diagrama (b) resulta evidente que la unión A U B es igual a la unión de los tres sucesos disjuntos A- B, A n B y B - A , A U B =(A- B) U (B -A ) U (A n B). Consideremos ahora dos sucesos A y B. Los elementos de A o pertenecen aBo no pertenecen a B, este criterio clasifica los elementos de A en dos conjuntos disjuntos, A n B y A - B, lo que implica A = (A n E) U (A - B). De la propiedad de aditividad se sigue P(A) = P (A n B) + P(A- B), de donde se deduce
P(A- B)
= P (A ) -
P(A n B)
En particular, si Be A, entonces A nB = By se tiene P (A- B) = P(A)- P(B).
Modelo matemático del Azar
B
A
A
13
B
(b)
(a)
Figura 1.4
PROBABILIDAD DE
1.5
Si A y B son dos sucesos de sz1, se cumple
LA DIFERENCIA
P(A - B) = P(A) - P(A n B) En particular si Be A, entonces A n B =By se tiene
P(A- B) = P(A) - P(B) Por su parte, los elementos de A UB se clasifican en tres clases disjuntas, los que pertenecen a A y no pertenecen a B, los que pertenecen a B y no pertenecen a A, y los que pertenecen a ambos sucesos. Se sigue
A UB= (A -B ) U (B -A)U(An B) donde A- B, B-AyA n B son disjuntos; por el axioma de aditividad obtenemos
P(A UB) = P(A -B) + P(B -A) +P(A n B) y de la probabilidad de la diferencia, se sigue
P(A UB) = P(A) -P(An B) +P(B) -P(An B) + P(An B) = P(A) + P(B) -P(A n B) PROBABILIDAD DE
1.6
Si A y B son dos sucesos de sd, se cumple
LA UNIÓN DE DOS SUCESOS
P(A U E)= P(A)
+ P(B)- P(A n B)
(1.1)
La fórmula para calcular la probabilidad de la unión de dos sucesos se puede generalizar a tres o más sucesos. Para hacer la expresión más homogénea, designaremos por A 1, A 2 y A3 los tres sucesos. Si interpretamos la unión de
14
UNIDAD DIDÁCTICA 1 Modelos probabilísticos discretos
los tres sucesos, A¡ UA2 UA3, como unión del suceso A¡ UA2 y del suceso A3, podemos aplicar la fórmula anterior y resulta
Ahora, (A¡ UA2) n A3 =(A¡ n A3) U (A2 n A3), luego P((A¡ UA2) n A3) ; otra vez aplicamos la fórmula de la unión de dos sucesos y obtenemos
Otro tanto podemos hacer con P(A¡ UA2). Basta reemplazar lo anterior en 1.2 para obtener la fórmula de la probabilidad de la unión de tres sucesos. PROBAB ILIDAD DE
____!_2_ Si A¡, A2 y A3 son tres sucesos de tzl, se tiene
LA UN IÓN DE TRES SUCESOS
P(A1 UA2 UA3) = LP (A¡) - LP(A¡ nA1)+P(A 1 nA 2 nA 3)
(1.3)
i< j
A
A- B
o Figura 1.5
PROP IEDAD DE
Observemos que la fórmula 1.3 se puede interpretar de la siguiente manera: primero se suman las probabilidades de las intersecciones de los sucesos uno a uno, luego se restan las probabilidades de las intersecciones dos a dos y luego se suman las probabilidades de las intersecciones tres a tres. Es decir, alternativamente se suman y restan todas las probabilidades de las intersecciones de un número fijo , k, de sucesos, desde que k= 1, hasta que k es igual al número de sucesos. Esta estructura se mantiene cuando se trata de la unión de n sucesos. Si B es un subconjunto de A, B e A, el diagrama de VENN muestra que A se puede poner como unión de dos conjuntos disjuntos, A =B U (A - B). Por la propiedad de aditividad, se tiene P (A) = P(B ) + P(A - B) y, puesto que P(A - B ) 2: O, resulta P(A) 2: P(B ). Esta es una propiedad que nos resulta familiar porque la poseen todas las magnitudes que denominamos medidas, como la longitud, área, volumen, peso, etc., y significa que la medida de una parte siempre es menor o igual que la del todo que la contiene.
____lj__ Si A y B son sucesos tales que Be A, se tiene P (B ) :S P(A).
MONOTONÍA
Por último, cualquiera que sean A y B, se tiene P (A n B) 2: O. De la fórmula 1.1 , se sigue P (A U B) :S P (A) + P ( B ) . Esta de: igualdad que se denomina de BOOLE y proporciona una cota superior para la probabilidad de la unión de dos sucesos. Por inducción, se prueba que la desigualdad de BOOLE se verifica para cualquier número finito de sucesos.
Modelo matemático del Azar
DES IGUALDAD DE
15
____l2_ Dados n sucesos A;, 1 ::; i::; n de un álgebra d, se cumple:
BOOLE n
n
P ( U A¡ ) ::; LP (A¡) i= l
1.1.3
i= !
Asignación de probabilidades
De lo expuesto en el apartado 1.1.1 se sigue en un modelo con un número finito de resultados posibles, cualquier probabilidad P queda definida por su valor en cada suceso simple. La igualdad:
P(A) =
L P(w) WEA
expresa que la probabilidad de cualquier suceso A se calcula como suma de las probabilidades de los sucesos simples { OJ }, que lo componen. También sabemos que los valores P( OJ ) no pueden ser arbitrarios, sino que deben verificar las condiciones: l. O :S: P(w) :S: 1 2.
2: P(w) = 1 WEO
Sin embargo, lo anterior no responde a la gran pregunta: cuando vamos a establecer un modelo, ¿cómo asignar una probabilidad a cada suceso simple? No podemos dar una respuesta que automáticamente res uel va todos los problemas que se nos pueden plantear. El Cálculo de probabilidades es un arte en el sentido que DONALD KNUTH da a ese término: no puede ser reducido a una rutina que el computador ejecute por sí solo. Aprender a asignar probabilidades se logra con la práctica y la experiencia. Pero hay una clase muy importante de modelos finitos, para la que somos capaces de formular una solución general. Se trata de los modelos que denominaremos uniformes, caracterizados por su simetría o, más exactamente, porque los resultados posibles son intercambiables. Denominamos intercambiables a los resultados que pueden ser cambiados uno por otro, sin que el modelo se modifique. Por ejemplo, si una moneda está equilibrada, cara y cruz son intercambiables. Si llamásemos cara a la cruz y cruz a la cara, el nuevo experimento sería idéntico del primero. Otro tanto ocurre con los seis resultados de lanzar un dado perfectamente equilibrado, si numeramos de nuevo las caras del dado y marcamos con 6 la cara que tenía escrito 1, con 5 la que tenía escrito 2, etc., el dado queresulta es, probabilísticamente, idéntico al primero. Cuando los resultados posibles son intercambiables, debemos asignar igual probabilidad a cada suceso simple, en otro caso, estaríamos diferenciando unos de otros, lo que está en contradicción
16
UNIDAD DIDÁCTICA 1 Modelos probabilísticos discretos
con la intercambiabilidad que hemos supuesto. Puesto que la suma de todos los sucesos simples es 1, su probabilidad común debe ser 1/ #(0), donde #(O) es el número de elementos de O o cardinal de O. En los modelos uniformes, la probabilidad de un suceso A se obtiene mediante la suma: (1.4)
Esta fórmula se conoce como regla de LAPLACE. La regla de LAPLACE tiene sus términos peculiares. Dado un suceso A , denominaremos casos favorables a los resultados que pertenecen a A (son favorables a que A ocurra) y casos posibles a todos los resultados posibles. De acuerdo con la fórmula de LAPLACE, cuando el modelo es uniforme, calcular probabilidades es equivalente a contar casos posibles y favorables . RE GLA D E LAPLACE
~Q ~
Si todos los casos posibles son equiprobables, la probabilidad de un suceso es igual al cociente entre el número de casos favorables y el número de casos posibles.
EJE MPLO 14 Si lanzamos dos veces un dado equilibrado, podemos obtener 6 x 6 = 36 resultados distintos intercambiables. Un espacio muestral adecuado para definir un modelo es:
o= {
88, 8~ , 8[Z], 8 [;), 8 [8], 8[!], ~8. ~~. ~[Z] , ~[;::;] , ~[8], ~[!] ,
[Z]8 , [Z]~, [Z][Z], [Z][;)' [Z][8], [Z][!J], [;)8, [;::;]~, [;)[Z], [;::;][;), [;)[8], [;::;][!], [8]8 , [8]~, [8][Z] ' [8][;)' [8][8]' [8][!], [!]8, [!]~, [!J][Z], [!][;::;], [!][8] , [!][!] } Puesto que son intercambiables, cada suceso simple tiene probabilidad igual a 1/ 36; por ejemplo, P(8[8] ) = 1/ 36. El suceso A = "la suma de los resultados es 7" es igual a: ,.-;]¡;:;] I.OlfOOJ fOOJI.Ol ¡;:;],.-;] 1!!11.1} A == { 1.11!!1 U l!..!J' L!....J ~ ' ~ l.!....!J ' l.!....!J~' ~~' l!...!JLJ Hay 36 casos posibles (# (O ) = 36) y 6 casos favorables al suceso A (#(A) acuerdo con la regla de LAPLACE, la probabilidad de A es igual a:
= 6), de
#(A) 6 P(A) =#(O) = 36 Otro ejemplo, si B = "el primer resultado es el doble del segundo", se tiene P(B) = 3/ 36, ya que hay 36 casos posibles y sólo tres casos favorables a que el primer resultado sea el doble del segundo, B = {~8 , [;::;]~ , [!J][Z] } . •
Se reserva la expresión "al azar" para referirnos a un experimento aleatorio uniforme. Si decimos "se escoge al azar un elemento entre los elementos de O", debe entenderse que cada elemento puede ser escogido con igual probabilidad. Nosotros emplearemos el adjetivo " equilibrado" para designar a
Modelo matemático del Azar
17
un dado, una moneda o cualquier otro ingenio cuyos resultados posibles sean intercambiables. Así, la expresión "lanzamos un dado equilibrado" nos informa que cada uno de los seis resultados posibles tiene la misma probabilidad de ocurrir. Naturalmente, también consideraremos modelos no uniformes; por ejemplo, el dado del ejemplo 1.3 está desequilibrado. Al planter el modelo probabilístico de un experimento aleatorio, la elección del espacio muestral, la asignación de probabilidades y el método de cálculo de problemas relativos al experimento están relacionados. Un mismo experimento puede ser modelado mediante distintos espacios muestrales y esa elección del planteamiento influye en el posterior cálculo de probabilidades. Hasta aquí, tan sólo conocemos un procedimiento general para resolver problemas y es la regla de LAPLACE. , lo que restringe nuestras posibles elecciones del espacio muestral y nos obliga a escoger un espacio cuyos casos posibles sean intercambiables. Pronto se incrementarán las herramientas a nuestra disposición y tendremos más libertad en el planteamiento del modelo. A continuación, examinaremos con bastante detalle, el proceso completo, desde la elección del modelo hasta la solución de un problema: plantear y resolver. EJE M PLO 1.5 Consideremos el experimento que consiste en escoger una bola al azar de una urna que contiene tres bolas rojas y dos azules. Queremos plantear un modelo matemático y calcular la probabilidad de que la bola extraída sea roja. En nuestro primer intento planteamos un espacio muestral con dos elementos, ya que parece sólo hay dos resultados posibles: la bola extraída es roja o es azul.
O¡= { Figura 1.6
}
Dadas las condiciones del experimento, no es razonable suponer que "la bola es roja" y "la bola es azul" son sucesos intercambiables. Si planteamos este espacio, tendremos dificultades a la hora de asignar probabilidades a los sucesos simples. En un segundo intento, imaginemos que numeramos las bolas que hay en la urna. No parece que eso vaya a cambiar la probabilidad de extraer una bola roja. Tras esta operación, la urna tiene la composición que se ve en la figura l. 7. Ahora, resulta natural plantear un espacio muestral con cinco elementos
}
Figura 1.7
o, todavía más simple, ponemos 0 2 = {l, 2, 3, 4, 5}. La condición "se escoge una bola al azar" garantiza que cada uno de los resultados posibles de 0 2 son intercambiables y se tiene: 1 P (1) = P(2) = P(3) = P (1) = P(2) =S
Ahora, la bola es roja= {1 , 2, 3} y P(la bola es roja)=~Este ejemplo muestra claramente cómo la elección del espacio muestral influye en la asignación de probabilidades a los sucesos simples. El espacio 0 1 no es muy útil ya que nos obliga a buscar un razonamiento adicional para asignar probabilidad al suceso "la bola es roja"; el espacio 0 2 facilita ese razonamiento. • EJEMPLO 1.6 Una lista contienen registros. Si elegimos dos registros al azar, ¿cuál es la probabilidad de que sean consecutivos?
18
UNIDAD DIDÁCTICA 1 Modelos probabilísticos discretos
El modelo que planteemos depende del procedimiento que sigamos para elegir dos registros. Esencialmente, hay dos interpretaciones. • Secuencial: los registros se eligen sucesivamente. Primero elegimos uno al azar, entre n registros, y luego elegimos otro, al azar, entre los que quedan tras elegir el primero. • Simultánea: los registros se eligen al mismo tiempo, lo que implica elegir un subconjunto de 2 elementos del conjunto de registros.
Ambas interpretaciones producen resultados idénticos aunque los modelos difieran, ya que en ambos casos se cumple la condición característica del experimento: que todas las parejas posibles de registros tengan la misma probabilidad de ser elegidas. Si escogemos la interpretación secuencial, el espacio muestral está formado por todas las parejas ordenadas (i,j), donde l ~ i,j ~ n, con i i- j. En este modelo (i,j) y (J, i) son parejas distintas. El número de parejas distintas es n · (n - 1), ya que hay n maneras de elegir el primer número y, por cada manera de elegir el primero, hay (n- 1) maneras de elegir el segundo. Con la interpretación secuencial hay n(n- 1) casos posibles. Secuencias de registros consecutivos son, por ejemplo, (3,4) ó ( 6, 5). Los casos favorables son todas las secuencias de la forma ( i, i + 1) ó ( i + 1, i) , donde i puede variar entre 1 y n-l. Si A es el suceso "los registros son consecutivos", se tiene A = { ( i, i + 1) ; 1 ~ i ~ n- 1} U { ( i + 1, i) ; 1 ~ i ~ n- 1} Hay (n - 1) + (n- 1) = 2(n - 1) secuencias favorables al suceso A. La probabilidad de que dos registros elegidos al azar sean consecutivos es
P(A) = 2(n-1) = ~ n(n - 1) n Con la elección simultánea, el espacio muestra! está formado por todos los subconjuntos de dos elementos posibles, {i, j}. En este modelo se tiene {i, j} = {J, i}. Hay tantos casos posibles como subconjuntos distintos de dos elementos, luego el número de casos posibles es G). Las parejas favorables a A son los subconjuntos de la forma { i, i + 1}, donde i puede variar entre 1 y n- l. El número de casos favorables es n - 1 y la probabilidad de A es n-1 2
P(A)=-=-
G)
n
Desde luego P(A) es la misma con ambas interpretaciones.
1.1.4
•
Cálculo por el complementario
El recuento directo de los casos favorables de un suceso es un método de cálculo simple cuando el suceso que interesa se puede expresar como intersección de otros sucesos . Sin embargo, el recuento directo resulta complicado cuando el suceso problema es una unión de sucesos. Por ejemplo, si A es el sucesos definido por se cumple p o se cumple q, donde p y q son proposiciones, podemos expresar A como la unión, A = A 1 U A2, de los sucesos A 1 = {se cumple p} y A2 = {se cumple q}. La dificultad de contar los casos que cumplen p o q, radica en que hay que contar por separado los elementos
Modelo matemático del Azar
19
que cumplen p y •q, los que cumplen •p y q, y los que cumplen p y q. En estas circunstancias, es más efectivo calcular la probabilidad de A por el método de cálculo por el complementario. Los sucesos definidos por una condición "al menos" son siempre un buen cliente para el método de cálculo por el complementario. Por ejemplo, si lanzamos un dado dos veces, el suceso A
= al menos uno de los resultados es mayor que 3
está definido por una condición que es una disjunción de condiciones "el primero es mayor que 3 ó el segundo es mayor que 3", y puede ser expresado como una unión, A= A¡ UA2, de los sucesos A1 = {"el primer resultado es mayor que 3"} y A2
= {"el segundo resultado es mayor que 3" }
Para calcular la probabilidad de A , calcularemos la probabilidad de su, complementario: Ae
= {"ambos resultados son menores o iguales que 3"} = Aí nA2
ya que se trata de una conjunción de condiciones. Hay 62 casos posibles y 32 favorables a A e, ya que el primer y segundo resultados pueden ser 1, 2 ó 3. Resulta P(Ae ) = (3/6)2 = 1/ 4, y se sigue P(A) = 3/4. CÁLCULO POR El COMPLEMENTARIO
J:.lL Si
el suceso cuya probabilidad queremos hallar está definido por una disyunción de condiciones, es preferible calcular la probabilidad de su complementario y hallar la probabilidad del suceso por diferencia a l.
EJEMPLO 1.7 En una reunión hay k personas; ¿cuál es la probabilidad de que al menos dos de ellas celebren su cumpleaños el mismo día? Éste es un buen ejemplo de problema enunciado con el lenguaje "pintoresco" del cálculo de probabilidades. A pesar de su aspecto de adivinanza o de juego, el problema de los cumpleaños esconde un modelo que tiene importancia práctica. Por otra parte, el enunciado deja algunos datos sin precisar, ¿cuántas fechas distintas de cumpleaños debemos considerar? ¿365?, ¿366? ¿Cuál es la probabilidad de que una persona nazca en una fecha determinada? Para establecer un modelo, es necesario hacer simplificaciones, nosotros haremos dos: primera, despreciaremos los años bisiestos y consideraremos que hay 365 fechas posible y segunda, consideraremos que cada persona puede nacer en cualquier fecha con igual probabilidad p = 1/365 . Esta hipótesis segunda hipótesis es muy discutible. Sería lógico imponer que la probabilidad, p¡, 1 ~ i ~ 365, de nacer en la fecha i sea igual a la proporción de nacidos en ese día, ya que la experiencia indica que los nacimientos son más frecuentes en unos meses que en otros. ¿Hasta qué punto el modelo simplificado es válido en la realidad? La respuesta depende de lo sensible que sea la solución cuando haya desviaciones de las p¡ respecto de
20
UNIDAD DIDÁCTICA 1 Modelos probabilísticos discretos
la hipótesis p = 1/365. En estadística, una solución que sigue siendo aceptable aunque los parámetros del problema se desvíen de las hipótesis se denomina una solución robusta. Una formulación equivalente en términos de bolas y urnas es la siguiente: tenemos 365 urnas y k bolas. Colocamos las bolas al azar en las urnas. ¿Cuál es la probabilidad de que al menos dos bolas estén en la misma urna? Sea Ak es el suceso "al menos dos bolas entre las k que colocamos están en la misma urna", se trata de calcular P(Ak) · Como Ak está definido por la condición "al menos", resulta más fácil calcular la probabilidad de su complementario, A¡;. A k = "las k bolas estén en urnas diferentes"
Los casos posibles son 365k, ya que hemos hay 365 maneras de escoger una urna para colocar la primera bola y, una vez colocada, hay 365 maneras de escoger otra urna para la segunda bola, etc., y así sucesivamente. Casos favorables a A k hay: 365 · 364 · 363 · · · (365- (k-1)),
casos
ya que hay 365 maneras de escoger una urna para la primera bola y, una vez colocada, nos quedan 364 urnas para colocar la segunda bola; una vez colocadas la primera y la segunda, hay 363 urnas donde podemos colocar la tercera; así sucesivamente, hasta la k-ésima urna, para la que tenemos 365- (k-1) urnas disponibles (todas menos las k- 1 urnas ocupadas por las bolas anteriores). En total, hay La probabilidad de A% es: e
_
365·364 · 363···(365-(k-1))
P(Ak)-
36Sk 364 363 365 365
365- (k-1) 365 1
= ( l-
3~5) ( 1 - 3~5) ... ( 1 - ~~5 )
Vamos a calcular esta probabilidad para varios valores de k. Los valores de P(Ak) se calculan con facilidad, ya que cumplen la recursión:
P(Ak)
= ( 1-
k3~51 ) P(A¡;_ 1 )
lo que permite programar el cálculo con un mínimo de errores. A partir de P(Ak), calculamos P(Ak) = 1- P(Ak). La tabla de la figura 1.8 muestra los valores de P(Ak) para los valores de k comprendidos entre 5 y 90, de cinco en cinco. Observemos que con k = 70 es prácticamente seguro que habrá dos personas que cumplan años el mismo día. Si representamos gráficamente los valores anteriores, como si fuese una función continua de k, obtenemos la curva de la figura 1.8. Esta curva tiene una forma característica de muchos problemas probabilísticos. Tras un crecimiento lento, la curva crece rápidamente hasta volverse plana al final. Estas gráficas muestran un fenómeno de saturación, en determinado punto, se pasa rápidamente de lo poco probable a lo muy probable. Es interesante hallar el primer valor de k que cumple P(Ak) 2': 0.5. A la vista de los valores de la tabla, debe estar comprendido entre 20 y 25. Si calculamos las probabilidades de los valores intermedios, obtenemos:
P(A21 ) = 0.44369, P(A23) = 0.50730,
P(A22)
=
0.47570
P(A24)
=
0.53834
21
Modelo matemático del Azar
P(Ak) k
P(Ak)
k
P(Ak)
k
P(Ak)
5
0.02714
15 20
0.11695 0. 25290 0.41144
35 40 45
0.81438
10
65 70 75
0.99768 0.99916 0.99972
80
0.99991
25
0.56870
30
0.70632
85 90
0.99998 0.99999
50 55 60
0.89123 0.94098 0.97037 0.98626 0.9941 2
1
-- -- -------- - ----
0.75
o.so 0.25
10
23 30
so
70
90
k
Figura 1.8: Gráfica de la función k
r->
P(Ak)
Así, el primer valor de k tal que P(Ak) :::> 1/2 es k= 23. Resulta bastante sorprendente que sólo con 23 personas podamos asegurar que la probabilidad de que al menos dos tengan su cumpleaños el mismo día es mayor que 0.5 . 1111!
22
UNIDAD DIDÁCTICA 1 Modelos probabilísticos discretos
l. 2
Modelos dinámicos El modelo probabilístico que hemos planteado responde a una interpretación estática del fenómeno aleatorio ya que supone que el Azar decide el resultado del experimento en un único sorteo. Este enfoque es el más útil para ciertos experimentos como el lanzamiento de uno o varios dados; sin embargo, también encontramos otros experimentos que están compuestos de varios sorteos que se suceden en el tiempo, de modo que el resultado de cada subexperimento influye en las condiciones bajo las que se realizan los sorteos posteriores. Por ejemplo, consideremos el fenómeno aleatorio que consiste en extraer bolas de una urna que contiene bolas numeradas de 1 a 1O mediante el siguiente procedimiento: primero lanzamos un dado y, a continuación, extraemos tantas bolas de una urna como indique el resultado del dado; desde luego estamos ante un experimento aleatorio, ya que desconocemos cuáles serán las bolas extraídas y tiene sentido interesarse por cuestiones tales como ¿cuál es la probabilidad de que el número 1 sea extraído? Este experimento, de manera natural, se puede considerar compuesto de dos subexperimentos aleatorios: primero lanzamos el dado y, después, extraemos bolas al azar de la urna. El segundo subexperimento depende del primero ya que el número de bolas extraídas está determinado por el resultado de lanzar el dado. A los experimentos de esta clase los denominaremos dinámicos ya que los interpretamos como una sucesión de elecciones de Azar en el tiempo, la manera más simple de definir un modelo no es la estática, sino la que se adapta a la naturaleza secuencial del fenómeno. En este apartado estudiaremos el concepto de probabilidad condicionada que es clave para definir un modelo matemático de un fenómeno dinámico y que arroja nueva luz sobre nuestra interpretación de la probabilidad.
moneda
urna 1
urna 11
Figura 1.9: Modelo dinámico del ejemplo 8
EJEMPLO 1.8 Consideremos el siguiente experimento aleatorio. Lanzamos una moneda equilibrada; si sale cara, elegimos una bola al azar de la urna 1 que contiene una bola roja y una azul; si sale cruz, elegimos una bola al azar de la urna 11 que contiene tres bolas azules y una roja (ver figura 1.9). ¿Cuál es la probabilidad de que la bola elegida sea roja? Parece claro que el experimento se descompone en dos subexperimentos que se suceden en el tiempo y que el resultado del primer experimento (lanzar la moneda) determina las condiciones del segundo experimento (extraer la bola), a pesar de lo cual, primero intentaremos ajustar un modelo estático para mostrar las dificultades que surgen. Por ejemplo, si consideramos el espacio muestral Oprimer ensayo
={
}
no es posible asignar inmediatamente las probabilidades ya que los casos y no son, evidentemente, intercambiables. Además, este modelo pierde parte de la información obtenida en el experimento, ya que no hace referencia al resultado de la moneda. En un segundo ensayo, consideraremos un espacio muestral con cuatro casos: los resultados posibles de lanzar la moneda y observar el color de la bola extraída. O segundo ensayo =
{@
,@
,@
,@
}
r
Modelos dinámicos
Pero en este espacio tampoco es inmediata Ia evaluación sus probabilidades de Ios casos posibles; por ejemplo, nos parece que @ debe ser más probable que @) _ ya que es más fácil extraer una bola azul de la urna II que de la urna I, sin que, por el momento, sepamos cuantificar esa mayor probabalidad; este espacio muestra! tampoco ayuda a valorar las diferentes probabilidades de los casos. En un tercer ensayo, imaginemos que hemos numerado las bolas que hay en cada urna, como se muestra en la figura 1.1O, ahora pordemos plantera un espacio muestra] con seis puntos.
moneda
urna 1
Orercer ensayo =
urna 11
Figura 1.10: Tercer ensayo de plantear un modelo
moneda
urnall
Figura 1.11: Cuarto ensayo de plantear un modelo
{@)
,@)
,@)
,@)
,@)
,@)
}
Pero, de nuevo, no podemos aceptar que estos seis casos sean igualmente probables, por ejemplo, es más fácil que ocurra @) a que ocurra @ , puesto que para extraer la bola de la urna I hay un caso entre dos, mientras que extraer la bola CD de la urna II hay un caso entre cuatro. Hagamos un cuarto ensayo, ahora procuraremos que ambos subexperimentos tengan igual número de casos posibles, para poder juzgar sobre su probabilidad, para ello añadimos a la urna 1 con una bola azul y otra roja, lo que no altera la probabilidad de extraer una bola azul de la urna l. Después, numeramos las bolas como se muestra en la figura 1.11. Ahora pordemos plantear un espacio muestra! que tiene 8 elementos completamente intercambiables. Ocuartoensayo =
urnal
23
{@) - , @)
,@
, @)
,@)
,@)
,@)
,@)
}
En este modelo sí es razonable suponer que es uniforme y que cada caso posible tienen probabilidad igual! /8, lo que implica A = {la bola extraída es roja} = {@) 1 , @) 2 , @
luego la probabilidad pedida es P(A) = 3 / 8.
}
•
En resumen, la dificultad de este ejemplo radica en que el segundo subexperimento depende del resultado del primer experimento, lo que rompe la simetría de los casos y nos obliga a buscar una manera de restaurarla. Este ejemplo enseña que nos razonamientos estáticos no encajan bien con los problemas dinámicos, lo que nos impulsa a buscar otro métodos que, de manera general, permitan definir un modelo probabilístico dinámico. El concepto clave para lograr ese método general es la probabilidad condicionada.
1.2.1
Probabilidades condicionadas
Hasta este momento, hemos interpretado los expe1imentos aleatorios como un proceso en dos estados, todo ó nada, en el que se pasaba de la completa incertidumbre acerca de su resultado, antes de realizar el experimento, a la total certidumbre sobre cuál era final, una vez realizado el experimento y observado el resultado. Ahora, interpretaremos el experimento como un proceso que puede tener más estados de conocimiento intermedios, consideraremos que podemos conocer una información parcial, por ejemplo que ha ocurrido cierto suceso A, sin saber cuál ha sido el resultado final del experimento. Interpretamos que hemos pasado del estado de incertidumbre inicial a otro estado de
24
UNIDAD DIDÁCTICA 1 Modelos probabilísticos discretos
mayor información pero también incierto, donde sabemos que el resultado es alguno de los casos posibles que pertenecen a A pero no sabemos cuál es exactamente. Lo importante de este enfoque es que es una auténtica generalización, es decir, que cualquier experimento aleatorio, incluso los que habíamos denominado estáticos, admite esta interpretación dinámica como paso de lo incierto a lo seguro, en un proceso que puede tener diversas etapas. La nueva interpretación evidencia que la probabilidad de un suceso es función de la información disponible en el instante de valorarla. Tras cada incremento de información, la probabilidad debe volverse a calcular o reasignarse. Examinemos un ejemplo, consideremos un experimento que consiste en lanzar dos dados equilibrados. El primer modelo probabilístico, basado en la información que tenemos, consiste en un espacio de 6 x 6 resultados posibles, cada uno con probabilidad 1/36.
o = { 88' 8 G:J' ... ' [][Z] ' [][] } Antes de lanzar los dados, la probabilidad de obtener [ZJG:J, es: 1
P( [Z]G:J) = 36
(1.5)
Supongamos que los dados se han lanzado y, aunque no conocemos el par de puntos que ha salido, sabemos que la suma de los puntos obtenidos ha sido 5. La situación sigue siendo incierta pero el modelo ha cambiado, ahora el conjunto de resultados posibles se ha reducido al conjunto A
= {la suma es cinco} = { 8~ , G:J[Z] , [Z]G:J , ~8 }
y, por simetría, la probabilidad de cualquiera de ellos es 114. Desde el punto de vista matemático, la probabilidad asignada ante la evidencia de que A ha ocurrido es una función distinta de la que aparece en la igualdad 1.5, ya que está definida sobre el espacio muestral A; se trata de un modelo distinto. Para diferenciarla, escribiremos P(- 1 A), expresión que se lee "probabilidad condicionada porque A ha ocurrido" o, simplemente "probabilidad condicionada por A" . Las igualdades: (1.6) expresan nuestro juicio sobre las posibilidades de que el resultado sea [Z]G:J en dos estados de información diferentes; cuando sólo conocemos las reglas del experimento y cuando, además, conocemos que la suma de los puntos obtenidos ha sido 5. Dado que estas dos probabilidades están definidas sobre espacios probabilísticos distintos, conviene buscar una fórmula que las relacione. Observemos, que en el ejemplo anterior, se verifica:
P( 1.'1101 A) = P( [Z]G:J) l.!:J~ P(A) 1
1 36
4
36
1 4
-
(1.7)
L
Esta observación, que relaciona la probabilidad en el modelo inicial, con la probabilidad "condicionada por A", nos lleva a definir: Definición 1.1 Si A y B son sucesos de un espacio de probabilidad y se cumple P(A) > O, la probabilidad de B condicionada por A es igual a:
P(B 1 A) = P(AnB) P(A)
(1.8)
Desde el punto de vista frecuentista, la probabilidad condicionada se interpreta diciendo: entre las repeticiones del experimento en las que ocurre A, la frecuencia con que esperamos que se presente Bes P(B 1 A) y coincide con la frecuencia con la que ocurren ambos sucesos simultáneamente, dividida por la frecuencia con la que se presenta A. EJEM PLO 1.9
Consideremos un experimento aleatorio que consiste en ordenar al
azar las tarjetas
[~],0 , ... ,§) en una fila. Un modelo estático de este experimento consiste en el espacio muestra! formado por el conjunto de las N! posibles permutaciones de las tarjetas con probabilidad uniforme. De nuevo, la idea que hay detrás del modelo es que el Azar escoge la posición de todas las tarjetas simultáneamente en una única elección. El modelo sugiere que en una etapa pasamos de no saber nada acerca de la permutación elegida a tenerla completamente definida. Consideremos otra interpretación posible, imaginemos que ponemos las tarjetas dentro de una urna y las extraemos al azar, una a una y sin devolver a la urna las extraídas; ahora, estamos ante un modelo dinámico. La primera tarjeta se elige entre todas al azar. La segunda tarjeta, se elige al azar entre las que son distintas de la primera elegida. Así, sucesivamente, hasta completar las N posiciones. La ordenación final es el resultado de N- 1 elecciones o sorteos, ya que la última posición está determinada, y el resultado de cada sorteo condiciona los casos que son posibles en los sorteos posteriores. Tras cada sorteo, nuestra información sobre la ordenación final va aumentando; pasamos de la incertidumbre a la certeza a través de una serie de incrementos de la información. Desde el punto de vista matemático, ambos modelos son probabilísticamente equivalentes, aunque según cuál sea la probabilidad que queramos calcular, puede ser preferible un modelo u otro. Sin embargo, desde el punto de vista práctico de ordenar aleatoriamente las tarjetas hay notables diferencias entre ambos modelos. Para llevar a cabo el sorteo del modelo estático precisamos una urna que contenga N! bolas cada una con una permutación diferente, o una lista con N! registros si lo hacemos con el computador. El sorteo consiste en escoger una bola o registro al azar entre los disponibles. Incluso para valores pequeños de N, el número N! es muy grande. Por ejemplo, si N = 1O, N! = 3 628 800, resulta difícil encontrar una urna con capacidad suficiente para tantas bolas, por pequeñas que sean o el consumo de memoria necesario para mantener los registros 1 . Incluso para valores de N relativamente pequeños, este sorteo es imposible de realizar en la práctica. Por el contrario, para sortear conforme al modelo dinámico basta con disponer de una urna que contenga N bolas numeradas de 1 a 1Si
las bolas tuvieran un radio de lcm., la urna debería tener una capacidad mayor que 15000 litros. Si se tratara de un bombo esférico, debería tener un radio mayor de 1.5 metros.
26
UNIDAD DIDÁCTICA 1 Modelos probabilísticos discretos
N. Extraemos una bola elegida al azar y su número es el primero de la lista u ordenación aleatoria que queremos conseguir. Dejamos la bola fuera de la urna y volvemos a
escoger una bola al azar; así, sucesivamente, hasta agotar las bolas de la urna. El mecanismo es simple y aceptable, salvo que N sea extraordinariamente grande .
•
Las principales propiedades de la probabilidad condicionada se deducen directamente de la definición 1.1. Por ejemplo, se cumple: P(A 1 A) = 1, ya que
P(A A)= P(AnA) = P(A) 1 P(A) P(A)
=
Otra propiedad casi evidente es P (Be A) se requiere un poco de cálculo 1
1 - P (B A) , para justificarla no 1
P(Bc A) = P(BcnA) = P(A)- P(B nA) = 1 _ P(B A) P(A) P(A) 1
1
Una tercera propiedad es la aditividad; si B 1 y B2 son dos sucesos disjuntos, tenemos
P(B u B IA) =P((B¡ UB2)nA) 1 2 P(A) P(B1 nA)
P(B2nA)
= P(A) + P(A ) = P(B¡ A) +P(B2 I A) 1
Las tres propiedades anteriores implican que la función B ~---+ P(B 1 A) es una probabilidad sobre el álgebra de BOOLE de los subconjuntos de A . TRES PROPIEDADES DE
1.11..._ La probabilidad condicionada por un suceso A tiene las propiedades siguientes:
LA PROBABILIDAD CONDICIONADA
l. P(A 1 A) = 1 2. P(Bc 1 A) = 1- P(B 1 A) 3. Si B 1 y B2 son sucesos disjuntos, se cumple
1.2.2 Cálculo dinámico La fórmula 1.8 que define la probabilidad condicionada se puede expresar de la forma,
P(A n B) = P(A) P(B 1 A)
Modelos dinámicos
27
expresión que sugiere una interpretación dinámica: la aparición simultánea de los sucesos A y B nos parece fruto de dos decisiones del Azar; primero, debe ocurrir A y, después, supuesto que A ha ocurrido, debe ocurrir B. Esta interpretación proporciona un método que facilita el cálculo de la probabilidad de las intersecciones. CÁLCULO
__!__J_l_ La probabilidad de que ocurran A y B simultáneamente es igual a la
DINÁMICO DE
probabilidad de que ocurra A, por la probabilidad de que ocurra B supuesto que A ha ocurrido
P(A n B)
P (A n B) = P (A )P(B 1 A )
(1.9)
La fórmula 1.9 tiene una versión general que da más fuerza al método dinámico: si A¡, A2 , ... , An son sucesos, se cumple: P (A 1 n A2 n · · · n An)
=
P (A¡)P(A2 1A¡ )P (A31A¡nA2)··· P (An IA¡nA2 n ·· ·n An- 1)
(1.10)
Otra vez, resulta sugerente la interpretación dinámica: para que ocurran simultáneamente los sucesos A¡, A2, ... , An, primero, tiene que ocurrir A 1 y, supuesto que ha ocurrido, tiene que ocurrir A 2 y, supuesto que han ocurrido A 1 y A2 , tiene que ocurrir A 3; así, sucesivamente, hasta que ocurre A 11 , supuesto que han ocurrido todos los anteriores. EJEMPLO 1.10
Problema de los cumpleaños.
Aplicaremos el método dinámico a la resolución del problema de los cumpleaños definido en el ejemplo 1.7; consideremos el suceso A k = {al menos dos personas entre las k tienen el mismo cumpleaños}
Para calcular P (Ak) hallaremos la probabilidad de su complementario A¡; . Para saber si hay dos personas que tienen el mismo cumpleaños, las ordenaremos en fila, P1, P2, . .. , Pb preguntaremos a cada una la fecha de su cumpleaños. Para que ocurra A¡;, todas las fechas deben ser distintas. Primero, preguntaremos a P1, cualquiera que sea su respuesta no puede coincidir con ninguna de las fechas ya anotadas puesto que no hay ninguna. Luego, preguntaremos a P2 , que debe decir una fecha distinta de la que dijo P1. Después, preguntaremos a P3 , que debe decir una fecha distinta de las que dijeron P¡ y P2. Así, sucesivamente, hasta preguntar a Pb que debe decir una fecha distinta de las que dijeron las k- 1 anteriores. Este transcurrir en el tiempo del suceso Akc se traduce en la expresión:
P( e) = 365. 364 ... 365- (k - 1) Ak
365 365
365
Donde cada fracción es la probabilidad de que una persona diga una fecha distinta que las anteriores, condicionada porque las anteriores dijeron fechas distintas entre sí. De manera formal, el razonamiento se establece del siguiente modo: si B; es el suceso "la fecha del cumpleaños de P; es distinta de las fechas de P 1, . . . , P;_ 1", entonces se tiene
28
UNIDAD DIDÁCTICA 1 Modelos probabilísticos discretos
y se resulta
P (Ak) = P (B¡ )P (B2I B¡ ) · · ·P(Bk B¡ 1
n · · · n Bk- l)
365. 364 .. . 365 - (k - 1) 365 365 365
•
Los cálculos que exige el método dinámico se hacen automáticos con la ayuda de los diagramas que representan el desarrollo del experimento. Por ejemplo, si consideramos de nuevo el experimento del ejemplo 1.8, los datos de este experimento son la probabilidad de obtener cara al lanzar la moneda y las probabilidades de obtener bola roja de cada una de las urnas. Estas segundas probabilidades son condicionadas ya que se trata de la probabilidad de extraer una bola negra supuesto que se extrae de la urna I o de la II, que es tanto como decir condicionado por el resultado de lanzar la moneda. Designemos por B al suceso "sale cara" y por A al suceso "la bola extraída es roja". Los datos mínimos para poder establecer el modelo son:
De estos datos se deducen:
P(Bc)
=
l·
P(Ac 1 B)
=
l·
El grafo o árbol de la figura 1.12 resume todos los datos del experimento. Árboles de esta clase permiten representar cualquier experimento dinámico, Figura 1.12: Diagrama del experimen- cada vértice representa un estado de información acerca del desarrollo del experimento; el primer nivel, el más alto, tiene un único vértice que representa el to del ejemplo 1.8 instante de comienzo del experimento, en ese instante nuestra información se reduce a las "reglas del experimento". Del vértice más alto parten dos ramas que representan los dos resultados posibles del primer subexperimento (lanzar la moneda). Junto a cada rama hemos señalado la probabilidad de que ocurra ese resultado, que se debe interpretar como la probabilidad condicionada de llegar al vértice final, si estamos en el vértice origen de la rama. Los vértices marcados con @ y @ suponen un estado de información en el que conocemos el resultado de lanzar la moneda. De cada uno, parten dos ramas que terminan en un vértice marcado con ó , que representa los posibles resultados de extraer una bola de la urna, y llevan marcadas las respectivas probabilidades de ocurrir. Cada trayecto por el árbol representa la "historia" de un suceso, es decir una la secuencia de resultados parciales que conduce a su realización. Por ejemplo, el trayecto que lleva del vértice inicial al vértice pasando por @, implica que B nA ha ocurrido: sale cara y luego se extrae una bola roja. La probabilidad de esta intersección es el producto de las probabilidades de cada una de las transiciones que hemos tenido que realizar.
P(BnA) = P(B)P(A B) = 1
1 1
2·2
Modelos dinámicos
29
Podemos aprovechar la sencillez del cálculo de la probabilidad de una trayectoria para calcular la probabilidad de cualquier suceso como suma de las probabilidades de todas las trayectorias que conducen a su realización. Para ilustrar el razonamiento, consideremos, otra vez, el experimento aleatorio del ejemplo 1.8; observamos que hay dos trayectorias favorables a que el suceso A = la bola extraída es roja ocurra: que el resultado de lanzar la moneda sea cara y la bola extraída roja, o que sea cruz y la bola roja. Con símbolos, esta observación se expresa:
Puesto que los sucesos A n B y A en B son disjuntos, se cumple:
= P(A nB) + P(A n Be)
P(A)
y, de la fórmula 1.9 para la probabilidad de la intersección de sucesos, se tiene:
P(A)
= P(B)P(A B) + P (Be )P(A Be) 1
1 1 2 2
1
1 1 2 4
(1.11)
= -·-+-·-
Si observamos el árbol de la figura 1.12, comprenderemos que la fórmula anterior no es más que la suma de las probabilidades de todas las trayectorias que llevan desde el origen a . La fórmula 1.11 puede ser generalizada incluso a cualquier árbol, con independencia del número de sus ramificaciones, la justificación es completamente similar. Consideremos una serie de sucesos B1, B2 , ... , Bn que constituyen una partición de O; es decir, son disjuntos, B¡ n Bj = 0, si i -1=- j , y su unión es el total U7= 1B¡ =O, y sea A un suceso cuya probabilidad queremos calcular; se verifica:
y, dado que los sucesos A n B¡ son disjuntos por serlo los B¡, se tiene: n
P(A) = :¿P(AnB¡) i=l
Ahora, puesto que P(A nB¡)
= P(B¡)P(A B¡) , se tiene 1
/l
P(A)
= LP(B¡)P(A B¡) 1
(1.12)
i=l
Expresión que se conoce con el nombre de fórmula de la probabilidad total. La fórmula de la probabilidad total es un ejemplo de la aplicación del método divide y vencerás al cálculo probabilidades ya que consiste en fraccionar el espacio de casos O en una serie de sucesos B¡, 1 :::; i:::; n, y examinar dentro de cada B¡ los casos que son favorables al suceso A.
30
UNIDAD DIDÁCTICA 1 Modelos probabilísticos discretos
EJEMPLO 1.11
Sistema de seguridad .
Un sistema está provisto de una alarma. Supongamos que funciona con las condiciones siguientes: cada día, sin importar lo que haya ocurrido los días anteriores, la probabilidad de que haya peligro es 0.002; si hay peligro, la alarma funciona con una probabilidad 0.999, y si no hay peligro, la alarma funciona con probabilidad 0.01; ¿cuál es la probabilidad de que suene la alarma?
•
7
'1A_¡_=_H_a_y_p__: el:_ig-ro---,1
0.9¡~. ,----.
~
'1A-2- =---"--N-o_h_a_ y_p_el-ig-ro--,l
,001
o.¡l
,---------, Be= No suena la alarma
,----,
~9 ,---------~
Be= No suena la alarma
Figura 1.13: Seguridad de un sistema
En la figura 1.13 aparece el árbol de este experimento. Evidentemente, A¡ y Az = Aí' son una partición de O. El cálculo de la probabilidad de B ="Suena la alarma" es una aplicación inmediata de la fórmula de la probabilidad total: P("Suena la alarma")= P(A¡)P(B 1 A¡ ) + P(Az)P(B 1 Az) = 0.002. 0.999 + 0.998. 0.01
De lo que resulta P("Suena la alarma") ~ 0.012. La interpretación frecuentista del • cálculo anterior es: la alarma suena el 1.2 % de los días.
1.2.3
Fórmula de Bayes
Los diagramas de árbol están orientados, parten del nodo raíz y se desarrollan hacia las hojas, cada nodo da lugar a cierto número de nodos "hijos"; en muchos modelos, esa orientación representa el transcurrir del tiempo, de manera que el subexperimento asociado a un nodo "padre" ocurre antes en el tiempo que los subexperimentos asociados a sus nodos "hijos". En estas circunstancias, los datos del problema están ligados al transcurrir del tiempo, de manera que las probabilidades que aparecen son probabilidades de un suceso, condicionadas por otro suceso temporalmente anterior. Así, en el ejemplo 1.8, primero se lanza la moneda, y la probabilidad de obtener una bola roja condicionada por el resultado de lanzar la moneda se nos presentan como probabilidades de un suceso condicionado por la ocurrencia de otro anterior en el tiempo. Ahora bien, puede ocurrir que conozcamos el resultado de un subexperimento y no sepamos cuál ha sido el resultado de otro subexperimento anterior en el tiempo; así, en el ejemplo 1.11, si ha sonado la alarma nos podemos preguntar por la probabilidad de que haya peligro. De antemano, cuando sólo
Modelos dinámicos
31
conocemos las condiciones del sistema, la probabilidad de que haya peligro es: P (Hay peligro ) =
5 ~0 = 0.002
pero si sabemos que ha ocurrido el suceso B, nuestro juicio debe recoger la nueva evidencia, la probabilidad de que haya peligro si ha sonado la alarma es una probabilidad condicionada: P(A 1 B ), pero esta probabilidad no es uno de los datos del problema, ya que se condiciona un suceso anterior por otro posterior, sino que hay que calcularla a partir de los datos. La fórmula de BAYES nos indica cómo calcular P (A B) a partir de los datos del problema. Para distinguir las probabilidades P(A) y P (A 1 B), emplearemos unos términos peculiares. A la probabilidad P(A ) la denominaremos "probabilidad previa", mientras que P(A 1 B) se dice "probabilidad posterior". El planteamiento es el mismo gue en la fórmula de la probabilidad total. Consideramos una serie de sucesos, A¡, A2, ... , An que forman una partición de O, y, para 1 :S i :S n, conocemos las probabilidades P (A¡) y P(B 1 A¡), y queremos calcular P (Aj 1 B ). De la definición de probabilidad condicionada, se sigue: )_P(AjnB) (1.13) p A; B P(B) 1
1
Figura 1.14: Rv. Thomas Bayes Thomas Bayes, nació en Londres en 1702, murió en Tumbridge Wells, Kent (Inglaterra), en 1761. Sacerdote presbiteriano, cultivó las matemáticas. A su muerte, sus ami= encontraron su trabajo titulado Essay to11!fds solving a problem in the doctrine of :::bances, que fue publicado por la Royal So·ety of London en 1764. Las ideas de BAu:s fueron aceptadas por LAPLACE pero cri- das por BOOLE. Desde entonces, la apli.:ación de sus ideas ha sido motivo de con- versia permanente.
( ·l
y, por la fórmula de la probabilidad total, P(B ) es igual a: n
LP(A¡) P(B
P(B ) =
1
A¡)
i= l
De la fórmula de la probabilidad de la intersección, resulta:
Si reemplazamos las expresión anteriores en 1.13, resulta: P ( Aj
P(Aj) P(B 1 Aj)
_
1
B) -
(1.14)
-n,.----=---'--.:..__
L P(A¡)P(B
1
A¡)
i=l
Expresión que se conoce como fórmula de BAYES. Como podemos observar, todas las probabilidades que aparecen en el término de la derecha de 1.14 son datos y, basta sustituirlos, para tener el valor de P(Aj 1 B). EJEMP LO 1.12
Sist em a de segurid ad .
Analicemos de nuevo el sistema de seguridad del ejemplo 1.11, las dos probabilidades fundamentales para evaluar el funcionamiento del sistema son: ¿cuál es la probabilidad de que un día haya peligro y no suene la alarma? y, si un día suena la alarma, ¿cuál es la probabilidad de que haya peligro? Con símbolos, la probabilidad de que un día haya peligro y no suene la alarma se pone: P (A 1 n Bc). Es la probabilidad de una intersección y se calcula mediante la fórmula l. 9:
P(A 1 n Bc)
1
= P (A¡) P(Bc 1 A¡ )= 0.002 · 0.001 = SOOOOO
32
UNIDAD DIDÁCTICA 1 Modelos probabilísticos discretos
El sistema parece seguro, con la interpretación frecuentista diremos que tan sólo estaremos sin protección una vez cada medio millón de días. Por otra parte, la probabilidad de que haya peligro, supuesto que ha sonado la alarma es P (A 1 B) , se trata de una probabilidad posterior y, para calcularla, empleamos la fórmula de BAYES 1
P(A 1 )P(B A¡) B) - ------,----'----- -.,----- P(A ¡)P(B A¡) + P(A2)P(B A2) 1
P(A
1
1
1
1
0.002. 0.999 0.002. 0.999 + 0.998. 0.01 lo que implica P (A ¡ 1 B) ;:::;; 0.17. La interpretación de este resultado es: casi todas las alarmas son falsas alarmas, sólo el 17 % de las alarmas se deben a un peligro real, el • resto proceden de errores del sistema.
Aplicación: análisis de imágenes
La fórmula de BAYES es clave en las modernas técnicas de análisis de imágenes y clasificación de patrones, el ejemplo que sigue, aunque es muy simple, sirve para ilustrar muchas de estas aplicaciones que, de manera general, consisten en decidir a que patrón, entre una serie de patrones dada, pertenece una imagen observada. Podemos suponer que la imagen original ha sufrido algún tipo de transformación debida a errores aleatorios. Estos problemas incluyen el problema de la descodificación de mensajes binarios formados por palabras de cierto código, cuyo canal de transmisión tiene ruido, que es la denominación que dan los ingenieros eléctricos y de comunicaciones a los errores aleatorios (impredecibles e inevitables) que pueden ocurrir en la transmisión.
Figura 1.15: Dígitos de una calculadora
En muchos relojes digitales y calculadoras de bolsillo cada dígito se forma mediante una combinación de siete luces horizontales o verticales, como se muestra en la figura 1.16); a cada una de las luces las denominaremos L¡, L2, ... , L7. Vamos a suponer que cada cada dígito se pulsa con igual probabilidad
j Ls
L7
Figura 1.16: Luces que forman los dígitos de la calculadora
y que cada luz, con independencia de las demás, se avería con igual probabilidad p, O < p < l. La avería consiste en que la luz está apagada, cuando
Modelos dinámicos
33
debería estar encendida, y se enciende, cuando debería estar apagada. Desde luego, este modelo de averías es una simplificación para mostrar el análisis probabilístico del problema y el modelo no es el único posible; cabe interpretar que las luces "se funden" y permanecen siempre apagadas, también cabe refinar la suposición de que todas las luces tienen igual probabilidad de sufrir una avería ya que unas luces se usan con mayor frecuencia que otras; por ejemplo Ls se emplea en 8 dígitos, mientras que L3 sólo se emplea en 6 dígitos y sería razonable suponer que la probabilidad de avería no es constante sino función de la frecuencia con que se emplea. Puesto que cada luz puede estar averiada o no, en la pantalla pueden aparecer 27 = 128 imágenes distintas. La probabilidad de ver en la pantalla cualquiera de esas imágenes se calcula fácilmente gracias a la probabilidad total; por ejemplo, calculemos la probabilidad de ver en la pantalla el número l ; la tabla 1.1 muestra las probabilidades de que l aparezca en pantalla, concÜcionadas porque se pulsó el dígito i, O ::::; i ::::; 9. Para mostrar cómo se calculan las
l) =
P(ver 11 pulsar
P (ver P(ver P (ver
P(ver
l
1
pulsar
(1- p) 7
3) = p 3 ( 1 -
P (ver
p) 4
JI pulsar5) = p 5 (1- p) 2 l
pulsar ] ) = p ( 1 - p) 6 lpulsar8)=p4 (1-p) 3 1
P (ver
P(ver :
l l
1
1
2) = p 5 (1 pulsar Y) = p 1 pulsar
2
(
p) 2 p) 5
l pulsaro)=p6 (1-p)
P(ver l l pulsar8)=p5 (1-p) 2 P(ver llpulsarQ)=p4 (1-p) 3
Tabla 1.1: Probabilidades anteriores
2,
probabilidades de la tabla pongamos un ejemplo concreto: si pulsamos para que se vea • l en la pantalla, tienen que haberse averiado las luces L1, L2, L3, L6 y L7 , lo que tiene probabilidad p 5 de ocurrir, y deben funcionar correctamente las luces L4 y L 5 , lo que tiene probabilidad ( 1 - p) 2 de ocurrir, luego
De igual modo se calculan las restantes probabilidades condicionadas. Se sigue que la probabilidad de que la pantalla muestre ; l es igual a
P( ver J) =
9
L ?(pulsar i)P( ver J
1
pulsar i)
i=O
tras reemplazar las correspondientes probabilidades, obtenemos P(ver
1) =
1--:op
[P6 + 3ps(l- p) + 2p4(1- p)2 + p3(1- p)3+ + p2(1- p)4 + p(1- p)5 + (1- p)6]
34
UNIDAD DIDÁCTICA 1 Modelos probabilísticos discretos
Sin duda, para aplicar el modelo son más interesantes las probabilidades posteriores: si en la pantalla aparece una imagen cualquiera de las 27 posibles, ¿cuál es la probabilidad de que se haya pulsado el dígito i? Esta clase de cuestiones con características del método estadístico denominado reconocimiento de patrones, que parte de una serie definida de antemano de patrones posibles (en este caso, los diez dígitos) y unas leyes probabilísticas que gobiernan la obtención de una imagen a partir de un patrón (en nuestro caso el modelo probabilístico de las averías); el problema del reconocimiento de patrones es atribuir la imagen observada a uno de los patrones. Un criterio aceptable para esa atribución es asignar la imagen al patrón que haga la probabilidad posterior máxima. Para mostrar con un ejemplo esos cálculos, supongamos que la imagen observada es el problema consiste en evaluar
J,
P(pulsar i ver 1
J)
para cada i, i =O, 1, .. . , 9 y hallar el valor de i que hace máxima la probabilidad previa. En el ejemplo, por la fórmula de BAYES se tiene 1 .···· 1 -P (ver • 1 10 •·..··.·.1 1 pulsar i) P(pulsar i 1 ver 1 ) = ··· ···· P(ver .J)
Como el denominador de esta fracción no depende del dígito i, la probabilidad: P(pulsar i ver 1
J)
será máxima para el mismo valor de i que haga máxima la probabilidad previa. Así, basta hallar la mayor de las probabilidades de la tabla 1.1. Puesto que dependen de p, el valor máximo también será función de p. No es difícil razonar que, si O < p < 112, el valor máximo es ( 1 - p) 7 , mientras que, si 1/2 < p < 1, el valor máximo es p 6 (1- p). Cuando p = 1/2, todos los valores son iguales. Por ello, nuestro criterio de asignación es: si O < p < 1/2, la imagen ~ : la atribuiremos a : mientras que si 112 < p < 1, la atribuiremos a Por úÜimo, si p = 112, 1·~ imagen se puede atribuir a cualquier patrón.
6.
1.2.4
l,
Sucesos ind ependientes
Una de las intuiciones subyacentes en el modelo de los experimentos aleatorios que hemos construido es la posibilidad de repetir un experimento numerosas veces sin que el resultado de un ensayo tenga influencia en los restantes. En este apartado precisaremos esa intuición y será la probabilidad condicionada la clave de la formalización matemática. ndependencia de dos sucesos
1
Un suceso A se denomina favorable a B si su aparición hace más verosímil la de B; de manera precisa, A es favorable a B si se cumple P(B 1 A) > P(B).
Modelos dinámicos
35
Diremos A es desfavorable a B si se cumple P(B 1 A) < P(B). Por ejemplo, si extraemos una carta al azar de una baraja francesa de 52 naipes, el suceso A = "no es un as" favorece a B = "es una figura", ya que se tiene:
3 3 >U= P(B) 12 Que A sea favorable a B implica que B es más frecuente cuando A ocurre que cuando no ocurre, lo que no significa que sea causa de B. Si P(B 1 A) = P(B) , entonces A ni es favorable, ni es desfavorable a B; en este caso diremos que Bes independiente de A. Si P(B A) -1- P(B), diremos que Bes dependiente de A. Por ejemplo, el suceso B = "es una figura" es independiente del suceso e = "es un diamante" ya que se tiene
P(B 1 A)=
1
3 = P(B) 13 Interpretamos este hecho diciendo que conocer el palo de la carta que resulta elegida no altera la probabilidad de que sea una figura, o bien que ser una figura es independiente del palo obtenido. Cuando P(A) -1- O, la condición P(B A) = P(B) equivale a
P(B e) = 1
1
P(A n B) = P(A)P(B)
(1.15)
Esta formulación de la independencia es preferible por dos razones; la primera, es que no requiere la condición P(A) > O para tener sentido, puesto que ya no aparece la probabilidad condicionada; la segunda razón es que pone en evidencia que el concepto de independencia es simétrico: si Bes independiente de A, también A es independiente de B. Por esas razones la condición 1.15 se toma como definición de independencia de dos sucesos. IND EP ENDENCIA
1.14 Los sucesos A y B son independientes sí cumplen:
DE DOS SUCESOS
P(A nB) = P(A)P(B) No deben confundirse sucesos disjuntos con sucesos independientes, en cierto modo, ser disjuntos y ser independientes son hechos incompatibles ya que si A y B son disjuntos, saber que A ha ocurrido nos aporta la información de que B no ha ocurrido. El razonamiento formal que lo comprueba es sencillo; si A nB = 0, para que se cumpla P(A n B) = P(A)P(B), debe ser P(A) =O ó P(B) = O. Con palabras, dos sucesos disjuntos nunca son independientes salvo que alguno de ellos tenga probabilidad cero. EJEMP LO L13 Lanzamos tres veces una moneda equilibrada, consideremos los sucesos definidos por
A = "No aparece el mismo resultado en todos los lanzamientos" B = "A lo sumo aparece una cara"
C = "A lo sumo aparecen dos caras"
36
UNIDAD DIDÁCTICA l
Modelos probabilísticos discretos
probaremos que A y B son independientes, mientras que A y calcularemos las probabilidades.
e no lo son, para ell
2
P(A) = 1 - P( {@)@)@), @@@}) = 1- S= 4
3
4
1
P(B) = - =8 2
1
P(e ) = 1-P({@)@)@)}) = 1 - 8
7
=-
8
Observemos que
P(A n B) = 3/8 = P(A)P(B ) mientras que
P(Ane) =3 / 4 ¡f P(A)P(e) Se sigue que A y B son independientes pero A y e no.
Ind epend encia de varios sucesos La noción de independencia de dos sucesos se puede extender a cualquier número finito de sucesos; esa extensión no es tan evidente como pudiera parecer. Para simplificar, consideremos tres sucesos A¡ , A2 y A3; la independencia deA 1 y A 2 exige que se cumpla (1.16) además, debemos imponer condiciones semejantes, para que las restantes parejas también sean independientes: (1.17) Pero estas tres condiciones no bastan para lograr que A¡, 1 ::; i ::; 3, sean independientes; la idea intuitiva de independencia de varios sucesos sugiere que saber que han ocurrido algunos de ellos, no modifica la probabilidad de que hayan ocurrido los restantes, y las tres condiciones anteriores garantizan que se cumpla esa exigencia intuitiva, como muestra el ejemplo siguiente. EJEM PLO 1.14 Este ejemplo nos muestra que la independencia dos a dos de tres sucesos no implica que sean independientes. Supongamos que escogemos al azar una de las siguientes secuencias de tres letras [) =
{aaa,bbb,ccc,abc,acb, bac,bca, cab,cba}
y consideremos los sucesos A¡ = "en el lugar i hay una a", 1 S: i S: 3. Un simple recuento de los casos favorables nos permite poner
y
Modelos dinámicos
37
Sin embargo, hay un caso favorable aA 1 n A2 n A3, lo que implica:
Para interpretar mejor el fenómeno, calcularemos P(A¡ 1 A2) y P(A¡ tiene P(A 1 jA) = P(A¡nA2) = l/9 =P(A) 2 1 P(A2) l/ 3
1
A2 n A3); se
Esta igualdad no sorprende, indica que A 1 y A 2 son independientes: conocer que A2 ha ocurrido, no altera la probabilidad de que A 1 ocurra. Del igual manera, encontramos que A 1 y A 3 son independientes, y que A 2 y A3 son independientes. Esta propiedad se denomina independencia dos a dos y se caracteriza por que se cumplen las tres condiciones 1.16 y 1.17. Sin embargo, se tiene
expresión que se interpreta: si sabemos que A2 y A3 han ocurrido, es segw·o que A¡ ha ocurrido. Esta interpretación no satisface nuestro concepto intuitivo de independencia. El ejemplo nos enseña que la condición 1.17 no garantiza que se cumpla todas las propiedades que intuitivamente exigimos a tres sucesos independientes. •
Del ejemplo 1.14 se sigue que es necesario imponer condiciones condiciones adicionales para lograr una definición de independencia de varios sucesos que se ajuste a la intuición. Esas condiciones nuevas son que la probabilidad de cualquier intersección sea igual al producto de las probabilidades. INDEPENDENCIA DE VARIOS SUCESOS
-- - ~- ~ -¡
Los sucesos A;, 1 :::; i:::; n, son independientes si cualesquiera que sean k, 2 :::; k :::; n, y los k sucesos de la familia, A; 1 , ••• , A;k' se cumple:
~l.~
P(A-1¡ nA-12 n · ··nA-Zk )
= P(A- )P(A- ) · · · P(A- ) 1¡
12
fk
En particular, sin= 3, podemos formar tres parejas de sucesos (k= 2) y una tema (k= 3), así hay cuatro condiciones que garantizan la independencia de tres sucesos:
l.
P(A¡ nA2) = P(A¡)P(A2)
2.
= P(A¡)P(A3) P(A2nA3) = P(A2)P(A3) P(A¡ nA2 nA3) = P(AI)P(A2)P(A3)
3. 4.
P(A¡ nA 3)
Cálculo con sucesos independientes En este apartado examinamos algunas las propiedades de los sucesos independientes que facilitan el cálculo de probilidades, las probaremos con dos sucesos puesto que las demostraciones para más de dos sucesos son similares,
38
UNIDAD DIDÁCTICA 1 Modelos probabilísticos discretos
Puesto que A2 se descompone como unión de los disjuntos A¡ n A2 y A1 nA2, resulta
aunque más largas. En primer lugar, si A¡, 1 :S i :S n son sucesos independientes, también lo son sus complementarios y cualquier colección que obtengamos sustituyendo algunos de los A¡ por sus complementarios. En el caso n = 2, la afirmación anterior se reduce a asegurar que tanto A'í y A2, como A¡ y Aí y A1 y A2 son independientes, es interesante observar que basta probar que Al y A2 son independientes para tener probadas todas las demás. En segundo lugar, si tres sucesos son independientes, parece razonable esperar que el suceso que resulta de operar dos de ellos con las operaciones de conjuntos sea independiente del tercero; por ejemplo, si A¡, 1 :S i :S 3, son independientes, entonces A¡ UA2 y A3 son independientes. Probarlo es un sencillo ejercicio de cálculo.
y por ser A 1 y A2 independientes, se tiene
P( [A¡ UA2] nA3) es decir
o bien
lo que implica
es decir A1 y A2 son independientes.
= P( [A¡ nA3] U [A2nA3]) = P(A ¡ nA3) + P(A2 nA3)- P(A¡ nA2 nA3) = P(A¡ nA3) + P(A2 nA3)- P(A ¡) P(A2)P(A3) = [P(A¡) + P(A 2)- P(A¡ nA2)]P(A 3) = P(A1 UA2)P(A3)
Luego se cumple P( (A¡ UA2) nA3) = P(A¡ UA2) P(A3), que es la la condición de independencia de A¡ UA2 y A3. En tercer lugar, la independencia de sucesos es una condición particularmente favorable para emplear el método de cálculo por el complementario. Si A¡, 1 :S i :S n, son sucesos independientes, la manera más sencilla de calcular la probabilidad de su unión es aprovechar que el complementario de la unión es la intersección de los complementarios; así se tiene
Por ser independiente los sucesos Af, se sigue P( n~ 1 Af)
= P(Ai)
00
· P(A~)
=
(l-P(A 1 ))
00 •
(1-P(An))
lo que conduce a la importante fórmula n
P( U7=1A¡) = 1-
I1 (1- P(A¡ ))
(1.18)
i=!
Circuitos de conmutadores Los circuitos de conmutadores son un buen ejemplo del cálculo con sucesos independientes. La figura 1.17 muestra un circuito formado por tres conmutadores en serie, cada conmutador tiene dos estados posibles: on y off. El conmutador i-ésimo está en on con probabilidad p ¡ y los conmutadores están en un estado u otro independientemente de los demás.
j
f------oB
A o------!
Figura 1.17: Circuito con tres conmutadores en serie
Sea A¡ = "el conmutador i está en on", 1 :S i :S 3. El circuito en serie está en on si y solamente si todos los conmutadores están en on. Por esta razón se tiene "el circuito en serie está en on" = A 1 nA 2 n A3 Puesto que los sucesos A¡ son independientes, se cumple P(el circuito en serie está en on)
= P(Al)P(A 2 )P(A3)
La figura 1.18 muestra un circuito con tres conmutadores en paralelo. Aceptaremos que los conmutadores se comportan igual que en el circuito anterior. El circuito en paralelo está en on si y solamente si alguno de los conmutadores está en on, lo que implica "el circuito en paralelo está en on" = A1 UA2 UA3 JgUra 1.18: Circuito con tres conmuores en paralelo
De la fórmula 1.18, se sigue
P( el circuito en paralelo está en on) = 1- (1- p¡) (1- P2) (1- P3) Pongamos un ejemplo numérico; si p ¡ = 0.6, 1 :S i :S 3, tenemos
P( el circuito en serie está en on) = 0.6 3 = 0.216 y P( el circuito en paralelo está en on)
= 1-
0.4 3 = 0.936.
Aplicación : Fiabilidad industrial La Teoría de la fiabilidad trata de asegurar que la duración de la vida útil de un sistema compuesto de varias componentes supera ciertos márgenes con una confianza dada, tiene importantes aplicaciones en los sistemas de transporte, de energía, radio, televisión etc. Los datos de partida son la disposición de las componentes en el sistema y las leyes de probabilidad que rigen la vida de las componentes. Como hipótesis general, se suele aceptar que las componentes funcionan o no, con independencia del estado de las demás. Por ejemplo, el circuito en paralelo de la figura 1.18 se puede interpretar como un sistema con tres componentes en paralelo, de modo que el sistema funciona si alguna de las componentes lo hace, y que p¡ es la probabilidad de que la componente i funcione. Supongamos que p¡ = 0.7, P2 = 0.6 y P3 = 0.8, la probabilidad de que el sistema funcione se calcula gracias a la fórmula 1.18, y se tiene: P(el sistema funciona)= 1- (1-0.7)(1- 0.6)(1- 0.8) = 0.976
40
UNIDAD DIDÁCTICA l Modelos probabilísticos discretos
Observamos que la probabilidad de que este sistema funcione es mayor que la mejor de sus componentes, lo que sugiere una manera de diseñar sistemas de fiabilidad tan próxima a 1 como queramos, aunque sus componentes tengan poca fiabilidad. Aplicación : redes de computadores
e 0.8
0.9
Consideremos una red conecta tres nodos a, b y e, como muestra la figura 1.19. Cada conexión permite enviar mensajes en ambos sentidos. Entre cada par de nodos conectados hay una probabilidad de que la conexión entre ellos esté en on. La figura muestra esas probabilidades para los nodos adyacentes. Por ejemplo, la probabilidad de que la conexión entre e y b esté en on es 0.9. ¿Cuál es la probabilidad de que los nodos a y b estén conectados? Podemos conectar entre a y b siempre que alguna de las conexiones a ----+ b ó a ----+ e ----+ b están en on. Con símbolos, lo expresamos: la conexión entre a y b está en on
Figura 1.19: Red con tres nodos
= {a ----+ b} U {a ----+ e ----+ b}
Como se trata de una unión de sucesos independientes, aplicaremos la fórmula 1.18. De los datos se sigue P(a----+ b) = 0.7. Para calcular P(a----+ e----+ b) , tenemos en cuenta que se cumple: {a----+e----+b} = {a----+e}n{e----+b}
luego P(a----+ e----+ b) = 0.8 · 0.9
= 0.72. Así, se tiene:
P(la conexión entre a y b está en on)
= 1-
(1- 0.7) (1- 0.72)
lo que implica P(la conexión entre a y b está en on) = 0.916. Aplicación a la estimación del número de páginas en la Web
Conocer el número total de páginas que hay en la Web y su evolución tiene gran interés y es el primer paso paso para modelar el crecimiento de Internet. Pero Internet crece continuamente y no es posible saber con exactitud el número de páginas accesibles en cada instante. Se plantea así el problema de estimar ese número. Los servicios que están más cerca de dominar toda la parte pública de la red son los buscadores gracias a los que podemos encontrar millones de páginas sin más que escribir unas pocas palabras clave. Sin embargo, ningún buscador es capaz de cubre toda la Web: sus índices sólo contienen una fracción del total de páginas, una excelente discusión de este hecho aparece en BRAKE 2 además, los índices que crean los buscadores no contienen exactamente las mismas páginas, sino que se hay una coincidencia parcial de modo que algunas páginas 2 D. Brake:
Lost in Cyberspace, New Scientíst 28, 1997
Modelos dinámicos
41
están presentes en varios índices, mientras que otras sólo lo están en uno. Este hecho fue aprovechado por LAWRENCE y GILES 3 para estimar el número de páginas totales y el tamaño relativo de los buscadores, para ello emplearon unas sencillas ideas sobre probabilidad que se remontan a PÓLYA 4 . LAWRENCE y GILES realizaron su estudio con los seis buscadores más conocidos en su momento, su método se basa en las coincidencias que tiene las listas de un par de buscadores, por lo que, para explicarlo, basta considerar dos buscadores &t? 1 y &t?2. Pongamos que W es el número total de páginas en la Web y que W¡ es el número total de páginas en al lista del buscador &t?i y que W1,2 es el número de páginas presentes en ambas listas. Designemos por Bi el suceso "una página pertenece al buscador &t?/'. Entonces, se tiene: P(B2 B¡) = 1
W1,2 W¡
(1.19)
Pero, si aceptamos que los buscadores elaboran sus listan de manera independiente, se tiene (1.20) De 1.19 y 1.20, se sigue: W
=
W1W2 W1,2
En la realidad el valor W1 ,2 es desconocido, para estimarlo, LAWRENCE y GILES realizaron una serie controlada de 575 consultas a ambos buscadores. Si N¡ es el número de páginas que reporta &t? 1 y N1,2 es el número de coincidencias entre ambos reportes, el cociente c1,2 = N1,2 1N¡ permite estimar W1,2 /W¡, por lo una estimación del número total de páginas es W2 1c1 ,2· Según su primera estimación, en noviembre de 1997, la Web contenía 320 millones de páginas; entre los seis buscadores que analizaron, sólo cubrían un 60% del número total de páginas; el buscador con mayor cobertura tenía sólo cubría un tercio de la Web. En febrero de 1999 repitieron la estimación, con once buscadores, modificando el método empleado. Obtuvieron que la Web contenía 800 millones de páginas. En septiembre de 2003, la compañía que informaba de un mayor número de páginas indexadas era Google, con 3300 millones de páginas.
l. 2. 5
Experimentos independientes
Si la dependencia de dos sucesos no implica que exista una relación causal entre ellos, la independencia de dos sucesos tampoco supone que entre ellos no haya ninguna conexión. Si repasamos el ejemplo 13, observaremos que los sucesos By C están definidos de manera muy semejantes, sin embargo, uno es independiente de A y el otro no; todavía más, si lanzamos cuatro monedas, en 3
S. Lawrence & C. Lee Giles: Accessibility oflnforrnation on the Web, Nature pp. 107-109,
400, 1999 4 G.
Pólya: Probabilities in Proofreading, American Mathematical Monthly pp. 42, 83, 1976
42
UNIDAD DIDÁCTICA 1 Modelos probabilísticos discretos
lugar de tres, y definimos los sucesos del mismo modo, A y B no serían independientes. Esta observación parece indicar que la independencia de sucesos no tiene explicación, sino que es una casualidad numérica. En este apartado examinaremos un aspecto bajo el cual la noción de independencia cobra toda su fuerza, y es cuando se deriva de las condiciones del experimento, en particular, cuando realizamos varios subexperimentos que no están físicamente conectados o relacionados de ningún modo; por ejemplo, cuando lanzamos una moneda y un dado aceptamos que sea el resultado de la moneda, sea cual sea, no tiene influencia en el lanzamiento del dado, dicho de otra manera, que cualquier suceso definido en términos del resultado de la moneda debe (por definición) ser independiente de cualquier otro suceso definido en términos del resultado del dado. Lo contrario sería creer que existe alguna misteriosa conexión entre moneda y dado. La independencia de los experimentos proporciona un método general para construir nuevos espacios probabilísticos como producto de los experimentos independientes. Consideremos el experimento compuesto de lanzar una moneda y un dado; los experimentos parciales tienen espacios muestrales 0 1 y 0 2 , dados por
O¡={@), @ } y
Los resultados posibles del experimento compuesto son todos los pares formados por un resultado de la moneda y otro del dado, por ejemplo (@),!ZJ). El espacio muestral del experimento compuesto es igual al producto cartesiano 0 1 x 0 2 . Cualquier suceso que dependa sólo del resultado de la moneda, como A = sale cara en la moneda, es independiente de cualquier suceso que depende sólo del resultado del dado, como B =sale 2 en el dado. La probabilidad de la intersección: A n B = sale cara en la moneda y 2 en el dado
se calcula a partir de P(A) y P(B):
P(A nB) = P(A)P(B)
(1.21)
Para comprender el alcance de la igualdad anterior, debemos observar que las tres probabilidades que aparecen en ella, aunque designadas por la misma letra P, son probabilidades distintas pues están definidas en modelos diferentes. La primera, P (A n B) es la probabilidad de un suceso del experimento compuesto ya que AnB ={( @) ,~)} e O¡ x 02 y está definida sobre el conjunto de partes de 0 1 x 02. La segunda, P(A), es la probabilidad del experimento parcial que consiste en lanzar la moneda y
Modelos dinámicos
43
está definida sobre el conjunto de partes de 0 1 . Por último, P(B) es la probabilidad del experimento que consiste en lanzar el dado y está definida sobre el conjunto de partes de 0 2 . La gran importancia de la fórmula 1.21 es que permite definir y calcular la probabilidad de un suceso del espacio compuesto, más complicado, a partir de las probabilidades de espacios parciales más simples. EJE M PLO 1.15 A lanza tres veces una moneda equilibrada, luego B lanza otras tres veces. ¿Cuál es la probabilidad de que A obtenga dos caras y B una? ¿Cuál es la probabilidad de que ambos obtengan el mismo número de caras? ¿Cuál es la probabilidad de que A obtenga más caras que B? Podemos interpretar el enunciado como dos subexperimentos físicamente independientes, el primero consiste en los tres lanzamientos que hace A y el segundo en los tres lanzamientos de B. Designaremos por XA y Xs al número de caras que obtiene cada jugador, esta notación que es gráfica y sencilla, se hará más formal cuando se establezcamos el concepto de variables aleatoria.
A obtiene dos caras y B una= {XA = 2, Xs = 1} A y B obtienen el mismo número de caras = {XA = XB} A obtiene más caras que B = {XA
> XB}
Por ser independientes ambos subexperimentos, de acuerdo con la fórmula 1.21, se tiene
P(XA =2,XB = 1) =P(XA = 2)P(Xs = 1) =
3 3
8·8
Lo que implica P(XA = 2,X8 = 1) = 9/64. Por otra parte, el suceso {XA = XB} se descompone en cuatro sucesos simples de la forma {XA = i, Xs = i}, O :S i :S 3, y la probabilidad de cada uno de los sucesos simples se calcula como la anterior, por la fórmula 1.21. Así se tiene: 3
P(XA =XB) = LP(XA = i,Xs = i) i= O
(1.22) Por último, la probabilidad del suceso {XA > XB} podemos calcularla mediante recuentos semejantes a los anteriores:
P(XA > XB) = LL P(XA = i,XB = j) i.j
0Sj
Un razonamiento alternativo, más sintético y basado en la intercambiabilidad del modelo es el siguiente: si intercambiamos los nombres de modo que A fuera B y B fuera A, el modelo sigue siendo el mismo; en consecuencia, se debe cumplir
P(XA > XB) = P(XA < XB) pero es seguro una de las tres alternativas XA > XB, XA < XB ó XA = Xs , luego tenemos
2P(XA
> XB) +P(XA = XB) =
1,
44
UNIDAD DIDÁCTICA 1 Modelos probabilísticos discretos
igualdad que, junto con 1.22, implica P(XA > Xs) = 22/64.
El espacio producto se define con cualquier número finito de factores; se puede modelar cualquier experimento compuesto de un número finito experimentos parciales independientes. En particular, si se trata de repeticion independientes del mismo experimento, modelamos la intuición de "repetir experimento bajo idénticas condiciones". EJ EMP LO 1.16
Lanzamient os repetidos de una moneda.
El modelo del experimento que consiste en lanzar n veces una moneda, en idénti condiciones, es el producto de n espacios, uno por cada lanzamiento.
donde O ; = {@,@ }. Cada resultado posible es una secuencia de n caracteres ( ú)¡' Wz,
... ' mn)
donde o bien m; = @, o bien m = @. Supongamos que la probabilidad de obtener cara en cada lanzamiento es p . La fórmula 1.21 permite calcular la probabilidad de los sucesos elementales del espacio producto y, en consecuencia, de cualquier suceso. Por ejemplo, la probabilidad de obtener la secuencia:
@ ,@) , ... ,@)
~
n caras
es igual a:
P(@),@), ... ,@)) = P( @) ) ·· ·P( @)) = pn ~
n caras
n veces
y la probabilidad de obtener la secuencia
@) .. .@)@) ... @
(1.23)
~~
k caras
n - k cruces
es igual a pk ( 1 - p )n-k. Se comprende que cualquier otra secuencia compuesta de k caras y n - k cruces, por ejemplo, la secuencia:
@) ... @@ ... @
(1.24)
~~
n - k cruces
k caras
tiene también probabilidad pk ( 1 - p )n-k, ya que el producto que la calcula contiene los mismos factores , aunque en orden distinto. En general, la probabilidad de una secuencia concreta depende sólo del número de caras y de cruces que contiene y es igual a
P( una secuencia determinada)
= pnúmero de caras ( 1 _ Ptúmero de cruces
La probabilidad de los restantes sucesos se calcula como suma de las probabilidades de las secuencias q_ue los com\)onen·, \)OT eiem\)lo, el suceso·.
Ak = "obtener k caras al lanzar n veces la moneda"
Modelos dinámicos
45
G)
está compuesto de secuencias; en particular, las secuencias 1.23 y 1.24 pertenecen a este suceso. Además, todas las secuencias que pertenecen a Ak tienen la misma probabilidad pk( l - p )n- k, ya que todas contienen k caras y n-k cruces. Se sigue que la probabilidad de Ak es igual al número de secuencias por la probabilidad de cada secuencia favorable: (1.25)
está fórmula es válida para k = O, 1, . .. , n.
1-p¡ · ~------------ •0
1.20: Canal binario con ruido
~··
~:: 1-p
Canal binario simétrico
•
Ap lica ción: modelo de un can al de transmisión con ruido
Un canal de transmisión digital consiste en sistema que envía sucesivos dígitos desde un emisor a un emisor. Este modelo, establecido por SHANNON 5 , es válido no sólo para las comunicaciones de voz o imagen, sino para cualquier transmisión de datos entre un un emisor y un receptor, por ejemplo la grabación de datos desde un disco duro a un CD. En cualquier canal de transmisión existe lo que los ingenieros de comunicaciones denominaron ruido, esto es errores impredecibles que producen una mala recepción de la señal enviada por el emisor. En un canal de transmisión este ruido se modela de manera probabilística, como un cambio debido al Azar del dígito emitido. Un modelo fundamental en la Teoría de la información es el canal denominado binario simétrico, en este modelo el emisor envía dígitos binarios O ó 1, estos dígitos son correctamente recibidos por el receptor con probabilidad 1 - p mientras que, con probabilidad p, el ruido produce una mala recepción y si el dígito emitido fue O el receptor recibe 1, mientras que si fue emitido 1, el receptor recibe O. El modelo se denomina simétrico porque la probabilidad de recibir un dígito con error es la misma para los dos dígitos binarios. Si aceptamos que este comportamiento se repite en todas las transmisiones, con independencia de las posibles perturbaciones pasadas, el canal se denomina sin memoria. La transmisión de un mensaje (envío de sucesivos dígitos) en un canal sin memoria es un caso particular de experimentos repetidos independientes, desde el punto de vista probabilístico es idéntico al experimento que consiste en lanzar repetidas veces una moneda que tiene probabilidad p de cara, cuando aparece cara, ocurre un error en la transmisión y el dígito enviado se cambia por el dígito complementario. Un modelo más general es el canal binario asimétrico sin memoria en el que la probabilidad de que ocurra un error depende del dígito que se haya emitido; por ejemplo, si el emisor envía un O, el receptor recibe un 1 con probabilidad po, y si el emisor envía un 1, el receptor recibe un O con probabilidad p¡. Aceptamos que este comportamiento se repite en todas las transmisiones, con independencia de las perturbaciones pasadas (canal sin memoria) , y que la probabilidades no varían con el tiempo (canal estacionario). 5 s. E. Shannon: A Mathematica1 Theory of Communication, Bell Syst. Tech. J. 27 pp. 379423,623-656, 1948
46
UNIDAD DIDÁCTICA 1 Modelos probabilísticos discretos
Otro importante modelo de canal de transmisión con ruido es el canal con borrado sin memoria, que modela la posibilidad de que el ruido haga irreconocible la señal, de tal manera que cuando se produce un error sea imposible atribuirlo a ningún dígito. Si el canal es binario, el emisor envía uno de los dígitos Oó 1, si no se produce error, el receptor recibe el dígito emitido correctamente mientras que, si se produce un error, el dígito queda indeterminado y lo representaremos por el símbolo ?. En la figura 1.21 se muestra el esquema del canal simétrico (puesto que ambas probabilidades de error son iguales) con borrado.
Variables aleatorias discretas
l. 3
47
Variabl es aleatorias discretas Habitualmente, cuando modelamos un experimentos aleatorio no estamos directamente interesados en el resultado del modelo sino en alguna consecuencia asociada; por ejemplo, como hemos visto, el canal de transmisión simétrico se puede modelar con el lanzamiento de una moneda, sin embargo nuestro interés está en si ocurre, o no, un error, o en el número de errores que han ocurrido al transmitir n dígitos. Un mismo patrón de experimento aleatorio, como también hemos visto, puede ser el modelo de muchos fenómenos distintos. La conexión entre el experimento patrón y el fenómeno concreto que queremos estudiar se hace mediante una aplicación que asocia a cada resultado posible del experimento patrón una consecuencia posible del fenómeno problema. Por ejemplo, si enviamos un que contiene n = 3 dígitos a través del canal binario simétrico sin memoria, muestro modelo patrón es lanzar una moneda tres veces. El espacio muestra! de este modelo es
o={@@@ ,@@@) ,@@)@ ,@)@@ , @@)@) ' @)@@) ' @)@)@ ' @)@)@)} Cada uno de los sucesos elementales de este espacio se traduce o asocia con una observación particular del fenómeno que nos interesa; por ejemplo, cuando @@@) lleva asociado que ha ocurrido un error en el último dígito transmitido. Si nuestro interés es el número de errores ocurridos, para nosotros no tiene interés conocer qué resultado ha aparecido al lanzar la moneda, sino el valor que toma la función descrita en la figura 1.22.
o
1
2
3
'
4
Figura 1.22: Número de errores en la transmisión de un mensaje binario de 3 dígitos
Esa aplicación descrita gráficamente toma valores sobre un espacio muestra! y transforma los casos posibles en elementos de un conjunto, en este caso números. Las aplicaciones de esta clase las denominaremos funciones aleatorias y, si el conjunto final es numérico, como es el caso de la función del ejemplo 1.22, las denominaremos variables aleatorias. Estas denominaciones son peculiares, ya que lo que denominaremos variable aleatoria es lo que se suele denominar función: una aplicación con valores numéricos.
48
UNIDAD DIDÁCTICA 1 Modelos probabilísticos discretos
VARIABLES ALEATORIAS
i~ I6 I Una variable aleatoria, X, definida sobre un espacio de probabilidad (O, P) es una función X : O f----+ R.
1
El conjunto de valores que puede tomar la variable X es la imagen de O por la función X, lo designaremos por X (O); por ejemplo, si X es la variable "mayor de los números obtenidos al lanzar dos dados", tenemos: X(O) = {1,2,3,4,5,6} Si X (O) es finito o infinito numerable, la variable se denomina discreta. Una variable cuyo conjunto de valores es infinito no numerable no es discreta. En este capítulo estudiaremos, exclusivamente, las variables discretas. Si lanzamos un dado dos veces, el mayor de los resultados obtenidos es una variable aleatoria. El número de veces que hay que lanzar una moneda para que aparezca cara es otra variable aleatoria. El tiempo que tarda en sufrir una avería un circuito electrónico también es una variable aleatoria. De las tres variables anteriores, las dos primeras son discretas; la primera tiene un número finito de valores posibles, ntientras que la segunda tiene un número infinito numerable de valores posibles. La tercera variable no es discreta, puede tomar cualquier valor en el intervalo
(O, oo) .
Hay dos métodos para definir una variable aleatoria. El primero es hacer una lista exhaustiva que muestre el valor X ( w) que toma sobre cada elemento de w E O. Por ejemplo, la figura 1.22 define X por este método ya que la información que contiene equivale a declarar: X(@@@)= O, X(@@@)= 1, X(@@@)= 1 X(@@@)= 1, X(@@@) = 2, X(@@@) = 2 X(@@@) =2, X(@@@) =3
(1.26)
Naturalmente, este método no es muy conveniente cuando O contiene muchos puntos. El segundo modo de definir una variable aleatoria es dar con precisión la relación que se establece entre los elementos de O y los números reales, bien mediante un fórmula, bien mediante palabras; por ejemplo, para definir la variable anterior basta poner X = "número de errores al transmitir tres dígitos binarios"
(1.27)
Esta descripción no deja lugar a dudas y permite asignar un único valor numérico a cada w E O. Las variables aleatorias se suelen representar por letras mayúsculas, la costumbre es emplear las últimas letras del alfabeto. Los valores numéricos de las variables se representan por letras minúsculas. Si X es una variable aleatoria, el símbolo {X = x} representa al suceso formado por los elementos w tales que X ( w) = x. Esta notación es una abreviatura de las habituales en matemáticas: {X =x} = {w 1 X(w) =x} =X - 1 (x) Por ejemplo, si X es la variable número de errores definida en 1.26, se tiene: {X= 1} ={@@@ , @@@ , @@@}y {X= 3} ={@@@};de igual manera, {X < 2} define al suceso formado por los w tales que X ( w) < 2, es decir {X< 2} ={X= O}U{X = 1} = {@@@ ,@@@,@@@ ,@@@}
Variables aleatatias d.lsc.c.e.t.as
4'l
Una importante excepción en la costumbre de designar las variables aleatorias por las últimas letras del alfabeto son las variables denominadas indicadoras de un suceso. Si A es un suceso, su variable indicadora se representa por /A y toma el valor 1, si A ocurre, y O, si A no ocurre si w E A si w tf_ A
(1.28)
Descomponer una variable aleatoria como combinación lineal de variables indicadoras es una técnica de gran importancia en el Cálculo de probabilidades como tendremos ocasión de comprobar. EJEMPLO 1.17
Descomposición de una variable en suma de indicadoras.
Lanzamos una moneda n veces, la variable X = número total de caras que cuenta el número de caras que han aparecido se puede descomponer en la suma X= fA1 +IA2 + · ·· + JAn
donde A¡ es el suceso A; = {el lanzamiento i-ésimo resulta cara}; la variable indicadora lA¡ vale 1, si el i-ésimo lanzamiento resulta cara y O, en otro caso. El sentido de la descomposición es simple: X es un contador a que se añade una unidad cada vez que aparece una cara. El procedimiento de cuenta consiste en examinar sucesivamente el resultado de cada lanzamiento y añadir 1 al contador cada vez que observamos una cara. Otro ejemplo; una racha es una serie maximal de resultados iguales consecutivos, maximal significa que la serie no está contenida en otra serie mayor de resultados iguales consecutivos. La definición de racha se entiende mejor con un ejemplo. Si lanzamos la moneda ocho veces y resulta
han ocurrido cuatro rachas
racha 1
racha 3
Observemos que toda secuencia comienza con una racha y que aparece una racha nueva cada vez que un resultado es distinto del anterior. En el ejemplo anterior, comienza una racha en los lanzamientos 1 (siempre es así), 3 (porquex3 -1- x2), 5 (porque x 5 -1- x4 ) y 8 (porque x8 -1- x7 ) . Esta observación nos dará la clave para descomponer la variable X = "número de rachas que aparecen al lanzar n veces la moneda"
Para cada i , 2 :::; i :::; n, consideremos el suceso B i = "el resultado i-ésimo es distinto del i - 1-ésimo"
La observación anterior muestra que en el lanzamiento i-ésimo, 2 :S: i :::; n, comienza una nueva racha si y sólo si B¡ ocurre. Puesto que el número de rachas es igual al de lanzamientos en que comienza una racha, resulta
50
UNIDAD DIDÁCTICA 1 Modelos probabilísticos discretos
La variable número de rachas tiene interés para contrastar los algoritmos que gene números aleatorios. Si los números se generan al azar, las rachas que aparecen tien longitudes determinadas con ciertas probabilidades que se pueden calcular; hay algcritmos que tienden a evitar repeticiones de los dígitos, es decir tras obtener un dígi hacen menos probable la aparición de otro igual (ver [?]), ese comportamiento es indicación de que el algoritmo no escoge los dígitos al azar. La comparación entre comportamiento de las rachas que produce un algoritmo determinado y el patrón id cuando la elección es al azar permite valorarlo como generador de números aleatori
1.3.1
Distribución de una variable
Toda variable aleatoria X : O f--+ R permite transferir la probabilidad definida sobre los sucesos de O al conjunto de los números reales; por ejemplo, lanzamos tres veces una moneda equilibrada y X es la variable:
X
= número de caras menos número de cruces
Los valores posibles de X son X (O) = {- 3, - 1, 1, 3} y las probabilidad respectivas son: 1 8
P(X=3) =P({@@@}) =-
P(X = 1) =P({@@@, @@@, @@@}) = P(X = -1) = P( {@@@, @@@, @@@}) = P(X = -3) =P({@@@}) =
3
8 3
8
1
8
Así, podemos interpretar que el Azar escoge directamente uno de los números del conjunto de números: X(O) = {-3, -1, 1, 3} con probabilidades respectivas (1/8,3/8,3/8, 1/8). Esta interpretación nos hace olvidar el sorteo inicial, ya no es esencial que el valor de X es el resultado de la diferencia entre el número de caras y el de cruces al lanzar una moneda tres veces; gracias a ese olvido, todas las variables aleatorias se pueden describir de manera homogénea como un sorteo sobre los números reales. Para las variables discretas, la clave de esa descripción es el concepto denominado distribución de probabilidad, que es una función que nos enseña el modo de repartirse la probabilidad entre los valores posibles de la variable; la función de probabilidad equivale a dar una tabla con dos filas, en la primera aparecen los valores posibles de la variable y, en la segunda, la probabilidad de cada valor posible; para la variable X definida más arriba basta con dar la tabla X
-3
-1
1
3
p(x)
1/8
3/8
3/8
1/8
Variables aleatorias discretas
51
Los valores de la tabla definen una función sobre X (O) cuyos valores son probabilidades, x f-+ p(x), esa función se denomina función de probabilidad. La función de probabilidad también se puede definir mediante una fórmula x f-+ p(x) que describa como calcular la probabilidad de cada valor posible en función del valor.
P(X = x) = p(x),
para cada x E X(O)
(1.29)
Los valores p(x) son probabilidades y cumplen dos condiciones: primero, son no negativas, p(x) 2: O y, segundo, su suma es igual a l.
L
p(x)
=1
xEX(O )
Por ejemplo, si N es el número de caras que aparecen y M el número de cruces, la distribución de la variable X = N -M se define por la tabla
P(X
= -3) =k
P(X
P(X=-1)=i
= 1) = i
P(X
= 3) =k
Por último, la distribución de una variable discreta también se puede definir mediante gráficos. Los más utilizados son los diagramas de barras. Por ejem3/8
~ ~
1/ 8
o
-3
3/8
1
1
-1
-2
o
1/ 8 1
2
o 3
Figura 1.23
plo, la función de probabilidad de X se define de manera gráfica con el diagrama de barras de la figura 1.23. Si conocemos la función de probabilidad de una variable discreta, podemos calcular cualquier probabilidad de la forma P(X E B), donde Be R, mediante la suma:
P(X
E
B) = L,P(X =x),
(1.30)
x EB
EJEMPLO 1.18 Dos bolas se colocan al azar en dos urnas; es decir, primero se elige al azar una urna para colocar la primera bola y luego, con independencia de la primera elección, se elige una urna al azar para colocar la segunda bola. Consideremos la variable aleatoria definida por Y = "número de bolas que hay en la primera urna" Para hacer más simples los recuentos, consideraremos que las bolas están numeradas con 1 y 2; hay cuatro maneras de colocar las dos bolas en las dos urnas; en un caso, cuando las dos bolas están en la primera urna, la variable Y toma el valor 2, luego
52
UNIDAD DIDÁCTICA 1 Modelos probabilísticos discretos
Figura 1.24
P(Y = 2) = 1/ 4; en dos, cuando la bola 1 está en la primera urna y la bola 2 en la segunda ó cuando la bola 2 está en la primera y la bola 1 en la segunda, se tiene Y = 1, luego P(Y = 2) = 21 4; en el cuarto caso no hay ninguna bola en la primera urna y Y= O. La figura 1.24 muestra los 4 casos posibles y el valor de Y en cada uno de ellos; como hemos razonado, Y puede tomar tres valores distintos, O, 1 y 2, y su función de probabilidad de Y es P(Y =O)=
1 P(Y = 2) = -
1
:¡•
4
El cálculo de P(Y 2 1) es un caso particular de la fórmula 1.30. P(Y 2 1)
= L,P(Y =y) =P(Y = 1) +P(Y = 2) y2: 1
Luego P(Y
•
2 l ) = 3/4.
Dado que la distribución es el único dato relevante acerca de una variable aleatoria, la costumbre es dar su función de probabilidad, sin mencionar el espacio de probabilidad sobre el que están definidas. Por ejemplo, si participamos en un juego que consiste en lanzar una moneda tres veces y nuestra ganancia, X, es igual a la diferencia entre el número de caras y el de cruces, el dato relevante para analizar el juego es saber que X tiene distribución: P (X
3
= -1 ) = P(X = 1) =S'
P(X
1
= -3) = P(X = 3) =8
esto es, qué cantidades ganamos o perdemos y con qué probabilidad las ganamos o perdemos.
Distribución de una función Y= g(X) Un problema esencial en las aplicaciones del Cálculo de probabilidades es, dada la distribución de una variable aleatoria X, calcular la distribución de una función de X, por ejemplo Y= g(X); observemos que si fes una función que toma valores numéricos, entonces Y es una variable aleatoria: el Azar escoge un caso OJ E O, lo que determina el valor de X y, en consecuencia, el valor de Y. El diagrama siguiente muestra la sucesiva acción de las funciones. Si X es discreta, entonces Y= g(X) también es discreta y podemos calcular la función de probabilidad de Y a partir de la función de probabilidad de X. El conjunto
Variables aleatorias discretas
53
X g 0 - -- R - - - - -R ww-
X(w ) -
-
- g(X (w))
- --Y(w) = g(X(w))
de valores posibles de Y es Y (O) la sumar
= g(X (O)) y P(Y =y) se calcula mediante
L
P(X =x)
{xlg(x) =y}
que expresa que la probabilidad de que Y= g(X ) sea igual a y es la suma de las probabilidades de los valores, x, de X tales que g (x) = y. Por ejemplo, si X tiene la función de probabilidad definida por:
P(X = - 3) P(X = 1)
1
3 8 1
P(X= - 1)=-
=-
8
3
P(X
=-
8
=
3)
=-
y consideramos Y = X 2 , los valores posibles de Y son Y (O) probabilidades de cada uno de los valores son
8
= {1, 9},
y las
6 8
P(Y = 1) = P(X = -1) + P(X = 1) = -
ya que para que Y tome el valor 1, tiene que ocurrir que X sea igual a 1 o igual a -1; de manera similar, se tiene 2 8
P(Y = 9) = P(X = -3 ) + P(X = 3) = -
La figura 1.25 ofrece una interpretación del cálculo de la función de probabilidad de Y =X 2 . 6/8 Distribución de Y =X 2
Distribución de X
Figura 1.25
54
UNIDAD DIDÁCTICA 1 Modelos probabilísticos discretos
1.3.2 Uno de los criterios para escoger un algoritmo frente a otro que realiza la misma tarea es la rapidez de ejecución; en general, el tiempo que tarda en ejecutarse depende del input, a diferentes datos, distintos tiempos de ejecución del proceso; por ejemplo, el número de pasos debe dar un algoritmo que ordena valores numéricos de mayor a menor depende, en general, del orden inicial que tengan los valores. El criterio más común para analizar el tiempo de ejecución es el tiempo que emplea en ordenar unos items ordenados aleatoriamente. Puesto que tijacto el orden inicial, el tiempo de ejecución está determinado, si los inputs son aleatorios, el tiempo de ejecución es una variable aleatoria que tendrá cierta distribución; para resumir la distribución de probabilidad del tiempo de ejecución en un único valor, se calcula un valor promedio: el tiempo esperado. Así, para comparar un algoritmo con otro, se comparan los promedios; desde luego, puede ocurrir que para ciertos inputs, un algoritmo sea peor que otros, pero si en promedio es mejor, será el preferido.
Va lor es perado una variable
La distribución de una variable aleatoria discreta es un concepto matricial formado por un vector de valores y el correspondiente vector de probabilidades, lo que hace muy difícil comparar varias distribuciones; para ello, conviene reducir la complejidad mediante un valor promedio que represente a toda la distribución la distribución. Este procedimiento implica reducir los valores posibles a uno sólo y, naturalmente, esa mayor sencillez tiene el precio de una pérdida de información, que tal simplificación sea conveniente dependerá de lo bien o mal que el promedio represente a todos los valores. El promedio más empleado es el valor esperado, esperanza matemática o simplemente esperanza que es el promedio de los valores que toma la variable ponderado por la probabilidad con que toma cada valor. Si X es una variable aleatoria discreta, su esperanza matemática se representa por E{X}, este símbolo que se lee "esperanza de X", y es igual a
L
E{X} =
xP(X
=
(1.31)
x)
xEX (O )
Si el conjunto de valores posibles es infinito numerable, la suma anterior se define mediante un paso al límite y puede ocurrir que sea =, en este caso diremos que la variable X no tiene esperanza matemática. Por ejemplo, si X es una variable aleatoria con función de probabilidad
1 8 3 P(X = 1) = 8
P(X =
-3)
2 8 2 P(X=3)=8
P(X =
=-
-2)
=-
su esperanza matemática es igual a
1 2 3 2 E{X} = ( -3).- + (-2).- + 1.- + 3.-
8
o
-3
o
-2
_: 1
ót
~ 1
2
o 3
E{X }
Figura 1.26: El valor esperado es el centro de gravedad de la distribución
8
8
8
luego E{X} = 1/4 = 0.25. La figura 1.26 muestra una interpretación gráfica de la propiedad fundamental de la esperanza matemática; si imaginamos que las barras del histograma son masas, el sistema está en equilibrio cuando el punto de apoyo está situado en la esperanza matemática. El punto E{X} = 0.25 es el centro de gravedad de un sistema de masas que tiene masa igual a 1 /8, colocada en -3, masa igual a 2/8, colocada en -2, masa igual a 3/8, colocada en 1 y masa igual a 2/8 colocada en 3. Observemos que la fórmula 1.31 exige conocer la función de probabilidad de la variable, aplicar directamente la definición de esperanza matemática, como acabamos de hace es el primer método para calcular E{X}.
ESPERANZA DE UNA VARIABLE
1. 17 La esperm1za matemática de una variable aleatoúa discreta X se representa por E{X} y es igual a
E{X}
L
=
xP(X
= x)
xEX (O )
EJ EMP LO 1.19 Una cinta tiene grabados N registros. En la figura 1.27, se describe el movimiento de la cabeza lectora, que busca los registros de modo secuencial. En su posición inicial, la cabeza está sobre el registro l. Para leer el registro que está en la posición k, debe desplazarse a la derecha k- 1 registros, hasta situarse sobre el k-ésimo. Tras leer el registro, vuelve a su posición original.
Cabeza lectora
Cabeza lectora
Figura 1.27
Supongamos que hay que el registro que tiene que leer se escoge al azar y sea X la variable aleatoria
X = "número de desplazamientos precisos para llegar al registro elegido" Para calcular E{ X} hallaremos la distribución de X y luego calcularemos el promedio. Si hay que leer el primer registro, la cabeza no tiene que moverse y X = O. Si hay que leer el segundo, X = l. Si hay que leer el registro k-ésimo, la cabeza hará k- 1 desplazamientos y X = k - l. Los valores posibles de X son X (O) = {0, 1, . . . ,N - 1}. Por otra parte, P(X = k) es igual a la probabilidad de que el Azar escoja el registro k+ l, luego 1 si O <5. k <5. N - 1 P(X=k)=N , La esperanza matemática de X es N- 1
E{X} =
l., kP(X =k) =
k=O
1 N- 1 N l., k k=O
De la expresión de la suma de una progresión aritmética, se sigue I,~~d k= luego E{X} =(N- 1) /2.
(N-;l )N,
•
56
UNIDAD DIDÁCTICA 1 Modelos probabilísticos discretos
Val or esperado de un a fun ción de una va ria bl e aleatoria Si X es una variable aleatoria e Y = g(X) es una función de X, el prime método para calcular E{Y} es hallar la función de probabilidad de Y y, luego. promediar. Otro método, en general mejor, es promediar respecto de los valore: de X. Este método se expresa con la fórmula:
E{Y}
= E{g(X)} =
L
g(x )P(X
= x)
(1.32
xEX(O )
La ecuación 1.32 supone que para calcular E{Y} no necesitamos conocer la distribución de Y. EJEMPLO 1.20
P(X
Consideremos la variable X con distribución dada por:
= -3 ) = ! P(X = - 2) = ~ P(X = 1) = ~ P(X = 3) =
~
y sea Y = X 2 , el valor esperado de Y es igual a:
E{Y}
= E{X 2 } =
L
x2 P(X = x)
xEX(O )
luego
E{X 2 }
= (- 3)2P(X = - 3) + (-2) 2P (X = -2) + 12P(X = 1) + 32P(X = 3) = 19/4
Observemos que hemos calculado E {Y} no como promedio de las valores de Y respecto de la distribución de Y , sino como promedio de los valores de X 2 respecto de la distribución de X. 3 8
2
3 8
P(Y=4 ) =-
P(Y=1 ) = -
P(Y = 9) = -
8
y, luego, hacemos E{Y} = 1 (3/ 8) + 4 (2 / 8) + 9 (3/ 8) = 19 / 4.
•
Un caso particularmente importante se da cuando Y= aX + b, entonces la esperanza de Y es igual a
E{Y}=E{aX + b}=
L,
(ax+b)P(X= x )
xEX (O )
luego
E{aX+b}=a
L
Basta tener en cuenta que
2.:,
L
xP(X=x) +b
xEX (O )
P(X
P(X=x)
xEX (O )
= x) = 1, para obtener:
xEX (O )
E{aX +b} ESPERANZA DE
Y = AX + B
= aE{X}+b
u ( Sí Y= aX + b, entonces E{aX + b} = aE{X} +h.
Variables aleatorias discretas
1.3.3 Varianza
57
y momentos de una variable
Los valores esperados de las funciones potenciales de una variable aleatoria se denominan momentos de la variable. Por ejemplo, si la función es g(X) = X 2 , se tiene el momento de segundo orden E{X 2 }; los momentos son parámetros de la distribución que permiten describir su forma. Designaremos a los momentos por la letra griega f.1 con un subíndice que indica el orden del momento; así, el momento de segundo orden es f.12 = E{X 2 }, y el momento de tercer orden es f.13 = E{X 3 } . En particular, la media o valor esperado de X es igual al momento de primer orden f.ll = E{X}, aunque en este caso se suele omitir el subíndice y escribir simplemente f.l. MOMENTOS DE UNA VARIABLE
lli~
Sí X es una variable aleatoria, se denomina momento de orden r, r > O, de X al valor esperado de xr, el momento de orden r se designa por
f.lr · f.lr = E{Xr} Otra familia de momentos de una variable son los valores esperados de las potencias de las desviaciones respecto de la media, que se originan a partir de la función
g(X) =(X- E{X}
r
para distintos valores enteros positivos de r. Especialmente importante es el valor esperado de la desviación respecto de la media al cuadrado, que se denomina varianza y se representa por cri.
La varianza mide el enor que cometemos al sustituir un valor posible, x , por E{X}, o la dispersión promedio de los valores de X respecto de E{X } . La varianza siempre es una cantidad positiva, excepto cuando la variable no tiene más que valor posible que se hace nula, ese carácter positivo se resalta con la notación empleada para designarla, cr 2 , puesto que el cuadrado de cualquier cantidad es positivo o nulo. VARIANZA DE UNA VARIABLE
1.20-1 Sí X es una variable aleatoria, se denomina varianza al valor esperada de la desviación respecto de la media al cuadrado, (X- E{X} ) 2 ; la varianza de X se representa por
1 L__
-
ai.
ai = E{ (X -E{X} f } Si desarr-ollarnos la expresión de la varianza, obtendremos una fórmula muy
58
UNIDAD DIDÁCTICA l Modelos probabilísticos discretos
útil para el cálculo. Se tiene:
(Jl = L
(i-E{X}?P(X = i)
iEX (O )
=
L
[F- 2iE{X} + (E{X} ) 2 ] P(X
=
i)
iEX(O )
=
L
¡2 P(X
= i)- 2E{X}
iEX (O )
L
iP(X
= i) + (E{X} ) 2
iEX (O )
Ahora, puesto que E{X} = Í:iEX(O ) iP(X = i) , basta simplificar, para obtener CJ} = E{X 2 } - (E{X} ) 2 . Así, la varianza es igual al momento de segundo orden, J12 , menos el cuadrado de la media. FÓRMULA PARA CALCULAR LA
1:.~ La varianza de una variable aleatoria X es igual al momento de segundo orden, /12, menos el cuadrado de la media.
VARIANZA
(1.33) La fórmula para el cálculo de la varianza permite deducir con facilidad dos importantes propiedades de la varianza. Supongamos que X es una variable aleatoria de media J.L y varianza CJ 2 , trataremos de calcular la varianza de la variable Y = aX. Por la propiedad lineal del valor esperado sabemos que se tiene E{Y} = E{aX} = aE{X} y, por la misma razón, resulta
Ahora, si aplicamos 1.33 para calcular la varianza de Y y reemplazamos los resultados anteriores, tenemos CJ~
= E{Y 2 } - (E{Y} )2 = a 2 E{X 2 } - (aE{X} ) 2 = a 2 (E{X 2 } - (E{X} ?) =
a2CJ}
Así pues CJ;x = a2 CJ} . Interpretemos la fórmula anterior; primero, observemos que la transformación X -+ aX significa un cambio de la escala de unidades en que medimos la magnitud X; por ejemplo, si X está medida en metros y pasamos a medirla en centímetros, la nueva variable Y cumple Y = IOOX; el resultado CJ;x = a2 CJ} nos dice que la varianza se comporta en los cambios de escala como el área, en proporción al cuadrado de la escala; si cambiamos la escala de los datos, su dispersión respecto de su media varía en proporción al cuadrado del cambio de escala. Como caso particular, consideremos ahora la variable Z = X + b; por la propiedad lineal del valor esperado, se tiene E{Z} = E{X} + b; por otra parte,
Variables aleatorias discretas
59
obtenemos
E{Z2 } =E{ (X+ b ) 2 } = E{X =
2
+ abX + b2 }
E{X 2 } + 2bE{X} + b2
Otra vez aplicamos 1.33 para calcular la varianza de Z y reemplazamos los resultados anteriores, así obtenemos
a 1.28: Pafnuty L. Chebyshev
CJj = E{Z2} - (E{Z} )2 = E{X 2 } + 2bE{X} + b2 - (E{X} + b? = E{X 2 } + 2bE{X} + b2 - [(E{X} ) 2 + 2bE{X} + b2 ] = E{X 2 } - (E{X}? = CJi Así pues CJi +b = CJi. Interpretemos la fórmula anterior; observemos
que la transformación X --+X+ b significa una traslación del origen de los datos; así, si trasladamos el origen de los datos en b unidades, su dispersión respecto de su media no varía. Las dos propiedades de la varianza que acabamos de demostrar se resumen en una sola que nos explica el comportamiento de la varianza frente a los cambios lineales.
PROPIEDAD DE LA
1.22 Si X es una variable aleatoria, se cumple
VARIA N ZA
1.3.4 Desiguald ad de Chebyshev Lvovich Chebyshev, nació en Oka:Rusia) en 1821, murió en San Peters- en 1894. Estudió cómo se distribuyen - eros primos entre los enteros posiDemostró la conjetura de BERTRAND, que siempre hay al menos un número entre n y 2n. Sus trabajos permitieron AMARDy DE LA VALLÉ POUSS!Nproel número de primos menores que n onlen n/!nn.
La probabilidad de que una variable X tome valores muy diferentes de su media se puede acotar en términos de la varianza de X; una de las acotaciones más generales es la denominada desigualdad de CHEBYCHEV, que tiene su origen en las investigaciones de este matemático acerca de la distribución de números primos en los números enteros. Consideremos una variable X de media J.1 y varianza CJi, el problema que nos interesa es estimar la probabilidad de que X tome valores más alejados de la media J.1 que un número dado a > O, esto es, estimar la probabilidad del suceso IX- J.ll >a; decimos "estimar" porque no trataremos de evaluarla exactamente, sino de obtener información sobre su orden de magnitud. Consideramos la suma que define la varianza de X
L
(x- J.I?P(X = x) =
CJi
xEX (O )
la idea de CHEBYSHEV fue descomponer esta suma en dos partes; de un lado, los sumandos correspondientes a los valores de x tales que lx - J.ll > a y, de
60
UNIDAD DIDÁCTICA 1 Modelos probabilísticos discretos
otro, los restantes.
X
L
L
(x -,u) 2 P(X = x)+
lx-,u l>a
(x-,u) 2 P(X=x)
(1.34)
lx- ,u l:":a
La segunda suma del primer miembro de la expresión 1.34 siempre es mayor o igual que cero, ya que todos sus sumandos son positivos o nulos, si la suprimimos, el primer miembro de 1.34 será menor o igual que
ai.
L
(x - ,u) 2 P(X = x):::; al
(1.35)
lx- .u l>a Ahora, en la suma de 1.35, cada sumando es mayor o igual que a2 P(X = x), ya que si Jx- .u 1 > a, entonces (x - .u )2 > a2 ; luego si reemplazamos el factor (x- .u )2 por a2 , obtendremos una cantidad menor o igual
L
L
a2 P(X=x):S (x-,u) 2 P(X=x):Sal lx-.u l>a lx-.u l>a
(1.36)
lo que implica
L
a2 P(X = x)
lx-,u l>a
=
a2
L
P( Jx -
.ul > a):::; al
lx- ,u l>a
Ahora bien, la suma L lx-.u l>aP(X = x) es igual a P(JX - .u l > a), ya que es la suma de las probabilidades de todos los valores de X que cumplen la condición IX- .ul > a, se sigue
o bien a2
P(JX- .u l >a) :::; ~ a
DESIGUALDAD DE CHEBYSHEV
1.23 Si X es una variable aleatoria con varianza finita, para cada a > O se verifica: a2
P(JX- .ul >a) :::; ~ a
(1.37)
Lo verdaderamente notable de esta desigualdad es que hace una afirmación universal que compromete a todas las leyes de probabilidad con varianza finita; si la ley de probabilidad de X tiene varianza, cualquiera que sea esa ley, se cumplirá la desigualdad de CHEBYSHEV, lo que muestra que también el Azar está sometido a leyes generales y proporciona un método para deducirlas.
Variables aleatorias discretas
61
1.3.5 Entropía de una variable aleatoria La parte de las Matemática que trata de la transmisión y almacenamiento de datos se denomina Teoría de la información. Sus indagaciones versan sobre las limitaciones en la transmisión de datos, los métodos para comprimir datos, es decir para almacenarlos o transmitirlos con el mínimo coste y los métodos para superar los inevitables errores que se pueden producir en la transmisión, de suerte que los datos originales puedan ser recuperados a partir de los datos modificados durante la transmisión. Con estos fines, sería más apropiado denominar a esta disciplina Teoría de la codificación, puesto que sus más brillantes aplicaciones consisten en códigos que comprimen los datos o los recobran de los errores producidos, sin embargo, la Historia tiene sus peculiaridades y, desde su origen, se ha hecho popular el término Teoría de la información que, como anécdota, no gustaba su creador. El término codificación en el sentido que aquí empleamos, no se ocupa del problema de crear sistemas de cifrado o códigos para ocultar la datos de quien no esté autorizado para su conocimiento. Aunque tales sistemas se acostumbran a denominar códigos, no son estudiados en la Teoría de la Codificación sino en la disciplina denominada Criptografía.
1.29: Claude Shaunon
La Teoría de la Información es una de las pocas disciplinas científicas que tiene un origen perfectamente determinado, su inicio está señalado por la aparición de un artículo del ingeniero CLAUDE SHANNON titulado A Theory of Communication, la historia de su desarrollo está bien documentada y es un claro ejemplo de la interacción entre los progresos de las Matemáticas y los avances en tecnología de la computación. Una de las características peculiares de la Teoría de la Información es que sus objetivos y límites están claramente definidos desde el mismo instante de su inicio. La primera conquista de SHAN NON fue mostrar que la información podía ser cuantificada con precisión y demostrar que es esencialmente única, con independencia del medio de transmisión que se emplee, tanto si es una comunicación telefónica a través de un cable, como si es sin hilos, o si es una comunicación de datos a través de Internet o si son datos que grabamos en un CD o en disco duro. La visión genial de SHANNON fue descubrir la abstracción común a todos estos sistemas, antes incluso de que la mayor parte de ellos hubieran sido inventados, ya que en su tiempo todas las comunicaciones y dispositivos de captación y reproducción de la imagen y el sonido eran analógicos. Su genialidad es semejante a la de ALAN TURING que forjó los principios de la Teoría de la computación mucho antes de que se construyera el primer computador electrónico de válvulas. Para comprender el modo en que SHANN ON formalizó la idea de información, debemos considerar el contenido o significado del mensaje como irrelevante para su transmisión como también es irrelevante el medio de expresión que puede ser texto, sonidos, imágenes o una combinación de estos tres medios. Sea cual sea el contenido y el medio, el mensaje puede ser reducido a una secuencia de ceros y unos que serán transmitidos a través de un canal. SRA NON se planteó primero el problema de cuantificar la idea de incertidumbre
62
UNIDAD DIDÁCTICA 1 Modelos probabilísticos discretos
acerca de la aparición de un suceso A que tiene probabilidad p de ocurrir, ya que consideraba incertidumbre e información como dos caras de una moneda, si un suceso es seguro, saber que ha ocurrido no proporciona información y, cuanto más incierto sea un suceso, mayor información obtendremos al saber que ha ocurrido. Además, puesto que la naturaleza del suceso es irrelevante en nuestro análisis, la incertidumbre debe depender exclusivamente de la probabilidad del suceso. Así, la medida de la incertidumbre debe ser una función f(p) , O:::; O:::; 1, tal que /(1) =O, también es aceptable suponer que f(p) sea continua y decreciente, puesto que cuánto mayor sea la probabilidad menor será la incertidumbre. Por último, impondremos una propiedad que da estructura a la función, si A¡ y A2 son dos sucesos independientes con P(AI) = p 1 y P(A2) = p2, la información que produce saber que ha ocurrido A 1 nA 2 debe ser igual a la de saber que ha ocurrido A 1 y luego saber que ha ocurrido A 2 ; puesto que P(A¡ nA2) = p¡p2, esta propiedad equivale a suponer que f(p) cumple (1.38) para O:::; p¡ , p2:::; 1 f(PIP2) = f(p¡) + f(P 2), Se demuestra que esas cuatro propiedades determinan la función f(p) salvo un factor constante, de modo que f(x) debe ser igual a
f(p) = -Clogp El siguiente paso dado por SHANNON fue extender el concepto de incertidumbre al resultado de una función aleatoria; si X es una función aleatoria que toma las modalidades a¡, a2, ... , am, con probabilidades respectivas
P(X =a¡)
= p¡,
para i = 1, 2, ... , m
donde p¡ > O y 2:~ 1 p¡ = 1; puesto que conocer el resultado de X es equivalente a observar cuál de los sucesos A¡ = {X =a¡} ha ocurrido, SHANNON definió la medida de incertidumbre sobre el resultado de X como el promedio de las incertidumbres de los sucesos A¡. A esa medida de la incertidumbre la denominó entropía, la entropía de X se representa por H(X) y es igual a m
(1.39)
H(X) = - LP¡Clogp¡ i=!
La constante C queda fijada cuando se escoge la unidad de incertidumbre o información. Esa unidad elegida es el Binary digit, abreviadamente bit, que es igual a la incertidumbre de una función aleatoria que tiene dos modalidades o valores posibles y equiprobables 1 2
P(B =a¡)= P(B = a2) = la entropía de esta función aleatoria es
H(B)
1
1
1
1
2
2
2
2
= --Clog-- -Clog- = Clog2
(1.40)
Variables aleatorias discretas
63
Si elegimos la base del logaritmo igual a 2 y e = 1, entonces la entropía de B es igual a H(B ) = log 2 2 = 1, bit
función de probabilidad de X es P(X = 1/2, P(X = 1) = 1/ 4, P (X = 3) = y P(X = 4) = 1/ 8, se tiene
=
1 1 1 1 1 1 X) =- -log 2 - - - log 2 - - -log2 - -
-
2
2
1
1
4
4
8
8
8 logz 8 = ¡7 b'lt
ENTROPÍA
Observemos que la elección de la base del logaritmo y de la constante e corresponden a la misma elección, ya que el logaritmo en cualquier otra base es proporcional al logaritmo en base 2, observemos también que la definición de entropía depende exclusivamente de la distribución de la función aleatoria y no de los valores que tome. De la definición de entropía se sigue inmediatamente que H(X) :S O y que la entropía no depende de las modalidades que toma la función, sino de las probabilidades con que toma esas modalidades, lo que concuerda con nuestro deseo de que esta noción de incertidumbre no dependa de las interpretaciones de los acontecimientos posibles, sino solamente de la probabilidades con que pueden ocurrir. Para no repetir una y otra vez la condición p¡ >O, convenimos en considerar O · log 2 O = O, lo que no es más que una extensión de la definición por continuidad, ya que xlog 2 x---+ O, cuando x---+ O.
___1]4 _La entropía asociada a una variable aleatoria X es el valor esperado de la esperanza de - logp (X), donde p(x) es la función de probabilidad de X. La entropía de X se representa por H (X). 1
H(X) = E{log 2 p(X) } 1
L p(x) log - ( ) xEX (O ) p = L p(x) logp(x) X
xEX(O)
La base del logaritmo determina las unidades en que se mide la entropía, sí se toman logaritm os en base 2, la entropía se mide en bits. EJEMP LO 1.21 Una variable aleatoria X1 que sólo tiene dos valores posible, por ejemplo, si su función de probabilidad es
P(X¡ =O)= 0.01,
P(X¡ = 1) = 0.99
se dice que es una variable de BERNOULLI ; su entropía es igual a
H(X¡)
=
-0.01log2 0.01 - 0.99log2 0.99 ~ 0.081 bit
Si X2 es la variable con función de probabilidad
P(X2 =O) = 0.5,
P(X2 = 1) = 0.5,
la entropía de X2 vale H(X2) = -0.5log2 0.5- 0.5log2 0.5 = 1 bi. Como la intuición indica, hay más incertidumbre en los valores de la variable X2 que en los de X¡. •
64
UNIDAD DIDÁCTICA 1 Modelos probabilísticos discretos
1.4
Modelos de distribuciones discretas En este apartado se presenta un pequeño catálogo de las distribuciones discretas más importantes mostrando sus distribuciones y algunas características como media y varianza.
1.4.1
Distribución de Bernoulli
El paradigma de la distribución de BERNOULLI es lanzar una moneda y observar si ha salido cara o no, la variable X que indica si ha salido cara o no, tiene distribución de BERNOULLI. Esta distribución sirve de modelo para cualquier circunstancia en la que, tras realizar un experimento aleatorio, sólo nos interesa saber si cierto suceso ha ocurrido o no, como el caso del fallo de una componente o un sistema. La función de probabilidad de la distribución de BERNOULLI depende de un parámetro p que interpretamos como la probabilidad de que salga cara al lanzar la moneda, X tiene dos modalidades posibles que representamos por O y 1, y está definida por las igualdades P(X =O)= 1- p ,
P(X
= 1) = p
(1.41)
Figura 1.30: Jacobo Bernoulli Jacobo Bernoulli, nació en Base! (Suiza) en 1654, murió en Base! en 1705. Fue el primero de la gran familia BERNOULLI que se dedicó a las matemáticas. Enseñó mecánica en la universidad de Base!. En 1713, ocho años después de su muerte, se publicó su trabajo más importante el Ars Conjectandi o Arte de la conjetura. En él, descubre los números que hoy llevan su nombre y da la primera justificación de la ley de regularidad de las frecuencias, a la que llamó ley de los grandes números, como hoy la conocemos.
En la figura 1.31 aparece representado el histograma de la función de prohabilidad de BERNOULLI. El valor esperado de una variable con distribución de BERNOULLI es igual a Jl
y
SU
= E{X} =O· ( 1- p)
+ 1·p =
p
momento de segundo orden es 2
Jl2
2
= E {X } = 0
· (1-
P)
2
+1
·P = p
Se sigue que la varianza de una variable con distribución de parámetro p es igual a
p
ll o
BERNOULLI
y
Puesto que la varianza es una función del parámetro p, podemos preguntarnos qué valor de p la hace máxima, para ello derivamos la función f(p) = cr~ = p(l- p) y obtenemos
!' (p)
= ( 1 - p) - p
= 1-
2p
1
Figura 1.31
pero f' (p) =O implica p = 1/2 y f" (1/2) < O, lo que indica que x = 1/2 es un máximo y el valor máximo es !(1/2) = 1/4, valor que se alcanza cuando cuando los dos valores posibles de la variable tienen la misma probabilidad.
1.4.2 Distribu ci ón binomial Su paradigma es el número de veces que aparece cara al lanzar n veces una moneda que tiene probabilidad p de cara. La distribución binomial depende de dos parámetros, uno entero n, que indica el número de pruebas, y otro p, que es la probabilidad de éxito en cada prueba. En particular, si n = 1, coincide con la distribución de BERNOULLI. Una variable aleatoria, X, con distribución binomial de parámetros n y p tiene n + 1 valores posibles: O, 1, .. . , n. En el apartado 1.2.5 (fórmula 1.25), razonamos que P (X = k) es igual a
P(X=k)=
(~)l(l-p)n-k,
parak=0,1, ... ,n
(1 .42)
La expresión 1.42 describe la distribución binomial de parámetros n y p. El gráfico de la figura 1.32 muestra el histograma de la función de probabilidad, para n = 6 y p = 0.4. Observemos que las probabilidades P(X = k) crecen 0.5
0.25
o
2
3
4
5
6
Figura 1.32: Histograma de la distribución binomial, n = 6, p
1
H(p)
= 0.4
hasta k= 2, donde alcanzan el máximo, y luego decrecen de manera monótona. Este comportamiento no es una casualidad, cualquier distribución binomial tiene una forma semejante. El valor más probable se denomina moda de la distribución. La distribución binomial de parámetros n y p tiene media J.l = np y varianza
Entropía de la d istribución binomial .
La entropía de la distribución de BERNOULLI se calcula fácilmente, y es igual a
o +---------1 o 1.33: Gráfica de la entropía de ibución de BERNOULLI
H
(p)
= -
p log 2 p - (1 - p) log2 ( 1 - p)
Observemos que H (O) = H ( 1) = O. Esto es razonable, pues si p = Oó p = 1, hay un caso que tiene probabilidad 1 de ocurrir: no hay incertidumbre y la entropía es cero. Por otra parte, H(p) es máxima cuando p = 1 /2; este hecho también es razonable, aunque lo justificaremos numéricamente. Si calculamos H' (p), resulta H' (p) = - log 2 p - 1 + log2 ( 1 - p) = - log 2 p
+ log2 ( 1 -
+1 1- p
p) = log 2 - p
Para que H' (p) =O, tiene que ser (1 - p) / p = 1, es decir p = 1/ 2. Se comprueba que H 11 ( 1 /2) > O, lo que implica que es un máximo. •
66
UNIDAD DIDÁCTICA 1 Modelos probabilísticos discretos
Cálculo de las probabi lid ades binomial es
Consideremos una variable, X, con distribución binomial de parámetros n y p. Si queremos programar el cálculo de la probabilidad:
no es recomendable, en general, aplicar la fórmula:
n) n! ( k - k!(n-k)! ya que, salvo para pequeños valores de n, los valores de n! son tan grandes que producen overflow. Si n no es muy muy grande, es preferible aplicar un método recursivo, basado en el cociente P (X = k+ 1) 1P (X = k), que permite poner
p n-k P(X=k+l)=-·-·P(X=k), 1- p k+ 1 Por ejemplo, supongamos n = 10 y p con el cálculo directo de P(X = 0),
O~k~n
(1.43)
= 0.4; la recursión se pone en marcha
P(X =O)= (0.6) 10 ~ 0.00605 a partir de aquí se calculan las restantes probabilidades mediante la relación de recursión. Por ejemplo, los primeros cálculos son
0.4 10 P(X = 1) = 0.6. T ·P(X =O)~ 0.0403
P(X = 2) =
~:: · ~ ·P(X =
1)
~ 0.1209
Así sucesivamente. Si p > 1/2, conviene hacer la recursión al revés, comenzando por k = n.
1.4.3 Distribución geométrica El paradigma de una variable aleatoria con distribución geométrica es lanzar repetidas veces una moneda hasta que sale la primera cara y contar el número de lanzamientos que ha sido preciso hacer.
X = número de lanzamientos hasta que aparece la primera cara De acuerdo con la definición de X, para que {X = k} ocurra deben salir k- 1 cruces consecutivas y luego una cara. Si la probabilidad de cara al tirar la
moneda es p, se tiene P(X =k)= p(1- p)k- 1,
si k = 1, 2, 3, ...
(1.44)
Modelos de distribuciones discretas
67
0.25 0.2 0.15 0.1 0.05
1
2
3
4
5
6
7
8
9 10 11 12
Figura 1.34
En la figura 1.34 de muestra el histograma de la función de probabilidad de la distribución geométrica para p = 0.25. La distribución geométrica depende de un parámetro p, su media es igual a J..L = E{X} = 1/ p y su varianza es al = (1 - p) 1p2 . Al realizar cálculos con las distribuciones geométricas, en muchas ocasiones es preciso sumar una serie geométrica, recordemos que la fórmula de la suma de una serie geométrica de razón r es
Il=-r- , k= l
.
válida si
1- r
lrl < 1
Por ejemplo, gracias a la fórmula anterior podemos comprobar que la suma de las probabilidades de la distribución 1.44 es 1: 00
IP(X=k)= I(l-p) k-!p k=! k=!
=
_P_ I(l-p l
1- p k=!
= _P_.1-p = 1
1- p
p
La distribución geométrica tiene una importante propiedad característica: carece de memoria. Para explicar lo que significa "carecer de memoria", hallaremos
P(X > n)=
I
p (l-p)k-!=(1-p)n
k=n+! El cálculo anterior está basado en la suma de una progresión geométrica ilimitada, aunque es más fácil razonar como sigue: el suceso {X > n} ocurre si y solamente si los n primeros resultados de lanzar la moneda son cruz, lo que
68
UNIDAD DIDÁCTICA 1 Modelos probabilísticos discretos
implica P(X
> n ) = (1 -
p
t. De lo anterior, se sigue:
P(X = n+k X> n) = J
P(~ =
n+)k)
P X>n
p(l- p)n+k-l
(1- p )n
= p(l - Pl- 1
Figura 1.35: Siméon Denis Poisson
Es decir, se cumple P (X = n + k 1 X > n) = P (X = k). Interpretemos la igualdad anterior, supongamos que el tiempo, X , que tarda en ocurrir un acontecimiento tiene distribución geométrica entonces, si, tras esperar n instantes, el acontecimiento no ha ocurrido, la probabilidad de que tengamos que esperar k instantes más es la misma que al principio. Si han transcurrido n instantes sin que ocurra el acontecimiento, todo vuelve a comenzar de nuevo y la distribución del tiempo restante es igual a la original. La distribución geométrica describe el tiempo hasta que ocurre un fenómeno sin envejecimiento, son fenómenos tales que saber que ha transcurrido mucho tiempo sin observarlo no hace más probable que ocurra pronto. Muchos fenómenos que tienen que ver con la electrónica siguen esta distribución.
1.4.4 Siméon Denis Poisson, nació en Pithiviers (Francia) en 1781, murió en Sceaux (Francia) en 1840. Discípulo de LAPLACE y LA GR ANGE. Fue profesor de la Escuela Politécnica y, en 1809, de la Facultad de Ciencias. En 1837 publicó una memoria titulada Recherches sur la probabilité des jugements en matiere criminelle et en matiere civile, donde aplicaba el cálculo de probabilidades al derecho. En ella, justificaba que la clistribución, que ahora denominamos de POISSON, describe el número de veces que un suceso aleatorio ocurre en un intervalo de tiempo, cuando la probabilidad de que ocurra en pequeños intervalos es muy pequeña.
Distribución de Poisson
Una variable aleatoria tiene distribución de POISSON de parámetro A > O, si su función de probabilidad es para k = O, 1, 2 ...
(1.45)
La distribución de POISSO N se observa en los procesos de desintegración radiactiva, en el tráfico telefónico, en las distribuciones de accidentes y, en general, siempre que contemos cuántas veces ha ocurrido un suceso que tiene una probabilidad muy pequeña de ocurrir en un intervalo de tiempo. La distribución de POISSON depende de un parámetro positivo, A, y tiene la peculiaridad de que tanto la esperanza como la varianza son iguales al parámetro, J.1.
= E{X} =A,
cri =A.
El cálculo de las probabilidades de la distribución de POISSON se puede programar de manera recursiva, de esta manera evitamos el cálculo con factoriales. Si X es una variable con distribución de de parámetro A > O y hallamos el cociente entre dos probabilidades consecutivas de la distribución, resulta
P (X = k + 1) P(X =k)
e-?cAk+ l /( k + 1) ! e-?c Ak/k!
A k+ l
(1.46)
Se sigue
P (X =k+ 1)
A
= -P(X =k) k+l
(1.47)
Modelos de distribuciones discretas
69
La relación 1.47 permite calcular recursivamente las probabilidades a partir de P(X =O) =e-A, . La figura 1.36 muestra el progreso de esa recursión en el
cálculo de los primeros términos de la distribución de POISSON con A = 2, partimos del valor P(X =O) = e- 2 . A continuación, cada paso es una aplicación de la fórmula de recursión 1.47. A partir de k= 9 las probabilidades son despreciables para el grado de precisión que nos hemos fijado. El procedimiento se programa fácilmente con un tiempo de ejecución proporcional a k. El histograma de la distribución de POISSON, para A = 2, aparece repre-
Cálculo recursivo de las probabilidades de POISSON
2 P(X = 5) = SP(X = 4) ~ 0.0361
P(X =O) = e- 2 ~ 0.1353 0.2707
2 P(X = 6) = (,P(X = 5) ~ 0.0120
P(X = 2) = ZP (X = 1) ~ 0.2707
2 P(X = 7) = ;:¡ P(X = 6) ~ 0.0034
2 P(X = 3) = "3P(X = 2) ~ 0.1804
P(X = 8) =
2 1 2
P(X = 1) = - P(X
=O)~
2 P(X = 4) = -4 P(X = 3)
2
SP(X =
7) ~ 0.0004
~O .0902
Figura 1.36
sentado en la figura 1.37. La forma del histograma no es casual. En general, el histograma de una distribución de POISSON tiene una serie de valores con
probabilidades crecientes, hasta que alcanzan su máximo en el valor denominado moda. Desde ese punto, las probabilidades son monótonas decrecientes. La clave para encontrar la media es la relación 1.46. Si A < k + 1 o k > íL - 1 0.3
0.2
0.1
o
2
3
4
n
n
5
6
Figura 1.37: Distribución de Poisson (A
7
8
= 2)
las probabilidades son decrecientes. Si k < A - 1 las probabilidades son crecientes. La moda se encuentra en el menor de los enteros no negativos k que cumplen k > A -1 .
70
UNIDAD DIDÁCTICA 1 Modelos probabilísticos discretos
La distribución de Poisson es límite de pruebas independientes La distribución POISSON ha sido denominada la ley de los sucesos raros. Por ejemplo, el número de mutaciones que sufre una cadena de ADN sometida a radiación o el número anual de accidentes en un punto kilométrico son variables que se presentan distribución de POISSON. Un curioso ejemplo es el clásico trabajo del economista y estadístico ruso BORTKIEWICZ (1868-1931), donde demostraba que el número de soldados muertos por una coz de un caballo, en cada cuerpo de caballería del ejército prusiano, seguía una distribución de POISSON. En este apartado daremos una justificación formal a esas observaciones, demostrando que la distribución de POISSON es distribución del número de veces que ocurre un suceso raro en un intervalo de tiempo dado. Supongamos que se trata de contar cuántas partículas a emite una fuente radiactiva en un intervalo de tiempo dado. Nuestro modelo de las emisiones se basa en tres hipótesis que, con palabras, enunciamos: l. El número de partículas emitidas durante un intervalo de tiempo es independiente de las emitidas durante cualquier otro intervalo disjunto con el anterior.
2. Si el intervalo de tiempo que consideramos es suficientemente pequeño, la probabilidad de que se emita una partícula es, aproximadamente, proporcional a la longitud del intervalo. 3. Si el intervalo de tiempo que consideramos es suficientemente pequeño, la probabilidad de que se emitan dos o más partículas es despreciable. Formulemos con mayor precisión las hipótesis. Consideremos un intervalo de tiempo (O, t]; lo dividimos en dos intervalos, (O, t] = (O, t'] U ( t', t], O< t' < t, la primera hipótesis garantiza que el número de partículas emitidas durante (t', t] es independiente de las partículas emitidas durante (O, t']. En general, si dividimos (O, t] en n subintervalos disjuntos, los números de partículas emitidas durante los subintervalos son independientes entre sí. Para formular con precisión las dos últimas hipótesis, conviene recordar una notación que introdujo LANDAU en 1909 y que se ha hecho indispensable en los análisis asintóticos, donde no interesa el detalle de la función sino su comportamiento límite. El símbolo o (h) se lee "o pequeña de h" y representa cualquier función que cumpla:
, o(h)
hm-=0 h->0 h
Una propiedad inmediata de esta clase de funciones es que la suma de funciones "o pequeña" de h es "o pequeña" de h. En efecto, dadas o 1 ( h) y o 2 ( h), su suma cumple
lím o¡(h)+o2 (h) =O h->0
h
Modelos de distribuciones discretas
luego o¡ (h) la así:
+ 02 (h) =
71
o(h ). Con esta notación, la segunda hipótesis se formu-
P( emitir una partícula durante (s,s + h ]) =Ah + o 1 (h) y la tercera hipótesis se expresa:
P (emitir dos o más partículas durante (s, s + h] ) =
02 ( h)
De lo anterior, se sigue que la probabilidad de no emitir partículas durante el / , _1 intervalo de tiempo (s,s + h] es:
------=,---
P(no emitir partículas durante (s,s + h]) = 1- Ah- o 1 (h)- o2 (h) = 1-Ah-o(h)
Ahora, dividamos el intervalo en n subintervalos de longitud 11n:
como se muestra en la figura 1.38.
o
!_ n
Figura 1.38: intervalo dividido en n subintervalos de longitud l 1n
Designemos por X el número total de partículas emitidas durante el intervalo (O, t ]. Sea A¡ el suceso "durante l¡ se emite más de una partícula", para 1 ::::; i ::::; n, y sea Bn es suceso "en algún subintervalo se emite más de una partícula". Resulta evidente que Bn =A¡ UA2 U··· UAn y se tiene:
Ahora, por la tercera hipótesis P(A¡) = 02 (t 1n) y se sigue:
lo que implica: lím P(Bn) = lím n o2(t/n) = t lím
n-too
n - t oo
n---+ oo
o2(t/n) / t n
=O
Ahora, para cada k, se cumple: {X =k} = [{X =k} n pero P( {X= k} n Bn) ::::; P(Bn) --+O.
B~] U [{X =k} n Bn]
(1.48)
72
UNIDAD DIDÁCTICA 1 Modelos probabilísticos discretos
Por otra parte, para que ocurra el suceso {X = k} n B~ se tienen que k partículas y no puede haber más de una emisión por subintervalo, luego haber k subintervalos en los que se emita una partícula y n - k intervalos
emisión. Esto tiene una probabilidad igual a:
P({X
=
k}nB~) =
G)
(A.t/n+o 1 (t/n))k(l-A.t/n - o1 (t!n )r- k
Si sacamos factor común t / n en el primer corchete y desarrollamos el núme binomial, resulta:
P( {X= k} n B~) =
n(n - l)···(n-k+l)tk(, o¡(t/n))k( , / (/))n-k k 1\, + / 1 - 1\,t n - o 1 t n k!n t n Sin ----+
oo,
se cumple:
,
hm
n( n- 1) · · · (n -k+ 1 )tk k! n
n->=
lím n->=
tk
k
k!
(A+o¡(t/n))k =Ak n t/
y
n-k lím 1-At/n-o 1 (t/n) ) n->= (
=e- :1-t
Por lo tanto, cualquiera que sea k entero, k 2: O se tiene
y
lím P(X =k)= lím P( {X= k} nB~)
n---+oo
n ---+ oo
+ lím P( {X= k} n Bn) n ----? oo
= lím P( {X = k} n B~) n->=
(A.t)k -A.t =--e k!
(1.49)
que son las probabilidades de la distribución de POISSO N. Debemos hacer notar que el cálculo anterior no justifica que las partículas emitidas por la masa radioactiva se ajuste al modelo de POISSON. El ajuste es una cuestión empírica, observable. Lo que demuestra es que si las hipótesis del modelo son aceptables en la práctica, necesariamente, el número de partículas emitidas será de POISSON.
Vectores aleatorios discretos
l. 5
73
Vectores aleatorios discretos En este apartado estudiamos la descripción y propiedades de los vectores (X1,X2, ... ,Xn) de variables aleatorias discretas definidas sobre un mismo espacio de probabilidad (O,P). Un vector aleatorio es el modelo de una observación que consiste en medir simultáneamente varias magnitudes en un mismo elemento elegido aleatoriamente; el análisis de las relaciones entre variables exige esta clase de observaciones. En general, para simplificar el análisis, consideraremos tan sólo vectores bidimensionales (con dos componentes), si bien, los resultados pueden ser aplicados a cualquier número de componentes sin ninguna dificultad adicional. Un paradigma de vector aleatorio discreto se tiene al lanzar dos dados y observar dos variables dependientes del resultado, por ejemplo, las variables X e Y definidas por X
= número de resultados pares que han aparecido
Y
= máximo de los resultados
El par (X, Y) es un vector que depende del resultado de lanzar los dados, y que, tras conocer este, toma un valor (x, y) determinado; con razón se denomina vector aleatorio ya que, cuando el Azar determina el resultado de lanzar los dos dados también está determinando el valor de (X, Y). Cada resultado posible produce un par de números o vector bidimensional; por ejemplo, si sale 3 en el primer dado y 2 en el segundo, se tiene X= 1 e Y = 3. De una manera general, nuestra interpretación del modelo es la siguiente: cuando el Azar escoge un elemento w E O , cosa que hace con probabilidad P( w) , el vector (X, Y) toma el valor (x,y) = (X(w),Y(w)). El concepto de vector de dimensión finita, llevado al límite, conduce a una sucesión X1 , X2, ... , de variables aleatorias. Una sucesión {X¡};: 1 , sirve de modelo al experimento teórico que consiste en producir, ilimitadamente, dígitos al azar. Un paradigma de sucesión aleatoria es el experimento que consiste en lanzar una moneda una y otra vez, sin término; cuando sale cara, se anota 1 y, cuando sale cruz, O, una observación concreta de la sucesión aleatoria es una secuencia ilimitada de ceros y unos. El resultado de cada lanzamiento se modela por una variable aleatoria, Xb y la sucesión ilimitada de resultados por la sucesión de variables {Xk}, definidas sobre un mismo espacio de probabilidad. La diferencia teórica entre el modelo de los vectores aleatorios y el de las sucesiones de variables aleatorias es lograr una justificación de la existencia de ese espacio común sobre el que estén definidas todas las variables. En el caso de los vectores, la justificación es inmediata. En el de las sucesiones, es un problema bastante más difícil, que los matemáticos han sido capaces de resolver empleando métodos ' que están fuera de las limitaciones que nos hemos impuesto.
74
UNIDAD DIDÁCTICA 1 Modelos probabilísticos discretos
1.5 .1
Distribución conjunta de un vector aleatorio
Consideremos un par de vmiables discretas (X, Y) definidas sobre el espacio de probabilidad (O, P) , el comportamiento aleatorio del vector se describe de manera similar a la función de probabilidad de una única variable discreta que ya hemos estudiado; el conjunto de probabilidades:
p(i,j ) = P(X = i,Y
= J),
i E X (O ) , j E Y(O )
(1.50)
define una función de probabilidad que se denomina conjunta de X e Y. La función de probabilidad conjunta describe los valores posibles de (X, Y) y la probabilidad con que ocurre cada valor posible, es la manera más simple de definir la distribución del vector (X , Y). Cualquier conjunto o matriz de números (p(i,j )) , i E X (O ), j E Y(O ), define una distribución conjunta siempre que cumpla las condiciones l. p(i, j ) 2: O. 2.
I
I
p(i,J ) =l.
íEX (O ) j EY(O )
EJEM PLO 1. 23 Lanzamos tres veces una moneda equilibrada. Cualquier resultado posible de este experimento es una terna m= (z 1,z2 ,Z3 ), donde Zi = @ o Zi = @), el espacio muestra! O está formado por 23 = 8 casos posibles y cada uno tiene probabilidad 1/ 8. Ahora, consideremos las variables:
Y = O Y= 1 Y =2 /
X= O
1/8
1/8
O
=1
1/8
2/8
1/8
X= 2
O
1/8
118
X
X = número de caras en los dos primeros lanzamientos Y = número de caras en los dos últimos lanzamientos
1
Tabla 1.2
Los valores que pueden tomar X e Y son X (O ) = {0, 1, 2} e Y(O ) = {0, 1, 2}. Para definir la distribución conjunta de X e Y debemos hallar todas las probabilidades de la forma P (X = i,Y = j ), donde O::; i, j ::; 2. Por ejemplo, para que X= O e Y= 1, tiene que ocurrir que salga @@@, y se tiene: 1 P (X =O, Y= 1) = P (@@@) =S Otro ej emplo , se tiene {X= 1, Y = 1} = {@@@, @@@}, luego P (X = 1, Y = 1) = 2/ 8. Con un poco de paciencia, se calcula P (X = i ,Y = j ), para cada par posible ( i, j ), como se muestra en la tabla 1.2. Observemos que cada entrada de la tabla es una probabilidad p (i, j ) y que se cumplen las condiciones p (i,j) 2: O y Li,¡ P(i, j) = l.
•
Cálculo de probabilidades a partir de la distribución conjunta La distribución conjunta de (X, Y) permite calcular la probabilidad de cualquier suceso definido mediante condiciones o restricciones impuestas a X e Y , pero para dar una fórmula completamente general que calcule la probabilidad de tales sucesos necesitamos mejorar la. En primer lugar, debemos observar
Vectores aleatorios discretos
75
que cualquier suceso definido por medio de condiciones impuestas a las variables X e Y puede definirse de la forma
{m; (X(m),Y(m)) E B} donde Bes algún subconjunto de R2 ; por ejemplo, el suceso {X= i,Y = j} es el suceso simple que impone a X la condición de valer i, y a Y la de valer j, este suceso se puede expresar como {X= i,Y = j} = {(X, Y) E B} }, donde B = {(i,j)}. Otro ejemplo, el suceso {X> Y} se puede poner como {(X,Y) E B} , donde Be R 2 es el subconjunto definido por B = {(x,y); x >y}. También, para hacer más simple la notación, en lugar de poner
{m; (X(m),Y(m)) E B} se acostumbra a escribir {(X,Y) E B}. Ahora, la probabilidad de cualquier suceso definido por condiciones sobre X e Y, se calcula mediante la suma de las probabilidades conjuntas Pi,J extendidas a todos los pares ( i, j) que cumplan la condición impuesta.
P((X,Y) E B) =
L
P(X = i,Y = J)
(1.51)
(i,j )EB
EJ EMP LO 1.24 Si (X,Y) son las variables del ejemplo 23 anterior, para calcular la probabilidad de {X > Y}, hallamos la suma de todas las probabilidades Pi,J, extendida al conjunto de pares (i,j) que cumplen i > j; ese conjunto está formado por los tres pares (1,0), (2,0) y 2, 1), y se tiene
P(X >Y)= P(X = 1,Y =O) +P(X = 2,Y = O) + P (X = 2,Y = 1) luego P(X >Y) =
1.5.2
•
¡.
Distribuci ones margina les
Como caso particular de la fórmula 1.51 tenemos el cálculo de P(X = i), donde la condición impuesta a las variables es que X tome el valor i mientras que Y puede tomar cualquier valor; de la fórmula general, se sigue
L
P(X=i)=
P(X=i,Y = j),
iEX(O)
P(X = i,Y = J),
j E Y( O)
}EY(O )
y, de manera similar, se tiene
P(Y = J) =
L iEX(O )
El conjunto de valores {P(X = i)}iEX (O ) define la distribución unidimensional de X. De igual manera, el conjunto de valores {P(Y = j)}JEY (O ) define la distribución unidimensional de Y. Si la distribución conjunta está definida
76
UNIDAD DIDÁCTICA 1 Modelos probabilísticos discreto
por una tabla, la probabilidad P (X = i se no presenta como la suma de las probabilidades de la fila i-ésima y podemos anotar su valor al margen derecho de la tabla. Por su parte, la probabilidad P (Y = j ) es la suma de las probabilidades de la columna j-ésima y podemos anotar u valor en el margen inferior de la tabla. Por esta razón, al considerar la di tribución conjunta de un vector, se acostumbra denominar marginales a las distribuciones unidimensionales de sus componentes.
EJEMPLO 1.25 Consideremos un vector aleatorio {X, Y) cuya distribución conjunta está dada por la tabla 1.3. Como bemo ob ervado, P(X = i) es la suma de las Y= O
Y= l
Y= 2
X=O
l/6
l/6
1/6
3/6
X= 1
o
l/6
1/6
X=2
116
o o
l/6
2/6
2/6
l/6
3/6
Tabla 1.3
probabilidades de la fila i-ésima; de manera similar, P(Y = j) es la suma de las probabilidades de la columna j-ésima. En el margen derecho de la tabla, hemos añadido la columna
3/ 6 l/6 2/6 que es la distribución unidimensional de X. En el margen inferior, hemos añadido la fila
2/ 6 1/ 6 3/ 6 que es la distribución marginal de Y.
•
La distribución conjunta determina las distribuciones marginales. El recíproco no es cierto. Tan sólo con la información de las distribuciones marginales no podemos reconstruir la distribución conjunta, ya que ésta contiene información acerca de la co-variación o variación simultánea de X e Y que no está contenida en las marginales. Por ejemplo, la tabla 1.4 define una distribución conjunta distinta de la definida por la tabla 1.3, pero ambas tienen las mismas marginales.
1.5.3
Valores esperados en una distribución conjunta
A partir de la distribución conjunta de un vector (X, Y) se pueden calcular innumerables valores esperados pero, afortunadamente, todos pueden ser reducidos a una fórmula común, si f(X ,Y) es una función numérica del vector,
Vectores aleatorios discretos
X=O X= 1 X=2
Y=O
Y=1
Y=2
116
2/6
3/6
116
o o
o
1/6
o
1/6
1/6
2/6
2/6
1/6
3/6
77
Tabla 1.4
el valor esperado de f (X, Y) es igual a
L
E{f(X, Y)} =
L
f (i,j) P(X = i,Y = J)
(1.52)
iEX(O ) jEY (O )
expresión que es semejante a la obtenida en el caso unidimensional; por ejemplo, si la distribución conjunta de X e Y está definida por la tabla 1.4 y la función es igual al valor absoluto de la diferencia, f (X, Y) = [X - Y 1, tenemos 2
E{[X -Yl} =
2
L L [i- JlP(X = i,Y = J) i=Oj=O
1
= [0-0[-
6
2 1 + [0 - 2[- + [1-0[-+
6
6
1 1 + 12-1[-+12-2[ -
6
6
=1
En particular, si f(X,Y) depende sólo de una variable, por ejemplo f (X,Y ) = 2X, el valor esperado calculado con la fórmula 1.52 coincide con el calculado a partir de la distribución marginal de la variable; por ejemplo, si f (X,Y) = h(X ), el cálculo mediante la distribución conjunta es:
E{h(X)} =
L
L
h(i )P(X = i,Y = J)
iEX(O ) }EY (O )
y, si sumamos en j, resulta
E{h(X)} =
L iEX (O )
=
L
h(i ) [
L
P(X = i,Y =
J)]
jEY(O )
h(i)P(X = i)
iEX (O )
que es la fórmula para calcular E{h(X)} mediante la distribución marginal de X.
78
UNIDAD DIDÁCTICA 1 Modelos probabilísticos discretos
1.5.4 Valor esperado de la suma de dos variabl es El valor esperado de la suma de dos variables es un caso particular de l anterior, donde f (X, Y) = X + Y, y tiene un interés especial. De la definició general, se sigue
L L
E{X + Y}=
(i+ J)P(X = i,Y = J)
iEX (O ) j EY(O )
Lo verdaderamente interesante es la propiedad que se deduce de reordenar 1 términos
E{X + Y}=
L L
iP(X = i,Y = J)+
iEX(O) j EY(O )
=
L
i
L
P(X=i,Y=J) +
iEX(O ) j EY(O )
=
L
L L
JP(X=i,Y=J )
iEX(O ) j EY(O )
iP(X=i)+
iEX(O )
L
j
L
P(X=i,Y=J )
j EY(O ) iEX(O )
L
JP(Y=J )
j EY(O )
= E{X} +E{Y}
(1.5 3
Esta propiedad tiene gran importancia, cualquiera que sea la distribución conjunta de X e Y, la esperanza de su suma es igual a la suma de las esperanzas: es decir, para calcular E {X+ Y} no es necesario conocer toda la información relativa al vector (X, Y), basta con conocer la información sobre X y sobre Y. Por inducción, la propiedad anterior se extiende a las sumas de n variables. VALOR ESPERADO DE LA SUMA DE VARIABLES
_!_25__ Cualesquiera que sean las variables X 1, X2, . . . , X 11 , se cumple: E{X¡ + X2 + · · · +Xn} = E{X¡} + E{X2} + · · · +E{Xn}
(1.54)
Cuando una variable aleatoria puede ser descompuesta como suma de otras más sencillas, esta propiedad nos proporciona un buen método para calcular su valor esperado. EJ EMPLO 1.26
Valor es pera do de un a va ri able bi nomi al.
Como sabemos, el paradigma de una variable binomial de parámetros n y p es lanzar n veces una moneda que tiene probabilidad p de cara y considerar la variable X definida por "número de caras que aparecen", esta variable se puede descomponer como suma de n variables indicadoras
donde Ak es el suceso "el lanzamiento k-ésimo resulta cara". Por la propiedad de la esperanza de la suma, se tiene:
E{X} = E{IA1 } +E{IA 2 } + · · · +E{h, } Ahora, E{hk} = P(Ak) el apartado 1.4.2.
= p, se sigue E{X} =
np, como ya habíamos demostrado en •
Vectores aleatorios discretos
1.5.5
79
Covarianza de dos variables
La covarianza entre X e Y es un parámetro de la distribución conjunta que mide la variación simultánea (la ca-variación) de X e Y; se define como la esperanza de la función:
f(X,Y)
= (X-E{X})(Y-E{Y})
y se suele designar por CYx ,Y. CYx ,Y
=E{ (X- E{X}) (Y- E{Y})}
La covarianza entre X e Y permite medir hasta qué punto podemos estimar Y mediante una función lineal de X , de manera más precisa, el coeficiente CYx y
Px ,Y
=
¡;;¡;;¡ ' ()2()2 X y
calculado a partir de la covarianza y las varianzas de las variables, indica el grado de ajuste lineal entre las variables; este parámetro se denomina coeficiente de correlación, es un número comprendido entre -1 y 1, -1 :::; Px,Y :::; 1 y, cuanto mayor es IPx,rl, mejor se puede estimar el valor de una variable mediante una función lineal de la otra. Si Px,Y = O, las variables se denominan incorreladas. Si Px,Y = 1, una variable es función lineal de la otra.
1.5.6
Propi edades del valor esperado
De la propiedad de la suma de variables se sigue que la esperanza o valor esperado es un operador lineal, si X, Y son variables aleatorias y a, b son números reales, se cumple
E{aX +bY}= aE{X} +bE{Y} siempre que E{X} y E{Y} sean finitas; esta propiedad permite realizar muchos cálculos de manera simbólica, mediante el operador E (se lee esperanza), lo que hace más claros y simples los razonamientos. Como ejemplo hallaremos una fórmula útil para calcular la covarianza, semejante a la que sirve para calcular la varianza; para probarla, basta tener en cuenta que la esperanza es un operador lineal, que E {X} es un número y que E { 1} = l. CYx ,Y
=E{ (X- E{X}) (Y- E{Y})}
= E{XY -XE{Y} -YE{X} +E{X}E{Y}}
= E{XY}- 2E{X}E{Y} + E{X}E{Y} = E{XY} - E{X}E{Y}
(1.55)
Con mucha frecuencia, para calcular la covarianza, resulta más útil la expresión CYx ,Y = E{XY} -E{X}E{Y} que acabamos de demostrar que la propia definición de covarianza.
80
UNIDAD DIDÁCTICA 1 Modelos probabilísticos discretos
1.5. 7
Distri bu ciones con dicion adas
De la definición de probabilidad condicionada se sigue que la probabilidad del suceso X = x condicionada por Y = y es igual a p(X =
X
1
y = y) =
P(X =X, y =y) P(Y =y)
---'-----:c---:-----'-
Ahora, si consideramos que x toma todos los valores de X (O) mientras que y está fijo, obtenemos un conjunto de probabilidades que definen la distribución de la variable X cuando se sabemos que Y ha tomado el valor y.
P(X
=x
1
Y= y)= P(X = x,Y =y), P(Y =y)
x E X(O)
(1.56)
Esta distribución se denomina distribución de X condicionada por Y =y. Con símbolos, se pone distribución de X 1 Y =y. Para cada y E Y(O) hay una distribución condicionada. La expresión 1.56 también tiene una interpretación dinámica
P(X=x,Y=y)=P(Y=y)P(X=xiY=y)
Y=1Y=2Y=3 X=-1
0.1
0.2
0.1
0.4
X=O
o
0.1
0.2
0.3
X= 1
0.1
0.2
o
0.3
0.2
0.5
0.3
Tabla 1.5
y =2
X= -1 X= O
0.2
X= 1
0.4
0.4
xEX(O)
que nos presenta la elección aleatoria de (X, Y) como resultado de dos sorteos; primero, se sortea el valor de Y conforme a la distribución marginal y, a continuación, el valor de X conforme a la distribución condicionada por el valor que ha tomado Y. Esta interpretación dinámica tiene gran importancia ya que es un método muy simple para definir modelos. EJE MP LO 1.27 Consideremos dos variables X e Y cuya distribución conjunta está dada por la tabla 1.5, para calcular la distribución de X 1 Y = 2 es necesario calcular las tres probabilidades condicionadas P(X = - 1 1 Y= 2), P(X =O 1 Y= 2) y P (X = 1 1 Y = 2). Este proceso se hace de una manera casi automática,Para calcular la distribución de X 1 Y = 2 dividimos cada una de las probabilidades de la segunda columna de la tabla de la distribución conjunta (tabla 1.5), por la probabilidad P(Y = 2) = 0.5 que encontramos en el margen inferior de la tabla 1.5. Por ejemplo, para calcular P(X = -1 1 Y= 2) dividimos 0.2 entre 0.5, el resultado es 0.4. como se muestra en la tabla 1.6. • EJE M PLO 1.28 Consideremos una variable aleatoria X con distribución binomial, de parámetros n = 2 y p = Y, donde Y es otra variable aleatoria con distribución:
1
P(Y = 0.25) = P(Y = 0.5) = P(Y = 0.75) = 3
Estos datos definen la distribución conjunta de X e Y. Por ejemplo, se tiene: Tabla 1.6
(1.57)
P(X = l,Y = 0.25) = P(Y =
~
= 0.25)P(X = 1 1 Y= 0.25 )
G)
0.25. 0.75
Vectores aleatorios discretos
81
y permiten calcular la probabilidad de cualquier suceso. Por ejemplo, la probabilidad de X = 1 se calcula:
P(X
= 1) =
L
P (Y
= y)P(X = ll
y= 0.25 ,0.5,0.75
5 y= y)=12
Observemos que este modelo es el resultado de dos sorteos. Primero se escoge la probabilidad p , mediante un sorteo uniforme entre los números 0.25, 0.50 y 0.75. Luego, se sortea el valor de X conforme a una ley que depende del valor de p elegido .
•
La esperanza matemática de la distribución de X Y = j se denomina esperanza de X condicionada por Y= j, se simboliza por E{X 1 Y= j} y se calcula mediante la expresión 1
E{X 1 y = J} =
L
iP (X = i 1 y = J)
(1.58)
iEX(O )
La esperanza condicionada es una herramienta fundamental en el Cálculo de probabilidades. Su misión es del tipo clivide y vencerás, ya que reduce el problema a otros menores más fáciles de calcular.
82
UNIDAD DIDÁCTICA 1 Modelos probabilísticos discretos
l. 6
Variables aleatorias independientes La condición para que los sucesos {X= i}, {Y = j} sean independientes es
P(X = i,Y = j) = P(X = i)P(Y = j), Si, esta condición se verifica para todo i E X (O) y todo j E Y (O), diremos que X es independiente de Y. La independencia de dos variables significa que saber que Y = y no altera la distribución de probabilidad marginal de X, cualquiera que sea y E Y (O). La condición de independencia del variables, como la de sucesos, es simétrica: si la variable X es independiente de Y, también Y e independiente de X.
- 1~26~ Dos variables aleatorias X, Y definidas sobre un mismo espacio de
INDEPENDENCIA DE DOS
probabilidad son independientes si se cumple
VARIABLES
P(X = i,Y = j) = P(X = i)P(Y = j),
(1.59)
para cada par i E X(O),j E Y(O). La independencia de X e Y es una propiedad de su distribución conjunta.
La independencia de las variables suele ser una hipótesis previa, impuesta por la naturaleza del experimento en consideración; gracias a ella, se puede reconstruir la distribución conjunta sin más información que las marginales de X e Y; por ejemplo, si sabemos que X e Y son variables con distribuciones respectivas
P(X= 1)
1 4
2
= , P(X=2)=-
4
(1.60
y
1 P(Y = 2) = -
(1.61 4 no es posible, en general, conocer la distribución conjunta de X e Y, ni calcular las probabilidades conjuntas como P(X = 1,Y = 0), ya que hay muchas distribuciones conjuntas que tienen como marginales las distribuciones dadas. Sin embargo, si sabemos que las distribuciones marginales de X e Y son 1.6 y 1.61, y que son independientes, sólo puede haber una distribución conjunta que cumpla ese requisito, la que aparece en la tabla l. 7, ya que para cada i, j debe cumplirse:
P(X = i,Y = j) = P(X = i)P(Y = j) EJEMPLO 1.29 Si A y B son dos sucesos independientes, sus variables indicadoras. X =fA e Y = ls , también lo son. Las variables indicadoras sólo toman los valores O y l. Para probar que X e Y son independientes, debemos justificar que cumplen la igualdad 1.59 para los cuatro pares de valores posibles del par (x, y).
Variables aleatorias independientes
X= O X= 1 X= 2
Y=O
Y=1
Y=2
1116
2/16
1116
114
2116
4/16
2116
112
1/16
2/16
1116
114
114
1/2
114
83
Tabla 1.7
Las cuatro comprobaciones son parecidas. Basta tener que en cuenta que si A y S son independientes, también los son A y s e, Ae y S, y Ae y se. Por ejemplo, se cumple:
{X= 1,Y = 1} =AnS y, por ser A y S independientes, tenemos:
P(X = 1,Y = 1) = P(An S ) = P(A)P(S) = P(X = 1)P(Y = 1)
•
Los restantes casos se comprueban de manera semejante.
La condición de independencia de dos variables implica una propiedad, aparentemente, más general si dos variables X e Y son independientes, también son independientes los sucesos {X E A} y {Y E B}, cualquiera que sean A y B. Con otras palabras, si X e Y son independientes, cualquier suceso definido por una condición sobre X es independiente de cualquier suceso definido por una condición sobre Y. PROPIEDAD DE
1.27 Si A y B son sucesos y X e Y son variables aleatorias independientes, entonces se cumple
1
LAS VARIABLES
1
INDEPENDIENTES
P(X E A, Y E B) = P(X E A)P(Y E B)
(1.62)
La propiedad anterior nos lleva más lejos. El suceso {X 2 ::::; 4} está definido por una condición sobre X , pero también se puede interpretar como un suceso definido por una condición sobre una función de X. Basta poner f(x) = x2 para tener {X 2 ::::; 4} = {J(X) ::::; 4}, con esta interpretación, la propiedad de las variables independientes implica que dos funciones de X e Y, f (X) y g (Y), también son independientes. INDEPENDENCIA DE DOS FUNCIONES
,--
l 1.28
, Si X e Y son dos variables independientes y f y g son dos funciones, las variables J(X) y g(Y) son independientes.
84
UNIDAD DIDÁCTICA 1 Modelos probabilísticos discretos
EJEM PLO 1.30 Lanzarnos dos dados, sea X el resultado del primer lanzamiento e Y el resultado del segundo, postulamos que X e Y son variables independientes: esta independencia de las variables es una hipótesis derivada de las condiciones del experimento: nada de lo que suceda en el primer lanzamiento puede afectar al segundo. En particular, la independencia de X e Y supone que los sucesos {X> 2} e {Y > 4} son independientes, ya que el primero está definido mediante una condición impuesta a X y el segundo mediante una condición impuesta a Y. Se cumple:
P(X > 2,Y > 4) = P(X > 2)P(Y > 4) =
4 2
2
6 ·6 = 9
Por el contrario, los sucesos {X > 2} y {X + Y > 4} no son independientes:
P(X > 2,X + Y > 4)
23
4 15
= 36 # P(X > 2)P (X +Y > 4) = 6 ·IS
Esto no contradice la afirmación anterior, ya que {X+ Y > 4} no está definido, exclusivamente, por una condición sobre Y sino por una condición sobre ambas variables y depende del valor que toma X.
1.6.1
Conjuntos y sucesion es de variables independientes
La intuición nos señala que la variables, X¡ , X2, ... , Xn , serán independientes si conocer los valores que han tomado algunas, no modifica la distribución de las restantes. Si las variables X1, X2, . .. , Xn son independientes, cada par de variables del conjunto también lo serán, este modo particular de independencia se denomina dos a dos, definido en ?? . Sin embargo, que las variables sean independientes dos a dos no implica que sean independientes en conjunto. EJEMP LO 1.31
Lanzamos un dado dos veces; consideremos los sucesos: A = "la suma de los resultados es 7"
B ="el primer resultado es 3"
C = "el segundo resultado es 4" y las variables X =lA, Y = ls, Z = le. No es difícil comprobar que, dos a dos, son independientes: las variables X e Y son independientes, lo mismo que los pares X,Z y Z, Y . Pero, conjuntamente, las tres variables no son independientes, ya que si conocemos el valor de dos de ellas, el valor de la tercera está determinado. Por ejemplo, si X= 1 e Y = 1, es seguro que Z = l. Este ejemplo muestra que para lograr una definición de la independencia de varias variables acorde con la intuición, es necesario imponer restricciones adicionales a la independencia de cada par de variables. INDEP ENDENCIA D E VARIAS
=:1 :~= Las variables X1, X2, . .. , Xn, son independientes si se verifica n
VARIABLES
P(X¡ =x¡,X2 =x2, . .. ,X11 =xn) =
f1 P(Xk =xk) k=!
cualesquiera que sean X k E Xk (O), 1 :::; k :::; n.
(1 .63)
Variables aleatorias independientes
85
La independencia de varias variables puede extenderse a las sucesiones infinitas, con lo que logramos nuestro primer objetivo de dar sentido a un modelo que genere una sucesión ilimitada de números aleatorios. IND EPENDEN CIA DE UN A SUCESIÓN
l 1~3-01 Las variables de una sucesión {Xn} ;:'= 1 son independientes si las variables de cualquier subconjunto finito lo son. EJE MP LO 1. 32 Consideremos una serie ilimitada de lanzamientos de una moneda, cada vez que sale cara anotamos un 1 y cada vez que sale cruz anotamos un O, este proceso es el paradigma de una sucesión de variables aleatorias discretas independientes. Conocer el resultado de una serie de lanzamientos no modifica la distribución de los restantes; por ejemplo, si Xk es el resultado del lanzamiento k-ésimo, la variable Y definida por
Y
=
número de caras en los n primeros lanzamientos
=X¡ +X2 + ···+Xn es independiente de la variable Z definida por Z = número de caras entre el n + 1 y el 2n lanzamiento =Xn+l + Xn+z+ ··· +Xzn
Otra consecuencia interesante es que la serie de los lanzamientos impares {X2k_¡}, es una sucesión ilimitada de lanzamientos independientes y, en consecuencia, es una réplica probabilística de la serie total. •
1.6.2
Esperanza del pro ducto de variables independientes
Sumas y productos no conmutan, una suma de productos no es el producto de las sumas, este hecho implica que, en general, la esperanza del producto de dos variables no es igual al producto de las esperanzas; sin embargo, si dos variables, X e Y, son independientes, la esperanza y el producto de las variables conmutan y se verifica
E{XY} = E{X}E{Y} este hecho tiene gran importancia y se justifica sin dificultad:
E{XY}
=
L
L
xyP(X
= x,Y =y)
xyP(X
= x)P(Y =y)
xEX(O )yE Y(O )
L
L
xEX(O)yEY(O)
La expresión anterior puede ser simplificada, si separamos los factores que dependen de x y los que dependen de y, resulta
E{XY}
=
L
xP(X =x)
xEX(O)
=E{Y}
L
yP(Y =y)
yEY (O )
L
xP(X=x)
xEX (O )
=E{X}E{Y}
(1.64)
86
UNIDAD DIDÁCTICA 1 Modelos probabilísticos discretos
ESPERANZA DEL PRODUCTO DE
, _!.3J cidos
variables, X e Y, son independientes, la esperanza y el producto de las variables conmutan y se verifica
VARIABLES
E{XY} = E{X}E{Y}
INDEPENDIENTES
Esta propiedad tiene versiones más generales, si X e Y son variables independientes y f y g son funciones, las variables f(X) y g(Y) son independientes y se cumple (1.65) E{f(X )g(Y)} = E{f(X)}E{g(Y)} siempre que las esperanzas tengan sentido. La propiedad anterior sigue siendo válida en el caso den variables independientes: ESPERANZA DEL PRODUCTO
1.32 Si X; , 1 :::; i:::; n, son independientes y f¡, 1 :::; i:::; n, son funciones, las variables .fi (X¡) son independientes y se cumple k
k
E{fi.{;(X;)} = fiE{f¡(X;)} i=l
(1.66)
i= l
J 1.6.3 Varianza de la suma de variables ind ependientes Los resultados sobre el valor esperado de los productos de variables independientes permiten probar una propiedad de la varianza fundamental en Estadística; si X e Y son variables independientes con varianzas finitas , la varianza de X+ Y es + Justificar esta afirmación no es difícil, basta calcular la varianza de la suma y tener en cuenta las propiedades lineales del operador esperanza.
cri cr'f.
cri+Y = E{(X +Y- E{X +Y} ) 2 }
= E{(X -E{X} +Y -E{Y}) 2 } = E{(X -E{X} ?+ (Y -E{Y} )2 +2(X -E{X} )(Y -E{Y})}
= E{(X- E{X} ) 2 } + E{(Y- E{Y} f} + 2E{(X- E{X}) (Y -E{Y} )j Ahora, puesto que X e Y son independientes, también lo son f (X) = X -E {X} y g(Y) =Y- E{Y}, y se tiene
E{(X -E{X} )(Y -E{Y})} = E{X -E{X}}E{Y -E{Y}} pero, puesto que E{X- E{X}}
= E{X}- E{X} =O, resulta
E{(X -E{X})(Y -E{Y})} =O
Basta reemplazar arriba, para obtener VARIANZA DE UNA
1.33 Si X e Y son variables independientes con varianzas finitas, la varianza de la suma de las variables es ig ual a la suma de las varianzas.
1
SUMA DE DOS
crl +y = crl +
1
VARIABLES INDEPENDIENTES
La propiedad anterior es cierta para una suma de cualquier número finito de variables independientes. VARIANZA DE UNA SUMA DE
i Í._ 3 4 Si X¡, 1 ::; i ::; n, son independien tes y tienen varianzas finitas, se cumple
VARIABLES INDEPENDIENTES
1.6.4
Leyes de los gra ndes números
Una consecuencia directa de la desigualdad de CHEBYSHEV es un resultado conocido como ley débil de los grandes números, que afirma que el promedio de una serie de repeticiones independientes de una variable aleatoria se aproxima a la media de la variable. La Ley débil de los grandes números es un teorema que hace una afirmación sobre el comportamiento límite de una sucesión de variables aleatorias, el calificativo débil hace referencia a la clase de convergencia que se afirma, una convergencia denominada "en probabilidad", otros resultados, como la Ley fuerte de los grandes números, refuerzan esa afirmación asegurando que la convergencia se produce en un sentido más estricto llamado convergencia "casi segura", pero esta clase de resultados exigen métodos matemáticos fuera de nuestro alcance. Las Leyes de los grandes números junto con los resultados sobre el límite de las distribuciones (la aproximación de unas distribuciones por otras) son claves en el Cálculo de probabilidades, tanto por sus implicaciones teóricas como por su importancia en las técnicas del Muestreo estadístico y la Estadística. Afortunadamente, la demostración de la versión más simple de la Ley débil no requiere más que la desigualdad de CHEBYSHEV , lo que nos permite mostrar un ejemplo de esta clase de resultados. Consideremos una serie de pruebas repetidas independientes de un mismo experimento que modelamos mediante una sucesión X1 , Xz, . .. , de variables aleatorias independientes, todas con igual distribución y media y varianza finitas que designaremos por J1 y 2 . Pongamos que X n es la media aritmética de los valores observados en las n primeras pruebas, es decir
cr
X1 + Xz + ···+ Xn Xn = - - - - - - n
88
UNIDAD DIDÁCTICA 1 Modelos probabilísticos discretos
Puesto que la esperanza es un operador lineal, se tiene
1 E{X,} = - (E{X¡} +E{X2} + · · · +E{Xn}) n n}l -=}1 n
=
Por otra parte, sabemos que la varianza de X¡ 1n es a1 1n2 = a 21n2 y que l varianza de una suma de variables independientes es igual a la suma de las varianza, luego de la expresión X¡ X2 Xn Xn=-+-+ · ··+n n n
-
se sigue
()1.
x"
()2
= nn
Ahora, si aplicamos la desigualdad de CHEBYSHEV aXn , resulta:
Fijemos E > O tan pequeño como queramos y hagamos crecer n; el miembr de la derecha de la desigualdad tiende hacia cero, lo que implica: lím P(IXn- 111 > E)= O
n->=
(1.67
resultado que tiene una interpretación clara, la probabilidad de que el promedio Xn se aleje de la media Jl en más de una cantidad fijada E, tan pequeña como queramos, tiende hacia cero conforme aumenta el número de repeticiones de experimento; el resultado nos habla de un modo de aproximarse (de converger el promedio hacia Jl que, como hemos señalado, se denomina convergencia en probabilidad. En resumen, la Ley débil de los grandes números asegura, en las condiciones señaladas, que la media aritmética de los resultados de lo_ experimentos converge en probabilidad a la media de la distribución. EJEMPLO 1.33 Supongamos que las pruebas repetidas e independientes consisten en lanzar un dado repetidas veces y observar si ocurre un suceso A, que tiene probabilidad p de ocurrir en cada lanzamiento. La·manera de modelar estos experimentos e mediante una sucesión X, de variables indicadoras, ya que Xn indica si ha ocurrido e suceso A en el n-ésimo lanzamiento.
x- { "-
1 si A ocurre en el n-ésimo lanzamiento O si A no ocurre en el n-ésimo lanzamiento
Las variables Xn son independientes y tienen la misma distribución de BERNOULLI de parámetro p, con media p y varianza p ( 1 - p). El promedio
Xn =~(X¡ + X2 + ·· · + Xn) n
Variables aleatorias independientes
89
es la frecuencia con que ocurre A en los n primeros lanzamientos. La ley de los grandes números asegura que Xn converge a p, en ese sentido preciso que hemos denominado convergencia en probabilidad. •
La ley débil de los grandes números es una primera justificación teórica de la "ley empírica de regularidad de los promedios". La ley de los grandes números es esa ley misteriosa, tan importante como la ley de la gravedad, que impide que ocurran cosas como que un sábado por la noche, los restaurantes italianos estén abarrotados mientras que los demás restaurantes están vacíos, o que un mes de julio, casi todos los veraneantes decidan ir a la montaña, dejando las playas desiertas.
Modelos proba bi 1ísticos continuos
;
IN DICE 2.1 Variables aleatorias continuas 2.1.1 Puntos al azar en el continuo 2.1.2 Función de densidad de una variable aleatoria continua 2.1.3 Interpretación gráfica de la función de densidad 2.1.4 Valor esperado de una variable continua 2.1.5 Valor esperado de una función
2.2 Modelos de funciones de densidad 2.2.1 2.2.2 2.2 .3 2.2.4
Función de densidad uniforme Función de densidad exponencial Función de densidad normal Cálculos con la densidad normal
2.3 Funciones de distribución 2.3.1 F.unción de distribución de una variable discreta
2.3.2 Función de distribución de una variable continua 2.3.3 Función de distribución de una transformada 2.3.4 Transformaciones lineales
2.4 Vectores aleatorios continuos 2.4 .1 Funciones de densidad conjunta 2.4.2 Funciones de densidad marginales de densidad 2.4.3 Funciones condicionadas 2.4.4 Independencia de dos variables 2.4.5 Modelos dinámicos continuos 2.4.6 Valores esperados y momentos 2.4.7 Varianzas y covarianza de un vector a lea torio
Introducción
93
Muchos experimentos aleatorios se modelan mejor si suponemos que el Azar elige un punto perteneciente al conjunto de los números reales, R, en lugar de considerar que su elección está limitada a una serie finita o numerable de casos posible como ocurre en los modelos discretos; por ejemplo, para modelar el tiempo T que tarda en fallar un circuito electrónico, pero parece natural aceptar que T puede tomar como valor cualquier número real, dentro de un intervalo acotado, como (a, b ), o no acotado, como (O, oo). Ciertamente se puede argumentar que considerar la medida del tiempo como un valor en el "continuo" de los números reales no es más que una ilusión y, por exacto que sea nuestro instrumento de medida del tiempo, tiene una precisión limitada y al fin el valor de T medido sólo tiene un número numerable de valores posibles; pese a ser cierta esa objeción y aunque pueda parecer extraño, los razonamientos y cálculos en los modelos continuos suelen ser más sencillos que los correspondientes en el modelo discreto, por lo cual puede resultar conveniente esa idealización del fenómeno que supone admitir que podemos medir el tiempo con precisión ilimitada. En este capítulo estudiaremos los modelos aleatorios que suponen la elección de puntos en el conjunto de los números reales, modelos que denominaremos continuos. Definir un modelo probabilfstico en el conjunto R conlleva muchas más dificultades a la hora de dar un sentido preciso y formal a la noción de suceso y de definir la probabilidad de la manera más general posible, que en el caso de los modelos discretos. De hecho, para establecer una teoría matemática general de la probabilidad se precisan, inevitablemente, conceptos matemáticos no elementales que son parte de la teoría de la medida y la integral de LEB ESGUE . Nuestra intención es introducir la probabilidad sin más herramientas que el cálculo infinitesimal elemental, lo que nos exige evitar ese formalismo matemático; por este motivo, nos limitaremos a un campo muy restringido en el que los sucesos se reducen a intervalos o uniones de intervalos y a considerar, casi exclusivamente, las probabilidades definidas a través de lo que denominaremos funciones de densidad. Por otra parte, sin duda, éste es el mejor camino para iniciarse en los conceptos más abstractos de la teoría general, ya que los métodos que estudiamos introducen los conceptos principales y anticipan la necesidad de un enfoque más general. Repetiremos la estructura del capítulo anterior lo que debe ayudar a comprender mejor los conceptos y a establecer un interesante paralelismo entre las dos clases de modelos. Primero tratamos de formar la intuición del Azar en el continuo presentando el problema de la elección de un punto al azar en un intervalo; después trataremos la manera de definir la distribución de una variable aleatoria continua y sus características numéricas, valor espera-
94
UNIDAD DIDÁCTICA 2 Modelos probabilísticos continuos
do, varianza, etc., en paralelo a lo expuesto en el capítulo anterior; seguiremos con un catálogo de modelos de distribuciones continuas unidimensionales, para pasar al análisis de las distribuciones de los vectores aleatorios continuos. exactamente en el mismo orden que estudiamos los problemas análogos de Jos modelos discretos.
Variables aleatorias continuas
2.1
Variab les aleatorias continuas
2.1.1
1
4
1
2
Figura 2.1
95
Puntos al azar en el continuo
Un paradigma del experimento que consiste en elegir un punto al azar en un intervalo es la ruleta representada en la figura 2.1. Nuestra ruleta es ideal, su aguja puede detenerse en cualquier punto X de la circunferencia, no es como la ruleta de los casinos que tiene un número finito (discreto) de paradas posibles. Si consideramos que la circunferencia tiene longitud 1, el intervalo (0, 1] sirve para describir los posibles valores que puede tomar X; esta ruleta está perfectamente equilibrada y es una máquina capaz de elegir al azar un número del intervalo. Para formular el modelo matemático de sorteo de un punto del intervalo (O, 1] mediante la ruleta, debemos dar un método que permita calcular la probabilidad, P(A), de cualquier suceso A; aquí es donde surge la gran diferencia entre lo discreto y lo continuo, si intentamos repetir los pasos que dimos al formular el modelo discreto, por ejemplo la elección de un número al azar entre una serie finita de números, trataríamos de calcular la probabilidad de que un punto determinado, x, sea elegido, puesto que la ruleta está perfectamente equilibrada, la probabilidad p = P(X = x) debe ser constante, cualquiera que sea x; ahora, si p f- O, la condición de que la suma de todas las probabilidades sea uno es imposible, ya que
L xE(ü,l ]
P(X =x)
=
L
p
= oo
xE (O, l ]
y la única alternativa que tenemos es que P(X = O) = p = O, para todo x. Resulta así que, para dar sentido a este modelo, precisamos un concepto que admita que la probabilidad de elegir cualquier punto es O y, sin embargo, que la probabilidad total sea l. Ese concepto sería semejante al de la longitud, ya que admitimos que la longitud de cada punto de un segmento es O y que la longitud de todo el segmento y de cualquiera de sus subsegmentos es positiva. Una buena ayuda para nuestra intuición es establecer una analogía que existe entre las distribuciones de probabilidad y las distribuciones de masa que estudia la Física, un hilo metálico muy delgado nos sugiere un sistema en el que la masa de cada punto es cero, ya que un punto es demasiado pequeño para tener masa, pero que cualquier trocito (subintervalo) del alambre tiene masa positiva. Al mirar el hilo, hecho de un material homogéneo, tenemos la intuición de una masa repartida por igual (uniformemente) en una longitud; además, la uniformidad del reparto implicaría que dos pedazos de igual longitud pesan lo mismo, con independencia de su posición relativa en el alambre. El experimento aleatorio que modela el comportamiento de la ruleta sugiere una intuición semejante a la del reparto de masas en el hilo metálico, para que se satisfagan las condiciones de KOLMOGOROV, debemos suponer que P(X = x) =O, cualquiera que sea x E (O, 1] y, para dar sentido matemático a la intuición "el Azar no tiene preferencia por ningún punto", abandonaremos el procedimiento que
96
UNIDAD DIDÁCTICA 2 Modelos probabilísticos continuos
seguimos al plantear el modelo del caso discreto y estudiaremos la probabilidad de que el punto elegido pertenezca a un intervalo 1 dado, postulando que P(X E 1) sólo depende de la longitud de 1 y no de su posición relativa en (O, 1 ]. Ese postulado tiene consecuencias numéricas inmediatas. Por ejemplo, si dividimos el intervalo (O, 1] en n subintervalos, /¡, 1 :::; i :::; n, de igual longitud, J.t = (i-n l 'nl] ' debe ser
P(X E!¡) + P(X Eh)+ ··· + P(X E In)= nP(X E !¡ ) = 1 lo que implica P(X E!¡)= J!(!¡) = 1/n, donde J!(I) es la longitud de/. Por otra parte, puesto que cualquier subintervalo (a, b] e (O, 1 ] se puede aproximar por subintervalos disjuntos de la forma (¡~¡,~],resulta:
P(XE (a,b]) = J!((a, b ]) =b - a
(2.1)
Así, nuestra primera observación: que en el modelo continuo la probabilidad de un punto debe ser cero, P(X = x) =O, se confirmará como consecuencia demostrable, ya que el conjunto {x} es el límite de los intervalos (x - ~ ,x], y se cumple:
P(X = x) = lím P(X E (xn --t oo
~,x]) n
= lím n--too
~=O n
Si 1 es otra clase de subintervalo, por ejemplo, cerrado 1 = [a, b] , no es difícil razonar que la probabilidad P(X E 1) también es igual a J!/, ya que se tiene
P(XE [a,b ]) =P(X E (a,b])+P(X=a) =b-a+O=b-aJ!(I)
(2.2)
En resumen, en el modelo de la elección de un punto al azar en el intervalo (O, 1] , la probabilidad de que el punto elegido pertenezca a un subintervalo 1 es igual a su longitud, esta sencilla observación permite asignar una probabilidad a los sucesos de la forma {X E!}, donde 1 es un subintervalo y X es un punto elegido al azar en un intervalo y a cualquier otro suceso que pueda ser reducidos a uniones de sucesos disjuntos de la forma X E /. Por ejemplo, si elegimos un número X al azar en el intervalo (O, 1 ], el suceso "su cuadrado sea mayor que 1 / 3" esta definido por la condición X 2 > 1/ 3, que es equivalente a X > 11.J3 y tenemos
P(X 2 > 1/ 3) = P(X
E
(1/vf3, 1])
Puesto que el intervalo ( 11 .J3, 1] tiene longitud
P(X 2 > 1/ 3) = P(X
E
1 - 11 .J3, resulta
(1/ V3, 1])
=
1
1- .j3
Si el intervalo J en el que escogemos un punto al azar no tuviera longitud igual a 1, una sencilla modificación de los razonamientos anteriores nos permite deducir una fórmula para la probabilidad de cualquier suceso, si dividimos J
Variables aleatorias continuas
97
en n subintervalos de igual longitud, h,n, h,n, . . . , In,n• un razonamiento similar nor lleva a deducir que todos los subintervalos tienen la misma probabilidad de contener el punto elegido y que se cumple
P(X
E
h,n)
=
P(X
E
h,n)
= ··· =
P(X
E
h ,n)
1
= -;¡ =
R(l¡ ) / R(J)
Ahora, cualquier intervalo I e J se puede aproximar por una unión de intervalos de la forma h ,n, de manera que la suma de las longitudes de los intervalos que aproximan a I tiende a la longitud de I; por paso al límite, obtenemos que la probabilidad de X E I es igual a la longitud de I dividida por la longitud de J.
R(!)
(2.3)
P(X E I) = R(J) d e,aimos un punto X al azar en el intervalo l O], la probabilidad de que sea mayor que
fórmula que tiene una notable semejanza con la "regla de LAPLACE" para la elección al azar de un elemento dentro de un conjunto finito casos favorables casos posibles
7
X> 3)= P (X E( 3, !0])= lO =0.7 probabilidad de que esté comprendido en1 y 6, es
5 < X< 6) = P(X E (1,6)) =lO = 0.5 probabilidad de que su cuadrado sea meo igual que 50 es igu al a P(X 2 ::; 50) = X :::; v'sü) , luego
X2 :S 50) = P(X E (O,__v 'sü ]) =
x 2 :::; 50)"" 0.707.
!
Es interesante observar que, tanto en el modelo discreto como en el continuo, la probabilidad es la relación entre la medida de lo favorable a la medida de lo posible, con la diferencia que, en el modelo discreto, se la medida se obtiene contando el número de casos de cada clase, mientras que en el continuo, se mide el tamaño geométrico de las regiones formadas por los puntos "favorable" y los "posibles" . EJEMPLO 2.1 Escogemos un punto X al azar en el intervalo J bilidad de que su cuadrado sea 0.25 es:
P(X 2 > 0.25 ) = P( {X > 0.5} U {X < -0.5} ) f(( 0.5, 1]) f([- 1, -0.5)) = f (J) + f (J )
= [-1 , 1] . La proba-
1 =
2
La clave del cálculo anterior es la caracterización del suceso X 2 > 0.25 . Aquí debemos tener en cuenta que X puede tomar valores negativos y que la condición necesaria y suficiente para que X 2 > 0.25 se cumpla es que se verifique alguna de las dos condiciones, X > 0.5 ó X < - 0.5. •
Los razonamientos anteriores sobre el modelo uniforme en un intervalo de la recta real se pueden aplicar a otros conjuntos de naturaleza geométrica de espacios de dimensión mayor, por ejemplo, el cuadrado unidad C2 = [O, 1] x [O, 1] de R 2 , un cubo cualquiera de R 3 o a la circunferencia de centro el origen y radio r
s2 = {(x,y) x2 +l 1
=
1}
El modelo continuo que denominaremos uniforme, que consiste en elegir un punto al azar en conjunto que sea, es similar en todos los casos, elegir un punto al azar en cualquiera de esos conjuntos siempre significa que la probabilidad
98
UNIDAD DIDÁCTICA 2 Modelos probabilísticos continuos
de que el punto elegido pertenezca a un subconjunto es igual al cociente entre la medida geométrica correspondiente, longitud, área, volumen, etc. , del subconjunto favorable y la medida del espacio total. Por ejemplo, si elegimos un punto (X,Y) al azar en el cuadrado C2 = [O, 1] x [O, 1], la probabilidad de que Y sea mayor que 2X es igual al área de la región favorable a Y > 2X dividida por el área total del cuadrado que es igual a l. La recta Y = 2X divide al cuadrado en dos regiones; la región inferior, B, está formada por los puntos que verifican Y < 2X ; la región superior. A, que aparece coloreada en la figura 2.2, está formada por los puntos que verifican Y > 2X. La región A está formada por los pares (X , Y ) "favorables" al suceso Y > 2X; se sigue
A
q 1! "",
B
o
P(Y > 2X )
1 Figura 2.2
PROBA BILIDAD GEO MÉT RICA
=
área(A) área total
(2.4
La región A es un triángulo rectángulo, sus catetos tienen longitudes 1 y 1 /2. respectivamente, puesto que el área es igual a la mitad del producto de los catetos , resulta área (A) = 1/ 4; basta reemplazar en la expresión 2.4, para obtener P(Y > 2X ) = 1/ 4.
L 2.1
j Si se elige un punto P al azar en un conjunto A de algún espacio euclídeo, R , R 2 , R 3 , etc., la probabilidad de que el punto elegido pertenezca aBe A es P(P E B) = _m_ed_id_a...,....(B-7-) (2.5) medida(A)
La probabilidad geométrica nos brinda la posibilidad de elegir la dimensión del espacio en el que planteamos nuestro problema, lo que proporciona un método muy flexible para resolver problemas que, originalmente, están planteados en un espacio de diferente dimensión. El ejemplo siguiente muestra una aplicación de esta técnica. EJ EMPLO 2.2 Elegimos dos puntos al azar en el intervalo [0, 1], sea 1 el intervalo que tiene como extremos los dos puntos elegido. Si queremos calcular la probabilidad de que 1 tenga longitud menor que 1/2, la primera impresión es que se trata de un problema en una dimensión, ya que ambos puntos se eligen en el intervalo [O, 1] , sin embargo, el cálculo es mucho más sencillo si lo planteamos como la elección de un punto (X, Y) al azar en el cuadrado unidad y tomamos la abscisa X como primer punt y la ordenada Y como segundo punto. El intervalo que determinan los dos punto elegidos es (X ,Y) si X :::::; Y, ó (Y,X ) si Y :::::; X; en cualquier caso, su longitud es igual a IX- YJ. Para que se cumpla IX- Yl < 1/ 2, el punto (X,Y) elegido tiene que pertenecer al subconjunto A que aparece coloreado en la figura 2.3, comprendido entre la recta de ecuación x- y = 1/ 2 y la recta de ecuación y- x = 1 / 2; se sigue
o Figura 2.3
P(IX _ Yl < ~ ) = ,área(A) = ~ 2
area total
4
Observemos que este resultado no es evidente de antemano, de cada cuatro veces que
Variables aleatorias continuas
99
hacemos la elección, tres veces el intervalo aleatorio que formamos tiene una longitud menor que 1/ 2. •
2.1.2
Función de densidad de una variable aleatoria continua
La elección de puntos al azar en el intervalo [O, 1] introduce el concepto de variable aleatoria continua y el método que emplearemos para describir su distribución 1 . En las variables discretas, el modelo está determinado cuando se conocen las probabilidades de que la variable alcance cada valor posible; en las variables continuas, esas probabilidades no aportan información porque siempre son cero. En la descripción de las variables continuas son los intervalos los que juegan un papel semejante al de los puntos en las discretas, y la distribución de probabilidad de una variable continua está determinada por las probabilidades de la forma P (X E (a, b]). En los modelos uniformes (elección de un punto al azar), la descripción anterior es sencilla, basta decir que P (X E (a,b]) es proporcional ab-a; sin embargo, en los modelos no uniformes, una descripción basada en describir de alguna manera las probabilidades P(X E (a, b ]) es demasiado complicada. Para lograr una descripción más sencilla de la distribución recurrimos, por segunda vez, a la intuición física de las distribuciones de masa. Imaginemos un alambre construido con una aleación variable de plomo y cobre, el extremo izquierdo del alambre es cobre puro y el extremo derecho plomo puro, de manera continua, la proporción de plomo de la aleación aumenta de izquierda a derecha. Este alambre no es homogéneo y, a diferencia del uniforme, el peso de un trozo de longitud l depende de su posición en el alambre; cuánto más cerca del extremo derecho se encuentre el trozo, tanto más pesará. Para describir este sistema de masas, los físicos han inventado la noción de densidad. Este concepto se maneja en dos contextos; uno es macroscópico: la densidad media es una propiedad de un intervalo, I, se define como el cociente masa de I longitud de I En el segundo contexto, la densidad es una propiedad microscópica, es la densidad en el punto x, que representaremos por f(x), definida como el límite
j (X )
,
masa del intervalo (x- h,x + h) __:._
= h~ - - - -- -2-h__:._ __
En Matemáticas, el límite anterior es una operación bien conocida, la densidad de masa se nos presenta como la derivada de la masa y la masa como la integral de la densidad. Más formalmente, si f(x) es el valor de la función de densidad 1
Las variables que consideraremos, en la teoóa general se denominan absolutamente continuas
100
UNIDAD DIDÁCTICA 2 Modelos probabilísticos continuos
en el punto x, la masa contenida en cualquier intervalo se calcula mediante fórmula: masa del intervalo (a, b) =
1b
f ( t) dt
La analogía entre probabilidad y masa es casi total, salvo que la probabilidad está acotada ya que la probabilidad de todo el conjunto posible es 1, que la masa puede tomar valores arbitrariamente grandes. La noción de densidad de probabilidad se obtiene e interpreta exactamente igual que la funció densidad de masa y permite describir con facilidad distribuciones de probabilidad de variables continuas y no uniformes, donde la probabilidad se concentra más en unas regiones que en otras. e----
FUNCIÓN DE DENSIDAD DE PROBABILIDAD
----¡
__ } .2
Cualquier función que cumpla las condiciones:
l. f( x)2:0. 2.
~~ f(t)dt = 1
Se denomina función de densidad de probabilidad. Cada función de densidad de probabilidad determina una distribución ~ probabilidad sobre R. Para precisar el término, diremos que una variable aleatoria X es continua si su distribución está determinada por una función de densidad; la probabilidad del suceso {X E 1}, donde 1 es un intervalo, se calen mediante la expresión
= Jf(t)dt
P(X E I)
semejante a la fórmula 2.6 para calcular la masa a partir de la densidad "' masa. Por ejemplo, la función f(x) definida por 2
si X E
f(x) = {2x,
[0, 1]
six \t' [0, 1]
O,
es una función de densidad de probabilidad porque verifica f(x) 2: O para to x E R, y cumple Figura 2.4: Densidad f (x) = 2x
¡
+oo f(t)dt
-
=
lo! 2tdt = t o
00
2
11 = 1 o
Si X es una variable aleatoria con función de densidad f, entonces X valores en el intervalo ~O , lj y se tiene P(0.1 < X < 0.2)
= P(X
E
(0.1,0.2))
=
0.2
1 0.1
2tdt
= 0.03
Variables aleatorias continuas
101
Observemos que la función de densidad es creciente en el intervalo [O, 1], ver figura 2.4, esto significa que si I e [O, 1], la probabilidad P(X E I) es mayor cuanto más a la derecha esté situado I ; por ejemplo, se tienen
P(X E (0.7,0.8 ])
= 0.01 = 0.07 = 0.15
P(X E (0.9, 1.0 ])
= 0.19
P(X E (0.0,0.1 ]) P(X E (0.3, 0.4 ])
EJEMPLO 2.3
Función de densidad uniforme.
Las funciones de densidad de una distribución uniforme en un intervalo 1 se caracterizan por ser constantes sobre los puntos de 1 y cero sobre los restantes Si la función de densidad no fuera constante, habría zonas de "alta densidad" y otras de "baja densidad" y la probabilidad de un subintervalo de longitud dada dependería de su posición, lo que estaría en contradicción con la hipótesis de uniformidad. La función de densidad uniforme en el intervalo 1 se define por:
3
6
1
6
f (x) = - 1
o
2
{e,O,
si x E 1 si x tf_ 1
(2.9)
donde la constante e se determina por la condición :
Como
1
dt = f( 1 )
resulta e= 1/ f(1). Con esta definición 2.9, P (X E !) depende sólo de la longitud del intervalo y no de su posición en J. Además, si 1 = (a, b], se cumple: P(X
E!) =
1 ¡b edt
=
edt
= e (b- a ) =
~~~~
que coincide con la fórmula 2.3. La gráfica de la función de densidad uniforme en el intervalo 1 = ( -1 , 2]. aparece representada en la figura 2.5 . •
2.1.3
Interpretación gráfica de la función de densidad
En este apartado interpretaremos gráficamente las condiciones que definen a una función de densidad de probabilidad f(x) y los cálculos para calcular la probabilidad del suceso X E J, donde I es un intervalo. La primera condición que debe cumplir una función para ser densidad es f(x) ~ O, esto supone que la gráfica de y = f(x) está contenida en el semiplano y ~ O. La segunda condición es
¡
+=
-
00
J(t)dt =
1,
102
UNIDAD DIDÁCTICA 2 Modelos probabilísticos continuos
-4
-3
- 2 -1
o
2
3
4
Figura 2.6: Interpretación geométrica de P(a < X
< b)
lo que implica que el área comprendida entre el eje de abscisas y la gráfica de y = f (x) es igual a l. Ahora, si X tiene densidad f, la probabilidad P (X E (a, b]) se calcula mediante la fórmula
P(X E (a,b]) =
¡b
f(t) dt
luego el área de la región comprendida entre el eje de abscisas, las rectas x = a, x =by la gráfica de y= f(x) es, precisamente, igual a P(X E (a,b ]); por ejemplo, en la figura 2.6, el área de la región sombreada es igual a P( -3 <
X:S-1). Si f es una función continua en x = O y h es suficientemente pequeño, se cumple:
de manera semejante, si f es continua en 2 y ponemos h = (2, 2 + h], se tiene P(X Eh) ;: : :; f(2) ·h. Observamos que en la función de densidad representa-
}¡
h
Figura 2.7: Interpretación geométrica de f(x)
da en la figura 2.7, f(O) es mucho más grande que f (2) y, en consecuencia, es mucho más probable que X pertenezca al intervalo ]¡ que al intervalo h , aunque ambos intervalos tienen la misma longitud. Los valores máximos de f(x) indican las regiones de alta concentración de la probabilidad. Es importante notar que los valores de la función de densidad no son probabilidades, como la función de densidad de masa no se mide en las mismas unidades que la masa; por ello, no debe extrañar que una función de densidad de probabilidad tome valores arbitrariamente grandes. La interpretación intuitiva correcta
Variables aleatorias continuas
103
de los valores f(x) es que f(x )dx es una aproximación de la probabilidad de que X E (x,x+dx] . EJEMPLO 2.4 Hemos señalado que los valores de las funciones de densidad no son probabilidades; por ello, las funciones de densidad pueden tomar valores arbitrariamente grandes, este ejemplo muestra una función de densidad que no está acotada. La
2.0
1.5
!.O 0.5
- ]
Figura 2.8: Función de densidad no acotada
función definida por
f (x) = { 2 jx , sixE (0, 1] six~ ( O,l ]
O,
(2.1 O)
cuya gráfica se representa en la figura 2.8, es una función de densidad de probabilidad. Cumple la dos condiciones de las funciones de densidad, la primera condición, f(x ) 2: O, es evidente, y la segunda se satisface ya que se tiene
!
+=
-=
f (t ) dt
=
11
l
r. dt o 2vt
= (Vil~= 1 Ahora, cuando x
1 O, se tiene 1 límf(x) = lím- = xlO
xlO 2y'X
oo
luego f(x) , es una densidad que no está acotada ya que toma valores arbitrariamente grandes cerca del origen. •
2.1.4
Valor esperado de una variable continua
Consideremos una variable aleatoria continua X que toma valores en un intervalo; para fijar ideas, supongamos que el intervalo es I = (O, 1]. La esperanza matemática de X es, intuitivamente, el promedio de los valores que toma la variable y de las probabilidades con que alcanza esos valores; ahora, puesto que la variable es continua y P(X = x) =O para cada valor posible x, no podemos multiplicar valores por probabilidades como hicimos con las variables discretas. Aproximemos la variable continua por una discreta, dividamos
104
UNIDAD DIDÁCTICA 2 Modelos probabilísticos continuos
el intervalo I en n subintervalos iguales de,
O n
1 n
2 n
n- 1 n
n n
0=- < -<- < ··· < --<-=1 y recordemos que cuando h es pequeño, se tiene P(x :::::; X :::::; x + h) ~ f (x Imaginemos que la probabilidad P(k/n
lol
L
Cuanto mayor sean, más próxima estará la suma a la integral; parece definir el valor esperado de X como el límite de las variables discretas que aproximan. VALOR ESPERADO DE UNA VARIABLE
r --· · - -· · "~
~--
La esperanza matemática o valor esperado de una variable X co función de densidad f es la integral:
CONTINUA
E{X}
= L~tf(t)dt
(2.12
siempre que la integral sea finita. Por ejemplo, si X una variable con función de densidad
f(x)
={
113 O,
'
si X E ( -1,2] si x ¡i ( - 1, 2 ]
el valor esperado de X es
E{X} =
L~ tf(t)dt
¡-l t~dt + ¡+oo =~. t~ [1= ~
=
Odt+j
-00
2
- 1
3
)2
Odt
Observemos que E {X}= 1/ 2 es el punto medio del intervalo ( -1, 2]; este hecho es razonable por ser X un punto elegido al azar en el intervalo; en general. el valor esperado de una variable uniforme en el intervalo (a, b 1es su punto medio (a+ b) /2. Una variable discreta que toma un número finito de valores siempre tiene un valor esperado finito; cuando se trata de variables continuas puede ocurrir que
Variables aleatorias continuas
105
la integral que define E{X} sea infinita, en tales casos diremos que la variable no tiene valor medio. Por ejemplo, la función f definida por
f(x)
~ { ~-
2
si x 2:: 1 si x < 1
es una función de densidad ya que f(x) 2:: O y
¡+=
f( x) dx
=
-=
¡+=
1 2 dx
1
= --1
X
X
1
+=
=
1
1
Si X es una variable continua que tiene función densidad igual af, se tiene:
Figura 2.9: Densidad f (x ) = x- 2 , para x 2: 1
E{X}
=
!""
tf(t)dt
1
=
!"" ~dt = 1
t
lnt
1"" = oo 1
La variable X no tiene esperanza matemática; observemos que la integral es infinita porque aunque el integrando t f(t) decrece hacia cero cuando t -----7 oo, no lo hace con la rapidez necesaria para que la integral sea convergente.
2.1.5
Valor esperado de una función
El valor esperado de una función Y = g(X) se define de manera similar a la esperanza de X; de nuevo, un razonamiento heurístico para justificar la fórmula es el siguiente: la probabilidad de que X tome valores entre x y x + dx es f (x) dx y, si X E ( x, x + dx] y g es una función continua, entonces g (X) es aproximadamente igual a g (x) ; por ello, una valor que aproxima E {g (X)} es
Lo que sugiere definir la esperanza matemática de g(X) como el promedio de los valores de g(X) respecto de la función de densidad de X: E{g(X)}
=
¡_:=
g(t) f(t) dt
(2.13)
106
UNIDAD DIDÁCTICA 2 Modelos probabilísticos continuos
Un caso particular muy importante de valor esperado de una función de es la varianza de X, que se define como la esperanza de la función g(X
(X -E{X}) 2 . ai
¡+oo =Loo (t-E{X}) 2 f(t)dt
Si desarrollamos el cuadrado del binomio en la integral anterior y simplifi mos el desarrollo, obtendremos una fórmula semejante a la obtenida para variables discretas
(2.
fórmula de mucha utilidad para calcular la varianza de una variable contin Por ejemplo, consideremos una variable aleatoria X que tiene función densidad dada por
2
f(x)=
o
{
si O < x :::; 1/2
4x 4-4x
si1/2
O
en otro caso
1/ 2
Figura 2.10: Densidad triangular
Esta función de densidad se denomina triangular y aparece representada en figura 2.1 O. Para calcular la varianza de X mediante la expresión 2.14, calcularemos los valores esperados de X y de X 2 . De acuerdo con la definición, E {X es igual a la integral 1
E{X} =
fo xf(x) dx
Ahora, la función de densidad está definida de dos maneras diferentes seg ' que x pertenezca a [O, 112] ó [ 1/2, 1], por eso descomponemos en dos la integral y reemplazamos el valor correspondiente de f(x).
E{X} =
1 lo1/2 ¡1 loo xf(x)dx = o xf(x)dx+ 1/2xf(x)dx 1/2x4xdx+ ¡1 x(4-4x)dx = loo 1/2 1/2 ¡1 (x-x )dx =4 x dx+4 loo 1/2 4 \1 /2 2 3\1 = -x +4(~- ~ 3 o 2 3 1/2 2
2
3
1 1.
--------------------------------------------------------
'.Jaúa.b\e~ a.\ea.toúa.~ conúnua.~
De manera semejante calculamos el momento de segundo orden E{X 2 }. 1
E{X 2 } = { 2 f(x)dx = {
lo
112
lo 11 = f \ lo
1
2 f(x)dx+ { 2 f(x)dx lt /2 2
lo
= x4
4xdx+ { 2(4-4x)dx lt / 2
11
=4 {
1
\
3 dx+4
¡t
(2 - x3 )dx
lt / 2
3 411 1/2 +4(~-~ 3 4 1/2 1o
7 24 Por 2.14, la varianza de X es igual a (J
2
X
2 2 7 1 1 = E{X } - (E{X}) = - - - = -
24
4
6
\\)1
UNIDAD DIDÁCTICA 2 Modelos probabilísticos continuos
108
2. 2
Modelos de funcion es de densidad En este apartado mostraremos un breve catálogo de algunas de las funciones de densidad que aparecen más frecuentemente en las aplicaciones. En el próximo capítulo, completaremos este catálogo con las densidades que son consecuencia del cálculo de diversas funciones dependientes del muestreo aleatorio.
2.2.1
Función de densidad uniform e
Como ya hemos visto, su paradigma es elegir un punto al azar en el intervalo; consideremos que el intervalo es [a, b], con a < b, lu función de densidad está definida por 1 - - , si x E [a , b ] f (x ) = b-a { O, six~[a, b ] La gráfica de esta función aparece representada en la la figura 2.11, es una función constante en el intervalo, de esta manera el reparto de probabilidad es uniforme en todo el intervalo, la constante es tal que el área total bajo la gráfica es igual a la unidad. La esperanza de una variable uniforme X es
E{X}= rt_!!!_=a+b
la
b- a
(2.15)
2
y el momento de segundo es igual a a
b
Figura 2.11
ay su varianza
cri = E{X 2 } - (E{X} )2 = ___!_ (b- a) 12
2
La importancia de la función de densidad uniforme en [O, 1] radica en que a partir de ella, mediante una transformación adecuada, se puede obtener una variable aleatoria que tenga cualquier otra distribución dada, por ello, la distribución uniforme es clave en la técnica de simulación ya: si disponemos de un mecanismo, físico o lógico, capaz de sortear número al azar en el intervalo [O, 1], podemos simular cualquier distribución de probabilidad, discreta o continua, mediante una transformación de los datos obtenidos. Más adelante insistiremos en esta técnica y, en el próximo capítulo, mostraremos las transformaciones que permiten obtener las distribuciones más importantes.
2.2.2
Funci ón de densidad exponencia l
Su paradigma es el tiempo que tarda en desintegrarse un átomo de una masa de material radioactiva, la duración de una llamada telefónica o el tiempo de
Modelos de funciones de densidad
109
funcionamiento de un dispositivo hasta que se avería. La función de densidad exponencial de define por
~ {~e "', si x 2: O si x
f (x)
(2.16)
como podemos observar, está función depende de un parámetro A > O; cuánto mayor es A, más rápidamente decae la función y mayor probabilidad se acumula en el entorno del origen; en la figura 2.12 se representa la gráfica de esta densidad para A, = l. Las distribuciones exponenciales tienen una propiedad
o
2
3
Figura 2.12: Función de densidad exponencial
característica similar a las de las distribuciones geométricas: carecen de memoria, si X tiene distribución exponencial de parámetro A > O, se verifica:
P(X > x)
=
¡=
A.e- A.t dt
X
=
e- A.t
1== e-.:tx,
para x >O
X
lo que implica
P(X > x + h i X > x)=
P(X >x+ h) A. ( ) =e- h =P(X>h) P X >x -
La igualdad P (X > x + h X > x) = P (X > h) se interpreta: si transcurren x unidades de tiempo sin que el suceso que esperamos haya ocurrido, el tiempo que tarda en ocurrir el suceso tiene la misma distribución que tenía al principio, esta propiedad implica que un suceso que tarda en ocurrir un tiempo exponencial se comporta como un proceso sin envejecimiento, el suceso ocurre súbitamente, sin que haber esperado mucho tiempo sin que ocurra haga más probable su próxima aparición. La esperanza matemática de una variable exponencial es 1
E{X}
=la"" t A.e-A.t dt
110
UNIDAD DIDÁCTICA 2 Modelos probabilísticos continuos
esta integral se calcula por partes; si hacemos u= t y v' u' = 1 y v = -e- Al, resulta:
= Ae- Jct, con lo que
fooo t Ae-At dt = -te-At 1 ~ + fooo e- Al dt
=
oo + - ¡e1 loo At o
-te- Atlo
1
A
Johann Carl Friedrich Gauss, nació en Brunswick (Alemania), en 1777, y murió en Giittingen (Alemania) en 1855. Desde la escuela elemental destacó por su capacidad para las matemáticas. Con el apoyo del duque de Brunswick, estudió en la universidad de Giittingen. El primero trabajo que le hi zo famoso fue la construcción de un polígono regular de 17 lados con regla y compás, problema abierto desde los tiempos de Euclides. Inventó el método de los mínimos cuadrados para predecir la posición del pequeño planeta Ceres, descubierto en 1801 , del que sólo se tenían unas pocas posiciones. A la muerte del duque, le nombraron director del observatorio astronómico de Giittingen, donde trabaj ó hasta su muerte.
Lo que implica E{X} = 11A. Para calcular E { X 2 } , tras integrar por partes dos veces, obtenemo E {X 2 } = 21A2 ; como consecuencia, la varianza de la distribución exponencial es igual a (2.17)
2.2 .3 Función de densidad norm al La función de densidad normal está definida por -(x-p_)1/2a 2 ~ e , !( x ) = _1_
-oo
v2nCJ
< X< oo
(2.18)
observamos que depende de dos parámetros f..L y CJ; se demuestra que f..L es la media de la distribución y CJ 2 es su varianza; así, más que una única distribución se trata de una familia de distribuciones, ya que para cada valor de f..L y (J hay una distribución normal distinta. En 1733, DE MOIVRE ya usó la distribución que hoy denominamos normal para aproximar probabilidades relacionadas con variables binomiales que tenían un parámetro n muy grande, después, la distribución normal cayó en el olvido hasta que, en 1809, GAUS S la utilizó en sus investigaciones astronómicas para predecir la posición de los objetos estelares, en su honor, se denominó distribución gaussiana. Durante la segunda mitad del siglo XIX y principios del siglo XX, nació y se se desarrolló la estadística como técnica auxiliar de las investigaciones agronómicas y biológicas ; dada la enorme frecuencia con que los datos provenientes de los experimentos de mejora vegetal y de mediciones de seres vivos se ajustaban a la distribución de GAUSS, se llegó a creer Figura 2.13: Johann Carl Friedrich que "lo normal" era que los datos que provienen de experimentos biológicos Gauss se distribuyan según una gaussiana; por esta razón, PEARSON la denominó distribución normal, término por el que hoy es generalmente conocida. Para referimos a la distribución normal de parámetros f..L y CJ emplearemos el símbolo JY(f..L,CJ ); por ejemplo, diremos que la función 2.18 es la función de densidad de la distribución JY (f..L , CJ) y que la función de densidad -oo
Modelos de funciones de densidad
111
0.3 0.2 0.1
-3
'
'
-2
- 1
o'
'
3
Figura 2.14: Función de densidad JY (0, 1)
es una densidad JY (O, 1), la más sencilla de todas las densidades normales que aparece representada en la figura 2.14. Puesto que f(x) = f( -x), la función de densidad JY (O, 1) es simétrica; además es monótona creciente en ( -=,0).
2.2.4
Cálculos con la densidad normal
Las distribuciones normales tienen una importante propiedad que simplifica el cálculo de probabilidades, si a una variable normal le aplicamos una transformación lineal, la variable que resulta también es normal; esta propiedad significa que el cálculo de la probabilidad de un suceso definido en términos de una variable JY (J.l, cr) se reduce al cálculo de la probabilidad de un suceso definido por una variable JY (O, 1) . TRANSFORMACIÓN LINEAL DE UNA
__2±_.. Si X es una varia ble con distribución J V (J.l , cr ) y a, b E R, entonces aX + b tiene distribución normal de media:
VARIABLE
E { aX + b} = aE {X} + b = aJ.l + b
NORMAL
y varianza: 2
craX+b
2 2 2 2 2 = crax =a CJx =a cr
Ahora, como va 2 cr 2 = iaicr, podemos enunciar la propiedad anterior diciendo que la variable aX + b tiene distribución JY (aJ.l + b, ial cr). Por ejemplo, si X tiene distribución JY ( -1, 2), entonces la variable Y = -X tiene distribución JY ( 1, 2), la variable W = 2X - 1 tiene distribución JY (- 3, 4) y la variable Z = X 12 tiene distribución JY ( -1 12, 1). Un caso particular extremadamente importante es el siguiente, si X tiene distribución JY (J.l, cr), la variable Z=X-J.l (}
tiene distribución JY (O, 1) S se acostumbra a designar por Z a las variables con distribución JY(O, 1)). La transformación
X
X-J.l f----t - -
(}
=Z
112
UNIDAD DIDÁCTICA 2 Modelos probabilísticos continuos
que consiste en restar la media y dividir por la desviación típica se denomina tipificar de la variable X, la tipificación permite reducir cualquier cálculo que haya que hacer con una distribución JV (f.l, a) a un cálculo con la distribución JV (0, 1); por ejemplo, si X tiene distribución JV ( 1, 2), el cálculo de P(X :S: 2) se reduce a un cálculo con la distribución JV (O, 1): 2-1) P(X :S: 2) = P ( X - -1 = P(Z :S: 0.5) - :S: - -
2
2
donde Z =(X -1) /2 tiene distribución JV(O, 1). De la expresión de la función de densidad JV (O, 1), se sigue
P(X :S: 2)
=
P(Z :S: 0.5)
¡
0.5
=
- =
1 2 ~e-t 12 dt
v2n
(2.19)
Desgraciadamente, la función primitiva de e- 12 12 no se puede expresar en términos de las funciones elementales y la integral debe calcularse mediante algún método numérico. La tabla 2.1 y el ejecutable del disco que acompaña a este libro permiten calcular los valores de =
1 2 - - e- 1 12 dt
1 v'2ii z
para cada z ~ O, de centésima en centésima, por lo que podemos hallar cualquier probabilidad normal con una buena aproximación. Observemos que la tabla 2.1 sólo muestra los valores P(Z > z) para z ~O, estos datos son suficientes para calcular cualquier probabilidad ya que, por la simetría de la función de densidad, se tiene
P(Z < -z) = P(Z > z),
z >O
Expresión que permite calcular P(Z > z) para cualquier z.
~ -z
~
O
Figura 2.15: P (Z
-z
z
< -z) = P (Z > z)
EJEMPLO 2.5 En la tabla 2.1 encontramos P(Z > 0.5) = 0.3085, a partir de este valor podemos calcular
P(Z :S: 0.5 )
= 1-
P(Z > 0.5 )
= 1-0.3085 = 0.6915
con lo que calculamos la expresión 2.19 P(X :S: 2) = 0.6915. También, podemos calcular P(Z < - 0.5 ) = P(Z > 0.5) = 0.3085 y
P(Z 2 -0.5)
= 1- P(Z < -0.5 ) = 0.6915
Modelos de funciones de densidad
113
(0, 1) )¡¡¡e-' 12 dt , para z 2: O de centésima en centésima)
DISTRIBUCIÓ N NORMAL P (Z
> z) = fz=
2
~ o
z
z
.. 0
.. 1
.. 2
.. 3
.. 4
.. 5
.. 6
..7
.. 8
.. 9
0.0 0.1 0.2 0.3 0.4 0.5
0.5000 0.4602 0.4207 0.3821 0.3446 0.3085
0.4960 0.4562 0.4168 0.3783 0.3409 0.3050
0.4920 0.4522 0.4129 0.3745 0.3372 0.3015
0.4880 0.4483 0.4090 0.3707 0.3336 0.2981
0.4840 0.4443 0.4052 0.3669 0.3300 0.2946
0.4801 0.4404 0.4013 0.3632 0.3264 0.2912
0.4761 0.4364 0.3974 0.3594 0.3228 0.2877
0.4721 0.4325 0.3936 0.3557 0.3192 0.2843
0.4681 0.4286 0.3897 0.3520 0.3156 0.2810
0.4641 0.4247 0.3859 0.3483 0.3121 0.2776
0.6 0.7 0.8 0.9 1.0
0.2743 0.2420 0.2119 0.1841 0.1587
0.2709 0.2389 0.2090 0.1814 0.1562
0.2676 0.2358 0.2061 0.1788 0.1539
0.2643 0.2327 0.2033 0.1762 0.1515
0.2611 0.2297 0.2005 0.1736 0.1492
0.2578 0.2266 0.1977 0.1711 0.1469
0.2546 0.2231 0.1949 0.1685 0.1446
0.2514 0.2206 0.1922 0.1660 0.1423
0.2483 0.2177 0.1984 0.1635 0.1401
0.2451 0.2148 0.1867 0.1611 0.1379
1.1 1.2 1.3 1.4 1.5
0.1357 0.1151 0.0968 0.0808 0.0668
0.1335 0.1131 0.0951 0.0793 0.0655
0.1314 0.1112 0.0934 0.0778 0.0643
0.1292 0.1093 0.0918 0.0764 0.0630
0.1271 0.1075 0.0901 0.0749 0.0618
0.1251 0.1056 0.0885 0.0735 0.0606
0.1230 0.1038 0.0869 0.0721 0.0594
0.1210 0.1020 0.0853 0.0708 0.0582
0.1190 0.1003 0.0838 0.0694 0.0571
0.1170 0.0985 0.0823 0.0681 0.0559
1.6 1.7 1.8 1.9 2.0
0.0548 0.0446 0.0359 0.0287 0.0228
0.0537 0.0436 0.0351 0.0281 0.0222
0.0526 0.0427 0.0344 0.0274 0.0217
0.0516 0.0418 0.0336 0.0268 0.0212
0.0505 0.0409 0.0329 0.0262 0.0207
0.0495 0.0401 0.0322 0.0256 0.0202
0.0485 0.0392 0.0314 0.0250 0.0197
0.0475 0.0384 0.0307 0.0244 0.0192
0.0465 0.0375 0.0301 0.0239 0.0188
0.0455 0.0367 0.0294 0.0233 0.0183
2.1 2.2 2.3 2.4 2.5
0.0179 0.0139 0.0107 0.0082 0.0062
0.0174 0.0136 0.0104 0.0080 0.0060
0.0170 0.0132 0.0102 0.0078 0.0059
0.0166 0.0129 0.0099 0.0075 0.0057
0.0162 0.0125 0.0096 0.0073 0.0055
0.0158 0.0122 0.0094 0.0071 0.0054
0.0154 0.0119 0.0091 0.0069 0.0052
0.0150 0.0116 0.0089 0.0068 0.0051
0.0146 0.0113 0.0087 0.0066 0.0049
0.0143 0.0110 0.0084 0.0064 0.0048
2.6 2.7 2.8 2.9 3.0
0.0047 0.0035 0.0026 0.0019 0.0013
0.0045 0.0034 0.0025 0.0018 0.0013
0.0044 0.0033 0.0024 0.0018 0.0013
0.0043 0.0032 0.0023 0.0017 0.0012
0.0041 0.0031 0.0023 0.0016 0.0012
0.0040 0.0030 0.0022 0.0016 0.0011
0.0039 0.0029 0.0021 0.0015 0.0011
0.0038 0.0028 0.0021 0.0015 0.0011
0.0037 0.0027 0.0020 0.0014 0.0010
0.0036 0.0026 0.0019 0.0014 0.0010
3.1 3.2 3.3 3.4
0.0010 0.0007 0.0005 0.0003
0.0009 0.0007 0.0005 0.0003
0.0009 0.0006 0.0005 0.0003
0.0009 0.0006 0.0004 0.0003
0.0008 0.0006 0.0004 0.0003
0.0008 0.0006 0.0004 0.0003
0.0008 0.0006 0.0004 0.0003
0.0008 0.0005 0.0004 0.0003
0.0007 0.0005 0.0004 0.0003
0.0007 0.0005 0.0003 0.0002
Tabla 2.1
114
UNIDAD DIDÁCTICA 2 Modelos probabilísticos continuos
En todos estos cálculos debemos tener en cuenta que P(Z = z) =O, lo que implica P (Z
:S z)
= P(Z
< z),
P(Z ?.
z) =
P (Z
> z)
Otro ejemplo, si X tiene distribución JV( -1 ,4), para calcular P(X::; -2) razonamos así: primero, como P (X = -2) =O, se tiene P(X
:S -2) = P(X < - 2)
segundo, tipificamos X y resulta P (X
< -2) = P (
X- (-1) - 2 -( -1)) < 4 4
= P(Z < -0.25)
tercero, por la simetría, resulta P (Z
< -0.25) =
P (Z
> 0.25) = 0.4013
luego P(X < -2) = 0.4013.
•
La distribución normal juega un papel principal entre todos los modelos de distribuciones ya que modela los fenómenos que son resultado de añadir un gran número de efectos independientes. Desde el punto de vista teórico, los resultados que justifican la afirmación anterior se denominan teoremas centrales del limite; uno de los más sencillos, enunciado de manera informal, afirma UN TEOR EMA CE NTRAL DEL LÍMITE
~
2.5 _ La suma tipificada de un gran número de variables independientes e igualmente distribuidas con varianza finita tiene una distribución aproximadamente normal de media cero y varianza uno, con independencia de la distribución que tengan las variables que se sumen.
Funciones de distribución
2. 3
115
Funciones de distribución Las funciones de distribución son la herramientas que permite elaborar una teoría general de la probabilidad capaz de establecer resultados válidos para todas las distribuciones posibles, sin necesidad de distinguir entre lo continuo y lo discreto, ni de emplear herramientas diversas según el caso, como estamos haciendo en esta introducción elemental. La función de distribución, en cada punto x, devuelve el valor de la probabilidad acumulada en el intervalo ( -=,x], esto es, la probabilidad de que la variable aleatoria toma valores menores o iguales que x.
FUNCIÓN DE
2.6
Sea X una variable aleatoria. La función F: R
f-----7
R definida por:
DISTRIBUCIÓN
F (x ) =P(X5:_}.: ),
paracadaxER
se denomina función de distribución de X.
La función de distribución describe cómo se reparte la probabilidad entre los valores de X, cada distribución de probabilidad tiene una función de distribución y cada función de distribución describe una única distribución de probabilidad. Las propiedades características de las funciones de distribución se deducen de las propiedades de la probabilidad; primero, si x < x, entonces {X 5:_ x} e {X 5:_ x} y se tiene F(x) 5:_ F(x) luego Fes no decreciente; segundo, para cada x, si h 1 O, se tiene
límF(x+h) =límP(X5:_x+h) =P(X5:_x) =F(x) hl O
hl O
luego F es continua por la derecha; tercero, lím F(x) = lím P(X 5:_ x) = P(X E R) = 1 X---7oo
x----+oo
y
lím F(x) = lím P(X 5:_ x) = P(X E 0) =O
X--t - oo
X---+-oo
Estas tres propiedades caracterizan a las funciones de distribución, es decir, la condición necesaria y suficiente para que una función sea de distribución es que cumpla las tres propiedades. CARACTERIZACIÓN DE LAS FUNCIONES DE DISTRIBUCIÓN
2.7
Toda función de distribución F verifica las propiedades siguientes
l. F es no decreciente: si x < x', se tiene F (x) 5:_ F (x'). 2. F es continua por la derecha: límhlOF (x + h)
= F (x) .
3. Se cumple límt-+=F(x) = 1 ylímt-+-=F(x) =O. Recíprocamente, si una función F cumple las tres propiedades anteriores, es una función de distribución, es decir existe una variable aleatoria X tal que F(x) = P(X 5:_ x) para cada x real.
116
UNIDAD DIDÁCTICA 2 Modelos probabilísticos continuos
A partir de la función de distribución podemos calcular la probabilidad de cualquier suceso, la clave es la igualdad
P(a < X
~
b) = P(X
~
b) - P(X
~a) =
F(b) - F(a)
(2.20)
Sobre los métodos de cálculo, discretos o continuos, que hemos estudiado, esta expresión tiene la ventaja de no depender del tipo de variable que estemos considerando, tanto si X es discreta como si es continua, como si es de otras clases que no estudiamos, el cálculo de la probabilidad de {X E (a, b ]} siempre es el incremento de la función de distribución. Por otra parte, para calcular P(X < b) basta hallar el límite
P(X < b) = lím P (X hlO
~
b - h) = lím F (b - h) hlO
Observemos que límhlOF ( b - h ) es el límite de F en b por la izquierda, este límite siempre existe (por ser F no decreciente) y lo designaremos por F ( b-) . Gracias a esta notación, podemos dar fórmulas semejantes a 2.20 para calcular P(X E I) cualquiera que sea el intervalo /. Si 1 = [a, b ], resulta:
P(a ~ X
~
b) = P(X
~
b) - P(X < a) = F (b) - F(a- )
(2.21)
Si 1 = (a, b ), tenemos:
P(a < X < b) = P(X < b) -P(X ~a )
=
F (b- ) -F (a)
(2.22)
Por último, si 1 = [a, b), se obtiene:
P(a ~ X
<
b) = P(X < b)- P(X < a) = F(b-) - F(a- )
Gracias a la notación anterior, podemos expresar la probabilidad de X
P(X =a) = P(X
~ a)
(2.23)
=a
-P(X
y, puesto que F es continua por la derecha, será continua en un punto si y solamente si es continua por la izquierda, lo que equivale a F (a- ) = F (a). De la expresión anterior se sigue que F es continua en el punto x = a si y solamente si P(X = a) = O. Si F es una función de distribución, sólo caben dos casos: ó Fes continua en x =a y P(X =a) =O, ó F tiene un salto en x = a y P(X =a) es igual al tamaño del salto F(a)- F(a- ).
2.3.1
Función de distribución de una variable discreta
Las funciones de distribución de las variables discretas que sólo toman un número finito de valores con probabilidad positiva son funciones con forma de escalera, tienen un salto en cada valor de la variable y son constantes en los restantes puntos.
Funciones de distribución
117
Consideremos, por ejemplo, una variable X discreta con distribución binomial de parámetros n = 3, p = 1/ 2, su función de probabilidad es
P(X =O)= 0.5
1
, 8
P(X = 1) = P(X = 2) =
3
8,
1 P(X = 3) = 8
Para calcular su función de distribución, Fx (x), y dada la naturaleza de X, distinguiremos cuatro casos .
o
2
3
Figura 2.16: F(x) discreta
• Si x < O, entonces Fx (x) = O, ya que X no puede tomar valores menores o iguales que x < O. • Si O:Sx< 1, entonces {X :Sx} ={X= O} y Fx(x) = P(X =O)= 0.125. • Si 1 ::; x < 2, entonces {X :Sx} ={X= O} U{X = 1} y Fx(x ) = P(X = O) + P(X = 1) = 0.5. • Si 2 ::; x < 3, entonces {X ::; x} = {X = O} U {X = 1} U {X = 2} y Fx(x) = P(X =O) + P(X = 1) +P(X = 2) = 0.875 . • Por último, si x 2: 3, entonces
{X :Sx} = {X = O} U {X = 1} U {X = 2} U{X = 3} y Fx(x) = P(X =O) + P(X = 1) + P(X = 2) + P(X = 3) =l. En resumen, la función de distribución Fx está defina por
Fx (x) =
o
six < O
0.125
si O ::; x < 1
0.5
si 1 ::; x < 2
0.875
si 2::; x < 3
1
si x 2: 3
la gráfica de Fx se representa en la figura 2.1 6. Observamos que tiene cuatro saltos, tantos como valores posibles de X; el tamaño de cada salto es igual a la probabilidad concentrada en el punto; por ejemplo, P(X = 1) = 0.375, que es el tamaño del salto de Fx en el punto x = 1, ya que F (1) = 0.5 y F (1-) = 0.125 y
P(X = 1) = F(1)- F (1 - ) = 0.375 en particular, tenemos que la suma de los saltos es igual a uno. Además, entre cada salto, la función es constante, lo que indica que no hay probabilidad en ese intervalo; por ejemplo, se tiene De acuerdo con las fórmulas generales, para calcular
P (1
lJ NIDAD DIDÁCTICA 2 Modelos probabilísticos continuos
2.3.2
Función de distribución de un a variable continua
Si X es una variable continua con función de densidad f(x), la función de distribución de X está dada por
como consecuencia, Fx (x) es una función continua monótona creciente. Por ejemplo, si X es una variable aleatoria exponencial de parámetro A = 1, puesto que su función de densidad es igual a O, si x < O, e igual a e-x, si x 2:: O, para hallar su función de distribución distinguiremos dos casos; primero, si x < O, entonces F (t) = O para cada t :S x, y se tiene
Fx(x) =
¡:=
Odt =O
segundo, si x 2:: O, entonces F(t) =O para cada t
=-e - t IX = 1 -e -
X
o En resumen, Fx es igual a si x :S O six >O La figura 2.17 muestra la gráfica de Fx. Observemos que la derivada de la
0.75 0.5 0.25
o
Figura 2.17: Función de distribución exponencial A,
=
1
función de distribución es igual a la función de densidad. Esta observación nos da la clave para averiguar si una función de distribución dada tiene densidad y cómo calcularla.
Funciones de distribución
EXISTENCIA Y CÁLCULO DE LA FUNCIÓN DE
119
2.8 Sea X una variable aleatoria y F su función de distribución, supongamos que F' (x ) existe salvo para un número numerable de puntos; si se cumple
¡_:
DENSIDAD
F' (t ) dt
=
1
entonces X es continua y su función de densidad es igual a F'.
Por ser no decreciente, se puede asegurar que cualquier función de distribución tiene derivada en todos los puntos salvo quizá un número numerable de ellos, por ejemplo, una función de distribución discreta con número ñnito de saltos tiene derivada cero en todos los puntos menos en los saltos. Por ello no basta que una función sea la derivada de la función de distribución en todos los puntos salvo un número numero para asegurar que su densidad, es preciso comprobar que la derivada integra uno.
Por ejemplo, la función Fx que hemos calculado más arriba es derivable en todos los puntos excepto en x = 0 2 , su derivada es six O y cumple
¡_:
0
F?(x) dx
= /_ = Odx+ la"" e-x dx = 1
condición que garantiza que F~ es la densidad de Fx.
2.3.3
Función de distribución de una transformada
Dada una variable aleatoria X, nos planteamos hallar la de distribución de otra variable Y= f (X) que es función o transformada de la primera. Este problema es crucial en Simulación, ya que algoritmo esencial del computador es la generación de dígitos al azar y debemos generar cualquier distribución mediante la transformación adecuada de estos dígitos con distribución uniforme. El método que seguiremos es hallar la función de distribución de Y a partir de la distribución de X. Gracias a la función de distribución, podemos saber si Y es una variable discreta o continua, y calcular su función de probabilidad o de densidad en cada caso. La idea de este método no puede ser más sencilla, para cada intervalo /, se cumple
P(Y E !) = P(X E g- 1 (!))
(2.24)
donde g- 1 (!) = {x; g(x) E!}; en particular, si aplicamos lo anterior al intervalo I = (-=,y], se tiene
Fy(y) = P(Y :S y) = P(g(X ) :S y) = P(X
1
E g- (!))
En cada caso concreto, hay que estudiar el conjunto g- 1 (!)y calcular su probabilidad, ese análisis depende de cada función g particular, a continuación analizamos un caso particularmente importante de aplicación de esta técnica. 2 No
cero.
tiene importancia que F no sea derivable en x =O, ya que la integral sobre un punto es
120
UNIDAD DIDÁCTICA 2 Modelos probabilísticos continuos
2.3.4
Transformaciones lineales
Si conocemos la distribución de X con función de densidad fx (x) y función de distribución Fx (x); supongamos que calcular la distribución de Y = aX + b, con a > O; tenemos g- 1 (y) = (y- b) 1a y resulta
Fy(y)
= P(Y :S y)= P (aX + b :S y)= P (X :S
ahora, se tiene 171 (
ry
dFx(~)
y ) -_
dy
-_ -1J+:X
a
y-b
-a-)= Fx
(y -b) -a-
(y-b) a --
Por ejemplo, si X es una variable exponencial de parámetro A la función lineal de X, Y = 3X - 1, tenemos
= 1 y que Y es
1 (y+ 1)
Fy (y) = P(3X -1 :S y) = P(X :S -y+- ) = Fx 3
- 3
(2.25)
ahora, dado que la función de distribución de una variable exponencial de parámetro A = 1 es igual a
_ {O Fx (x ) 1- e-x resulta
si x :::; O si x > O
o
Fy (y)
si y:::::: -1
= { 1- e -(y+ 1)/3
si y> -1
De la expresión anterior, se sigue
F{ (y)
o = { _31e- (y+ 1)/3
si y < -1 si y > - 1
además, la integral de esta función es igual a 1,
¡" ~ e-(y+1)/3
dy = -e-(y+ 1)/3 1oo = 1
- 13
- 1
luego la función
jy(y) =
o
{ 3e
1 - (y+ 1)/ 3
si y:::::: -1 . 1 s1 y>-
es la función de densidad de Y. Observemos que hemos completado la definición de F{, poniendo jy ( -1) = O, lo que no altera el valor de la integral. El punto clave de la aplicación de esta técnica es el correcto manejo de la igualdad 2.24, lo que supone manejar desigualdades y deben seguirse con cuidado las propiedades de las desigualdades, fundamentalmente, la propiedad:
Funciones de distribución
121
si multiplicamos cada miembro de una desigualdad por un número positivo, la desigualdad conserva su sentido mientras que, si multiplicamos cada miembro por un número negativo, la desigualdad cambia de sentido; por ejemplo, si X es una variable con función de densidad
f(x ) y consideramos la variable Y de Y hacemos
~ {~
si X E (1, 2) si x ¡t ( 1, 2)
= 1 - 2X, para calcular la función de distribución
Fy (y) = P ( 1 - 2X :S y) = P ( - 2X :S y - 1) = P (X ?_ ( 1 - y) /2) ya que la división por -2 cambia el sentido de la desigualdad. Una interpretación gráfica del cálculo de la distribución de Y se muestra en la figura 2.18. Dado que X toma valores en el intervalo (1,2), la variable Y toy
~: ¡••···················..............• -4
Figura 2.18
mar á valores en (- 3, -1 ), la figura 2.19 muestra la interpretación geométrica de la igualdad 2.24; en este caso Y = g(X) = 1- 2X y, para calcular P(Y E ( -2.2, - 1.8 ]), tenemos I = ( - 2.2, -1.8 ] y g- 1 (!) = ( 1.4, 1.6], así resulta
P (Y E ( -2.2, -1.8 ]) = P (X E (1.4, 1.6]) =
¡
1. 6
2x -
1.4
3
dx
= 0.2
De manera semejante podemos calcular la probabilidad de cualquier otro intervalo. Para calcular P(X ?_ (1 - y) / 2) a partir de la función de densidad de X, es preciso discutir si ( 1 -y) /2 pertenece o no al intervalo ( 1, 2) . • Si y:::; -3 , entonces (1-y)/2 ?_ 2 y se tiene:
Fy(y) =
¡=
(1- y)/ 2
f(x)dx =
¡=
(1-y)/2
Odx = O
122
UNIDAD DIDÁCTICA 2 Modelos probabilísticos continuos y
-1
-1.8
-2.2 -3
-4
Figura 2.19
• Si -3
< y < -1, entonces 1 < ( 1 -y) 12 < 2 y se tiene: Fy (y) =
l
oo
f (x) dx =
(1-y)/2
2.x 16- (1- y)2 dx = -----'----'--.:...._ (1-y)/2 3 12
12
-
• Por último, si y ;:: -1, entonces ( 1 -y) 12 ::; 1 y se tiene:
Fy(y)
=
l
oo
f(x)dx =
(1-y)/2
¡2 1
2x
-dx = 1 3
En resumen, la función de distribución de Y es igual a:
o Fy (y) =
si y::; -3
[16 -
{1
( 1 -y) 2 ] 112
si -3
< y < -1
si y;:: -1
F;
La derivada existe en todos los puntos salvo en y= -3 e y= -l. Se comprueba que la integral de F; es igual a l. Se sigue que Y tiene función de densidad dada por Jy (y)
= { ( 1 -y) 16 0
si -3 < y < - 1 si y 5t' (- 3, -1)
La figura 2.20 insiste en la interpretación gráfica de la igualdad 2.24. Hemos representado la gráfica de la transformación Y = 1 - 2X y las funciones de densidad de X e Y. La igualdad 2.24 implica que para cada intervalo las áreas correspondientes son iguales. El cálculo de la distribución de una transformada Y = g(X) cuando g no es una función lineal exige cierto cuidado para establecer correctamente conjunto g- 1 ( ( -oo, y]) para cada y real, como muestra el ejemplo siguiente.
Funciones de distribución
123
y
-4
Figura 2.20
EJEMPLO 2.6 Consideremos una variable aleatoria X con función de densidad uniforme en ( -1 , 1) ,
j (X ) = { 1 / 2 O
si X E (- 1, 1) si x ~ ( - 1, 1)
y calcularemos la función de densidad de la variable Y= X 2 . La figura 2.21 permite
.)'_ __
-1
-1 ;r!'
- .¡y (b)
(a)
Figura 2.21
interpretar esta transformación, puesto que X toma valores entre - 1 y 1, la variable Y tomará valores entre O y l. Para calcular Fy (y) es preciso analizar el conjunto {X 2 :s; y}; como justifica de manera gráfica la figura 2.21 (b), se cumple la igualdad
{Y
:s; y}= {X 2 :s; y} = {-VY :s; X :s; VY}
que es válida para cada y> O; en consecuencia, para O< y< 1, se tiene
Fr(Y) = P( -VY :s; X Es sencillo comprobar que Fr (y)
:s; VY) =
¡
.¡y 1 -dx = - .¡y 2
= O, si y :s; O, y Fy (y) =
1, si
VY y ~ 1; en resumen, la
124
UNIDAD DIDÁCTICA 2 Modelos probabilísticos continuos
función de distribución de Y es igual a si y:::; O si O < y < 1 si y Observemos que
~
1
F{ existe salvo en los puntos y = O e y = 1 y que, además, se tiene
lo F{ (y) dy = 1 1
lo que implica que Y tiene función de densidad dada por 1
2-JY o
si0
•
Vectores aleatorios continuos
2. 4
125
Vectores aleatorios continuos
2.4.1
Funciones de densidad co njunta
Si una distribución de probabilidad continua en un intervalo es análoga a la distribución de masas o de carga eléctrica en un hilo o alambre metálico, una distribución de probabilidad continua en un rectángulo, Re R2 , es análoga a una distribución de masas o de carga eléctrica en una lámina rectangular de espesor despreciable. Para describir el reparto de la masa o la carga eléctrica en la lámina se recurre al concepto de densidad de masa o carga, una función que asigna a cada punto de la lámina un valor de manera que la masa total de una parte o subconjunto de la lámina se obtiene "acumulando" la densidad de masa sobre todos los puntos del subconjunto, para realizar esa "acumulación" se necesita una herramienta matemática que generaliza la integral definida sobre un intervalo o sobre la recta real al plano R 2 o al espacio R n. Pongamos que la densidad de masa es cr (x, y), si la densidad de masa es constante, es decir la masa está uniformemente repartida en la superficie, el problema de evaluar la masa que tiene una región contenida en el rectángulo es inmediato, la masa de cualquier región es igual a su área multiplicada por la densidad constante. Ahora, supongamos que la función densidad, (x, y) f---7 cr (x, y), no es constante pero que tiene buenas propiedades, por ejemplo, que es continua, si dividimos el rectángulo R en pequeños rectángulos de lados muy pequeños flx y tly , (x,x +fu] x (y, y+ tly ], la densidad en todos los puntos del pequeño rectángulo será aproximadamente igual a la densidad en el centro del rectángulo, luego en primera aproximación, podemos considerar que la densidad en cada pequeño rectángulo es constante e igual a la densidad en su centro; así, la masa del pequeño rectángulo es igual a cr (x¡,y 1 ) fl y tlx, donde (x¡,y 1 ) son las coordenadas del centro del pequeño rectángulo. Si sumamos la masa de todos los pequeños rectángulos, obtenemos una aproximación de la masa total del rectángulo Masa total~ LLcr(x¡,yj)tlytlx i
(2.26)
j
Intuitivamente, parece que cuánto más pequeños hagamos los lados de los rectángulos, mejor será la aproximación y que, en el límite, será igual a la masa total del rectángulo. Esa intuición puede demostrarse, cuando tlx ____, O y tly ____, O, las sumas anteriores convergen hacia un valor límite que consideramos el valor del área total; en este caso, ese valor límite está dado por una operación sobre la densidad que se denomina integral doble, extendida al rectángulo total, la integral doble es una generalización de la integral sobre un intervalo que ya hemos manejado. Masatotal=
lím
LLcr(x¡,y1 )flyflx = (( cr(x,y) dydx
L'.x--+ O,L'.y--+0 . l
.
J
JRJ
126
UNIDAD DIDÁCTICA 2 Modelos probabilísticos continuos
De manera similar, la masa de una parte del rectángulo, por ejemplo de un rectángulo I x 1 e R, se aproxima por una suma semejante a la que aparece en 2.26 restringida a los pequeños rectángulos que estén contenidos en A, en el límite, se tiene Masa de A= jj cr(x,y)dydx IxJ
Lo que da importancia a los resultados anteriores es que el cálculo de la integral doble se reduce a calcular dos integrales simples sucesivas, esto se conoce como teorema de FUBINI y su funcionamiento lo mostraremos con unos ejemplos un poco más adelante. A semejanza con las distribuciones de masa en R 2 , diremos que la distribución de probabilidad de un vector aleatorio bidimensional, (X,Y), admite una densidad si existe una función f(x,y) tal que la probabilidad de que el vector (X , Y) pertenezca a cualquier rectángulo se puede obtener como la integral de f(x,y) sobre el rectángulo. DISTRIBUCIÓN BIDIMENSIONAL CONT INUA
_ 2_1_ Diremos que un vector aleatorio (X ,Y) tiene distribución de probabilidad continua si existe una función J(x,y), que denominaremos función de densidad bidimensional conjunta o simplemente función de densidad conjunta tal que
P(XE/¡,YEh ) = jjJ(x,y)dydx /¡
(2.27)
Xh
Para que una función f(x,y) sea una densidad conjunta debe cumplir dos condiciones similares a las de las densidades unidimensionales, la primera condición es que sea no negativa, de manera que sea cual sea el rectángulo sobre el que la integremos, el resultado sea positivo; la segunda condición es que asigne una probabilidad total que asigna sea igual a 1 PROPIEDADES CARACTERÍSTICAS DE LAS FUNCIONES DE DENSIDAD
~1 O_ Una
función f (x,y) es una función de densidad conjunta si verifica las condiciones siguientes l. f (x,y) 2:: O, para - oo
< x < + oo, - oo < y < + oo.
2. jj f(x ,y)dydx = 1 R2
La condición 2.27 es más fuerte de lo a primera vista puede parecer, toda función, f (x, y), que la cumpla, también verifica:
P( (X,Y) E B) =
¡¡
(x,y )EB
f(x,y) dydx
(2.28)
'Jeclm:es a\ea\.onos conúnuos
12"7
para una clase de conjuntos B e R 2 mucho mayor que la clase de los rectángulos de la forma/¡ x h denominada clase de los conjuntos de BOREL. ; la clase de los conjuntos de BOREL es muy compleja pero, para nuestros fines, basta saber que contiene a todos los subconjuntos de R 2 que se pueden obtener a partir de los rectángulos mediante operaciones numerables de unión, intersección y complementarios, como son todos los conjuntos que manejamos en este curso. EJEMPLO 2.7
La función definida por
(x,l) 1
f(x ,y) = { x +y
1
O
1
siO:::;x:::; l,O:::;y:::; 1 en otro caso
(2.29)
1
Q
1 1 1 1
o
1 X
es una función de densidad conjunta de una distribución definida en el cuadrado unidad Q = [O, 1] x [O, 1], ya que cumple las dos condiciones, la primera condición es evidente, f(x,y) 2:: O; para comprobar la segunda condición, necesitamos calcular la integral
jj f(x,y ) dydx = 1
Figura 2.22
(x,y)EK
Por el teorema de FUBINI, este cálculo se reduce a calcular dos integrales simples, la pequeña dificultad estriba en poner los límites de integración de manera que todos los puntos de la región sobre la que integramos, en este caso el cuadrado Q, estén contados y que no haya más puntos que los de esta región. Primero pondremos límites a la variación de las abscisas de los puntos de Q y luego a la variación de las ordenadas; no es imprescindible seguir este orden, sería igual si primero ponemos límites a la variación de las ordenadas y después a la de las abscisas. Si observamos la figura 2.22, comprendemos que la abscisa x de cualquier punto (x,y) E Q, varía entre O y 1, entonces escribimos
jj f(x,y)dydx= 1dx j f(x,y)dy 1
(x,y)EQ
A continuación, fijamos un valor x dentro del rango de variación de las abscisas, x E [O, 1], y analizamos cuál es el rango de variación de y de tal manera que el punto (x,y) pertenezca a Q, siendo x el valor fijado; ese rango de variación, en general, será función de x. Este análisis es muy sencillo si empleamos la gráfica de la región sobre la que la función de densidad está definida, en este ejemplo es casi trivial; en la figura 2.22 aparece señalada la abscisa x y si trazamos la recta vertical formada por los puntos del plano que tienen esa abscisa, observamos que pertenecen a Q aquéllos puntos tales que su ordenada está comprendida entre Oy 1; este análisis vale cualquiera que sea x dentro de su rango de variación x E [O, 1] y ponemos
jj f(x,y)dydx= !al dx !al f(x,y)dy (x,y) EK
UNIDAD DIDÁCTICA 2 Modelos probabilísticos continuos
128
El cálculo de la integral doble se ha reducido a dos integral iteradas
jj f(x,y)dydx = la
1
(fo f(x,y) dy) dx 1
(x,y) EK
(fo (x+y)dy) dx 1
=la! Primero, calculamos la integral
que es una integral respecto de y en la que consideramos a x una constante,
f 1(x+y)dy= (xy+L211
Jo
2
0
1
=x+2
después calculamos la integral respecto de x ¡
loo
1
2
1 dx = ( x- + -x (x +-)
2
2
11
=x-22
1
2 o
= 1
luego f (x,y) es una función de densidad bidimensional. Para calcular la probabilidad de un suceso emplearemos la fórmula 2.28; por ejemplo, si (X , Y) es un vector aleatorio con función de densidad f(x,y) y queremos calcular la probabilidad del suceso {X + Y :S: 1}, se tiene
P(X +Y :S: 1/2) =
+ :X:
J_,
(x, 1-.X) <
B
o
1
l
f(x,y)dydx
donde Bes el conjunto de puntos (x,y) del cuadrado que cumplen x +y :S: 1, es decir B = { (x,y)
X
Figura 2.23
!! B
~
; x ;::: O, y ;::: O, x +y :S: 1}
El cálculo de esta nueva integral mediante dos integrales iteradas nos proporciona otro ejemplo de aplicación del teorema de FUBINI. Primero, tracemos la recta x + y = 1, esta línea divide al cuadrado en dos triángulos; el triángulo inferior está formado por los puntos del cuadrado que cumplen x +y :S: 1, el superior por los que cumplen x +y ;::: 1; así, identificamos el suceso B como el triángulo inferior. Ahora, pongamos límites a la integral; las abscisas de los puntos de B varían entre O y 1, ya que para cualquier x en ese rango de variación encontramos algún punto de B cuya abscisa es X.
jj f (x,y)dydx= lo! dx j f (x,y )dy B
Fijemos un valor x, x E [O, 1], como se muestra en la figura 2.23, las ordenadas y de las \)Untas de B a..ue tienen cama abscisa x varían entre G 'f l - x, cama está señalada
'Vectores a\ eatonos conúnuos
129
en la figura; los límites de la integral son
Calculemos la primera iterada, integramos respecto de y y consideramos x una constante, se tiene
la -x(x + y) dy = (xy+~ ~ 1-x 1
O
= x( 1- x)+
(1 x)2 2
1 2 =- (1-x ) 2
Ahora, calculamos la segunda iterada 1
1 x x31 - (1 -x2 ) dx= (- - o 2 2 6 o
1 1
1 3
luego P(X +Y ~ 1) = 1/ 3. Observemos que aunque el conjunto "favorable" al suceso X + Y ~ 1 ocupa la mitad del área del cuadrado, su probabilidad no es más que 1/ 3, esto se debe a que la densidad va creciendo desde (O, O) hasta ( 1, 1) y, a igualdad de superficie, hay más probabilidad acumulada en en triángulo superior. •
2.4.2 (x, 1) 1
1 1
Funciones de densidad margi nal es
Si (X ,Y ) es un vector aleatorio con densidad conjunta f (x,y), cada una de las componentes X e Y tienen distribución unidimensional continua, sus funciones de densidad se calculan fácilmente a partir de la densidad conjunta; por ejemplo, la función de densidad de X es igual a
1
Q
1 1
1
o
1 X
Figura 2.24
L: =L :
! x (x ) =
f (x,y) dy
(2.30)
jy (y)
f(x ,y) dx
(2.31)
1
y la densidad de Y es
Como en el caso de los vectores discretos, las funciones de densidad fx (x) y fy (y) se denominan densidades marginales de X e Y , respectivamente. La ecuación 2.30 tiene una interpretación muy simple: en x acumulamos toda la densidad de probabilidad que tienen los puntos (x,y ), con x fijo e y variable; la densidad marginal fx (x) es el resultado de la acumulación de las densidades f(x,y) de todos esos puntos. EJE M PLO 2.8 Consideremos de nuevo la función de densidad conjunta del ejemplo 2.7 definida por 2.29, para hallar la función de densidad marginal de X hay que calcular la integral
j~ f(x,y) dy
130
UNIDAD DIDÁCTICA 2 Modelos probabilísticos continuos
para cada x E ( -=, oo); sin embargo, para muchos valores de x el cálculo anterior es banal; por ejemplo, si x 1, por la definición de f se sigue f(x,y) =O para todo y, y se tiene fx(x) =
[~ Ody =O
Los valores que interesan son los del intervalo [O, 1], que es donde la función toma valores distintos de cero; fijemos x E [O, 1], la función de densidad marginal de X en el punto x es igual a fx(x) =
j_~J(x,y)dy= fo\x+y)dy
211 1 =(.xy+L =x+2 o 2 Los dos cálculos anteriores se resumen en la fórmula:
_ {x+1/2 fx () x O
sixE [0,1] si x ~ [O, 1]
De manera similar se obtiene
siyE [O,l] si y~ [0, 1]
Jy(y)={y +1/2 0
que es la función de densidad marginal de Y. La figura 2.24 muestra la interpretación gráfica de los cálculos anteriores en el caso de la densidad marginal de X, el valor fx (x) se obtiene acumulando toda la densidad bidimensional que encontramos en la recta X = x, la parte de esa recta que está fuera del cuadrado Q no aporta densidad, ya que f(x,y) = O en esos puntos, mientras que los puntos de la recta que pertenecen a Q aportan una densidad igual a f (x, y) = x +y, la acumulación se logra integrando la función f (x, y) respecto de y, en el rango en que f (x, y) es distinta de cero que, en este caso es el intervalo entre O y l. 11
La probabilidad de los sucesos que dependen sólo de X, por ejemplo el suceso B = {0.2
=
j
j_~ f(x,y) dydx =
xEB
j
fx(x) dx
(2.32)
xEB
Por ejemplo, si (X, Y) es el vector aleatorio del ejemplo anterior y queremos calcular P(0.2
P(0.2
j
j_~J(x,y)dydx
0.2
=
0.4lnl (x+y)dydx=0.16
ln0.2
o
\lectores aleatorios continuos
131
o la función de densidad marginal de X
j
P(0.2 < X :::; 0.4) =
fx (x ) dx
0.2
=
lo
0.2
2.4.3
1
(x+ )dx = 0.16
2
Funciones de densidad condicionadas
Cuando conocemos el valor que la variable X ha tomado un valor x, la distribución de Y es, en general, dependiente de x, esta circunstancia ya la estudiamos en el caso de variables discretas y repetiremos aquí su análisis para las variables continuas. La variable Y condicionada por X = x se representa por Y 1 X= x. Si (X ,Y ) tiene función de densidad conjunta f (x,y) , las variables condicionadas Y 1 X = x también tienen funciones de densidad que se calculan como el cociente de la función de densidad conjunta por la función de densidad marginal de la variable que condiciona; la función de densidad de la variable condicionada Y 1 X = x se denomina función de densidad condicionada y se representa por f (y x). 1
FUNCIÓN DE DENSIDAD
2.11 Si el vector (X,Y ) tiene función de densidad conjunta f(x,y), la función de densidad de la variable condicionada Y X = x es igual a 1
CONDICIONADA
f(x,y) fr!x(Y) =
{
fx¿x)
si fx (x) >O (2.33)
si !x(x) =O
N atemos que el cociente que define la función de densidad condicionada recuerda la definición de probabilidad condicionada
_P(A n B) P(B)
p ( A 1 B) -
aunque, como hemos señalado, los valores de la función de densidad no son probabilidades ni pueden interpretarse como tales, en los casos más simples la distribución condicionada es límite de probabilidades condicionadas y hereda su común apariencia de ellas. Por su parte, la función de densidad de X 1 Y = y es igual a
f(x,y) fx ¡y(x) =
{
f y¿y)
si fy (y) > O (2.34) si jy(y) =O
132
UNIDAD DIDÁCTICA 2 Modelos probabilísticos continuos
EJE MPLO 2.9 Consideremos de nuevo la función de densidad conjunta del ejemplo 2.7 definida por 2.29, calcularemos la función de densidad de Y 1 X = x. En el ejemplo 2.8, calculamos la función de densidad marginal de X, que es igual a
fx(x) = {x + 1/2 sixE [0,1 ] O
si x
\i [O, 1]
Entonces, la función de densidad de Y condicionada por X
= x es igual a
f(y x) = f(x, y) 1
x+ l2
si x E [O, 1] ; ahora, un punto crucial de la definición de f (y x) es determinar, fijado x, el rango de variación de Y para el cual f (y 1 x) f. O; en el caso que tratamos en este 1
ejemplo, la respuesta es sencilla, basta observar la figura 2.24 para comprender que si x está entre O y 1, los valores de Y varían entre O y 1, ya que fuera de este rango se tiene f(x,y ) = O. En resumen, se tiene
f (yl x) = x + y = 2(x +y),
x+!
si O :::; x :::; 1 y O :::; y :::; 1
2x+1
mientras que en los restantes pares de valores (x, y), se tiene f (y x) = O. Observemos que, como es natural, para cada valor de x fijo , la función y f--+ f (y x) es una función de densidad de probabilidad pues cumple f (y 1 x) ;::: O y 1
1
r
¡I 2(x+y )
L~ f (y l x) dy= Jo
2x+1 dy
2
ll
=2x+ 1(xy + 2
=l
0
• 2.4.4
Independen cia de dos variabl es
Si se cumple f (y 1 x) = fy (y) para todo par de valores x, y, entonces la distribución de Y no se modifica cuando conocemos el valor que ha tomado X y decimos que X e Y son independientes, está condición nos resulta puesto que es semejante a la condición de independencia de sucesos, P(A 1 B) = P(A), y de independencia de dos variables discretas. Si fx (x) fy (y) =J. O, la condición f (y 1 x) = f y(y) es equivalente a f (x,y) = fx(x )fr (Y) que es la condición preferida para definir la independencia de variables continuas, al igual que P(A n B) = P(A )P(B) es la condición preferida para definir la independencia de sucesos. INDEPENDENCIA DE VARIABLES
___? } _2._ Si el vector (X, Y) tiene función de densidad conjunta f(x, y), decimos que las variables X e Y son independientes si se cumple
f( x,y) = fx(x)f"r(y),
para cada par (x, y)
(2.35)
Vectores aleatorios continuos
133
EJEM PLO 2.10 Consideremos un vector aleatorio (X,Y) con función de densidad conjunta, f (x,y) , definida por
f(x,y) =
si O:::; x:::; 1, O:::; y:::; 1
6xy2 {
0
en otro caso
La función de densidad marginal de X es igual a 1
fx( x) =
la 6xi dy = 2x,
si x E
[0, 1]
fx (x) = O, si x tf. [O, 1]. De manera semej ante, podemos calcular la función de densidad marginal de Y , para obtener
y
f(y) = {3y2 si yE [0,1 ] O
si y
tf. [O, 1]
Comprobamos que f (x,y) = fx(x)fr(y) para todo par (x,y), luego las variables son independientes. •
2.4.5
Modelos dinámicos continuos
Al igual que ocurre en los modelos probabilísticos discretos, la definición de probabilidad condicionada 2.33 puede ser reinterpretada de manera que sea la base de un método general para construir modelos continuos. El cociente de la expresión 2.33 puede ser formulado como producto
f (x,y) = fx (x) f (y 1 x)
(2.36)
en esta forma, sugiere que podemos calcular f (x,y) si conocemos la densidad marginal de X y la densidad de Y condicionada por X = x. Esta interpretación sugiere un modelo dinámico ; primero, sorteamos el valor de X conforme a la ley de probabilidad que define fx (x) y, luego, si el valor elegido es x, sorteamos el valor de Y conforme a la ley definida por f (y x), que es la distribución de Y condicionada por X = x. El resultado de estos sorteos sucesivos equivale a sortear, de una vez, el valor (x, y) de cada variable, conforme a la ley de probabilidad definida por la función de densidad conjunta f (x,y). Con esta interpretación, la igualdad 2.33 es doblemente útil, en la versión de la fórmula 2.33 sirve para calcular f(y 1 x) a partir de f (x,y) y de fx(x) (modelo estático) y, en la versión de la fórmula 2.36, sirve para calcular f (x,y) a partir de fx(x) y f(y x) (modelo dinámico). Consideremos un modelo probabilístico que consiste en elegir un punto (x,y) mediante el procedimiento siguiente: primero elegimos un número X al azar en el intervalo (O, 1) y, si el resultado de la esa elección es x, elegimos después otro número Y al azar en el intervalo (x, 1). Observemos el carácter dinámico de ese modelo, el Azar elige un punto (x,y) mediante don sorteos que se suceden en el tiempo, de ahí el adjetivo dinámico que le aplicamos. Esta 1
1
134
UNIDAD DIDÁCTICA 2 Modelos probabilísticos continuos
clase de modelos son extraordinariamente generales, puesto que el segundo sorteo, como ocurre en este ejemplo, puede depender del resultado del primer sorteo. La formulación dinámica del modelo nos proporciona como datos la densidad marginal de X fx(x)={1 sixE(0,1) O six\i(0,1) y la densidad de Y condicionada por X = x
para cada x E (O, 1),
j (y 1 X)
=
1 1 -X,
parax
Trataremos de encontrar la función de densidad conjunta de este modelo, es tanto como decir la formulación estática del modelo, la clave de ese pasar de una formulación a otra está en la relación 2.36; en los apartados anteriores hemos estudiado cómo calcular las funciones de densidad marginal, f(x), y condicionada, f(y x ), a partir de la función de densidad conjunta, ahora calcularemos la función de densidad conjunta a partir de la marginal y la condicionada. Analicemos el rango de variación de las variables, la variable X varía entre O y 1, y, cuando X = x, la variable Y varía entre x y 1; en resumen, la variable bidimensional (X , Y) toma valores (x, y) en el conjunto, T, definido por: 1
'
: (x, 1) T
o
, (x,x)
X
T
= {(X, y) ; o < X <
1' X
< y < 1}
este conjunto es el triángulo de vértices (O, O), ( 1, 1) , (O, 1), que aparece representado en la figura 2.25. De lo anterior y de la fórmula 2.36, concluimos que la función de densidad conjunta de (X, Y) es
Figura 2.25
j (x,y ) =
1 - 1- x { O
si (x,y) E T
\i T
si (x,y)
La construcción anterior de un modelo dinámico se puede aplicar cualquiera que sea la dimensión del vector aleatorio; por ejemplo, la elección de un valor para el vector n-dimensional (X1 ,X2, ... ,Xn) se puede hacer en n sorteos sucesivos, primero, elegimos el valor de X1 , sorteando conforme a la densidad marginal de X¡, fx 1 (x¡) ; después, conocido que X¡ = X¡, sorteamos el valor de X2 conforme a la densidad condicionada j(x2 x¡), a continuación, conocido que X¡ = X¡ y x2 = X3 , sorteamos el valor de x3 conforme a la densidad condicionada j(x3 1 X¡ ,x2), así sucesivamente. La fórmula que generaliza la expresión 2.36 es 1
(2.37)
135
Vectores aleatorios continuos
Un modelo dinámico particularmente importante es aquel en que las variables son independientes; bajo esta condición, la fórmula 2.36 se transforma en:
f (x,y ) = fx(x)jy(y) La hipótesis de independencia significa que sortear (X , Y) equivale a realizar sorteos sucesivos de manera que el resultado del primer sorteo no tiene influencia en el segundo y, cualquiera que sea el valor asigando a la primera variable, la segunda se sortea conforme a su densidad marginal. La construcción de modelos independientes n dimensionales es igualmente simple, un vector aleatorio n dimensional (X 1 ,X2 , ... ,X11 ) con componentes independientes tiene una función de densidad conjunta igual a (2.38)
2.4 .6
Va lores esperados y momentos
Cuando el vector (X , Y) es discreto , el valor esperado de una función g(X, Y) es el promedio de los valores que toma g respecto de las probabilidades con que el vector toma cada valor, cuando el vector tiene una distribución continua el concepto no es tan evidente; para lograr una definición, aproximamos la distribución por una discreta, si tenemos en cuenta que
P(X E [x,x + L'u], Y E [y,y + ~y])
~
f(x,y)
&~y
el promedio aproximado sería
LL g(x,y) f(x,y) dxdy (x,y)
si hacemos fu --+ O y
~Y--+
O, la suma anterior se aproxima a la integral
¡:¡:
g(x,y) f(x, y) dydx
este valor límite se define como valor esperado de la función.
Definición 2.1 Si X e Y son dos variables aleatorias con función de densidad conjunta f(x,y), la esperanza matemática de una función g(x,y) es igual a
E{g(X,Y)}
=
¡:¡:
g(x,y) f (x,y) dydx
(2.39)
supuesto que la integral exista. EJ EMPLO 2.11 drado Q,
Si el vector aleatorio (X, Y) es un punto elegido al azar en el cua-
Q = { (x,y) ;xE (ü,l),yE (0,1 )}
136
UNIDAD DIDÁCTICA 2 Modelos probabilísticos continuos
la esperanza matemática del producto XY, de acuerdo con la expresión 2.39, es igual a E{XY} = xy dxdy = -1
lnollnlo
4
Dos caso particulares importantes de valor esperado de una función corresponden a las función g(X , Y) =X, que dan lugar al valor esperado de X, E{X} =
¡~¡~ xf(x,y)dydx
de manera similar, se define el valor esperado de Y. El cálculo del valor esperado de X no requiere de la función de densidad conjunta, puede ser calculado a partir de la función de densidad marginal de X. E{X}
= ¡~ ¡~ xf(x,y)dydx = ¡~ xfx(x)dx
esta propiedad es válida para cualquier función que dependa exclusivamente de X,
E{g(X)}=
l~ l~ g(x)J(x,y) dydx = l~g(x)fx(x)dx
análogo resultado se tiene cuando g depende sólo de Y. Como en el modelo discreto, el valor esperado de la función lineal g (X, Y) = aX +bY tiene propiedades especialmente buenas ya que el valor esperado es un operador lineal que cumple
E{aX +bY} = aE{X} + bE{Y} donde a E R, bE R, siempre que existan E{X}, y E{Y} . La esperanza matemática hereda esta propiedad de la integral, que también es un operador lineal
E{aX +bY}=¡~ ¡~ (ax+by)J(x,y)dxdy =a ¡~ ¡~xf(x,y)dxdy+b [~ l~yf(x,y)dxdy =aE{X}+bE{Y} Así, las propiedades de la esperanza son las mismas tanto si las variables son discretas como si son continuas. Para hacer una teoría general de la probabilidad que incluya todas las distribuciones posibles es necesario considerar una integral más general, denominada de LEBESGUE, que incluye como casos particulares a los que consideramos aquí. Otra función que tiene un papel importante en nuestro análisis es el producto g(X, Y ) = XY ; en general. A diferencia de la suma, no es cierto que el valor
\lectores aleatorios continuos
137
esperado del producto sea igual al producto de los valores esperados; esto es, en general no es cierto que se cumpla
E{XY} = E{X}E{Y} Sin embargo, cuando las variables son independientes, la propiedad anterior sí se verinca, y esta propiedad que tiene una enorme importancia en los modelos probabilísticos. La justificación de la afirmación anterior es bien simple, si X e Y son independientes, se cumple f (x,y) = fx(x)fy( y), lo que implica
E{XY} =
¡~ ¡~ xy f (x,y) dxdy
= [~ [~ xyfx(x) jy(y)dxdy = [~x
(J~yfy (y) dy)
fx(x)dx
= [~ xE{Y} fx(x) dx = E{X}E{Y} Esta propiedad se puede establecer de manera completamente general, por la sencilla razón que si X e Y son independientes y g y f son dos funciones con cierta regularidad denominada medibilidad3, entonces g (X) y h(Y ) también son independientes. VALOR ESPERADO DE FUNC IONES
~ 2.ll_
Si X e Y dos variables independientes y g y h son dos funcion es medibles, g (X ) y h(Y ) son independientes y se cumple
INDEPENDIENTES
E{g (X )h(Y )} = E{g( X )}E{h (Y )}
(2.40)
Por ejemplo, las variables X e Y del ejemplo 2.11 son independientes y se tienen E{X} = E{Y} = 1/ 2, lo que permite calcular E{XY}:
E{XY}
2.4.7
=
E{X}E{Y}
=
~
Varianzas y covarianza de un vector alea t orio
Como ya hemos visto, la varianza de una variable X es el valor esperado de la función g (X) = (X - E {X} ) 2 , esta función depende tan sólo de X y se puede calcular a partir de la densidad conjunta o a partir de la densidad marginal de 3Todas
las funciones que estudiamos son medibles.
138
UNIDAD DIDÁCTICA 2 Modelos probabilísticos continuos
X si se conoce.
cr1 = E{(X -E{X} ) 2 } =¡~ ¡~ (X -
2
E{X}) f(x,y)dydx
= l~ (X-E{X}) 2 fx(x)dx La covarianza entre las variables X e Y es el valor esperado de la función
g(X,Y) =(X -E{X})(Y -E{Y}) que es el producto de las desviaciones de cada variable a su media; si X e Y, tienden a variar en el mismo sentido, un valor positivo de X - E{X} irá asociado, con mayor probabilidad, a un valor positivo de Y - E {Y}, mientras que un valor negativo de X- E{X}, con mayor probabilidad, estará asociado a un valor negativo de Y- E {Y}, así, g(X, Y) tomará valores positivos con gran probabilidad y E{g(X ,Y)} será positiva. Por el contrario, si X e Y varían en sentido opuesto, E{g(X ,Y)} será negativa; por este motivo se le denomina cavarianza puesto que mide la ca-variación de las variables. La covarianza se representa por CovXY. CovXY = E{(X- E{X}) (Y- E{Y})} De las propiedades de la esperanza, se sigue CovXY = E{XY}- E{XE{Y}} - E{YE{X}} + E{E{X}E{Y}} = E{XY}- E{Y}E{X}- E{X}E{Y} + E{X}E{Y} = E{XY}- E{X}E{Y}
(2.41)
que es la mejor para calcular la covarianza. El el cociente Pxr ,
=
CovXY O'xO'y
se denomina coeficiente de correlación. El coeficiente de correlación no depende de la escala de medida que empleemos para las variables ni del origen de coordenadas, es un número sin dimensiones que mide el grado de asociación lineal entre X e Y . El signo del coeficiente de correlación indica la modalidad de la asociación: positiva o negativa. El valor absoluto, la intensidad: cuánto mayor es IPx,r l, más fuerte es la asociación lineal. Sea (X,Y) un punto elegido al azar en el triángulo, T, de vértices (O, O), (O, 1) , ( 1, 1) , calcularemos las varianzas, covarianza y coeficiente de correlación. Puesto que el área de Tes 1/2, la función de densidad conjunta de (X,Y) es EJE MPLO 2. 12
f (x y) = '
{2
si (x,y) E T O si (x,y) \i T
-
---------------------------------------------\lectores aleatorios continuos
139
t - -- - - -- - - - , - ( 1,1)
(y,y)
o
o Figura 2.26
Las esperanzas de X e Y son iguales a
E{X}
=
E{Y} =
l¡·l
lo x2dy dx ljl lo y 2dy dx 0
X
0
X
1 3
= -
2
=-
3
Los momentos de segundo orden, son iguales a
E{X 2 } = E {Y 2 } =
ljl lo x 2dydx lll lo i 2dy dx 2
0
X
0
X
1 =-
6
1 2
=-
y se tiene
cri = 1/ 6- (1/ 3) 2 = 1/ 18, crf; = 1/ 2- (2 / 3) 2 = 1/ 18 Por otra parte, E{XY } es igual a
E{XY} =
loo JI xy2dydx= lol x ( 1 - x ) dx=-4 2
¡
luego CovXY = 1 / 4 - ( 1 / 3) (2/3) Pxx = (1 /36) 1 1 /18 ) 2 = 0.5.
J(
1
Ü
X
= 1 /36 y el coeficiente de correlación es igual a •
Cuando se cumple Px,Y =O decimos que las variables son incorreladas, de la definición del coeficiente de correlación, se sigue que una condición necesaria y suficiente para que X e Y sean incorreladas es que la covarianza sea cero,
E{XY}
= E{X}E{Y}
lo que implica CovXY
= E{XY} - E{X}E{Y} = E{X}E{Y} -E{X}E{Y} =O
140
UNIDAD DIDÁCTICA 2 Modelos probabilísticos continuos
La afirmación recíproca no es cierta: la incorrelación no implica independencia, un ejemplo que lo prueba se muestra a continuación. EJ EMPLO 2.13 Sea R el cuadrilátero de vértices ( l, O), (0, 1 ), ( -1, 0), (0, -1). R es el rombo que aparece en la figura 2.27. Sea (X , Y) un punto elegido al azar en R, puesto que R tiene área 2, su función de densidad viene dada por j
.(
X
)
'
y =
{ 1/2 O
si (x,y) E R si(x, y) ~ R
Para calcular la esperanza de X descomponemos la integral en dos partes, según que
(x,l +x) -1
- 1
X
(x,-1-x))
Figura 2.27
sea x E (- I , O) ox E E{X} =
[0,1 ),
~ jj xdxdy R
= ~{Jo 2
jl+x dy xdx+ Jorl ¡l-x dyxdx} =o
-1 - (l+x)
- (1- x)
de manera similar se obtiene E{Y} =O. Observemos que este resultado es una consecuencia de la simetría de la distribución respecto del origen, por cada punto (x, y) del dominio de definición, hay otro punto (- x,- y) que también pertenece al dominio y en el que la función de densidad toma el mismo valor, al promediar los valores de X (o los de Y) , el resultado debe ser cero. El cálculo de E{XY} es semejante a los anteriores.
E{XY} =
~
JJ
xy
dxdy
R
= -21 {Jo !l+x
- 1 -( l +x)
ydy xdx+
rl ¡l-x -(l-x)ydyxdx} =o
Jo
Así, tenemos E{XY } = E{X}E{Y} =O, lo que implica CovXY =O, sin embargo , las variables no son independientes, para probarlo necesitamos calcular las densidades marginales, basta observar que el conjunto de valores posibles de (X , Y) no es un rectángulo, lo que indica que cada variable no puede variar en su rango de variación con independencia del valor que haya tomado la otra, sino que el valor que toma una variable, determina dónde puede variar la otra, por lo que son dependientes .
•
Muestreo a lea torio
,
IN DICE 3.1 Muestras aleatorias 3.2 Distribuciones que se presentan en el muestreo 3.2 .1 Distribución Gamma 3.2 .2 Distribución
x2 de Pearson
3.2.3 Distribución t de Student
3.3 Método de Monte Cario 3.3 .1 El origen del método de Monte Cario
3.4 Generadores de números aleatorios y pseudoaleatorios 3.4.1 Generadores de congruenCias lineales (GCL)
3.5 Transformaciones de la distribución uniforme 3.5.1 Generación de va riables normales 3.5.2 Generación de variables discretas 3.5.3 Generación de permutaciones al azar
Introducción
143
En este capítulo iniciamos el estudio de los problemas que se incluyen en la ciencia denominada Estadística, para comprender mejor sus métodos conviene señalar, aunque sea de manera general, las diferencias entre los problemas que se plantea y los que trata el Cálculo de probabilidades que acabamos de estudiar. El Cálculo de probabilidades parte de un modelo perfectamente establecido y trata de extraer consecuencias numéricas, mientras que la Estadística supone que el modelo es parcialmente conocido y trata de tomar las decisiones más razonables a la vista de los resultados experimentales. El Cálculo de probabilidades es una parte de las Matemáticas, la Estadística trata de la realidad y teoriza a la busca de métodos razonables para extraer infonnación de los datos expenmentales. Por ejemplo, un problema probabilíStico es bailar la probabilidad de obtener dos bolas azules de una urna que contiene tres bolas azules y dos rojas; un problema estadístico es plantearse, tras extraer dos bolas al azar de una urna que contiene cinco bolas que pueden ser azules o rojas y observar que son azules, qué composición debe tener la urna a la vista del resultado del experimento. En un problema probabilístico, el modelo está determinado y no se pone en duda, las consecuencias de ese modelo se derivan mediante reglas matemáticas y no tienen discusión, la utilidad del Cálculo de probabilidad es predictiva, ya que nos enseña con qué frecuencia esperamos observar ciertos acontecimientos. En el problema estadístico el modelo está parcialmente definido, conocemos el número de bolas que hay en la urna, que las bolas pueden ser azules o rojas, pero no sabemos con exactitud cuántas bolas azules hay, el modelo puede ser uno entre seis posibles; el problema estadístico es tomar una decisión, decidir qué modelo entre los seis es más razonable suponer que ha sido la causa del resultado experimental que hemos observado. La Estadística estudia métodos de decisión razonables ante la evidencia experimental, la idoneidad dé cualquiera de esos métodos es discutible, no es algo que se derive directamente de las Matemáticas sino que a partir de un principio, que no es matemático sino propio de la Estadística, y a través de razonamientos matemáticos establece qué decisión es óptima. De una manera un tanto simple, diremos que la práctica de la Estadística consiste en realizar repetidas observaciones de un fenómeno aleatorio con el fin de obtener información sobre algunos aspectos del modelo del fenómeno que son inciertos; dividiremos esa aplicación en dos partes, la primera es la obtención de los datos y la segunda la extracción de la información que contienen los datos obtenidos; se acostumbra de denominar a la primera parte Muestreo estadístico y a la segunda Inferencia estadística.
144
UNIDAD DIDÁCTICA 3 Muestreo aleatorio
En el m1o 1945 tuvieron lugar dos acontecimientos trascendentales, el éxito del ensayo de la bomba atómica en Alamogordo y la fabricación del primer computador electrónico. Su impacto combinado m odificó cualitativamente las relaciones entre la Unión Soviética y los países occidentales. Aquellos acontecimientos trajeron el renacimiento de una técnica matemática conocida por la vieja guardia como muestreo estadístico y que, en este nuevo ambiente y dada su naturaleza, no desmerecía su nuevo nombre de método de Mantecado. N. Metropolis The beginning of the Monte Cario Method, Los AJamos Science 1987, 125- 130
Figura 3.1: John Von Neumann
El muestreo estadístico proporciona criterios para obtener datos de ra que contengan información útil para resolver el problema planteado; ejemplo, si consideramos otra vez la urna que contiene cinco bolas azules rojas, un muestreo estadístico puede consistir en la extracción de dos bolas azar de la urna. La Inferencia estadística establece criterios o reglas de sión de suerte que, cuando el resultado del muestreo es conocido, asignem cierto número de bolas azules a la urna. Este ejemplo, puede parecer sim al hombre de nuestro tiempo acostumbrado a las encuestas, pero encierra poderosa y sorprendente técnica matemática que necesitó de los computad res para renacer y alcanzar su m adurez, como dice METROPOLIS en la cita margen. Si reflexionamos sobre el problema planteado, originalmente no hay na aleatorio en él, una urna de composición desconocida contiene cinco bolas; 1 característico del muestreo aleatorio es la introducción del Azar en el problema y es un hecho científico probado es que cualquier otro m étodo de elecció de las bolas no pennite extraer conclusiones; así, para estimar el número de bolas azules en la urna empleamos el Azar en nuestro auxilio. En otras ocasiones, como los problemas de la Física de los neutrones que preocupaban a lo científicos del laboratorio de Los Álamos, el Azar es parte del problema desde su origen ya que la emisión de un neutrón por una fuente radioactiva es un fenómeno aleatorio. Hasta la fabricación del primer computador, el estudio en el tiempo del número de neutrones emitidos por la fuente que atraviesan una pared que los absorbe en función de su energía y la longitud de su recorrido a través de una pared, era un problema que se estudiaba de manera teórica o experimentalmente, con el computador se abrió la posibilidad de estudiarlo de manera teórico-experimental, es decir, reproduciendo en la máquina las condiciones del experimento. Para esta tarea, es necesario tener la capacidad de generar valores aleatorios que imiten el comportamiento de la fuente radioactiva y de la pared, esa generación de datos aleatoriamente producidos es, al fin y al cabo, un muestreo estadístico, como reconoció la generación de científicos a los que METRO PO LIS denominó la "vieja guardia". Sin embargo, en 1945 una generación nueva entre la que contaban algunos de los científicos más ex traordinarios de la Historia, como JOHN VON NEUMANN, EN RI CO FERMI o STANISLAW ULAM estaba en su apogeo; aquellos hombres, además de sabios, tenían un agudo sentido del humor y denominaron Método de Monte Carlo al muestreo estadístico, ya que parecía como si se dejara a una ruleta o a un juego de Azar la resolución del problema. Ellos fueron los primeros en crear las técnicas necesarias para que sortear al azar fuera una operación más del computador, precisamente la operación que resuelve los problemas más difíciles. Años después, otros sabios, más académicos, menos joviales y seguramente peor dotados para la ciencia, dejaron de emplear el término Monte Cario para emplear una palabra que suele tener connotaciones negativas: Simulación; esto fue así porque el método consiste en imitar o fingir el experimento real.
Introducción
Figura 3.2: Stanislaw Ulam
145
La implementación los sorteos aleatorios como una operación más que el computador es capaz de realizar es, posiblemente, uno de los mayores avances menos conocidos de nuestro tiempo. El sorteo de un número al azar constituye lo que nos gusta denominar la quinta regla, para indicar que las cuatro viejas reglas de la Aritmética se han completado con una más. La quinta regla del computador es la que permite abordar problemas de una complejidad inimaginable, fuera de toda posibilidad de ser resueltos mediante fórmulas, a la vieja usanza de las Matemáticas. En este capítulo introduciremos las nociones generales del muestreo estadístico, ideas generales que son válidas con ligeras modificaciones en un gran gama de problemas; aunque lo habitual es que la Estadística se incline a entender el problema del muestreo como la herramienta para realizar encuestas, nosotros creemos que al ingeniero en Informática le interesará más su aplicación para resolver los más intrincados problemas que, aunque menos populares, afectan tanto o más a nuestras vidas. A continuación, presentaremos la noción de distribución en el muestreo, que es un concepto esencial para estudiar la Inferencia estadística y mostraremos algunos de los modelos de distribuciones que se encuentran como consecuencia del muestreo y que tiene gran importancia en la práctica estadística; por último, discutiremos el problema de generar números aleatorios o pseudoaleatorios, como es más correcto decir, en el computad01~ y examinaremos los resultados matemáticos más importantes que permiten generar valores de cualquiera de las distribuciones de nuestro catálogo a a partir de los números generados al azar. Dado que buena parte de los avances teóricos se lograron entre 1940 y 1950 como consecuencia de la fabricación del primer computador, aprovecharemos la ocasión para hacer una breve historia de los científicos que hicieron tales descubrimientos.
146
UNIDAD DIDÁCTICA 3 Muestreo aleatorio
3.1
Muestras aleatorias Como hemos señalado, los problemas que considera la Inferencia vMaUL:::.Ir" ca suponen que desconocemos algún aspecto de la distribución de Dr<)baAlidad que rige un fenómeno aleatorio, mediante observaciones repetidas fenómeno o de fenómenos relacionados, obtenemos una información que, vez procesada de acuerdo con los criterios que la Inferencia elabora, perrni reducir la incertidumbre sobre esos aspectos desconocidos inicialmente. datos obtenidos mediante la observación repetida del fenómeno o de fenóme nos relacionados, se denominan muestra. En este apartado definiremos d términos fundamentales de la Inferencia estadística: población, muestra al toria simple, estadístico, distribución de la muestra o distribución empírica · una muestra, y mostraremos algunas razones que justifican emplear los da de una muestra aleatoria simple para obtener información sobre el fenómenc Para hacer más fácil la explicación vamos a concretar algunos aspectos, esta forma, aún a costa de perder generalidad en la explicación, ganaremos cb ridad en la comprensión del problema. Imaginemos que el fenómeno consi en la observar del valor que toma cierta variable aleatoria unidimensional, X cuya distribución tiene un modelo conocido salvo un parámetro indeter~ do como la media o la varianza; por ejemplo, si queremos estudiar el núme X de componentes electrónicos defectuosos que hay en un lote fabricado, sabe que si la probabilidad de que cada componente individual sea defectu sa es muy pequeña, la distribución del número de componentes defectuosru en el lote es, con mucha aproximación, una ley de POISSON cuya función probabilidad es de la forma para k= O, 1, 2, ... es decir, la distribución no está completamente determinada, sabemos que sigue el modelo de las leyes de POISSON, pero no conocemos exactamente cua:. es ya que desconocemos el valor del parámetro í\., que es la media de la di tribución; otro ejemplo, volvamos a considerar una urna que contiene cin bolas azules o rojas en número desconocido, si extraemos una bola al azar, 1 variable X que indica si la bola extraída es azul o no tiene una distribución de BER NOULLI, pero desconocemos su media, ya que E{X} = p donde pes la proporción de bolas azules en la urna, número que desconocemos ya que no sabemos cuántas bolas azules hay en la urna. La distribución de la variable que observamos se denomina distribución de la población ; el término población proviene de las investigaciones biométricas que fueron las primeras en emplear las técnicas de muestreo, por ejemplo, para estudiar la estatura de los individuos pertenecientes a una población humana y, ante la imposibilidad de estudiar a todos los miembros de la población, lo primeros investigadores, como GALTO N, elegían aleatoriamente un pequeño grupo de individuos al que denominaron muestra. La abstracción de este pro-
Muestras aleatorias
147
cedimiento es la que acabamos de exponer, la estatura de los individuos es una magnitud aleatoria que se distribuye de algún modo en la población, por ejemplo de acuerdo a una distribución normal, de manera que la talla de un individuo elegido aleatoriamente se interpreta como una observación de la variable X = altura. A pesar de la generalización de la idea, los términos población e individuo continúan empleándose en el muestreo estadístico, aunque nos estemos refiriendo a colectivos distintos de las poblaciones humanas o, incluso, a objetos abstractos . EJE MP LO 3.1 Supongamos que la variable X en estudio es la duración de una cierta componente eléctrica que no envejece; es decir, si la componente sobrevive en el instante t su estado es el mismo que inicialmente y la distribución del tiempo que falta para su rotura sigue siendo la misma que al principio. Debido a que la distribución exponencial es la única con esta propiedad de "falta de memoria", la distribución de X será exponencial con función de densidad
A
fA(x)=
- AX
{ oe
si x 2: O si x < O
Nuestra incertidumbre sobre la distribución de la población se concentra en el valor del parámetro A E (O, oo) o, lo que equivalente, en el valor de la duración media de la vida de la componente ya que la duración media es igual a 1/A . •
Para adquirir información sobre el parámetro desconocido realizamos varias observaciones del experimento aleatorio representado por la variable X, pongamos que X¡ es el primer valor observado, x 2 el segundo, etc. , el resultado de nuestras observaciones se resuma en un vector numérico (x 1 ,x2 , . . . ,xn) que denominamos una muestra aleatoria de X; el número n que indica el número de repeticiones y de observaciones obtenidas, se denomina tamaño de la muestra. Para hacer más sencillo nuestro análisis, consideraremos que nuestras observaciones del fenómeno están formadas , exclusivamente, por repeticiones independientes del mismo, en este caso la muestra se denomina muestra aleatoria simple. MUESTRA ALEATORIA
3.1 Una muestra aleatoria simple de una variable X de tamaño n consiste en observar n realizaciones independientes de X.
SIMPLE
Tomar una muestra aleatoria simple no es siempre la manera más inteligente de muestrear; por ejemplo, en el caso de la urna con cinco bolas azules o rojas en proporción desconocida, si tomamos una muestra aleatoria simple de dos bolas, puede suceder que la bola extraída en primer lugar sea extraída a continuación ya que debemos devolver a la urna la bola de la primera extracción para que la segunda observación sea independiente de la primera, extraer dos bolas sin reemplazamiento parece un método que obtiene información sobre la composición de la urna más rápidamente y, de hecho, así es, pero aunque sea un poco menos eficiente, el muestreo aleatorio simple también es eficaz y
148
UNIDAD D ID ÁC TICA 3 Muestreo aleatorio
los cálculos y razonamientos que requiere son más simples y han sido ya estudiados en los capítulos ante1iores sobre Cálculo de probabilidades. Tras obtener una muestra aleatoria simple de tamaño n, disponemos de un conjunto n valores numéricos (x 1 ,x2 , .. . ,x11 ). Sin embargo, antes de llevar a cabo las ot>servaciones, cuando estamos haciendo planes sobre cómo obtener la mues o cómo analizar los resultados y todavía no conocemos los valores numéric que el Azar asignará a cada observación, debemos considerar la muestra com.; un vector aleatorio (X1,X2, . .. ,X11 ) cuyo valor decide el Azar y del que vam a observar una realización. La Inferencia estadística hace sus análisis y elabora previsiones en base diversas funciones calculadas a partir de los datos muestrales, cualquier función de los valores de la muestra se denomina estadístico; por ejemplo, estadístico frecuentemente empleado es la media de la muestra o media mue tral, que no es más que la media aritmética de los valores muestrales ; cuand la muestra es conocida, la media muestra! es el valor
_
x1+x2+· ·· +x11 n
X=-------
mientras que, con esta dualidad de significados que hemos indicado, antes de tomar la muestra la media muestra! debe ser considerada una variable aleatori definida por X= X¡ +X2 + · · · +Xn
n e interpretamos que, al tomar la muestra, el Azar elige el valor que tendrá X. ESTADÍST ICO
' 3.2 L-- - --
--
Un estadístico es una función de los valores muestrales.
De acuerdo con la segunda interpretación de la muestra, una muestra aleatoria es un vector aleatorio cuya distribución n-dimensional describe las probabilidades con que puede aparecer cada muestra concreta. Si el muestreo es aleatorio simple, por tratarse de repeticiones independientes del valor de la variable X en estudio, podemos dar una expresión muy sencilla a la distribución de la muestra. Por ejemplo, si X es una variable aleatoria discreta que tiene función de probabilidad p (x), la función de probabilidad de la muestra es igual a p (x¡,X2, ... ,x11 ) = p (xi)p(x2) · · · p (x11 ) fórmula que es válida para todos los valores muestrales, (x 1,x2, ... , n11 ) , posibles que se obtienen al variar los x¡ entre los valores posibles de X. Por otra parte, si X es una variable aleatoria continua con función de densidad f (x) , la función de densidad conjunta de la muestra es igual a
expresión que es válida para todos los (x¡ ,x2, . . . ,x2) E R 11 .
Muestras aleatorias
DISTRIBUCIÓN DE LA MUESTRA
3.3
149
Una muestra aleatoria simple, de tamaño n, de una variable aleatoria
X es un vector aleatorio (X1 ,X2, ... ,Xn ) de variables independientes con la misma distribución que X; en consecuencia, si X es discreta con función de probabilidad p(x), la función de probabilidad de la muestra es
y si X es continua con función de densidad f(x), la función de densidad conjunta de la muestra es igual a
Consideremos de nuevo la urna con cinco bolas que pueden ser azules o roj as en proporción desconocida y supongamos que la proporción de bolas azules en la urna es p, el parámetro p puede tomar los valores p = k / 5, donde k= O, 1, .. . , 5; si tomamos dos bolas de la urna devolviendo la primera bola a la urna, podemos tener cuatro observaciones con probabilidades respectivas como se muestra en la tabla siguiente
p2
p (1- p) ( 1 - p )2
(1 - p)p
Esa tabla define la distribución de la muestra de dos bolas extraídas sin reemplazamiento de la urna. EJEMPLO 3.2 Consideremos una moneda de la desconocemos su probabilidad p de salir cara y consideremos la variable aleatoria indicadora del suceso {sale cara}.
X =
1 si sale cara { O si sale cruz
cuya distribución de BERNOULLI viene dada por P (X= 1) = p ,
P (X =O)= 1- p
La distribución depende del parámetro desconocido p que toma valores en el espacio paramétrico [0, 1], para obtener información sobre p, lanzamos la moneda tres veces y obtenemos una muestra aleatoria simple de tamaño 3 que representaremos por (X1 ,X2 ,X3 ). Puesto que cada variable X¡ tiene dos valores posibles, hay 8 posibles valores muestrales diferentes, la probabilidad con que se presenta cada uno de ellos se muestra en la tabla 3.1. Esta tabla define la distribución del vector aleatorio (X1,X2 ,X3 ) y, en consecuencia, la distribución de la muestra. Con frecuencia conviene manejar la distribución de la muestra mediante una fórmula explícita que resuma una información como la que proporciona la tabla 3.1 ; en este caso, la función de probabilidad de X puede expresarse en la forma parax = O, 1
150
UNIDAD DIDÁCTICA 3 Muestreo aleatorio
Probabilidad
Probabilidad p3
(1, 1, 1)
(1, 1, 0)
p2(1- p)
(1,0, 1)
p2(1- p)
(0,1,1)
p2(1- p)
(1,0,0)
p(1-p)2
(0, 1,0)
p(1 -p)2
(0, 0,1)
p(1-p)2
(0,0,0)
(1-p)3
Tabla3.1
de suerte que la función de probabilidad de la muestra se expresa como producto las funciones de probabilidad de cada componente y es igual a p(x¡,xz,x3;p)
= px1 (1 _ p) I-x1 px2 (1 _ p) l- x2 px3( 1 _ = px¡+x2+x3( 1 - p )3- x¡-x2 - X3
p) 1-x3
La elección aleatoria de las observaciones trata de obtener un grupo valores "representativos" de la población cuyos valores esperamos que rep duzcan los de la distribución de la variable, cualquier otro método de sele::ción corre el riesgo de ser sesgado. Dos importantes razones teóricas avalan muestreo aleatorio simple. La primera razón es la disminución de la variabilidad conforme aumenta el tamaño de la muestra, sabemos que si la variable tiene media Jl y varianza cr 2 , la media de la muestra, X, X¡ +X2+ ··· +Xn Xn= - -- - - - n
-
tiene media Jl y varianza cr 2 / n, lo que significa que al aumentar el tarnañ de la muestra la variabilidad del estadístico media muestra! disminuye y sus valores están más y más concentrados alrededor del valor Jl, lo que nos hace esperar que Xn sea un valor que permita obtener buenas aproximacione_ de Jl si el tamaño de la muestra es suficientemente grande. Esta observació~: tiene una importancia crucial, pues supone que podemos mejorar nuestro conocimiento de un fenómeno mediante observaciones repetidas del mismo. La segunda razón se basa en la ley de los grandes números y precisa que la medi de la muestra converge a la desconocida media de X cuando n-> oo. El Cálculo de probabilidades prueba otros numerosos resultados que garantizan que, en condiciones bastante generales, estadísticos u otras características calculadas partir de los valores muestrales se aproximan hacia las mismas características calculadas en la población. Ya hemos comentado cómo la ley de los Grand números asegura que la media calculada en la muestra se aproxima a la medi de la población, el mismo razonamiento se puede extender a cualquier momento, por ejemplo el momento de segundo orden puesto que si consideram (Xf, X}, ... x;) como muestra aleatoria de la variable Y = X2 , la ley de 1
Muestras aleatorias
151
grandes números nos asegura la convergencia de media de esta muestra 1
ll
- L,x? ni=l
hacia la media de la población E{Y} = E{X 2 }. En resumen, bajo la hipótesis de que existan momentos suficientes, los momentos de la muestra se aproximan hacia los momentos de la población. Un resultado muy importante es el que garantiza que la distribución empírica obtenida de la muestra también se aproxima hacia la distribución de la población, ya que esta afirmación no sólo se refiere a características numéricas particulares de la distribución, como son los momentos, sino a la distribución toda. Por distribución empírica de la muestra entendemos la distribución discreta que resulta de elegir al azar uno de los valores muestrales {x1 ,x2, . .. ,xn) }, la función de distribución empírica es una función en escalera que en cada punto x toma un valor igual a la frecuencia de elementos de la muestra menores o iguales que x; con fórmulas, se escribe * ( ) _ número de elementos muestrales :::; x Fn X , n
para cada x E R
Por ejemplo, la figura 3.3 muestra la función de distribución empírica, Ft0 (x), de una muestra de tamaño n = 10 en la que los valores muestrales resultaron estar ordenados de la manera siguiente X3
< Xs < X2 < X? < X] < XlQ < Xg < Xg < X6 < X4
La función de distribución empírica es una distribución discreta que asigna probabilidad 1110 a cada punto de la muestra, es decir, corresponde a una variable aleatoria que toma los valores muestrales x 1 , • . . , XJO con probabilidad uniforme. Así, el valor de F¡*0 en el punto x que aparece señalado en la figura
X7
X¡
XJO
X
X9
Figura 3.3
es igual a 61 1O, ya que hay seis valores muestrales menores o iguales que x.
152
UNIDAD DIDÁCTICA 3 Muestreo aleatorio
Se demuestra que la función de distribución empírica se converge unifi memente hacia la función de distribución de la población con probabili uno, este resultado se conoce como teorema de GLIVENKO-CANTELLI. En figura 3.4 comparamos la función de distribución empírica de la muestra la de la población. Imaginemos cómo puede ser esa convergencia para una =-
X3
Xs X z
X7
X¡
X¡Q
X
Xg
Figura 3.4
cuencia de muestras típicas, cuando el tamaño de muestra, n, crece, la altur: de cada escalón que es igual a 11n se hace más y más pequeña y el número "' saltos aumenta, la forma de la función de distribución empírica, sin dejar de una función en escalera, se va ajustando más y más a la gráfica de la funci ' de distribución de la población de manera que F;; (x) tiende hacia F (x).
Distribuciones que se presentan en el muestreo
3.2
153
Distribuciones que se presentan en el muestreo En este apartado mostraremos algunas distribuciones muy importantes para las aplicaciones, que aparecen de manera natural al considerar estadísticos en el muestreo, principalmente en poblaciones normales. El problema general se plantea así: supongamos que tomamos una muestra aleatoria simple, (X1,X2, . . . ,X11 ), tomada de una población X, supongamos que por razones del parámetro que queremos estimar interesa calcular en la muestra un estadístico Y = g (X1,X2 , . . . ,X11 ) . Conocer la distribución de Y es, por ejemplo, esencial para acotar la probabilidad de los errores que hayamos podido cometer en la estimación. Un ejemplo importante de la clase de resultados que vamos a analizar ya se comentó al tratar la distribución normal, se trata del resultado que afirma que si X tiene distribución normal de media f..L y varianza cr 2 , el estadístico media muestral definido por X= ~ ¿;~ 1 X¡ se distribuye conforme a una distribución normal de media f..L y varianza cr 2 1n; este resultado es una afirmación acerca de la distribución que tendrá un estadístico (la media muestral en este caso) cuando conocemos la distribución de la población y muestra la clase de resultados que la Inferencia estadística requiere. En el capítulo 2 ya estudiamos algunos ejemplos de esta clase de problemas que, aunque muy sencillos, nos pueden dar una idea precisa de algunas técnicas para resolverlos. No entraremos en detalles de los cálculos necesarios para justificar los cálculos, sino que nos limitaremos a plantear el problema y dar su solución, añadiendo comentarios que destaquen sus propiedades. El cálculo de valores de las distribuciones que mostramos se puede hacer mediante las tablas que se encuentran al final de algunos apartados o gracias a la aplicación que se encuentra en el CD incorporado a este texto.
3.2 .1 Distribución Gamma El estudio de los fenómenos con distribución exponencial de parámetro
)., > O exige, con mucha frecuencia, considerar el estadístico suma de las variables de la muestra; por ejemplo, muchos fenómenos de gran importancia están regidos por la ley exponencial y el tiempo que tardan en ocurrir o su duración es aleatorio exponencial, así ocurre con el tiempo que una masa radioactiva tarda en emitir un neutrón, con el tiempo que tarda un cliente en llegar a una cola del peaje de una autopista desde que llegó el último, a la duración de una llamada telefónica o al tiempo que transcurre hasta que un componente electrónico se avería. Estos fenómenos se caracterizan porque, desde el momento en que ocurren, la distribución del tiempo que tarda en ocurrir de nuevo el fenómeno es idéntica a la inicial (ausencia de memoria). Designemos por X1 el tiempo que tarda en ocurrir el fenómeno por primera vez, por X 2 el tiempo que tarda en ocurrir por segunda desde que ocurrió la primera, etc., las hipótesis anteriores se traducen en decir que las variables X¡ ,
154
UNIDAD DIDÁCTICA 3 Muestreo aleatorio
X2, ... , Xn son independientes y tienen todas la misma distribución exponen-
cial determinada por cierto parámetro A > Oque es el inverso del tiempo medi que tarda en ocurrir el fenómeno. En estos modelos, el instante T en que ocurre la n-ésima observación del fenómeno se expresa como
puesto que es la suma del tiempo que tarda en ocurrir por primera vez, m ' el tiempo que tarda en ocurrir por segunda vez desde que ocurrió la primera etc.; así pues, el estadístico Tn es la suma de n variables independientes e distribución común exponencial y se prueba que la función de densidad de T es igual a fn ,:;..(t)
An
= f(n) tn- le-A,t,
para t >O
(3. 1
donde r (n) se define precisamente como el valor preciso para que la integral de fn,A, (t) valga uno, es decir
Cualquier aplicación de cálculo matemático superior como MAPLE , MATHEMATICA , etc., contiene la función p >--> r(p ) como una de las funciones de su biblioteca, igual que el seno o la tangente, también en Internet se encuentran calculadoras de la función gamma y otras funciones transcendentes.
Esta clase de integrales fueron investigadas por EULER y por ello reciben e nombre de integrales gamma de EULER; como consecuencia la función de densidad que hemos llamado f 11 ,;.., se denomina función de densidad gamma de parámetros n y A y, de ahora en adelante, la representaremos por y( n, A) . parax >O La integral gamma no sólo se define para los valores enteros, sino para todo los reales positivos, p > O, la definición es la misma para p >O La relación fundamental para el cálculo con integrales gamma es una relación recursiva
f(p+ 1) = pf(p) que se demuestra mediante integración por partes; en particular, cuando p es un entero, si se aplica reiteradas veces la relación recursiva, se tiene
r (p) = (p - 1)r (p - 1) = (p - 1) (p - 2) r (p - 2) = (p - 1) (p - 2) .. . 1 . r (1) Ahora bien, puesto que
f (l) =
L" e-
1
dt
=1
Distribuciones que se presentan en el muestreo
155
resulta que cuando p es entero, se tiene r(p) = (p - 1)!. Los restantes valores de r(p) , salvo algunos casos muy notables que se saben calcular como f(l/2) = fi, se hallan por integración numérica. La definición de la función de densidad gamma se extiende también a cualquier valor de p, p >O. FUNCIÓN DE
~
Para cada p
> O y A > O, la función definida por
DENSIDAD GAMMA
y(p, A)
parax > O es una función de densidad de probabilidad que se denomina gamma de parámetros p y A .
Para calcular los valores de la función de distribución gamma, es necesario calcular la integral F(x)
=
AP o f(p)
lo
x
- - tp-l e - J..t dt
'
para, x >O
Esta integral no puede ser expresada en términos de las funciones elementales excepto cuando p es entero, pero casi todas las aplicaciones para el cálculo incluyen sus valores aproximados obtenidos por integración numérica. Una importante propiedad que no demostraremos pero interesa conocer es la suma de variables gamma independientes con el mismo parámetro A pero distintos parámetros p es también una variable gamma, que tiene como parámetro p las suma de los parámetros p de los sumandos; se suele decir que la distribución gamma es reproductiva respecto del parámetro p. Gracias a la reproductividad podemos identificar rápidamente la distribución de una suma de variables si los sumandos son tienen distribución gamma con el mismo valor del segundo parámetro; por ejemplo, si X1 tiene una distribución y( 0.5, 3) y X2 tiene una distribución y(3.7,3), entonces X1 +X2 tiene una distribución y( 4.2, 3). Por inducción, la reproductividad se extiende a cualquier número de sumandos. REPRODUCTIVIDAD RESPECTO DEL PARÁMETRO
p
__l2j Si X¡, X2, ... , X, son variable aleatorias independientes y suponemos que X¡ tiene distribución gamma, y(p¡, A), para i = 1, 2, . . . , n, entonces su suma Y = X¡ + X2 + · · · + Xn es una variable aleatoria cuya distribución e y(I,j~ 1 p¡, A).
La forma de la gráfica de la función de densidad gamma x f--7 y(p, A) (x) depende, de manera cualitativa, del parámetro p. Se presentan tres casos que debemos distinguir: cuando p > 1, cuando p = 1 y cuando O < p < l. En el primer caso, p > 1, la gráfica parte del origen, crece hacia un máximo y decrece hacia cero cuando x--> oo, ella figura 3.6 se muestras tres casos de esta clase con valores del parámetro p = 1, p = 4.7 y p = 7.
156
UNIDAD DIDÁCTICA 3 Muestreo aleatorio
o
2
3
4
5
6
7
8
9
10
11
12
Figura 3.6: Funciones de densidad y(p, 1) con p > 1
Cuando p = 1, la densidad gamma es igual a la exponencial de parám tro A > O que aparece representada en la figura 3. 7; se trata de una funci monótona decreciente, en el origen toma el valor uno y tiende hacia cero cucu:.do x -+ oo rápidamente, aunque el decrecimiento depende del valor de A.
9
8
1
11. --------------------------------------------------,
7
0.8
6 p = 0.25
0.6
5
0.4 4
0.2 3 2
0 ~~~~--~~~~~--~--------~--~----~ 12 o 2 4 7 10 11 3 5 6 8 9
Figura 3.7: Funciones de densidad y(p, 1) con p = 1
En el tercer caso, O < p < 1, la función de densidad gamma es monótona decreciente con una asíntota en el origen, es decir y(p, A) (x) -+ oo cuan 2 x l O; es interesante observar que a pesar de que la función toma valores arFigura 3.5: Funciones de densidad bitrariamente grandes en un entorno del origen, su integral extendida a to~ y(p, 1) con p < 1 la semirrecta real positiva es finita. En la figura 3.5 mostramos dos ejemplo cuando p = 0.25 y p = 0.75, observemos que conforme disminuye el parámetro hacia cero, la función crece con mayor rapidez hacia infinito.
3.2.2
Distribución
x2
de Pearson
Consideremos una población descrita por una variable aleatoria unidimensional X, con distribución teórica JV (O, 1), de la que tomamos una muest:rn aleatoria simple de tamaño n y sea (X1 ,X2, . . . ,Xn) la muestra. Nos planteam ahora el problema de calcular la distribución del estadístico Yn = ¿;~ 1
x?.
Distribuciones que se presentan en el muestreo
157
problema es crucial para determinar la distribución de la varianza de la muestra, que es un estadístico principal para obtener estimaciones de la varianza de la población cuando es desconocida. La distribución del cuadrado de una normal de media O y varianza 1 se puede calcular fácilmente mediante las técnicas que estudiamos en el capítulo 2. Primero, calculamos la función de dist1i bución de X 2 ;
La integral anterior se puede calcular mediante el cambio x 2
= u, y resulta para y> O
lo que significa que X 2 tiene una distribución gamma y( 1 / 2, 1 12), de densidad para y> O Por consiguiente, si X¡ , X2, ... , Xn son variables aleatorias independientes con distribución N (O, 1), su suma de cuadrados Y = 2..;"'= 1 X? es una suma de distribuciones gamma y, por ser reproductiva respecto del primer parámetro, la variable Y tiene una distribución gamma y(n/2, 1/ 2). La distribución 2 , a pesar de ser un caso particular de un modelo de distribuciones ya conocidas, merece un estudio detenido debido a su utilidad y a la frecuencia con que aparece en las aplicaciones, y ha recibido un nombre propio, se la denomina distribución X2 (ji-cuadrado) de PEARS ON con n grados de libertad.
x
DI STRIBU CIÓN
X2
DE PEARSON
,----i6-~ Si X1, X2, . . . , Xn son variables aleatorias independientes y con distribución común JV (O, 1), la distribución de suma de sus cuadrados n
Ix? i=l
se denomina X2 (ji-cuadrado) de tiene función de densidad igual a -
fn () y - 2nl2
1
r (~)
y
PEARSON,
~~1-y/2 e '
con n grados de libertad y
para y > O
La distribución x2 con n grados de libertad pertenece al modelo de las distribuciones gamma y es igual a la distribución y( n 12, 112).
158
UNIDAD DIDÁCTICA 3 Muestreo aleatorio
Como se observa, esta distribución depende de un único parámetro, n, e _ denominación de "grados de libertad" hace referencia al número de suman que aportan su variabilidad a la suma. Cuando queramos resaltar los gr para señalar que tiene de libertad de una distribución 2 ' escribiremos grados de libertad. Mediante cálculos que omitiremos, se hallan la media de distribución x,~.
x
x;
n
n
E{Y} = E{Ix?} = 2:E{X?} = n i=l
i=l
y su varianza n
(Jf = L (3;2 = 2n i=l
l
valores que se obtienen a partir de los correspondientes momentos de la distribución gamma. Una importante propiedad que la distribución x2 hereda la distribución gamma es la siguiente: si Y¡ e Y2 son variables aleatorias independientes con distribución X,~ y X~ respectivamente, entonces Y1 + Y2 tie distribución x;+m· Aunque, en este caso, la comprobación es inmediata a partir de la definición; si n
Yt
=
¿:x?
Y2
e
i=l
=
n+m
I x?,
i=n+ l
siendo todas las X¡ independientes y N (O, 1), entonces Y1 + Y2 = I?!{n X? tiene distribución x;+m· En la figura 3.8 se representan tres funciones de densidad x2 para n = 6. 12 y 20 grados de libertad. Las diferentes gráficas presentan un máximo en e
0.10
o
10
20 Figura 3.8: Funciones de densidad
30
40
x
2
punto x = n- 2, excepto las correspondientes a los n = 1 ó n = 2, que no tienen máximo ya que la densidad es monótona decreciente para x > O. El valor de la función de distribución X2 en cada puntO X es la integral de la función de densidad entre O y x, integral que no puede expresarse en términos de funciones
·---------------------------------------------------------------------------Distribuciones que se presentan en el muestreo
159
elementales, sus valores se obtienen por integración numérica y se aparecen tabulados al final de este apartado. La tabla muestra en el margen izquierdo los distintos valores del parámetro n y en el margen superior la diversos valores de 1 - F (x) , esto es así porque la tabla se emplea para hallar los valores de x correspondientes a ciertos valores fijos de F(x) o, equivalentemente, 1- F(x); por ejemplo, consideremos las variables Ys, Y24 con distribuciones respectivas y 4 respectivamente, de la la tabla obtenemos P(Ys > 1.145) = 0.95 ó P(Y23 :S 39.36) = 1 - 0.025 = 0.975 La disposición de la tabla obedece a que su uso más frecuente que consiste en, dada una probabilidad p, p E (O, 1), hallar la abscisa x tal que 1- F(x) = p, es decir, calcular x tal que la probabilidad de que la variable tome un valor mayor es p. La tabla contiene los datos de la distribución 2 con n ::; 30 debido a que la distribuciones 2 con más de n > 30 se aproximan por la distribución JV (n, .J2n) y se calculan a partir de la tabla de la distribución normal. Por último, si volvemos al problema que ha conducido a introducir la distribución X 2 , el problema de calcular la distribución del estadístico Yn = ~ 2.,~ 1 Xl, se demuestra que si X¡, X2, . . . , Xn, es una muestra aleatoria simple de una distribución normal de media O y varianza (J 2 , el estadístico Yn tiene distribución X2 con n grados de libertad. Un resultado un poco más general es el siguiente.
xl xi
x
DISTRIBUCIÓN DE LA SUMA DE
x
L).7 i Si (X1,X2, . .. ,Xn) es una muestra aleatoria simple de una población con distribución teórica JV (O, (J ), el estadístico
CUADRADOS
1
n
-I,x? (J i = l
tiene distribución
x;.
puesto que na2/(J2 = I.7= 1 (X¡/(J) 2 es suma de cuadrados den variables independientes y N(O, 1). Este resultado permite demostrar un teorema atribuido a FISHER que es crucial en la Inferencia de poblaciones normales. Si (X¡ ,X2, . .. ,Xn) es una muestra aleatoria simple de una población JV(O,(J), el estadístico media muestral sabemos que se se define como
1 n X =- I,xi ni=l
Otro importante estadístico es la varianza muestral, que es la varianza de la muestra y la designaremos por s2 , se define igual a S
2 =-,L.¡ 1 ~( X¡
- -) X 2
ni=l
el teorema de FISHER establece que X y s2 son independientes y asegura que ns 2 1(J tiene una distribución
2
x;-1.
160
UNIDAD DIDÁCTICA 3 Muestreo aleatorio
TEOREMA DE FISHER
! 3.[] Si (X 1,X2, ... ,Xn) es una muestra aleatoria simple de una poblacio'n JV (p,, a), entonces s2 y X son variables aleatorias independientes y la distribución en el muestreo de ns2 1cr 2 es xL 1 . 1
TABLA DE LA DISTRIBUCIÓN
X2
DE P EARSON
~x,,l 2
Xn;p 0'995
0'99
0'975
0'95
0' 9
0'7
0' 3
0'1
0'05
0'025
0'01
o'005
1 2 3 4 5
4 . lQ - 5 0'010 0'072 0' 207 0' 412
2 .lQ-4 0'020 0'115 0'297 0'554
0'001 0' 051 0'216 0'484 0' 831
0'004 0' 103 0'352 0'711 1' 145
0'016 0'211 0' 584 1'064 1' 610
0'148 0'713 1'424 2' 195 3'000
1' 074 2' 408 3'665 4'878 6' 064
2'706 4'605 6' 251 7'779 9'236
3' 841 5'991 7'815 9'488 11 ' 07
5'024 7'378 9'348 11' 14 12' 83
6' 635 9'210 11 '34 13'28 15 '09
7 '879 0' 60 2'84 4'86 6'75
6 7 8 9 10
0' 676 0' 989 1'344 1'735 2'156
0'872 1'239 1'646 2'088 2'558
1'237 1'690 2'180 2'700 3'247
1' 635 2' 167 2'733 3' 325 3' 940
2'204 2' 833 3'490 4' 168 4'865
3' 828 4' 671 5' 527 6' 393 7'267
7'231 8'383 9'524 10'66 11 '78
10' 65 12'02 13'36 14'68 15'99
12' 59 14'07 15'51 16'92 18'31
14'45 16' 01 17'54 19'02 20' 48
16'81 18'48 20'09 21'67 23'21
20'28 2 1'96 23'59 25'19
11
12 13 14 15
2'603 3'074 3'565 4'075 4'601
3'053 3'571 4' 107 4'660 5'229
3' 816 4' 404 5'009 5' 629 6'262
4'574 5'226 5'892 6'571 7'261
5' 578 6'304 7'042 7'790 8'547
8' 148 9'034 9'926 10' 82 11'72
12'90 14'01 15' 12 16'22 17'32
17'28 18'55 19'81 21'06 22'31
19'68 21'03 22'36 23'69 25'00
21'92 23'34 24'74 26'12 27'49
24'73 26'22 27'69 29'14 30'58
16 17 18 19 20
5'142 5'697 6'265 6' 844 7'434
5' 812 6' 408 7'015 7'633 8' 260
6' 908 7'564 8'231 8' 906 9' 591
7'962 8'672 9' 390 10' 12 10' 85
9' 312 10'09 10' 87 11 '65 12' 44
12' 62 13'53 14'44 15' 35 16'27
18' 42 19'51 20'60 21 ' 69 22'78
23 '54 24'67 25'99 27'20 28'41
26'30 27'59 28'87 30' 14 31'41
28' 85 30' 19 31'53 32'85 34' 17
32'00 33'41 34'81 36' 19 37'57
34'27 35'72 37' 16 38'58 4 0'00
21 22 23 24 25
8'034 8'643 9' 260 9'886 10' 52
8'897 9'542 10'20 10' 86 11 ' 52
10'28 10'98 11'69 12'40 13' 12
11'59 12'34 13'09 13'85 14' 61
13'24 14'04 14' 85 15 ' 66 16' 47
17' 18 18' 10 19'02 19'94 20' 87
23'86 24'94 26'02 27'10 28'17
29'62 30'81 32'01 33'20 34'38
32'67 33'92 35' 17 36' 42 37'65
35'48 36'78 38'08 39'36 40'65
38' 93 40'29 41 ' 64 42'98 44' 31
4 1'40 42'80 44 '1 8 4 5'56 46' 93
26 27 28 29 30
11 ' 16 11 '81 12' 46 13 ' 12 13 ' 79
12'20 12'88 13 '56 14'26 14'95
13'84 14' 57 15'31 16'05 16'79
15 ' 38 16' 15 16' 93 17'71 18'49
17'29 18' 11 18'94 19'77 20'60
21 '79 22'72 23'65 24' 58 25 ' 51
29'25 30' 32 31 '39 32' 46 33 ' 53
35'56 36'74 37'92 39'09 40'26
38'89 40' 11 4 1'34 42'56 43'77
41'92 43 '20 44'46 45 '72 46' 98
45'64 46'96 48'28 49'59 50' 89
4 8'29 49'65 50'99 52'34 53'67
p n
8'55
26'76 28'30
29'82 3 1'32 32'80
........
Distribuciones que se presentan en el muestreo
3.2.3
161
Distribución t de Student
En los apartados anteriores hemos visto que media muestral se aproxima a la media de la población al crecer el tamaño de la muestra y que la distribución en el muestreo de la media muestral, X, es JV (J..L , <:J 1yn) o, lo que es equivalente, que el estadístico
tiene distribución JV (O, 1), pero esta información es de poca utilidad si, además de desconocer la media de la población J..L también desconocemos la varianza poblacional <:J 2 , ya que podemos usar esta conclusión para hacer previsiones acerca de la diferencia X- J..L. En tal caso, cabe pensar que el resultado no será muy distinto si sustituimos <:J por el valor de la desviación típica muestral, s, puesto que, al menos para muestras grandes, <:J 2 y s2 tendrán valores similares. Tal idea llevó a WILLIAM GOSSET considerar el estadístico
X - J..L t=Vñ=I-s
3.9: William Gosset "Student"
(3.2)
La sustitución de yn por V11=1 quedará explicada un poco más adelante. GOSSET trabajaba en la cervecería Guinness en Dublín y estaba a cargo de la investigación sobre las mejora y selección de las variedades de cebada que se empleaban en la fabricación de la cerveza y el control de calidad de la fábrica. En Oxford, había estudiado Química y Matemáticas y asistió a clase con AIRY que impulsó hacia la investigación estadística a va.J.ias generaciones. Llegó a la conclusión de que, para comparar el rendimiento medio de diversas parcelas plantadas con distintas variedades de cerveza, debía considerar el estadístico t definido en 3.2 y su problema era tabular la distribución. Pese a no disponer del cuerpo de doctrina teórica que poseemos y que convierte esta clase de problemas en algo rutinario, fue capaz de calcular la distribución mediante una combinación de los métodos matemáticos y el método que denominó "experimental", es decir empleando números aleatorios, lo que hoy diríamos Método de Monte Carlo o Simulación y que estudiaremos a continuación. Puesto que política industrial de la casa Guinness era no dar publicidad a sus investigaciones, publicó sus resultados con el pseudónimo de Student, de esta manera pudo dar a conocer sus resultados teóricos sin que se asociaran a sus investigaciones aplicadas, y ha sido "Student" el nombre ha perdurado para referimos a la distribución del estadístico t. Hoy día podemos hallar la fórmula exacta de la función de densidad del estadístico t de Student, aunque sigue siendo necesaria la integración numérica para calcular los valores de su función de distribución. El resultado fundamental para hallar la distribución del estadístico t es el siguiente: Si X, X1, X2, ... ,
162
UNIDAD DIDÁCTICA 3 Muestreo aleatorio
Xn son variables independientes con distribución común J1í (O, CJ), el cociente X
tiene una función de densidad _ _l_r(n!l) ( fn(t)- y'nii
f(~)
t2)- (n+l)/2 1+ n
para tER
Esta función se denomina densidad de la distribución t de Student con n grado de libertad. Es importante observar que esta densidad dependen den, que como en el caso de la distribución x2 de PEARSON se denomina número de grado de libertad; sin embargo, no depende de CJ , este es precisamente el objetivo que buscábamos y lo que permite que puede ser empleada aún cuando no se conozca la varianza de la población. El resultado anterior suele enunciarse diciendo que el cociente la de una variable J1í (O, 1) por la raíz cuadrada de dividida por sus grados de libertad, independientes entre sí, tiene una una distribución t de Student con n grados de libertad. Gracias al resultado anterior, resulta inmediato hallar la distribución del cociente
x;
X-J..L
vn=I-s calculado en una muestra, que era nuestro objetivo principal. DISTRIBUCIÓN DEL ESTADÍSTICO
i9 i Si (X, ,X2, . .. ,X11 ) es una muestra aleatoria simple de una población J1í (J..L, CJ), el estadístico de Student
!
DESTUDENT
X-J..L vn=I-s tiene distribución t de Student con n - 1 grados de libertad.
La densidad de Student está definida sobre el intervalo ( -oo, oo) y es simétrica respecto al origen, de apariencia semejante a la normal. En la figura 3.1 0 representamos la gráfica de la función de densidad de Student con 10 grados de libertad. En cuanto a los momentos de la distribución, la media existe para cada n > 1 y vale cero mientras que la varianza existe para n > 2 y vale n / ( n - 2) de forma que la varianza decrece rápidamente hacia 1 cuando n crece. La integral de la función de densidad de tn, como la de PEARSON, no puede expresarse en términos de funciones elementales, por ello, los valores de la función de distribución se calculan por métodos de integración numérica, esos valores muestran en en la tabla que se encuentra al final de este apartado. La tabla de la distribución de Student tiene una disposición similar a la de la distribución
163
Disttibuciones que se presentan en el muestreo
0.4
0.3 0.2 0.1
-4
-3
-2
-1
o
2
3
4
Figura 3.10: Densidad t de Student paran = 10
x2 , debido a las aplicaciones que tiene en Inferencia estadística. En el margen izquierdo aparecen los grados de libertad, de hecho, cada línea de la tabla corresponde a una distribución diferente, la que tiene ese número de grados de libertad. En la cabecera de la tabla aparecen distintas probabilidades. Para cada valor de p que vemos en la cabecera, el cuerpo de la tabla muestra los valores t11 ;p tales que la probabilidad de a la derecha de t11 ,p en la distribución de la variable t11 es igual a p, con fórmulas se expresa
La tabla sólo muestra valores de tn;p positivos, ya que la simetría de la densidad implica F( -tp) = 1- F(tp) = p, lo que permite calcular los correspondientes valores negativos. Por ejemplo, si la variable T5 tiene una distribución t con cinco grados de libertad, el valor ts ;o.os se encuentra directamente en la tabla, ts;o.os = 2.015; ahora, si queremos calcular el valor t tal que P(Ts > t) = 0.95, primero deducimos que ese valor tiene que ser negativo, ya que P(Ts >O) = 0.5, lo que significa que el valor buscado se encuentra a la derecha de O y, segundo, por la simetría de la distribución, tenemos
P(Ts > t) = P(Ts < -t) = 0.95 pero la condición P(T5 < -t ) = 0.95 equivale a P(Ts > -t) = 1-0.95 = 0.05 (puesto que P(T5 = t) = 0), así el valor -t lo encontramos directamente en la tabla -t = 4.032 y se tiene t = -4.032. Por último, observemos que las columnas presentan valores monótonamente decrecientes hacia los valores correspondiente a la distribución normal de media cero y varianza uno; con algo más de esfuerzo y cálculo, se puede probar que, cuando n --* oo, la función de densidad de la distribución t11 se aproxima a la normal cuando n--* oo. para tER
164
UNIDAD DIDÁCTICA 3 Muestreo aleatorio
por esta razón, los valores que aparecen en la última fila de tabla que comienzan con un simbólico oo grados de libertad, coinciden con los valores calculados en la tabla de la distribución normal. En la práctica, estos valores se emplean para tamaños muestrales grandes.
T ABLA DE LA DISTRIBUCIÓN t DE STUDENT
~t" > '""i tn ;p
0'4
0'3
0'2
0' 1
0'05
0'025
0'01
0'005
0'0025
2 3 4 5
0' 325 0'289 0'277 0'271 0'267
0'727 0'617 0'584 0'569 0'559
1' 376 1' 061 0'978 0'941 0' 920
3' 078 1'886 1'638 1'533 1' 476
6'31 4 2' 920 2' 353 2'132 2'015
12 '706 4'303 3' 182 2'776 2' 57 1
31' 821 6'965 4'541 3'747 3'365
63 '657 9'925 5'841 4'604 4'032
127' 32 14'089 7'453 5'598 4'773
6 7 8 9 10
0'265 0'263 0'262 0'261 0'260
0'553 0' 549 0'546 0' 543 0'542
0'906 0' 896 0'889 0' 883 0'879
1'440 1' 415 1'397 1'383 1'372
1' 943 1'895 1'860 1' 833 1'812
2' 447 2' 365 2'306 2' 262 2' 228
3' 143 2'998 2' 896 2' 821 2'764
3' 707 3'499 3'355 3'250 3' 169
4'317 4'029 3'833 3'690 3'58 1
11 12 13 14 15
0' 260 0'259 0'259 0' 258 0'258
0'540 0' 539 0'538 0' 537 0'536
0' 876 0' 873 0' 870 0' 868 0'866
1'363 1' 356 1'350 1'345 1'34 1
1'796 1'782 1'77 1 1'761 1'753
2'201 2' 179 2' 160 2' 145 2' 131
2'7 18 2'681 2' 650 2'624 2' 602
3' 106 3' 055 3'012 2' 977 2' 947
3'497 3'428 3'372 3'326 3'286
16 17 18 19 20
0'258 0' 257 0'257 0' 257 0'257
0' 535 0' 534 0' 534 0' 533 0'533
0' 865 0'863 0' 862 0'861 0' 860
1' 337 1'333 1'330 1' 328 1'325
1'746 1'740 1'734 1'729 1'725
2' 120 2'110 2' 101 2' 093 2'086
2' 583 2' 567 2' 552 2'539 2' 528
2'921 2'898 2' 878 2'861 2'845
3'252 3'222 3' 197 3'174 3'153
21 22 23 24 25
0'257 0'256 0'256 0'256 0'256
0' 532 0' 532 0'532 0' 531 0' 531
0' 859 0' 858 0'858 0' 857 0' 856
1' 323 1'321 1' 319 1'3 18 1'3 16
1'72 1 1'717 1'714 1'711 1'708
2'080 2'074 2'069 2'064 2'060
2' 51 8 2' 508 2' 500 2'492 2' 485
2' 83 1 2' 819 2'807 2'797 2'787
3'135 3' 119 3' 104 3'091 3'078
26 27 28 29 30
0'256 0'256 0'256 0'256 0'256
0'531 0' 531 0'530 0' 530 0'530
0' 856 0' 855 0' 855 0' 854 0'854
1'3 15 1' 314 1' 313 1' 311 1'3 10
1'706 1'703 1'701 1'699 1'697
2'056 2'052 2'048 2'045 2'042
2'479 2'473 2' 467 2'462 2'457
2'779 2'77 1 2'763 2'756 2' 750
3'067 3' 057 3'047 3'038 3'030
40 60 120
0'255 0'254 0'254 0'253
0'529 0'527 0' 526 0' 524
0' 85 1 0' 848 0' 845 0'842
1' 303 1'296 1'289 1' 282
1' 684 1'671 1'658 1'645
2'021 2'000 1' 980 1'960
2'423 2' 390 2' 358 2'326
2'704 2'660 2' 617 2'576
2' 971 2'915 2'860 2'807
p n
Método de Monte Carlo
3.3
165
Método de Monte Cario Las máquinas y las matemáticas se han influenciado mutuamente en el transcurso se los siglos; por un lado, la construcción de nuevas máquinas ha aportado datos más precisos, planteado nuevos problemas y dotado de herramientas de cálculo a las matemáticas; de otro lado, los progresos matemáticos han permitido diseñar máquinas más eficientes. La construcción de instrumentos de medición astronómica cada vez más exactos y el desarrollo de la trigonometría o la construcción de las máquinas de vapor y el desarrollo del del cálculo infinitesimal son ejemplos esta relación. Podemos decir que las Matemáticas de cada época están hechas a la medida de los instrumentos de su tiempo, y que buena parte de los desarrollos pasados y de la clase de soluciones que se dieron estaban en función de la capacidad de los instrumentos de calcular del momento. Por ejemplo, muchos desarrollos del Cálculo infinitesimal están inspirados por problemas finitos en los que intervienen magnitudes discretas, sin embargo, las soluciones que se han dado consisten en pasar al límite, esto es al infinito, y considerar magnitudes continuas; tal comportamiento es debido a la escasa capacidad de calcular de las máquinas de aquel tiempo ya que, aunque pueda parecer extraño, considerados en el límite y en el continuo muchos problemas son más simples y sus soluciones son factibles de ser calculadas a mano. Por ejemplo, un número considerable de problemas, entre los que se encuentran algunos de los más importantes problemas de la Matemática aplicada, consisten en seleccionar un valor que cumpla ciertas condiciones entre los valores que toma una función, f, definida sobre un conjunto, A , de casos que está determinado por ciertas relaciones, los casos de A pueden ser números, vectores, figuras geométricas, grafos, circuitos, permutaciones, etc.; en general, A es un conjunto finito pero contiene un gran número de elementos. Examinemos dos ejemplos sencillos de tales problemas, el cálculo del máximo de una función f definida sobre el un conjunto A de números y el cálculo del máximo común divisor de dos números, n y m. EJE M PLO 3.3 El cálculo del máximo de una función f definida sobre un conjunto A ilustra bien las ideas que acabamos de esbozar. Cuando A es un subconjunto del continuo de los números reales, bajo condiciones bastante generales, hay una solución bien estudiada al problema que se basa en técnicas y conceptos obtenidos por paso al límite, como las derivadas. Cuando el conjunto A es discreto, finito o infinito, el problema se hace mucho más duro. Si A es un conjunto de números, en muchas ocasiones es preferiblelo en el continuo, por ejemplo un intervalo que contenga a A, analizar f mediante los métodos continuos del Cálculo y luego restringirse a los elementos de A. Cuando A no es un conjunto numérico sino de objetos de la Combinatoria como permutaciones, combinaciones, grafos o ciclos en un grafo, puede ser muy difícil; muchos de los problemas de la Programación Combinatoria todavía sin resolver parcial o completamente pertenecen a esta categoría. Esta aparente paradoja nos muestra la diferencia entre las matemáticas platónicas y las matemáticas reales; para la inteligencia pura, el problema es
166
UNIDAD DIDÁCTICA 3 Muestreo aleatorio
casi inexistente: puesto que A es finito, basta ordenar los elementos de A y uno a uno el valor que toma f en cada elemento para obtener el máximo, m1·,entra>4 la inteligencia práctica encuentra que la aparente solución no es muy eficiente) un conjunto finito puede estar tener muchos elementos y podemos tardar uu.•vu~ .. siglos en ordenar el conjunto, incluso aunque dispongamos de una regla ~c.u¡;v• ...-. capaz de formarlos de manera ordenada. EJEMPLO 3.4 El cálculo del máximo común divisor nos proporciona un buen plo de los problemas a los que nos referíamos y de cómo la capacidad de calcular ye en el desarrollo matemático para hallar una solución. Ahora, el conjunto de A, está formado por todos los divisores comunes de n y m, la función es la Wt::ntll• f(x) = x, y criterio es el mayor valor de f sobre A. De nuevo, para la inteligencia se trata de un problema sencillo, basta encontrar los elementos del conjunto A, q finito, y examinarlos uno a uno hasta dar con el mayor; esta solución inmediata se de poner en práctica de la manera siguiente: supongamos n > m, iremos pro el número k es un divisor de ambos números, partiendo de k = m y disminuyendo unidad k cada vez, hasta encontrar el primer divisor común que será el mayor. luego, el algoritmo anterior proporciona una solución y puede ser ejecutado en de m- 1 pasos, sin embargo, no es un método eficiente para ser ejecutado por el bre y no se encuentra en los libros de matemáticas; para el cálculo a mano, es mejor el algoritmo llamado de EUCLIDES que, recordemos, se basa en el hecho de el máximo común divisor de dividendo y divisor es igual al máximo común divi ~ divisor y resto. El algoritmo de EUCLIDES progresa rápidamente mediante sucesivas del divisor del paso anterior entre el resto del paso anterior. El digital cambia nuestra valoración de los dos algoritmos, ambos son fácilmente gramables y su ejecución por un moderno computador es prácticamente instan ,
El ejemplo 3.4 nos muestra cómo el computador modifica nuestra per ción sobre qué técnicas son importantes en matemáticas y abre paso al empl de métodos que antes no se podían tener en cuenta. En los últimos apartados este capítulo estudiaremos un método que, por sus exigencias de cálculo, taba aletargado hasta la llegada de los computadores. Desde el punto de v· conceptual, es una aplicación del muestreo estadístico, pues consiste en rep numerosas observaciones de un experimento aleatorio, lo que le distingue otros muestreos es que las observaciones se hacen en el despacho, más prop· mente en el computador, ejecutando los sorteos como si de un experimento laboratorio se tratara.
3.3.1
El origen del método de Monte Cario
Mucho antes del siglo XX se sabía que el muestreo estadístico era un método que permitía evaluar expresiones matemáticas, quizá el primer antecedente se el problema de la aguja, propuesto por BUFFON en 1777: En un plano hay trazadas rectas paralelas a una distancia d unas de otras. Si se dej caer al azar una aguja de longitud e :::; d , ¿cuál es la probabilidad de que la aguja interseque a alguna de las rectas? y lo resolvió, encontrando que la probabilidad igual es 2C/ drc.
Método de Monte Carla
EN RIC O FER MI , nació
el 29 de septiembre de 1901 en Roma y murió en Chicago (lllinois) ::1 28 de noviembre de 1954. Esrudió en la cuela Normal de Pisa, donde ingresó por !!pOSición con una trabajo titulado Caracrístícas del sonido. Tras doctorarse en jude 1922 con una tesis sobre Cálculo de ¡¡robabilidades, regresó a Rom a. En Ocru;xe recibió una beca para esrudiar con MAX ORN en Giittingen. En 1926 comenzó a tra~ ar en Roma en el Instituto de Física, con edios escasos que suplía con inteligencia ~ imaginación sin límites, FERMI logró tra~os fundamen tales sobre radioactividad incida como Radioattivita indotta dal bom-mdamento di neutron en 1934 y Artificial -:Jdioactivity produced by neutron bombard:uent en 1935. En el verano de 1938 MUSSOJ NI se alineó con HITL ER y comenzó la per.c:cución de los judíos en Italia. FERMI no era 'o pero su mujer sí y, aunque él y sus dos ··os eran católicos, la fami lia se encontró en a situación difícil por lo cual aceptó un bajo en la Universidad de Columbi a. La :niDlia FERMI llegó a Nueva York en 1939. "'ERM I trabajó en Estados Unidos hasta su erte en 1954.
167
Hasta aquí, el problema puede parecer uno más del Cálculo de probabilidades, en particular de la Probabilidad geométrica, pero BUFFON de dio una interpretación nueva al utilizarlo para estimar experimentalmente el valor den. La idea es simple pero revolucionaria: si lanzamos la aguja muchas veces, el valor de la frecuencia relativa de veces que corta a una de las líneas del plano, pongamos fn, se aproximará a la probabilidad teórica
fi.
0-J
21! dn
-
luego el valor de n se puede estimar por dfr 21!
n r-.J -
Probablemente este es el primer empleo del la técnica que hoy denominamos Método de Monte Carlo o Simulación estadística, que pe1mite aproximar una cantidad no aleatoria, como el valor de n, mediante una serie de repeticiones de un experimento aleatorio (muestreo estadístico), como lanzar la aguja repetidas veces. Una técnica polifacética que, en estas primeras versiones ingenuas consiste en introducir el Azar en el problema como auténtico deus ex machina en auxilio de un cálculo que, en principio, no tiene relación con él. Desde otro punto de vista, el problema se la aguja de BUFFON y su aplicación a la estimación de n supone una revolución en la epistemología de las matemáticas ya que se trata de un método de cálculo puramente experimental. Otro hito en la aplicación del muestreo estadístico lo señala el trabajo de WILLIAN GOSSET en la cervecería Guinness en Dublín al que ya nos hemos referido. GOSSET descubrió la distribución de la variable X tn = ----¡==== X ñl"n ..::..,¡= ] i
Figura 3.11: Enrico Fermi
donde X, X¡, X2, ... , Xn son variables normales de media cero y varianza uno, distribución que denominamos t de Student, mediante una combinación de los métodos matemáticos con el método "experimental" al estilo de BUFFON, es decir empleando números aleatorios, lo que hoy diríamos una simulación. No menos significativo es el testimonio de EMILIO SAGRE, estudiante y luego colaborador de ENRICO FERMI, que nos ha relatado cómo FERMI, durante su estancia en el Instituto de Física de Roma, a finales de los años veinte y principios de los treinta del siglo pasado, pasaba muchas noches trabajando en hacer simulaciones sobre el comportamiento de los neutrones con una pequeña máquina mecánica de sumar (similar a las registradoras que los más viejos hemos conocido en los comercios) y, a la mañana siguiente, disfrutaba asombrando a sus colegas romanos con sus asombrosamente exactas predicciones de los resultados del experimento que tenían en curso. Claro que, debemos recordar que ENRICO FERMI, que ha pasado a la Historia por desentrañar la
168
UNIDAD DID ÁCTIC A 3 Muestreo aleatorio
Figura 3.12: Presper Eckert
Figura 3.13: John Mauchly
Joh n Von Neumann, nació en Budapest en 1903 y murió en Washi ngton en 1957. Fue un genio en el sentido más absoluto que pueda tener esta palabra. Se licenció en ingeniería química en Berlín y Zurich; sin asistir a clase, también se licenció en matemáticas en Budapest. El gran matemático Pólya dijo de él: Es el único estudiante que m e ha dado miedo. Si en clase proponía un problem a sin solución conocida, había una gran probabilidad de que al fi nal viniera Von Neumann con la solución. En 1930 viajó a Estados Unidos; trabajó en la Universidad de Pri nceton y colaboró con el laboratorio de Los Álamos y con la Rand Corporation. Sus trabajos abarcan toda la matemática moderna, desde sus raíces más teóricas, hasta los frutos de sus aplicaciones. Creó nuevas teorías, como la de juegos o la de autómatas .
estructura del átomo, se doctoró en Pisa con una tesis titulada " Un teorema di calcolo delle probabilita ed alcune sue applicazioni", es decir, poseía una fuerte formación general científica y matemática que contrasta fuertemente con enfermiza especialización de la enseñanza en nuestro tiempo. En resumen, a principios del siglo XX era bien conocido por la comunidad científica que el muestreo estadístico era un método útil para ejecutar lo cálculos muy complicados o imposibles de realizar por las técnicas clásicas del Cálculo infinitesimal, su limitación era la enorme cantidad de cálculos rutinarios que había que realizar para llevarla a cabo. Por ello, las circunstancias cambiaron de manera radical con la construcción del primer computador electrónico digital en 1945. El primer computador digital se fabricó en la Universidad de Pennsylvania y se llamó llamado ENIAC, que significa Electronic Numerical Integrator and Calculator. El proyecto estaba encabezado por dos figuras extraordinaria . el físico JOH N MAUC HLY y el ingeniero PRESPER ECKERT que consiguieron convencer al ejército para que dotara los fondos necesarios, pues su primer objeto era dedicarlo a la confección de tablas balísticas para la artillería, labor que hasta entonces se ejecutaba a mano. Era una máquina construida a base de válvulas que ECKERT y MAUCHLY conseguían de los sobrantes de la guerra El final de la guerra en Europa, en agosto de 1945, y la rendición de Japón en septiembre de 1945, hicieron que nunca llegara a realizar la tarea para la que fue pensada originalmente, pero no iba a quedar desaprovechada, pronto se encontraron proyectos para mantenerla ocupada, en E stados Unidos no faltaban genios dispuestos a aprovechar las capacidad que el ENIAC brindaba. Durante los años treinta, la situación política de Europa y las facilidades que ofrecían las universidades y centros de investigación norteamericanos impulsaron a numerosos científicos europeos a emigrar. Una generación de científico como aquella, por su número y calidad, no ha vuelto a repetirse. En Matemáticas, los países del centro y este de Europa conocieron una Edad de oro, entre tantos hombres singulares, JOH N VON NEUM ANN destacaba por su genio insuperable. En 1945 , VO N NEUMANN trabajaba en el Institute for Advanced Study de Princeton, pero también colaboraba con el Laboratorio de Los Álamos en Nuevo Méjico, donde se estudiada la fusión nuclear. En Los Álamos estaba un extraordinario matemático polaco, STAN ISLAW ULAM, al que VON NEUMAN había traído de Europa y NICHOLAS METROPOLIS físico de origen griego. STANISLAw ULAM tenía una buena preparación en todas las áreas de las Matemáticas y conocía las aplicaciones que tenía el muestreo, pese a que había caído en desuso como consecuencia de la enorme cantidad de cálculos que exigía, discutió con VO N NEUMA NN la posibilidad de aplicarlo quién apreció su importancia y se puso a trabajar inmediatamente. En marzo de 194VO N NEUMANN tenía ya hecho el esquema para su aplicación en el computador ENIAC y había resuelto bastantes de las dificultades matemáticas que surgían abriendo un camino que todavía empleamos. Lo denominaron Méto
,.....
~ ..
Método de Monte Carlo
169
de Monte Carla, en memoria de un tío de ULAM que solía pedir dinero prestado porque "tenía que ir a Monte Carla". El p1imer ejemplo que estudió VONNEUMANN fue el de una esfera de ma~ terial fisionable, por ejemplo, uranio o plutonio, encerrado en una carcasa de metal, el método era simular de manera teórica la trayectoria y acontecimientos relativos a un neutrón, repitiendo esta observación muchas veces; el compor~ tamiento de todo el sistema se deducía de las estadísticas de los comporta~ mientas individuales de los neutrones estudiados. Simular una trayectoria del neutrón implicaba tomar diferentes decisiones sobre magnitudes elegidas me~ diante sorteos; por ejemplo, en el instante inicial hay que elegir la posición y la velocidad del neutrón, la siguiente decisión es el tiempo hasta la primera colisión y la naturaleza de la colisión, etc., el mismo estudio se repetía una y otra vez, los promedios de todos los estudios individuales proporcionaban una idea del estado del sistema en cada instante de tiempo. Para tomar las decisiones aleatorias sobre la trayectoria del neutrón era ne~ cesario que el computador generara números aleatorios con distintas distribu~ ciones. Un resultado matemático ya conocido en aquel tiempo era que cual~ quier distribución no uniforme se puede obtener a partir de una variable, X, con distribución uniforme mediante una transformación adecuada. Así, el pri~ mer problema era generar números con distribución uniforme en [O, 1]. VON NEUMANN sugirió un algoritmo que consistía en elevar al cuadrado un núme ~ ro de n dígitos produciendo un número de 2n dígitos y escoger los n dígitos centrales. Este algoritmo iterado una y otra vez producía secuencias que tenían unas propiedades similares a los números elegidos al azar, desde entonces, se han propuesto algoritmos cada vez mejores. La calidad de este algoritmo es fundamental, en el apartado siguiente estudiaremos los algoritmos que emplea~ mos actualmente para generar dígitos al azar. A continuación, estudiaremos las transformaciones que aplicadas a la distribución uniforme producen valo~ res sorteados conforme a las principales distribuciones, buena parte de estos métodos fueron desarrollados por VON NEUMANN para resolver el problema que acabamos de relatar. EJEMPLO 3.5
B
A
Estimación de n por muest reo.
So elegimos un punto, (X , Y) , al azar en el interior del cuadrado [O, 1] x [O, 1], la probabilidad de sea X 2 + Y 2 < l es igual a n 14. La justificación es simple, la circunferenciaX 2 + Y 2 = 1 divide al cuadrado en dos regiones que se muestran en la figura 3.14; la región A es favorable a X 2 + Y 2 < 1, la región B es desfavorable. Puesto que A es un cuadrante de circunferencia, su área es n / 4; por otra parte, el área total del cuadrado es 1; se sigue P ( X 2 +Y 2
o Figura 3.14
)
<1 =
área favorable área posible
= n 14
El cálculo anterior sugiere una manera de estimar n mediante muestreo. Si elegimos muchos puntos al azar en el cuadrado unidad y, para cada punto elegido comprobamos si se verifica X 2 + Y 2 < 1 ó no, por la ley de los grandes números, la proporción de puntos elegidos que verifican X 2 + Y2 < 1 se aproximará a la probabilidad de que un
170
UNIDAD DIDÁCTICA 3 Muestreo aleatorio
punto elegido al azar pertenezca a A, esto es a rr: 14. La desigualdad de CHEBYCHEY permite acotar la probabilidad de error y calcular el valor mínimo de n necesario para que la probabilidad de tener un error menor que una cantidad fijada sea mayor que la una cota prefijada. Para cada punto elegido al azar (X;, Y¡), consideremos la variable indicadora del sucesos {X 2 + Y2 < 1},
Observemos que cada Z; tiene una distribución de BERNOULLI de media E{Z;} = P (X 2 + Y 2 < 1) = rr: 14 y varianza
Si el número de puntos elegidos es n, la proporción de puntos que verifican X 2 + Y 2 1 es
<
-Z nZ¡+Z2+···+Zn =-------
n estadístico que reconocemos como la media muestra! de la muestra de Z¡ , Z2, ... , Z,. . De la desigualdad de CHABYSHEV se sigue (j'1_
P(IZn -~4 1 >E)<~ - E2 Ahora bien, (j'1_ =
z"
n2
=
~o~ (1 - ~) n
4
4
Consideremos un caso concreto, supongamos que un error en la estimación menor que una milésima nos parece aceptable, entonces ponemos E= 0.01; el valor exacto de es desconocido, ya rr: es la cantidad que queremos estimar y, por tanto, debemos considerarla desconocida; sin embargo podemos dar una cota superior, puesto que la función f (x) = x( 1 - x), con O:::; x :::; 1 tiene su máximo absoluto en x = 1 12, tenemo
de lo que se sigue rr: 104 P( IZn- ¡ 1> 0.01):::; n 4
Expresión que controla la probabilidad de un error mayor que el fijado en función del número de repeticiones.
Generadores de números aleatorios y pseudoaleatorios
3. 4
171
Generadores de números aleatorios y pseudoaleatorios Los primeros procedimientos para generar números aleatorios fueron reproducciones de los juegos de azar, como lanzar dados o extraer bolas numeradas de un bombo, en esencia, eran métodos manuales. Sus dos gran inconveniente es la lentitud pues generar una gran cantidad de números y anotar los resultados lleva un tiempo considerable; su gran ventaja es la completa impredecibilidad del resultado, por ese motivo se siguen empleando para las loterías. Más tarde, aparecieron procedimientos mecánicos, como la máquina que BABINGTON - SMITH y KENDALL construyeron en 1939 para producir una tabla de 100.000 dígitos aleatorios. Les siguieron los dispositivos electrónicos, basados en las fluctuaciones estadísticas imprevisibles de ciertos procesos físicos, en particular de lo que se conoce como ruido blanco que producen las resistencias o los diodos, o ruido térmico, producido por los transistores. En 1951 se construyó el computador FERRANTI-MARK I que, siguiendo una idea de TURING, tenía una instrucción para producir 20 dígitos al azar mediante un generador basado en el ruido de una resistencia que llevaba acoplado. Mediante un dispositivo electrónico de este tipo, la RAND CORPORATION produjo en 1955 una tabla con un millón de dígitos al azar, tabla que se empleó en todos los laboratorios de estadística hasta bien entrada la década de los setenta. U na máquina para producir números al azar mediante el ruido de un dispositivo electrónico es la famosa ERNIE, Electronic Random Number Indicator Equipment, utilizada por la lotería británica desde 1957 que cuenta con cuatro generaciones. Los diseñadores de la primera máquina fueron TOMMY FLOWERS and HARRY FENSOM, era del tamaño de una furgoneta y generaba números a partir del ruido producido por unos diodos de neón, esta máquina se encuentra actualemente en el Museo de la Ciencia de Londres. La versión más moderna, la ERNIE 4 se puso en servicio en agosto de 2004, es quinientas veces más rápida que el ERNIE 1 y genera un millón de números en una hora; ERNIE 4 emplea el ruido térmico de los transistores. Los métodos electrónicos también tienen inconvenientes, son relativamente lentos, pueden estar sujetos a sesgos y derivas incontrolables, por ejemplo el ERNIE es contrastado cada mes mediante test estadísticos de aleatoriedad, semejantes a alguno que estudiaremos en el próximo capítulo, y requieren un hardware relativamente voluminoso. Por este motivo, los computadores actuales generan números aleatorios mediante software en lugar de hardware, esta idea fue sugerida por primera vez por VON NEUMANN, que propuso formar una sucesión a partir de un número, elevando al cuadrado el anterior y extrayendo los dígitos centrales. Desde luego, los números generados de esta manera no son aleatorios en el sentido de ser imprevisibles pues si conocemos el algoritmo y la semilla, es decir el valor inicial, podemos reproducir toda la secuencia; por ello, las sucesiones que resultan de aplicar estos algoritmos se denominan pseudoaleatorias, lo que significa que, aunque son previsibles, poseen propiedades estadísticas, esto es, las relativas a las frecuencias de los
172
UNIDAD DIDÁCTICA 3 Muestreo aleatorio
números, semejantes a las sucesiones que se obtendrían sorteando variables independientes e igualmente distribuidas. Estas propiedades se contrastan mediante tests estadísticos. En 1951, LEHMER introdujo un generador basado en congruencias, de la forma Xn = aXn- l (mód m) que imita el movimiento de una ruleta; la idea de LEHMER ha tenido éxito y muchos de los algoritmos que se utilizan hoy en día están basados en congruencias, bien sean lineales o no. Como hemos comentado, la sucesión de números que producen estos algoritmos no es aleatoria sino determinista; si se conocen los números a, m y Xo, los restantes están determinados. Para las necesidades de la Simulación, los algoritmos generadores de números pseudoaleatorios son suficientes, ya que producen un gran número de valores en poco tiempo y no tiene importancia que sus valores sean previsibles. Incluso, es una ventaja, puesto que si repetimos la misma operación a partir de un mismo valor inicial X0 , los valores que obtendremos serán idénticos, lo que permite depurar nuestros programas con facilidad. Por el contrario, la previsibilidad de los resultados del algoritmo es un defecto muy grave cuando se emplean los generadores de números aleatorios en Criptografía o en los juegos de los casinos on-line. Por ejemplo, MCGRAW y VIEGA han demostrado que en el juego Texas Hold'em Poker, que utiliza para ordenar la baraja el generador aleatorio de Borland, tras observar las primeras cinco cartas jugadas, es posible conocer en pocos segundos la distribución de las restantes. Para satisfacer esta necesidad de generar números aleatorios imprevisibles se han desarrollado, tanto generadores no lineales como nuevos dispositivos físicos que se incorporan a algún puerto del computador.
3.4.1
Generadores de congruencias lineales (GCL)
Recordemos que decimos que dos números x e y son congruentes módulo m significa que tienen el mismo resto de la división por m o, equivalentemente, que x-y es múltiplo de m ; si x e y son congruentes módulo m escribimos x =y (mód m); por ejemplo, 7 =S (mód 2) y 11 = 8 (mód 3). De lo anterior se sigue que dado m, cualquier número es congruente con uno de los números O, 1, ... , m - 1. Los generadores de congruencias lineales son algoritmos que producen una secuencia de números fraccionarios entre Oy 1 mediante la siguiente recursión: primero, se escogen cuatro números enteros
m, el módulo de la congruencia a,
el multiplicador
e,
la traslación
Xo , la semilla
Generadores de números aleatorios y pseudoaleatorios
173
después se calculan tantos números entre O y m - 1 como se quiera mediante la recurrencia Xn = (aXn-1 +e) (mód m) El algoritmo devuelve la sucesión de números U11 , obtenidos mediante la división Xn Un= m
Puesto que X11 E {O, 1, .. . , m- 1}, los números Un están comprendidos entre O y 1; por ejemplo, si m= 5, a= 7, e= O y Xo = 1, se tiene X¡ = 7 (mód 5), luego X 1 = 2. De igual manera se calculan X2 = 4, X3 = 3, X4 = l. El algoritmo devolvería los números Ut
= 0.4, u2 = o.8, U3 = o.6, u4 = 0.2
Cuando se conoce el valor de X¡, el "futuro" está determinado; es decir, los valores Xi+ t , X¡+ 2 , ... , son conocidos. Como sólo hay m valores posibles para Xn (de O a m - 1), entre los números X¡, X2, . . . , Xm+ l forzosamente habrá dos repetidos, lo que implica que la secuencia es periódica, con un periodo máximo de m números si e -¡ O y de m - 1 números si e = O. Lo usual es escoger m lo mayor posible pero tal que el cálculo de la congruencia sea rápida, esta elección depende de la aritmética del computador. Luego, se escogen a y e de forma que el periodo sea lo mayor posible. Si el computador trabaja en base b, escoger un módulo potencia de b tiene muchas ventajas para implementar el cálculo de la congruencia. Por ejemplo, si consideramos base 10 y m= 102 , para calcular la congruencia módulo m del número 12345 basta conservar las dos posiciones más a la derecha del número 12345
= 45
(mód m)
Tampoco es muy difícil implementar la congruencia por 10r -1, que se reduce a realizar sustracciones. Por ejemplo, si m = 102 - 1, para calcular x = 12345 (mód m), primero calculamos y= 12345 (mód 102 ) que es más fácil, ese cálculo implica (3.3) 12345 = y + N10 2 en este caso, y = 45 y N = 123. De 3.3 se sigue 12345 = (y+N) +N( 102 - 1) :=y+N
(mód m)
(3.4)
Así, el cálculo consiste en restar a y + N tantas veces como podamos m, hasta que el resultado sea menor que m. En nuestro ejemplo, y+ N = 168 y m= 99, el cálculo es: 168 - 99 = 69 que ya es menor que m, luego se tiene 12345 = 69 (mód 102 - 1). Este truco ha hecho muy popular el módulo 231 - 1 que, además, es primo, lo que tiene otras ventajas. Las condiciones que deben satisfacer los parámetros para que el periodo sea máximo las determina el teorema siguiente
174
UNIDAD DIDÁCTICA 3 Muestreo aleatorio
GENERADORES LINEALES GCL
. 3.1Q__ j La condición necesaria y suflciente para que un generador GCL tenga periodo de longitud máxima m es que se cumplan 1. m y e son primos entre sí. 2. Se cumple a = 1 ( mód p), para cada p primo que divide a m. 3. Si 4 divide a m, entonces a= 1 (mód 4) .
Figura 3.15: Donald Erwin Knuth
Donald E. Knuth nació en Milwaukee, Wisconsin, (USA) en 1938. Se licenció en matemáticas. Desde 1968 ha sido profesor de la universidad de Stanford. Es pionero en el Análisis de algoritmos al que ha contribuido aportando técnicas matemáticas para el análisis riguroso de su complej idad. Su gran obra es The Art of Computer Programming, de la que lleva publicados tres volúmenes definitivos y tres fascículo s del cuarto, y en la que sigue trabajando activamente. Es una referencia indispensable en computación y algoritmos. Le debemos T)3X, el sistema de tipografía digital para preparar textos matemáticos, como éste que tiene el lector en sus manos. Sus trabajos de investigación han dado lugar a la creación de diversos subcampos de la ciencia de la computación. Actualmente es profesor emérito del rute de programar computadores en la universidad de Stanford.
En los generadores lineales GCL, las propiedades estadísticas de la sucesión U¡ son muy sensibles a la elección de los parámetros, por lo que debe hacerse con extremo cuidado. Ésta es la enseñanza que se deriva del célebre error ocurrido con un generador denominado RANDU que IBM implementó en sus máquinas durante la década de los 60 y que durante cierto tiempo fue muy popular. RANDU se caracteriza por el módulo m= 231 y a = 2 16 + 3, al someterlo a algunos tests estadísticos tiene unos resultados tan malos que KNUTH lo ha calificado de verdaderamente horrible; por el contrario, hay generadores con muy buenas cualidades basados en el módulo m= 2 31 - 1, que es un número primo. Uno de los mayores inconvenientes que presentan los GCL es la estructura reticular que tienen. Para entender lo que esto significa consideremos de nuevo el algoritmo RANDU. que, como hemos dicho, se caracteriza por
Esto implica: xi+2
= (2 16 + 3)Xi+! + k1231 = (216+3)2X¡+k2231 = ( 6 · 2 16 + 9)X¡ + 232 X¡ + k22 31 = (6·2 16 +9)X¡+k32 31
= 6(2 16 +
3)X¡- 9X¡ + k32 31
Se sigue que cumple la relación:
lo que implica que cada tema de números consecutivos (U¡,Ui+l,Ui+2) producidos por el algoritmo pertenece al plano de ecuación:
(k, entero) Esto hace muy previsible el valor de U¡+ 2 cuando se conocen U¡ y U¡+¡, aunque no se conozca el algoritmo que está generando los números. De hecho, k
Generadores de números aleatorios y pseudoaleatorios
175
cumple -6
1ver D. KNUTH, The Art of Computer Programming, vol Il, pag 93. Ed. Addison Wesley
176
UNIDAD DIDÁCTICA 3 Muestreo aleatorio
3. 5
Tran sformaciones de la distribución uniforme
Para obtener valores de una variable aleatoria con una función de distribución no uniforme hay que transformar los resultados que produce el generador de números aleatorios; dada una transformación, el cálculo de la distribución de la variable transformada es un ejercicio de aplicación de las técnicas que estudiamos en las dos primeras lecciones de este curso. Por ejemplo, para simular los valores de una variable X con función de distribución exponencial de parámetro A > O, basta transformar una variable. U, uniforme en el intervalo [O, 1] mediante la transformación X = ?c1 ln U; en Figura 3.16: Anatoli Vladimirovich efecto, si x > O, se tiene Skorokhod
A. V. Skorokhod nació el 10 de septiembre de 1930 en Nikopol (Ucrania); se graduó en la Un iversidad de Kiev en 1953 e hizo estudios de posgraduado en la Universidad de Moscú, bajo la dirección de E.B. Dynkin. Entre 1956 y 1964 fue profesor de la Universidad de Kiev. Más tarde, trabajó en el Instituto de Matemáticas de la Academia Ucraniana de Ciencias. Desde 1993 ha sido profesor de Probabilidad y Estadística en la Universidad del Estado de Michigan. En 1985 , fue elegido miembro de la Academia Ucraniana de Ciencias; en 2000, fue nombrado Fellow de la American Academy of Arts and Sciences in 2000. Sus investigaciones matemáticas abarcan la la Teoría de los Procesos estocásticos, las ecuaciones diferenciales estocásticas, los procesos de Markov y los sistemas dinámicos con perturbaciones aleatorias.
P(X ::; x) = P(lnU 2: -Ax )
= P(U 2: e- h)
=1
1
e- Ax
du
= 1- e-A.x Así, la función de distribución de X es igual a
Fx(x) =
O
,
{ 1 - e - "x
si x::; O si x
>O
luego la función de densidad de X es si x ::; O si x > O y X tiene distribución exponencial de parámetro A. En el Cálculo de probabilidades, se demuestra un resultado que garantiza que esa transformación de la variable U existe cualquiera que sea la distribución que tenga la variable que necesitamos, ese resultado se debe al matemático ruso SKOROKHOV.
TEO REMA D E SKOROKHOD
[ 3.11 [ Sea U es una variable aleatoria uniforme en el intervalo [O, 1] y F es una función de distribución de finida sobre la recta real; denominaremos función de cuantiles de F a la función Q definida por:
Q(u) = mín{x; F(x) 2: u} Cualquiera que sea la función de distribución F, la función Q está definida para todo u E (0, 1) y la variable X= Q(U) tiene función de distribución
F.
Transformaciones de la distribución uniforme
177
Este resultado indica que existe una transformación e incluso nos enseña cómo hallar esa transformación; la función de cuantiles definida en la propiedad 3.5 proporciona un procedimiento universal de simular valores con cualquier distribución. si un computador posee un generador de números pseudoaleatorios, puede generar números con cualquier distribución de probabilidad. Sin embargo, en la práctica, hallar la función de cuantiles de SKOROKHOD puede ser un problema difícil que no se automatiza fácilmente; además, el algoritmo basado en la función de cuantiles no siempre es eficiente. Lo ideal es que la transformación que escojamos sea fácil de programar, que tenga una rápida ejecución y que no empeore los defectos de los GCL. La transformación de la función de cuantiles puede ser un algoritmo muy lento si no hay subprogramas que calculen Q de manera eficiente; por ello, en este apartado, estudiamos otro método general basado en una idea de VON NEUMAN N, que produce importantes algoritmos. MÉTODO DE RECHAZO DE VON NEUMANN
~
Queremos simular valores de una variable aleatoria X que tiene función de densidad f (x), supongamos que sabemos generar valores de otra variable Y con función de densidad g(y) y que se cumple
f (x) < e < oo
g(x) entonces, el algoritmo: 1. Generar Y con densidad g (y ).
2. Generar U con función de densidad uniforme en (O, 1). 3. Si se cumple:
CU
< f (Y )
- g(Y ),
devolver X = Y; en otro caso, volver al paso 2. produce valores distribuidos con función de densidad f(x).
Observemos que la esencia del método de VON NEUMANN consiste en aceptar o rechazar cada valor Y, simulado con función de densidad g(y), con una probabilidad igual a
P (U < f(Y) )
- Cg (Y)
para simplificar la notación, pongamos
h( ) y
= P(U < J(y) ) - Cg(y)
Se tiene
P(Y es aceptado )= ¡_: h(y)g(y) dy
178
UNIDAD DIDÁCTICA 3 Muestreo aleatorio
De manera similar, resulta
P(Y ::::; x, Y es aceptado)
= J:= h(y) g(y) dy
P(Y::::; x 1 Y es aceptado)
= ¡= h( y ) g (y) dy -=
lo que implica J~=h(y)g(y)dy
Si derivamos respecto de x, obtenemos la función de densidad de los valores aceptados
h(x)g(x) ¡:::=h(y) g(y) dy Ahora, puesto que
(3.5
U es uniforme en (0, 1) y f(y)/Cg(y) < 1, se tiene h(y) = P(U < f(y) ) = f(y) - Cg(y) Cg(y)
si reemplazamos en 3.5, resulta que la función de densidad de los valores aceptados es
f(x) g(x) Cg(x) = f(x) J(y) g(y) dy }_= Cg(y)
r
Luego los valores aceptados tienen la distribución que queríamos simular. Observemos que, en razonamiento anterior, se tiene
P(Y es aceptado)
¡: =¡ -=e =
h(y) g(y) dy
=
1
f(y)dy
1
=-
e
Así, el número de simulaciones de Y que hay que hacer hasta aceptar un valor tiene una distribución geométrica de parámetro 1 /C. Se sigue que el número medio de valores de Y que hay que simular para tener uno de X es C. Conviene elegir g de manera que C sea lo más próximo a 1 que sea posible. Por ejemplo, supongamos que queremos para simular valores de una variable X que tiene función de densidad
O
si x
5t (0, 1)
fx(x) = { 6x(1-x) si x E (O, 1) Esta variable tiene una distribución que pertenece a una familia conocida como distribuciones beta de EULER, f3(p,q), que tienen función de densidad proporcional a xP- 1 ( 1 - x) q-I para x E (O, 1), p > O, q > O. Para aplicar el
Transformaciones de la distribución uniforme
179
método de VON NEUMANN nos apoyaremos en la función de densidad uniforme g(y) = 1, si y E (0, 1) ; puesto que el máximo de x(l-x), para x E (0, 1) , se alcanza cuando x = 1 /2, se cumple
f(y)
-
g(y)
3 =6x(1-x) < - =C
- 2
y el algoritmo que emplearemos es: Paso l. Generar Y con densidad uniforme. Paso 2. Generar U con función de densidad uniforme en (O, 1). Paso 3. Si se cumple U::; 4Y ( 1-Y ), devolver X= Y; en otro caso, volver al paso l.
Con este algoritmo, en media, tenemos que generar 150 valores de Y para tener 100 valores de X. Observemos que el número total de simulación puede reducirse bastante si empleamos el valor de U obtenido en un usa como valor de Y en el paso siguiente. EJEMPLO 3.6 Supongamos que queremos simular valores de una variable X con distribución beta de parámetros p = 1/2 y q = 2, su función de densidad es
fx(x) =
{
O 3 1-x
2 . Vx
six¡¡t(O,l) sixE(O,l)
En este caso no podemos emplear g (y) = 1, si x E (O, 1), ya que el cociente:
f (y) g(y)
3 1- y - ·--
2
,¡y
no está acotado en un entorno del origen. Probemos con g(y) = 1/2,fi. Esta distribución se simula fácilmente, basta tomar Y = U2 , donde U es una uniforme en (O, 1). Con esta elección, el cociente f 1g verifica
f(y) 3 3 -=-(1- y)< g(y) 2 - 2 Luego e= 3/2. El algoritmo: Paso l. Generar U1 con densidad uniforme. Hacer Y = Uf. Paso 2. Generar U2 con función de densidad uniforme en (O, 1). Paso 3. Si se cumple U2 ::::; 1- Y, devolver X= Y; en otro caso, volver al paso 2.
genera valores de una variable X que tiene función de densidad igual a f. Los valores U2 generados en un paso, se pueden aprovechar como U¡ del paso siguiente, de esta manera hay que generar tantos números al azar como ejecuciones del algoritmo. Puesto que e= 3/2, en media, para generar 100 valores de X habrá que repetir la • ejecución del algoritmo 150 veces.
180
UNIDAD DIDÁCTICA 3 Muestreo aleatorio
3.5.1
X= rCO S
B
, P (x,y)
Generación de variables normales
Sin dificultad podemos hallar un algoritmo como aplicación del méto de rechazo de VON NEUMANN, consideremos una variable Z es una variab normal de media O y varianza 1, nuestro procedimiento aprovecha la sime · de la variable Z de la manera siguiente: primero, simularemos la variable X = IZI que tiene función de densidad igual a
:y= rsene o
Q Figura 3.17
El sistema de coordenadas polares toma como referencia un punto fij o, el origen de coordenadas O del sistema cartesiano, y una semirrecta, que se acostumbre a elegir igual a la semirrecta positiva del eje OX cartesiano . Cada punto del plano P, se identifica por un par de números, (r, e). cuya interpretación geométrica es la siguiente: r es la distancia de P al origen O y es la medida del ángulo que forma el segmento OP con la recta de referencia, medido en senti do contrario a las agujas del reloj. El paso de coordenadas cartesianas a polares está indicado en la fi gura 3.17, en el triángulo OPQ, la hipotenu sa mide r, la abscisa x es la longitud del cateto contiguo al ángul o e y la ordenada y es del cateto opuesto; se sigue
si
mediante el método de rechazo y, luego, sorteamos el signo de X, lo que permite devolver un valor de Z . Partimos de una variable Y con distribución exponencial si
y= rsene
El paso de coordenadas cartesianas a polares también es inmediato, la longitud de la hipotenusa, r es igual a r = x2 + y2 mientras que es la medida del ángulo cuya tangente es y/x, esto es e = arctg ~ -
e
J
O< x < oo
se tiene
f(x) g(x)
e
x = rcos e
O< x < oo
luego C
=
= _2_e-4-+x =
V2n
fle e- (x- 1)2 / 2
V1r
< f2e
-V 1r
/"ij y el algoritmo para generar valores de Z es el siguiente =-
Paso l. Generar U¡ con densidad uniforme. Hacer Y distribución exponencial de parámetro A = 1).
ln Uf (Y ti e
Paso 2. Generar U2 con función de densidad uniforme en (O, l). Paso 3. Si se cumple U2 ::; e- ~ (Y-l ) volver al paso 2.
2 ,
ponemos X
Paso 4. Generar U3 con densidad uniforme; si U3 -X ; en otro caso, devolver Z =X.
= Y ; en
< 0.5,
otro cas
devolver Z =
Actualmente. los algoritmos más populares para generar variables normales basan en una transformación de la distribución normal bidimensional denominada de BOX y MULLER. Supongamos que (X, Y ) es un vector aleatorio donde X e Y son independientes y tienen distribución normal de media O y varianza l. La función densidad conjunta de (X, Y) es igual a 1
1( 2
f(x,y) = 2n e-2
x
2)
+y '
si
-oo
< x < oo,
- oo
< oo
Si se calcula la función de densidad conjunta en coordenadas polares, las ecuaciones de la transformación son X=
rcos8
y =rsene
(3.6
Transformaciones de la distribución uniforme
181
o bien r2 = x2 +y2 y e = arctg (y/ x), donde o < r < 00 y o ~ e < 2n, resulta que la función de densidad conjunta de (R,e) es igual a
1 2
1
,.z
f ( r, e ) = nre- 2
2
Es importante observar que se cumple f (r, e ) = 21¡¡; · re - ~ r =fe( e )fR (r) lo que implica que las variables e y R son independientes; e es uniforme en [O, 2n) y R tiene densidad re_,.z12, es decir W = R2 tiene densidad exponencial de parámetro 112 fw ( OJ )
=
1
_ !ú)
2e
2
si O < w <
,
oo
Esta observación proporciona la clave para lograr una sencilla simulación de la distribución normal mediante la transformación inversa que pasa de (w' e) a (X, Y). Primero, generamos U¡ con densidad uniforme y hacemos = 2nU¡ ; así, la variable e tiene distribución uniforme entre Oy 2n; segundo, generamos U2 con densidad uniforme y hacemos W = - 2ln U2 , de esta manera W tiene distribución exponencial de parámetro 1 / 2; por último, hacemos R = JW y calculamos X e Y mediante la transformación 3.6.
e
A LGORITMO DE BOX-MUL LER
lJ....:..l_3 _j E l algoritmo de B o x - M ULLER genera dos variables normales independientes, (X ,Y ), de media cero y varianza uno. Paso 1. Generar U¡ y U2 con densidad unifonne. Paso 2. Devolver
X= J -2lnU2cos 2nU1 ,
El algoritmo de BOX - M ULLER tiene el inconveniente de emplear intensivamente las funciones cos y sen, lo que puede incrementar el tiempo de ejecución, una alternativa ventajosa es el siguiente algoritmo debido a MARSAGLIA y conocido como algoritmo polar. ALGORITMO DE M A RSAG LI A
3.14 El algoritmo polar de MARSAGLIA sirve para generar variables normales independientes. Paso 1. Generar U1 y U2 con densidad unifo1111e entre O y l . Paso 2. Hacer V¡ = 2U¡ - 1 y V2 uniforme entre - 1 y l. Paso 3. Calcular W desde el paso l .
= v? + V:j.
Paso 4. Devolver X
= V¡
= 2U2 -
Si W
1 (V¡ y V2 tienen densidad
< 1 pasar a 4.; si W 2: 1, repetir
J--&, ln W y Y = V2 J--&, ln W.
182
UNIDAD DIDÁCTICA 3 Muestreo aleatorio
3.5.2
Generación de variables discretas
Consideremos una variable discreta, X, con distribución dada por
P(X =X¡) = p¡ ,
para i
= 1, 2, ... , N
Cualquier variable discreta que haya que simular admite una representació semejante, ya que, aunque teóricamente tome un número numerable de valores distintos ya que las probabilidades inferiores a la precisión del computador considerarán cero. La aplicación del método de la función de cuantiles a la variable X tiene algunas características peculiares, para simular X, generam U con densidad uniforme entre O y 1, y adoptamos el criterio si
j- 1 j L,. p¡ ::::; U < L,. p¡, entonces X i=l i=!
= x1
Este algoritmo genera valores de una variable con distribución igual a 3.7; en efecto, para cada j, 1 ::::; j::::; N, se tiene
j-1 P(X = Xj) = P(L,.p¡::::;
u<
i=l
j LPi) i=!
luego }- !
j
P(X=xJ) = L,.p¡- LPi=Pi i=! i=! De una manera un poco más estructurada, el algoritmo se enuncia: GENERACIÓN DE VARIABLES DISCRETAS
2 :.!.2.- Algoritmo para generar valores de una variable discreta con probabilidades P(X = x¡) = p¡. Paso 1. Generm· U con densidad unifom1e entre O y l. Paso 2. Hacer i = l. Paso 3. Mientras se cumpla U 2: Paso 4. Devolver X
L,f=1 p¡, hacer i = i + l.
= X¡ .
Observemos que el algoritmo es válido cualesquiera que sean los valores x1 y su orden, lo que permite hacer una mejora; cuando X= x1, en media, el paso 3 se repite j veces. Esto significa que el número medio de pasos para generar un valor es del orden de la suma N
LiPJ }= 1
como vemos, en este número medio no intervienen los valores concretos, sino el orden en que están colocados. La manera de hacer la media anterior lo más
Transformaciones de la distribución uniforme
183
pequeña posible es reordenar los valores de X en orden decreciente de p 1. Otras estrategias más efectivas consisten en buscar desde un punto más conveniente. En las distribuciones unimodales es la moda de la distribución (el valor de mayor probabilidad), ver KNUTH 2 . EJE M PLO 3.7 La simulación de una variable aleatoria discreta con distribución geométrica de parámetro p , mediante el método anterior, tiene una sencilla formulación analítica. Consideremos una variable X con distribución
P (X
= i) = p ( l -
p )i- 1,
para i = 1, 2, .. .
Si tenemos en cuenta la suma de una progresión geométrica, resulta j- l
L,p(l-pr - ! = l -( 1 - p )i- 1 i= l
luego, en este caso, la condición j -l
j
LPi :::; u< LPi i=1
i= l
es igual a l - ( l- p)i- 1 :::; u < l - (1- p)i lo que implica (1 - p)i
< l - u :::; (1 - p)i- 1
Ahora, 1 - U también es uniforme entre O y 1, luego esta condición equivale a generar U y analizar si se cumple
(1- p)i < U:s; (l-p )i-I Se sigue U } X=mín{J;U > (1 - p ) 1.}=mín { j ; j > ln (ln 1 -p ) =1 +
l
In U ) ln(l-p
j
donde lx J es el mayor entero menor o igual que x.
8
Como sucede con las variables continuas, además de los métodos generales, hay un buen número de métodos particulares para generar distribuciones especiales; por ejemplo, el algoritmo para generar una variable aleatoria de BERNOULLI, de parámetro pes bien sencillo GENERAC IÓN DE VARIABLES DE BERNOULLI
l} -}§.J A lgoritmo para generar valores de una variable de BERN OULLI de parámetro p.
1. Generar U con densidad uniforme entre O y l.
2. Si U::; p, devol ver X= 1; en otro caso, devolver X= O. L a variable X tiene distribución de BERNO ULLI de parámetro p . 2 K NU TH , D. ,
Th e Art of Programming Computers, vol II, Addi son Wesley
184
UNIDAD DIDÁCTICA 3 Muestreo aleatorio
Sabemos que una variable binomial, Y, de parámetros n y p, se puede descomponer como suma den variables de BERNOULLI independientes
esta descomposición es la clave para generar una variable binomial a partir de la simulación de variables de BERNOULLI que acabamos de ver. GENERACIÓN DE VARIABLES BINOMIALES
_1._1~
Algoritmo para generar valores de una variable binomial de parámetros n y p.
1. Hacer i = l. 2. Generar U¡ con densidad uniforme entre O y l . 3. Si U¡ :S: p , hacer X¡ = 1; en otro caso, hacer X¡ = O.
4. Hacer i = i + l. Si i < n + 1, pasar a 2. 5. Devolver Y = X 1 + X 2 + ···+ Xn. La variable Y tiene distribución binomial de parámetros n y p.
El algoritmo anterior es muy simple pero tiene la desventaja de requerir n simulaciones de una uniforme entre O y 1 para generar un valor binomial. Podemos mejorarlo si observamos que, condicionado por U1 :S: p , la variable U2 = -J;u tiene también distribución uniforme entre O y l. De igual manera. condicionado por U > p, la variable U2 = (U- p)1 ( 1- p), tiene distribución uniforme entre O y l. Lo más interesante es que, aunque las variables U1 y u._ no son independientes, las variables X 1 y X2 definidas por Xl=
ul ::::: p o si u] > p 1 si
{
son de BERNOULLI e independientes. Esta observación es la clave para generar un algoritmo que sólo requiere 3 un valor simulado de una uniforme entre O y 1 para cada valor simulado de la binomial.
3.5.3
Generación de permutaciones al azar
Además de simular valores de variables aleatorias, con frecuencia se requiere, bien para los algoritmos de muestreo o remuestreo como para los diseños de experimentos o los mismos juegos, simular ordenaciones, permutaciones o subconjuntos elegidos al azar, entre los elementos de un conjunto dado. Como 3 Al menos teóricamente, ya que, si n es grande, los redondeos obligan a simular más valores uniformes.
Transformaciones de la distribución uniforme
185
ejemplo, en este apartado mostramos un algoritmo para simular una permutación aleatoria. Consideremos n valores numéricos o literales, X¡, xz, . . . , X 11 • El algoritmo más elemental para obtener una permutación al azar de los valores consiste en escoger al azar uno de los valores, entre x 1 y x 11 , y colocarlo en primera posición; luego, se escoge al azar otro valor entre los n - 1 restantes y se coloca en segunda posición; así, sucesivamente, hasta que no quedan valores que escoger. Este algoritmo no es muy eficiente ya que, en cada paso, hay que recordar los valores elegidos en los pasos anteriores. Es más conveniente poner los valores en una lista ordenada y escoger las posiciones del valor, más que el valor en sí. Consideremos ordenación de los valores
En el paso j = 1, escogemos al azar una de las posiciones 1, 2, ... , n. Si i es la posición elegida, se intercambian el valor que ocupa la posición i y el que ocupa la posición n.
En el paso j = 2, se escoge al azar una de las posiciones 1, 2, ... , n- 1, y se intercambian el valor que se encuentra en la posición escogida y el que se encuentra en la posición n - l. Así sucesivamente, hasta que j > n. Cuando esto ocurra, habremos logrado una permutación al azar de los n valores. Queda por resolver la manera de escoger, al azar, una posición entre los k índices 1, 2, . . . , k. Para ello, generamos un número, U , al azar entre O y l . La variable kU es uniforme entre O y k, y se cumple
1 P( i -1 5:. kU < i) = k , para k= 1, 2, . . . , k luego I GENERACIÓN DE PERMUTACION ES AL AZAR
= 1 + lkU J es un índice elegido al azar entre
1, 2, ... , k.
~Algoritmo
para generar una pe1mutación al azar den valores; partimos de una ordenación de los valores x 1x 2 . . . xn~tXn el algoritmo consta de cinco pasos:
1. Hacer k
= n.
2. Generar U con densidad uniforme entre O y 1, y hacer I 3. Intercambiar X¡ con Xk . 4. Hacer k = k - l. Si k
> 1 ir a 2.
5. Devolver la ordenación en memoria.
= 1 + lk U J.
1nferencia estadística
ÍNDICE 4.1 Est imaciones por punto 4.1.1 Estimadores insesgados 4.1.2 Estadísticos suficientes 4.1.3 Estimadores de máxima verosi mi 1itud 4.2 Intervalos de confianza 4.2 .1 Introducción 4.2.2 Método de la cantidad pivotal para la construcción de intervalos de confianza
4.2.3 Intervalos de confianza para los parámetros de las distribuciones normales 4.3 Contrastes de hipótesis 4.3.1 Planteamiento general de los contrastes de hipótesis 4.3.2 Contrastes de hipótesis unilaterales y bilaterales 4.3.3 Contrastes de bondad del ajuste
Introducción
189
Inferencia estadística es el proceso de extraer conclusiones generales válidas para toda la población a partir una muestra aleatoria tomada de esta. La ciencia de la Inferencia estadística estudia y establece métodos para realizar inferencias estadísticas, es decir, para analizar la información proporcionada por las muestras y obtener conclusiones sobre la ley de probabilidad del fenómeno en estudio. La Inferencia estadística parte de suponer que el fenómeno en estudio está gobemado por un modelo estadístico que conocemos parcialmente y pretende mejorar nuestro conocimiento de ese modelo gracias a la información obtenida de muestras aleatorias. Por ejemplo, el fenómeno bajo observación se representa por la variable aleatoria o vector aleatorio, X , con función de distribución F; la suposición acerca del modelo estadístico de X se puede concretar diciendo que F pertenece a cierta clase de distribuciones §; la información obtenida de la muestra de acuerdo con los métodos de la Inferencia estadística sirve para especificar mejor las características de F. Algunos de la mejora de nuestro conocimiento sobre F que podemos lograr son: estimar algún parámetro característico de F, determinar un rango de variación muy probable para algún parámetro de F , contrastar hipótesis sobre F, descartando que pueda pertenecer a algún subconjunto de § o discriminar entre muestras distintas las pertenecientes a una u otra distribución de la clase§. La manera en que la clase § está definida determina dos grandes familias de métodos de inferencia. Por una parte tenemos los métodos paramétricos, en los que la familia § se puede describir completamente mediante uno o varios parámetros desconocidos, § = {F (x ; e) 1 e E 8}, un ejemplo es la familia de las distribuciones normales de media Jl y varianza a 2 ,
las técnicas que tratan estos problemas se denominan paramétricas. La suposición de que un modelo es paramétrico es muy restrictiva, significa que conocemos con bastante precisión el modelo y su determinación completa está falta tan sólo de determinar unos pocos parámetros. Por otra parte, tenemos los modelos no paramétricos, en los que las suposiciones previas sobre el modelo son mucho más reducidas, casi mínimas, por ejemplo, que la distribución es continua. Entre los modelos estrictamente paramétricos y los no paramétricos caben toda una serie hipótesis intermedias sobre el modelo. En este capítulo, que introduce la Inferencia estadística, nos plantearemos tan sólo problemas paramétricos debido a la sencillez de las herramientas matemáticas que requieren. Problemas característicos de la Inferencia estadística paramétrica son la Estimación puntual, que permite hace afirmaciones como "la probabilidad de
190
UNIDAD DIDÁCTICA 4 Inferencia estadística
que un dígito O enviado a través de un canal de transmisión se reciba con error es igual a 0.05" o "la duración media de esta clase de componentes eléctricas es de x horas", en el apartado 4.1 analizaremos las propiedades que es deseable tengan estos estimadores y algunos métodos empleados para obtenerlos. Otro problema característico de la Inferencia paramétrica es obtener un margen de variación para determinado parámetro desconocido de la distribución, es decir precisar un intervalo numérico en el que podamos razonablemente esperar que se encuentra el valor desconocido del parámetro. Esta método de estimación se denomina estimación por intervalos de confianza; este método permite hacer afinnaciones como "la proporción de componentes defectuosas en nuestra producción está entre 0.5% y O. 75% ", los matices de esta clase de afirmaciones y los métodos para obtenerlas se estudian en el apartado 4.2. Un tercer problema es descartar una afinnación acerca de la distribución de probabilidad del fenómeno estudiado en base a la experiencia; esto problemas se clasifican dentro de Jos métodos denominados contraste de hipótesis, que estudiaremos en el apartado 4.3. Una aplicación de estos métodos sería detenninar si podemos detenninar que cierta secuencia de dígitos haya sido generada al azar. Las técnicas de Inferencia estadística son una parte importante y muy especial del área de conocimiento denominado Aprendizaje de los datos, su éxito en muchas aplicaciones, desde la Biología, la Sociología o la Medicina hasta el Control de calidad es realmente extraordinario. La razón de ese éxito está en que las hipótesis generales que hace suponen una fuerte restricción de los modelos posibles bajo consideración, lo que permite traducir la infonnación de la muestra en afirmaciones muy precisas sobre el modelo. Por esa razón, garantizar que las hipótesis generales son razonables es esencial para una correcta aplicación de los métodos de la Inferencia estadística. Aplicar estos métodos como si de una receta automática se tratara, conducen a resultados absurdos cuando no ridículos, no debe nunca olvidarse la vieja máxima de los primeros programadores y científicos de la computación: si entra basura, sale basura.
E stimaciones por punto
4.1
191
Estimaciones por punto Un estimador puntual de un parámetro es un estadístico T(X¡,X2, ... ,X11 ) que es función únicamente de las observaciones muestrales X1 , X2 , ... , Xn y que permite tomar una decisión sobre el valor de un parámetro. La aplicación que hacemos de un estimador puntual se puede describir así: tras obtener una muestra concreta, (x¡ ,x2, ... ,x 11 ) , calculamos el valor que ha tomado T, es decir T(x¡,x2, ... ,x11 ). Si el parámetro a estimar es e, asignaremos al parámetro el valor de T, lo que se expresa mediante la igualdad
donde e simboliza el valor estimado de e. La cuestión fundamental que se plantea es cómo elegir el estadístico que adoptaremos como estimador, para ello primero estudiaremos alguna propiedades que es deseable posean los estimadores, estas propiedades descartan como estimadores a los estadísticos que no las tengas; a continuación, examinaremos dos métodos generales de obtener estimadores.
4.1.1
Estimadores insesgados
Una propiedad deseable en un estimador es que su valor esperado coincida con el parámetro a estimar, si T(X1,X2, . . . ,X11 ) es un estimador de un parámetro e' esta propiedad se formula (4.1)
Cuando se verifica la condición 4.1, decimos que el estimador T es centrado o insesgado. En Estadística, se denomina sesgo a la diferencia entre el valor esperado de un estimador y el parámetro a estimar. Cuando el sesgo es cero, decimos que el estimador es insesgado. SESGO Y ESTIMADOR IN SESGADO
:JJ_] Si T (X ,X 1
2 , .. . ,X11 )
es un estimador del parámetro
e, la diferencia
b=E{T} - e se denomina sesgo del estimad01: Si el sesgo es igual a cero, el estimador se denomina centrado o insesgado.
Por ejemplo, si el parámetro e que queremos estimar es la media de la población, el estimador media muestra! es insesgado. En efecto, si X representa a la población con e= E{X}, el estimador media muestra!, X, definido por
192
UNIDAD DIDÁCTICA 4 Inferencia estadística
es insesgado ya que, por las propiedades del valor esperado, se cumple
1
n
E{X} = - LE{X¡} ni=l
1 n
= -nE{X} =e No debe pensarse que este hecho es universal, es decir que si cualquier estimado definido en la muestra por analogía al parámetro será insesgado. Un caso muy importante es el de la varianza muestral, s2 , que es la varianza calculada sobre los valores de la muestra, es decir el promedio de las diferencias de lo valores muestrales a la media de la muestra.
un cálculo bastante simple nos muestra que la varianza muestral es un estimador sesgado de la varianza de la población. Pongamos que ,u y a 2 son la media y la varianza de la población, respectivamente, lo que significa
E{X} =,u, Señalaremos los principales pasos del cálculos; primero, sumamos y restamo ,u y, tras calcular el cuadrado del binomio y simplificar, resulta 2 S
1
ll
2
-
= - L (X¡-X) ni= l
= -1 ~ L. (X¡- ,u - (X,u ))2 ni= l
1
=-
n
L (X¡ - .u? -
(:X- .u )2
ni=l
por lo que se tiene 2
1~
2
-
2
E{s }=- L.E{ (X¡ -,U ) }-E{(X-,u)} n i=l
ahora, si reemplazamos E{(X¡- ,u )2 } expresión anterior, resulta
= a2
1 2 0" 2 2 E {s } = -na - n
n
y E{(X- ,u) 2 }
= a 2 - -0"
= a2/ n
en la
2
n
En consecuencia, la varianza muestral, como estimador de la varianza de la población, tiene un sesgo igual a - a 2 1n. Por esta razón, se acostumbra a estimar a 2 mediante el estadístico - 2 s2 = 1- In (X¡- X)
n-1
i=l
Estimaciones por punto
193
que si es centrado, este estadístico se denomina cuasivarianza muestra!. ESTIMADORES SESGADOS E INSESGADOS
4.2 L a media muestra], X, es un estimador insesgado de la media de la población. La cuasi varianza muestra], S2 , es un estimador insesgado de la varianza de la población, estos estimadores están definidos por
1 n X=- _L x, , 11
i= l
1 ~ -2 S2 = -,¿_.(X¡-X) n - 1 i= l
Sin embargo, la varianza muestra] s2 , que se define por
es un estimador sesgado de cr 2 y tiene un sesgo igual a - cr 2 1n. EJEMPLO 4.1 En la transmisión de dígitos binarios a través de una canal de comunicaciones pueden ocurrir errores en la transmisión; por ejemplo al copiar un archivo desde una memoria externa hasta el disco duro del computador ocurre un error si se envía un O se recibe un 1 o, al revés, si se envía un 1 se recibe un O. Por la simetría del sistema, es razonable aceptar que la probabilidad de error es igual a p , con independencia del dígito que se envía y de los que se hayan enviado antes, el paradigma de este canal de comunicaciones que se denomina binario, simétrico y sin memoria, es el fenómeno que consiste en lanzar una moneda que tiene probabilidad de cara igual a p: cuando sale cara ocurre un error y cuando sale cruz, no ocurre un error. Para estimar el parámetro p, planteamos el siguiente modelo: la población está caracterizada por una variable aleatoria X que toma dos valores posibles (distribución de BERNOULLI), el valor 1 (error) con probabilidad p y el valor O (no error) con probabilidad 1- p . Si enviamos n dígitos, n ~ 1, a través del canal, obtenemos una muestra den experimentos X1, X2, ... , X 11 • El número medio de errores que han ocurrido viene dado por el estadístico X =X __1_+_X_2_+_·_··_+_ X_n n Este estadístico es un estimador centrado de p, ya que se cumple
1 E{X} = -E{X1 +X2 + · ·· +Xn} n =
~ (E{X¡} +E{X2} + · · · +E{Xn})
=
1 - nE{X} = p n
puesto queE{X;} = E{X}
= p·1 +
( 1 - p ) · 0= p.
•
El empleo de estimadores insesgados, o al menos estimadores con un pequeño sesgo, es muy conveniente en el caso de muestras de tamaño grande. La razón está en que la varianza del estimador suele ser muy pequeña cuando n es grande, lo que significa que la distribución del estimador está muy concentrada alrededor de su media E{T}; si la media del estimador tiene un sesgo
194
UNIDAD DIDÁCTICA 4 Inferencia estadística
sesgo grande mucha precisión
sesgo pequeño mucha precisión
sesgo grande poca precisión
sesgo pequeño poca precisión
Figura 4.1:
que no disminuye al crecer n, nuestras observaciones estarán sistemáticamente desviadas del valor a estimar. Un buen símil que nos aclara la importancia de ser insesgado y su relación con la varianza del estimador se obtiene si consideramos una serie de disparo sobre una diana que se muestra en la figura 4.1; el conjunto de los impacto sobre la diana es análogo al conjunto de observaciones del estimador; interpretemos el centro de la nube de impactos como el valor esperado del estimador: los impactos están más o menos agrupados en torno a su centro en función de la varianza del estimador, cuánto menor sea esa varianza, más agrupado estarán en torno a su valor esperado, por eso interpretamos que la varianza del estimador es análoga a la precisión del arma. Si ésta tiene la mira desviada, es decir si está sesgada, las observaciones estarán sistemáticamente apartadas del valor a estimar, este hecho es todavía más grave si el arma es muy precisa, pues en estas condiciones los disparos están próximos a su centro y este está separado del centro de la diana debido al sesgo. Lo normal es que la varianza de un estimador dependa del tamaño muestral y disminuya con él, por ejemplo. 1n; essabemos que la varianza del estimador media muestral, X, es igual a to significa que la precisión aumenta al aumentar el tamaño muestral, luego si el estimador está sesgado y el sesgo no disminuye rápidamente al aumentar el tamaño de la muestra, la mayor parte de estimaciones que realicemos estarán sistemáticamente apartadas del valor a estimar.
cri
Este mismo símil nos permite comprender el principal objetivo de la Inferencia estadística mediante estimadores puntuales: diferentes estimacione de un mismo parámetro muestran una variabilidad tan grande que no puede ser atribuida a errores en la medida, sino que debe ser interpretada como una parte esencial de los datos, incluso algunas estimaciones pueden diferir sustancialmente del valor del parámetro que queremos estimar; este hecho se acepta como inevitable, la aspiración de la Inferencia estadística no es que cada estimación coincida con el valor exacto del parámetro (que dé en el blanco), sino
Estimaciones por punto
195
desarrollar un método para estimar que, aplicado muchas veces, produzca un alto porcentaje de estimaciones aceptables. Otra importante razón teórica para considerar exclusivamente estimadores centrados, cuando sea posible, es la existencia de un método constructivo que permite hallar el estimador centrado de mínima varianza, que es una propiedad muy deseable. Desgraciadamente, para ciertos parámetros de determinados modelos puede ocurrir que no exista ningún estimador centrado, como se muestra en el ejemplo siguiente. EJEMPLO 4.2 Supongamos que en el modelo de canal de transmisión binario, simétrico sin memoria queremos estimar la probabilidad de que ocurran dos errores consecutivos, p 2 , pero que nuestra estimación debe estar basada solamente en el resultado de enviar un dígito; es decir, podemos observar el valor de
X = { 1 1
si ocurre un error O si no ocurre un error
Puesto que sólo hay dos valores muestrales posibles, O y 1, cualquier estimador, T, que utilicemos está determinado por los dos valores T ( 1) , T (O), Juego se tiene
E{T} = T (l )p + T (O)(l- p) Dado que E { T} es una función lineal, no puede coincidir con p 2 para todo p E [O, 1], ya que a lo sumo habrá dos valores de p para Jos cuales se verifique E{T} = p 2 . Así, • no hay ningún estimador centrado de p 2 .
4.1.2 Estadísticos suficientes En los problemas de Inferencia paramétrica puede suceder que la muestra contenga información irrelevante para estimar el parámetro que nos ocupa. Es deseable eliminar la información superflua con el fin de simplificar la selección de un estimador puntual apropiado, limitándonos a considerar el conjunto de los estimadores que utilizan únicamente la información relevante que aporta la muestra para estimar el parámetro. Para ilustrar esta situación, consideremos una urna que contiene una proporción desconocida, e, de bolas marcadas con un 1, estando el resto marcadas con un O; para estimar e, extraemos n bolas con reemplazamiento, el resultado de las extracciones es una muestra aleatoria simple (X1 ,X2 , ... ,Xn) de una población descrita por la variable X que tiene una distribución de BERNOULLI definida por P(X = 1)
=e,
P(X =O)= 1-
e
Parece razonable pensar que para estimar e basta con conocer el número total de unos que han aparecido sin importar su orden de aparición, esto es, es intuitivo que el estadístico T = I7=1 X¡ contiene toda la información sobre el parámetro a estimar que hay en la muestra; si esta intuición fuera correcta, bastaría con elegir un estimador entre los estadísticos que son función de T
196
UNIDAD DIDÁCTICA 4 Inferencia estadística
o, mejor dicho, que dependen de los valores de la muestra exclusivamente través del valor de T , por ejemplo, el número medio de unos: X= T /n. Para justificar esta intuición, primero, observemos que las muestras de tamaño n con el mismo número t de unos, tienen la misma probabilidad; e concreto, la función de probabilidad de la muestra es
donde t = L-?=1 X¡, con independencia del orden de los ceros y los unos en l muestra. Ahora, por la definición de probabilidad condicionada, resulta _
_
_
)
P(X¡ =X¡ , . . . ,Xn = X11 , T P(T=t )
_
P ( X¡ -X¡, .. . ,X11 -Xn 1 T- t -
= t)
(4.2
pero
_ _ _ ) _ {P (X¡ = x¡, ... ,X11 = xn) P (X¡ - X¡, .. . ,X11 - X11 , T - t -
o
si t =
L-?= 1 x¡
si t =1- L,~ 1 x¡
y, puesto que T tiene distribución binomial B(n, e), resulta
y si reemplazamos en 4.2, se tiene
n
si t
= :Lx¡ i= i
I.;
mientras que, si t =1- 1=l X¡, se tiene P(X¡ = X¡, . . . ,X11 = Xn 1 T = t ) = O. La forma de la probabilidad condicionada indica que si conocemos que el número total de unos es t , todas las muestra posibles con igual probabilidad tienen la misma probabilidad de haber sido extraídas, esto permite considerar que la muestra se ha formado en dos pasos: primero, se elige el valor t del estadístico T , con distribución B ( n, e) y, después, se sitúan al azar los t unos y n - t cero en las n posiciones de la muestra. Claramente el valor influye en el primer paso pero no en el segundo, lo que indica que el orden de los ceros y uno en la muestra no tiene relación ni aporta información sobre el valor de e. Lo característico de esta situación es que la distribución de la muestra condicionada por el valor del estadístico es independiente de e. De manera formal , esta condición se expresa a través de la definición de probabilidad condicionada
e
P(X¡ = X¡ , .. . ,X11 = Xn) = P(T = t )P(X¡ =X¡ , . .. ,X11 = Xn 1 T = t)
Estimaciones por punto
197
El primer factor rige la obtención del valor de T y el segundo, la elección de una muestra concreta que proporcione dicho valor a T ; cuando el estadístico T es tal que el segundo factor es independiente de e, la observación adicional de la muestra concreta no añade información sobre e a la información que aporta saber que T = t , puesto que no podemos conseguir información sobre e observando un fenómeno independiente de e; en estas condiciones, decimos que el estadístico T es suficiente para la estimación del parámetro e. Observemos la ventaja que supone este concepto en cuanto a reducir la dimensión del problema; originalmente, la información sobre el parámetro está contenida en un vector de dimensión n, la muestra, la aplicación de la suficiencia permite concluir que basta un simple valor, el valor de T = I,X;, para tener disponible la misma información. Por supuesto, el concepto de suficiencia se aplica a cualquier distribuciones, tanto discreta como continua. ESTI M A DO R SUF ICIEN T E
-4.3
Un estadístico es suficiente para la estimación de un parámetro si la distribución de la muestra condicionada por el estadístico es independien te del parámetro. De manera más formal diremos : dada población con función de distribución F (x; e) y una muestra aleatoria simple, (X¡ ,X2, . .. ,X11 ), de esta población, decimos que un estadístico T (X, ,X2, . . . ,X,1 ) es suficiente para estimar si la distribución de la muestra, condicionada por el valor del estadístico T , no depende de
e
e.
EJ EMPLO 4.3 Consideremos una muestra aleatoria simple (X 1,X2, ... ,X11 ) del número de averías mensuales en los computadores de una empresa, aceptaremos que ese número mensual se distribuye según una ley de POISS ON de parámetro ít desconocido; la función de probabilidad de la muestra es
e- nAí\_ X¡+ ·-+xn P(Xt = x¡ , ... ,Xn =xn ) =
X[.1X2 1· · · ·Xn·1
,
para x 1 , x 2, ... , x11 = O, l , 2, ...
y de la definición de probabilidad condicionada, tenemos _
P X¡ - X¡, .. . ,X11 (
_
-
) _ P(X¡= x¡, . . . ,X11 = X11 ,T=t ) Xn T - t ( ) P T =t _
1
Ahora, resulta evidente que P (X¡ =X] , . . . ,Xn =
P (X¡ = X¡, . .. ,Xn = Xn )
X 11 ,
T = t) = { O
si t =
I,j~ 1 x;
si t -=!= I,j~ 1 x;
Por otra parte, la suma de variables independientes de POISSON es una variable de POI SS ON de parámetro la suma de los parámetros de los sumandos; así, la variable T = I,~= l X; es de PO ISSO N de parámetro nít , y se tiene
P(Xt = X¡, . . . ,Xn = Xn T = t ) = 1
e-nA AX¡ + ·-+xn j X¡ !x2 ! . . ·Xn ! e-"A (nít)t / t! 11
si t =
í: x; i= l
198
UNIDAD DIDÁ CTICA 4 Inferencia estadística
mientras que n
P(Xt
= X¡ , ...
,X11
= Xn
1
T = t) =O,
si t ¡f I,x¡ i= l
Es decir que distribución de la muestra, condicionada por su suma, no depende de /. el estadístico T = I-7 X¡ es suficiente para estimar A.
Comprobar que un estadístico es suficiente analizando cada caso partícula: por separado puede resultar muy complicado, especialmente cuando la distribución de la población es continua. Afortunadamente existe un criterio genera. mucho más simple de aplicar que los cálculos particulares que exige cada distribución, ese criterio lo proporciona el denominado teorema de factorización.. T EOREMA DE FACTORI ZACIÓN
4.4 Consideremos una población cuya distribuida según la función F(x; e), y una m uestra aleatoria simple (X 1 ,X2 , ... ,Xn), represen temos por f(x¡ ,Xz , .. . ,xn ) la función de probabilidad o de densidad de la muestra, según que la población sea discreta o continua. La condición necesaria y suficiente para que un estadístico T (X¡ ,Xz, .. . ,X11 ) sea suficiente es que f(x¡ ,xz, . .. ,xn ) se p ueda factorizar de la manera siguiente
siendo g una función que sólo depende de la m uestra a través del valor T(x¡ , ... ,xn ) que tom a el estadístico y h(x¡, .. . ,x11 ) una función que no depende de e.
El teorema de factorización se aplica de manera muy simple, para apreciar mejor esa simplicidad, lo aplicaremos La aplicación del teorema es mu_ simple y sus ventajas pueden apreciarse lo aplicaremos a modelo de estimación de la proporción de bolas marcadas con un 1, estando el resto marcad con un O. Como vimos más arriba, la función de probabilidad de la mues (x¡, xz, ... ,xn) es
e
f(x¡ ,Xz, · · · ,Xn) = ex¡ + ·+x (1- et- (x¡ + ·+xn) 11
= g(T (x¡, Xz, ... ,x
11 ) ;
8)
donde T (x¡ ,xz, . .. ,x11 ) = X¡+ xz + · · · + x11 ; así, basta tomar h(x 1, . . . ,x11 ) = L para tener factorizada la función de probabilidad como exige el teorema "' factorización, lo que prueba que T (x 1 , .. . ,x11 ) = I'i X¡ es suficiente. EJE M PLO 4.4 Consideremos una población con distribución exponencial y funci de densidad dada por parax > O
Si (X¡ ,Xz, . .. ,Xn) es una muestra aleatoria simple de esta población, la función densidad de la muestra es
j (x¡ ,X2, ... ,Xn) = e ne- B(x¡ + .. +x" ) =
g( T (x ¡, X2 , . . . ,xn) ;e )
Estimaciones por punto
199
donde T(x¡ , ... ,x11 ) = I,'j x¡; de nuevo, si ponemos h(x 1, ... ,x11 ) = 1, tenemos la factorización de exige el teorema; se sigue que T (x 1, ... ,x 11 ) es suficiente. •
4.1.3
Estimadores de máxima verosimilitud
La Inferencia estadística parte de criterios y principios propios, no pueden ser demostrados matemáticamente, son juicios acerca de si una criterio es razonable o no. Este este apartado estudiaremos uno de esos criterios que es origen de un método para obtener estimadores. Para comprender mejor el contexto en que se desarrollan estas ideas, reflexionaremos de nuevo sobre la diferencia entre el Cálculo de probabilidades y la Inferencia estadística. El Cálculo de probabilidades, como parte de las Matemáticas, parte de unos axiomas y obtiene resultados mediante deducciones lógicas que, en último término, son consecuencia de las propiedades axiomáticas de los objetos que maneja. El Cálculo de probabilidades, como la Mecánica newtoniana, sirve para predecir; la Mecánica predice que un móvil que parte bajo ciertas condiciones iniciales sometido a determinadas fuerzas, se encontrará en un punto determinado en un instante dado, el Cálculo de probabilidades predice que es muy improbable que al lanzar cien veces una moneda equilibrada se obtengan cien caras, predicción que puede comprobarse repitiendo los cien lanzamientos muchas veces, su predicción significa que es muy muy raro que tal suceso ocurra, a pesar de lo cual, puede ocurrir. Las predicciones de la Mecánica y las del Cálculo de probabilidades son exactas mientras se cumplan las condiciones del modelo que suponen. Por el contrario, la Inferencia estadística trata de extraer conclusiones de unos hechos ciertos: los resultados experimentales; su utilidad es inferir, por ejemplo, su propósito suele ser asignar los hechos observados a una causa, mediante un criterio que se considera razonable. La Inferencia estadística se comporta parcialmente como una disciplina matemática, puesto que hace suposiciones a priori sobre los posibles modelos que pueden haber sido causa de los hechos observados pero, además, necesita añadir otras ideas nuevas. Volvamos a considerar la moneda anterior desde el punto de vista del estadístico: una moneda con probabilidad de cara desconocida se lanza cien veces, si aparecen cien caras, ¿cree usted de verdad que la moneda es equilibrada?, ¿qué probabilidad de cara que es razonable considerar tiene la moneda a la vista de la evidencia experimental?, tales son las preguntas que se hace el estadístico. Para responder a esas preguntas es necesario precisar el término razonable; por ejemplo, un buen criterio es atribuir un hecho a la causa que lo hace más probable, a este criterio lo denominamos de máxima verosimilitud, puesto que considera como causa de un hecho observado aquélla que lo hace más verosímil. El criterio de máxima verosimilitud se apoya en la idea de que alguien que prefiera una causa que hace más improbable el hecho observado, debe tener alguna información adicional hasta ese momento no considerada; su punto débil es la definición del conjunto de causas posibles, cuando el pro-
200
UNIDAD DIDÁCTICA 4 Inferencia estadística
blema está tan limitado como el ejemplo de la moneda con probabilidad de cara desconocida, el conjunto de causas parece bien definido: es el parámetro probabilidad de cara, que puede variar entre Oy 1; pero no siempre es tan simple definir el conjunto de causas posibles, incluso, en el caso anterior, estamos dando por supuesto que el comportamiento de la moneda ea aleatorio y que no guarda memoria de resultados anteriores. Si el conjunto de posibles causas no está correctamente definido, el principio de máxima verosimilitud puede ser completamente inútil. PRINCIPIO D E MÁXIMA VEROSIMILITUD
~j
La aparición de un suceso debe ser atribuida a aquel modelo, entre los posibles m odelos probabilísticos del fenómeno aleatorio, que haga máxima la probabilidad de que ocurra el suceso.
Por ejemplo, consideremos que hemos lanzado cinco veces una la moneda con probabilidad de cara, p , desconocida y que han resultado dos caras y tres cruces. La situación se puede abstraer de esta manera: el modelo probabilístico que rige el fenómeno que acabamos de observar es parcialmente desconocido, aceptamos que es de BERNOULLI pero desconocemos la probabilidad de cara, donde O :S p ::::; l. Hemos realizado cinco repeticiones del experimento (tomado una muestra) y observamos que ha ocurrido el suceso A = aparecen dos caras y tres cruces
0.4 ....,....--
-
- --
- --
----,
0.3
0.2
Bajo el supuesto que la moneda tiene una probabilidad de cara igual a p , podemos calcular la probabilidad de que ocurra A; esa probabilidad la representamos por P(A; p). El principio de máxima verosimilitud atribuye la observación del suceso A a la moneda que hace P(A;p ) máximo. De esta manera, el problema matemático es halla el valor de p que hace máxima la función f (p ) = P(A;p), ese valor de p define el modelo que atribuimos al fenómeno ; con el lenguaje de la Inferencia, ese valor de pes el valor estimado por máxima verosimilitud de p , ya que cada modelo está determinado por el valor de p. Hagamos los cálculos, si la moneda tiene probabilidad de cara igual a p, la probabilidad de obtener dos caras al lanzarla cinco veces es
P(A;p) =
0. 1
0.0 --fL--
0.0
--,-0.25
..J__-,-- - , --""--l p' 0.50
Figur a 4.2
0.75
1.0
G)¡i(l-
p )3
= 10p2 (1 - p) 3
consideremos P(A;p ) como una función de p, p ~----t f (p ) = P(A;p ), donde p varía en el intervalo [O, 1]. Se trata de un polinomio cuya gráfica aparece representada en la figura 4.2; calcular el valor de p que hace máxima f(p ) es un simple ejercicio de Cálculo infinitesimal, basta estudiar el signo de la primera derivada
j'( p) = 20p ( l - p)3 - 30p2 (1- p)2
= 10p( l -
p ) 2 (2 - 5p)
Estimaciones por punto
201
puesto que p y ( 1- p ) 2 son positivos para todo p E [O, 1], el signo de la deriva depende del factor 2- 5 p ; el análisis es inmediato, si O < p < 215, entonces 2- 5 p > O y la derivada es positiva, lo que implica que la función es creciente, si 2/5 < p < 1, entonces 2- 5p
Mediante un análisis similar al anterior, obtenemos que el máximo se obtiene cuando p =k/ 5, este resultado se puede formular en los términos habituales a los estadísticos de la siguiente manera, si lanzamos cinco veces la moneda, obtenemos una muestra (x¡ ,x2, . . . ,x5), donde x¡ = 1 si el resultado del lanzamiento i-ésimo es cara y O si no lo es, el estimador de máxima verosimilitud es igual al número de caras divididas por cinco, es decir 1 5
T(x¡,X2, ... ,xs)
=-
L,x¡
5 i=l
Así, en este caso, el estimador de máxima verosimilitud coincide con la media muestral. Sin dificultad se comprueba que este resultado también es cierto para un número arbitrario, n, de lanzamientos. ESTIMADOR DE MÁXIMA VEROSIMILITUD
4.6 Consideremos una población cuya distribución depende de un parámetro que se quiere estimar y que toma valores en un espacio paramétóco 8 , y sea (X1 ,X2, .. . ,X11 ) una muestra aleatoria simple de esa población. Según que la distóbución sea discreta o continua, sea la función de probabilidad O Ja función de densidad de la muestra j(x¡, ... , X11 ; e) ; Si consideramos fijos los valores de la muestra, la función
e
se denomina función de verosimilitud de la muestra (x¡ ,x2, . . . ,x11 ). Un estimador (x¡ ,X2, ... ,xn) se dice estimador de máxima verosimilitud de si para cada (~ , x2, . .. ,x 11 ) , la función de verosimilitud alcanza su máximo cuando e = e' es decir, cuando se cumple
e
e=e
202
UNIDAD DIDÁCTICA 4 Inferencia estadística
El cálculo exacto del estimador de máxima verosimilitud es posible en muchos modelos probabilísticos por los métodos habituales de cálculo del máximo de una función de una o varias variables, según el número de parámetros; el cálculo aproximado también es sencillo ya que hoy día hay numeroso algoritmos para hallar el máximo de una función. Para el cálculo manual es interesante recordar que, puesto que la función logaritmo es monótona creciente, la función f y logf tienen el mismo máximo o máximos, la ventaja de operar con el logaritmo de la función de verosimilitud reside en que tiene estructura multiplicativa, ya que proviene de multiplicar las funciones de probabilidad o de densidad de cada una de las observaciones de la muestra. EJEMPLO 4.5
e>
Consideremos una población con distribución exponencial de media
odesconocida. Si tomamos una muestra de tamaño n, (x¡,Xz, ... ,X¡¡), la función
de densidad de la muestra es
el estimador de máxima verosimilitud, (x 1,x2, ... ,xn), es el valor que hace máxima la función de verosimilitud 1 1 ll e~f (x¡,Xz , .. . ,Xn;e ) = en exp - e_I,x; 1=1
Como hemos observado más arriba, las funciones f(x¡ ,Xz, ... ,xn; e) y su logaritmo logf(x¡,Xz , ... ,X¡¡; e ) tienen los mismos máximos y, puesto que la función de verosimilitud es un producto de funciones , resulta mucho más simple hallar el máximo de su logaritmo que es suma de funciones. 1
11
logf(x¡ ,Xz, ... ,x11 ; e ) = - nloge-- _I,x;
e i= l
Para calcular el máximo, hallamos su primera derivada respecto de que X¡, xz, ... , x11 son constantes. n
d
1
e, considerando
11
de logf(x¡,Xz, ... ,Xn;e ) = - e+ ez _I,x; 1= 1
A continuación, encontramos los puntos singulares, esto es los que anulan la primera derivada.
y resulta ~
1
11
e=- _I, x; =.X ni= !
que es el estimador de máxima verosimilitud de e, puesto que la primera derivada es positiva en el intervalo e E (O, lo que indica que la función crece hasta alcanzar y negativa en!l intervalos (e, 00), lo que indica que la función decrece monótonamente • cuando e > e.
e),
e,
Una importante propiedad de los estimadores de máxima verosimilitud es su invariancia respecto a transformaciones biyectivas del parámetro; esto es,
Estimaciones por punto
203
si OJ = h( e), donde h es una función biyectiva, los estimadores de máxima verosimilitud de OJ y e están relacionados por la ecuación
w= h(e) Gracias a esta propiedad, si conocemos el estimador de máxima verosimilitud de un parámetro, automáticamente conocemos los estimadores de máxima verosimilitud de cualquier función biyectiva de este.
204
UNIDAD DIDÁCTICA 4 Inferencia estadística
4.2
Interva los de confianza
4.2.1
Introducción
Al estudiar el concepto de distribución en el muestreo del estimador centrado, T, de un parámetro e, subrayamos que con frecuencia la varianza de T es pequeña e incluso tiende hacia cero al crecer el tamaño de la nuestra; por la desigualdad de CHEBYSHEV, esto significa que los valores deTestarán muy agrupados alrededor del valor de e, es decir, que con una probabilidad alta, el valor de T que obtengamos en la muestra estará próximo al valor del parámetro o, recíprocamente, que el valor del parámetro será relativamente próximo al valor observado de T. Si conocemos la distribución en el muestreo del estadístico T y su valor observado en una realización de la muestra, podemos diseñar un método para determinar unos márgenes de variación alrededor de T entre los que esperamos que se encuentre el parámetro. Como se ve, esta manera de estimar el parámetro no consiste en dar un pronóstico razonable de su valor, sino en encontrar un intervalo en el que, con una probabilidad elevada, confiamos que se encuentre e; por ello, este método se conoce con el nombre de estimación por intervalos de confianza. En resumen, la estimación por intervalos emplea la información obtenida de la muestra para reducir la incertidumbre sobre la variación de e; antes de tomar la muestra y analizarla por este método, sabemos que toma un valor que pertenece a cierto conjunto de parámetros e; tras el análisis, aseguramos que e pertenece a cierto intervalo 1 e con una confianza dada que puede ser tan próxima a uno como queramos. Un ejemplo concreto ayudará a poner en evidencia los conceptos anteriores; consideremos que (X¡,X2, ... ,X11 ) es una muestra aleatoria simple de una población con distribución teórica N (e, e; ), donde suponemos que e; es una constante conocida, mientras que es desconocida. Sabemos que el estadístico media muestral tipificada
e
e
e
x-e
0.025
- 1.96
o Figura 4.3
T = --
cr/.¡ri
1.96
tiene una distribución normal de media cero y varianza uno, N( O, 1). Mediante las tablas de la normal, podemos encontrar un valor x = 1.96, como se muestra en la figura 4.3, tal que se verifica
P(-_ 1.96 < T < 1.96) = 0.95 Puesto que la desigualdad -1.96 -
< T < 1.96 equivale a
(J
X - l. 96 Vn <
resulta
-
(J
P ( X - 1.96 Vn
-
(J
e < X + l. 96 Vn -
(J
< e < X+ 1.96 Vn) = 0.95
Intervalos de confianza
205
cualquiera que sea el valor de e. La interpretación de este resultado es simple: hay una probabilidad igual a 0.95, de obtener una muestra tal que el intervalo de extremos aleatorios (J
(
-
(J )
X - 1.96 .¡¡i' X+ 1.96 Vn
(4.3)
incluya al valor de e con el que se han producido las observaciones muestrales con independencia de cual sea dicho valor. Ahora, una vez tomada la muestra, obtendremos unos resultados numéricos concretos, pongamos x 1 ,x2 , · · · ,x11 , a partir de los cuales podemos calcular la media de la muestra x = ~ I?=l X¡ y determinar el intervalo numérico (J
(x-1.96
(J
.¡n , x+ 1.96 .¡n)
(4.4)
Por ejemplo, supongamos que (J = 0.5, n = 100 y que ha resultado x = 1.35, el intervalo que obtenemos es ( 1.252, 1.448); precisemos el significado de este intervalo, desde luego, ahora no tiene sentido pensar que hay probabilidad 0.95 de que este intervalo numérico contenga al parámetro e con que se han sorteado las observaciones, puesto que el intervalo ( 1.252, 1.448) tiene sus extremos fijos, no aleatorios, y el número e tampoco es aleatorio. El valor 0.95 expresa lo que se denomina nivel de confianza, que significa que si repetimos muchas veces el sorteo, obtendríamos distintos intervalos entre los cuales, aproximadamente, el 95 % contendrían el valor de e correcto. Dicho de otra manera, salvo que hayamos tenido una mala suerte que sólo ocurre en el S % de los casos, el intervalo ( 1.252, 1.448) que hemos obtenido contiene al verdadero valor de e. El procedimiento puede ser repetido con cualquier otro nivel de confianza; por ejemplo, en la tabla de la normal encontramos x = 1.645 como el valor que verifica P( - 1.645 < T < 1.645) = 0.9, luego el intervalo (J
(x-1.645 .¡¡i'
r-21-a
~a
~
- za
O
Figura4.4
Za
(J
x+ 1.645 .¡n)
es un intervalo de confianza para e de nivel de confianza 0.90. Otro ejemplo, en la tabla de la normal encontramos que x = 2.576 es el valor que cumple P ( - 2.576 < T < 2.576) = 0.99, luego el intervalo (J
(J
(x-2.576 .¡¡i' x + 2.576 .¡n) es un intervalo de confianza para e, con nivel de confianza 0.99. En general, dado un nivel de confianza a, donde O< a< 1, podemos encontrar en la tabla de la normal un valor Za tal que
P( -za
< T < Za) =a
entonces el intervalo de confianza para (J
e con un nivel de confianza de a es (J
(x - za .fii' x+za Vn)
206
UNIDAD DIDÁCTICA 4 Inferencia estadística
INTERVALO DE
~ 4.7' El intervalo numérico
CONFIANZA
(4.5)
se denomina intervalo de confianza pm·a e con nivel de confianza ex, donde O< ex < 1, también se dice que la confianza es del lOO ex%. Observemos la fórmula 4.11, la amplitud del intervalo es igual a 2xcx cr 1Vfi, de modo que la amplitud varía de manera inversa a la precisión de nuestra estimación; cuando mayor es la amplitud, más imprecisa es la estimación. Estudiemos la variación de la amplitud en función de los factores que intervienen; primero, fijos ex y n, la amplitud aumenta cuando cr aumenta, lo que es razonable ya que cuánto más dispersa esté la población, menos precisa será la información obtenida de una muestra de tamaño n; segundo, fijos cr y n, la amplitud aumenta al aumentar ex , esto se debe a que cuánto mayor sea ex, mayor será Xcx, podemos decir que un menor riesgo de error en la estimación se paga con una menor precisión; tercero, fijos ex y cr, la longitud del intervalo tiende a cero cuando n -----7 oo; en consecuencia, se puede lograr una estimación arbitrariamente precisa mediante un tamaño de la muestra suficientemente grande; por ejemplo, si ex = 0.95, puesto que Xcx = 1.96, la longitud del intervalo de confianza de nivel 0.95 es 2 · 1.96cr 1Vfi, si queremos que esa longitud sea menor que cantidad dada f, basta elegir n tal que verifique
vn
basta tomar un n que cumpla > 3.92cr 1.e, o bien n > (3 .92cr 1P-) 2 . Dicho de otra manera, fijos los demás factores, un aumento en la precisión del intervalo se paga con un aumento del tamaño muestral. En la práctica de la estimación mediante intervalos de confianza, primero se fija el nivel de confianza adecuado al contexto del problema, lo habitual es tomar 0.9, 0.95, 0.975, ó 0.99 y, o bien se acepta el intervalo que resulte, o bien se planea el tamaño de la muestra para que su longitud no sobrepase un valor prefijado. Hasta aquí hemos considerado intervalos simétricos alrededor del valor obtenido del estimador, lo que se debe a elegir un valor x en la tabla de la normal tal que el intervalo simétrico ( -x,x) tenga probabilidad igual al nivel de confianza. De antemano, no hay ninguna necesidad de hacerlo así; por ejemplo, consultando la tabla de la distribución N (O, 1), encontramos que los valores 1.74 y - 2.37 son también extremos de un intervalo que tiene probabilidad 0.95, es decir P( -2.37 < T < 1.74) = 0.95, de manera que pueden servir para formar el intervalo (4.6)
Intervalos de confianza
207
e
que también es un intervalo de confianza para con nivel 0.95. Sin embargo, observamos que su longitud es mayor que la del intervalo simétrico que antes hemos formado , la longitud del intervalo simétrico dado por 4.4 es (J
2
X
1.96 Vn
(J
= 3.92 Vn
mientras que la longitud del intervalo asimétrico 4.6 es (J
(1.74 + 2.37 )
(J
Vn = 4.11 Vn
Este hecho no es casual, dada la forma de función de densidad de 1distribución normal, N (O, 1), puede probarse que el intervalo (a, b) de longitud mínima que tiene una probabilidad dada es el que cumple a= -b, es decir el simétrico respecto del origen.
4.2.2
Método de la cantidad pivota! para la construcción de intervalos de confianza
Si repasamos el razonamiento desarrollado en el apartado anterior, que ha permitido formar una serie de intervalos de confianza, observaremos que la clave de su éxito reside en que el estadístico
tiene una distribución en el muestreo normal JV (O, 1) cualquiera que sea e; la misma técnica puede emplearse para formar un intervalo de confianza para cierto parámetro, siempre que dispongamos de otro estadístico cuya distribución no dependa del parámetro a estimar. Es técnica de formación de intervalos de confianza se suele denominar método de la cantidad pivota] y puede ser descrita de la manera siguiente: si T(X1,X2, ... ,Xn; e) es un estadístico cuya distribución en el muestreo no depende de fijado un nivel de confianza a entre O y 1, se pueden determinar constantes, c 1 y c2, no necesariamente únicas, tales que (4.7)
e,
Si es posible despejar la parte de T(X1 ,X2, .. . ,Xn; e) que depende de desigualdades 4.8 pueden ser expresadas de la forma
e,
las
Expresión de la que se deduce un intervalo de confianza para g( e) con nivel de confianza a. En este apartado mostraremos otra aplicación del método de la cantidad pivotal que, junto con las aplicaciones del próximo apartado dedicado a los intervalos de confianza para las poblaciones normales resulta suficiente para
208
UNIDAD DIDÁCTICA 4 Inferencia estadística
conocer la aplicación de la técnica. Como resulta evidente, el inconveniente de este método reside en disponer de un estadístico cuya distribución sea independiente del parámetro a estimar, este inconveniente lo resolvió NEYMAN desarrollando un método que permite obtener intervalos de confianza en condiciones más generales. Consideremos una población con distribución uniforme en el intervalo (O, e y sea X¡, X2, ... , Xn, una muestra aleatoria simple de esta población, cada variable Xi tiene una función de densidad igual a l si 0
El estadístico T(X¡ ,X2 , .. . ,Xn; e)=_!_ máx Xi
e l:<:; i:<:;n
tiene una distribución en el muestreo independiente de probar. Si y E (O, l ), entonces
2--.----
- - --
e, como vamos a com-
= P (X¡ :S e y,X2 :S e y, . . . ,Xn :S ey)
-------,
= P (X¡ :S e y) P(X2 :S ey ) · · ·P (Xn :S ey) =
0.025
0.158
0.975
(~) n
por otra parte, si y :S O, es claro que P (T (X¡,X2 , . . . ,Xn; e ) :S y)= O, mientras que si y 2 l , se tiene P(T (X¡ ,X2, . . . ,Xn; e) :S y) = l. En resumen, el estadístico T (X¡ ,X2, . . . ,Xn; e ) tiene una función de distribución igual a yn, O< y< 1 y una función de densidad igual a nyn- l, para O < y < l . Ahora, fijado un nivel de confianza ex, podemos encontrar y¡ e y2, y¡ < Y2, tales que Y2 - y7= ex, por ejemplo si tomamos
- "~
Figura 4.5
Y ~-v~ ·
de manera que se verifica
o bien 1
/
P (y ¡ < -e max Xi < Y2) =ex l:<:;i:<:;n Si despejamos
e, resulta
Intervalos de confianza
o bien , X¡ P ( -1 max Y2 1:Si:Sn
<
e < -1
, X¡ ) max y¡ 1:Si:Sn
209
=a
luego un intervalo de confianza de nivel a es
' X¡, -1 max ' X¡ ) -1 max ( Y2 1:Si:Sn y¡ 1:Si:Sn Por ejemplo, consideremos a = 0.95, si la muestra es de tamaño n = 2 y los resultados muestrales son x 1 = 0.8, x 2 = 1.2, entonces máxx¡ = 1.2; por otra parte, si YI = 0.025, resulta Yl = v0.025 = 0.158, e y~= 0.975, luego Y2 = v0.975 = 0.987, tenemos P(y¡
<
1
máx(X¡,X2)
< Y2)
=y~- yy =
0.95
y un intervalo de confianza de nivel 0.95 es (1.2/0.987, 1.2/0.158). En la figura 4.5 se muestra la interpretación gráfica de los valores 0.158 y 0.987; la función de densidad del estadístico es 2y y esos valores determinan un área igual a 0.025 bien a su izquierda, bien a su derecha.
4.2.3
Intervalos de confianza para los parámetros de las distribuc iones normales
Como ejemplos de aplicación del método de la cantidad pivotal, vamos a construir los intervalos de confianza para los parámetros poblacionales en el muestro de poblaciones normales. Consideremos una población con distribución JV (J.L, (J), de la que tomamos una muestra aleatoria simple (X¡ ,X2, ... ,X11 ). Intervalo de confianza para la media cuando la varianza es conocida
El primer ejemplo de aplicación del método pivotal que estudiamos fue el intervalo de confianza para la media cuando la varianza poblacional es conocida 4.11. Recordemos que la clave del desarrollo era el estadístico
X-J.L CJ/yn
(4.9)
que tiene una distribución JV (O, 1), cualquiera que sea J.L. Como ya vimos, el intervalo de confianza simétrico de nivel a, O< a < 1, es igual a
donde za es el valor que en la tabla de la normal verifica
P( -za < Z < Za) =a
210
UNIDAD DIDÁCTICA 4 Inferencia estadística
o bien, P(Z POBLACIONES NORMALES: INTERVALO DE CONFIANZA PARA
11
CON
> za) = a/2.
[ _"!~fJ Consideremos una población con distribución JV (11 , (J), de la que tomamos una muestra aleatoria simple (X¡ ,X2, . .. ,X11 ). Sea za el valor que cumpleP(Z > za) = a/2 siendoZ una variable normal JV(O, 1) , entonces el intervalo numérico
(J
CONOCIDA
(4.10)
se denomina intervalo de confianza para la media 11 con nivel de confianza a , donde O< a< 1, también se dice que la confianza es del lOO a%.
Intervalo de confianza para la media cuando la varianza es desconocida Conocer la varianza y desconocer la media es una hipótesis poco realista. por ello, resulta más práctico calcular un intervalo de confianza para la media supuesto que la varianza de la población es desconocida. La clave para lograrlo está en el estadístico de STUDENT que tiene una forma semejante cociente 4.9, reemplazando la raíz cuadrada de la varianza de la media muestra!, (J / yÍn, que usamos cuando la varianza de la población es conocida, por su estimador S/ yÍn donde S2 es la cuasivarianza de la muestra. El estadístico
X-11 S/yfii tiene una distribución de STUDENT con n- 1 grados de libertad, como es costumbre, nos referiremos a esa distribución como tn- 1· Ahora, fijado el nivel de confianza a y mediante la tabla de la distribución tn-1, podemos encontrar un valor tn-1;a tal que
P( -tn -
1;a
X-11 < S/ yÍn < tn-1;a) =a
y, si despejamos 11 en esas desigualdades, obtenemos -
S
-
S )
P(X- tn- 1;a yÍn < 11
( X- tn-
S 1·a r;;; , ' yn
X+ tn-
S 1·a r;;; ) ' yn
, Intervalos de confianza
211
contenga al verdadero valor del parámetro Jl. POBLACIONES NORMALES: INTERVALO DE CONFIANZA PARA
J1
• 4.9 .., Consideremos una población con distribución JV (Jl, ()) , de la que tomamos una muestra aleatoria simple (X¡,X2, . .. ,X,J Sea tn-l ;o: el valor que cumple P(tn-1 > tn-l ;o:) = a /2 siendo tn-l una variable de STUDENT
con n - l grados de libertad, entonces el intervalo numérico
CON ()
DESCONOCIDA
(x-tn- l· o: '
S
r.:;' x + tn- l ;o:
yn
S ¡;:; )
(4.11)
yn
se denomina intervalo de confianza para la media ,u con nivel de confianza a , donde O < a < 1, también se dice que la confianza es del1 00 a %. EJEMPLO 4.6 Supongamos que X¡, x2 , . .. , x2o es una muestra de una población normal de media y varianza desconocidas, para calcular el intervalo de confianza para la media no es necesario conocer el detalle de los valores de la muestra, tenemos suficiente información con el tamaño de la muestra n = 20, la suma de los valores muestrales, I}2 1 x;, y la suma de los cuadrados de los valores muestrales, I }2 1 Xf . Para desarrollar numéricamente este ejemplo, supongamos que I}2 1 x; = 46.2 y que I}2 1 = 117.1 . Para hallar el intervalo de confianza con un nivel del95 % (a= 0.95), calcularemos los valores de los estimadores que intervienen: media y cuasivarianza muestrales. La media muestra! es igual a
xr
1
20
x= -L, x; =2.31 20 i= l
para calcular la cuasivarianza, necesitamos conocer el valor de I}2 1 (x; - :x) 2 , cálculo que se hace mediante la fórmula n
n
L, (x; - x) 2 = L, Xf -n:x2 i=!
i=l
fórmula que se demuestra fácilmente sin más que desarrollar el cuadrado. Así, obtenemos 20
L,(x;-x) 2 = 117.1-20· (2.31) 2 = 10.378 i=!
¡r
ahora, la cuasivarianza muestra! es igual a S2 = 10 8 = 0.546, y su raíz cuadrada es S= 0.739; por último, en la tabla de la distribución de STUDENT, en la línea correspondiente a 19 grados de libertad, columna con encabezamiento 0.025 , encontramos el valor que vamos a representar por t 19;0.95 = 2.093, ya que cumple P( -2.093 < t¡9 < 2.093 ) = 1 - P(tt9 > 2.093 ) - P(t¡9 < - 2.093) = 1 - 0.025 - 0.025 = 0.95 basta reemplazar en 4.11 para obtener el intervalo de confianza (2.31 - 2.093
0.739 tríA ,
2.31 + 2.093
0.739 tríA )
v20 v20 Así, tenemos una confianza del 95 % en que el valor de la media pertenece al intervalo (2.145, 2.640). •
212
UNIDAD DIDÁCTICA 4 Inferencia estadística
Intervalo de confianza para la varianza
Suponemos desconocidas tanto la media como la varianza, que es la hipótesis más realista. La clave para hallar el intervalo de confianza está en el teorema de Fisher que asegura que el estadístico
x;_
tiene una distribución 1 • Ahora, fijado un nivel de confianza a, en la tabla 2 podemos encontrar dos valores que designaremos por de la distribución 1 ~) Y ( ~), que tienen las propiedades ( 1 1
xL
x
x;_
de manera que podemos asegurar que se verifica
Si despejamos a 2 en ambas desigualdades, resulta
y, si reemplazamos en la expresión anterior el estadístico s2 por su valor en 1
muestra concreta que resulte, obtendremos un intervalo numérico que contiene al verdadero valor de a 2 con una confianza a. EJEMPLO 4.7 Supongamos que x 1 , x2 , . . . , x 20 es una muestra de una població~: normal de media y varianza desconocidas. Otra vez, para calcular el intervalo de confianza para la media no es necesario conocer el detalle de los valores de la muestra. basta con conocer el tamaño de la muestra n = 20, la suma de los valores muestrale: If~ 1 x;, y la suma de los cuadrados de los valores muestrales, If~ 1 XT. Supongamo como anteriormente, que If~ 1 X¡= 46.2 y que If~ 1 XT = 117.1. Para hallar el interval de confianza con un nivel del 95 % (o: = 0.95) para la varianza necesitamos conocer el valor de la varianza muestra! 2 1~ - 2 1 ~ 2 -2 s = - L.(x;-x) = - L.xi -..r
ni=!
ni= !
para ello, calculamos la media muestra! 1 20 x=-lxi=2.31 20i= l y reemplazamos
s2
=
117 .1- (2.31) 2 20
= 0.519
Intervalos de confianza
o
10
20
213
40
30
Figura 4.6
x
A continuación encontramos dos valores en la tabla de la 2 con 19 grados de libertad, que dejan a su derecha probabilidad 0.975 y 0.025 respectivamente, esos valores son 8.906 y 32.85 , la interpretación gráfica de este cálculo se muestra en la figura 4.6. Si reemplazamos estos valores en la expresión 4.12, obtenemos del intervalo ( 20·0.519 20·0.519 ) =(O31 6 66 ) 32.85 , 8.906 " , 1.1 que con una confianza del 95 % contiene al valor de la varianza de la población. 11
214
UNIDAD DIDÁCTICA 4 Inferencia estadística
4. 3
Contrastes de hipótesis Los contrastes o test de hipótesis son técnicas de inferencia que persiguen descartar ciertas conjeturas acerca de un modelo probabilístico como consecuencia de la información aportada por una muestra. Lo característico de los contrastes, frente a las técnicas de estimación hasta ahora estudiadas, es la existencia de una hipótesis previa acerca del modelo de distribución que tiene una población, y que puede ser rechazada o no. E contraste de hipótesis no prueba una hipótesis puesto que el hecho de que una hipótesis no sea rechazada sólo significa que los resultados experimentales no contienen evidencias suficientes en su contra. Para fijar las ideas, consideremos una moneda que tiene probabilidad de cara desconocida, este ejemplo nos servirá para establecer algunos conceptos relacionados con la técnica que analizaremos a continuación. Supongamo que, ante la ausencia de información previa acerca de la moneda, estamos di puestos a creer que está equilibrada, p = 112; esta conjetura supone un juici previo acerca del modelo probabilístico que gobierna la moneda y la denominaremos hipótesis. La hipótesis p = 1 /2 es una suposición sobre el valor que toma un parámetro que determina la distribución de los resultados de lanzar la moneda, así pues, estamos dentro del dominio de la Inferencia estadísti paramétrica. Supongamos también que realizamos una serie de observaciones independientes lanzando la moneda repetidas veces, los resultados de estos lanzamientos constituyen una muestra; el contraste de hipótesis trata de valorar si la información que proporciona la muestra permite descartar la hipótesis o no. Imaginemos que hemos lanzado la moneda cuatro veces y que los cuatro resultados son cara, si la hipótesis p = 112 fuera cierta, habría ocurrid un suceso poco probable, pero quizá consideremos que no constituye una evidencia suficiente en su contra; sin embargo, si lanzamos la moneda cuaren veces y todos los resultados son cara, habremos observado un resultado mu_ improbable en el supuesto de que la hipótesis fuera cierta y encontraremos razonable considerar que la hipótesis debe ser falsa y que la moneda está cargada de algún modo. La técnica del contraste de hipótesis es una refinada formulación matemática del ejemplo intuitivo anterior. El punto de partida es un modelo probabilístico sobre el que hemos formulado una hipótesis previa que se denomina hipótesis nula y se suele representar por Ho. En el ejemplo anterior de la moneda L hipótesis nula es Ho: p = 1/2, en general la hipótesis nula es que el parámetro pertenece a cierto subconjunto del espacio paramétrico Ho: E 8o. Com es habitual en las técnicas estadísticas paramétricas, es necesario precisar e conjunto de valores que puede tomar el parámetro cuando no se cumple 1:! hipótesis nula, ese conjunto de valores define los valores que aceptaríamos para el parámetro caso de ser rechazada la hipótesis nula, ese conjunto de valore5 se conoce como hipótesis alternativa y se representa por H 1 ; en el ejempl anterior, la hipótesis alternativa a que la moneda esté equilibrada es que n
e
Contrastes de hipótesis
215
lo esté, lo que se expresa formalmente: H¡: p -1- 1 /2; en general, la hipótesis alternativa tiene la forma siguiente: H¡: ()E 8¡, donde 8¡ es un subconjunto de valores del parámetro disjunto de 8o. Aunque la notación puede sugerir que un test de hipótesis trata de juzgar entre dos hipótesis cuál de ellas es la más verosímil a la vista de los datos, no es así de ninguna manera. En esta técnica, como veremos más adelante, las hipótesis no tienen papeles simétricos ; por el contrario, la hipótesis nula Ho sólo es rechazada cuando hay una fuerte evidencia en su contra; por otra parte, la falta de rechazo de Ho no debe entenderse como una prueba de la hipótesis ya que sólo es ausencia de evidencia en contra. Esta asimetría entre las hipótesis será patente en el siguiente apartado, dónde se define con precisión el diseño de los contrastes. Las hipótesis que determinan unívocamente el modelo probabilístico se denominan hipótesis simples; la hipótesis nula del ejemplo de la moneda, Ho: p = 1 12, es una hipótesis simple ya que sólo hay una distribución que tenga ese valor del parámetro; las hipótesis que contienen varios posibles distribuciones de la población se denominan hipótesis compuestas, por ejemplo, la hipótesis alternativa del ejemplo de la moneda, p -1- 1 /2, es compuesta ya que contiene a todas las distribuciones caracterizadas por un valor de p que cumple esa condición. Los tests de hipótesis sirven para contrastar toda una gama de posibles alternativas, desde hipótesis nula simple frente a una hipótesis alternativa simple, pasando por hipótesis nula simple y alternativa compuesta, como es el caso de la moneda de nuestro ejemplo anterior, donde el contraste natural es Ho: p = 1/2, frente a H 1 : p -1- 1/2, hasta hipótesis simple compuesta y alternativa compuesta, como sería el caso Ho: p::; 1/2, H 1 : p > 1/2. Puesto que los contrastes con ambas hipótesis simples son con mucho los mas sencillos, nos centraremos en ellos a fin de presentar los conceptos fundamentales relacionados con los contrastes, describir el planteamiento del problema e indicar el método para resolverlos. Más tarde examinaremos un ejemplo de contraste con ambas hipótesis compuestas.
4.3.1
Planteamiento general de los contrastes de hipótesis
En este apartado vamos a describir el planteamiento formal y los conceptos relativos al problema de contrastar hipótesis. Al igual que hicimos en la introducción y para fijar ideas, consideremos un ejemplo concreto que pasaremos a resolver tras establecer los conceptos generales, ese ejemplo trata un contraste de hipótesis nula simple frente a alternativa simple, que es el más sencillo de todos los tipos de contraste. Así, consideremos una población normal de varianza conocida, cr 2 = 1, pero de media f.l desconocida, y supongamos que queremos contrastar la hipótesis nula Ho: f.l =O frente a la hipótesis alternativa también simple H 1 : f.l = 2 y supongamos también que nuestra decisión se va a tomar a partir de la información proporcionada por una muestra aleatoria simple de tamaño n = 10.
216
UNIDAD DIDÁCTICA 4 Inferencia estadística
Como primera idea intuitiva y dado que se trata de tomar una decisión bre la media de la población, parece natural emplear la media de la mues X como medida en función de la cual tomaremos la decisión. La Inferen · estadística estudia y demuestra resultados generales que indican cómo obtene:esas medidas, pero tales resultados no son apropiados para una introducció adoptaremos X como una medida que parece natural y que, más adelante, _, podría probar que permite obtener resultados óptimos. Puesto que se trata contrastar Ho: f.1 = O, frente a H 1 : f.1 = 2, también es intuitivo que obtener valor muy grande de X debe ser considerado como una evidencia en contra la hipótesis nula; ahora, puesto que los valores grandes de X nos hacen sospechar de la hipótesis Ho, también parece razonable buscar un valor límite e que cuando X > e rechazaremos la hipótesis Ho, mientras que si X :S e, con ideraremos que no hay evidencias suficientes para rechazarla, a ese valor límire lo denominaremos valor crítico y al conjunto de muestras, (x 1,x2, ... ,xn), para las que se cumple la condición X > e le denominaremos región crítica _ la representamos por C. Esta idea de región crítica a la que hemos llegado manera intuitiva nos introduce el concepto general: cada test está caracteriz.ado por su región crítica, es decir por el subconjunto de muestras que llevan rechazar la hipótesis nula. Esta observación significa que, teóricamente, ha_ un test por cada subconjunto del espacio de muestras posibles. Por supuest la mayor parte de todos esos teóricos tests no tienen ninguna utilidad práctica. una de las tareas de la Inferencia estadística es obtener resultados generale que permitan seleccionar el mejor test, lo que exige precisar un criterio de selección. Como comentaremos más adelante, los resultados sobre el test óptimo determinan la forma del mejor test posible, esa forma, en el ejemplo que consideramos coincide con la que intuitivamente esperamos y es que la región crítica óptima está definida por una condición de la forma X > e, donde el valor crítico e es una constante que debemos determinar. REGIÓN CRÍTICA
__:1-_.l Q_ La región crítica de un test es el subconjunto de las muestras que
DE UN TEST
llevan a rechazar la hipótesis nula.
Antes de mostrar el cálculo del valor crítico de nuestro ejemplo, conviene que interpretemos el test de hipótesis como una regla de decisión definida de la siguiente manera Si X > e, entonces rechazamos Ho Si X :S e, entonces no rechazamos Ho equivalentemente, expresado en términos de la región crítica C, la regla de decisión es O,
Si (x¡,X2, ... ,X¡¡) E e, entonces rechazamos Ho Si (x 1,x2, ... ,xn)
tf. C, entonces no rechazamos Ho
Contrastes de hipótesis
217
Puesto que la hipótesis Ho puede ser cierta o falsa y hay dos decisiones posibles, aceptar o rechazar Ho, esta regla de decisión tiene cuatro alternativas, dos son ace1tadas, rechazar Ho siendo falsa y no rechazar Ho siendo cierta, y dos erróneas, rechazar Ho cuando es cierta, que recibe el nombre de error de tipo I, o no rechazar H0 siendo falsa, que se denomina error de tipo II. Las cuatro alternativas se resumen en la tabla 4.1. Limitar o en todo caso controlar de
Ho es cierta
Ho es falsa
Rechazar Ho
Error de tipo I
Decisión correcta
No rechazar H 0
Decisión correcta
Error de tipo II
Tabla 4.1: Alternativas de un test de hipótesis
alguna manera la frecuencia con que suceden estos dos errores es el principal objetivo de los contrastes de hipótesis. ERRORES POS IBLES EN EL TEST DE H IPÓT ESIS
·--~~!.L
Como consecuencia de la decisión tomada en un test de hipótesis se pueden cometer dos errores: el error denominado de tipo I, que consiste en rechazar la hipótesis nula cuando es cie1ta, y el error denominado de tipo II que consiste en no rechazar la hipótesis nula siendo falsa. Según convenga, expresaremos la probabilidad de cometer cada uno de esos errores en cualquiera de las formas equivalentes siguientes P (Error tipo I) = ? (Rechazar Ho Ho es cierta) 1
= P (C 1 Ho es cierta) mientras que la probabilidad de cometer el error de tipo II se puede formular P(Error tipo II) = P(No rechazar Ho Ho es fal sa) 1
= P (Cc
1
Ho es falsa )
Desde luego, lo ideal sería encontrar un test que hiciese mínima ambas probabilidades de error pero eso no es posible salvo en casos excepcionales y triviales dado que, para reducir la probabilidad de cometer el error de tipo I es necesario disminuir la región crítica, C, lo que implica un aumento de su complementario ce y, en consecuencia, de la probabilidad de cometer el error de tipo II. Así, como norma, la reducción de la probabilidad de un tipo de error se hace a costa de aumentar la probabilidad de cometer el otro. Lo que define completamente a un test de hipótesis es el criterio que se sigue para su diseño y que se explica a continuación.
218
UNIDAD DIDÁCTICA 4 Inferencia estadística
CRITERIO PARA EL
~~___: El diseño de
Lm
test de hipótesis sigue un criterio en dos pasos:
DISEÑO DE UN TEST D E HIPÓTESIS
i. Fijar, en función de las l1ipótesis y del contexto del problema, una cota para la probabilidad de cometer el error de tipo I; esa cota se denomina nivel de significación del contraste y se representa por a. ii. Elegir entre los tes ts cuya probabilidad de e1Tor de tipo I es menor que a , el test que hace mínima la probabilidad del error de tipo II. Podemos observar que el tratamiento de ambas hipótesis es bien distinto, la técnica de los contrastes de hipótesis concede prioridad a mantener el riesgo del error de tipo I por debajo del nivel de significación y deja el problema de hallar el contrate de haga mínima la probabilidad de error de tipo II en manos de nuestra capacidad de optimizar, aunque el mínimo, caso de ser alcanzado, depende de la naturaleza matemática del problema y no de nuestra voluntad. Resulta evidente el tratamiento asimétrico que reciben ambas hipótesis y que estas no son intercambiables, puede incluso darse el caso que, una vez diseñado el test óptimo, la probabilidad de error de tipo II que resulte sea menor que el nivel de significación, pero esto, como hemos indicado no depende de la voluntad del diseñador, sino de las condiciones del problema. A la vista del criterio anterior, resulta claro que, como señalamos anteriormente, el contraste de hipótesis no persigue decidir qué hipótesis entre las contempladas es más verosímil a la vista de la evidencia experimental, sino que que considera a Ho como hipótesis establecida que sólo es rechazada cuando la muestra proporciona una gran evidencia en su contra. Un concepto que facilita la descripción del criterio anterior es la noción de potencia de un test, en el caso de los contrastes de hipótesis nula y alternativa simples que estamos considerando, llamaremos potencia del test a la probabilidad de rechazar la hipótesis nula cuando el valor del parámetro es e1 , la potencia se representa por f3 (e1 ) y es igual a
f3 (e¡) = P( C
1
e= e¡) =
1- P(Error tipo II)
(4.13)
En términos de la potencia, el diseño de un test para el contraste de la hipótesis nula Ho: e = eo frente a la alternativa H¡ : e = el , se describe como sigue. ÓPTIMO DE LOS TESTS DE HIPÓTESIS SIMPLE FREN T E A SIMPLE
4.13 El test óptimo para contrastar la hipótesis simple Ho : e = eo frente a la alternativa simple H¡ : = el se alcanza eligiendo, entre los tests que tienen un nivel de significación menor o igual que un valor prefijado, a, el contraste que tenga máxima potencia f3 (e1 ).
e
Volvamos a considerar el ejemplo del contraste en una población JV (J..l , 1) de la hipótesis Ho : J.1 = Ofrente a H1 : J.1 = 1 mediante una muestra de tamaño n = 10; ahora, tras la discusión anterior podemos precisar completamente el
Contrastes de hipótesis
219
problema, consideraremos un nivel de significación a = 0.05 y daremos por supuesto que el test óptimo, es decir, el de máxima potencia, tiene una región crítica de la forma X > e donde la constante e la determinaremos al aplicar la primera parte del criterio y obligar a que el test tenga un nivel de significación a= 0.05. Para imponer esa condición observemos que la distribución de la media muestral es JV(,u , 1/ ylfü) = JV(,u,0.316), de manera que si la hipótesis Ha: .U = O es cierta, la distribución de X es JV (O, 0.316) y tenemos a= P(Error tipo I) = P(X >e Ho es cierta) 1
=P(X>ei.u=O)
X e = P(0.316 > 0.316) e -P(Z> 0.316) donde Z es una variable aleatoria con distribución JV (O, 1); en la tabla de la distribución normal podemos encontrar el valor z que verifica
P(Z > z)
=a
= 0.05
ese valor es z = 1.645; puesto que P(Z > e/0.316) = 0.05, se debe cumplir e/0.316 = 1.645, lo que implica e= 0.52. Así pues, hemos determinado el valor crítico y la región crítica imponiendo la primera condición del criterio que obliga a que el test tenga un nivel de significación prefijado. En resumen, el test de hipótesis que hemos construido se basa en una muestra de tamaño n = 10, (x¡ ,xz, ... ,xw), y consiste en calcular x a partir de la muestra y aplicar la regla de decisión siguiente Regla de decisión:
si x > 0.52, se rechaza Ho { si x ::; 0.52, no se rechaza Ho
Una vez establecido el valor crítico, potencia está determinada. Recordemos que la potencia f3 cumple
f3 Ahora, si
= 1 - P(Error tipo II) = 1 - P(X :S: e l .u = 1)
.u= 1 es cierta, la distribución de X es JV(1,0.316) y se tiene f3 -
X -1 0.52-1 1 -P(-0.3-16 :S: 0.316 l .u -1)
0.52-1) =P (Z< - - - 0.316 = P(Z :S: -1.52) = 0.936 La figura 4.7 muestra una interpretación gráfica del cálculo del valor crítico para un contraste general de la media en una población normal de varianza conocida, de la hipótesis nula simple Ho: .U= frente a la hipótesis alternativa
.uo,
220
UNIDAD DIDÁCTICA 4 Inferencia estadística
también simple H¡ : ).1 = ).1 1 • Dado que región crítica está definida en términos de la media muestral, hemos dibujado una recta horizontal que representa los valores posibles que puede tomar X , la región crítica es un subconjunto de esta recta. El siguiente paso es el más importante, entre todos los posibles subconH¡
Ho
C={X>c}--Figura 4.7: Test de hipótesis simple frente a alternativa simple
juntos de la recta, hemos decidido por intuición que la región crítica será de la forma (e, oo). En la recta, aparecen señalados los puntos }lo y ).1¡ que constituyen las hipótesis. Sobre la recta, hemos dibujado las gráficas de dos funciones de densidad normales, que quieren representar las densidades de X bajo cada una de las hipótesis, cuando Ho es cierta, la densidad de X es JV (Jlo, CJ 1yln), mientras que si H¡ es cierta, la la densidad de X es JV (Jl¡, cr 1yln). El valor crítico se halla imponiendo la condición de que el test tenga nivel de significación a, lo que equivale a la condición P(X E (c,oo)
1
).1
= Jlo) =a
Geométricamente, esta condición significa que el nivel crítico e debe ser tal que el área bajo la gráfica de la densidad JV (}lo, (J 1vn) desde e hasta 00 sea igual a a, como hemos señalado en la figura 4.7. Una vez determinado el valor de e, la potencia del test está fijada y es igual a
f3 = P(X E (c,oo)
1
).1
= ).1¡) = 1-P(X :S: e
1
).1
= ).11)
Geométricamente, la probabilidad del Error de tipo II, 1 - f3, es igual al área bajo la gráfica de la densidad JV (Jl¡' (J 1vn) desde - 0 0 hasta c. En el contraste anterior de la media de una población normal, entre todas las regiones críticas posibles, decidimos de manera intuitiva limitarnos a las regiones de la forma X > e, esta intuición es correcta ya que el test es el que tiene mayor potencia entre todos los tests con nivel de significación a prefijado. La Inferencia estadística ha desarrollado herramientas generales para
Contrastes de hipótesis
221
descubrir cuál es el test de máxima potencia; una de las más conocidas y útiles es el llamado lema de NEYM AN-PEARSO N, válido para los contrastes de hipótesis nula y alternativa simples, que enunciamos a continuación. LEMA DE N EYMANPEARS ON
4 .14 , Consideremos una población cuya distribución depende de un parámetro e desconocido, supongamos que tiene distribución continua con función de densidad f(x;e) (el caso discreto es similar, reemplazando la función de densidad por la de probabilidad). La función de densidad de una muestra aleatoria de tamaño n sabemos que es igual a
entonces, el test de máxima potencia para contrastar la hipótesis e fi·ente a e = e1 tiene una región crítica definida por
= eo,
para alguna constante c .
4.3.2
Contrastes de hipótesis unilaterales y bilaterales
En las aplicaciones raramente se plantean contrastes de una hipótesis simple frente a una alternativa simple, puesto que las conjeturas alternativas rara vez suelen ser tan precisas. Por otra parte, no hay resultados generales para determinar cuál es el test óptimo para contrastar Ho : E 8o frente aH¡ : E 8 1, cuando 8o y 81 son conjuntos arbitrarios. Afortunadamente las mayor parte de los problemas que se plantean en la práctica corresponden a parámetros unidimensionales con hipótesis de alguna de las cinco casos siguientes:
e
Caso l.
e
Ho: e = eo frente aH¡: e> eo
= eo frente aH¡ : e < eo Caso 3. Ho : e :S eo frente a H¡ : e > eo Caso 4. Ho : e 2:: eo frente a H1 : e < eo Caso S. Ho : e = eo frente a H1 : e -1- eo Caso 2.
Ho : e
Los casos 1-4 se denominan hipótesis unilaterales, mientras que el caso 5 se denomina contraste de hipótesis bilateral. En el caso de la distribución normal, a partir de los contrastes óptimos sobre hipótesis simples es posible razonar que en los casos 1 y 3, el contraste óptimo tiene como región crítica la definida por X> e, para cierto valor de e, mientras que en los casos 2 y 4, el contraste óptimo tiene una región crítica definida por X < e, pero estos resultados dependen de las propiedades particulares de la distribución normal y no son
222
UNIDAD DIDÁCTICA 4 Inferencia estadística
ciertos en general. El cálculo del valor crítico en estos tests es semejante al del ejemplo del apartado anterior. En el caso 5, para poblaciones normales, se acostumbra a emplear un test que tiene una región crítica simétrica, definida por
{X>e}U{X<-e} A continuación veremos un ejemplo de esta clase de contrastes bilaterales. Consideremos una población normal con varianza e ó X< -e, para calcular el valor de e imponemos la condición de que el test tenga el nivel de significación prefijado.
a = P(Error de tipo I) = P(Rechazar Ho f.L = O) 1
= P(X >e f.L =O)+ P(X <-e f.L =O) 1
Ahora, cuando f.L = O, la media muestra! JV (0,2/Vl0), y se tiene
X
e
2/VlO
X se distribuye según una normal
X e lu O) + P(
e
a - P( > 2/VlO 2/VlO
= P(Z >
1
) + P(Z < -
e
e
2/VlO
)
e
e
= P(Z > 0.632) + P(Z < -0.632) = 2P(Z > 0.632) Así, el valor e debe cumplir la ecuación probabilística e 2P(Z > 0. ) = a = 0.05 632 o bien P(Z > e/0.632) = 0.025; en la tabla de la distribución normal encontramos el valor z = 1.96 que cumple P(Z > 1.96) = 0.025, luego se cumple e= 1.96 · 0.632, es decir e= 1.24. Ahora, la región crítica está establecida, se trata de una unión de dos intervalos: ( 1.24, oo) U (-oc, -1.24), y el criterio de decisión es si X < -1.24, rechazar Ho Regla de decisión:
{
=
1.24 :S X :S 1.24, no rechazar Ho si X > 1.24, rechazar Ho
si
Una vez definido el contraste, calcularemos la potencia; este ejemplo, nos obliga a hacer una generalización del concepto de potencia, observemos que para cada f.L = m -1 O, podemos calcular
f3 (m) = 1 -
P(Error de tipo II 1 f.L
= m)
ahora podemos comprender que, cuando la hipótesis alternativa es compuesta, debemos considerar la potencia como una función del parámetro y no como un único valor, como ocurre cuando la alternativa es simple.
Contrastes de hipótesis
0.5 0.6 0.7 0.8 0.9
0.1240 0.1580 0.1988 0.2426 0.2949
1.2 1.5 1.7 2.0 2.2
0.4761 0.6591 0.7673 0.8849 0.9671
Tabla 4.2: Valores de {3 (m)
223
Calcularemos la función de potencia para diferentes valores de m y representaremos la gráfica de la función potencia. Por ejemplo, cuando m = 0.5, tenemos
f3 (0.5)
= P(Rechazar Ho 1J.L = 0.5) = P(X > 1.241 J.L = 0.5) + P(X < -1.241 J.L = 0.5 )
pero si J.L = 0.5 , entonces X tiene una distribución normal JV(0.5,2/vT5), luego si tipificamos X, resulta
0.5 (- > 1.24 l J.L = 0.5 ) = P (x- ¡:¡-¡:; >
P X
2 /v 10 P(Z > 1.17)
1.24-0.5 l ¡:¡-¡:; J.L 2/v 10
= 0.5 )
= = 0.1210 de manera similar se calcula
-
P(X < -1.24 1J.L = 0.5) = P(
=
x -0.5 -1.24-0.5 yT5 > yT5 1J.L = 0.5)
2/ 10 2/ P (Z < -2.75)
10
= 0.0030
Así obtenemos
/3(0.5)
= 0.1210+0.0030 = 0.1240
Para representar la gráfica de la función potencia f3 (m), calculamos su valor para distintos m, los cálculos son completamente similares, basta tener en cuenta que
f3 (m) =P(Z
1.24-m )
> 0.632
+
P(Z
<
_1.24+m) 0.632
Por la simetría de la distribución normal tipificada respecto del origen, tan sólo es preciso calcular valores positivos de m y la gráfica de m f--t f3 (m) es simétrica respecto de m= O; observemos que f3 (O) es igual al nivel de significación, ya que la probabilidad de que la media muestra! pertenezca a la región crítica cuando J.L = O es precisamente el nivel de significación. En la tabla 4.2 aparecen los valores de f3 (m) para distintos m. En la figura 4. 8 se muestra la gráfica de la función de potencia.
4.3.3 Contrastes de bondad del ajuste Los contrastes de bondad del ajuste están diseñados para verificar si las proporciones en las que la población se reparte en diversas clases o categorías se ajustan a determinado patrón; son contrastes que permiten rechazar una hipótesis que suponga que los datos siguen una distribución determinada, por ejemplo que una serie de dígitos estén generados al azar.
224
UNIDAD DIDÁCTICA 4 Inferencia estadística
-4
-2
-3
o
- 1
2
3
Figura 4.8: Gráfica de la función de potencia
4
f3 (m)
Este método se aplica siempre que los individuos de la población puedan dividirse en un cierto número k de grupos, C1 , C2, ... , Ck. sobre los cuales la hipótesis Ho indica las frecuencias, p¡, p2, ... , Pk. con las que deberían presentarse. El contraste de Ho se basa en la obtención de una muestra aleatoria. de tamaño n, con la cual calcular las frecuencias reales observadas p1, p2 , .. . • Pk· lo que se representa en la tabla siguiente. El contraste debe basarse en un Clases
Ho
PI
P2
P3
Muestra
Pl
P2
P3
Pk
Tabla 4.3: Proporciones esperadas y observadas
estadístico que mide la discrepancia entre las frecuencias esperadas y las observadas; es decir, entre la segunda y la tercera fila de la tabla. Así, para obtene~ una medida global, se considera la cantidad k
(~
D=nL., p¡-p¡ i=l
=
(4.1 4
p¡
!!____(ji, -PI )
PI
)2 2 + !!____ (P2- P2) 2 + ··· + !!____ (fik - Pk) 2
P2
Pk
que constituye una suma ponderada de las diferencias (p¡ - p¡ ) 2 , elevadas al cuadrado para evitar que se compensen las positivas con las negativas. La ponderación obedece a que una cierta desviación -por ejemplo, de un 2 %- entre la frecuencia observada y la esperada es menos significativa cuando p¡ es el 36 % que cuando es el 6 %; de ahí que se divida por p¡. De todas formas, el valor de D es más sencillo de calcular empleando la expresión equivalente:
D=n
(
-1 +
L Pi~2) k
i= !
Pz
(4.15)
Contrastes de hipótesis
225
que sólo exige formar el cociente del cuadrado de los términos de la última fila, dividido por el término de la fila anterior y sumarlos todos; después, hay que restar 1 y multiplicar por n. Obviamente, un valor pequeño de la discrepancia D indica que no hay diferencias importantes entre las frecuencias esperadas y las observadas. En cambio, un valor grande de D marca una escasa concordancia entre ellas; por esta razón, la región crítica del contraste será
{D > d*} que propone rechazar Ha cuando D supere un cierto nivel crítico d*. La expresión de D expresada en 4.14 fue propuesta por K. PEARSON quién, para poder determinar los niveles críticos adecuados, tuvo que estudiar su distribución en el muestreo; se trata de la distribución que conocemos como 2 de PEARSON .
x
DISTRIBUCIÓN APROX IMADA DE LA DISCREPANC IA
~ En
las circunstancias descritas, supuesto que el tamaño muestra] es grande, (n > 30 y np¡ > 5 para todas las p;), si Ha es cierta, D tiene distri bución 2 con k- 1 grados de libertad, siendo k el número de categorías en las que se ha clasificado la población.
x
Como aplicación completa del contraste de la bondad del ajuste, consideremos el siguiente problema: para comprobar si un dado está equilibrado, en el sentido de que todas sus caras tienen probabilidad 1/6 de aparecer, se efectuaron n = 200 lanzamientos, obteniéndose cada uno de los resultados el número de veces que se indica a continuación:
1 41
Resultado Frecuencia
2 26
3 36
4
38
5 32
6 27
Desde luego, con un dado está equilibrado es posible obtener cada uno de los 6 resultados el número de veces que aparece indicado en la segunda fila, pero, si el resultado es muy improbable, estamos dispuestos a correr el riesgo de afirmar que el dado está cargado. ¿Cómo medir si el resultado es lo suficientemente anómalo para permitir rechazar la hipótesis nula Ha de que el dado es correcto? La respuesta es que los resultados suficientemente anómalos, al nivel de significación a = 0.05, son aquellos que proporcionen un valor de la discrepancia D que verifique {D > 11.07}, puesto que el número de clases es k= 6, en la tabla de la 2 con 5 grados de libertad y a = 0.05 , encontramos 11.07. La figura 4.9 muestra la gráfica de la distribución X2 con 5 grados de libertad, así como las regiones crítica y de aceptación al nivel de significación señalado. Por otra parte, para calcular el valor efectivo de la discrepancia D, se forma la tabla con las frecuencias previstas por Ha (1 16 = 0.166 para cada resultado) y las frecuencias observadas: 41 / 200 = 0.205 , 26/200 = 1.30, etc.; a la que se añade la fila de los cocientes "P1 1p;
x
' ' 226 · UNIDAD DIDACTICA 4 Inferencia estadística
0.15
0.1
0.05
o
10
5 Región de aceptación
20
15
11 .07
Región crítica
Figura 4.9: Región crítica para el contraste de bondad del ajuste
1
2
3
4
5
6
0.166 0.205 0.2521
0.166 0.130 0.1014
0.166 0.180 0.1944
0.166 0.190 0.2166
0.166 0.160 0.1536
0.166 0.135 0.1093
Resultado
Ho (p¡) Muestra (Í)¡) / pi
v?
La suma de la fila adicional es 1.0274, con lo cual resulta D = 200 ( 1.0274 - 1)
= 5.48
En conclusión, los resultados obtenidos no aportan evidencia suficiente y no podemos descartar que el dado esté equilibrado. Imaginemos ahora que los resultados hubiesen sido los que indica la tercera fila de la siguiente tabla, con la que se han calculado las frecuencias relativas que figuran en la línea siguiente y los cocientes 1pi de la última fila:
v?
Resultado
1
2
3
4
5
6
Ho Frecuencia Pi ~z 1 Pi Pi
0.166 41 0.205 0.2521
0.166 18 0.090 0.0486
0.166 24 0.120 0.0864
0.166 47 0.235 0.3314
0.166 25 0.125 0.0937
0.166 45 0.225 0.3037
Puesto que la última fila suma 1.1159, habría resultado D = 200 (1.1159 - 1) = 23.18
y podría rechazarse la hipótesis Ho de que el dado está equilibrado incluso con nivel de significación ex = 0.005 , ya que la región crítica a dicho nivel es {D > 16.75} .
,,
UNIDAD DIDÁCTICA VI ~1 ~
Modelos de optimización
"•.,·
¡i
~?-~
/
IN DICE 5.1 Optimización: sistemas y modelos 5.1.1 Sistemas 5.1.2 Modelos 5.1.3 Modelos matemáticos de optimización
5.2 Características de los problemas de optimización 5.2.1 5.2.2 5.2.3 5.2.4 5.2.5 5.2.6
Objetivo Variables Restricciones Datos Solución Optimización dinámica
5.4.5 Aplicaciones lineal
de
programación
5.5 El algoritmo del simplex 5.5.1 Justificación del algoritmo del simplex 5.5.2 Fundamentos teóricos del algoritmo del simplex 5.5.3 Forma práctica del algoritmo del simplex 5.5.4 Solución inicial de base: variables artificiales 5.5.5 Casos especiales en la aplicación del algoritmo del simplex
5.6 Postoptimización 5.3 Formulación de un programación
problema de
5.3.1 Ejemplo : Un problema de inversión óptima 5.3.2 Planteamiento general del problema de optimización
5.4 El modelo general de programación lineal 5.4 .1 Un ejemplo introductorio: El caso de la compañía Tropicalia S.A. 5.4.2 Forma general del problema de programación lineal 5.4.3 Solución teórica del problema de programación lineal 5.4.4 Situaciones especiales en los problemas de programación lineal
5.6.1 Adición de una nueva variable 5.6.2 Modificación de los coeficientes de la matriz: variables fuera de la base 5.6.3 Modificación del vector de lado derecho de las restricciones ( vector b) 5.6.4 Modificación de los coeficientes de la función objetivo (vector e)
5.7 El modelo de programación entera 5.7.1 Aplicaciones de programación entera 5.7.2 Método de ramificación y acotación 5.7.3 Algoritmo de ramificación y acotación
Introducción
INTRODUCCIÓN
229
.~i~t~--
Los modelos de optimización constituyen hoy en día uno de los campos de las matemáticas con mayor número de aplicaciones. Aunque muchos de los resultados que actualmente se enmarcan dentro de este apartado son conocidos desde antiguo, puede decirse que el auge de dichos modelos, como parte diferenciada de las Matemáticas, es relativamente reciente pues se remonta a los albores de la Segunda guerra mündial. En un ambiente de oonflicto y con recursos escasos, muchos investigadores de diferentes campos del saber, se esforzaron en buscar la mejor manera de hacer funcionar lo que se dio en llamar sistemas, es decir, conjuntos de hombres y máquinas que actuaban coordinadamente a fin de logrm· un objetivo determinado. A este nuevo enfoque de optimizar el funcionamiento de los sistemas, contribuyeron fundamentalmente las Matemáticas, dando origen a una nueva disciplina, que pronto se desarrolló notablemente, planteándose numerosos problemas y un amplio abanico de métodos de resolución que se aplican en los más diversos contextos. Así, problemas de planificación de la producción, transporte de mercancías, asignación de tripulaciones, gestión de inventarios, toma de decisiones en ambientes certidumbre, incertidumbre y conflicto, organización de líneas de espera, mantenimiento y reemplazamiento de equipos, etc. son sólo una breve muestra de algunos de los epígrafes en que surgen los modelos matemáticos de optimización. La primera parte de este capítulo se dedica a presentar una introducción a dichos modelos. Como se ha dicho, el objeto de esta rama de las Matemáticas es estudiar la optimización de sistemas, por lo que es necesario comenzar explicando algunas cuestiones generales sobre los modelos de optimización matemática. Estas ideas, aunque expuestas bajo el punto de vista de la optimización, sintetizan el modo general de proceder de los modelos matemáticos, por lo que son muy interesantes para comprender el alcance de las matemáticas para resolver problemas reales. La segunda parte del capítulo se dedica al estudio de uno de los modelos matemáticos de optimización más utilizados como es el modelo de programación lineal. Su paternidad se debe al estadounidense George Dantzig (1914 ,2005), quien, en las postrimerías de la Segunda guerra mundial contribuyó de manera notable a la historia de las Matemáticas con el método del simplex para la solución de problemas de programación lineal. Actualmente, la programación lineal presenta un desarrollo muy importante, hasta el punto de haberse convertido en una de las herrmnientas matemáticas con un campo de aplicación más amplio. Los modelos de programación lineal se utilizan para estudiar sistemas en áreas tan dispares como la indus-
230
UNIDAD DIDÁCTICA 5 Modelos de optimización
tria, la agricultura, el transporte, la economía o las ciencias sociales. Su éxito radica tanto en su sencillez matemática, como en la posibilidad de disponer de programas de computador con capacidad para resolver de manera eficiente problemas con un gran número de variables y de restricciones. El estudio de la programación lineal comienza con la presentación del modelo mediante un sencillo caso práctico y su solución gráfica, que permite ilustrar intuitivamente el problema de programación lineal. Seguidamente, estudia el modelo general y se desarrollan las nociones que conducen a 1 solución teórica del problema. A continuación se desarrolla el algoritmo de simplex. Finalmente se hacen algunas consideraciones sobre las cuestiones de postoptimización y el análisis de sensibilidad de la solución que constituyen un ingrediente imprescindible en la solución práctica de un problema real. La última parte del capítulo se dedica a hacer una breve introducción a la programación entera. Muchas aplicaciones que pueden tratarse mediante los métodos de optimización exigen, de manera natural, que las variables tengan carácter entero. Por ejemplo, variables que hagan referencia a número de personas, número de máquinas, etc. han de tomar necesariamente valores entero Existen, sin embargo, otras muchas situaciones en que la consideración de variables enteras permite introducir en el modelo de optimización restricciones de carácter lógico que no pueden manejarse con la programación continua Por ejemplo, restricciones que se han de cumplir cuando se cumplen otras. conjuntos de restricciones de las que solamente una de ellas ha de verificarse en el óptimo, o bien variables con significado de códigos, del tipo "si-no-. "hacer- no hacer", etc. La programación entera estudia aquellos problemas de optimización en que las variables de decisión pueden tomar únicamente valores enteros. El estudio de la programación entera incluye la presentación del model junto con diversas aplicaciones del mismo. Asimismo se verá algún métodc numérico de resolución como el algoritmo de ramificación y acotación.
Optimización: sistemas y modelos
5.1
231
Optimización: sistemas y modelos Los seres que disfrutan de libertad de elección eligen siempre lo mejor, según su criterio y dentro de sus posibilidades. Este principio de comportamiento está profundamente enraizado en la naturaleza: las plantas buscan la luz, los animales los pastos más fecundos y los hombres persiguen lo que el pensamiento aristotélico denominaba eudemonía o búsqueda de la felicidad como bien supremo. Claro está que lo que se entiende por mejor dependerá del sujeto que elige, de las circunstancias, etc., pero hay que admitir que los seres libres son seres que toman decisiones óptimas. De un modo general, un problema de decisión óptima se presenta cuando un decisor, - individuo, grupo, institución- tiene que elegir entre diversas alternativas, disponiendo para ello de un determinado criterio para comparar dichas alternativas. El objetivo del decisor es encontrar la solución del problema, es decir, la alternativa que resulte mejor según el criterio. EJEMPLO 5.1 Un ejemplo clásico de problema de decisión óptima es el denominado problema de selección de la cmtera. En este problema el decisor es un individuo, o una institución financiera, que dispone de un capital que desea invertir de la mejor manera posible. Las alternativas son los diferentes activos que puede encontrar en el mercado: letras del tesoro, acciones, bonos, pagarés, inmuebles, metales preciosos, antigüedades, objetos de arte, etc. Como criterio para comparar las alternativas puede utilizar la rentabilidad que producen, y buscar inversiones de rentabilidad máxima. Desde otro punto de vista, puede considerar como criterio de comparación el riesgo que presenta la inversión, y buscar inversiones de mínimo riesgo. Con frecuencia, las inversiones de alta rentabilidad suelen llevar aparejado un alto riesgo, por lo que la idea de conjugar ambos criterios simultáneamente resulta inaplicable. •
Como podemos vislumbrar en el ejemplo anterior, plantear y resolver un problema de decisión óptima puede ser muy complejo. Por ello, al enfrentarse con un problema de decisión óptima, el decisor suele recurrir a su experiencia, al consejo de expertos, etc., intentando una aproximación cualitativa al planteamiento y solución del problema. Pero, cuando el problema presenta unas ciertas características, el método más apropiado para el planteamiento y solución es el método científico. Este es el método que utilizan las Matemáticas para resolver los problemas de decisión óptima.
5.1.1 Sistemas Los problemas de decisión óptima tienen como marco la denominada "teoría de sistemas". SISTEMA
[i} l
Un sistema es un conjunto de hombres y máquinas que actúan de modo interactivo en un detenninado ámbito.
En la definición anterior tanto la palabra "hombre" como la palabra "máquina" tienen un significado amplio, más allá de su sentido literal. "Hombre" puede ser un individuo, un grupo, una institución, un gobierno, etc.; por su parte
232
UNIDAD DIDÁCTICA 5 Modelos de optimización
"máquina" puede ser un simple ingenio mecánico que ejecuta una cierta tarea o una estructura social compleja que responde a unas reglas de conducta comúnmente aceptadas. EJEMPLO 5.2 Un ejemplo de sistema es el denominado sistema financiero. Está integrado por los diferentes agentes económicos que persiguen el objetivo de obtener el mayor bienestar social. Como "hombres" que forman parte del sistema pueden considerarse los individuos, las empresas, las entidades financieras, las multinacionale: los gobiernos, etc. , etc.; como "máquinas" que actúan en el sistema pueden citarse lo elementos mecánicos que utilizan las empresas para producir bienes, los productos financieros: cuentas corrientes, medios de pago, créditos, etc. , las disposiciones legale los impuestos y aranceles, los mercados bursátiles, las diferentes monedas, el tiempo meteorológico, el azar, y un sin fin de elementos que intervienen de manera directa o indirecta en el resultado de cada una de las deci siones de carácter económico que pueden tomar los "hombres".
La actuación de los hombres sobre las máquinas y la respuesta de éstas produce determinados efectos en los sistemas . El objetivo consiste en encontrar la mejor manera de diseñar y operar el sistema. El método que emple es el método científico: observación del sistema, formulación de teorías sobre el comportamiento del sistema, evaluación de dichas teorías y obtención de consecuencias para poder tomar decisiones que aprovechen al máximo lo:: recursos del sistema.
5 .l. 2
Modelos
La observación de un sistema puede llevarse a cabo experimentando directamente sobre él. Las ventajas de la experimentación directa son evidentes: 1"' situación observada es la situación real, los resultados obtenidos son fiable precisos y se interpretan fácilmente. Sin embargo, no está exenta de inconvenientes: la manipulación directa del sistema puede compmtar riesgos, la experimentación puede ser cara, lenta e incluso imposible, el número de alternativas que pueden examinarse es limitado, etc. Como alternativa a la observación directa de un sistema cabe realizar un estudio de un modelo del sistema. MODELO
5.2
Un modelo es una representación aproximada de un sistema real.
Un modelo recoge las características esenciales de un sistema y se convierte e el objeto de estudio. Las ventajas e inconvenientes de utilizar un modelo parn la observación de un sistema son la otra cara de la moneda de las detalladas en el caso de la experimentación directa. Trabajar con modelos es más económico y rápido, permite evaluar un mayor número de alternativas y no entraña riesgos para el sistema. Como contrapartida, se pierde precisión, fiabilidad, Jo_ resultados pueden ser de interpretación confusa y, principalmente, puesto que lo que se observa es una aproximación del sistema real, los resultados serác relevantes en tanto en cuanto el modelo capte los aspectos clave del sistem real.
---
Optimización: sistemas y modelos
233
Tipos de modelos
Los modelos pueden clasificarse en dos amplias categorías: • Modelos físicos , en los que la representación del sistema es tangible, material, como las maquetas y los prototipos. • Modelos formales, en los que la representación del sistema se obtiene mediante las herramientas que los hombres han desarrollado para la abstracción: descripciones verbales, dibujos, lógica y matemáticas ; como los esquemas, los lenguajes de computador y las fórmulas matemáticas.
EJE M PLO 5.3 Para observar un sistema de comunicaciones ferroviarias, puede diseñarse una maqueta que replique los diferentes modelos de tren, estaciones, calcular a escala los tiempos de viaje, etc. y estudiar la respuesta del sistema en diferentes situaciones; sería un modelo físico. Alternativamente, se puede diseñar un programa de computador que simule los elementos anteriores; sería un modelo fo rmal. •
5.1. 3 Modelos matemát icos de optimización Los modelos formales para resolver los problemas de decisión óptima son los modelos matemáticos de optimización. MODELO MATEMÁTICO DE OPTIMIZACIÓN
Un modelo matemático de optimización incluye los siguientes elementos: • Un conj unto de variables, cuyos valores son números reales y sü-ven para representar cada una de las alternativas del sistema. • Un conjunto de restricciones, que tienen la forma de igualdades o desigualdades, que ligan las variables y sirven para representar las relaciones entre éstas e incluir las condiciones del sistema. • Una función objetivo, que depende de los valores de las variables, toma valores en el conjunto de los números reales y sirve para comparar las alternativas.
La elaboración y utilización de un modelo matemático de optimización para representar y operar un sistema real es una tarea compleja. Para llevarla a cabo son necesarias diversas fases que se esquematizan en la figura 5.1: análisis del sistema, formulación del modelo, solución del modelo, validación del modelo y puesta en práctica de la solución. Vamos a describir brevemente cada una de estas fases, ilustrando su aplicación a un ejemplo.
234
UNIDAD DIDÁCTICA 5 Modelos de optimización Formulación
Sistema real
''
''
MODELO MATEMÁTICO
'
"
- - - - - - - - --!L_ S_o_l_u_c_ió_n_
__j
CONCLUSIONES SOBRE EL MODELO
- - - - - - - - ~
Validación
PUESTA EN PRÁCTICA DE LA SOLUCIÓN
Figura 5.1: Fases del desan·ollo de un modelo matemático para representar un sistema real.
Análisis del sistema
El punto de partida es constatar la existencia de un sistema real cuyo funcionamiento puede ser mejorado y vislumbrar las posibles vías de actuación para conseguirlo. Puesto que cualquier sistema real puede considerarse un subsistema de otro más complejo, es necesario comenzar por acotar el campo de actuación. Además, a fin de obtener un modelo manejable, hay que limitarse a tener en cuenta únicamente aquellos aspectos que son relevantes para el estudio que se pretende realizar. Esto conduce en la práctica a lo que se puede llamar un sistema real simplificado que es el que realmente se somete a observación. EJE M PLO 5.4 Supongamos que el sistema objeto de estudio es una empresa que fabrica un producto de consumo. El empresario está interesado en tomar decisiones que conduzcan al funcionamiento óptimo de la empresa. Hay muchas decisiones que afectan a dicho funcionamiento óptimo, pero cuantos más aspectos se contemplen mayor será la complejidad del modelo que hab1ia que desarrollar. Supongamos, para simplificar, que el interés del empresario se reduce a fijar el precio de venta de cada unidad de producto. En este caso, es natural considerar que la optimización consiste en obtener el máximo beneficio. Ello puede, inicialmente, hacer pensar que hay que vender el producto al mayor precio posible; pronto se comprende que cuanto mayor sea el precio, menos unidades se venden; por tanto , además del precio, hay que considerar también el número de unidades vendidas. Admitamos que la empresa ha realizado
Optimización: sistemas y modelos
235
unos estudios de mercado, que le permiten suponer que el producto se dirige, potencialmente, a n clientes y que el número de unidades vendidas estará relacionado con el precio del producto. Todas estas consideraciones constituyen la fase de análisis del sistema. •
Formulación del modelo
El paso siguiente es convertir el sistema real simplificado en un objeto matemático, es decir, describir el sistema mediante variables, funciones, ecuaciones, igualdades, etc . Esta fase es muy importante y debe abordarse con especial cuidado. En esta fase se toman, prácticamente, todas las decisiones técnicas que afectarán a la viabilidad del modelo. La utilidad de un modelo matemático para analizar el comportamiento de un sistema real reside en la habilidad del diseñador del modelo para traducir, de manera adecuada, la realidad a un problema matemático que se pueda resolver. En este sentido cabe hablar del arte de modelar, es decir, diseñar modelos matemáticos supone ciertas cualidades artísticas además de conocimientos técnicos. La mayor parte del éxito en la aplicación de la Investigación operativa a sistemas reales descansa en la posibilidad de disponer de un modelo matemático adecuado. EJEMPLO 5.5 Continuando con el ejemplo anterior, abordamos la fase de formulación de un modelo matemático para el problema de la empresa. Podemos representar los aspectos relevantes del sistema mediante los siguientes entes matemáticos:
a) Variables: El modelo pretende determinar el precio unitario del producto y el número de unidades vendidas. Podemos llamar p al precio y v al número de unidades vendidas. Estas son las variables del modelo: cada par de valores p, v significa una posible alternativa del sistema. b) Restricciones:
• Podemos considerar que p y v están relacionados de la manera siguiente: si el producto se regalase, es decir, si tuviese un precio igual a cero, todos los clientes lo adquirirían; mientras que, a medida que aumenta el precio, el número de compradores disminuye proporcionalmente, de forma que por cada unidad de aumento de precio, el número de ventas disminuye en a unidades, donde a es un número real positivo. Admitiendo esta hipótesis y dado que el mercado potencial es de n clientes, obtenemos la siguiente restricción de igualdad que liga las variables v y p:
v = n-ap. • Una condición natural que podemos imponer a las variables p y v es que tomen valores no negativos, ya que no tendría sentido real un precio menor que cero, ni un número de unidades negativo. Entonces, podemos introducir en el modelo las siguientes restricciones de desigualdad
p?. O,
V?.
o
236
UNIDAD DIDÁCTICA 5 Modelos de optimización
e) Objetivo: El objetivo de la empresa es alcanzar el máximo beneficio posible. Consideraremos que la función que da el beneficio, f( v,p), es igual al producto del número de unidades vendidas por el precio de cada una, es decir f(v,p) = vp
Con este planteamiento el estudio del sistema puede reducirse al estudio del siguiente problema o modelo matemático: Maximizar f (v, p )
= vp
sujeto a v+ ap p,V
=n
2': Ü
p , V E IR
• Solución del modelo Una vez planteado el modelo, hay que encontrar su solución. Para ello hay que utilizar las herramientas matemáticas precisas : sistemas de ecuaciones, derivación, métodos para buscar máximos, combinatoria, cálculo de probabilidades, estadística, etc. Ésta es la fase en la que se aplican las técnicas propiamente matemáticas, al objeto de resolver el problema matemático planteado. De hecho, en esta fase puede prescindirse del significado real de los entes matemáticos que se están utilizando. Los resultados que se obtengan serán válidos porque son consecuencia lógica de la teoría matemática, llegando a conclusiones que son válidas desde el punto de vista matemático. Ello no quiere decir que tengan que ser válidas para el sistema real, como comentaremos en la fase siguiente. EJE MP LO 5.6 Como hemos visto en el ejemplo anterior, para encontrar el precio óptimo de venta del producto hay que encontrar el máximo de la función f( v, p ) = vp. Teniendo en cuenta la restricción de igualdad v = n- ap , podemos sustituir este valor de v en la expresión de f, resultando
f (v, p )
= vp = (n- ap )p = np- ap 2
de forma que la función objetivo es ahora únicamente una función de p, que podemos denotar, abusando del lenguaje, f (p ) . Tenemos ahora que encontrar el valor máximo de f (p ). Para ello hay que encontrar los valores en que se anula la primera derivada de la función . Esta primera derivada es: f' (p ) =n-2ap.
Entonces hay que resolver la ecuación en p n - 2ap=O --
....
__ ____________________________________________________
Optimización: sistemas y modelos
237
La solución de la ecuación anterior es: ~
n
p= 2a'
Este valor pes efectivamente un máximo de f(p), ya que la derivada segunda de f
f" (p) = -2a es menor que cero, pues hemos supuesto que a es un número positivo. Además p verifica la restricción de desigualdad del modelo, ya que p ;::=: O, porque n y a son positivos. La solución del modelo indica que el precio óptimo del producto es !!.__. 2a Para este precio, el número de unidades vendidas previsto por el modelo es: ~ ~ n n v = n - ap= n-a-=2a 2
que también cumple la restricción de desigualdad, v ;::=: O, al ser n positivo, y el beneficio que alcanza la empresa es ~ ~)
!( vp '
_ n n _ n2 ----2 2a 4a
• Validación del modelo Como se señaló en la fase anterior, con la solución del modelo matemático no se da por finalizado el estudio del sistema. U na vez encontrada la solución hay que contrastar la validez de los resultados obtenidos con el sistema real. Si las conclusiones lógicas que se derivan de los análisis matemáticos son compatibles con los resultados que se observan en la realidad, podemos confiar en que el modelo diseñado es adecuado para describir el sistema. Pero si se observan discrepancias importantes entre lo previsto por las conclusiones del modelo y el sistema real, hay que pensar que el modelo no es apropiado para el sistema estudiado y hay que revisarlo, o sea, hay que reformular el modelo matemático. Este ciclo formulación-solución-validación ha de efectuarse, posiblemente, varias veces hasta conseguir un modelo idóneo para el sistema. Cuando se dispone de información sobre el funcionamiento del sistema en el pasado, la fase de validación puede llevarse a cabo comparando los resultados históricos con lo previsto por el modelo. Si no se dispone de información sobre el pasado, la validación de un modelo puede resultar difícil; en este caso, puede ser preciso recurrir a realizar diversas pruebas con conjuntos de datos diferentes y decidir si los resultados son satisfactorios. EJEMPLO 5.7 Continuando con el ejemplo anterior, la fase de validación consistiría en comprobar si las ventas previstas por el modelo coinciden, aproximadamente, con las observadas realmente. En ese caso, podemos pensar que el modelo describe adecuadamente el comportamiento del sistema y dar por satisfactorio el estudio realizado. En otro caso, habría que revisar las hipótesis y considerar un nuevo modelo más acorde con la situación real. •
238
UNIDAD DIDÁCTICA 5 Modelos de optimización
Puesta en práctica de la solución
Cuando el estudio ha superado todas las etapas anteriores, llega el mamen de poner en práctica la solución encontrada. La ejecución de esta fase puede ser muy delicada y arruinar un buen modelo. En ocasiones, quienes tienen q aplicar la solución no se sienten identificados con el proyecto, por razones diversa índole: novedad, rutina, desacuerdo con los nuevos modos de ope el sistema, etc. Una posible vía de actuación cuando se estudia un sistema e: funcionamiento es mantener de manera transitoria el antiguo modo de funcionamiento junto con el modo óptimo deducido por el modelo. De esta form.:?se consigue disponer de una etapa de aprendizaje para los usuarios del sistema que permita una paulatina adaptación y aceptación de los resultados "" modelo.
Características de los problemas de optimización
5. 2
239
Características de los problemas de optimización En la sección anterior se han comentado las fases por las que atraviesa la resolución completa de un problema de optimización. Las fases de análisis y construcción del modelo son las claves del éxito del proyecto. De hecho, es más frecuente el error en el enfoque del problema, que la obtención de una solución equivocada del problema correctamente planteado. Para que un problema pueda ser resuelto mediante un método de optimización es necesario plantearlo en un formato rígido que admita un tratamiento teórico y algorítmico adecuado. No todos los problemas reales son susceptibles de admitir dicho planteamiento. La razón hay que buscarla de nuevo en la figura 5 .l. Si no se puede, o no se sabe, simplificar un sistema real complejo hasta el punto de que pueda ser representado mediante un sistema simple que admita un modelo matemático de optimización, el problema debe resolverse por otros medios. En los párrafos siguientes vamos a pasar revista a una serie de características que presentan normalmente las situaciones reales y cuál puede ser su tratamiento para encajarlas dentro de los modelos de optimización.
5.2.1
Objetivo
Un problema real suele presentar de entrada múltiples objetivos, probablemente un tanto difusos y en conflicto entre sí. La frase tópica del comprador que desea algo "bueno, bonito y barato", el afán de mantener limpio de contaminación el medio ambiente sin estar dispuesto a prescindir de industrias contaminantes, el sueño de invertir en un activo sólido, de alta rentabilidad, bajo, o incluso nulo, riesgo y liquidez inmediata, son ejemplos claros de situaciones en que los objetivos no están bien definidos y compiten entre ellos. Un problema que pretenda alcanzar múltiples óptimos simultáneos es un problema mal planteado por una razón técnica: el orden natural en un espacio m-dimensional es un orden parcial, por lo que pueden existir alternativas no comparables. En años recientes se han desarrollado interesantes teorías de optimización multiobjetivo y optimización difusa. En última instancia la solución de un problema de este tipo pasa por la solución de uno o varios problemas monoobjetivo. La exigencia de una única función criterio es un requisito de las técnicas de solución de los métodos de optimización. La solución que se puede adoptar consiste en construir a partir de los múltiples objetivos una única función, que incluya una ponderación de cada uno de los objetivos individuales. Mediante coeficientes de ponderación se jerarquiza la importancia relativa que cada objetivo parcial tiene para el decisor y se construye una función-índice que incluye todos los objetivos. Esta es la idea empleada usualmente cuando los objetivos incluyen aspectos relativos al "bienestar social" de difícil cuantificación. La prensa publica periódicamente 1
240
UNIDAD DIDÁCTICA 5 Modelos de optimización
"índices de satisfacción" del país, obtenidos mediante encuestas, en las que se recoge la opinión de los ciudadanos sobre diferentes factores que se refieren a su calidad de vida, movimiento económico, etc. El aspecto negativo que presenta recurrir a un índice como función objetivo es que, con frecuencia, tales números índices representan una cantidad medida en una escala meramente ordinal, o incluso nominal, por lo que las comparaciones entre los valores pueden no ser útiles para el problema. Otra manera de reconciliar en un único criterio múltiples objetivos es la optimización por metas. La idea consiste en fijar unos niveles mínimos aceptables para todos los objetivos menos uno, y optimizar éste, sometido a la condición de que se alcanzan los mínimos exigidos en los demás. Por ejemplo, cuando el objetivo de un ciudadano es "comprarse la vivienda más grande, en el centro de la ciudad al menor precio posible", el método de solución que suele emplear consiste en fijar unos niveles mínimos, digamos, en metros cuadrados de superficie y distancia al centro, y buscar la solución de menor costo. En definitiva, para aplicar los métodos de optimización es necesario en alguna fase, disponer de una única función objetivo, que mida la utilidad del decisor. Una medida normalmente aceptada es el dinero, que cuesta, o produce, cada una de las alternativas. En el primer caso se tratará de buscar la alternativa de menor coste y nos enfrentaremos con un problema de minimización, y en el segundo caso se tratará de buscar la alternativa de mayor beneficio y nos enfrentaremos con un problema de maximización.
5.2.2 Variables Las variables de un problema de optimización son una representación numérica de cada una de las alternativas del modelo. La elección de un determinado conjunto de variables define un aspecto clave del modelo. Por ejemplo, si se desea planificar la mejor política de inversión de un capital en un plazo determinado, las variables del problema pueden representar las cantidades invertidas en cada activo financiero durante cada período de tiempo, los impuestos, las comisiones de los intermediarios, etc. Unas variables son controlables por el decisor el cual, dentro de las limitaciones del modelo, puede fijar libremente sus niveles; tal es el caso, en el ejemplo anterior, de las cantidades invertidas en cada opción del mercado. Otras en cambio son incontrolables por el decisor, lo cual no quiere decir que otros no las puedan controlar; en el problema de inversión, sería el caso de los impuestos y comisiones de los intermediarios. En un modelo también pueden influir variables que nadie controla, como pueden ser las situaciones accidentales que impidan una determinada inversión. El número de variables a considerar es una cuestión fundamental en la viabilidad del modelo. La dimensionalidad del problema, que no supone una mayor complicación teórica, puede condicionar fuertemente la resolución numérica del mismo. Teóricamente, es incluso posible pensar en un problema con
- - - - - - - - - - - - - - - -- - -- -- - -
Características de los problemas de optimización
241
infinitas variables. Por ejemplo, el número de variables del problema de inversión óptima depende de que se pretenda iniciar o madurar una inversión cada año, mes o día. Incluso, en un mercado continuo, cabe la posibilidad teórica de considerar posible la actualización de la cartera en cada instante infinitesimal de tiempo. Habría asi que considerar un problema con infinitas variables o, matemáticamente hablando, una función que dé el nivel de inversión en un determinado activo a lo largo del tiempo. Se puede, pues, plantear un problema de optimización infinita cuya solución pertenece a un espacio de dimensión infinita, es decir, a un espacio de funciones. No obstante, la resolución numérica del problema pasaría por una discretización del dominio en que están definidas dichas funciones convirtiendo en finita, aunque posiblemente muy grande, la dimensión del problema. Alguna variables pueden tomar exclusivamente valores enteros. Se habla así de un problema de optimización entera. Ello puede ser debido a que la variable representa una cantidad que por su misma naturaleza es entera, tal como número de personas, o bien a exigencias del diseño del modelo. Por ejemplo, cuando al resolver el problema de inversión óptima, tan sólo sea de interés el conocer si se ha de efectuar o no una determinada inversión, puede utilizarse una variable restringida a tomar únicamente el valor O, significando la no realización de la inversión o bien el valor 1, en cuyo caso se decide invertir. Junto con las variables hay que considerar las constantes del modelo, es decir, las cantidades que influyen en el modelo, pero que nadie puede modificar, por representar alguna condición natural, física o de definición inamovible. En el cálculo de la inversión media entre dos activos A y B, hay que computar (A+B)/2. El denominador 2, derivado de la definición de media aritmética, es una constante del modelo. Finalmente en la especificación del modelo intervienen los parámetros. Los parámetros son cantidades que el decisor fija libremente en un determinado valor, al considerar una aplicación concreta del modelo. Por ejemplo, al determinar la mejor política de inversión, el decisor puede incluir en el modelo la condición de que el porcentaje invertido en valores de renta fija deba ser como mínimo el a % del total. Este número a es un parámetro del modelo. En una realización concreta del modelo, el decisor debe dar un valor numérico, digamos a = 70, para obtener la solución. Es importante distinguir en un modelo de optimización las variables de los parámetros. Mientras que, antes de resolver el problema, hay que decidir en qué valores se fijan los parámetros, los valores de las variables se obtienen como producto de la solución. Qué cantidades se deben considerar variables y cuáles parámetros es una decisión subjetiva que atañe al diseño del modelo y depende de la utilización del mismo. Otro tanto puede decirse de los valores concretos en que se deben fijar los parámetros antes de resolver el problema. En este sentido, hay que volver a insistir en que, una vez obtenida la solución del problema, es indispensable realizar un análisis de sensibilidad para obser-
242
UNIDAD DIDÁCTICA 5 Modelos de optimización
var el impacto en la solución de posibles cambios en los parámetros.
5.2.3
Restricciones
La tarea más delicada en la fase de construcción del modelo es la determinación de las restricciones. Las restricciones son las condiciones que describen el comportamiento del modelo. Matemáticamente consisten en ecuaciones e inecuaciones que relacionan las variables, las constantes y los parámetros del modelo. Las condiciones pueden ser de varios tipos. RES T RICCI ONES DE D EFIN ICIÓN
; 5.4 , Son las condiciones que describen identidades físicas o simple-
mente obedecen a convenios de notación. EJE MPLO 5.8
Un ejemplo de este tipo de restricciones sería:
Precio venta - Precio compra +Dividendos Rentabilidad = - - - - - - - - - - = - - - - - - Precio compra
• RES TRI CCIO N ES EMP ÍRI CAS
L 5.5 ~ Son las condiciones que describen relaciones causa-efecto entre las variables, constantes y parámetros. Estas restricciones están basadas en los datos históricos, el análisis técnico, la evidencia experimental, la normativa legal, etc. EJEMP LO 5.9
La relación que liga el impuesto con los beneficio s puede ser del tipo
siguiente:
Impuesto
O 0.25 Beneficio { 0.50 Beneficio
si Benefi cio :::; 1.000.000 si 1.000.000 < Beneficio :::; 10.000.000 si Beneficio > 10.000.000
• RESTRICCIONES NORMATIVAS
3:6.,
Son las condiciones que describen cuál deberá ser el comportamiento del sistem a en el f uturo. Obedecen a las exigencias del decisor sobre requisitos mínimos, inversiones m áxim as, etc.
EJE M PLO 5.10 Una condición del modelo de inversión óptima puede expresar que la inversión total combinada en valores de renta variable no debe superar un determinado porcentaje de la inversión total.
In versión A+ In versión B + In versión C:::; 0.30 x In versión Total
•
En la determinación de la restricciones del modelo, han de tenerse presentes una serie de observaciones.
- - - ----- - -- - - - -- - -- -
Características de los problemas de optimización
243
En primer lugar, la elección de la función que liga las variables puede no ser evidente. Desde luego, no hay ningún test matemático que informe acerca de la existencia de una relación causa-efecto entre las cantidades involucradas en el modelo; descubrir estas relaciones puede ser una tarea ardua. No obstante, la estadística proporciona diversos métodos para constrastar, con un cierto nivel de confianza, si la relación observada entre dos o más variables obedece o no a una determinada forma funcional postulada por el observador, supuesto, claro está, que se disponga de datos históricos a los cuales aplicárselos. En segundo lugar, las relaciones derivadas de los datos históricos pueden no ser una descripción adecuada de las relaciones presentes o futuras. Es más, puesto que estas relaciones reflejan el comportamiento del sistema bajo una situación de funcionamiento que no se considera óptima, las consecuencias extraídas de ellas pueden ser completamente inadecuadas en el óptimo. La petición de principio que implica esta paradoja, denominada ''paradoja de los datos" en la optimización de sistemas, ha sido y es motivo de discusiones ideológicas acerca de la validez de la metodología de la optimización para la solución de problemas reales. Sin entrar en el fondo de la polémica podemos apuntar que esta paradoja aparece en todas las ciencias en las que el investigador vive dentro del objeto de la investigación, tal como ocurre, por ejemplo, en la mayor parte de las ciencias sociales: economía, sociología, psicología, etc. En tercer lugar, y de manera obvia, las relaciones utilizadas han de ser computables, esto es, dados unos valores de las variables, un computador debe ser capaz de calcular el valor de la solución en un tiempo finito. No sólo esto, sino que además es deseable que las funciones posean ciertas propiedades técnicas, tales como la continuidad, diferenciabilidad, convexidad, que faciliten la resolución numérica del problema. Un tipo de condiciones suelen estar presentes de manera natural en la mayor parte de los modelos: son las restricciones de acotación . RESTRICCIONES DE ACOTACIÓN
...------- ·-¡
[_ __?.2_..1 Se llaman restricciones de acotación aquellas que expresan que las variables sólo pueden tomar valores en un determinado intervalo, del tipo L S:xS:U.
La mayor parte de los procedimientos numéricos de búsqueda de solución explotan explícitamente la estructura de este tipo de restricciones para obtener una mayor eficacia computacional. EJEMPLO 5.11 En el ejemplo de la inversión óptima, es evidente que el nivel de cada inversión parcial esta acotado inferiormente por cero y superiormente por el capital disponible. Tal vez es necesario invertir mínimamente en un activo que se considera debe formar parte inexcusablemente de la cartera, o quizás, por motivos fiscales, en un determinado activo no sea posible superar un determinado nivel. •
En última instancia, cualquier problema real es un problema con variables acotadas superior e inferiomente por los valores que determinan el rango dinámico del computador en que se resuelve numéricamente.
244
UNIDAD DIDÁCTICA 5 Modelos de optimización
En algún tipo de problemas las relaciones pueden tener, por su propia naturaleza, un componente aleatorio. Por ejemplo, supongamos que A es la cantidad invertida en renta fija, con un rendimiento del 15% y B la cantidad invertida en renta variable, con un rendimiento aleatorio r. Si se quiere expresar la condición de que el rendimiento combinado debe superar una cantidad C, se puede considerar una relación del estilo siguiente 0.15A + rB 2: C. El modo usual de tratar un situación como ésta es sustituir la cantidad aleatoria r, por su valor esperado r, si se conoce o se puede calcular, y tratar a r como parámetro del modelo. Una práctica similar puede emplearse cuando la aleatoriedad está en el objetivo. Hay otras maneras de incluir elementos aleatorios en los modelos de optimización, sin embargo, las posibilidades de tratamiento numérico de los problemas de optimización estocástica son actualmente bastante limitadas.
5.2.4 Datos En el diseño de un modelo de optimización hay que tener presente la posibilidad de acceder a los datos necesarios. Es responsabilidad del diseñador del modelo determinar dónde y cómo pueden obtenerse los datos. En ocasiones la imposibilidad de disponer de algunos datos obliga a replantear el modelo. Por otra parte, tampoco tiene mucho sentido que la obtención de un dato determinado deba convertirse en un problema en si mismo. No hay que perder de vista, una vez más, la figura 5.1: el modelo tan sólo refleja una imagen simplificada del mundo real; por tanto, la incorporación o no de un determinado dato responde a una mayor o menor complejidad del modelo. Los modelos de optimización utilizan datos cuantitativos. Si algún aspecto del problema no es cuantificable los métodos de optimización no son adecuados para tratarlo. La precisión en la obtención de alguno de los datos puede ser una cuestión de importancia secundaria en una primera aproximación al problema. Recordemos que el análisis de sensibilidad de la solución óptima del modelo permite examinar el impacto en dicha solución de posibles fluctuaciones en las entradas.
5.2.5 Solución Muchos problemas de optimización que admiten incluso un planteamiento sencillo, no pueden resolverse de manera eficiente con los algoritmos de que se dispone actualmente. Las técnicas de optimización están todavía lejos de poder resolver en tiempo y forma adecuados cualquier problema de optimización. Esta circunstancia puede condicionar la elección del modelo. Por ejemplo, los problemas en los que se requiere que alguna o todas las variables tomen exclusivamente valores enteros, usualmente conducen a un número muy elevado de alternativas que no se pueden examinar en un plazo de tiempo razonable; si las
restricciones impuestas carecen de algunas propiedades de suavidad, - como las que antes hemos comentado: continuidad, diferenciabilidad, etc.-, entonces los algoritmos pueden fallar en la búsqueda del óptimo. El remedio pasa por simplificar el modelo y modificar los requisitos del mismo.
5.2.6
Optimización dinámica
Para finalizar esta sección debemos hacer una observación importante. El desarrollo de un proyecto de optimización tiene lugar en el tiempo. Este carácter temporal hace que los objetivos, variables, restricciones, etc. puedan variar dinámicamente: los objetivos a corto plazo pueden no coincidir o incluso ser diametralmente opuestos a los objetivos a largo plazo; las variables controlables pueden dejar de serlo con el paso del tiempo; las restricciones cambian con la adquisición de nuevos conocimientos, desarrollo de nuevas tecnologías o modificación de las condiciones ambientales; los datos, en definitiva, pueden dejar de ser representativos. La influencia del tiempo en el modelo puede tenerse en cuenta introduciendo variables y restricciones dependientes del tiempo. Ello conduce normalmente a problemas de grandes dimensiones, para los que se han ideado estrategias de solución específicas: la denominada optimización dinámica. Un problema de optimización dinámica se resuelve en etapas, a partir de las cuales se reconstruye la solución óptima global. El último escalón en la resolución del problema de cada etapa lleva a la aplicación de una técnica de optimización estática.
246
UNIDAD DIDÁCTICA 5 Modelos de optimización
5.3
Formulación de un problema de programación Una vez que se han discutido de un modo general los aspectos que han de tenerse presentes al abordar el estudio de un sistema utilizando la metodología de la optimización, vamos a ver a continuación cuál es la forma teórica del modelo matemático. Para ello, nos vamos a ayudar de un ejemplo que recoge un problema muy sencillo de inversión óptima.
5.3.1
Ejemplo: Un problema de inversión óptima
Supongamos que se dispone de un capital, digamos un millón de euros, para invertir en el mercado de la mejor manera posible. El primer paso que hay que dar es, obviamente, averiguar qué activos ofrece el mercado y cuáles son sus características respecto de aquello que puede interesar al inversor: rentabilidad, liquidez, riesgo, etc. Para fijar ideas y por simplicidad, vamos a suponer que nada más es posible la inversión en dos tipos de activos que llamaremos A y B. En este caso, parece claro que habremos resuelto el problema cuando sepamos qué cantidad del capital total ha de invertirse en A y qué cantidad en B. Veamos como se determinan cada uno de los ingredientes del problema.
Objetivo En una primera aproximación descriptiva, el inversor puede desear que su inversión sea lo "más rentable" posible, con el "menor riesgo" posible, de "gran liquidez". Es evidente que, en una situación real, todos estos objetivos no pueden alcanzarse simultánemente. Las inversiones de alta rentabilidad suelen ser las de mayor riesgo y/o plazos más largos. Por tanto una estrategia a la que se ve forzado el inversor, es la de fijar unos niveles satisfactorios en algunos de los posibles objetivos y tratar de buscar el óptimo exclusivamente en uno de ellos. Supongamos que el inversor comienza por decidir que el plazo de un año es un período conveniente. Asimismo, para compatibilizar rentabilidad y riesgo comienza por fijar un nivel mínimo de rentabilidad para su inversión y, una vez fijado , de entre todas las posibles inversiones que proporcionen ese nivel mínimo de rentabilidad, su inversión óptima será la de menor riesgo. Hay que plantearse a continuación qué se entiende en términos cuantitativos por rentabilidad y riesgo. Aunque se puede discutir grandemente sobre este tema, aquí vamos a interpretarlo de una manera simple. Una inversión individual, un bono, una acción, etc. , mantiene a lo largo de su historia una cotización. El nivel medio de esa cotización durante un período de tiempo adecuado, puede ser un número que indique su rentabilidad. Cuanto más alto sea el nivel medio de la cotización cabe esperar que mas atrayente será ese activo desde la óptica de la rentabilidad. Por su parte, una medida de la fluctuación de la cotización alrededor de ese nivel medio, puede ser un número que indique su riesgo. Cuanto mayor sea la oscilación de las cotizaciones alrededor
Formulación de un problema de programación
24'7
de su nivel medio puede sospecharse que el activo no es muy seguro desde la óptica del riesgo. Ahora bien, estamos considerando A y B como posibles inversiones. Ocurrirá sin duda que la evolución de sus cotizaciones no sea totalmente independiente. Posiblemente, si pertenecen al mismo sector, ambas subirán o bajarán en ocasiones similares. Si pertenecen a sectores diferentes, la tendencia al alza en una de ellas puede discurrir paralela a la tendencia a la baja en la otra. Este posibilidad, puede ser precisamente una de las razones para diversificar la inversión, cubriéndose del riesgo que supone "poner todos los huevos en la misma cesta". Será entonces necesario ponderar el riesgo con alguna medida de esta variación conjunta de las cotizaciones. La estadística matemática proporciona cantidades que reunen las cualidades que estamos proponiendo para describir la inversión: la media aritmética como medida de la rentabilidad, la varianza como medida del riesgo individual y la covarianza como medida del riesgo conjunto. Asimismo la estadística proporciona métodos para estimar o predecir la evolución de estas cantidades a partir de los datos observados en el pasado. A partir de ellas, mediante cálculos matemáticos sencillos, es posible obtener valores para la rentabilidad y el riesgo de una determinada combinación de activos. Estamos pues en condiciones de formular de manera precisa el problema del inversor:
Basándose en los datos estadísticos históricos, encontrar la inversión que, garantizando un determinado nivel rentabilidad medido en términos de la media, resulte ser la de menor riesgo, medido en términos de la varianza-covarianza. Variables Unas cantidades que son candidatas naturales a intervenir en el problema como variables son: x1
x2
Cantidad a invertir en A Cantidad a invertir en B
La solución del problema debe proporcionar valores óptimos para x 1 y x2.
Restricciones Las restricciones que tenemos que exigir al modelo son las siguientes: l. La cantidad total invertida no puede ser superior a la cantidad disponible. Esta cantidad es un parámetro del problema, que viene fijado en este caso en un millón de euros. 2. La rentabilidad media de la inversión ha de ser como mínimo un determinado nivel prefijado. Este nivel será otro de los parámetros del problema. Su valor se especificará una vez que se haya estimado los datos de la inversiones A y B.
248
UNIDAD DID ÁCTIC A 5 Modelos de optimización
3. Finalmente, en este ejemplo vamos a considerar que no se permite h una inversión a crédito en un activo, exigiendo las condiciones nat de que los valores de las inversiones que se hagan en A y B sean negativos.
Datos Los datos necesarios para el modelo que estamos construyendo se obtendr:i como ya se ha comentado recurriendo a los archivos históricos de las cotizaciones de A y B y utilizando las técnicas estadísticas para conocer, a partir ellas las cotizaciones medias de A y B y sus varianzas. Supongamos que, vez realizado este trabajo, los valores obtenidos son los de la tabla siguien "' en donde los datos vienen dados en porcentajes. Inversión
Rentabilidad (media)
10
Riesgo Individual (varianza) 2
Riesgo Conjunto (covarianza) -4
A B
25
10
-4
El modelo Estamos ya en condiciones de escribir formalmente el modelo matemáti del problema del inversor Variables: x1 x2
Cantidad a invertir en A Cantidad a invertir en B
Restricciones: 1) Inversión total :::; Capital disponible (en millones de euros)
x 1 +xz
<
1
2) Rentabilidad media de la inversión total 2: Rendimiento mínimo deseado.
Supongamos que este rendimiento nnrumo se fija en un 20 %. Si se invierten x 1 euros en A entonces se obtendrán 0.1Ox 1 de rentabilidad. Análogamente, si se invierten x 2 euros en B entonces se obtendrán 0.25xz de rentabilidad. La rentabilidad total será la suma de estas rentabilidades individuales, que tiene que ser superior al rendimiento mínimo. Por tanto la restricción se escribe: O.lüx¡
+ 0.25xz
> 0 .20
Formulación de un problema de programación
--
249
-- --- ----
-----
t L
.;'
.;'
---- ,.. ·" ----~- ...............·~-.;'
Figura 5.2: Un modelo de optimización para un problema de inversión
3) La inversión en un activo no puede ser negativa. Se tienen las condiciones:
> 0 > 0
X¡ X2
Objetivo:
Minimizar la variabilidad de la inversión. Dadas las varianzas individuales y la covarianza de A y B, la estadística nos permite calcular la varianza de la inversión conjunta x 1 + x2 que viene dada por la expresión: 0.02x¡ 2 + O.lOx2 2 + 2( -0.04 )x¡x2
Esta es la función que hay que minimizar. En resumen, el modelo matemático para el problema de la inversión óptima es:
sujeto a x¡ +x2 O.lOx¡
< 1
+ 0.2Sx2 > X¡ X2
0.20
> 0 > 0
La figura 5.2 representa gráficamente el problema. Como se tienen dos variables, es posible representar el problema en el plano (x¡,x2) .
250
UNIDAD DIDÁCTIC A 5 Modelos de optimización
Cada una de las desigualdades del problema determina un semiplano de -nido por la recta que se obtiene al escribir la condición de restricción en fo de igualdad; en particular las condiciones de no negatividad indican que la lución óptima ha de hallarse en el cuadrante no negativo del sistema cartesian La zona rayada corresponde al conjunto de puntos (x 1 ,x2) que forman una temativa compatible con las condiciones impuestas al problema. De entra ell hay que seleccionar la que haga más pequeña la función objetivo. En la figura 5.2 se representan algunas curvas de nivel de la función objetivo, es decir, las curvas del plano tales que 0.02x 12 + 0.10x2 2 - 0.08x¡x2 = donde k es una constante. Observando el gráfico se comprende que la soluci ~ del problema será el primer punto de la región factible que "toque" la cun de nivel cuya constante k sea lo menor posible. Dicho punto es, como puede apreciarse, el punto de intersección de las rectas,
O.lOx¡ + 0.25x2 +x2
X¡
es decir, el punto (
0.20 1
~, ~) . En la figura se representa la curva de nivel que
corresponde al valor óptimo
f = 0.029
Int erpreta ció n de la solución
La solución del problema, obtenida en este caso de forma gráfica, nos conduce a la siguiente política de inversión: "se deberá invertir 1/3 del millón de euros en el activo A y 2/3 en el activo B". El riesgo que conlleva esta decisión en términos de varianza es del2.9 %. Esto significa que, si las cosas se comportan como en el pasado, esta inversión proporcionará una rentabilidad media del 20 % como mínimo y será la de menor fluctuación de entre todas las posibles combinaciones que pudiésemos considerar con dicho nivel mínimo del 20 %. Ello no quiere decir que la inversión necesariamente garantice un rendimiento del 20 %. Esto desde luego, en una situación como ésta en que los activos que se consideran no son de renta fija, sino activos con riesgo, no puede garantizarse en ningún caso pues, en principio, la rentabilidad puede ser cualquiera. en más o en menos. Lo que asegura la solución del problema es que el riesgo que se corre en esta inversión es el menor posible de entre las inversiones que tienen un rendimiento medio del20 %. Obsérvese como la diversificación entre A y B presenta un riesgo que es notablemente inferior al riesgo de la inversión B, la de más alto riesgo, y al mismo tiempo presenta una rentabilidad media mucho mayor que la de la inversión A, la de menor rentabilidad. El análisis de la sensibilidad nos llevaría a estudiar qué ocurre si se cambian algunos de los datos del problema. Por ejemplo, podríamos hacemos preguntas del estilo siguiente: ¿qué ocurre si modificamos nuestras exigencias en la rentabilidad media de nuestra cartera, pasando del 20% a otro valor?; ¿seguiría siendo óptima la inversión actual?; ¿hasta que punto la solución óptima
____________________________________________:m.
Formulación de un problema de programación
251
se sigue obteniendo como el punto en que se intersecan las dos rectas de restricción?; ¿que pasaría si los datos estimados sobre la rentabilidad media y varianza de cada activo se modifican?; ¿podría ocurrir que el problema no tuviese ninguna solución?; ¿como afectaría a la decisión óptima si se permitiese laposibilidad de hacer inversiones negativas, es decir, si se pudiese "pedir dinero prestado" para invertir?; ¿qué impacto tendría en la solución óptima la consideración de un tercer activo financiero C con rentabilidad y riesgo dados?; ¿qué efectos produciría la inclusión de alguna nueva condición en el problema?; etc. etc. De responder todas estas cuestiones, sin necesidad de resolver el problema desde el principio, se ocupan las técnicas del análisis de sensibilidad en la optimización. De cara a la interpretación de la solución la importancia de la información proporcionada por la respuesta a este tipo de preguntas es, como puede comprenderse fácilmente, primordial. El sencillo ejemplo anterior nos ha ilustrado acerca de buena parte de las características de los problemas de optimización. El modelo considera de entrada objetivos múltiples, y razona sobre la manera de tratar este tipo de situación. Como se intuye, en una situación real el número de variables que podrían incluirse en el modelo es alto, siendo una complicación numérica importante. Se podrían imponer restricciones de integridad en algunas variables, por ejemplo, si de un determinado activo sólo fuese posible comprar bonos unitarios no divisibles. Otro tipo de restricciones a considerar podrían referirse a aspectos tales como liquidez o calidad de la inversión. La manera de obtener y manipular los datos es asimismo muy ilustrativa de la paradoja de los datos en la optimización de sistemas: ¿podría afirmarse que el comportamiento de los valores en el futuro va a seguir las pautas del pasado? A falta de una mejor información puede pensarse que sí, pero este no es - con frecuencia, y precisamente cuando la inversión en renta variable es más atractiva- el comportamiento del mercado de valores. En resumen, y como se ha venido señalando a lo largo de todo el capítulo, la utilidad del modelo reside en la capacidad del mismo para captar la situación real de una manera adecuada.
5.3.2
Planteamiento general del problema de optim izaci ón
Finalizamos este capítulo presentando el formato general de un modelo matemático de optimización. El problema de optimización matemática consiste en encontrar el óptimo máximo o mínimo- de una función numérica f den variables reales, y sometido al cumplimiento de un conjunto de restriccciones de igualdad y desgualdad, definidas por un conjunto de funciones numéricas de n variables reales. Formalmente: sean (x 1 ,x2 , ... ,xn) un vector de variables, perteneciente al · n- d"1menswna · liRn., sean J ·IRn espacio . ------+ IR 1, g¡.· IRn ------+ IR 1 , l· -- 1, . .. ,m , h1 : IRn------+ IR 1 j = 1, ... ,p funciones definidas en lR 1\ con valores reales. Entonces el problema de optimización matemática se puede formular de la manera siguiente:
252
UNIDAD DIDÁCTICA 5 Modelos de optimización
PROBLEMA DE OPT IMIZACIÓN
Optimizar
f(x¡,X2, .. . ,xn)
MATE M ÁTICA
sujeto a g¡(x¡ ,X2, .. . ,xn) hj(XJ,X2 , .. . ,x11 )
> O
o
i =l, ... ,m j=l , ... ,p
La función f se denomina función objetivo y las funciones g¡ , hJ restricciones de desigualdad e igualdad del problema La palabra optimización puede sustituirse indiferentemente por minimización o maximización, pues como veremos en el capítulo siguiente ambas formulaciones son equivalentes. Asimismo es posible convertir un problema con mezcla de restricciones de desigualdad e igualdad en un problema equivalente con restricciones de un único tipo. Cualquier vector (x 1 ,x2, . . . ,X11 ) que verifique todas las restdcciones del problemas se llama solución factible, o solución realizable; la solución -o soluciones- factible, si existe, que proporciona el óptimo de la función objetivo se llama solución óptima. Una terminología establecida desde los primeros tiempos de la optimización, denominaba a la solución óptima un programa de acción a poner en práctica; de ahí que la búsqueda de un tal programa de acción utilizando métodos matemáticos se llamase Programación Matemática. Este es el término mas común en la bibliografía para denominar a los métodos de optimización matemática. Según las características de las funciones del problema y de las variables se tienen diferentes tipos de problemas de programación matemática. Así por ejemplo, si todas las funciones del problema, objetivo y restricciones, son funciones lineales, es decir, su gráfica es una recta, entonces se tiene un problema de programación lineal. Este problema será objeto de estudio detallado en los capítulos siguientes. Si la función del objetivo es una función cuadrática y las restricciones lineales, como en el ejemplo de inversión óptima estudiado en esta sección, se habla de un problema de programación cuadrática. Si alguna o todas las funciones del problema son no lineales, es decir su gráfica es una curva, se tiene un problema de programación no lineal, etc. Si se añade la condición de integridad de alguna variable, es decir, se exige que algunas variables sólo puedan tomar valores enteros, se tienen problemas de programación entera - lineal, no lineal, etc.- Si en el planteamiento del problema entran consideraciones de probabilidad el problema es de programación estocástica; si se incluye el tiempo en la formulación del problema, se trata de un problema de programación dinámica . Como se puede ver hay muchos modelos de optimización. En los apartados siguientes estudiaremos los más importantes.
El modelo general de programación lineal
5.4
253
El modelo general de programación linea l El estudio que haremos de la programación lineal se va a basar en el análisis de un caso simple que permitirá ilustrar los elementos del modelo.
5.4.1
Un ejemplo introductorio: El caso de la compañía Tropicalia S.A.
La compañía Tropicalia S.A. es una empresa dedicada a la producción de bebidas refrescantes. Vende dos tipos de refresco, conocidos con los nombres comerciales de Fórmula clásica (FC) y Fórmula ligera (FL). Además de agua, para producir los refrescos emplea dos tipos de materias primas: concentrado de fruta y edulcorante. Un litro de FC se obtiene mezclando en un litro de agua 10 gramos de concentrado de fruta y 10 gramos de edulcorante; a su vez, un litro de FL se obtiene mezclando en un litro de agua 20 gramos de concentrado de fruta y 5 gramos de edulcorante. En la práctica se puede disponer de agua sin limitación; en cambio, sólo se dispone diariamente de 8 kilogramos de concentrado de fruta y 5 kilogramos de edulcorante. Cada litro de FC produce a la compañía una ganancia de 3 euros, mientras que cada litro de FL produce una ganancia de 2 euros. El análisis del sistema formado por Tropicalia S.A. pretende averiguar de qué manera tiene que operar la compañía para obtener el mayor beneficio posible. El modelo matemático de optimización para Tropicalia S.A.
La clave para construir un modelo matemático de optimización que represente el sistema formado por Tropicalia S.A. consiste en identificar, en primer lugar, las variables que signifiquen las diferentes decisiones que puede tomar la compañía y, posteriormente, expresar las restricciones y la función objetivo como funciones de dichas variables. Para comenzar, es útil hacer una descripción verbal del problema: la compañía pretende determinar qué cantidad, en litros, de FC y FL debe producir diariamente, de forma que sus ganancias, en euros, sean máximas, al tiempo que se satisfacen todas las restricciones referentes a materias primas. Los elementos del modelo son los siguientes: • Variables . Puesto que deseamos saber cuántos litros de FC y FL hay que producir diariamente podemos poner: • xc = litros de FC que hay que producir diariamente. • XL
=litros de FL que hay que producir diariamente.
• Restricciones. • Materias primas. La restricción en el uso de las materias primas puede expresarse de un modo general de la forma siguiente:
254
UNIDAD DIDÁCTICA 5 Modelos de optimización
Consumo de materia prima ) < ( Cantidad máxima disponible ( por ambos tipos de refresco de materia prima
Aplicado a cada una de las materias primas tenemos : o Concentrado de fruta: Según los datos del problema, cada li de FC consume 10 gramos de concentrado de fruta y cada litro de FL consume 20 gramos. Si se fabrican xc litros de FC ~ XL litros de FL el consumo conjunto de concentrado de fru es (10 x xc + 20 x xL ) gramos. Esta cantidad tiene que ser menor o igual que la cantidad de concentrado de fruta de que se dispone, 8000 gramos, es decir, tenemos que exigir a xc ~ XL que cumplan la condición 1O x xc + 20 x XL :S 8000. Por las propiedades de las desigualdades, podemos dividir por 1 los dos miembros de la desigualdad sin que varíe, obteniendo la restricción de desigualdad: xc + 2xL :S 800 .
o Edulcorante: Según los datos del problema, cada litro de FC consume 1O gramos de edulcorante y cada litro de FL consume 5 gramos. Si se fabrican xc litros de FC y XL litros de FL el consumo conjunto de edulcorante es ( 10 x xc + 5 x xL) gramos. Esta cantidad tiene que ser menor o igual que la cantidad de edulcorante de que se dispone, 10000 gramos, es decir, tenemos que exigir a xc y XL que cumplan la condición 10 x xc + 5 x XL :S 5000. De modo similar a como hicimos en el caso anterior, podemos dividir por 5 los dos miembros de la desigualdad sin que varíe, obteniendo la restricción de desigualdad: 2xc +xL :S 1000. • No negatividad. Además de las restricciones derivadas del uso de las materias primas, es necesario imponer una restricción adicional a cada variable. Está implícito en el modelo que no es posible producir una cantidad negativa de litros de refresco. Para evitar obtener valores negativos para las variables , tendremos que exigir que tomen únicamente valores no negativos. Esto se consigue introduciendo las dos restricciones siguientes: xc XL
> o > 0
• Función objetivo. Buscamos ahora la expresión matemática del beneficio de la empresa. Puesto que cada litro de FC deja una ganancia de 3
El modelo general de programación lineal
255
Figura 5.3: Representación de la restricción xc + 2xL S 800.
euros, producir xc litros deja un beneficio de 3xc euros. Similarmente, el beneficio que deja la producción de XL litros de FL es 2xL . El beneficio total de la empresa, que podemos designar con la variable z, es igual a: z
= 3xc+2xL
El problema de Tropicalia S.A. consiste en encontrar los valores de xc y XL que cumplan todas las restricciones y hagan máxima la función z, es decir, el modelo matemático de optimización para Tropicalia S.A. se resume en el siguiente problema: Encontrar xc y XL para Maximizar z = 3xc + 2xL sujeto a xc 2xc
+ +
2xL XL
xc XL
< 800 < 1000 > O > 0
Solución gráfica del modelo de la com pañía Tropicalia S.A.
El conjunto de restricciones del modelo de la compañía Tropicalia S.A. admite una sencilla representación gráfica. Puesto que se trata de encontrar los valores de dos variables xc ,XL, utilizamos un sistema de referencia cartesiano: el eje de abscisas representa la variable xc y el eje de ordenadas representa la variable XL, como puede verse en la figura 5.3. Cada punto (xc,xL) de este plano cartesiano se interpreta como una posible solución del problema. Ahora bien, las restricciones del problema limitan los posibles valores que pueden tomar las variables. Consideremos la primera restricción xc + 2xL ::; 800. Si escribimos esta condición en forma de igualdad, xc + 2xL = 800, obtenemos una ecuación lineal en dos variables. La ecuación anterior representa una recta
256
UNIDAD DIDÁCTICA 5 Modelos de optimización
Figura 5.4: Representación de la restricción 2xc +XL
::;
1000.
en el plano (xc,xL) . Si dibujamos esta recta, el plano queda dividido en dos semiplanos: uno formado por los puntos que quedan a la izquierda y abajo de recta, y otro formado por los puntos que quedan a la derecha y arriba de la recta. La traducción algebraica de esta idea geométrica es la siguiente: los puntos de uno de los semiplanos son aquellos que con sus coordenadas (xc,xL) cumplen la condición xc + 2xL ::; 800, y los puntos del otro semi plano son aquello: que cumplen la condición xc + 2xL 2': 800. Como puede notarse, los punto_ de la recta, que verifican xc + 2xL = 800, se consideran incluidos en los do semiplanos. De hecho, el conjunto de puntos de la recta se obtiene como la intersección de los dos semiplanos. Entonces el significado geométrico de la restricción de desigualdad, xc + 2xL ::; 800, es limitar el conjunto de posible soluciones del problema a uno de los dos semiplanos. Nos queda por saber a cuál de los dos semiplanos corresponde realmente la restricción. Esta cuestión se resuelve fácilmente sin más que elegir un punto cualquiera que esté en uno de los semiplanos y comprobar cuál de las dos desigualdades ::; ó 2': se verifica. En este caso podemos tomar, por ejemplo, el punto (0,0) y observamos que cumple (O+ 2 · O) = O::; 800; de aquí, deducimos que el semi plano que corresponde a la restricción xc + 2xL ::; 800 es aquél que contiene al punto (0,0). o sea, el semiplano a la izquierda y abajo de la recta. Consideremos ahora la restricción 2xc + XL ::; 1000. Razonando de modo similar a como hicimos en el caso anterior encontramos que su representación gráfica es la de la figura 5.4. En efecto, la recta 2xc +XL = 1000 divide al plano (xc,xL) en dos semiplanos. El semiplano que corresponde a la restricción 2xc +XL ::; 1000 es el que queda a la izquierda de la recta, ya que si tomamos el punto (0,0), observaremos que (2 ·O+ O) =O::; 1000. Las condiciones de no negatividad exigen que las variables tomen valores sólo en el primer cuadrante. Como se ve en la figura 5.5, la recta xc =O es el eje de ordenadas. Esta recta divide al plano en dos semi planos: el formado por los punto situados a la derecha de dicho eje y los situados a la izquierda. La condición xc 2': O, o sea los puntos con valores de abscisa no negativos, corresponde a los puntos situados a la derecha del eje ordenadas. De modo análogo, la recta
El modelo general de programación lineal
257
Figura 5.5: Representación de las restricciones xc 2: O y XL :s; O.
= O es el eje de abscisas. Esta recta también divide al plano en dos semiplanos: el formado por los puntos situados por encima de la recta y el formado por los puntos situados por debajo de la recta. La condición XL 2:: O, o sea los puntos con valores de ordenada no negativos, corresponde a los puntos situados por encima del eje de abscisas. En resumen, las dos condiciones xc 2:: O y XL 2:: O, restringen los posibles valores de las variables a los puntos situados en el primer cuadrante. Finalmente, el conjunto de los puntos (xc,xL) que verifican todas las restricciones es el conjunto que se obtiene como intersección de todos los semiplanos definidos por las restricciones. Este conjunto está representado en la figura 5.6 y muestra todas las posibles alternativas que puede elegir la compañía Tropicalia S.A..
XL
Consideramos ahora la función objetivo. Esta función es z = 3xc + 2xL y representa el beneficio de la compañía cuando se producen xc litros de FC y XL litros de FL. Para resolver el problema de programación lineal hay que encontrar un par de valores .Xc,.XL que, verificando todas las restricciones, proporcionen el valor máximo de z. Veamos como un sencillo razonamiento gráfico conduce a la solución buscada. Supongamos que no se produce nada, es decir, xc = O y XL = O. Entonces el beneficio es z = 3 · O+ 2 · O = O. Consideremos todos los puntos (xc,xL) en los que z toma valor O; estos puntos cumplen la ecuación 3xc + 2xL = O que es la ecuación de la recta que pasa por el origen y tiene pendiente igual a - 3/2. Esta recta viene representada en la figura 5. 7 como la recta z = O. Supongamos ahora que se decidiese producir xc = 200 litros de FC y XL = 100 litros de FL. Esta solución verifica todas las restricciones: ambos valores son no negativos y se cumple (200 + 2 · 100) = 400 ::; 800 y ( 2 · 200 + 100) = 500 ::; 1000. El beneficio que supondría esta solución sería z = 3 · 200 + 2 · 100 = 800 euros. Todos los puntos en los que z alcanza un valor igual a 800 son los puntos que verifican la ecuación 3xc + 2xL = 800, que es la ecuación de la recta que pasa por el punto (200,100) y tiene pendiente igual 2_3 . Esta recta viene representada en la figura 5.7 como la recta z = 800. Podemos preguntamos si la solución xc = 200, XL= 100 es lo mejor que puede hacer la compañía. Examinando la figura 5.7 caemos en la cuenta que la res-
258
UNIDAD DIDÁCTICA 5 Modelos de optimización
Restricciones
+ +
1000 (
r ~
800
2XL
::;
XL
< 1000
.900 - 800
;: . -º >
0'
-700 600 500 - 400
xc+2xr =800 r 1 1 1 1 1 1
o
100 200 3oo 400
·soo
6oo 7oo 8oo 9oo 1ooo,_ xc
Figura 5.6: Conjunto de las posibles soluciones del modelo de Tropicalia S.A.
puesta a la pregunta anterior es negativa. En efecto, el punto (200,100) está en el interior del conjunto de soluciones. Entonces, si efectuamos un incremento "suficientemente pequeño" de cualquiera de las dos coordenadas, o incluso de ambas coordenadas, seguimos dentro del conjunto de soluciones. Por ejemplo. si aumentamos en 1 unidad cada coordenada, obtenemos el punto (201,101) que sigue cumpliendo las restricciones. En este punto la función objetivo vale z = 3 · 201 + 2 · 101 = 805 que es mayor que el valor que toma z en el punto (200,100). De esta forma se comprende que el máximo de la función z no puede alcanzarse en un punto del interior del conjunto de soluciones; antes bien, dicho máximo ha de alcanzarse en un punto de la frontera, es decir, en un punto situado sobre alguna, o algunas, de las rectas que definen las restricciones. Para averiguar en qué punto se alcanza el máximo buscado consideramos la ecuación z = 3xc + 2xL. Para cada valor de z, esta ecuación representa una recta de pendiente
(O,~) .
Al variar
~./ que corta a los ejes coordenados en los puntos (~,O) y
z se obtiene una familia de rectas paralelas, todas con igual
pendiente. Como se observa en la figura 5. 7 dicha familia de rectas es tal que, a medida que nos desplazamos hacia arriba y hacia la derecha, en el sentido de la flecha que se muestra en la figura, el valor que va tomando z aumenta. Dicha flecha marca la dirección y sentido que resultan al recorrer sobre el eje hori-
El modelo general de programación lineal
259
X¿
Füñcíón objetivo , Maximizar-z = 3xc +.2xZ":
Solución óptima
xc·
= 4oo -
XL z~
=
200 1600
··.200 ~ ~
1 f ¡
-·
lÓQ (-~
o ..... •···
z =O
z =::.800
..
z =::.1.@0 .
Figura 5.7: Solución del modelo de Tropicalia S.A.
zontal una distancia proporcional al coeficiente de xc en la función objetivo, en este caso 3, y luego recorrer sobre el eje vertical una distancia proporcional al coeficiente de XL en la función objetivo, en este caso 2. De esta forma es posible encontrar, gráficamente, la solución óptima del problema de programación lineal: para ello hay que desplazar paralelamente a sí misma la recta que representa un valor cualquiera de la función objetivo, en el sentido de la flecha descrita anteriormente, en tanto sea posible hacerlo sin salir del conjunto de soluciones. En la figura 5.7 se observa que este desplazamiento puede realizarse hasta alcanzar el punto B. Este punto es la solución óptima del problema. Como puede apreciarse, el punto se obtiene como intersección de dos rectas de restricción y tiene como coordenadas (400,200). El valor que alcanza en dicho punto la función objetivo es z = 3 · 400 + 2 · 200 = 1600. Además, podemos observar que dicho punto es la única solución óptima del problema, es decir, la región óptima está formada, en este caso, únicamente por el punto (400,200) . Con esto podemos dar por resuelto el problema de la compañía Tropicalia S.L.: la mejor decisión que puede tomar es fabricar .Xc = 400 litros diarios de FC y .X¿ = 200 litros diarios de FL. Este programa de producción le produce un beneficio de z = 1600 euros diarios.
260
UNIDAD DIDÁCTICA 5 Modelos de optimización
5.4.2
Forma general del problema de programación lineal
Introduciremos en este apartado la terminología y notaciones del model de programación lineal. El problema general de programación lineal consiste en encontrar el óptimc - máximo o mínimo - de una función lineal de n variables sometida a conjunto de restricciones lineales. Dichas restricciones pueden tener la forro.: de desigualdades, igualdades o incluso ser de ambos tipos. Asimismo, no pierde generalidad al suponer que el sentido de las desigualdades es el mism en todas las restricciones de este tipo, pues basta multiplicar por -1 en case necesanoPor otra parte, el modelo debería llamarse más precisamente "programaci ' lineal continua", puesto que supone que las variables pueden tomar cualquie: valor real, excluyendo aquellas situaciones en que las variables pueden toma: únicamente valores enteros, si bien es usual referirse al caso continuo simplemente como programación lineal. El modelo puede formalizarse de la manera siguiente: FORMA GENERAL DEL PROBLEMA
DE PROGRAMACIÓN
Maximizm· (o Minimizar) sujeto a
+ +
LINEAL (PPL)
ap + l,lXt
+ +
am¡X¡
+
ap 1x 1
a12x2 a22x2
= c¡x ¡ + c2x2 + ···+ C
z
+ +
ap+ 1.2x2
+ +
am2X2
+
apzxz
11 X 11
o
o
o
+ +
ap+l,nXn
+
amnXn
apnXn
X¡,X2, .. . ,Xq Xq + 1,Xq+2, ... ,X11
<
hp h p+l
bm
>
o
cualesquiera
En el modelo se tiene: • x 1 , x2 , ... , X11 son las variables de decisión (o niveles de actividad), que deben determinarse. • Los coeficientes a¡1, i = 1, ... , m; j = 1, ... , n se llaman coeficientes tecnológicos y forman uno de los conjuntos de datos de entrada del problema, es decir, son números reales conocidos. • La desigualdad (o igualdad)
se llama i- sima restricción.
El modelo general de programación lineal
261
• Las restricciones x 1 ;:: O se llaman restricciones de no negatividad. • z = C¡X¡ + c2x2 + ··· + C11X11 es la función objetivo (o función criterio) que debe optimizarse, es decir, maximizarse o minimizarse.
• Los coeficientes e¡ , c2, ... , c 11 se les suele llamar coeficientes de beneficio (o costo) y forman uno de los conjuntos de datos de entrada del problema, es decir, se suponen conocidos y son números reales. • El vector del lado derecho b se llama vector de disponibilidades (requerimientos) o término independiente y es uno de los conjuntos de datos de entrada del problema. Formulaciones equivalentes
La formulación anterior representa la formulación más general para el PPL. Sin embargo, a veces es conveniente utilizar otros formatos que presentan características útiles en diferentes contextos. Dichos formatos alternativos no van a suponer pérdida de generalidad en el modelo puesto que, como vamos a comprobar a continuación, es sencillo pasar de uno a otro sin más que realizar determinadas operaciones como las que se presentan a continuación. Maximización y minimización
Teniendo en cuenta que la relación
n
Máximo
L,cixJ = -
Mínimo
es siempre verdadera, es posible cambiar un problema de minimización en uno de maximización y recíprocamente. Por tanto, en los desarrollos teóricos no se pierde generalidad al suponer que el PPL es un problema de maximización. Para trabajar con un problema de minimización basta cambiar de signo los coeficientes de beneficio y resolver el problema de maximización resultante. El mínimo buscado será el opuesto del máximo obtenido. No negatividad de las variables En la mayoría de los problemas reales las variables x1 representan cantidades físicas y, por tanto, deben ser no negativas de forma natural. De ahí que sea usual presentar explícitamente este tipo de restricciones en el formato. Si una variable x1 no está condicionada a ser no negativa, puede siempre reemplazarse por dos variables no negativas definidas de la manera siguiente: x+ x
máx máx
{O,x}
{0, -x}
262
UNIDAD DIDÁCTICA 5 Modelos de optimización
o de forma equivalente,
x si x ~O { 0 six O
X
de forma que, x+ X
> O > 0
y
Por tanto, no se pierde generalidad si se supone que todas las variables son n negativas. Cambio de ecuación a inecuación
Una ecuación de la forma
puede reemplazarse por dos inecuaciones de la forma a¡¡ X¡+ a¡zxz + · · · + a¡11 Xn
<
b¡
a¡¡ X¡+ a¡zXz + · · · + a¡11 Xn
>
b¡
a¡¡ X¡+ a¡zXz + · · · + a¡11 Xn
<
b¡
-a¡¡X¡ - a¡zxz- · · · - a¡11 x 11
<
-b¡
o equivalentemente
Por tanto el problema sigue siendo completamente general si en su formulación aparecen únicamente restricciones de desigualdad de tipo "menor o igual". Cambio de inecuación a ecuación
Una inecuación de la forma
G¡¡X¡ + Gi2X2 + · · · + G¡11 X11
<
b¡
puede convertirse en una ecuación a costa de añadir una nueva variable Xn+ 1 restringida a ser no negativa. a¡¡X¡ +a¡zXz + · · · +a¡ 11X11 +xn+ l xn+ l ~O
= b¡
El modelo general de programación lineal
263
La variable así introducida se llama variable de holgura o variable de separación. Análogamente,
es equivalente a
Xn+ !
2: O
Por tanto, el modelo sigue siendo completamente general si consideramos que el problema tiene restricciones de igualdad sólamente. Las consideraciones anteriores permiten presentar el problema en distintos formatos equivalentes, además de la forma general descrita anteriormente. FORMA CANÓNICA DEL PROBLEMA
~·--
-
5.10 -
Maximizar sujeto a
DE PROGRAMACIÓN LINEAL
Z
a 21x 1
+ +
a m¡X ¡
+
a ux1
= C¡X ¡
+ C2X2 + ···+ CnXn
a 22x2
+ +
.. . ...
+ +
az11 X11
am2X2
+
.. .
+
GnmXn
a¡ zxz
a ¡nXn
X j, Xz , . . . ,Xn
FORMA STANDARD DEL PROBLEMA DE PROGRAMACIÓN
< < < > -
b¡ bz
bm
o
' 5.11 c.______
Maximizar sujeto a
LINEAL
Z
az ¡X¡
+ +
a 111 ¡X¡
+
a 11 x 1
= C¡X ¡
+ CzXz + ···+ CnXn
a zzXz
+ +
... ...
+ +
a zn Xn
--
a m2X2
+
...
+ GnmXn
--
bm
> -
o
a12X2
a 1ux11
X ¡ , Xz, .. . , X11
b¡ hz
Los formatos anteriores se pueden presentar de forma más compacta introduciendo la notación matricial. Denotamos (
a¡z
a ¡n
a¡¡ az¡
a22
azn
am!
amz
a mn
A
e
( c ¡ , cz , . .. ,en)
)
264
UNIDAD DIDÁCTICA 5 Modelos de optimización
b
X
El problema puede formularse entonces mediante uno de los formatos siguientes : FORMA CANÓNICA :
-
----
5.12 ---- -
Maximizar z =ex
NOTACIÓN MATRICIAL
sujeto a Ax < b -
> -
X
FORMA STANDARD:
-
----
-
5.13··--
o
Maximizar z= ex
NOTACIÓN MATRICIAL
sujeto a Ax X
--
b
> -
o
Hay que hacer notar que en las formulaciones anteriores se ha abusado de la notación utilizando la mismas letras para la matriz A y los vectores b, e y x en las formas canónica y standard. Es claro que cuando un mismo problema se formula bajo los dos formatos se obtienen, en general, matrices y vectores diferentes. Siguiendo las consideraciones anteriores es fácil deducir, dado un formato, cuáles son la matriz y vectores correspondientes a dicho formato. EJEMPLO 5.12
Consideremos el siguiente problema de programación lineal Minimizar
z = 3x 1 - 3x2 + 7x3
sujeto a
+x2 + 3x3 + 9x2 - 7X3 5x 1 + 3x2
X¡ X¡
< 40 > 50 20
o o
X2
> >
XJ
cualquiera
X¡
Para obtener la fo rma canónica del problema hay que poner todas las restricciones en forma de desigualdad mientras que las variables tienen que ser no negativas. Para mantener el formato que hemos visto convertimos también el problema de minimizar en uno de maximizar. Llamamos:
xj x3
máx máx
{O,x3} {0, -x3}
El modelo general de programación lineal
265
de forma que
Si aplicamos las trasformaciones estudiadas la forma canónica del problema es: - z = -3x¡ + 3xz -74 + 7xj
Maximizar sujeto a
X¡ +xz + 3xj - 3xj - x 1 - 9x2 + 74 - 7xj 5x¡ + 3xz - 5x ¡ - 3x2 X¡ xz xj xj
< < < < > > > >
40 -50 20 -20
o o o o
En forma matricial tenemos:
Mffi
Ut)
z = (- 3,3, -7, 7)
sujeto a 1 1 3 - 1 -9 7 - 7 5 3 o O - 5 -3 o O
(
-3)
C' ) ( 40) X2 xj xj
<
- 50 20 -20
un U) >
Para poner el problema en la forma standard únicamente es preciso añadir las variables de holgura en las correspondientes restricciones de desigualdad a fin de convertirlas en igualdades. Si llamamos s¡, s2, respectivamente, a las variables de holgura correspondientes a la primera y segunda restricción, el problema queda: Maximizar
- z = -3x 1 + 3xz -7xj + 7xj
sujeto a
X¡ + X2 + 3xj - 3xj +S¡ - x¡ - 9xz +7xj -7xj +s2 5x¡ +3x2 X¡ xz x+ 3
> > > > x3 S¡ > sz >
40 -50 20
o o o o o o
266
UNIDAD DIDÁCTIC A 5 Modelos de optimización
La forma matricial es ahora la siguiente:
Maximizar
- z= (-3,3,-7,7,0,0)
suj eto a
o o o o o o
X¡
xz x+ 3
>
x3 S¡
sz
5.4.3
Solución t eórica del probl ema de programación lineal
Estudiamos ahora los conceptos y resultados teóricos básicos que permiten resolver el PPL. En este apartado consideraremos que el problema tiene la forma standard; como se ha razonado anteriormente, esta forma es suficientemente general. Sea A una mattiz de números reales m x n, m :S n, bE IR 111 un m- vector de números reales y e E IR 11 un n- vector de números reales. Sea, a su vez, x un n-vector de variables. Denotemos con ct el vector traspuesto del vector c. Consideremos entonces el problema de programación lineal (PPL) en la forma standard: Maximizar
z = c1x
suj eto a Ax X
PROGRAMA
b
>
Ü
5}:!___ Se llama programa. o solución realizable, o solución factible del PPL a un conjunto de valores x que satisfacen todas las restricciones, incluidas las de no negatividad.
El modelo general de programación lineal
REGIÓN FACTIBLE
267
5.15 Se llama región factible al conjunto de soluciones factible s del PPL. EJEMPLO 5.13 Consideremos el problema de la página 255. Si llamamos s 1,s 2 a las variables de holgura la forma standard es: Maximizar z = 3xc
+ 2xL
sujeto a XC 2xc
+ +
2XL XL
+
S¡
+
S2
Xc , XL, S¡, S2
>
800 1000 0
• El punto (300,200, 100,200) es una solución factible puesto que verifica todas las restricciones. En efecto: • ( 300 + 2 · 200 + 100) = 800, luego verifica la primera restricción. • (2 · 300 + 200 + 200) = 1000, luego verifica la segunda restricción. • 300 2: O, 200 2: O, 100 2: O, 200 2: O, luego verifica las restricciones de no negatividad. • El punto (600,50) no es una solución factible ya que (2 · 600 +50)= 1250 1, 1000, luego no verifica la segunda restricción, si bien verifica la primera, ya que ( 600 + 2 · 50) = 700 ::::; 800, y las restricciones de no negatividad. • La región factible de este problema está representada en la figura 5.6
•
Supondremos que el sistema de ecuaciones lineales Ax = b, es no redundante y tiene al menos una solución. Esta hipótesis significa que Rango(A ) =m. Desde el punto de vista teórico esto no supone ninguna limitación puesto que si existen ecuaciones redundantes el sistema que se obtiene eliminándolas es equivalente al de partida; por otra parte, si las restricciones son incompatibles no existe problema de optimización. No obstante desde el punto de vista práctico no puede garantizarse a priori que un problema real verifique estas hipótesis, pero más adelante se comprobará que los métodos de solución permiten identificar también esta situación. MATRIZ BÁSICA Y MATRIZ NO BÁSICA
• Una matriz cuadrada B de dimensión m y de rango m extraída de las columnas de A se llama base del sistema lineal o matriz básica. • La matriz residual N formada por las n -m columnas de A que no están en B se llama matriz no básica.
268
UNIDAD DIDÁCTICA 5 Modelos de optimización
VARIABLES BÁSICAS Y VARIABLES NO BÁSICAS
• El subvector del vector x formado por las m variables que están asociadas a las columnas de una base B se llama vector de variables básicas (con respecto a B) y se denota con :J3. • El subvector del vector x fonnado por las n -m restantes variables, es decir, las variables que se no se corresponden con las columnas de B, se llama vector de variables no básicas (con respecto a B) y se denota con :!".
Sea B es una base del PPL. Si reordenamos las columnas de A y las componentes de x, podemos separar A y x de la forma
A= [B x= (
N]
~)
Entonces el sistema de ecuaciones Ax = b se puede escribir
o equivalentemente Si en el sistema anterior hacemos :!"
= O se obtiene el sistema
B~=b
Este sistema tiene solución única, por ser B de rango máximo. Si denotamos con B - 1 a la matriz inversa de B la solución del sistema anterior es:
SOLUCIÓN BÁSICA
~5.18
El vector (
~
) se llama solución básica del PPL asociada a la
base B. PROGRAMA BÁSICO
5:19
Una solución básica (
~
) asociada a una base B, tal que xB
~O
se llama programa básico asociado a la base B .
Como puede observarse un programa básico no es más que una solución básica que es también un programa, o sea, verifica todas las restricciones incluidas las de no negatividad.
El modelo general de programación lineal
EJE M PLO 5.14
269
Consideremos de nuevo el problema Maximizar z = 3xc + 2xL
sujeto a xc 2xc
+ +
2XL XL
+
800 1000
S¡
+
S2
xc, XL, S¡ , S2
o
>
Tenemos
c1 = (3, 2, 0,0 ) 800 b= ( 1000
A = (~
2 1
)
1
o
~)
La matriz A es 2 x 4 y tiene rango 2. Una posible matriz básica Bes, por ejemplo, la matriz
B=(~ ~)
formada por las dos primeras columnas de A , pues Rango B = 2. La matriz no básica correspondiente es la matriz N= (
~ ~)
El sistema de ecuaciones puede escribirse como:
Si en el sistema anterior hacemos s 1 = O,s 2 = O, se obtiene el sistema 2 x 2 ( 800 ) 1 2 ) ( xc ) ( 2 1 XL 1000
cuya solución es:
de forma que la solución básica correspondiente a la base B es xc = 400, XL = 200 S¡ = O, S2 =
o
Puesto que todos los valores de las variables son no negativos, la solución básica anterior es también un programa básico. Si queremos identificar todas las soluciones básicas del problema tenemos que seleccionar todas las posibles submatrices de A que sean cuadradas, de dimensión 2 y rango máximo, para resolver a continuación el sistema de ecuaciones resultante. Como A tiene 4 columnas, existen (i) = 6 formas posibles de seleccionar una submatriz B 2 x 2, que examinamos a continuación.
270
UNIDAD DIDÁCTICA 5 Modelos de optimización
l. B 1 =
(
~ ~ ) . Tenemos el sistema (
~ ~ ) ( :~ ) = (
800 ) 1000
cuya solución es, como se vio anteriormente, xc )
(
XL
=(
400 ) 200
La solución básica es xc = 400, XL = 200 s 1 = O, s 2 = O. Esta solución básica es también un programa básico, puesto que pertenece a la región factible . En la figura 5.6 puede apreciarse que se corresponde con el punto B, intersección de las dos primeras rectas del conjunto de restricciones. 2. B2 - ( 21
1 ) . Tenemos el sistema 0
(
~ ~ ) ( ~~
)=(
800 ) 1000
cuya solución es:
(
~~ ) = ( ~~~ )
La solución básica es xc = 500, XL= O s 1 = 300, s2 = O. Esta solución básica es también un programa básico, puesto que pertenece a la región factible. En la figura 5.6 puede apreciarse que se corresponde con el punto C que se obtiene como intersección de la segunda recta de restricción con el eje XL =O. 3. B3 = (
~ ~
) . Tenemos el sistema
(
~ ~
) (
~~
) = (
800 ) 1000
cuya solución es:
( ~~ )- ( ~~go ) La solución básica es xc = 800, XL = O s 1 = O, s2 = - 600. Esta solución básica no es un programa básico porque la variable s2 es negativa. En la figura 5.6 puede apreciarse que se corresponde con el punto E que se obtiene como intersección de la primera recta de restricción con el eje XL = O y no pertenece a la región factible. 4. B4 = (
~ o ) . Tenemos el sistema 1
~
( 2
) (
~~
800 ) = ( 1000
cuya solución es: (
~~
1000 ) = ( -1200
)
)
13.\ moó.e\o genera.\ ó.e -progra.ma.c1ém \1nea.\
1'1\
La solución básica es xc =O, XL= 1000 s¡ = - 1200, s2 =O. Esta solución básica no es un programa básico porque la variable s1 es negativa. En la figura 5.6 puede apreciarse que se corresponde con el punto D que se obtiene como intersección de la segunda recta de restricción con el eje xc = O y no pertenece a la región factible . 5. Bs
=(
~ ~
) . Tenemos el sistema 2 ( 1
o
800 ) 1000
cuya solución es :
(
~~ ) = ( :~~ )
La solución básica es xc =O, XL= 400 s 1 =O, s2 = 600. Esta solución básica es un programa básico porque verifica todas las restricciones. En la figura 5.6 puede apreciarse que se corresponde con el punto A que se obtiene como intersección de la primera recta de restricción con el ej e xc =O. 6. B6 = (
~
0
) . Tenemos el sistema
(
~ ~ ) ( :~
800 )
) = ( 1000
cuya solución es: (
S¡ ) S2
(
-
800 ) 1000
La solución básica es xc =O, XL = O s 1 = 800, s2 = 1000. Esta solución básica es un programa básico porque verifica todas las restricciones. En la figura 5.6 puede apreciarse que se corresponde con el punto O, origen de coordenadas que se obtiene como intersección de los ejes xc = O, XL = O.
•
Como acabamos de comprobar no todas las soluciones b ásicas son también soluciones factibles. Cuando una solución básica es factible, es decir, cuando es un programa básico, se encuentra en una " esquina" de la región factible. Como veremos más adelante, los programas básicos juegan un papel muy importante a la hora de resolver en la práctica el problema de programación lineal. VÉRTICE
______,
~--~ :~º--"
Se llama vértice a cada uno de los puntos de la región factible cuyas coordenadas se COITesponden con los valores de un programa básico.
EJEMPLO 5.15 En el problema de la página 255 los vértices de la región factible • son los puntos O, A, By C, representados en la figura 5.6.
Los segmentos de recta de restricción comprendidos entre dos vértices reciben un nombre especial.
272
UNIDAD DIDÁCTICA 5 Modelos de optimización
AR IST A
'
~
~
Se llama arista o cara de la región factible a cada uno de los segmentos de recta de restricción comprendido entre dos vértices. 1 1
FR ONT ER A E
~
5.22
IN T ER IOR DE LA
• Se llama frontera de la región factible al conjunto de soluciones factible s que están sobre una arista.
REG IÓN FAC TIBL E
• Se llama interior de la región factible al conjunto de soluciones factible s que no están en la frontera.
EJE M PLO 5. 16 En el problema representado en la figura 5.6 las aristas de regió factible son los segmentos de recta OA , AB, BC y CO. Estos segmentos de recta form la frontera de la región factible. El resto de las soluciones factibles forman el interi de la región fac tible.
Si escribimos el vector e de la forma e . . en ( ob~et1vo
xB ) 0
= (cf3, eN) , el valor
de la funciór:
es:
donde la última igualdad es una notación. PROGRAM A BÁSICO ÓPTIMO
-
~.23
' Un programa básico
(iB 0
) con valor de la función objetivo z8 e
un programa básico óptimo si
z!3 ;:::: ex
Yx
programa
La definición anterior nos dice, simplemente, que en un programa básico óp -_ mo la función objetivo alcanza su valor máximo. Puede haber también programas no básicos en los cuales la función objetivo tome dicho valor máximo. PROGRAMA Ó PT IM O
REGIÓN ÓPTIMA
VA LO R ÓP TIMO
5.24 •Se llama programa óptimo de un PPL a un programa en el cual la función objetivo alcanza su valor máximo.
·-~ :~
Se llama región óptima al conjunto de programa óptimos del PPL
5.26 ! Se llama valor óptimo del PPL al valor q ue toma la función objetivo en un programa óptimo.
L
El modelo general de programación lineal
273
EJEMPLO 5.17 En el apartado 5.4.1 se comprobó gráficamente que la solución óptima del problema de la página 255 era el punto B correspondiente al programa básico:
xc = 400,
XL=
200 s, =O, s2 =O
en el cual
z = 1600 El programa básico anterior es un programa óptimo que proporciona a la función objetivo un valor óptimo igual a 1600. Puede observarse que dicho programa es el único programa óptimo, por lo cual la región óptima está formada por un único punto .
•
Los vértices de la región factible desempeñan un papel clave para encontrar la solución óptima de un problema de programación lineal. El razonamiento gráfico que hemos hecho en el apartado 5 .4.1 permite afirmar que si un problema de programación lineal tiene solución óptima, ésta se alcanza necesariamente en un vértice. Esta es la única posibilidad cuando la solución óptima es única. Por otra parte, como veremos más adelante, un problema de programación lineal puede tener múltiples óptimos. En este caso, pueden existir soluciones óptimas que no estén en un vértice pero, con seguridad, alguna de las soluciones óptimas tiene que ser un vértice de la región factible. Tenemos entonces el siguiente resultado fundamental de la programación lineal 1 . TEOREMA FUNDAMENTAL DE LA PROGRAMACIÓN LINEAL
Resultado 5.1 standard,
Dado un problema de programación lineal bajo la forma
a) Si existe al menos un programa, entonces existe al menos un programa básico. b) Si existe al menos un programa óptimo, entonces existe al menos un programa básico óptimo.
El resultado anterior señala el camino para resolver algebraicamente un problema de programación lineal: basta encontrar todos los vértices de la región factible y comprobar en cuál de ellos la función objetivo toma su mejor valor.
1 La demostración formal de este resultado va más allá de los límites de este texto. El lector interesado puede encontrarla en Bazaraa y Jarvis, 1981, o también en Simmonard, 1978.
274
UNIDAD DIDÁCTICA 5 Modelos de optimización
SOLUCIÓN ALGEBRAICA DE
Resultado 5.2 Para resolver un problema de programación lineal se procede del modo siguiente:
UN PROBLEMA DE
• Encontrar todos los programas básicos del problema, resolviendo los sistemas de ecuaciones que se pueden formar con las restricciones que definen la región factible.
PROGRAMACIÓN LINEAL
• Calcular el valor de la función objetivo en cada uno de dichos programas básicos. • Buscar el programa básico que proporcione un valor mayor a la función objetivo. Dicho programa es un programa básico óptimo del problema.
EJEMPLO 5.18 En el problema de la página 255, los programas básicos, o vértices de la región factible, son los puntos 0= (O, O), A = (O, 400), B = (400,200) y C = ( 500, O) . El valor de la función objetivo en cada uno de ellos es:
z= En A: z = En B: z =
• En 0:
3 ·O+ 2 ·O= O.
•
3 ·0 + 2·400= 800.
•
• En C:
3 · 400 + 2 · 200 = 1600.
z = 3 · 500 + 2 · O= 1500.
El valor más alto es 1600 y se alcanza el el punto B. Este punto es la solución óptima del problema, como habíamos encontrado previamente. EJEMPLO 5.19
Consideremos el siguiente problema de programación lineal. Maximizar z = -4x 1 + 3xz
sujeto a
3x 1 -2x¡
+ +
< 5 < 4 > o xz > O
xz 3xz
X¡
Vamos a resolverlo algebraicamente. La forma standard es: Maximizar z = - 4x 1 + 3xz sujeto a
3x¡ -2x¡
+ +
xz 3xz
+
S¡
+ X¡,
Xz,
s2
S¡ , Sz
>
5 4 0
Tenemos que encontrar todos los vértices de la región factible y calcular el valor de la función objetivo en cada uno de ellos. Para ello buscamos todas las soluciones básicas y comprobamos si son o no soluciones factibles. Como hay 4 variables y tenemo que tomar 2 para formar el sistema, tendremos que resolver (i) = 6 sistemas de do ecuaciones con dos incógnitas.
El modelo general de programación lineal
275
óPtimo
.~ -· = ~ x2 =
z
·j
.~
= 4
l
-,
Figura 5.8: Solución gráfica de un problema de programación lineal.
• El sistema:
3x, -2x¡
5 4
tiene solución
x¡ = 1, xz = 2, s¡ = O, sz = O Como todos los valores son no negativos la solución básica anterior es un vértice. El valor de la función objetivo es igual a z = -4 · 1 + 3 · 2 = 2. • El sistema:
3x¡ -2x 1
+
s¡
5 4
tiene solución
X¡=-2, Xz=0, S] =11 , Sz=O Esta solución no es factible ya que x 1 < 0,. Por tanto no es un vértice. • El sistema:
5 4
tiene solución x1 =
5
3
,
x 2 = O, s¡ = O, sz =
22
3
Esta solución es factible. Por tanto es un vértice. El valor de la función objetivo es igual a z = - 4 · ~ + 3 · O = - ~ .
• El sistema:
tiene solución
x 1 =O, xz =
4 11 3, s¡ = 3 , sz =O
Esta solución es factible. Por tanto es un vértice. El valor de la función objetivo es igual a z = -4 ·O + 3 = 4.
·1
276
UNIDAD DIDÁCTICA 5 Modelos de optimización
• El sistema:
tiene solución X¡ =O, x2 = 5. X¡
= O,
X2
= 5,
S]
=O,
S2
= -11
Esta solución básica no es factible. Por tanto no es un vértice. • El sistema: 5
S¡
4
S2
tiene solución X¡
= O,
X2
= O,
S¡
= 5,
S2
= 4
x¡ = O, x2 = O. Esta solución es factible. Por tanto es un vértice. El valor de la función objetivo es z = O. El vértice que proporciona un valor mayor a la función objetivo es x 1 = O, x 2 = j. para el cual z = 4. Este punto es pues la solución óptima del problema. En la figura 5. 8 viene representado gráficamente el problema y su solución óptima.
5.4.4
Situ ac iones esp ecia les en los pro bl emas de programación lineal
Los problemas de programación lineal que hemos visto hasta el momento tienen solución óptima única que se alcanza en un punto de coordenadas fi nitas. Sin embargo, pueden ocurrir otras situaciones que vamos a examinar a continuación. Mú ltiples óptimos Un problema de programación lineal puede tener múltiples soluciones óptimas. De hecho, si un problema de programación lineal tiene más de una solución óptima entonces tiene un número infinito de soluciones óptimas. EJEM PLO 5.20
Consideremos el siguiente problema de programación lineal Maximizar z = 2x 1 + 6x2
sujeto a -X¡ X¡
+ +
X2 < 3x2 <
X¡ X¡
X2
< > >
o 6 4
o o
El problema está representado en la figura 5.9. La recta z = 2x 1 + 6x2 es paralela a la recta de restricción x 1 + 3x 2 = 6. Entonces la región óptima coincide con el segmento de esta recta que pertenece a la región factible, es decir, con la arista AB. El punto
El modelo general de programación lineal
277
-·-·' -X¡ .
x¡
+ X2 t <+- -3x2 :S
o
< > ->
4
·~
X¡ X¡
~
- ú ·.
- +-- -X2
6
o o
z rece
o
: . _ ·. _.__
7 Xl
z= O Figura 5.9: Un problema de programación lineal con múltiples óptimos .
A se obtiene como intersección de las rectas - x 1 + x 2 = O y x¡ + 3x2 = 6 y tiene como coordenadas ( ~, ~ ) . El punto B se obtiene como intersección de las rectas x 1 + 3x2 = 6 y x¡ = 4 y tiene como coordenadas (4, ~). Ambos puntos son vértices de la región factible y son también soluciones óptimas del problema. Cualquier punto entre A y B es una solución óptima. Además, un punto cualquiera (x 1,x2 ) de la arista AB puede expresarse en función de las coordenadas de A y B y de un número real A, comprendido entre O y 1, de la forma siguiente: X¡
3 5 2 2 3 2 2 5 A- + (1 -A )-= -+-A 2 3 3 6
A-+(1-A)4=4--A
La Tabla 5.1 incluye algunos valores de A y las coordenadas de los correspondientes puntos de la arista AB. Como puede comprobarse fácilmente, en todos ellos z alcanza • el valor óptimo = 12.
z
Región factible no acotada Cuando en la región factible de un problema es posible encontrar valores arbitrariamente grandes de alguna variable, que cumplan todas las restricciones, se tiene una región factible no acotada. En tal caso, dependiendo de la función objetivo, la solución del problema puede tener una de las formas siguientes.
278
UNIDAD DIDÁCTICA 5 Modelos de optimización
A-
X¡
X2
z
o
4
3
2
2·4 + 6· ~ = 12
1
3
1
2 2
19
17 18 --
6
T8
17
2. 12. 6 + 6.
11
13 12
2·~1 +6·g=12
11
2· ~ +6· V= 12
3
2· ~ + 6· ~ = 12
4
7
3
3
1
2
9
3
2
12
Tabla 5.1: Coordenadas de algunos puntos de la arista óptima.
Valor óptimo infinito Cuando el valor de la función objetivo aumenta, si se trata de un problema de maximización, o disminuye, si se trata de un problema de minimización, indefinidamente por la zona no acotada de la región factible, la solución óptima se alcanzaría en el infinito. Se dice entonces que el problema es no acotado con valor óptimo infinito. EJEMPLO 5.21
Consideremos el siguiente problema de programación lineal Maximizar z = 3x 1 + x2
sujeto a - X¡ X¡ X¡
X2
< > > >
1 6 0 0
El problema está representado en la figura 5.10. Como se puede ver, la región factible es no acotada, es decir, existen valores de x 1 y x2 arbitrariamente grandes que cumplen las restricciones; por ejemplo, el punto (x 1 ,x2 ) = ( 1000000, ~ · 1000000) verifica todas las restricciones. La función objetivo crece por la zona no acotada de la región factible; por ejemplo, en el punto anterior z = ~ · 1000000. El problema tiene valor óptimo infinito. •
Valor óptimo fin ito La no acotación de la región factible no conduce necesariamente a un valor óptimo infinito, ya que la función objetivo puede alcanzar su máximo o mínimo en un punto de coordenadas finitas y, por tanto, tomar un valor óptimo finito. EJE MPLO 5.22 Consideremos el problema del ejemplo anterior, pero en lugar de buscar el máximo de la función z, busquemos ahora el mínimo, es decir, sea el problema Minimizar z = 3x¡ + x2
El modelo general de programación lineal
X2
7
279
Maximizar z = 3x¡ + x2 - x¡
6
+ +
2x2 2x2 X2
< > > >
1 6
.,-Z ---;¡. oo
o o
Región factible no acotada
1
2 ·.
·?: = 0
37
·. z = T
Figura 5.10: Un problema de programación lineal no acotado con valor óptimo infinito.
sujeto a - X¡
X¡ X¡
+ +
2x2 2x2 X2
< > > >
l 6
o o
El problema está representado en la figura 5 .11 . La región factible es no acotada. Sin embargo, ahora la función objetivo decrece hacia la zona acotada de la región factible y alcanza su mínimo en el punto A = ( ~, Este punto es un vértice de la región factible que se obtiene como intersección de las rectas -x¡ + 2x2 = 1 y x¡ + 2x2 = 6. El valor mínimo es z = ~.
i).
•
Cuando la región factible es no acotada y la función objetivo es paralela a una arista no acotada de la región factible, se produce una situación peculiar: el problema tiene un valor óptimo finito, pero se alcanza en puntos con coordenadas finitas y en puntos con coordenadas arbitrariamente grandes. EJE MP LO 5.23
Consideremos el problema Maximizar z = - 2x ¡ + 4x2
280
UNIDAD DIDÁCTICA 5 Modelos de optimización
- X¡
,x l
+ -+
< > > >
2x2 ~ 2x 2
X¡
X2
1
6
o
-5 ~---· - --3~4 ····· Vértice óptimo ~ . / - ---
Región factible no acotada
: 1-
.
~
~~ -
1 -~1 --c-
/ /
/
. . _/_
·.
37
·.z = ¿¡
Figura 5.11: Un problema de programación lineal no acotado con valor óptimo finito .
sujeto a - X¡
X¡
+ +
2x2 2x 2
X¡
X2
< 1 > 6 > o > o
El problema está representado en la figura S .12. La función objetivo es paralela a la primera restricción. Entonces, el máximo se alcanza en la arista que define la restricción - x¡ + 2x2 :'::: l. Esta arista tiene un extremo en el vértice A y otro extremo en el infinito. Todos los puntos de esta arista son óptimos. El valor de z en cada punto de la arista es = 2. Tenemos un problema con solución óptima fini ta, que se alcanza en puntos de coordenadas finitas y en puntos de coordenadas arbitrariamente grandes. Por ejemplo, el punto A = ( ~, ~ ) es una solución óptima finita. Por otra parte, es posible encontrar puntos con coordenadas arbitrariamente grandes pertenecientes a la recta -x¡ + 2x2 = 1 que también son solución óptima del problema. Sin embargo, en cualquiera de estos puntos z toma el valor 2.
z
Región factible va cía Un problema de programación lineal puede tener región factible vacía, es decir, puede ocurrir que no exista ningún punto que satisfaga todas las restricciones. Entonces diremos que el problema es no factible. En este caso, el
El modelo general de programación lineal
x2 ~.
·· Maximizar z = -:ix¡+ 4x2 ·
~7-
+ .+
<
2x2 2x2
·· 1 ·
;:::
-·- 6
o
- ?
z= O·
281
1 ·-
2
_ Región factible no acotada
4
3
X¡
Figura 5.12: Un problema de programación lineal no acotado con valor óptimo finito que se alcanza en puntos con coordenadas finitas y en puntos con coordenadas arbitrariamente grandes.
problema no tiene solución óptima cualquiera que sea la función objetivo. EJEMPLO 5.24
Consideremos el problema Minimizar z = 2x 1 - 3x2
sujeto a X¡
+
X2
X¡ X¡
X2
< > > >
3
5 0 0
Como puede verse en la figura 5.13, no existe ningún punto que verifique todas las restricciones. Como x 1 y x 2 tienen que ser mayores o iguales que cero, no puede existir ningún punto tal que x¡ ;::: 5 y x 1 + x2 ::; 3. Este problema es no factible. •
5.4.5
Aplicaciones de programación lineal
Finalizaremos esta sección presentando algunos casos sencillos que conducen a un modelo de programación lineal. En cada uno de los ejemplos se hará una exposición verbal de la situación y se discutirá su planteamiento como problema de programación lineal, describiendo las variables, restricciones y función objetivo.
282
UNIDAD DIDÁCTICA 5 Modelos de optimización
+
X2
X2
< > --¡ > >
3 ,-S --
Figura 5.13: Un problema de programación lineal no facti ble.
Problema de planificación de la producción
La fábrica de conservas vegetales La Huertana está considerando la planificación de la próxima campaña del melocotón. Las previsiones sobre la cosecha son optimistas y los expertos calculan que se dispondrá de unas 100 toneladas de fruta, el 30% de las cuales será de la mejor calidad, llamada técnicamente calidad A, y el resto será de calidad standard, o calidad B. La calidad de un fruto está en relación con aspectos tales como: calibre, grado de madurez, etc. y se mide en una escala de uno a diez, siendo diez el índice de mejor calidad. La calidad A tiene un índice medio de nueve puntos/kilo, mientras que la calidad B alcanza un índice medio de cinco puntos/kilo. La Huertana comercializa el melocotón de dos maneras: en forma debotes de melocotón en almíbar y en forma de botes de zumo de melocotón. Con un kilogramo de fruta pueden producirse dos botes de melocotón en almíbar o bien tres botes de zumo de melocotón. La fábrica piensa que puede vender todos los botes de fruta en conserva y zumo que pueda fabricar. No obstante, existen algunas limitaciones que han de tenerse presentes. En primer lugar, ha de tenerse en cuenta que la fruta destinada a conserva debe ser de una calidad superior. Esta calidad se ha fijado en un índice mínimo de 8.5 puntos por kilo. En la obtención de zumo puede emplearse fruta de cualquier calidad. En segundo lugar, el número máximo de botes que pueden producirse está limitado
El modelo general de programación lineal
283
por las disponibilidades de material (hoja de lata, etiquetas, envases, etc.), la mano de obra, la competencia con otros productos de la empresa, etc. Después de detenidos estudios, la dirección ha determinado que pueden producirse un máximo de 100000 botes de melocotón en almíbar y un máximo de 240000 botes de zumo de melocotón. Finalmente, por experiencias de campañas anteriores, se sabe que la cantidad de botes de melocotón vendidos nunca es inferior al 25 %, ni superior al 40% de la cantidad de botes de zumo vendidos. Recientes estudios de mercado realizados por una empresa de consultoría confirman que estas proporciones se seguirán manteniendo durante la presente campaña. La empresa ha comprado las 100 toneladas de la cosecha al precio fijo de 1.00 euros por kilo. Los costes de fabricación y envasado suponen 0.25 euros para un bote de fruta en conserva y 0.10 euros para un bote de zumo. La fábrica vende únicamente a mayoristas y distribuidores a un precio fijo de 1.30 euros el bote de melocotón en almíbar y 0.50 euros el bote de zumo de melocotón. El objetivo de La Huertana es determinar el plan de producción de la campaña del melocotón en orden a obtener el mayor beneficio posible. El mode lo de programación lineal
El primer paso es determinar las variables del modelo. Una primera lectura del caso parece sugerir que las candidatas naturales a variables de este problema son "número de botes de melocotón en almibar" y "número de botes de zumo de fruta" que hay que fabricar. Ahora bien, en la producción de los botes interviene fruta de diferente calidad. Si consideramos las variables anteriores no parece existir una manera sencilla de introducir condiciones relativas a la composición de los botes; por tanto, parece más acertado considerar las siguientes variables: Variables
mA
=
m8
=
ZA
=
zs
Kilogramos de fruta de calidad A destinados a fabricar melocotón en almíbar Kilogramos de fruta de calidad B destinados a fabricar melocotón en almíbar Kilogramos de fruta de calidad A destinados a fabricar zumo de melocotón Kilogramos de fruta de calidad B destinados a fabricar zumo de melocotón
Teniendo en cuenta que con cada kilogramo de fruta se fabrican o bien dos botes de melocotón en almíbar o bien tres botes de zumo, el número de botes fabricados será: - Número de botes de melocotón en almíbar: 2( mA + m8 ) = 2 x número de kilogramos de fruta destinados a fabricar melocotón en almfbar
284
UNIDAD DIDÁCTICA 5 Modelos de optimización
- Número de botes de zumo de melocotón: 3(zA + z8 ) = 3 x número de kilogramos de fruta destinados a fabricar zumo de melocotón Restricciones
- No negatividad - Calidad La calidad media de la fruta dedicada a melocotón en almíbar no debe ser inferior a 8.5 punto/kilo: 9mA + 5ms > . 85 mA +ms -
o bien, si tenemos en cuenta que mA + m8
~
O
9mA + Sms- 8.5mA - 8.5ms
~
O
y, después de simplificar,
0.5mA - 3.5ms
~O
- Disponibilidad - La cantidad de kilogramos de calidad A es, a lo sumo, el 30% de la cosecha) m A + ZA :::; 30000 - La cantidad de kilogramos de calidad B es, a lo sumo, el 70 % de la cosecha) ms + zs :::; 70000
- Producción - La cantidad de botes de melocotón en almíbar ha de ser inferior a 100000 2(mA + ms ) :::; 100000 o equivalentemente (mA + ms ) :::; 50000
- La cantidad de botes de zumo de melocotón ha de ser inferior a 240000 3(zA + zs ) :::; 240000 o equivalentemente (zA
+ zs) :::; 80000
El modelo general de programación lineal
285
- Demanda
La cantidad de botes de melocotón en almfbar debe estar comprendida entre el 25 % y el 40 % de la cantidad de botes de zumo de melocotón. 0.25 · 3(zA
+ zs) :S 2(mA + ms) :S 0.4 · 3(zA + zs)
o equivalentemente 2mA + 2ms- 0.75zA - 0.75zs 2: O y
- 2mA- 2ms + 1.2zA + 1.2zs 2: O Objetivo El beneficio neto de la venta de los botes será igual al precio de venta menos los gastos derivados de la compra de la fruta y de la producción de los botes.
- Beneficio en el bote de melocotón en almíbar: 1.30 ·2(mA +ms) -0.25·2(mA +ms ) - l.OO (mA + ms) = l.lO(mA +ms) - Beneficio en el bote de zumo: 0.50 · 3(zA
+ zs)- 0.10 · 3(zA + zs) -
l.OO (zA
+ zs)
= 0.20 (zA
+ zs)
Por tanto la función objetivo que hay que maximizar es l. lOmA+ l.lüms + 0.20zA
z
+ 0.20zs
En resumen el modelo de producción de La Huertana se puede formular como el siguiente problema de programación lineal: Maximizar
z =l. lOmA+ l.lüms + 0.20zA
+ 0.20zs
sujeto a 0.5mA mA
3.5ms
+
mA
+
2mA -2mA
+
ZA
+
ms ms 2m8 2m8
+
ZA 0.75zA 1.2zA
+
ZB
ZB 0.75zs + 1.2zs mA,ms ,ZA,ZB
> < < < < > > >
o 30000 70000 50000 80000
o o o
286
UNIDAD DIDÁCTICA 5 Modelos de optimización
Pienso A Pienso B Pienso C Harina 1 Harina 2 Minerales
H
p
G
M
Coste/Kg
76 64 45 71 69
21 24 37 2 1.5
3 12 18 26 29
o
o
o
Indicios Indicios Indicios 1 0.5 100
22 31 45 17 15 125
Tabla 5.2: Composición porcentual de diferentes productos y su coste.
Problema de la dieta Los responsables de una granja dedicada a la cría de ganado desean preparar un pienso especial para alimentar una camada. Se precisan 1000 kilogramos de un alimento cuya composición debe cumplir las siguientes especificaciones: a) La cantidad en peso de hidratos de carbono (H) debe estar comprendida entre un 40% y un 70 %. b) La cantidad en peso de proteínas (P) debe estar comprendida entre un 15 % y un 50%. e) La cantidad en peso de grasas (G) debe estar comprendida entre un 10 % y un 30 %.
d) La cantidad en peso de minerales (M) debe ser superior al 3%. Para la preparación de dicho alimento se puede recurrir a tres tipos de piensos compuestos suministrados por la empresa AASA, dos tipos de harinas de pescado de la productora CONSA o bien comprar directamente en la droguería paquetes de minerales con la composición adecuada. La tabla 5.2 muestra la composición porcentual en peso de cada uno de estos productos, asi como su coste por kilo en euros. Se pretende evitar una excesiva dependencia de un único proveedor, al tiempo que desea mantener buenas relaciones comerciales con ambos suministradores; por ello, se piensa que el pedido debería repartirse de manera mas o menos equitativa entre AASA y CONSA. En este sentido lo más que podría tolerarse es una diferencia en más o en menos entre los dos pedidos de hasta un 20 % de la cantidad total pedida a ambos proveedores. Por otra parte AASA ha avisado que las existencias de su pienso mas barato, Pienso A, son un tanto escasas, por lo que sólo podrá suministrar a tiempo a lo sumo 300 kilogramos de dicho pienso. El problema que se quiere resolver consiste en determinar qué cantidades comprar de cada producto para fabricar el alimento necesario para el ganado al menor coste posible.
El modelo general de programación lineal
287
El modelo de programac1on lineal Este caso es un ejemplo de una de las aplicaciones más conocidas de la programación lineal denominada genéricamente problema de la dieta óptima. Variables
Pa
=
Pb
=
Pe
=
h¡
=
h2
=
m
=
La elección de las variables del problema es simple. Definimos:
Kilogramos alimento Kilogramos alimento Kilogramos alimento Kilogramos mento Kilogramos mento Kilogramos alimento
de pienso A que se incluirán en los 1000 de de pienso B que se incluirán en los 1000 de de pienso
e que
se incluirán en los 1000 de
de harina 1 que se incluirán en los 1000 de alide harina 2 que se incluirán en los 1000 de alide minerales que se incluirán en los 1000 de
Restriccion es
- No negatividad - Necesidades totales La cantidad de alimento producido ha de superar los 1000 kilogramos. Pa
+ Pb +Pe+ h¡ + h2 +m 2:
1000
- Necesidades de hidratos de carbono La cantidad de hidratos de carbono en la dieta ha de estar comprendida entre un 40% y un 70 %. 0.4 O <
-
0.76pa + 0.64pb + 0.45pe + 0.71h¡ Pa + Pb +Pe + h¡ + h2
+ 0.69h2 < O.7O -
o equivalentemente
+ 0.29h2 2: O 0.01h¡ + 0.01h2 2: O
0.36pa + 0.24pb + 0.05 Pe + 0.31h¡ -0.06pa + 0.06pb + 0.25pe -
- Necesidades de proteínas La cantidad de proteínas en la dieta ha de estar comprendida entre un 15% y un 50%. O.lS
< -
0.21pa + 0 .24pb + 0.37pe + 0.02h¡ Pa + Pb +Pe + h¡ + h2
+ 0.015h2 < O.SO -
288
UNIDAD DIDÁCTICA 5 Modelos de optimización
o equivalentemente 0.06pa + 0.09pb + 0.22pe - 0.13h¡ - 0. 135hz 2: O 0.29pa + 0 .26pb + 0.13pe + 0.48h¡
+ 0.485hz 2: O
- Necesidades de grasas La cantidad de grasas en la dieta ha de estar comprendida entre un 1O% y un 30 %. 0. 0 1
< 0.03pa + 0.12pb + 0.18pe + 0.26h¡ + 0.29h2 < 0. 30 -
Pa+Pb+Pe +h¡+h2
-
o equivalentemente
+ 0.02pb + 0.08pe + 0.16h¡ + 0. 19hz 2: O + 0.18pb + 0.12pe + 0.04h¡ + 0.01h2 2: O
-0.07p0
0.27p 0
- Necesidades de minerales La cantidad de minerales en la dieta ha de ser superior al 3%. 0.0
3
< 0.01h 1 + 0.005h 2 + l.OOm -
h¡ +h2 +m
o equivalentemente -0.02h¡ - 0.025h2
+ 0.97m 2: O
- Equilibrio entre proveedores La diferencia entre los pedidos a AASA y CONSA no debe ser superior al20%. Pa + Pb +Pe- h¡ - h21 < 0.2 Pa+ Pb+Pe+ ht+hz1 que se convierte en las dos desigualdades Pa + Pb +Pe - h¡ - h2 < 0. 2 Pa + Pb +Pe+ h¡ + h2 Pa + Pb +Pe - h¡ - h2 > -0. 2 Pa + Pb +Pe + h¡ + h2 -
o equivalentemente -0.8p 0 1.2p0
-
0.8pb - 0.8pe + 1.2h¡
+ 1.2pb + 1.2pe -
+ 1.2h2 2: O
0.8h¡- 0.8h2 2: O
- Disponibilidad de pienso A La cantidad máxima de pienso A que se puede obtener es 300 kilogramos. Pa :S 300
El modelo general de programación lineal
289
Objetivo El objetivo en este problema es minimizar el coste total del alimento. Fácilmente se obtiene que la función de coste es
El problema de la dieta se formula entonces como el siguiente programación lineal: Minimizar z = 22pa + 31pb +4Spc + 17hl + lSh2 +125m sujeto a Pa + Pb + Pe + h1 + h2 + m > 1000 P- a < 300 o 0.36pa + 0.24pb + O.OSpc + 0.31hl + 0.29h2 > o -0.06pa + 0.06pb + 0.25pc - O.Olh1 + O.Olh2 > 0.06pa + 0.09pb + 0.22pc - 0.13h¡ - 0.135h2 o > o 0.29pa + 0.26pb + 0.13pc + 0.48hl + 0.485h2 > o -0.07pa + 0.02pb + 0.08pc + 0.16h¡ + 0.19h2 > o 0 .27pa + 0.18pb + 0.12pc + 0.04hl + O.Olh2 > o - 0.02hl - 0 .025h2 + 0.97m > o - 0.8pa - 0.8pb - 0.8pc + 1.2hl + 1.2h2 > o 1.2pa + 1.2pb + 1.2pc - 0.8h¡ 0.8h2 > Pa ,Pb,Pc,h1 ,h2,m
>
o
Problema de mezclas La obtención de mezclas de productos petrolíferos es una de las primeras aplicaciones con éxito de la programación lineal. Veamos un ejemplo. Un esquema simplificado del funcionamiento de REPESA (Refinerías de Petróleo S .A.) puede verse en la figura 5 .14. El proceso 1 es un proceso de destilación en el que el petróleo bruto se transforma en un producto A, obteniéndose diversos subproductos denominados S l. En este proceso un barril de petróleo rinde 0.4 barriles de producto A y 0.6 de S l. La capacidad del proceso es de 80000 barriles diarios y el coste operativo, consumo de energía, etc. es de 3.60 euros por barril de petróleo bruto. En el proceso 2, que es un proceso de refino, el producto A es transformado en un producto B y en diversos subproductos denominados S2, de modo que un barril de A produce 0.7 barriles de By 0.3 barriles de S2. La capacidad del proceso 2 es de 60000 barriles diarios y su coste operativo es de 4.80 euros por barril de producto A. Finalmente, el proceso 3 es un proceso de mezclado sin limitación de capacidad y de coste despreciable. En él se mezclan los productos A y B para obtener los dos tipos de gasolina - normal y súper -, que se comercializan. La única condición es que las mezclas han de efectuarse en las proporciones apropiadas a fin de que el octanaje de cada gasolina sea el adecuado. Así, la gasolina normal tiene que tener un índice mínimo de 90 octanos y la gasolina súper tiene que tener un
290
UNIDAD DIDÁCTICA S Modelos de optimización
Petróleo Bruto
Subproducto S2
Producto A
Proceso 1
Proceso 2
Energía
Energía Producto B Ventas Exterior Ventas Exterior
Proceso 3
Subproducto Sl
Gasolina Normal
Gasolina Súper
Figura 5.14: E squema de operación de REPESA
índice mínimo de 94 octanos. Por su parte el producto A tiene un índice de 86 octanos y el producto B tiene un índice de 96 octanos. El índice de una mezcla es la media ponderada de los índices de los productos mezclados. La refinería compra el barril de petróleo a 21.50 euros. Todos los productos y subproductos pueden venderse directamente al exterior a los precios siguientes: S 1: 20.40 euros/barril. - A: 31.25 euros/barril. B: 38.50 euros/barril. - S2: 31.00 euros/barril. Gasolina normal: 38.00 euros/barril. Gasolina súper: 40.00 euros/barril. Por otra parte se estima que la cantidad máxima de gasolina que se puede vender es de 20000 barriles de normal y de 50000 de súper. El problema de REPESA es organizar el funcionamiento de la refinería en orden a que los beneficios obtenidos sean lo mayor posibles. El modelo de programación lineal
El modelo general de programación lineal
291
Variables Se considerarán variables todas las cantidades cuyo valor tiene que ser conocido para poner en funcionamiento la refinería. La lista es la siguiente:
P: barriles de petróleo bruto que hay que comprar.
A: barriles de producto A que hay que obtener.
AO: barriles de producto A que se venden al exterior. Al: barriles de producto A que se mezclan para obtener gasolina normal. A2: barriles de producto A para se mezclan para obtener gasolina super. A3: barriles de producto A que se utilizan para obtener el subproducto S2.
S 1: barriles de subproducto S 1 que hay que obtener. B: barriles de producto B que hay que obtener.
BO: barriles de producto B que se venden al exterior. B 1: barriles de producto B que se mezclan para obtener gasolina normal. B2: barriles de producto B que se mezclan para obtener para obtener gasolina súper. S2: barriles de subproducto S2 que hay que obtener
G 1: barriles de gasolina normal que hay que obtener G2: barriles de gasolina súper que hay que obtener. Rest ricciones
- No negatividad P,A,AO,A1,A2,A3,Sl,B,BO,Bl,B2,S2, Gl,G2 2: O
- Capacidad del proceso 1
p:::; 80000 - Capacidad del proceso 2
A:::; 60000 - Equilibrio de masas en el proceso 1 A= 0.4P Sl
= 0.6P
A =AO +Al +A2+A3
292
UNIDAD DIDÁCTICA 5 Modelos de optimización
- Equilibrio de masas en el proceso 2
B
= 0.7A3
S2 = 0.3A3
B =BO+Bl+B2 - Limitación en la cantidad de gasolina
Barriles de gasolina normal producidos: Gl = Al+Bl Barriles de gasolina súper producidos:
G2=A2 + B2 Máxima cantidad de gasolina: Gl
~
20000
G2
~
50000
- Calidades de la mezclas
Octanaje rrúnimo de la gasolina normal: 86Al + 96BI > 90 Al + El o equivalentemente - 4Al
+ 6Bl 2: O
Octanaje mínimo de la gasolina súper: 86A2 + 96B2 > 94 A2 + B2 o equivalentemente -8A2 + 2B2 2: O
El modelo general de programación lineal
293
Objetivo El objetivo es maximizar el beneficio neto. Teniendo en cuenta que el proceso 3 es sin coste, que se compra el petróleo bruto y se venden los productos A, B, S 1, S2 y las dos gasolinas, se obtiene la tabla siguiente en la que se muestran los coeficientes que afectan a cada variable.
Coste Operativo Coste Beneficio Proceso 1 Proceso 2 Total Variable p
(-)
(+)
21.50
A3 AO S1 BO S2 G1 G2
(-)
(-)
3.60 4.80 31.25 20.40 38.50 31.00 38.00 40.00
-25 .10 -4.80 31.25 20.40 38.50 31.00 38.00 40.00
Por tanto la función objetivo es:
z =
- 25 .1 0P - 4.80A3 + 31.25AO + 20.40S1 + 38.50BO +3l.OOS2 + 38.00G1 + 40.00G2
En resumen, el problema de REPESA se puede plantear de la forma siguiente: Maximizar
z
-
-2510P - 480A3 + 3125AO + 2040S1 + 3850BO + 31 OOS2 + 3800G 1 + 4000G2
sujeto a p
< 80000 - 0.4P + A o - 0.6P+S1 o A - AO - A1 - A2 - A3 o - 0.7A3 + B o -0.3A3 +S2 o A < 60000 B-BO - B1 - B2 o -4A1 + 6B1 > o - 8A2+2B2 > o A1+B1 - G1 o A2 + B2 - G2 o G1 < 20000 G2 < 50000 P,A ,AO,A1,A2,A3,B,BO,B1 ,B2,S1 ,S2, G1 , G2 2: O
294
UNIDAD DIDÁCTICA 5 Modelos de optimización
Como se puede observar, en este modelo algunas de las restricciones son restricciones de definición de variables. Ello puede permitir eliminar algunas variables del modelo. Si bien esta estrategia suele ser aconsejable para simplificar el problema, hay que decir que no siempre conduce a modelos más sencillos de resolver numéricamente. En ocasiones, un mayor número de variables lleva aparejado una matriz del sistema con estructura más simple desde el punto de vista numérico, que permite calcular la solución en un tiempo menor. Modelos de producción-inventario
Los modelos de producción-inventario son una de las aplicaciones de los métodos de optimización más polifacéticas en cuanto al tipo de modelo, lineal, entero, no lineal, dinámico, estocástico, conjunto de variables y restricciones, etc. Veamos un ejemplo típico. Una empresa fabrica un producto cuya demanda es estacionaria fluctuando de mes en mes. El departamento de planificación está estudiando la programación de la producción para los próximos doce meses, cuya demanda se estima en d1 ,t = 1, . .. , 12. La empresa puede contratar y despedir trabajadores mensualmente para aumentar o disminuir su nivel de producción y adecuarlo a las exigencias de la demanda. No obstante existen algunas limitaciones. Debido a las necesidades operativas y la capacidad de la fábrica, el número de trabajadores no puede ser en ningún momento inferior a m ni superior a M. Además, el departamento de personal estima que en un mes no pueden contratarse más de U trabajadores. Asimismo, los sindicatos exigen que en un mes determinado no pueden despedirse más del 5 % de la fuerza laboral presente, lo cual, por otra parte, lleva consigo diversos gastos en concepto de indemnizaciones. Actualmente la empresa tiene z trabajadores y dispone de un inventario de y unidades. Un trabajador puede producir una media de p unidades de producto por mes. Los costes de producción, excluida la mano de obra, son de a euros por unidad; los costes de mantenimiento del inventario son de b euros por unidad y mes; los costes de mano de obra son de e euros por trabajador y mes; los costes derivados de la contratación de un nuevo trabajador en concepto de selección, entrenamiento, etc. son de d euros por trabajador, los costes de despido de un trabajador, indemnización, etc. , son de e euros por trabajador. En principio a la empresa le gustaría satisfacer toda la demanda, aunque se sabe que normalmente esto conduce al mantenimiento de unos stocks muy elevados. Por tanto, se desea estudiar la situación en que se permite dejar demanda insatisfecha en alguno períodos a un coste de "pérdida de imagen" de f euros por unidad no satisfecha. El modelo de prog ramaci ón li nea l
Variables
Consideraremos las siguientes variables, para cada mes t
= 1, ... , 1
El modelo general de programación lineal
295
x1 = número de unidades de producto que hay que fabricar el mes t .
y1
= número de unidades de producto en inventario en el mes t .
z1 = u1
número de trabajadores presentes en el mes t.
= número de trabajadores contratados en el mes t.
v1 = número de trabajadores despedidos en el mes t .
s1 = número de unidades demandadas y no satisfechas en el mes t. Restricciones
- No negatividad -Demanda En cada mes la demanda satisfecha debe igualar a la producción más la variación del inventario: d t - St
=
Xt
+ Yt -
t = 1, .. . ' 12
Y t+ l
con
Yl = y Y1 3
=Inventario final
- Unidades producidas Las unidades producidas en el mes no debe superar la capacidad de producción del mes. x¡-::;. p z1 t=1 , . . . , 12
- Trabajadores - La fuerza laboral presente en cada mes no debe superar el máximo, ni ser inferior al mínimo marcado: m -::;_ Zt
-::;_M t = 1, .. . , 12
- El número de contratados en cada mes ha de ser inferior al máximo permitido: Ut -::;_ U t = 1, . .. , 12 - El número de despedidos en cada mes ha de estar dentro de los márgenes deseados : v1
v1
:::;
-::;.
O.OSz1-
O.OSz
1
t = 2, ... , 12
para el primer período
- Mantenimiento de la fuerza laboral: Zt
=
Zt - 1
+ Ut -
Vt
t = 1, . .. , 12
COn ZO = Z
296
UNIDAD DIDÁCTICA 5 Modelos de optimización
Objetivo La función objetivo consiste en minimizar la suma de todos los costes que intervienen en el proceso:
coste de producción en el mes t Coste de mantenimiento del inventario medio en el mes t Coste de la fuerza laboral presente en el mes t Coste de contratación en el mes t Coste de despido en el mes t Coste de 'pérdida de imagen' por demanda insatisfecha en el mes t Por tanto la función objetivo es : o
Mm
z= .r ~+b 12
(
Yt
t=J
+ Yt+l ) +~ + ~+~+~ 2
En resumen, el problema de programación lineal para optimizar el funcionamiento del sistema de producción-inventario es el siguiente: Min
Z
=
r
12
axr
+ b ( Yt + Yr+ l ) + CZ¡ + du¡ + eV¡ + jS¡ 2
t=J
sujeto a
d¡- S¡ = X¡+ Yt - Yt+l t = 1,
X¡ -:5. PZt
Vr
00
t = 1,
m -:5. Zr -:5, M
Ut-:5.U
t = 1,
o
o
o' 12 o, 12
00
t=1 , .. 0,12
-:5. 0°05zr -1 v¡ -::;,
t
= 2,
ooosz-
o
o
o
,
12
o'
12
El algoritmo del simplex
5.5
297
El algoritmo del si mpl ex El teorema fundamental de la programación lineal asegura que si un problema de programación lineal tiene solución óptima finita, entonces necesariamente existe un vértice en el que se alcanza dicha solución óptima. Como se ha visto, este resultado resuelve teóricamente el problema de programación lineal, puesto que se puede encontrar la solución examinando el valor de la función objetivo en un número finito de puntos, algebraicamente identificados como solución de sistemas de ecuaciones lineales. Como consecuencia, para resolver el PPL, lo único que habría que hacer sería buscar todos los programas básicos, que, si el problema es factible y tiene óptimo, existen en número finito y se obtienen como solución de sistemas de ecuaciones lineales m x m, y seleccionar aquél que proporcione a la función objetivo el mejor valor. El número de vértices de un problema puede ser muy alto. Como hemos visto cada vértice está asociado a una submatriz B, m x m, extraída de entre las columnas de la matriz A, m x n. El número de submatrices B, m x m, diferentes que se pueden extraer de A es
(;)
n! m!(n-m)!
Entonces el número de vértices de la región factible es, a lo sumo, (~) y, por tanto, es finito. El número combinatorio (~) crece con el número de variables y restricciones. Por ejemplo, si el problema tiene n = 30 variables y m = 20 restricciones, entonces el número posible de soluciones básicas es 30,045,015. Se comprende entonces que el procedimiento de examinar el valor de la función objetivo en todos los vértices es poco práctico. Es necesario encontrar un procedimiento sistemático, o algoritmo de búsqueda del óptimo, que investigue de manera inteligente los puntos extremos, para llegar al vértice óptimo en el menor número de pasos posible. Un procedimiento de estas características es el algoritmo del simplex de G.B. Dantzig 2 que estudiamos en este apartado. El nombre del método procede del hecho de que en una de sus primeras aplicaciones, la región factible estaba formada por un "simplex", es decir, un poliedro convexo generado por ( n + 1) puntos de IR 11 , no situados en una misma variedad lineal (n - 1) -dimensional. El esquema de algoritmo es el siguiente: se parte de un vértice inicial cualquiera; a continuación mediante reglas claramente definidas se procede iterativamente saltando a un vértice adyacente al menos "tan bueno" como el vértice actual; con ciertas precauciones el método alcanza el vértice óptimo en un número finito de pasos. Las cuestiones técnicas que hay que resolver son varias: cómo se selecciona el vértice inicial, cómo se salta de un vértice a otro, cómo se sabe cuando se ha llegado al óptimo, o alternativamente se tiene 2 Dantzig, G.B. (1951):"Maximization of a linear function of variables subject to linear inequalities", en: T. C. Koopmans (eds.), Activity Analysis of Production and Allocation, Wiley, pg. 339-347.
298
UNIDA D DIDÁCTICA 5 Modelos de optimización
evidencia de que el óptimo es no finito o el problema no tiene soluciones factibles. El desarrollo teórico que estudiaremos a continuación va dirigido a dar respuesta a estas preguntas.
5.5.1
Justifi cación del algorit mo del si mpl ex
Para comprender la forma de operar del algoritmo del simplex vamos a desarrollar detenidamente un ejemplo sencillo. Supongamos que la empresa Z fabrica dos productos P1 y P2. Para ello utiliza una materia prima M, de la que dispone de 14000 unidades. La fabricación de P1 precisa una unidad de M y la de P2 dos unidades de M. Las previsiones de demanda estiman que no han de fabricarse más de 4000 unidades de P2 y que la diferencia entre las unidades producidas de P2 menos las de P1 no han de superar 1000 unidades. El producto P1 deja un beneficio unitario de 10 unidades monetarias, mientras que el beneficio unitario de P2 es 30 unidades monetarias. La empresa desea encontrar el plan de producción que represente el máximo beneficio. El planteamiento del problema puede ser el siguiente. Como variables definimos: - XJ
=número de unidades de P1 que hay que producir.
- x2 = número de unidades de P2 que hay que producir.
Las restricciones son:
- No negatividad
- Disponibilidad de materia prima x1
+ 2x2:::; 14000
- Demanda X2
:S 4000
- x1 +x2:::; 1000
La función objetivo es
z = 10x1
+ 30x2
y hay que buscar su máximo. En resumen, el problema de la empresa Z puede plantearse como el siguiente problema de programación lineal: Maximizar
z = lüx1
+ 30x2
E\ al goritmo de\ s'lmp\ex
299
X2
8000 7000 6000 5000 4000 -t------:.:~-....:::0....;;:--------3000 lOx¡ + 30x2 = 180000 2000 1000A
--a o - 200Ek49QO
o
6000 8000 100001200014000 ~' -i.Ox ¡
X¡
+ 30x2 =O
Figura 5.15: Representación gráfica del problema de la empresa Z.
sujeto a
-x 1 +
< 1000 < 14000 < 4000 > o > o
x2
X¡+ 2x2
X2 X¡
X2
La representación gráfica de este problema puede verse en la figura 5.15. La región factible del nuevo problema es la zona limitada por los puntos OABCD. Gráficamente se obtiene que el óptimo es el punto C = (6000,4000) en el cual la función objetivo vale 10 · 6000 + 30 · 4000 = 180000. Consideremos la forma standard del problema. Para ello es necesario introducir las variables de holgura, s¡,s2 , s3. Maximizar
z
= lüx¡
+ 30x2
sujeto a - X¡ X¡
+
+
X2 2X2
X2
+
S¡
+
S2
+
S3
En este problema se tiene:
A=
-1 1 1 o o ) 1 2 O 1 O ( o 1 o o 1 e= (10, 30,0,0,0)
1000 14000 4000
300
UNIDAD DIDÁCTICA 5 Modelos de optimización
X¡
b=
(
1~~~~ ) 4000
X2 x=
S¡ S2 S3
La forma matricial del problema es: X¡ X2
Maximizar
z = (10,30,0,0,0)
s¡ S2 S3
X¡
1 1 o o) 2 o 1 o 1 o o 1
X2
S¡ S2
1000 ) 14000 ( 4000
S3
Cada punto de la región factible OABCD viene identificado con un conjunto de valores de las variables X¡ ,x2, s¡, s2, s3. Por ejemplo, el punto X= ( 4000, 2000) en la figura 5.16 viene dado por el conjunto de valores x 1 = 4000, x2 = 2000, s 1 = 3000, s2 = 6000, s3 = 2000. Los valores de las variables X¡ ,x2 dan las coordenadas del punto en el plano (X¡, x2), mientras que los valores de las variables de holgura s¡, s2, s3 dan la distancia o separación que existe entre el punto X y la restricción correspondiente. Como se deduce fácilmente un punto situado en el interior de la región factible, tiene todas sus componentes positivas. Los puntos situados sobre las aristas del poliedro que forma la región fac= O, la ecuatible tienen una componente nula. Por ejemplo, si hacemos ción - x 1 + x2 + s 1 = 1000 se convierte en la ecuación -x, + x2 = 1000, que es la recta AB. Análogamente s2 = O caracteriza a los puntos de la recta x 1 + 2x2 = 14000, recta CD, s 3 = O caracteriza a los puntos de la recta x2 = 4000, recta BC, x¡ = Ocaracteriza al eje x2 y x2 = O caracteriza al eje x¡. Los vértices del poliedro, puntos O, A, B, C y D, que están simultáneamente sobre dos restricciones, quedarán caracterizados por la condición de que dos variables sean nulas. Esta caracterización es:
s,
Vértice
Variables nulas
Variables no nulas
o
X¡,X2
S¡,S2,S3
A B
X¡,S¡
X2,s2,S3
S¡,S3
X¡,X2,s2
e
S2,S3
X¡,X2,S¡
D
X2,S2
X¡, S¡, S3
El algoritmo del simplex
301
8000 7000 6000 5000 4000~~--~----~~------~S3~=--0 ------3000 X= (4000,2000) 2000 • lOOOA
o o
xz =0
D
o 2000 4000 6000 8000 100001200014000
X¡
Figura 5.16: Región factible y variables de holgura
En la tabla anterior volvemos a encontrar algunas característica ya conocidas a partir de la definición de programa básico. Observamos que un punto extremo se obtiene haciendo nulas un número de variables igual a la diferencia entre el número de variables del problema, en este caso 5, y el número de restricciones del problema, en este caso 3, y resolviendo a continuación el sistema resultante. En general, como ya se ha estudiado, para un problema con n variables y m restricciones, este tipo de sistemas, son los que se forman a partir de matrices básicas m x m, y sus soluciones son las soluciones básicas del problema. Las variables no nulas corresponden a las columnas de la matriz del sistema A seleccionadas para formar la matriz básica, y son las llamadas variables básicas, mientras que las variables nulas corresponden al resto de columnas de la matriz A y son las variables no básicas. Además, como se observa en la tabla, dos vértices adyacentes se diferencian únicamente en que una variable nula pasa a ser no nula y una variable no nula pasa a ser nula. Entonces es posible desplazarse de un vértice a otro adyacente, intercambiando el papel "nula/no-nula" de dos variables solamente. Por ejemplo, para pasar del vértice O al vértice A, la variable x2 pasa de ser nula a ser no nula y la variable s 1 pasa de ser no nula a ser nula. En términos de matrices básicas se obtiene que la matriz básica B correspondiente al vértice O, que es la matriz formada por las columnas tercera, cuarta y quinta de la matriz A, y la matriz básica B' correspondiente al vértice A, formada por las columnas segunda, cuarta y quinta, se diferencian únicamente en una columna. Estas ideas geométricas y su traducción algebraica forman la base intuitiva del algoritmo del simplex cuya mecánica vamos a seguir a continuación paso a paso sobre el ejemplo.
302
UNIDAD DIDÁCTICA 5 Modelos de optimización
Etapa inicial El algoritmo del simplex necesita partir de un vértice. En algunos problemas este vértice inicial se obtiene fácilmente. No obstante, en caso de que no se disponga a primera vista de un vértice de partida, veremos más adelante de qué manera el propio algoritmo permite calcular uno. En este ejemplo es sencillo encontrar un vértice de partida. Tomaremos el vértice O que se obtiene haciendo x 1 = O, x2 = O y resolviendo el sistema en s 1 , s2 , s3 resultante. Este sistema es trivial: S¡
1000
S2
14000
S3
4000
En términos de variables básicas y no básicas, lo que se ha hecho ha sido elegir como matriz B la matriz formada por las columnas tercera, cuarta y quinta de la matriz A, o sea, la matriz
(~o o~ ~) 1
B
que trivialmente es una matriz básica. El valor que toma la función objetivo en este punto es: z= 10·0+30·0=0 Por tanto disponemos de la solución inicial X¡
=O,
X2
=O,
S¡
= 1000,
S2
= 14000,
S3
= 4000,
z
=o
Si despejamos las actuales variables básicas en el sistema de ecuaciones y en la función objetivo tenemos: S¡ S2
S3
z
-
1000 14000 4000
+
o
+
X¡
X2
X¡
2x2 X2
10x¡
X¡,X2,S],S2,S3 ~
+
30x2
0
Tenemos que preguntarnos ahora si ésta es la mejor solución que se puede obtener. La respuesta es, de manera evidente, no. Puesto que nos interesa maximizar z, no es razonable mantener las variables x 1,x2 en el valor O, ya que un aumento a un valor positivo de cualquiera de las dos variables, produce un aumento de z; en concreto, un aumento unitario de x 1 produce un incremento en z de 10 unidades y un aumento unitario de x2 produce un incremento en z de 30 unidades. Por tanto parece razonable incrementar cualquiera de las dos
El algoritmo del simplex
303
variables a fin de aumentar z. Puesto que hay dos variables candidatas a ser incrementadas, se plantea la cuestión de cuál de ellas debe ser seleccionada para experimentar un incremento y tomar un valor positivo. Para responder a esta cuestión se pueden emplear diferentes criterios. Por ejemplo, se podría seleccionar una cualquiera al azar, o bien seleccionar la que tenga menor índice, en este caso la variable x 1 , o la de mayor índice, en este caso la variable x2 . El algoritmo del simplex suele emplear el criterio de seleccionar como variable que va a ser incrementada aquélla que tenga un coeficiente mayor en la expresión de la función objetivo, rompiendo los empates arbitrariamente. Si aplicamos este criterio tenemos que calcular Máx
{10,30}
= 30
y por tanto la variable que se incrementará será la variable x2 . Se dice que la variable x2 entra en la base; el criterio anterior se denomina criterio de entrada del algoritmo. It eración 1 Sabiendo que la variable x2 va a ser aumentada a un nivel positivo hay que decidir a continuación hasta qué valor puede aumentarse. En principio, cabe pensar que debe aumentarse indefinidamente ya que cada unidad de aumento produce una mejora de la función objetivo. No obstante, no hay que perder de vista las restricciones. El aumento de x 2 debe estar limitado a no salirse de la región factible. Para averiguar hasta qué nivel puede aumentarse x2 sin salirse de la región factible, tenemos en cuenta las ecuaciones de restricción junto con la condición de que todas las variables han de ser no negativas. Puesto que X¡ seguirá estando en el nivel O, el sistema que liga las variables básicas actuales con la variable entrante es:
1000 14000 4000 Estas ecuaciones junto con las condiciones s 1 que o < S¡ 1000 14000 o < S2 4000 o < S3 o sea -
1000 1 '
X2
:S
X2 < -
14000 2
X2< - -
-
~
O, s2 2: O,s3 2: O, determinan X2 2x2 X2
4000 1
X2 < - -
-
o, en definitiva Mín
{ 1000 14000 4000 } _1_ ' _2_ ' _1_
y como, cuanto mayor sea el aumento de x2 mayor será el incremento de z, parece razonable aumentar la variable x2 al mayor nivel que pueda alcanzar,
304
UNIDAD DIDÁCTICA 5 Modelos de optimización
lo cual a su vez lleva consigo la anulación de una de las variables básicas, significando esto que se ha alcanzado un nuevo vértice. Mín
{
1000 14000 4000 } 1 ' 2 ' 1
1000
Cuando x2 toma el valor 1000, la variable básica SJ correspondiente a la ecuación en la que x2 alcanzó el mínimo se anula. Se dice que la variable s 1 sale de la base. El anterior criterio del cociente mínimo, se denomina criterio de salida del algoritmo del simplex. La nueva base es la formada por las columnas segunda, cuarta y quinta de la matriz A, que se diferencia de la anterior únicamente en una columna. Las correspondientes variables básicas son x2 , s 2 , s 3 . Para calcular el valor de la nueva solución básica utilizamos el sistema y tenemos en cuenta que x2 ha tomado el valor 1000. 1000 14000 4000
o
1000 2·1000 1000
12000 3000
El valor de la función objetivo en esta nueva solución es:
z = 10 . o + 30. 1000 = 30000 En resumen, la solución actual es: X]
= O,
X2
= 1000,
S]
= O,
S2
= 12000,
S3
= 3000, z = 30000
que corresponde al vértice A. Debemos ahora preguntarnos si esta solución es la solución óptima. Para responder a esta pregunta necesitamos reescribir z en función de las variables que actualmente no forman parte de la base. Así podremos decidir si es útil realizar un incremento a un nivel positivo de alguna de ellas. Para ello, despejamos en el sistema de ecuaciones las actuales variables de la base. Esto es sencillo: en la primera ecuación, la ecuación de la variable saliente, se despeja la variable entrante x2 y se sustituye este valor despejado en el resto de las ecuaciones y en la función objetivo: X2 S2 S3
z
1000 14000 4000 o
S] 2(1000 + xJ - s¡) (1000+x¡ -s¡) 10X¡ + + 30 ( 1000 +x¡ -s¡) X¡,X2,S¡ ,S2 ,S3 2: 0 +
X] X]
y al simplificar X2 S2 S3
z
1000 + X¡ 3x¡ + 12000 X¡ + 3000 30000 + 40x¡ X¡ ,X2,S],S2,S3 2: 0
S¡ 2s 1 S¡ 30s¡
El algoritmo del simplex
305
Este sistema puede escribirse de la forma original de la siguiente manera: X]
+ +
+
X2
+
S]
3xl
2s¡
XJ
S¡
+
40x 1
+
S2
+
30s¡ X¡,X2,SJ , S2,S3
S3
+ z
1000 12000 3000 30000
2': Ü
Estamos ahora en condiciones de responder a la pregunta de si la actual solución es la solución óptima. Como se deduce de la expresión de z un incremento de la variable X¡ producirá un aumento de la función objetivo: por cada unidad que incrementemos X¡, z aumentará 40 unidades. Por tanto, deducimos que la solución actual no es la solución óptima y debemos seguir iterando. La única variable cuyo incremento produce un aumento de z es la variable x 1 ; por lo tanto esta será la variable entrante. Iteración 2 De nuevo debemos averiguar hasta que nivel puede aumentarse Recurrimos una vez más al sistema de ecuaciones y la condición de que las variables han de ser no negativas. Si tenemos en cuenta que la otra variable no básica s1 no va a variar, manteniendo su actual valor nulo, llegamos a las condiciones: lQQQ + X¡ 12000 3x 1 3QQQ X¡
X¡.
Vemos que la variable X¡ puede crecer sin límite sin que se viole la condición de que la variable x2 sea no negativa. No ocurre lo mismo para las variables s2 y s3. La razón se deriva de los coeficientes de X¡: en la primera ecuación es positivo, mientras que en las otras dos es negativo. De estas dos condiciones se sigue que: 12000 3000 X¡< - X¡< - 3 1 o sea, Mín
{
12000 3000 } 3 , 1
Al igual que en la iteración anterior, deseamos el máximo aumento posible de z, al tiempo que llegar a un nuevo vértice, por lo que tomamos para x 1 el mayor valor que puede alcanzar: x1
=
Mín
{
12000 3000 } 3 , 1
3000
La variable básica correspondiente al mínimo anterior es la variable s 3 , que se convierte en la nueva variable saliente. La nueva base es ahora la formada
306
UNIDAD DIDÁCTICA 5 Modelos de optimización
por las columnas primera, segunda y cuarta de la matriz A. Obsérvese de nuevo cómo se diferencia de la anterior en una sola columna. Los valores de las variables son ahora:
+
1000 12000 3000
3000 3·3000 3000
4000 3000
o
El valor de z es:
z = 10.3000 + 30.4000 = 150000 En resumen, la solución actual es: X¡
= 3000,
X2
= 4000,
S¡
= O,
S2
= 3000,
S3
= O, z = 150000
que corresponde al vértice B. De nuevo hay que preguntarse si la solución actual es la mejor solución posible. Para ello, al igual que en la iteración anterior, despejamos el sistema en función de las variables básicas. 1000 12000 3000 30000
X2
S2 X¡
z
(3000 + s¡ - s3) 3(3000 + s 1 - s3) S¡ + 40(3000 + s¡s3) + X¡,X2,S1,S2,S3 2: 0
+
+
S¡ 2s¡ S3 30s¡
Al simplificar X2
S2 X¡
z
-
4000 + S¡ 3000 S¡ 3000 + 150000 + lOs¡ X¡,X2,S¡,S2,S3 2: 0
+
S3 3s3 S3 40s3
y en su forma original
+ +
X¡
X2
+
+ S3 S¡ 3s3 S2 + S¡ + S3 lOs¡ + 40s3 X¡,X2,Sl ,S2 ,S3 2: 0
+ z
4000 3000 3000 150000
Al observar la expresión de z deducimos que la solución actual no es la solución óptima del problema puesto que es posible aumentar una variable no básica, la variables¡ , desde su actual valor nulo hasta un valor positivo, puesto que ello producirá un aumento de la función objetivo. Así pues, hay que hacer entrar en la base a la variable s 1.
El algoritmo del simplex
307
Iteración 3 Al igual que en las iteraciones anteriores debemos averiguar la variable saliente. Para ello consideramos el sistema:
< x2 < Sz < X¡
O 0 0
=
4000 3000 3000
+
S¡ S¡
Claramente la primera y tercera condiciones no impiden el crecimiento sin límite de s¡. Es la segunda condición la que determina el máximo valor que puede tomar s 1
<
s¡
Mín
{ 30100 }
y para conseguir el mayor aumento de z posible tomamos Mín
{ 30100}
3000
La nueva base es ahora la formada por las columnas primera, segunda y tercera de la matriz A. Los valores de las variables son
xz
4000 3000 3000
sz X¡
o
3000 3000
+
6000
El valor de z es:
z=
10 6000 + 30 4000 = 180000 o
o
En resumen, la solución actual es: x 1 = 6000, x 2 = 4000, s 1 = 3000, s2 =O, s3 =O, z = 180000 que corresponde al vértice C. Para decidir si esta solución es la solución óptima replanteamos el sistema en función de la nueva base:
xz S¡ X¡
z
4000 3000 3000 150000
+
S3
sz (3000 sz + 3s3) + + 10(3000- sz + 3s3) X¡,Xz,S¡ ,Sz,S3 2': 0
+
Al simplificar:
xz S¡ X¡
z
4000 3000 sz 6000 sz 180000 lüsz X¡,Xz ,S¡,Sz ,S3 2': 0
S3
+ +
3s3 2s3 10s3
3s3 S3
40s3
308
UNIDAD DIDÁCTICA 5 Modelos de optimización
La expresión del sistema anterior en su forma original es:
+
X2
+ +
X¡
S¡
+ S3 S2 3s3 2s3 S2 lüs2 + lüs3 X¡ ,X2, S¡,S2 ,S3 2::0 + + +
+ z
4000 3000 6000 180000
Puesto que todos los coeficientes de las variables no básicas en la función objetivo son negativos no es útil aumentar el nivel de ninguna variable no básica. Por lo tanto podemos concluir que la solución actual es la solución óptima del problema.
5.5.2
Fundamentos teóricos del algoritmo del simplex
Si analizamos el ejemplo del apartado antetior, observamos que los elemento básicos del algoritmo del simplex son los siguientes: • Una solución básica factible inicial para comenzar las iteraciones. • Un criterio para decidir si una solución básica factible es una solución óptima. • Un criterio de entrada para determinar cuál es la variable que debe entrar en un base no óptima. • Un critetio de salida para determinar cuál es la variable que debe abandonar una base no óptima. Junto con estas cuestiones básicas son también interesantes otras como: • Determinación de una solución básica factible inicial cuando no se dispone trivialmente de una. • Disponer de un método de cálculo para actualizar los valores de las variables y coeficientes del problema después de haber efectuado un cambio de base. • Detectar situaciones especiales en el problema, como: múltiples óptimos, no acotación, problema no factible. Como veremos en los apartados siguientes, el algoritmo del simplex proporciona respuesta a todas estas cuestiones. Comenzaremos haciendo algunas consideraciones teóricas sobre cómo puede responderse a las mismas. Consideremos el problema de programación lineal bajo la forma standard: Maximizar z sujeto a Ax X
ex b
> 0
El algoritmo del simplex
309
Este es un requisito del algoritmo del simplex. Si el problema no está inicialmente bajo la forma standard, es preciso introducir las variables de holgura necesarias para tener el problema bajo el formato standard. Supondremos que A es una matriz m x n, con m < n, y rango m. Ya hemos comentado, que esto no supone ninguna limitación teórica. En la práctica, no siempre tiene que darse este caso, pero más adelante veremos de qué manera puede solucionarse este problema. Denotaremos con a1 al m-vector que forma la }-sima columna de A, de forma que A= (a1 ,a2, ... ,a11 ). Sea B = (aj 1 ,ah, ... ,aim) una submatriz de A, m x m, formada por m columnas de A, de rango máximo, es decir, B es una matriz básica. Denotaremos también I = {)¡,}2, ... ,Jm}, J = {1, 2, ... , n} - I. Dada B, podemos trocear la matriz A y los vectores x y e de la forma A
=
[B N] , x
= (
~ ) , e = (e8 , e!') y reescribir el sistema
como: (5.1)
b
Haciendo 0
= O se obtiene B~=b
La solución del sistema lineal anterior es:
Supongamos que Bes tal que s- 1b 2: O, de forma que (
~
) , es un programa
básico. El valor de la función objetivo en este programa es:
Si multiplicamos a la izquierda por s- 1 el sistema 5.1 resulta: (5.2)
El sistema anterior es el propio sistema de restricciones del problema escrito también en forma matricial en el que se han despejado las variables básicas. Nótese que las componentes de xB llevan los índices correpondientes a las columnas de A que han entrado a formar parte de B, que son exactamente los mismos que los índices de las filas de s- 1 • Denotaremos:
y llamaremos YJ.} E Jala }-sima columna de Y, YsJ.s E I,j E J, a la s-sima componente del vector y J, o sea, al elemento genérico de la matriz Y, de forma que Y = (y i )JEJ = (Y si) s EI ,}EJ. Según esta notación podemos escribir
Yi
= B - 1ai }El
310
UNIDAD DIDÁCTICA 5 Modelos de optimización
donde a1 es una de las columnas de la matriz no básica N. Con estas notaciones, el sistema 5.2 puede escribirse como (5.3)
o al desarrollar el producto de la matriz Y por el vector 5!':
J!3 + ~>JYJ
= x!3
(5.4)
}El
El sistema 5.4 escrito por filas es de la forma:
Xs+ LXJYsJ
= is sE/
(5.5)
}El
Expresamos ahora poner:
z en función de las variables fuera de la base. Podemos (5.6)
Si multiplicamos escalarmente a la izquierda el sistema 5.4 por el vector tiene
eBJ!3 + L,xieByJ
= eBxB
cB se (5.7)
}El
Si despejamos eBxB en 5.6 y sustituimos su valor en 5.7 obtenemos NN ~ B ex-L,.¡Xjeyj
B-R = z-e.r
}El
La ecuación anterior se puede escribir de las siguientes formas equivalentes:
L,eJXJ- L,xieBy1
}El
=
z-eBxB
}El
L, (e¡ -eByJ)x¡
z-eBxB
}El
Si introducimos ahora las notaciones B
ZJ =e YJ
z- =e B-R .r
resulta la expresión:
L, (e1 - z1)x1
z-z
}El
que también puede escribirse como:
L, (z¡ -e¡)x¡ + z }El
(5.8)
El algoritmo del simplex
Los números ( z1 -
COS TES RE DUC IDOS
e1)
311
j E J reciben un nombre especial.
5-~271 Los coeficientes (z1 - c1) j E J , donde
} El se llaman costes reducidos del problema de programación lineal con respecto de la base B.
Las ecuaciones 5.5 y 5.8 son la expresión del sistema de restricciones y función objetivo con respecto a las variables no básicas y forman lo que se llama el sistema explícito. A partir de ellas podemos extraer las conclusiones teóricas necesarias para encontrar los criterios del algoritmo del simplex.
SISTE MA EXP LÍCIT O
l 5.2(
Sea B
=
(a 11 ,a12 , .. . ,a1,J una m atriz básica y sean
1 = {}1 ,}2 , . .. ,}111 } ,
J = { l,2, . . . ,n} - I
El sistema de ecuaciones
.xf3 + ~ = xf3 "-' x }·v· . J }El
L (ZJ -c¡)xJ+Z =
z
jEJ
se denomina sistema explícito del problema de programación lineal con respecto de la base B.
Enunciamos a continuación una serie de resultados que se siguen directamente del sistema explícito. Todos ellos son la expresión formal de lo visto en el ejemplo de la sección anterior al que puede recurrirse para identificar cada una de las expresiones que van a presentarse a continuación. El lector puede intentar escribir detalladamente las demostraciones (véase, por ejemplo, Bazaraa y Jarvis (1981) pg. 100 y ss., Simmonard (1972), pg. 34 y ss.).
312
UNIDAD DIDÁCTICA 5 Modelos de optimización
SOLUCIÓN ACTUAL NO ÓPTIMA Y CRI T ERIO PARA SOLUCIÓN MEJ OR
Resultado 5.3 Sea un programa de base xB asociado a una base B en el cual la función objetivo toma el valor z. Supongamos que existe un k E J tal que (Zk - ck) < O y además existe s E 1 tal que Ysk > O, entonces la solución básica asociada a la base B' deducida de la B por sustitución de la columna ak por la columna ac, siendo l el índice definido por: Xs -xe =Mín { -;Ysk> O l sE! } YCk Ysk
es un nuevo programa de base que da a la función objetivo un valor Z1
INEXISTENCIA DE SOLUCIÓN ÓPTIMA FINITA
CONDICIÓN DE SOLUCIÓN OPTIMA
=
Z-
(
Zk - Ck ) -xc > _ Z-
(5.9)
Yek
Resultado 5.4 Dado un programa de base asociado a una base B , si existe un k E J tal que (Zk - ck) < O y además el vector Yk ::::; O, es decir Vs E 1 Ysk ::::; O, entonces la región factible es no acotada, de forma que pueden encontrarse soluciones factibles en las cuales la función objetivo toma valores arbitrariamente grandes y no existe, por tanto, programa m áximo finito. Resultado 5.5 D ado un programa de base asociado a una base B una condición necesaria y suficiente para que dicho programa sea un progrmna m áximo es que V j El (zJ·- cJ·)>O 1
CONDI CIÓN DE MÚLTIPLES SOLUCIONES ÓPTIMAS
CONDICIÓN DE SOLUCIÓN
Resultado 5.6 Dado un programa de base máximo asociado a una base B y los coeficientes (z 1 - c1) 2: O asociados a las variables fuera de la base una condición necesaria y suficiente para que otro programa sea un programa m áximo es que:
Resultado 5.7 Una condición necesaria y suficiente para que un programa básico máximo sea el único programa máximo es que
ÓPTIMA ÚN ICA
Los resultados anteriores constituyen el esqueleto teórico del algoritmo del simplex: cubren todas las posibilidades y permiten decidir algebraicamente en qué momento nos encontramos en el vértice, posiblemente no único, óptima.
El algoritmo del simplex
313
o alternativamente podemos obtener la evidencia de que la región factible es no acotada y es posible encontrar valores de la variables que, sin violar las restricciones, hacen que la función objetivo alcance valores arbitrariamente grandes. El caso de región factible vacía no se ha contemplado todavía, pues hemos partido de la hipótesis de que se dispone de un programa básico inicial. Esta situación se analizará posteriormente. Como consecuencia de los resultados anteriores pueden enunciarse una serie de criterios que determinarán la mecánica del algoritmo. Cuando existe k E J tal que (Zk - ek) < O, si se incrementa el valor de la variable no básica x k se obtiene para la función objetivo un valor mejor o igual que el anterior. Cuando existen varias variables que verifican dicha condición, cualquiera de ellas puede, en principio, mejorar el valor de la función objetivo. Como ya hemos comentado, pueden emplearse diferentes criterios para elegir la variable destinada a entrar en la base e incrementar su valor: elegir una cualquiera al azar, elegir la de menor índice, elegir la de mayor índice, etc. No obstante, el criterio adoptado normalmente por la mayoría de las versiones prácticas del algoritmo del simplex elige como variable entrante la variable Xk decretada por la condición de máximo siguiente. CRITERIO DE ENTRADA DEL ALGORITMO DEL SIMPLEX
¡__? . ~9 ~ En
una iteración del algoritmo del simplex se elige como variable que entra en la base la variable Xk, siendo k el índice definido por la expresión 1 Zk - Ck 1= Máx { 1 Zj - e j 1, ( Zj - e J) < 0}
El caso de empate se decide de manera arbitraria.
Una vez seleccionada mediante el criterio de entrada la variable entrante Xk. la variable que sale de la base viene determinada por el siguiente criterio del cociente mínimo o criterio de salida del algoritmo del simplex. CRITERIO DE
5.30 En una iteración del algoritmo del simplex se elige como variable que sale de la base la variable xe con índice .e definido por la expresión
1
SALIDA DEL
1
ALGORITMO DEL SIMPLEX
i e= Mín { -is ; Ysk>O , sE! } Yek Ysk
El caso de empate se decide seleccionando la variable de menor índice.
La aplicación de este criterio, junto con la exigencia de que todas las variables del problema sean no negativas, permite asegurar que no se abandona la región factible al efectuar un desplazamiento a lo largo de una arista desde un vértice hasta otro vértice adyacente. Cuando no hay ninguna variable no básica que pueda entrar a formar parte de la base, se tiene de manera evidente el programa óptimo.
314
UNIDAD DIDÁCTICA 5 Modelos de optimización
CRITERIO DE
En una iteración del algoritmo del simplex la condición
ÓPTIMO DEL ALGORITMO DEL SIMPLEX
determina que la solución básica actual es una solución óptima. Cuando el criterio de entrada determina que hay que aumentar la variable Xk y. sin embargo, según el criterio de salida no existe ninguna variable que pueda salir de la base, significa que la región factible es no acotada. En este caso la variable Xk puede crecer sin límite, al tiempo que la función objetivo aumenta con Xk. es decir se tiene un óptimo no finito. Esta situación se reconoce con el siguiente criterio. CRITERIO DE NO
5.32 En una iteración del algoritmo del simplex la condición
ACOTACIÓN DEL ALGORITMO DEL
3kEl
SIMPLEX
determina que el problema es no acotado y no tiene solución óptima finita. Si en programa básico óptimo ocurre que para alguna variable fuera de la base (zk- q) =O esta variable puede, en principio, considerarse como candidata a entrar en la base. Si recordamos la expresión 5.9, este cambio no implicaría modificación alguna en el valor de la función objetivo, por lo que el nuevo programa que se obtiene sigue siendo óptimo. Se reconoce así la situación en la que el problema tiene más de una solución óptima. CRITERIO DE
5.33__ Si en una solución óptima de algoritmo del simplex se cumple que
MÚLTIPLES ÓPTIMOS DEL
3kEl
ALGORITMO DEL SIMPLEX
entonces el problema tiene múltiples soluciones óptimas. En esta situación pueden ocurrir dos cosas: a) Si Yk 1:. O, al aplicar el criterio de salida del algoritmo existirá una variable básica que deba salir de la base cuando entre Xk. Se llega así a una nueva base, es decir a un nuevo vértice, en el cual la función del objetivo toma el mismo valor que en la base anterior. Resulta pues que hay dos vértices óptimos, digamos x 1 y x 2 . Cualquier punto de la arista de la región factible comprendida entre ambos vértices, que viene definido algebraicamente por la expresión
es también un punto óptimo. Estamos en una situación de múltiples óptimos, con más de un vértice extremo.
El algoritmo del simplex
315
b) Si Yk ::; O se tiene evidencia de que la región factible es no acotada. Ello quiere decir que X k puede crecer indefinidamente sin abandonar la región factible al tiempo que el valor de la función objetivo no se modifica, es decir, la región factible posee una arista no acotada formada toda ella por puntos óptimos. En particular esta arista tiene un vértice óptimo que es el punto óptimo actual del que habíamos partido.
5.5.3
Forma práct ica del algoritmo del simpl ex
Después del análisis teórico efectuado en el apartado anterior estamos en condiciones de enunciar esquemáticamente el algoritmo. Detallaremos el esquema de pasos a dar para resolver completamente un problema de maximización. El lector puede expresar el esquema análogo para el caso de minimización.
Esquema algorítmico a) Poner el sistema bajo la forma standard. b) Determinar un programa inicial de base xB asociado a una base B. Sea l
=
{)¡ ,}2, · · · ,Jm}
el conjunto de índices de las columnas de A que forman B y 1
= {1, 2, . . . , n} -
I
e) Calcular:
• La matriz
• Los valores Zj
= CBYJ
(Zj-Cj)
d) Comprobar los valores (zi -
ei),
} E
1
} El
j E 1:
d.l) Si (Zj-Cj)
2::0 \:/} El
entonces FINALIZAR. El programa actual xB es un programa básico óptimo. d.2) Si
(z 1 -c1) ;LO \:/} El entonces definir 1 1 = {j E 1
1
(z1 - c1) < 0}.
316
UNIDAD DID ÁC TIC A 5 Modelos de optimización
-------------------------------------------------e) Comprobar los vectores Yi, j E
h.
e.l) Si
3) Eh 1 Yi :::; O entonces FINALIZAR. No existe programa máximo finito.
e.2) Si VjE]¡
YJÍÜ
entonces - Determinar k por la relación
1Zk -
Ck
1= Máx{ l ZJ- CJ 1,
j E JI}
Criterio de entrada
- Determinar 1! por la relación , { -is ; Ysk>O , sE/ } -i e =Mm Yek Ysk
Criterio de salida
f) Calcular la nueva base B' deducida de la B por sustitución de la columna ae por la columna ak . Calcular el nuevo programa xB' asociado a B', la nueva matriz Y' y los nuevos valores z' 1 - e1 . Repetir la aplicación del
algoritmo desde la etapa d).
Fórmu las de cam bio de base En cada iteración, el algoritmo del simplex tiene que calcular el vector xB , la matriz Y y los coeficientes z1. En el cálculo de todos ellos interviene lamatriz s - 1 , inversa de la matriz básica B . Las bases que examina el algoritmo del simplex de iteración a iteración se diferencian únicamente en una columna. Ello parece sugerir que buena parte de la información necesaria en cada iteración puede obtenerse a partir de la iteración anterior, no siendo necesario reescribir y resolver de nuevo en cada paso el sistema de ecuaciones. Las simplificaciones se encuentran fácilmente al examinar el ejemplo de la sección anterior. En cada iteración del algoritmo, una variable no básica, la variable entrante, pasa a ocupar el lugar de una variable básica, la variable saliente. Para ello se despeja la variable entrante en la ecuación del sistema correspondiente a la variable básica saliente, y se sustituye este valor despejado en el resto de las ecuaciones correspondientes a las demás variables básicas. En este procedimiento hay un coeficiente del sistema que recibe un nombre especial. PIVOT E
5.34 Se llama pivote al coeficiente de la variable entrante Xk en la ecuación de la variable saliente, la ecuación de la variable xc; dicho coeficiente se ha denotado Ytk y es necesariamente positivo, según el criterio de entrada del algoritmo que lo define. Alrededor del pivote gira el proceso de actualización de las iteraciones. Para obtener la nueva expresión del sistema son necesarias dos tipos de operaciones:
1
El algoritmo del simplex
317
una para actualizar la ecuación de las variables entrante-saliente, o ecuación del pivote, y otra para actualizar el resto de las ecuaciones, incluida la ecuación correspondiente a la función objetivo. Si tenemos en cuenta las notaciones que se han utilizado, estas dos operaciones que permiten cambiar de base vienen escritas en forma simbólica a continuación. Observemos que la ecuación del pivote inicialmente tiene índice .e y después del cambio de base tiene índice k. ECUAC IÓN D EL
Resultado 5.8
PIVOT E
YCJ YCk
1
y kj
xc
-1
xk
RESTO DE LAS
j = l , . .. ,n
YCk
Resultado 5.9
EC UACION ES
YCJ YsJ - - Ysk YCk
1
Y sj
-
Xls
.Xc
Xs- - Ysk YCk
sE I - .C S
}= l , ... , n
E l - .C
Yc(zJ -cJ) - -1 (zk-ck ) Yf:k
(z11 - c1)
j=l , . .. ,n
z-1
Una observación detallada de las fórmulas anteriores revela que tienen todas una estructura común que permiten resumirlas en dos sencillas reglas nemotécnicas que son válidas para todas las ecuaciones y todas las variables, incluida la variable z del objetivo. FÓRM UL AS D E CAMBIO DE BA SE
Resultado 5.10 Ecuación del Pivote Vieja Ecuación Pivote Nueva Ecuación Pivote = - - = - - - - - - - Pivote
Resto de las ecuaciones
N ueva ) ( Ecuación
=
(
Vieja ) Ecuación -
Coeficiente de la vieja ecuación en la columna de la variable entrante
N ueva ) x
(
ec~ación
p1vote
318
UNIDAD DIDÁCTICA 5 Modelos de optimización
Base
Cj
X¡
Xj¡
xe ... x )·m
Xk
Xn
C¡
Cj¡
ce . . .
Ck
Cn
Xs
e}m ·
Xs Ysk
Xj¡
Cj ¡
YJ1 l
1 ...
o ... o
. ..
X j¡ YJ ¡k
YJ¡ n
Xj ¡ YJ1k
X¡
C¡
Ytt
o
1
o
Y Rk
Y ln
x¡
xe Yek
x·}m
o
e·}m
o
1
Y}mn
x·]m
x}m Y }mk
(zj - Cj)
z¡- C¡ ...
0 . .. 0 . . . 0 ...
Zk-Ck ... Zn -Cn
Z
Tabla 5.3: Tabla del simplex
La tabla del simplex Una fmma tradicional de expresar el transcurso de las iteraciones del algoritmo del simplex es presentar el proceso iterativo en forma de tabla o cuadro, denominado comúnmente tabla del simplex. Esta tabla es una forma reducida de expresar el sistema de ecuaciones y la función objetivo en cada iteración, junto con la información necesaria para desarrollar los criterios de entrada, salida y finalización del algoritmo. La tabla puede presentarse de diversas formas. Una forma usual se muestra en la tabla 5.3. La primera fila de la tabla simplemente incluye los nombres de las variables del problema. La segunda fila, es la fila de los coeficientes originales de la función objetivo. Debajo de cada variable se incluye una columna con los coeficientes de dicha variable en las ecuaciones del sistema explícito de cada iteración. Obsérvese que cuando una variable está en la base esta columna es un vector que tiene todas sus componentes cero salvo la correspondiente a la fila de la variable, como corresponde al hecho de que dicha variable está despejada en el sistema de ecuaciones. La tabla incluye cuatro columnas más. En la primera se ponen los nombres de las variables que están en la base en la iteración bajo consideración y en la segunda se ponen los coeficientes originales de dichas variables en la función objetivo. En la penúltima columna se ponen los valores actuales de las variables básicas, es decir, los valores del programa básico correspondiente o lado derecho de las restricciones. Puede añadirse una última columna en la que se ponen los cocientes entre la columna de valores de las variables básicas y los correspondientes elementos de la columna de la variable entrante, supuesto que éstos últimos son positivos; estos cocientes son necesarios para el criterio de salida del simplex. Finalmente, la última fila de la
El algoritmo del simplex
319
tabla es la ecuación de la función objetivo. En ella se pone la expresión de z en función de las variables no básicas. Por tanto incluye los coeficientes (z1 - CJ) en las columnas correspondientes a las variables no básicas y un cero en las columnas correspondientes a las variables básicas. El valor actual de la función objetivo se pone en esta fila en la columna correspondiente a los valores del programa.
z,
EJEMPLO 5.25
Vamos a resolver de nuevo el ejemplo inicial de esta sección utilizando las tablas del simplex. Recordemos que el problema bajo la forma standard es: Maximizar
z = lOx¡ + 30x2
+ +
S¡
sujeto a -X¡ X¡
+
X2 2x2 X2
+
1000 14000 4000
S2
+ S3 X],X2,S],S2,S3
o
>
De manera trivial la solución básica inicial está formada por las columnas correspondientes a las variables de holgura. Seleccionada esta base, la tabla inicial es una simple transcripción del sistema. Tabla inicial
Base
ej
o o o
S¡ S2 S3 (Zj - ej)
X¡
X2
10
30
-1 1
1 2
o -10
-30
S¡
S2
o o o 1 o 1 o o o o
S3
o o o
Xs
1
1000 14000 4000
o
o
La primera fila incluye los coeficientes ej. Además, aquellos que corresponden a las actuales variables básicas se ponen también en la segunda columna de la tabla. El resto de la tabla está formado por los coeficientes de las variables en las restricciones. La última columna es la columna de los términos independientes de las restricciones. La última fila se calcula utilizando la definición de Zj· Para ello es útil la segunda columna de coeficientes e j de variables básicas, columna que hay que ir multiplicando escalarmente por el resto de las columnas correspondientes a las variables no básicas.
ZI -e¡= (0,0,0) (
zo - c2 =(0,0,0) (
-l )
-10 = - 10
~) -30=-30
Los coeficientes correspondientes a variables básicas son siempre nulos como se desprende de la definición de z j -ej. Finalmente el valor de z se calcula como el producto
320
UNIDAD DIDÁCTICA 5 Modelos de optimización
escalar de la segunda columna por la columna de términos independientes:
z= (0,0,0)
(
1!~~~ ) 4000
=o
Estamos ya en condiciones de aplicar el algoritmo. La primera pregunta que hay que hacer es si existe algún ZJ - ei negativo. La respuesta es sí: z1 - c 1 y z2 - c2 . A continuación hay que mirar si alguna de las columnas 1 ó 2 es toda ella menor o igual que cero; si asi fuese no habría solución óptima finita. Puesto que ninguna de las dos columnas es enteramente no positiva, estamos en una situación en que hay que cambiar de base. El criterio de entrada, señala la variable entrante: {l-10 l, l -30 1} = 30
Máx
Corresponde pues entrar en la base a la variable x 2 • Para averiguar la variable saliente completamos la tabla con la columna de cocientes entre la última columna y la columna correspondiente a x 2 , teniendo en cuenta únicamente los positivos de esta columna, que en este caso son todos sus elementos. Iteración 1
Base
Cj
X¡
X2
10
30
S¡
S2
S3
o o o
Xs
Xs Ysk
S¡ S2
S3
(z1 - c1)
o o o
-1
[] 2
o -10
-30
1 o o o 1 o o o o o o
1000 14000 4000
1000 7000 4000
o
El elemento mínimo de la última columna es 1000. Por tanto, según el criterio de salida del algoritmo la variable saliente es la variable s 1 . El elemento situado en la fila de S¡ y en la columna de x2 es el elemento pivote. A continuación hay que actualizar la tabla. Para ello se recurre a las fórmulas de cambio de base: - La fila del pivote se divide por el pivote. Puesto que en este caso el pivote es 1, la fila no varía. - La segunda fila se cambia de la manera siguiente: a cada elemento de la fila se le resta el correspondiente elemento de la fila del pivote multiplicado por 2, que es el número que está en la segunda fila y en la columna de la variable entrante. - La tercera fila se cambia de la manera siguiente: a cada elemento de la fila se le resta el correspondiente elemento de la fila del pivote multiplicado por 1, que es el número que está en la tercera fila y en la columna de la variable entrante. - La última fila, correspondiente a la función objetivo, se cambia de la manera siguiente: a cada elemento de la fila se le resta el correspondiente elemento de la fila del pivote multiplicado por -30, que es el número que está en la última fila y en la columna de la variable entrante. Procediendo de este modo se llega a la tabla siguiente:
El algoritmo del simplex
X¡
X2
30
Base
Cj
10
X2
30
-1 3 1
o o
S2 S3
(ZJ-
cj)
St
S2
S3
o o o 1 1 o o o -2 1 o o -1 o o 30 o o
-40
321
Xs
1000 12000 3000 30000
Podemos comprobar que la última fila, obtenida de modo análogo a las demás filas, coincide exactamente con la que se obtendría aplicando la definición de los ZJ· Esto puede servirnos para comprobar la corrección de los cálculos en las iteraciones. En efecto:
Z¡-c 1 ~ (30,0,0) (
-¡) -10~-40
ze - c3 ~ (30,0,0) ( ::~) - 0~30 z=
(30,0,0) (
1;~~~ )
=
30000
3000
Examinando la última fila de la tabla vemos que la solución actual no es óptima, pues hay en la fila números negativos, en concreto el coeficiente z¡ - e ¡ = -40. La columna correspondiente no es toda no positiva. Asi pues, hay que proceder a la iteración siguiente. Puesto que -40 es el único coeficiente negativo, el criterio de entrada se reduce a: Máx {l-40 1} = 40 y por tanto debe entrar la variable x 1 . Completamos la tabla con los cocientes precisos para encontrar la variable saliente: Iteración 2
Base
Cj
Xt
X2
10
30
S¡
S2
S3
o o o
Xs
Xs Ysk
X2 S2 S3
30
-1
o 3 o [IJ
(Zj - Cj)
-40
o o o
-2 -1 30
o o 1 o o 1 o o
1000 12000 3000
4000 3000
30000
El mínimo de la columna de cocientes es 3000; por tanto sale la variable s3 . El elemento pivote es ahora el l. De nuevo actualizamos la tabla empleando las fórmulas de cambio de base: Vieja Fila 3 Nueva Fila 3 1 Nueva Fila 1 Vieja Fila 1 - ( -1) x Nueva Fila 3 Nueva Fila 2
Vieja Fila 2 - 3 x Nueva Fila 3
Nueva Fila 4
Vieja Fila 4 - ( - 40) x Nueva Fila 3
322
UNIDAD DIDÁCTICA S Modelos de optimización
De este modo se obtiene la tabla: X¡
X2
30
Base
Cj
10
X2
30
o o
S2
o
X¡
10
S2
S3
o o o o
1
o o o
o
( Zj - Cj )
S¡
1 -1 -10
o o
o
Xs
1 -3
4000 3000 3000
40
150000
De nuevo comprobamos que existe un coeficiente en la última fila que es negativo. - 1O. Como hay elementos positivos en la columna seguimos iterando. La variable entrante, decretada por el criterio del máximo:
{l -10 1} = 10
Máx
es la variable s 1 . Completamos la tabla con los cocientes entre la columna de valore: del programa y la columna de s 1 . Iteración 3
Base
Cj
X2
30
X¡
X2
10
30
S2
o
o o
X¡
10
1
o
(zi - c1)
S¡
S2
S3
o o
o
o o o [!] 1 o -1 o o -10 o
1 -3
4000 3000 3000
40
150000
Xs
Xs
Ysk
3000
La única variable que puede salir de la base es la variable s2 . Por tanto en la nueva base entrará s 1 y saldrá s2 . El pivote es el elemento l. La actualización de las filas es ahora: Vieja Fila 2
Nueva Fila 2
1
Nueva Fila 1
Vieja Fila 1 - Ox Nueva Fila 2
Nueva Fila 3
Vieja Fila 3 - ( - 1) x Nueva Fila 2
Nueva Fila 4
Vieja Fila 4 - ( - 1O) x Nueva Fila 2
La nueva tabla es:
Base
Cj
X2
30
S¡
o
X¡
10
(ZJ - cJ)
X¡
X2
10
30
o o o
1
S¡
o o
o 1 o o o o
S2
o o 10
S3
o
Xs
-3 -2
4000 3000 6000
10
180000
El algoritmo del simplex
323
La última fila de la tabla anterior nos indica que hemos llegado a la solución óptima, ya que todos los ZJ- eJ son positivos. La solución final que hemos obtenido es: x 1 = 6000, x 2 = 4000, s 1 = 3000, s2 =O, s 3 =O, z = 180000
que coincide con la solución obtenida anteriormente por otros métodos. Si nos fijamos en la figura 5.15 , observamos que la sucesión de vértices que ha recorrido el algoritmo en el transcurso de las iteraciones es O, A, B, C. •
5.5.4
Solución inicial de base: variables artificiales
La aplicación del algoritmo del simplex exige conocer un programa básico inicial. En algunos casos es sencillo encontrar dicho programa. Por ejemplo, cuando todas las restricciones son del tipo ::; y todos los elementos del vector de términos independientes son no negativos, se encuentra fácilmente un programa básico igualando las variables de holgura al término independiente de su ecuación. No obstante, el caso general puede no ser tan simple. En un problema real, puede ocurrir que las restricciones sean incompatibles, debido a las exigencias del problema, errores en los datos, etc., o siendo compatibles no es fácil determinar a primera vista un programa básico de partida. Esto está relacionado con la hipótesis que se ha hecho en los desarrollos teóricos de que la matriz del sistema era de rango m y por tanto contenía una submatriz m x m de rango máximo. Es ahora el momento de abandonar esta hipótesis y analizar el problema general. Puede presentarse dos situaciones: o bien las restricciones del problema son incompatibles, con lo que la región factible es vacía, o bien existe algún punto que verifique todas las restricciones, en cuyo caso, según el teorema fundamental de la programación lineal existirá algún vértice factible. Veremos cómo la aplicación del algoritmo del simplex es capaz de detectar qué situación corresponde a un problema dado y proporcionar un programa básico inicial factible o, alternativamente, decidir que el problema no tiene soluciones factibles. Base artificial
La idea subyacente en el método de la base artificial es muy simple: si no se dispone a primera vista de un programa básico inicial factible se crea artificialmente y luego se manipula convenientemente para llegar a un programa básico del problema dado. Para ello hay que realizar los pasos siguientes: a) Poner el problema bajo la forma standard. b) Multiplicar, si es necesario, alguna de las ecuaciones por -1 de modo que todos los elementos del vector del lado derecho sean no negativos. e) Añadir a la matriz A el número necesario y suficiente de vectores columna unidad para cambiarla en una matriz aumentada A a que contenga una submatriz unidad de orden m. El número máximo de columnas a
324
UNIDAD DIDÁCTICA 5 Modelos de optimización
añadir será m, y a menudo será inferior a m , en particular cuando ha sido necesario introducir variables de holgura. Veamos qué efecto producen estas operaciones en el sistema. Supongamos que para poner el sistema en la forma standard ha sido preciso introducir m - p variables de holgura afectadas con el signo +, es decir, las variables necesarias para convertir una desigualdad del tipo :S en una igualdad son m - p y, sin pérdida de generalidad, vamos a suponer que están en las m - p últimas ecuaciones. Previamente hemos convertido todos los b¡ del lado derecho en no negativos. El sistema puede escribirse de la forma: 11
L,
b¡
i = 1, .. . ,p
a¡jXJ
b¡
i = p+l, .. . ,m
b¡
> O
a ¡JXJ
=
J=m - p+ ! 11
Xi-p+
L j=m - p+l
con
Las variables X¡,x2, . . . , x m-p son las variables de holgura. A fin de obtener una matriz unidad de dimensión m se añaden p vectores unidad al sistema, cada uno de ellos asociado a una variable X{, .x2, ... ,~ , que se llamarán variables artificiales. El sistema queda: 11
xf
+ L
a¡1x 1
b¡
i=l, ... ,p
a ¡1x 1
b¡
i = p + 1, . . . ,m
b¡
> O
j=m- p+ ! 11
X¡_P
+
L j=m-p+ l
con
Sea A' la matriz original del sistema en forma canónica, o sea antes de introducir las variables de holgura
e ¡m la matriz identidad de orden m
Entonces, la matriz A a = [Im A'] se denomina matriz aumentada y el vector ~· = (r¡, .... ~)' se llama vector de variables artificiales. Utilizamos tam1 bién las notaciones x = (x 1 , ... ,Xp,Xp+ l• .. . , x 11 ) para designar al vector que incluye las variables originales junto con las variables de holgura y, de forma usual, b = (b¡, . . . ,bm/ es el vector de los términos del lado derecho de las
El algoritmo del simvlex
325
restricciones. Podemos reescribir el sistema de restricciones en forma matricial como
La matriz A a contiene, evidentemente, una sub matriz de rango m, por lo que ya se cumple la hipótesis que sobre la matriz del sistema que se utilizó en los apartados anteriores al hacer el desarrollo teórico del algoritmo del simplex. Además, la solución evidente X¡a_ -
b ¡,
a_ . . . Xp -
bP•
X¡
= b p+ i •
.. . Xm - p
= bm
constituye, de manera evidente, un programa inicial de base. El problema original queda transformado en el siguiente: PROBLEMA AU M ENTADO
~}-~_j Se denomina problema aumentado al siguiente problema: Maximizar
z = ex
sujeto a
Hemos conseguido pues construir un problema que verifica todas las hipótesis que habíamos exigido en el método del simplex. Resta por ver cómo están relacionadas las soluciones de este problema con las soluciones del problema original. La relación es simple: Resultado 5.11 Un programa del problema aumentado
X? (
i
) es un pro-
grama del problema original siempre y cuando X?= O.
Se trata entonces de idear algún procedimiento que nos conduzca a un programa del problema aumentado en el cual todas las variables artificiales tomen el valor cero. En ese momento tendremos un programa del problema original y podemos abandonar las variables artificiales. Estudiaremos dos métodos para conseguir esto: el método de las penalizaciones y el método de las dos fases; antes veremos un ejemplo de como se construye la base artificial. EJEMP LO 5.26 Consideremos el problema de la compañía Z presentado en la sección 5.5 .1, página 298, y supongamos que se han revisado las restricciones relativas a la demanda, de forma que las nuevas condiciones son las siguientes:
326
UNIDAD DIDÁCT ICA 5 Modelos de optimización
X2
8000 7000 6000 5000 4000
-+---__;;;r-_.;;:o~,...._
_ _ _ _ _ __
3000 2000 1000 z ..._
-o:- --0o
2ooe - 4Qoo 6ooo 8ooo 1000012000 14ooo
-
x¡
Figura 5.17: Representación gráfica de la segunda versión del problema de la empresa Z.
• El número de unidades del producto P1 ha de ser mayor que el número de unidades del producto P2.
• La diferencia entre el número de unidades del producto P2 y la mitad del número de unidades del producto P1 ha de ser como mínimo de 500 unidades. X¡
2 > - 500
X2 - -
• El número de unidades del producto P2 no ha de superar las 4000 unidades. X2 ::;
4000
La restricción relativa a las necesidades de materia prima es la misma que en el caso anterior, o sea, x¡ + 2x2::; 14000
Asimismo, la función objetivo no varía. En resumen, el nuevo problema de la compañía Z, cuya representación gráfica puede verse en la figura 5.17, se puede formular de la manera siguiente: Maximizar
z = 10x¡
+ 30x2
sujeto a - X¡ - X¡ X¡
+ + +
2x2 X2 2x2 X2
X¡, X2
> 1000 o < < 14000 < 4000 o >
El algoritmo del simplex
327
Después de añadir las variables de holgura, la forma standard del problema es: Maximizar
z = 10x1
+ 30x2
sujeto a -X¡
+ 2X2- S¡
-X¡+ x¡
=
+ S2
X2
+ 2x2
+ S3
X2
+ S4
X¡,X2,S] , S2,S3,S4
1000 0 = 14000 = 4000 2:: 0
La matriz del sistema no posee una submatriz unitaria de dimensión 4. Podría pensarse en utilizar la submatriz formada por las columnas correspondientes a la variables s¡,S2,SJ,S4 que efectivamente es una matriz básica. Sin embargo la solución básica que proporcionaría no sería un programa pues tendría la primera componente negativa. Entonces, de un modo general, las únicas columnas aprovechables para formar una matriz unitaria son las correspondientes a las variables de holgura que tienen signo positivo. Ahora utilizamos la idea de la base artificial desarrollada anteriormente. Puesto que en la primera ecuación no disponemos de una variable despejada, la introducimos artificialmente. El problema aumentado es el siguiente: Maximizar
z=
lOx,
+ 30x2
sujeto a -X¡+ 2x2 -X¡+ x¡
X2
+ 2x2 X2
+X:=
St
+ S2
+ S3
+ S4
X¡,X2,St,S2,S3,S4,Xl
=
1000 0 14000 4000
2:: 0
Disponemos ahora de una matriz básica unitaria inicial: la formada por las cuatro últimas columnas. Las variables básicas son x), s2 ,s3 , s4 , y el programa básico inicial, artificialmente construido, es 1 = 1000,s2 = O,s 3 = 14000,s4 = 4000. Este programa corresponde al punto O de la figura 5.17 que, como puede observarse no pertenece a la región factible. Veamos a continuación cómo es posible llegar a la solución óptima del problema a partir de este programa.
•
El método de las pe na lidades El método de las penalidades se basa en la idea siguiente: puesto que ninguna variable artificial puede tener un valor estrictamente positivo en el óptimo, ya que entonces no tendríamos una solución del problema original, hay que forzarla a que tome un valor nulo en el programa óptimo. Para ello, en un problema de maximización, se introducen las variables artificiales en la función objetivo multiplicadas por un coeficiente -M, donde M es un número positivo arbitrariamente grande, siempre mayor que cualquier otro número con el cual se le compare en el transcurso de los cálculos del algoritmo del simplex. Por esta razón el método se llama también método de la gran M. De este modo, la presencia en la base de una variable artificial con un valor estrictamente positivo llevará consigo un valor arbitrariamente pequeño para la función objetivo. Si lo que se pretende es maximizar la función objetivo, el algoritmo del simplex tenderá a expulsar de la base a
328
UNIDAD DIDÁ CTICA 5 Modelos de optimización
las variables artificiales en tanto en cuanto sea posible. De esta forma el nuevo problema que considera el método es: PROBLEMA
! 5.36 '
AUMENTADO PENALIZADO
. M ax1.m1zaz·
z -- - M "P L.i=l X¡,.a+ ex
sujeto a
Los resultados siguientes son evidentes: a) Si uno de los problemas no tiene óptimo finito entonces el otro tampoco lo tiene. b) Todo programa del problema original es también un programa del problema aumentado, pues basta poner x!- = O. e) Si existe un programa del problema inicial entonces el programa máximo del problema aumentado no puede contener variables artificiales en la base con valor estrictamente positivo. d) Todo programa del problema aumentado que no contenga variables artificiales estrictamente positivas es un programa del problema original. Según los resultados anteriores, podemos aplicar el algoritmo del simplex al problema aumentado hasta su finalización. Puesto que lo que se pretende es expulsar a las variables artificiales de la base, una estrategia que ahorrará iteraciones consiste en tener la precaución de que en el momento en que una variable artificial sale de la base se la excluye del criterio de entrada en las iteraciones posteriores, impidiendo que vuelva a formar parte de la base. Notando que, por construcción, el problema aumentado es siempre factible, las situaciones que pueden presentarse son: l. El problema aumentado es no acotado con máximo no finito. Entonces el problema inicial es también no acotado con máximo no finito. 2. Se ha llegado al óptimo del problema aumentado. Pueden ocurrir dos casos: a) Si la base óptima del problema aumentado tiene variables artificiales no nulas, entonces el problema original es no factible. El sistema de restricciones del problema es incompatible. b) Si la base óptima del problema aumentado no contiene variables
artificiales estrictamente positivas, entonces se dispone de un programa básico inicial para el problema original. Aquí también se pueden distinguir dos posibles situaciones:
El algoritmo del simplex
329
1) La base no contiene variables artificiales : se dispone entonces de un programa básico del problema original. Se continúa aplicando el algoritmo del simplex, al problema original hasta su finalización. Las variables artificiales pueden descartarse en esta etapa. 2) La base contiene variables artificiales a nivel nulo. Se dispone entonces de un programa básico del problema original con menos de m variables estrictamente positivas. Recordando las fórmulas de transformación, si se desea descartar las variables artificiales presentes en la base pueden sustituirse por variables no básicas, tales que tengan un coeficiente no nulo en la ecuación de la variable artificial. Esto simplemente equivale a despejar una variable no básica en la ecuación de la variable artificial presente en la base y sustituirla en las demás ecuaciones. Como el valor de la variable artificial es nulo, la variable que se intercambia con ella entrará también en la base con valor nulo y el programa inicial de que se dispone seguirá siendo el mismo. EJE M PLO 5.27
Apliquemos el método de las penalidades al problema del ejemplo 5.26. La tabla inicial es: Tabla inicial X¡
Base
x1 sz
S3 S4
(ZJ-Cj)
Cj
10
- M
-1
o o o
-1 1
xz 30 2 1 2
o - IO+M -30-2M
S¡
sz
o o -1 o o 1 o o o o M o
S3 S4
x1•
o o -M o o 1 o o o 1 o o o o o o o
Xs
1000
o
14000 4000 - 1000M
Observemos cómo los coeficientes ZJ - e1 tienen un término que depende de la penalidad M. La solución inicial que tenemos tiene una variable artificial en la base con un valor positivo. Esta solución corresponde al punto x 1 = O,x2 = O, que es no factible . Comenzamos ahora las iteraciones del algoritmo del simplex. En primer lugar debemos preguntarnos si la solución actual es la solución óptima del problema aumentado. Para ello examinamos la última fila: si en ella hay términos negativos, concluimos que la solución no es óptima. El coeficiente z1 - c 1 = -10 +M es de hecho positivo, puesto que M es arbitrariamente grande. En cambio el coeficiente zz - c2 = - 30 - 2M es negativo. Además es el único coeficiente negativo. Puesto que en su columna existen términos positivos concluimos que la solución actual no es la solución óptima. Debemos pues iterar: entrará la variable xz. Completemos la tabla para determinar la variable saliente:
330
UNIDAD DIDÁCTICA 5 Modelos de optimización
Iteración 1
Base
xJ
X¡
X2
S¡ S2 S3 S4
xJ
Cj
10
30
o o o o
- M
-M
-1 -1 1
2
o o o 1 o o o 1 o o o M o o
o o o
S2 S3 S4
[!] 2
o - lO+M - 30-2M
(zj - cj)
o o o o o o o o
-1
Xs
Xs
Ysk
1000
500
o
o
14000 4000
7000 4000
- lOOOM
El mínimo de la columna de cocientes es el O. Por tanto sale la variable s2. El pivote vale l. Actualizamos la tabla utilizando las fórmulas de cambio de base. La nueva tabla es:
Cj
Base
- M 30
xJ X2 S4
(zj -cj)
X2
S¡
S2
S3 S4
10
30
o
o
o
-1
-2 1 -2 -1
o o -M o o o o o 1 o o o 1 o o o o
-1 3
o o
S3
xJ
X¡
o o o o o o M 1
-40-M
30+2M
Xs
1000
o 14000 4000 -lOOOM
Aplicando el criterio de entrada, la única variable candidata a entrar en la base, es la variable x 1. Para encontrar la variable saliente determinamos el cociente mínimo:
Iteración 2
Base
xJ X2 S3 S4
(zj - cj)
Cj
X¡
X2
S¡
S2
S3 S4
xJ
10
30
o
o
o o
-M
-1
-2
o o 1 o o o 1 o o o o o o o
-M 30
[!]
o o
3
-1
-40-M
o
o o o o o o M
-2 -1 30+2M
Xs
Xs Ysk
1000
1000
o 14000 4000
14000 3 4000
- lOOOM
La fila x2 no se considera para el criterio de salida porque el término correspondiente a la columna entrante x 1 es negativo. El mínimo del criterio de salida es 1000 , por lo que corresponde salir a la variable artificial X{. El pivote es l. Si actualizamos la tabla:
El algoritmo del simplex
X¡
Base X2 S3 S4 (Zj-Cj)
S2
xf
S3 S4
o o o o 10 1 o -1 -2 o o 30 o 1 -1 -1 o o o o o 3 4 1 o o o o 1 1 o 1 o o -40 -50 o o Cj
X¡
S¡
X2
331
-M
Xs
1 -3 -1
1000 1000 11000 3000
40+M
40000
10 30
Tenemos en este momento un programa básico del problema aumentado en el cual la variable artificial toma el valor cero. Por tanto tenemos ya un programa del problema original. A partir de aquí se continua aplicando el algoritmo. Aunque la columna de la variable artificial no es ya estrictamente necesaria podemos conservarla pues puede ser útil en análisis posteriores. La solución de la tabla anterior no es evidentemente óptima, pues hay Zj- c1 negativos . El criterio de entrada: Máx{l - 40
¡, l -
50 1} =50
señala que la variable entrante es s 2 . Determinemos la variable saliente: Iteración 3
Base X¡
X2
Cj
X¡
X2
S¡
10
30
o o o o
10 1 30 o
o
o o oo o
o o o
S3 S4 (ZJ-Cj)
S2
o o o o [iJ 1 o 1 o -50 o o
-1 -1
1
xf
SJ S4
-M
-2 -1
3 -40
Xs
Xs
Ysk
1000 1000 11000 2750 3000 3000
1 -3 -1
40+M
40000
Las variables x 1 ,x2 no son candidatas a salir de la base. El criterio de salida Min{2750,3000} = 2750 determina que s3 debe abandonar la base. El pivote es 4. La nueva tabla es: X¡
X2
Base
Cj
10 30
X¡
10
o
X2 S2 S4
(zJ-c;)
o 1 o o o o o o
S¡
S3
1
-
21
o o
34 -
í-
4 5 - 2
1
o o
1
-
t
-
í \ -
xf
S4
o o o o
30
o o
S2
-M 1
o o o
3750
-
43
í 4
o
6500
12
- -
4 25 2
Xs
5 2
-+M
2750 250 177500
332
UNIDAD DIDÁCTICA S Modelos de optimización
Puesto que hay un elemento negativo en la última fila hay que seguir iterando. La variable entrante es la variable s 1 . Completamos la tabla para determinar la variable saliente: Iteración 4 X¡
Cj
Base
S¡
X2
52
53
x't
54
o o o o
10 30
-M
Xs
Xs Ysk
X¡
10
X2
30
1 2
o
-
o
4
o o o
-
54
o o o
rn
(zj - cj)
-
o
--
6500
o
-
o
-
1 4
3750
-
o
3 4
52
2 4
4
5 2
o o
1 2
o
o o
4 25 2
o
X¡
Base X¡ X2
52 S¡
(zj - cj )
X2
S¡ 52 53
3 4
2750
11000 3
1 4
250
1000
5 2
- +M
El mínimo se alcanza en la variable s4 ; el pivote es
10 30
177500
1
. La nueva tabla es: 4 54
x't
o o o o -M 10 1 o o o 1 -2 o 30 o 1 o o o 1 o o o o o 1 1 -3 o o o o o -1 4 -1 o o o o 10 10 M Cj
13000
Xs
6000 4000 2000 1000 180000
Finalmente, puesto que todos los coeficientes Zj - e j son no negativos, se concluye que la solución actual es la solución óptima. El programa óptimo es: X¡ =
6000, X2 = 4000, S¡ = 1000, 52= 2000, 53 = O, 54= O,
z=
180000
• El método de las dos fases El método de las penalidades puede presentar dos inconvenientes cuando se programa en un computador. Dado que, antes de comenzar las iteraciones, hay que introducir un número M concreto, si se utiliza un número demasiado pequeño puede ocurrir que, en el transcurso de las comparaciones que hace el alg01itmo, resulte ser menor que otro de los números con el que haya que compararlo, posiblemente conduciendo a secuencias erróneas; por otra parte, si se utiliza un número M demasiado grande, en el
El algoritmo del simplex
333
transcurso de las iteraciones pueden producirse errores de redondeo que, acumulándose, hagan inexacta la solución obtenida. Otro método que se puede utilizar para eliminar las variables artificiales de la base es el método de las dos fases . Este método es el método que se utiliza normalmente cuando se programa el algoritmo del simplex en un computador ya que evita tener que asignar a priori un número M arbitrariamente grande, como en el método de las penalidades. Como su nombre indica el método resuelve el problema en dos fases: Fase 1: Determinar si el problema original es factible y en caso afirmativo, calcular un programa inicial de base. Fase 2: A partir del programa calculado en la fase anterior encontrar el programa óptimo.
Fase 1 Independientemente de que se trate de un problema de maximizar o minimizar, en la fase 1 la función objetivo se reemplaza por una función auxiliar que sea la suma de las variables artificiales y se minimiza esta función. El problema que se considera es: PROBLEMA
5.37
AUXILIAR DE LA
Minimizar
PRIMERA FASE
( = If=1X¡'
sujeto a A
0 (
~) J!l,
X
b
>
o
Se verifica que: 1) Todo programa básico del problema original es también un programa básico del problema auxiliar con J!1 =O. Por tanto si el problema original es factible, lo cual implica que existe al menos un programa básico, el mínimo del problema auxiliar vale necesariamente cero, ya que por definición ( 2: O.
s
2) Si se dispone de un programa del problema auxiliar, en el cual = O, o equivalentemente, en el cual todas las variables artificiales son nulas, entonces se dispone de un programa para el problema original. La primera fase consiste pues en resolver el problema auxiliar hasta que se llegue a una de las situaciones siguientes: a)
s = O y la base actual no contiene variables artificiales: el programa básico actual es un programa básico para el problema original. Se pasa a la segunda fase.
334
UNIDAD DIDÁCTICA S Modelos de optimización
s
b)
= O y la base actual contiene variables básicas necesariamente nulas: el programa actual es un programa, no necesariamente de base, del problema original. Se pasa a la segunda fase.
e)
> O y mínimo: el problema original no tiene soluciones factibles. Se finaliza la aplicación del alg01itmo.
s
Fase 2 En esta fase se vuelve a tomar la función objetivo original 11
Maximizar
z=
L eJXi j=l
y se utiliza la tabla del simplex tal como se ha obtenido al final de la primera fase. La parte de la tabla correspondiente al sistema de ecuaciones se utiliza tal como está. Si no se consideran necesarias las variables artificiales para análisis posteriores pueden eliminarse en las iteraciones siguientes. Utilizando los vectores del tabla Yi y considerando los coeficientes básicos es de la función z, se recalcula la fila de costes reducidos para z, tomando el algoritmo las decisiones correspondientes a las iteraciones posteriores en base a esta nueva fila. En ocasiones, puede interesar simultanear desde el comienzo los cálculos relativos a las funciones y z de modo que al final de la primera fase ya se disponga de los coeficientes ZJ - c1. A continuación se prosigue la aplicación del algoritmo, teniendo en cuenta lo siguiente:
s
a) Si al final de la primera fase se ha llegado a la situación denotada con a), se aplica el algoritmo hasta la obtención del óptimo (finito o infinito). b) Si al final de la primera fase se ha llegado a la situación denotada con b) se aplica el algoritmo sin considerar en ningún caso como candidatas a entrar en la base aquellas variables que, siendo no básicas al final de la primera fase, son tales que su costo reducido relativo a la función es estrictamente negativo, es decir, nunca se permitirá entrar en la base a una variable tal que al final de la primera fase tenga un número estrictamente negativo en la fila de la tabla del simplex correspondiente a la función auxiliar
s
s.
La aplicación de este criterio de entrada restringido en las iteraciones siguientes garantiza que ninguna variable artificial presente en la base con un valor nulo pase a tomar un valor positivo, lo que significaría haber abandonado la región factible del problema original. De este modo todos los programas obtenidos en las iteraciones posteriores son programas del problema original 3 . El algoritmo se detiene cuando se llega al óptimo (finito o infinito). 3 Los
detalles pueden consultarse, por ejemplo, en Simrnonard, 1972, pg. 55
El algoritmo del simplex
335
EJEMPLO 5.28 Vamos a resolver de nuevo el problema del ejemplo 5.26, utilizando el método de las dos fases para eliminar la variable artificial. El problema auxiliar es:
s= xf
Minimizar sujeto a - X¡+ -X¡ X¡
2x2-
+ xf
S¡
+ X2 + 2x2
+ S2
+ S3
X2
+ S4
=
1000
=
14000 4000
o
Utilizamos el algoritmo del simplex. La tabla inicial es: Tabla inicial X¡
Base
X2
S¡
o o o 1 -1 2 -1 o o -1 1 o 1 o 1 2 o o o o o o -1 2 - 1 o
o o 1 o o 1 o o o 1 o o o 1 o o o o
Yi O
xf S2 S3
S4
(Si- Yi)
xf
S2 S3 S4
Xs
1000
o 14000 4000 1000
Como ahora se trata de un problema de minimización el criterio de entrada selecciona como variable entrante la de mayor valor absoluto entre los positivos de la última fila, es decir, la variable entrante es la variable x 2 . Para determinar la variable saliente completamos la tabla con la columna de cocientes: Iteración 1 X¡
X2
Yi
xf
1 -1 o -1 o 1
S2 S4
(Si- Yi)
S2 S3 S4
xf
o o o o o o
Base
S3
S¡
o o [!] o 1 o 2 o o 1 o o o o o -1 2 -1 o o 2
-1
Xs
Xs
o 1 o o o o 1 o o o
Ysk
1000
500
o
o
14000 7000 4000 4000 1000
Sale la variable s2 . El pivote es l. La nueva tabla es: X¡ X2 S]
Base
xf X2 S3
S4
(Si- Yi)
Yi O
1 1
o -1 o3 o1 1
S2 S3 S4
o o o o -1 -2 1 o 1 o o -2 o o -1 o -1 -2
xf
o o o o o o o 1 o o o o o o o
Xs
1000
o 14000 4000 1000
336
UNIDAD DIDÁCTICA 5 Modelos de optimización
La variable entrante es x 1 por ser la única variable con coeficiente positivo en la fila del objetivo. Para determinar la variable saliente completamos la tabla: Iteración 2 X¡
S3 S4
x'í
o o o o o
1
X2
S¡
Base
Yi O
x'í
l[IJ o -1 o -1 o o 3 o o o 1 o o o -1
X2 S3 S4
(Si - YJ)
S2
-2 1 -2
-1 -2
Xs
Xs
Ysk
o o o o o 1 o o o o o o o
1000
1000
o
14000 14000 - 3 4000 4000 1000
Sale la variable artificial xf. La nueva tabla es:
Base
X¡ X2 S¡ S2 SJ S4
x'.'1
o o o o o o 1 o o o o
1
Xs
1 -3 -1
1000 1000 11000 3000
-1
o
o o o o o 1 o -1 -2 o o 1 -1 -1 oo o 3 4 oo o o o o o
Yi
X¡ X2 SJ S4
(Si- YJ)
Toda la última fila es no positiva; entonces estamos en el programa óptimo de la primera fase. La función auxiliar ha alcanzado su mínimo O. No hay variables artificiales en la base. Por tanto el programa actual es un programa básico inicial para el problema original. Todas las variables no básicas tienen un coeficiente Si - YJ nulo; ello quiere decir que todas serán candidatas a entrar en la base en las iteraciones siguientes. Todavía hay que averiguar si el programa actual es un programa óptimo. Para ello tenemos que volver a considerar la función objetivo del problema original. Volvemos a escribir la tabla introduciendo ahora los coeficientes de la función z. Podemos conservar la variable artificial, porque puede ser útil disponer de su columna para posteriores análisis ; su coeficiente en z es cero y nunca se considerará candidata a la entrada en la base.
s
Iteración 3
x'í o o o o Cj 10 30 o 10 1 o -1 -2 o o 30 o 1 -1 -1 o o 1 o o o 3 4 1 o -3 o o o o -1 o o -40 -SO o o 40 X¡
Base X¡ X2 S3 S4 (Zj -Cj )
X2
S¡
S2
S3 S4
Xs
1000 1000 11000 3000 40000
El algoritmo ael simplex
33'7
Como ahora el problema es de maximizar se concluye que la solución actu al es todavía mejorable. Hay que seguir la rutina del algoritmo del simplex. El resto de las iteraciones son similares a las obtenidas con el método de las penalidades. Iteración 4 X¡
xf o o o o o
S¡
X2
Base
Cj 10 30
X¡
101
o
o 1 o o o o o o
1
-
21
30
X2 S2 S4
(ZJ-
cj)
o o
S2
o o
34 -
í-
4 5 2
o o
S3
-
r
-
í-
4 1 - 4 25 2
S4
o o o
1
6500
12 3750
-
43
í 4
o
Xs
5 2
-
2750 250 177500
Iteración 5 X¡
Base
Cj 10
X¡
101 30 o
X2 S2 S¡
(Zj - CJ )
o o o o o
xf 30 0 o o o o o o o 1 -2 o 1 o o o 1 o o o 1 1 -3 o o 1 o -1 4 -1 o o o 10 10 o X2 S¡ S2 S3
La última tabla contiene la solución óptima.
5.5.5
S4
Xs
6000 4000 2000 1000 180000
•
Casos especiales en la aplicación del algoritmo del simplex
En los ejemplos del algoritmo del simplex que hemos visto hasta ahora la solución óptima del problema existe y es única. Si recordamos el apartado 5.4.4, en un problema de programación lineal pueden darse diferentes situaciones: múltiples óptimos, no acotación de la región factible con óptimo infinito, no acotación de la región factible con óptimo finito , no acotación de la región factible con óptimos finito e infinito, o incluso región factible vacía. Veremos a continuación cómo puede reconocerse cada una de estas situaciones en la tabla del simplex.
338
UNIDAD DIDÁCTICA 5 Modelos de optimización
Mú lt iples óptimos
Consideremos el problema
z
Maximizar
-
10x¡
+20x2
sujeto a
> 1000 < o < 14000 < 4000 X¡ > o X2 > o
-x¡ +2x2 -x¡ +x2 X¡ +2x2 X2
Después de introducir las variables de holgura y las variables a1tificiales para disponer de un programa inicial de base, el problema aumentado es:
z=
Maximizar
10x¡ + 20x2- M.x]
sujeto a -X¡ + 2X2- X¡ X¡
S¡
+ X2 + 2x2
+ .x] =
1000
=
14000 4000
o
+ S2 + S3
+ S4 X¡,X2,S],S2,S3,S4,.x]
~
0
Las tablas del simplex de cada iteración, en donde el elemento pivote intersección de la columna entrante con la fila saliente viene señalado convenientemente, son las siguientes:
Iteración 1 X¡
X2
S¡ S2 S3 S4
Cj
10
20
.x]
-M
2
S2 S3 S4
o o o
-1 -1 1
o o -1 o o 1 o o o o M o
Base
(z1 - c1)
o
[!] 2 1
-10+M -20-2M
.x]
o o -M o o 1 o o o 1 o o o 1 o o o o
Xs
Xs sk
1000
500
o
o
14000 4000
7000 4000
-1000M
339
El algoritmo del simplex
Iteración 2 X¡
Base
10
o
20
o
O O -M Y sk
-M
[]
20
-1
o o
3
o
o o o o o
1
o o 1 o o o 1 o o o 1 o
-2 1
-1
1
-2
-1
-30-M O M 20+2M O O
1000
1000
o 14000 4000
14000 3 4000
-1000M
O
Iteración 3
Base
e1 1O 20 10 1 20 o
oo oo
O
O
O O
-M Ysk
o o o o [i] 1 o
o
-1 1 -1 o 3 o 1
-2 -1
o
1
1
1
1000 1000 11000 2750 3000 3000
1
-3 -1
O O -30 -40 O O 30+M
30000
Iteración 4 X2
S¡
S2
S3
S4
Xf
Base
CJ 10 20
O
O
O
O
-M
X¡
10 1
0
X2
20 0
1
X¡
0 0
S4
-1 o -1 o 21 21 o o 4 3 t - 1 - o 4 -t4 o 41 1 o o 10 o
0
Xs
6500 3750 2750 250 M
140000
La última fila de la tabla anterior nuestra que la solución actual es una solución óptima pues todos los coeficientes ZJ- c1 son no negativos. La solución X¡
= 6500,
X2
= 3750,
S¡
= O,
S2
= 2750,
S3
= O,
S4
= 250
da a z un valor igual a 140000. El coeficiente z 1 - e¡ de la variable s ¡ fuera de la base en la solución óptima, es cero. Ello quiere decir que es posible introducir
340
UNIDAD DIDÁCTICA 5 Modelos de optimización
la variable s 1 sin que se produzca ninguna modificación de la función objetivo, de forma que se obtenga otro programa básico óptimo. La variable saliente viene determinada por el criterio de salida habitual: Iteración 4 X¡
Base
Cj
X2
1
o
-
t í
o 1 34 o o o -4 1 oo o o o o o o
20
S2
1
o o
-
21
X2
S3
S2
-
-
(z1 -c1)
xf
o o o
Xs
Xs
Ysk
1 - -
6500
-
3750
?
43
4 1 1 4 4 10 o M
rn
S4
S4
o o o o -M
10 20
10 1
X[
St
2750
í
250
13000
11000 3 1000
140000
Al iterar, se obtiene la siguiente tabla: Iteración 5 X¡
Base
o o o o -M 10 1 o o o 1 -2 o 20 o 1 o o o 1 o o o o o 1 1 -3 o o o o 1 o -1 4 -1 o o o o 10 o M Cj
X¡
X2 S2 S¡
(z1 -c1)
xf
X2 S¡ S2 S3 S4
10 20
Xs
6000 4000 2000 1000 140000
La solución de la tabla anterior es: X¡ =
6000, X2
=
4000,
S¡=
1000,
S2 =
2000, S3
= O,
S4
=o
que da a z un valor de 140000 igual que el anterior. Llegamos entonces a que el problema tiene dos vértices óptimos . Cualquier punto del segmento que los une es también un punto óptimo. Podemos pues concluir que la solución general del problema es: X¡
6000?o + 6500 (1- ?o )
X2
4000?o + 3750 (1- ?o )
S¡
1000A-+0(1-?o )
S2
2000?o + 2750 ( 1- ?o)
S3
o
S4
OJo+ 250 (1 - ?o ) ?o E [0, 1]
El algoritmo del simplex
341
o de forma simplificada:
X¡
6500 - 500}.,
X2 S¡
3750+250}.,
S2
2750 - 750}.,
S3
o
S4
250-250}.,
1000}.,
A E [0, 1] Cualquiera de estos puntos da a la función objetivo un valor:
z=
10(6500 - 500Á) + 20(3750 + 250A,)
= 140000
Óptimo infinito Sea el problema:
z
Maximizar
lüx¡ + 30x2
-
sujeto a
> 1000 < o > o > o
-x¡ + 2x2 - x ¡ +x2 X¡ X2
Añadimos las variables de holgura s¡, s2 y la variable artificial .t{ . El problema aumentado es: Maximizar
z
= 10x¡ +
30x2- M.t{
sujeto a - X¡+ 2X2 - S¡ +.t;= - X¡+ X2 + S2 X¡, X2, S¡, S2, xl 2:
1000
o o
Las tablas del simplex son: Iteración 1
Base
X: S2
(z 1 - c1)
X¡
X2
S¡ S2
X:
Cj
10
30
o o
-M
-M
-1 -1
o
2
-1
o
[!]
o
o o o
-10+M - 30 - 2M M
1
1
Xs
Xs Ysk
1000
500
o
o
-1000M
342
UNIDAD DIDÁCTICA 5 Modelos de optimización
Iteración 2
e¡
Base
X¡
X2
S¡
S2
x1
10
30
o
o
-M
Xs
Xs Y sk
x1
-M
[!]
o
-1
-2
1
1000
30
-1
1
o
1
o
- 40-M
o
M 30+2M
o o
X2
(z¡- e¡)
1000
-1000M
Iteración 3 X¡
X2
e1 10 30
Base
S¡
o o
101 o -1 30 o 1 -1
X¡
X2
(z¡ -e¡)
o o
x1
S2
-M
Xs
1 1
1000 1000
-2 -1
-40 -50 40 + M
40000
La tabla anterior muestra que el problema tiene solución no acotada. En efecto, existen elementos negativos en la última fila, los costos reducidos de s 1 y s2 que son respectivamente -40 y -50. Ahora bien las columnas correspondientes son no positivas, por lo cual es posible aumentar indefinidamente las variables sin salirse de la región factible, al tiempo que aumenta también indefinidamente la función objetivo. Esta es pues la manera de encontrar analíticamente en la tabla del simplex la evidencia de que la región factible es no acotada y el problema tiene óptimo infinito.
Óptimo f init o y óptimo infinito Consideremos el problema: Maximizar
z
30x2
sujeto a
> o < 4000 > o > o Introducimos las variables de holgura necesarias para poner el problema en la forma standard. Se tiene el problema: Maximizar
z = 30x2
sujeto a - X¡ +
X2 X2
0
+S ¡
X¡ ,
+ S2 = 4000 X2,
S¡, S2
:2:
0
El algoritmo del simplex
343
Las iteraciones son: Iteración 1 X¡
Base
Cj
X2
S¡ S2
0 30
o o
o -1 [!] 1 o oo 1 o 1 o -30 o o
S¡
S2
(z1 -c1)
is
is
Ysk
o
o
4000 4000
o
Iteración 2 X¡
X2
S¡
S2
Base
Cj
o
30
o o
is
X2
30 -1
1
1 o -1 1
o
S2 (Zj - Cj )
o [!] o -30 o
30
o
is Ysk
4000 4000
o
Iteración 3 X¡ X2 S¡
Base
Cj
0 30
X2
30
o
o
X¡ (ZJ- Cj)
1
o o o 1
o -1 o o o 1
S2
is
1
4000 4000
30
120000
La última fila de la tabla anterior nos muestra que hemos llegado a la solución óptima del problema puesto que todos los costos reducidos son no negativos. La solución obtenida es un programa básico correspondiente a un punto extremo finito: x 1 = 4000, x 2 = 4000. Si observamos la tabla podemos constatar que el problema tiene más de una solución. En efecto, el costo reducido correspondiente a la variable no básica s 1 es cero, lo cual indica que se puede pensar en introducirlo en la base, si bien ello no supondrá ninguna mejora en la función objetivo. Si consideramos s1 como candidata a entrar en la base, nos encontramos con que toda la columna correspondiente a S¡ es no positiva, es decir no hay ninguna variable básica candidata a la salir de la base, lo cual nos indica que la región factible es no acotada y además posee una arista óptima, de forma que cualquier punto de dicha arista, incluso con coordenadas arbitrariamente grandes, es una solución óptima del problema.
344
UNIDAD DIDÁCTICA 5 Modelos de optimización
Región factible vacía Sea el problema:
z
Maximizar
10x1
-
+
30x2
sujeto a
< 1000 > o < 14000 > 4000 X] > o X2 > o
-xr + 2x2 - x1 +x2 x¡ + 2x2 X2
Introducimos las variables de holgura y artificiales necesarias para poner el problema en la forma standard
Maximizar
z=
10x¡
+ 30x2 -
Mx]
sujeto a
2X2 +S¡ X2 + 2x2 X2
=
1000
= + xJ =
14000 4000
-X] +
X¡ x¡
+ S2
+ S3 -
S4
o
Utilizamos el método de las penalidades para resolver el problema. Las tablas son:
Iteración 1
Base S¡ S2 S3
xJ ( Zj- Cj)
Cj
o o o -M
X¡
X2
S¡ S2 S3 S4
xJ
10
30
o o o o
-M
-1 1 1
o
@] -1 2 1
-10 -30 - M
1 o o o o o 1 o o o o o 1 o o o o o -1 1 o o oM o
Xs
1000
Xs Ysk
500
o 14000 4000
-4000M
7000 4000
El algoritmo del simplex
345
Iteración 2
Base
Cj
30
X2
o o
S2 S3
-M
xf
X2
S¡
S2 S3 S4
10
30
o
o o o -M
Xs
1
o o o o
500
o o o o 1 o o o o -1 1
500
1000
13000
6500
3500
7000
- 1
~ 2
1
-
2
1 - 25 - -M 2
(z1 -c1)
xf
X¡
1
-
2
1
o o o
2 -1 -1
o
M 15+-
1
-
2 2
o o
M
o
Xs Ysk
15000 - 3500M
Iteración 3 X¡
Base X2 X¡ S3
xf (z1 -c1)
xf
X2
S¡
S2
S3 S4
10 30
o
o
30 o 1 10 1 o
1 1 -3 -1
1
o o o o o o o o 1 o o o -1 1 oM o
Cj
o o o -M O o o o
2 -4
-1
40+M 50+M
-M
Xs
1000 1000 11000 3000 40000 - 3000M
Puesto que toda la última fila es positiva se ha llegado a la situación de óptimo. Como existen variables artificiales en la base con valor positivo, la conclusión a que llega el algoritmo del simplex es que el problema inicial es no factible.
346
UNIDAD DIDÁCTICA 5 Modelos de optimización
5.6
Postoptimización Como se ha estudiado en el apartado 5.1, la fase de solución de un modelo de optimización no finaliza cuando el algoritmo utilizado proporciona la solución numérica. De hecho, la solución numérica concreta obtenida por medio del ordenador no suele ser la información más relevante desde el punto de vista práctico. Es necesario efectuar un análisis de sensibilidad posterior que permita evaluar la estabilidad del óptimo frente a posibles modificaciones de los parámetros del problema. Es fácil comprender que en cualquier problema real los datos no suelen ser rígidos e inamovibles. Frecuentemente, corresponden a diferentes situaciones técnicas o estimaciones que se han fijado en niveles plausibles pero, sin duda, admiten modificaciones sin cambiar las características de fondo del problema. Las estimaciones sobre la demanda de un producto, las disponibilidades de materia prima y mano de obra necesarias para producirlo, los precios de venta de los productos fabricados, son todos ellos ejemplos de cantidades que deben considerarse parámetros en un modelo de optimización y estudiar cómo sus posibles modificaciones repercuten en la solución óptima. La realización de un análisis de sensibilidad y estabilidad de la solución de un problema de programación matemática permite que esta solución sea algo vivo, manteniendo su vigencia durante un período más dilatado de tiempo. En efecto, las condiciones técnicas pueden cambiar, las previsiones sobre la demanda pueden verse afectadas por factores externos, etc., de modo que la posibilidad de disponer a priori de un estudio sobre la influencia de todos estos factores en la solución óptima permite al decisor adelantarse a las consecuencias de las mismas tomando a tiempo las decisiones oportunas. Por todo ello, podemos afirmar que la realización de un análisis de sensibilidad posterior a la solución de un modelo de optimización, y en particular de un modelo de programación lineal, debe formar parte de la solución. No podemos desarrollar aquí un estudio teórico detenido de todos los aspectos que conciernen al análisis de sensibilidad en programación lineal. No obstante, en las páginas siguientes se tratará de dar respuesta, mediante ejemplos, a algunas preguntas que pueden hacerse en la fase de postoptimización. La tabla óptima del simplex contiene información útil para la obtención de la respuesta a dichas preguntas y a la puesta en práctica de la solución. Es muy importante conocer qué significa cada uno de los términos que aparecen en la tabla y su relación con la solución óptima y sus posibles modificaciones. Recordemos cuál es el resultado de la aplicación del algoritmo del simplex a un problema de programación lineal. Fijados unos datos iniciales para el problema, - los coeficientes de costo, los coeficientes de la matriz de restricciones y los términos del lado derecho de las restricciones - el algoritmo del simplex permite encontrar la solución óptima correspondiente a dichos datos iniciales. Para ello encuentra la matriz básica óptima B, los valores de las variables básicas .xB 2: O, que forman una solución factible y los costos reducidos
Postoptimización
347
de las variables no básicas ZJ- c1 :S O, que indican que la solución factible .xB es una solución óptima. Cambios en los datos iniciales del problema pueden afectar a la factibilidad de la solución actual, a la optimalidad o a ambas cosas. El análisis de sensibilidad se interesa por diferentes cuestiones; por ejemplo, puede preguntarse hasta qué punto las modificaciones en los datos del problema mantienen la factibilidad y/o la optimalidad de la solución actual, o bien a partir de qué nivel de un parámetro la base actual, y por tanto su solución asociada, deja de ser óptima, y en este caso como puede reconstruirse la nueva solución óptima, si existe, etc. Como se comprende fácilmente las casuística que se puede considerar es muy amplia y el tipo de preguntas de postoptimización que pueden hacerse es muy variado, siendo algunas de ellas de difícil respuesta en un caso general. Nos limitaremos aquí a estudiar las situaciones más sencillas. Consideremos de nuevo el ejemplo 5.26, cuya tabla óptima se encuentra en la página 332. Dicha tabla nos dice que la matriz básica óptima es la matriz formada por las columnas (a 1 , a2, a4, a3) de la matriz original que se corresponden, precisamente en ese orden, con las variables que están en la base: x¡, x2, s2 y s¡; de esta forma decir la matriz
La matriz inversa de B, s- 1, se lee directamente en la tabla óptima en las columnas correspondientes a la base inicial, ya que, de acuerdo con la teoría, en cada iteración la tabla contiene el producto de la matriz inversa de la matriz básica actual por la matriz del sistema A, es decir, en la tabla se encuentra el producto o, escribiendo por columnas la submatriz Y, Y.i
= B -1 ai
Ahora bien, las columnas de la base inicial son columnas unidad, por lo tanto en la tabla final en dichas columnas aparecerá el producto de la matriz s- 1 por una columna unidad, lo cual produce la correspondiente columna de la matriz s - 1. En este problema una de las columnas de la base inicial correspondía a una variable artificial. Por tanto, en la tabla óptima, en dicha columna se encontrará la correspondiente columna de la matriz inversa de la base. Esta puede ser una razón importante para conservar las columnas correspondientes a las variables artificiales a lo largo de las iteraciones del simplex, aun después de haber cumplido su papel de proporcionar un programa inicial de base. En resumen, la matriz inversa de B se puede leer directamente en la tabla óptima del problema, precisamente en las columnas correspondientes a las
348
UNIDAD DIDÁCTICA 5 Modelos de optimización
variables que formaron la base de partida del algoritmo. En este caso, dichas variables fueron, x¡, s2, s3 y s4; por tanto
(
~ ~1 ~1 -3 -~)
o
o
-1
-1
4
Esta matriz será muy útil en el análisis se sensibilidad que vamos a hacer a continuación.
5.6.1
Adición de una nueva variable
Supongamos que la empresa Z considera la posibilidad de fabricar un nuevo producto P3. Se sabe que cada unidad de P3 necesita 0.5 unidades de materia prima M y que va reportar un beneficio de 12 unidades monetarias. Por otra parte, las previsiones de demanda estiman que el número de unidades de Pl tiene que ser superior a la de P2 y P3 juntos y, además, las ventas de P2 y P3 juntos no van a superar las 4000 unidades. En estas circunstancias la empresa Z puede plantearse diversas cuestiones del tipo que vamos a considerar a continuación. • ¿Es rentable fabricar el nuevo producto P3?
La situación planteada equivale a considerar una nueva variable X3 cuyo significado es el número de unidades del producto P3 que hay que fabricar. Los datos proporcionados llevan a plantear el nuevo problema: Maximizar
z
= lüx1 + 30x2 + 12x3
sujeto a - Xl - X¡ Xl
+ + +
2x2 X2 2x2 X2
+ + +
0.5x3
X1,
X2, X3
X3
X3
> 1000 o < < 14000 < 4000 o >
Lo que hemos hecho es añadir a la matriz A una nueva columna correspondiente a la variable x3 , cuyos elementos son:
y al vector de costes de la función objetivo un nuevo elemento que vale c 3 = 12. Para ver si es rentable o no fabricar el nuevo producto hay que calcular su
Postoptimización
349
coste reducido en la tabla óptima. De acuerdo con las definiciones, este coste reducido es igual a: Z3- C3
= eBB - 1a3- c3 (10,30,0,0) (
o o o o o 1 -1 o
-15)
(10,30,0,0) ( - 1.!
1
o 1 - 1
~n
(on
-12
-12
3.5 -15+30-12 3
>
o
Puesto que el coste reducido z 3 - c3 es estrictamente positivo, la variable x3 no sería candidata a entrar en la base, es decir, tendría que seguir tomando un valor nulo o, en términos económicos, no es rentable fabricar P3 .. • ¿Qué beneficio tendría que reportar P3 para que su fabricación fuese rentable? Para que sea rentable P3, es necesario que su coste reducido Z3 - c3 sea negativo. Teniendo en cuenta la expresión de z3 - c3 que acabamos de calcular se tiene: Z3 - C3
= 15 -
C3
por lo que z3 - c3 :S O cuando c 3 2: 15. Así pues sólo será rentable fabricar P3 cuando su beneficio fuese mayor o igual que 15 unidades monetarias. • ¿Cuál será la nueva solución óptima cuando el beneficio de P3 superase su mínimo rentable c3 2: 15? Consideremos la última tabla del simplex, completada con la columna correspondiente a la nueva variable x 3 , que hemos calculado anteriormente. Xl
Base
Cj
X2 Sl S2 S3
10 30 0
S4
o o o
xl
X3
-M
C3
is
Xs Ysk
Xl X2 S2 Sl
(Zj-Cj)
10 1 o 30 o 1
o o 1 o o o oo o o 1 1 o o o 1 o -1 o o o o 10
o o o
-2 1 -3 4
-1.5 1 -1.5 3.5
-1
10
M 15- C3
6000 4000 2000 1000 180000
350
UNIDAD DIDÁCTICA 5 Modelos de optimización
Ahora, si c3 2: 15, la variable x3 debe entrar en la base. La variable saliente se determina según el criterio usual de salida del simplex. Completamos la tabla con los cocientes para determinar la razón mínima: X¡
Base
X2
S2 S¡
(z1 -c1)
S¡ S2 S3
xf
S4
o o o o -M 10 1 o o o 1 -2 o 30 o 1 o o o 1 o o o o o 1 1 -3 o o o o 1 o -1 4 -1 o o o o 10 10 M Cj
X¡
X2
10 30
X3 C3
Xs
-1.5 1 -1.5
6000 4000 2000
3.5
1000
4000 2000 7
15 -C3 180000
La variable saliente es la variable s 1 . Actualizando la tabla se llega a la siguiente solución óptima. Tabla final S2
S3
S4
xf
X3
o o 3 10 1 o o 7 30 o 1 -72 o 3 oo o 7 1 2 o C3 o o 7 o o -2c3-7 -30 o
o
o
-M
C3
Xs
3
o o o
45000 -726000 -7-
X¡ X2
Base X¡
X2 S2
X3
(ZJ -CJ)
S¡
Cj 10 30
4
2
7 2 7
-7 1 -7
4
9
7 2 -7
-7 8
7
-7 2
7 3 -7 2
2000 -7-
-7
- 2c3+ lOO 8c3 -50 -2c3+30 - 77 7
17000 -7-
+M
o
2000q + 1230000 7
Como puede comprobarse, la tabla anterior es óptima si CJ 2: 15 y C3 :S 50, pues en ese caso toda la última fila es positiva. En este intervalo de valores el programa anterior es un programa óptimo.
5.6.2 Modificación de los coeficientes de la matriz : variabl es fuera de la base Supongamos ahora que la empresa Z insiste en fabricar el producto P3 y no desean modificar el precio de venta para que el beneficio unitario sea mayor de 12 unidades. A cambio, estudian la posibilidad de modificar las condiciones de fabricación para que el consumo de materia prima sea menor. • ¿Hasta qué punto hay que disminuir el consumo de materia prima en la fabricación del producto P3, para que sea rentable venderlo a un precio que suponga un beneficio unitario de 12 unidades monetarias?
Postoptimización
351
Para responder a esta pregunta denotaremos con a la cantidad de materia prima M necesaria para fabricar una unidad de P3. Entonces el problema es: z = lOx1
Maximizar
+ 30x2 + 12x3
sujeto a -Xl -Xl Xl
+ + +
2x2 X2 2x2 X2 X1,
+ + +
X3 ax3 X3 X2, X3
> < < < >
1000
o 14000 4000
o
Ahora tendremos que determinar a para que X3 pueda convertirse en básica. Ello ocurrirá cuando su coste reducido sea negativo. Calculamos pues su coste reducido en función de a. Z3- e3
eBB - 1a3- e3
(10, 30,0,0) (
~
o o
-1
o
1
1
o 1 -1
~n
(n
-12
a-2 1 (10,30, 0,0) ( a - 2 ) -12 -a+4 IOa-2
Por tanto Z3 - e3 :S O cuando a :S ~, es decir, la producción de una unidad de P3 no puede consumir más de un quinto de unidad de la materia prima M.
5.6.3 Modificación del vector de lado derecho de las restricciones (vector b) Consideremos de nuevo el problema de la compañía Z en su forma original, es decir considerando únicamente la producción de PI y P2. • ¿En cuánto pueden aumentarse o disminuirse los ténninos del vector del lado derecho de las restricciones, y cómo afectan estos cambios a la solución óptima ?
La respuesta a esta pregunta suele determinarse, de un modo general, mediante el análisis del estado de utilización de Jos recursos. Ante todo, hay que hacer notar que un cambio en el vector del lado derecho de las restricciones únicamente puede afectar a la factibilidad de la solución actual, puesto que los coeficientes z1 - e1, que determinan la optimalidad, no
352
UNIDAD DIDÁCTICA 5 Modelos de optimización
dependen del vector b del problema. Por tanto la modificación de un término del lado derecho de las restricciones no afectará a la optimalidad de la solución actual, en tanto en cuanto esta siga siendo factible, es decir mantenga todas sus componentes no negativas. Una vez encontrado el óptimo .X del problema, las restricciones quedan clasificadas en dos categorías: activas y no activas. Las restricciones activas son aquellas que se verifican en igualdad en el punto .X; geométricamente quiere decir que la recta correspondiente a esta restricción pasa por .X. Las restricciones no activas se verifican en desigualdad estricta ( < ); geométricamente, la recta correspondiente no pasa por .X. Desde el punto de vista económico una restricción activa del tipo ::::; puede interpretarse como un recurso escaso: el objetivo no puede mejorarse más porque no es posible sobrepasar la limitación en el recurso. Por su parte una restriccion no activa del tipo ::::; representa un recurso abundante. Las variables de holgura recogen la abundancia del recurso. Si la restricción es no activa entonces su variable de holgura asociada tomará un valor positivo igual a la cantidad de recurso que sobra, mientras que si es activa valdrá cero. Análogamente una restricción activa del tipo 2 puede interpretarse como una imposición técnica que se cumple de manera forzada, de forma que la exigencia de su cumplimiento impide alcanzar un valor mejor para la función objetivo. Por su parte, el caso de restricciones no activas del tipo 2 puede interpretarse como una supersatisfacción de las exigencias mínimas impuestas a la solución. En el ejemplo de la compañía Z las restricciones correspondientes a las disponibilidades de materia prima M, tercera restricción, y a la demanda de P2, cuarta restricción, son activas. Las variables de holgura asociadas s 3 , y s4 son nulas. Las otras dos restricciones son no activas, indicando que las limitaciones en la demanda conjunta no son la causa de que el valor de la función objetivo pueda seguir mejorando. Como consecuencia de lo anterior podemos afirmar inmediatamente lo siguiente: l. Aumentar el valor del lado derecho de una restricción no activa del tipo ::::; no produce ninguna modificación en el valor óptimo de la función objetivo, ni en el valor de las variables originales del problema. Únicamente se modifica el valor de la variable de holgura correspondiente a dicha solución en una cantidad igual a la cantidad aumentada. 2. Disminuir el valor del lado derecho de una restricción no activa del tipo 2 no produce ninguna modificación en el valor óptimo de la función objetivo, ni en el valor de las variables originales del problema. Únicamente se modifica el valor de la variable de holgura correspondiente a dicha solución en una cantidad igual a la cantidad disminuida. Las modificaciones que pueden afectar a la factibilidad de la solución son las siguientes:
Postoptimización
353
3. Aumentar el valor del lado derecho de una restricción activa del tipo :S. 4. Disminuir el valor del lado derecho de una restricción activa del tipo 2::. 5. Disminuir el valor del lado derecho de una restricción activa del tipo :S. 6. Aumentar el valor del lado derecho de una restricción activa del tipo 2::. Claramente las modificaciones 5 y 6 nunca podrán producir una mejora de la función objetivo, ya que la región factible del problema modificado está incluida en la región factible del problema original. No obstante, puede ser interesante analizar estos casos, anticipándose a posibles modificaciones de las condiciones tecnológicas que pudieran disminuir las disponibilidades actuales de un recurso o elevar alguna exigencia. Veamos ahora de qué manera se puede averiguar el efecto de cada una de las modificaciones en la solución óptima. Consideremos la restricción relativa a las disponibilidades de materia prima:
que es una restricción activa en el óptimo, con s 3
= O.
• ¿Qué efecto produce en la solución óptima del problema un aumento de las disponibilidades de materia prima M?
Para responder a esta pregunta podemos considerar que la compañía inicia una nueva actividad, además de la producción de Pl y P2, que podemos denominar procurarse más materia prima. Sea x~
= unidades de materia prima M que hay que obtener
La restricción tercera puede ahora escribirse como: x1
+ 2x2 + s3 =
X1
+ 2X2 + S3- X~ = 14000
14000 + x~
o equivalentemente La adición de esta nueva variable x~ supone añadir a la matriz A la columna:
a\= (
-n
El coeficiente en z de ~ , es decir, el beneficio derivado directamente de la nueva actividad emprendida es nulo. Vamos a calcular en la tabla óptima la
354
UNIDAD DIDÁCTICA 5 Modelos de optimización
columna correspondiente a la nueva variable ~.
Por tanto la nueva columna que hay que añadir a la tabla para incorporar la nueva variable ~ es
- 10 -1
o -1 1
de forma que la tabla del simplex se puede escribir del modo siguiente: X¡
Base X¡ X2 S2 S¡
(Zj - Cj)
Cj
X2 S¡ S2 S3
S4
x¡ ~
o o o -M o o o 1 -2 o -1 o o o 1 o o o 1 1 -3 o -1 1 o -1 4 -1 1 o o 10 10 M -10
10 30 0
10 1 o 30 o 1
oo o oo o o o
Xs
6000 4000 2000 1000 180000
Puesto que la tabla incluye un elemento negativo en la última fila hay que reoptimizar. La variable entrante es la variable ~ y la variable saliente viene decretada por el criterio de salida usual. Min { -1000} -
1
= 1000
Por tanto éste es el máximo valor que puede tomar la variable .x'3 significando que la compañía Z puede procurarse hasta 1000 unidades de materia prima M adicionales sin que la base actual (a 1,a2,a4,a3) deje de ser óptima. Obsérvese que eso no significa que el valor del programa óptimo no cambie. Lógicamente su valor se modificará cuando se modifique el número de unidades de M disponibles, pero la forma de calcularlo siempre será la misma. Concretamente, supongamos que el número de unidades de M aumenta en f'.,b 3, con
Postoptimización
355
O :S 6b3 :S 1000. Entonces el programa óptimo valdrá:
x" (Lib,)
~ ~
o o
-1
o
(
1
1
o 1 -1
~n
(
1000
o
14000 + 6b3 4000
6000 +~
)(
4000
2000 +~ 1000- ~
y la función objetivo valdrá:
Debemos observar que por cada unidad que aumentemos 6b3, dentro del intervalo O :S 6b3 :S 1000, el valor de la función objetivo aumenta en 10 unidades monetarias. Este coeficiente corresponde al coste reducido Z3 - c3 de la variable de holgura s3 asociada a la restricción que estamos modificando. Por tanto, la propia tabla óptima nos informa de un hecho importante, como es el aumento que supone para la función objetivo la posibilidad de disponer de una unidad más de un determinado recurso. Hay que señalar que esta información es local, en el sentido de ser relativa a las condiciones iniciales de los valores del lado derecho de las restricciones y la solución óptima correspondiente. Por esta razón, a los coeficientes ZJ- c1 se les suele denominar precios sombra de un determinado recurso, en el sentido de que significan la cantidad que habría que estar dispuesto a pagar por un incremento unitario de dicho recurso. • ¿Qué efecto produce una disminución de las disponibilidades de la materia prima M?
La respuesta a esta pregunta puede interesar, como se ha dicho antes, para adelantarse a posibles situaciones futuras de escasez de recursos. Es evidente que nunca se podrá mejorar la función objetivo, puesto que se considera un problema más restringido que el actual. El razonamiento que puede hacerse es enteramente paralelo al caso anterior. Ahora bien, la disminución de las disponibilidades de materia prima puede recogerse en la variable de holgura correspondiente s3 . Suponer que se disminuye el lado derecho de la restricción tercera es equivalente a forzar a s3 a tomar un valor positivo, es decir, a entrar en la base. Cada unidad que aumente s3 significa una unidad menos en las disponibilidades de M. Debido a que el coste reducido de s3 es 10, y es positivo, está claro que cada unidad que aumente s 3 producirá una disminución de la función objetivo en 10 unidades monetarias. Por tanto, este el precio que va costar una disminución unitaria de la materia prima M. Para averiguar hasta que nivel puede aumentarse s3 sin que la base actual deje de ser óptima utilizamos de nuevo el criterio de salida del simplex. Min{6000,2000}
= 2000
356
UNIDAD DID ÁCTICA 5 Modelos de optimización
por lo que s3 puede aumentar hasta 2000 unidades, es decir, los recursos de M pueden disminuir hasta 2000 unidades, sin que la base formada por las columnas (a 1,a2 ,a4, a3) deje de ser óptima. La solución óptima y el valor de z asociado se sigue obteniendo de manera enteramente análoga al caso anterior. Las demás restricciones pueden analizarse de un modo similar, obteniendo para cada uno de los términos del vector del lado derecho unas cotas inferior y superior dentro de las cuales la base actual es la base óptima. Repitiendo los cálculos anteriores para el resto de las restricciones se llega a la tabla siguiente: Restricción 1
5.6.4
Mínimo b¡ -
00
Original
Máximo b¡
1000
2000
2
-2000
o
00
3
12000
14000
15000
4
3750
4000
-
14000 3
Mod if icación de los coeficie ntes de la función objetivo (vector e)
Analizamos ahora el efecto de la modificación de los coeficientes de la función objetivo en la solución óptima. • ¿En cuánto pueden aumentarse, o disminuirse, los coeficientes de la fun ción objetivo sin que la base actual deje de ser óptima y cómo afectan dichos cambios a la solución óptima ? Debemos observar que una modificación de los coeficientes de la función objetivo únicamente puede afectar a la optimalidad de la solución y nunca alterará la factibilidad de la solución obtenida. Como sabemos, la solución óptima de un problema de programación lineal se encuentra en un vértice de la región factible. El vértice concreto depende esencialmente de la pendiente de la recta que define la función obj etivo. Entonces, cambios en los coeficientes de z producirán cambios en su pendiente y posiblemente afectarán al punto óptimo. En la fi gura 5.1 8 podemos apreciar el efecto de estas modifi caciones. Al modificar los coeficientes e¡ y c2, la recta z gira sobre el punto óptimo. Llegará un momento en que la recta coincida con una de las restricciones que son activas en el óptimo . En ese momento el problema tendrá múltiples óptimos . Un mayor incremento (o disminución) de los coeficientes conducirá a un problema en el que el punto C deje de ser óptimo. Como vamos a ver a continuación en la tabla del simplex se puede encontrar la información necesaria para avetiguar cuales son los umbrales de los valores de los coeficientes e1 a partir de los cuales la base deja de ser óptima.
Postoptimización
357
X2
8000 7000 6000 5000 4000 3000 2000
-+------=r---=~.,¿._.-------
2000 4000 6000 8000 100001200014000
X¡
Figura 5.18: Modificación de los coeficientes de la función objetivo
• ¿En cuánto, en más o en menos,. puede la compañía Z modificar el coeficiente de beneficio de Pl sin que el plan de producción actual deje de ser el mejor posible?
Para responder a esta pregunta podemos considerar que el beneficio de P1 es de la forma 10 + ~c 1 . Según el criterio de optimalidad, la solución seguirá siendo óptima, en tanto en cuanto todos los costes reducidos de las variables fuera de la base sigan siendo positivos. Para la columna 5 se tiene:
zs - es
eBB-1 as- es
(10+~e¡,30,0,0)
(
H ~ ~:) (1)
-1
(10+L\c 1 ,30,0,0) (
Para la columna 6
o
_! ) ~
-1
10+!\c¡
-0
358
UNIDAD DIDÁCTICA 5 Modelos de optimización
(10+f'..e¡,30,0, 0)
(
(10Hc¡.30.0.0) (
o~ o~ -1 o
~I
-~~
- !21 )
(
~
) -
o
)
10- 2f'..e 1
Entonces, para que zs - es 2 O, Z6 - e6 2 O ha de ser: -10::::; 1'-.e¡ :S 5
y de aquí 0 :S e¡ :S 15 En este intervalo puede variar c 1 sin que la base actual deje de ser óptima. El valor óptimo de la función objetivo es:
z = e¡ · 6000 + 30 · 4000 = 120000 + 6000e 1 Si razonamos de manera enteramente análoga encontramos que el rango de valores de e2 en el cual se mantiene la base es:
y, en este caso el valor de z sería:
z=
1O· 6000 + e2 · 4000 = 60000 + 4000e2
Cuando interese estudiar el efecto en una variable que no está en la base el método es similar. En nuestro ejemplo las variables no básicas son únicamente variables de holgura, cuyo coeficiente en la función objetivo es cero. Supongamos que queremos modificar el coste de una de ellas, por ejemplo de la variable s3 en una cantidad f.. es. Entonces se tiene,
zs - es
=
eBB-1 as- es
( 10,30,0,0) ( 10- 1'-.es
o o o o o 1 -1 o
1
o 1 -1
~n
(n- (O+~c,)
Postoptimización
359
con lo cual vemos que el coste reducido zs -es viene modificado en la cantidad -~cs. El criterio para mantener la optimalidad es ahora sencillo: la base actual será óptima, en tanto en cuanto el incremento en el coste de la variable no supere el coeficiente ZJ- c1 que dicha variable tenía en la base óptima. El valor de la función objetivo no varía. Otros análisis de sensibilidad
Para finalizar podemos señalar que pueden plantearse numerosas cuestiones de postoptimización. Por ejemplo, l. ¿Qué efecto produce añadir una nueva restricción al problema?
2. ¿Qué efecto produce la modificación de un coefiente de una columna básica de la matriz de restricciones? 3. ¿Que efecto produce la consideración de varias modificaciones en los datos al mismo tiempo? La respuesta a todas estas preguntas puede ser compleja. El desarrollo de una teoría general de la postoptimización y análisis de sensibilidad en programación lineal se sale del objetivo de este capítulo.
360
UNIDAD DIDÁCTICA 5 Modelos de optimización
5. 7
El modelo de programación entera La formulación del problema de programación entera es la siguiente:
PROBLEMA DE
5. 38
PROGRAMACIÓN
11
L c ¡xJ
Maximizar z =
ENTERA
}= 1
sujeto a 11
L a¡;XJ :S: b¡
i = 1, 2, .. . , m
}= 1
x¡~ O
x 1 entero
j = 1,2, .. . ,n
j = 1,2, . . . , p
(p:S:n)
Cuando p = n, es decir, todas la vmiables x1 han de ser enteras, se dice que el problema es de programación entera pura y en el caso p < n, es decir, algunas variables son continuas, el problema es de programación entera mixta. Si una variable x 1 está sometida a las restricciones
x¡ entera
entonces es evidente que los únicos valores que puede tomar son Xj
=0
O
Xj
=1
y se dice que la variable x 1 es una variable binaria o variable cero-uno. A primera vista podría pensarse que es más sencillo resolver un problema de programación entera que uno continuo. Por ejemplo, la restricción O::; x1 ::; 1, junto con la condición de que x 1 haya de ser entera significa que hay que estudiar únicamente dos valores de x1, en lugar de los infinitos valores que podría tomar en el caso continuo. Es decir, podría ingenuamente pensarse que dado que hay muchas menos soluciones factibles enteras que continuas, será posible encontrar más fácilmente la solución de un problema entero que la de uno continuo. Lamentablemente esto no sólo no es cierto, sino que puede afirmarse que ocurre justamente lo contrario: mientras en el momento actual es posible resolver problemas de programación lineal continua con miles de variables y miles de restricciones en un tiempo razonable, después de más de cincuenta años de investigación no se dispone de algoritmos de programación entera que puedan garantizar resultados similares. El siguiente ejemplo puede servir de ilustración acerca de las dificultades que presentan los problemas de programación entera. Consideremos el problema: Maximizar z = 21x1 + llx2
El modelo de programación entera
X¡
361
2: Ü
4
óptimo entero 3
2
7x¡ + 4x2 = 13
• ( l_73 ,0)
2
óptimo continuo 3
z = 2lx¡ + llx2 Figura 5.19: Un problema de programación entera.
sujeto a
La figura 5.19 representa gráficamente el problema. Las únicas soluciones factibles son los puntos (O, O) , (0, 1) , (0,2), (0,3), (1 ,0), (1, 1). El mejor valor de z en estos puntos se alcanza en (0,3) que es la solución óptima, z = 33. El procedimiento de solución que hemos empleado, enumeración explícita de todas las soluciones factibles, nos da una idea de la dificultad que entraña la resolución de problemas de programación entera de un tamaño moderado. Un procedimiento de solución que parece a primera vista prometedor consiste en resolver en primer lugar el problema ignorando la restricción de integridad y a continuación redondear al entero más cercano la solución continua obtenida. La idea puede apoyarse en el hecho de que a fin de cuentas los datos del problema en una aplicación real son únicamente estimaciones, por lo que los errores de redondeo pueden ser perfectamente asumibles. Sin embargo hay que
362
UNIDAD DIDÁCTICA 5 Modelos de optimización
tener en cuenta que esto puede no ser cierto en absoluto. Por ejemplo, si el problema contiene restricciones de igualdad no hay garantías de que la solución redondeada sea factible. Por otra parte, en algunos casos, como por ejemplo cuando se manejan variables binarias, no tiene sentido redondear a un número entero una solución continua del tipo, digamos, x = O, 57. Pero aún hay más. Aún cuando las condiciones del problema admitan la posibilidad del redondeo puede ocurrir que la solución continua redondeada esté muy lejos de ser óptima. Veamos qué ocurre en el ejemplo anterior. La solución continua es 13
X¡=
7'
X2
=
0
La manera "obvia" de redondear esta solución es hacer X¡=
2,
X2
=
0
que conduce a un solución no factible. Si decidimos redondear cada valor a su parte entera obtenemos X¡= 1, X2 = 0 que es factible proporcionando z = 21 pero, como hemos visto, está muy lejos de ser el óptimo. En definitiva, no existe una manera evidente de redondear la solución continua para obtener una solución entera óptima, incluso en problemas de tamaño moderado. Como es fácil ver esta dificultad se agrava a medida que aumenta el número de variables y restricciones siendo especialmente complicados aquellos casos en que los coefientes aiJ de las restricciones son negativos. Todavía podemos apuntar una importante dificultad inherente a los problemas de programación entera. A diferencia de la programación lineal continua, no existe una manera sencilla de comprobar si una solución factible dada es tambien óptima. Por ejemplo, supongamos que en el problema anterior queremos comprobar si la solución factible x 1 = 1, x2 = 1 es óptima. Para ello, podemos examinar si al efectuar perturbaciones locales de los valores de las variables se obtiene una mejora de la función objetivo. Es decir, mediante perturbaciones de la forma X¡ = 1 + e¡, x2 = 1 + e2, con ei = O, 1, -1;} = 1,2, obtenemos los puntos (0,0), (0, 1), (0,2) y (1 ,0) en todos los cuales z alcanza un valor inferior al que alcanza en (1,1), de forma que este punto es un óptimo local. No obstante, como sabemos, el punto (1 ,1) no es una solución óptima. De forma que una solución local de un problema de programación entera no tiene por qué ser necesariamente global. A la vista de lo hasta ahora expuesto podemos extraer algunas conclusiones. En primer lugar constatamos la mayor dificultad que presenta resolver un problema de programación entera frente al caso continuo. En segundo lugar, un método de solución que se base en la enumeración explícita de todas las
El modelo de programación entera
363
soluciones del problema debe descartarse por ineficaz para problemas incluso de tamaño moderado. Piénsese por ejemplo que para resolver de esta forma un problema con 100 variables binarias habría que estudiar 2 100 posibles soluciones, lo cual está lejos de ser viable para el más rápido de los computadores existente actualmente. Por tanto, y en tercer lugar, si un algoritmo ha de ser prometedor tiene que basarse en la enumeración parcial de un número manejable de soluciones y en la enumeración implícita de todas las demás. Puede observarse que una filosofía similar es la que inspira el algoritmo del simplex para la programación lineal: de las múltiples bases de un problema, únicamente son examinadas unas cuantas, descartándose de manera implícita las demás. Teniendo presente estas consideraciones, las estrategias para resolver problemas de programación entera pueden resumirse en tres pasos: 1) Relajar las condiciones de integridad, convirtiendo el problema entero
en un problema continuo. 2) Resolver el problema continuo e identificar el óptimo. 3) Partiendo del óptimo continuo introducir nuevas restricciones especialmente diseñadas para forzar al óptimo del problema continuo resultante a verificar las condiciones de integridad. Hay varios métodos que generan restricciones especiales para forzar al óptimo del problema relajado a verificar la restricción de integridad. En este capítulo veremos alguno de ellos como el conocido como Método de ramificación y acotación, (branch and bound).
5. 7.1
Aplicaciones de programación entera
Vamos a presentar algunas aplicaciones que admiten un planteamiento mediante un problema de programación entera. En unos casos la formulación directa del problema conduce de forma natural a un modelo en que las variables tienen que tomar valores enteros. En otros casos, veremos que mediante la consideración de variables enteras es posible reformular modelos "mal construidos" y convertirlos en un problema que puede ser tratado mediante la programación matemática.
Dicotom ías
Sean S e IRn y f: IRn--+ IR 1 , g : IRn--+ IR 1 , h: IRn--+ IR 1 • Consideremos el problema
364
UNIDAD DIDÁCTICA 5 Modelos de optimización
(x) 2: O
Figura 5.20: Un problema con región factible discontinua
DICOTOMÍAS
5.39
Maximizar f (x) sujeto a
xES
g(x) 2: O ó h(x) 2: O o ambas Este problema de programación matemática puede tener una región factible no conectada y es de difícil manejo mediante un algoritmo standard de programación (ver figura 5.20). Sin embargo, es posible plantear una reformulación del problema usando variables binarias que conduce a un planteamiento más simple. Supongamos que conocemos cotas inferiores finitas G y H respectivamente para los valores de g y h en S. Entonces la restricción
g(x) 2: O ó h(x) 2: O o ambas es equivalente a las siguientes condiciones
g(x) 2:
oG
h(x) 2: (1- o)H
o= 0, 1 o=
En efecto, si O entonces la segunda restricción h(x) 2: Hes redundante y la primera es g(x) 2: O. Por otra parte, si 1, la primera restricción g(x) 2: G es redundante mientras que la segunda es h(x) 2: O.
o=
El modelo de programación entera
365
Restri cciones altern at ivas Una generalización de la situación anterior es el siguiente problema. Sean S e IR 11 y f: !Rn------) JR 1 , 8i: !Rn ------) JRt , i = 1, ... ,m. Consideremos el problema RESTRICCIONES ALT ERNATIVAS
l sAO' Maximizar f(x) sujeto a xES
al menos k , 1 ::::; k ::::; m - 1
g¡(x) 2: 0 i= l, .. . , m
Si se conoce una cota inferior finita G¡ para los valores de g¡(x) en S, la última condición puede reemplazarse por las siguientes:
g¡(x) 2: Ó¡G¡ i = 1, ... ,m m
L8i::::; m - k i= l
Ó¡
= 0,1
De nuevo es inmediato ver que las dos últimas condiciones garantizan que a lo sumo m - k de las primeras restricciones son redundantes. Rest ricciones co ndicional es En algunos modelos el cumplimiento de una restricción exige que se cumpla otra. Es decir, supongamos un modelo en el que se tiene que cumplir la siguiente condición: RES TRICCIÓN CON D ICION AL
f (x) >O==? g(x) 2: O Teniendo en cuenta que una proposición condicional del tipo p ==? q es lógicamente equivalente a la disyuntiva •p V q, la restricción anterior puede escribirse como g(x) 2: O ó f(x)::::; O o ambas y, siendo G una cota inferior finita para g(x) y F una cota superior finita para f(x) podemos reemplazar la restricción anterior por
g(x) 2: 8G f(x) :S (1- 8)F
8 =0, 1
366
UNIDAD DIDÁCTICA 5 Modelos de optimización
Varia bies discretas En algunas aplicaciones, las variables únicamente pueden tomar valores en un conjunto finito. Este tipo de variables son, evidentemente, discretas. VARIABLES DISCRETAS
Claramente esta condición es equivalente al conjunto de condiciones siguiente: p
Xj
=
L SkjDki k=!
8ki =0, 1
k=1, . . . ,p
En particular esta transformación sirve para el caso en que O:::; xi:::; ui
y entero
sin más que definir S = { 1, 2, ... , ui}. Sin embargo en este caso existe una transformación que emplea menos variables, a saber:
DkJ =O, 1
k= 1, ... ,ti
siento ti tal que
Selección de proyectos de inversión Supongamos un inversor que contempla n proyectos de inversión que han de realizarse a lo largo de un horizonte de m períodos de tiempo. En el período de tiempo i = 1, 2, ... , m el inversor dispone de un capital b;. Si el proyecto j = 1, 2, ... , n se ejecuta durante el período i = 1, 2, ... , m se consume una cantidad de capital igual a a;1. El valor presente neto del proyecto j es e1. El objetivo del inversor es repartir su capital entre todos los proyectos de forma que al final del horizonte considerado el beneficio obtenido sea lo mayor posible. El planteamiento del problema del inversor es el siguiente. Definamos si no se selecciona el proyecto j si se selecciona el proyecto j
j
= 1, . . . ,n
El modelo de programación entera
367
Con estas variables las restricciones de capital a lo largo de los m períodos de tiempo son: n
L a¡¡x¡ :S b¡
i = 1, .. . ,m
}= 1
La función que representa el beneficio del inversor es
En resumen, el problema del inversor puede plantearse del modo siguiente: PROBLEMA DE
5.43
SELECCIÓN DE
n
Maximizar z =
INVERS IONES
L e¡xj j=l
n
sujeto a
L a¡1x1 ::; b¡
i
= 1, . .. , m
j=l
x 1 =0,1
j=l , .. . ,n
El problema de la mochila (kpnasaek problem)
Cuando en el modelo anterior se hace m = 1 se obtiene el llamado problema de la mochila (knapsack problem). La situación corresponde a la de un excursionista que puede cargar un peso total b y quiere llenar su mochila con objetos O¡ , .. . , On, tales que O1 pesa a1 y tiene para para él un valor e1. Su objetivo es configurar la mochila de mayor valor. El problema es: PROBLEMA DE LA
5.44
MOCHILA
il
Maximizar z
=
L e¡x¡ J=l
n
sujeto a
La1x1 ::; b }=1
x¡=O,l
j= l , .. . ,n
El problema puede generalizarse para permitir que haya objetos repetidos en la mochila, (problema de la mochila multi-item), redefiniendo las variables x 1 como el número de objetos de tipo j que se han de incluir en la mochila, que obviamente han de tomar valores enteros. Se obtiene el problema:
168
UNIDAD DIDÁCTICA 5 Modelos de optimización
PROBLEMA DE LA
5.45 .
MOCHILA
n
L, eJXJ
Maximizar z =
MULTI-ITEM
)=1
n
L a1x1 :::; b
sujeto a
}=1
x1 2:: O y entero
j
= 1, ... ,n
El problema de la mochila se denomina también problema del contenedor, problema del kit de vuelo, etc. y aunque en su formulación más simple es poco probable que tenga aplicaciones reales su estudio es útil como subrutina para resolver modelos más complejos .
Prob lema de carga fija En muchos problemas de planificación de la producción de n productos, el coste de producción de un producto j conlleva un coste fijo, d1 independiente de la cantidad producida y un coste por unidad producida de eJ. Por ejemplo, el coste de edición de un libro, se compone de una cantidad fija que incluye los gastos de composición del original, corrección de pruebas de imprenta, preparación de fotolitos y planchas, etc. y un coste que es proporcional al número de ejemplares tirados, que incluye los costes de papel, tirada, encuadernación, etc. En este tipo de situaciones, si x 1 es el nivel de producción, la función de coste de producción puede escribirse como:
La figura 5.21 representa este tipo de funciones . Suponiendo que d1 > O, puede apreciarse que esta función objetivo es discontinua en el origen, lo cual complica notablemente el tratamiento analítico. Esta dificultad puede suavizarse con la ayuda de variables binarias. Definimos ._ { 0 YJ 1
Xj Xj
=0 >0
Supongamos que queremos minimizar la función ¡ 1(x1 ) . Entonces dicha función puede representarse por
Xj
2:: 0
YJ = O, 1 X j( l - yj )
=0
El modelo de programación entera
369
Pendiente e1
o Figura 5.21: Función del objetivo con coste fijo .
Esta última condición tiene la siguiente interpretación: si x 1 > O entonces por fuerza Yi = 1 y por tanto el coste fijo di es sumado a la función 8J; por otra parte, si Xj = O entonces Yi puede ser O ó 1; ahora bien, como d1 > O y se quiere minimizar 8} entonces en el mínimo ha de ser Yi =O, de forma que XJ =O implica que Yi =O. La condición x 1 ( 1 - y1 ) es no lineal. Cuando se dispone de una cota superior finita u1 > O de x 1 es posible reemplazar esta condición por la restricción lineal Xj :::; UjYj
De nuevo podemos razonar que si x 1 > O y ha de cumplirse la restricción anterior tiene que ser Yi = l. Por otra parte si XJ =O la minimización de 8J conlleva Yi = O. En resumen, un problema de coste fijo que incluya restricciones lineales recogiendo las condiciones tecnológicas puede escribirse como el siguiente problema de programación entera mixta: P ROBLEMA D E
~ -~
¡ 5.46 ¡
C AR GA FIJA
n
Minimizar z =
L (c 1x1 + d jy¡) j= l
sujeto a n
La¡JXJ=b¡
i=l, . .. ,m
}=1
O:::;x¡:::; UJYJ
Yi=O,l
j = l, .. . ,n
}=l, .. . ,n
370
UNIDAD DIDÁCTICA 5 Modelos de optimización
Problema de localización de plantas
Un caso particular del problema de coste fijo es el denominado problema de localización de plantas. Supongamos que se quiere atender a n clientes cada uno de los cuales demanda una cantidad b1, j = 1, . . . , n de un determinado bien. Para responder a la demanda se consideran m localizaciones en las que pueden operar o no las fábricas. En particular si la fábrica i, i = 1, .. . , m se abre, o se pone en operación, o se construye, se incurre en un coste fijo d; > O. Además la planta i tiene una capacidad de producción máxima de h;. El coste de enviar una unidad desde la planta i al cliente j es de ciJ . Se desea saber qué cantidad del bien hay que enviar desde cada una de las posibles localizaciones a cada uno de los clientes a fin de que el coste total del suministro sea mínimo. Definamos x;1 como la cantidad que hay que enviar desde la localización i al cliente j. Asimismo definamos y; = 1, O según que se utilice o no la localización i. La función objetivo deberá incluir los costes de transporte más los costes fijos. Los costes de transporte son I,j~ 1 LJ= ! CiJXiJ mientras que los costes fijos son 2:,~ 1 d;y; . En resumen, la función objetivo será
m
z=
n
1n
I, I,c;Jx;1 + I,d;y; i =l
i=I J=I
Las restricciones que indican que ha de satisfacerse la demanda de los clientes son m
I, XiJ = bJ
j
= 1, . .. , n
i=l
Por otra parte las restricciones que aseguran que no se enviarán desde una planta más unidades de las que puede producir, incluído el caso en que estas sean cero por no haber sido abierta la planta son
n
I, X;J :S h¡y¡
i = 1, ... , m
}=1
Añadiendo las restricciones naturales en las variables tenemos el siguiente modelo de localización de plantas
El modelo de programación entera
PROBLEMA DE
371
5.47
LOCALIZACIÓN DE
1n
n
1n
L L c;¡x;¡ + L d;y¡
Minimizar z =
PLANTAS
i=l j= l
i =l
sujeto a m
L, x;¡= b¡
j = l, ... ,n
i= l
n
L
X¡¡ ::;
h;y¡
i
=
1, . .. , m
j= l
x;¡ 2: 0
i= l, . . . ,m; j= l , .. . ,n
y¡= O, 1
5. 7.2
i = 1, . .. ,m
Método de ramificación y acotación
Consideremos el problema de programación entera, pg. 360, y supongamos que para cada variable entera se dispone de cotas superiores e inferiores que incluyen con seguridad los valores óptimos
Usualmente L 1 = O, pero éste no tiene por qué ser necesariamente el caso. La idea del algoritmo de ramificación y acotación descansa en la siguiente observación elemental. Consideremos cualquier variable x1 y sea I algún valor entero tal que L 1 ::; I ::; U¡ - l. Entonces una solución óptima del problema entero también satisfará una de las dos restricciones siguientes: Xj
2: l
+1
o bien X¡ ::;
I
Para ilustrar como trabaja esta dicotomía supongamos que resolvemos el problema sin la restricción de integridad y obtenemos una solución tal que x1 = Entonces formulamos y resolvemos dos problemas más. Uno añadiendo a las restricciones del problema la nueva restricción 2 ::; x1 ::; u1 y otro añadiendo la restricción L 1 ::; x 1 ::; l. Ambos problemas se resuelven de nuevo mediante un algoritmo de programación continua. Supongamos que ambos problemas tienen una solución óptima que satisface la condición de integridad. Entonces la solución de mayor valor para el objetivo es la solución óptima del problema original. Usualmente uno, o ambos problemas, no tienen solución óptima entera. Entonces hay que volver a aplicar la dicotomía. Veamos de qué manera sistemática puede realizarse esto. Razonaremos en primer lugar mediante un ejemplo, para a partir de él enunciar el algoritmo.
i·
~72
UNIDAD DIDÁCTICA 5 Modelos de optimización
8
7 6 5 4
3 2
• • • • • •
Óptimo: x 1 = 3.75 ,x2
= 1.25,z = 23 .75
o 1
2
3
7
8
Maximizar z = 5x¡
+ 4x2
4
5
6
9
Figura 5.22
Consideremos el problema
sujeto a
lOx¡ X¡ , x2
+ 6x2 :=:; 45
2: O y enteros
La figura 5.22 representa el espacio de soluciones para el problema lineal entero (PLE), señalando cada solución factible con un punto. El correspodiente problema lineal continuo (PLO) se obtiene eliminado la restricción de integridad. La solución óptima del PLO es x 1 = 3.75 ,x2 = 1.25 ,z
= 23.75
que como puede apreciarse no es entera. Entonces lo que hay que hacer es modificar el espacio de soluciones a fin de obtener un nuevo espacio tal que la solución óptima sea entera. Seleccionamos una de las variables no enteras para ramificar. Arbitrariamente seleccionamos
El modelo de programación entera
373
8 7
6 5 X¡
X¡
:S 3
2': 4
4
• •PLl • • •
3 2
1
PL2
o 1
2
3
4
5
6
7
8
9
Figura 5.23
X¡
= 3.75. Observemos que en la región 3 < x1 < 4 no puede, por definición,
existir ninguna solución del problema entero. Entonces modificamos el problema eliminando la región no prometedora, lo cual se consigue reemplazando el espacio original PLO por dos nuevos espacios PL 1 y PL2 definidos de la forma siguiente 1) PLl = PLO + (x 1 :S 3) 2) PL2 = PLO + (x¡ 2': 4) La figura 5.23 representa gráficamente estos espacios. Notemos en primer lugar que PL 1 y PL2 contienen entre los dos las mismas soluciones enteras que PLO. Por tanto desde el punto de vista del problema original es igual trabajar con PLO que con PL 1 y PL2. En segundo lugar notamos que las restricciones adicionales que definen PLl y PL2 presumiblemente fuercen al óptimo de estos problemas a tener soluciones enteras. Y, en tercer lugar, al trabajar con restricciones adicionales en la vecindad del óptimo continuo, es muy posible que se obtengan buenas soluciones enteras. Como puede verse en la figura 5.24 las dos restricciones x 1 :S 3 y x 1 2': 4 producen el efecto de dividir PLO en dos espacios mutuamente excluyentes
74
UNIDAD DIDÁCTICA 5 Modelos de optimización
PLO x 1 = 3.75,x2
X¡
= 1.25,z = 23 .75
:S 3
X¡
2:4
PLl PL2
x1
= 3,x2 = 2,z = 23
Figura 5.24
PLl y PL2. En esta división consiste la idea de ramificación. La variable x1 es la variable de ramificación. Sabemos que el óptimo del problema entero ha de estar o bien en PLl o bien en PL2. Aunque en este ejemplo, podemos resolver el problema gráficamente, en general, y en ausencia de otra información no podemos decidir en cuál de los dos espacios estará el óptimo, por lo que en principio debemos considerar los dos problemas por separado e investigar ambos problemas. Supongamos que, arbitrariamente, seleccionamos PLl, es decir consideramos el problema Maximizar z = 5x¡ + 4x2 sujeto a X¡
+x2:::; 5
lüx¡ + 6x2 :::; 45 X¡ X¡ ,x2
:S 3
2: O y enteros
Aplicando el algoritmo del simplex, reoptimizando a partir de la solución del problema continuo, mediante la adición de la nueva restricción X¡ :::; 3, obtenemos que la solución de este problema es X¡
= 3,x2 = 2,z = 23
El modelo de programación entera
375
que es una solución entera. Puesto que la solución óptima de PLl satisface la restricción de integridad, concluimos que en PL 1 no puede haber ninguna solución entera mejor y decimos que el problema PLl esta sondeado. La obtención de una (buena) solución entera en los comienzos de los cálculos es de vital importancia para la eficiencia del algoritmo de ramificación y acotación. En efecto, dicha solución sirve como cota inferior para el valor óptimo del problema entero y puede utilizarse para descartar cualquier otra rama no explorada que no prometa ninguna solución con valor mejor que la cota inferior disponible. En nuestro ejemplo, PLl ha proporcionado una cota inferior para el valor entero de z igual a 23. Ahora bien, sabemos que el óptimo continuo vale z = 23.75 y puesto que todos los coeficientes de la función objetivo son enteros sabemos que no puede haber ninguna problema que emane de PLO que proporcione una solución entera con z mayor que 23. Por tanto 23 es el valor óptimo del problema entero, y puesto que ya disponemos de la solución proporcionada por PLl, podemos descartar sin más investigación la rama PL2. Por tanto la rama PL2 está también sondeada. En resumen, podemos asegurar que un subproblema está sondeado cuando: 1) El subproblema tiene una solución óptima factible que es entera. 2) El subproblema no puede proporcionar una solución óptima superior a la mejor cota inferior disponible (un valor de z) para el problema entero. En particular éste es el caso cuando el subproblema no tiene soluciones factibles . En el ejemplo anterior, el subproblema PLl ha sido sondeado por la condición 1), mientras que el PL2 lo ha sido por la condición 2). Si revisamos la discusión anterior observamos que hay dos cuestiones que todavía no se han comentado; a saber: 1) ¿En el problema PLO, se podría haber seleccionado como variable de ramificación la variable x 2 en lugar de la x 1 ? 2) ¿Al seleccionar el siguiente problema para investigar, podría haberse elegido el problema PL2, en lugar del PLl? La respuesta a ambas cuestiones es, obviamente, sí. La secuencia de iteraciones y por tanto el volumen de cálculos necesarios para encontrar el óptimo varía drásticamente según la variable de ramificación y el subproblema seleccionados. Veamos que ocurre en este ejemplo. Supongamos que elegimos investigar PL2. La solución óptima de este subproblema encontrada a partir del algoritmo del simplex es: X¡
= 4,
Xz
= 0.8333,
Z
= 23.333
Puesto que x 2 = 0.8333 no es entero debemos ramificar a partir de xz. Las dos ramas son x 2 :S O y x 2 2: l. Obtenemos ahora dos nuevos subespacios:
76
UNIDAD DIDÁCTICA 5 Modelos de optimización
1) PL3 = PLO + (x¡ 2:: 4) + (x2 :S O) 2) PL4 = PLO + (x¡ 2:: 4) + (x2 2:: 1) En este momento tenemos tres subproblemas para elegir: PL1, PL3 y PL4. Supongamos que seleccionamos arbitrariamente PL4. Tenemos entonces que resolver el problema Maximizar z = 5x¡
+ 4x2
sujeto a
10x¡
+ 6x2 :S 45 X¡
X¡
,x2
2:: 4
2:: O y enteros
y encontramos que no tiene soluciones factibles. Por tanto este subproblema está ya sondeado. A continuación seleccionamos arbitrariamente PL3 y lo resolvemos: Maximizar
z = 5x 1 + 4x2
sujeto a
10x¡ + 6x2 :S 45 X¡
X¡
,x2
2:: 4
2:: O y enteros
La solución óptima de este problema es X¡
= 4.5 ,
X2
=O,
z = 22.5
Puesto que la solución no es entera debemos ramificar en base a x 1• Esto conduce a dos nuevos subproblemas: 1) PL5
= PLO + (x ¡ 2:: 4) + (x2 :S O) + (x ¡ :S 4)
2) PL6 = PLO + (x ¡ 2:: 4) + (x2 :S O) + (x ¡ 2:: 5)
El modelo de programación entera
Tenemos ahora como candidatos a ser investigados PLl , PLS PL6. Se cionando PL6 tenemos que resolver el problema: Maximizar z
= 5x¡ +
4x2
sujeto a x¡ +x2:S 5 lüx¡ + 6x2 :::; 45
X ¡, X2
X¡
2:: 4
X2
:S 0
X¡
2:: 5
2:: O y enteros
que claramente no tiene soluciones factibles . Por tanto PL6 está sondeado. Elegimos ahora PL5 y resolvemos el problema: Maximizar
z = 5x 1 +
4x2
sujeto a X¡
+ x 2 :S 5
lüx¡ + 6x2 :::; 45 X¡
2:: 4
X2
:S 0
X¡ :::; X ¡ , X2
4
2:: O y enteros
cuya solución óptima es X¡
= 4,
X2
= O, z = 20
que es entera y proporciona una cota inferior para la función objetivo (z = 20). Únicamente queda por investigar PLl que proporciona como sabemos un valor z = 23. Siendo esta la mejor cota para el valor del objetivo y no habiendo más problemas por investigar, concluimos que la solución de PLl es la solución óptima. La figura 5.25 representa esquemáticamente el transcurso de las iteraciones. Como vemos en la figura, en esta segunda parte del ejemplo se ha buscado deliberadamente la sucesión de iteraciones que representan el peor de los casos en el algoritmo de ramificación y acotación. Así pues, al aplicar el algoritmo puede ocurrir que se disponga rápidamente de una buena cota para la función del objetivo, como en la primera resolución del ejemplo, en cuyo caso ha bastado únicamente resolver un subproblema para encontrar el óptimo entero, o
378
UNIDAD DIDÁCTICA 5 Modelos de optimización
PLO
(D
x¡ X¡
= 3.75,x2 = 1.25,x = 23.75
2:4
X¡
:S 3
PLl
PL2 X¡
G)l
= 4,x2 = Ü.833,z = 23.33
x¡
= 3,x2 = 2,z = 23
cota inferior (óptimo)
PL4
G)
1
PL3
0
sin solución
L---------~~--------~
X¡
2: 5
PL6
0 /L___s_in_s_o_lu_c_ió_n_~l
X¡
:S 4
PL5
01_~_x¡_=_4_.x_-2_=_o_,
z__2_o_ _,
L
cota inferior
Figura 5.25
bien puede ocurrir que sea necesario resolver todos los subproblemas posibles, como los seis subproblemas resueltos en el ejemplo, antes de llegar al óptimo. Aunque se han ensayado diversos procedimentos heurísticos para intentar no caer en el peor caso y obtener una buena estima de la solución en los primeros pasos del algoritmo, lamentablemente no se dispone de ningún procedimiento fundamentado para ello. Este es quizás el principal inconveniente del algoritmo.
5.7.3
Algoritmo de ramificación y acotación
Enunciamos a continuación el algoritmo de ramificación y acotación para un problema de maxirnización.
El modelo de programación entera
ALGORITMO DE RAMIFICACIÓN Y ACOTACIÓN
5.48
379
Paso Inicial: Definamos z como una cota inferior para el valor óptimo de problema de programación entera. Inicialmente z = -oo e i =O.
Paso 1: Sondeo 1 Acotación Seleccionar PLi como problema para investigar. Resolver PLi e intentar sondearle utilizando las condiciones adecuadas. a) Si PLi está sondeado (solución inferi01~ no factible o entera), actualizar la cota inferior z si se ha encontrado una solución entera superior; en otro caso, seleccionar un nuevo subproblema y repetir el Paso l. Si todos los problemas han sido investigados, STOP El óptimo entero está asociado con el subproblema que ha proporcionado la mejor cota z, si existe. En otro caso: b) Si PLi no ha sido sondeado, ir al Paso 2 y efectuar la ramificación de PLi .
Paso 2: Ramificación. Seleccionar una de la variables x1 cuyo valor óptimo xj en la solución de PLi no cumpla la condición de integridad. Eliminar la región
[xj] < x1 < [xj] + 1 donde [A] denota la parte entera de A, es decir, el mayor entero menor o igual que A, creando dos subproblemas PL correspondientes a las siguientes condiciones mutuamente excluyentes x¡ ::=;
Ir al Paso l.
[xj]
y
x¡
2: [xj] + 1
ISBN: 978-84-92477•
978849t774