Criterios de estimación. Cota de Cramer-Rao (I) • La Cota de Cramer-Rao permite obtener la mínima varianza de cualquier estimador insesgado de un parámetro determinista y comprobar si se satisface para todos los valores del parámetro desconocido. • Relación entre varianza, precisión del estimador y fdp: Cuanto mayor sea la dependencia de la fdp con el parámetro a estimar más fiable será la estima. Ej: X[0] = θ+η[0]; η[0] = N(0, σ2); θˆ = x[0] ⇒ var(θˆ) = σ 2 (la precisión del estimador decrece con ↑ σ )
Curso de doctorado: Decisión, estimación y clasificación. Autor: José Luis Alba Castro. Departamento de Teoría de la Señal y Comunicaciones.
Criterios de estimación. Cota de Cramer-Rao (I)
Cuanto más “picuda” es la función de verosimilitud más precisa puede ser la estima del parámetro desconocido
Curso de doctorado: Decisión, estimación y clasificación. Autor: José Luis Alba Castro. Departamento de Teoría de la Señal y Comunicaciones.
Criterios de estimación. Cota de Cramer-Rao (II) • Una medida de la precisión del estimador es el negativo de la derivada segunda de la función de verosimilitud. Ej: pi ( x[0];θ ) =
⎡ 1 1 2⎤ exp⎢− θ ( [ 0 ] ) − x ⎥⇒ 2 2π σ i ⎦ ⎣ 2σ i
∂ ln pi ( x[0];θ ) 1 ∂ 2 ln pi ( x[0];θ ) 1 = 2 ( x[0] − θ ) ⇒ − = 2 ∂θ ∂θ 2 σi σi var(θˆ) = σ i = 2
1 ∂ 2 ln pi ( x[0];θ ) − ∂θ 2
• Como la segunda derivada puede depender del dato, una medida más adecuada es tomar la esperanza, reconociendo así que X[0] es una variable aleatoria: var(θˆ) =
1 ⎧ ∂ 2 ln pi ( x[0];θ ) ⎫ − E⎨ ⎬ ∂θ 2 ⎩ ⎭
Curso de doctorado: Decisión, estimación y clasificación. Autor: José Luis Alba Castro. Departamento de Teoría de la Señal y Comunicaciones.
Criterios de estimación. Cota de Cramer-Rao (III) •
Expresión de la Cota de Cramer-Rao: var(θˆ) ≥
1 1 = ⎧∂2 ln p(x;θ ) ⎫ ⎧⎪⎛ ∂ ln p(x;θ ) ⎞2 ⎫⎪ − E⎨ ⎬ E⎨⎜ ⎟⎬ 2 ⎩ ∂θ ⎭ ⎪⎩⎝ ∂θ ⎠ ⎪⎭
θˆ es un estimador EFICIENTE de θ si :
Demostración Æ
1 ∂lnp( x;θ ) = [θˆ − θ ]I (θ ) ⇒ var(θˆ) = ∂θ I (θ )
(Nota: en este caso la estima máximo verosimil es igual al propio parámetro: θˆML ( x ) = θ )
Derivando de nuevo obtenemos:
⎡∂2 ln p(x;θ ) ⎤ información de Fisher ∂2 ln p(x;θ ) ∂I (θ ) ˆ = −I (θ ) + [θ −θ ] ⇒ I (θ ) = −E⎢ ⎥ ≡ para los datos x 2 θ ∂θ 2 ∂θ ∂ ⎣ ⎦ La información de Fisher es mayor cuanto menor es la Cota de Cramer-Rao. La información de Fisher cumple las propiedades de las medidas de información: • Es no negativa • Es aditiva para observaciones independientes Curso de doctorado: Decisión, estimación y clasificación. Autor: José Luis Alba Castro. Departamento de Teoría de la Señal y Comunicaciones.
Ejemplo: x[0] = θ+η[0]; η[0] = N(0, σ2); 1 ∂2 ln p(x[0];θ ) 1 ⎡ 1 2⎤ = − ⇒ var(θˆ) ≥ σ 2; exp⎢− 2 ( x[0] −θ ) ⎥ ⇒ p(x[0];θ ) = 2 2 ∂θ σ 2πσ ⎣ 2σ ⎦ si θˆ = x[0]⇒ var(θˆ) = σ 2 es el estimador de mínima varianza y es eficiente
Ejemplo: x[n] = θ+η[n]; η[n] = i.i.d. N(0, σ2); p( x;θ ) =
(
1 2π σ
)
N
⎤ ⎡ 1 N −1 exp⎢− 2 ∑( x[n] − θ )2 ⎥ ⇒ ⎦ ⎣ 2σ n=0
N ∂ ln p( x;θ ) 1 N −1 = 2 ∑( x[n] − θ ) = 2 ( x − θ ) = I (θ )(θˆ − θ ) ∂θ σ n=0 σ
σ2 N ∂2 ln p( x;θ ) ˆ = − 2 ⇒ var(θ ) ≥ N ∂θ 2 σ la media muestral x es un MVU eficiente
Æla cota de Cramer-Rao para N observaciones i.i.d. es N veces inferior a la de una observación, como se deduce de la información de Fisher. Ejercicio: 12) Demostrar que para N observaciones i.i.d. la información de Fisher es N veces superior a la de una observación (propiedad aditiva) Curso de doctorado: Decisión, estimación y clasificación. Autor: José Luis Alba Castro. Departamento de Teoría de la Señal y Comunicaciones.
Criterios de estimación. Cota de Cramer-Rao (IV) • Cota de Cramer-Rao para señales en ruido blanco: X [n] = s(n;θ ) + η[n]; p( x;θ ) =
(
1 2π σ
)
N
η[n] ≡ i.i.d . N (0, σ 2 )
⎡ 1 N −1 2⎤ exp⎢− 2 ∑ ( x[n] − s(n;θ ) ) ⎥ ⎣ 2σ n=0 ⎦
2 ∂ 2 ln p( x;θ ) 1 N −1 ⎡ ∂ 2 s(n;θ ) ⎛ ∂s(n;θ ) ⎞ ⎤ = 2 ∑ ⎢( x[n] − s(n;θ ) ) −⎜ ⎟ ⎥ 2 ∂θ ∂θ 2 σ n=0 ⎢⎣ ⎝ ∂θ ⎠ ⎥⎦
⎡ ∂ 2 ln p( x;θ ) ⎤ 1 N −1 ⎛ ∂s(n;θ ) ⎞ = − 2 ∑⎜ E⎢ ⎟ ⇒ var(θˆ) ≥ ⎥ 2 ∂θ σ n=0 ⎝ ∂θ ⎠ ⎣ ⎦
σ2
2
⎛ ∂s(n;θ ) ⎞ ⎜ ⎟ ∑ θ ∂ ⎝ ⎠ n =0 N −1
2
Æ Cuanto más sensible es la señal respecto al parámetro, más precisión pueden alcanzar los estimadores
Curso de doctorado: Decisión, estimación y clasificación. Autor: José Luis Alba Castro. Departamento de Teoría de la Señal y Comunicaciones.
Ejemplo: estimación de frecuencia. X[n] = s[n;θ]+η[n] = Acos(2πf0n + φ) + η[n] 0 < f0 <1/2 var(fˆ0) ≥
σ2 N−1
A ∑(2πn sen(2πf0n +φ)) 2
2
n=0
Ejercicio: 13) Encontrar la cota de Cramer-Rao para un estimador de la fase φ de la sinusoide en ruido.Verificar que no existe un estimador eficiente.
Curso de doctorado: Decisión, estimación y clasificación. Autor: José Luis Alba Castro. Departamento de Teoría de la Señal y Comunicaciones.
Criterios de estimación. Cota de Cramer-Rao (V) • Extensión a un vector de parámetros. Dado el vector de parámetros
Θ = [θ1θ2 Lθ P ]
T
la cota de CR impone la varianza mínima para los estimadores del parámetro θi :
[
]
var(θˆi ) ≥ I −1(Θ) ii
ó
CΘˆ = I −1(Θ)
I(Θ) es la matriz de información de Fisher (PxP), definida como: ⎡ ∂ 2 ln p( x; Θ) ⎤ [I (Θ)]ij = − E ⎢ ⎥ θ θ ∂ ∂ ⎢⎣ ⎥⎦ i j
El mínimo CΘ= I-1(Θ) se alcanza si y solo si:
[
]
ˆ −Θ ∇Θ ln p( x; Θ) = I (Θ) Θ
Curso de doctorado: Decisión, estimación y clasificación. Autor: José Luis Alba Castro. Departamento de Teoría de la Señal y Comunicaciones.
Ejemplo: X[n] = Α+η[n]; η[n] = i.i.d. N(0, σ2); A y σ2 desconocidos: Θ = [A σ 2 ]T ⎡ ⎡ ∂ 2 ln p ( x ; Θ ) ⎤ ⎢− E ⎢ ⎥ ∂A2 ⎣ ⎦ ⎢ I ( Θ) = 2 ⎢ ⎡ ∂ ln p ( x ; Θ ) ⎤ E − ⎢ ⎢ ∂σ 2 ∂A ⎥ ⎣ ⎦ ⎣
⎡ ∂ 2 ln p ( x ; Θ ) ⎤ ⎤ − E⎢ ⎥⎥ 2 ⎣ ∂A ∂σ ⎦⎥ 2 ⎡ ∂ ln p ( x ; Θ ) ⎤ ⎥ − E⎢ ⎥⎥ 2 2 ⎣ ∂ (σ ) ⎦⎦
N N 1 ln p ( x ; θ ) = − ln( 2π ) − ln(σ 2 ) − 2 2 2σ 2 ∂ ln p ( x ; θ ) N = − ; σ2 ∂A2 2
N −1
∑ ( x [ n ] − A)
∂ 2 ln p ( x ; θ ) N 1 = − 6 2 2 4 σ ∂ (σ ) 2σ
⇒
n =0
∂ ln p ( x; θ ) 1 = − σ4 ∂A ∂ (σ 2 ) 2
2
N −1
∑ ( x [ n ] − A) n =0
N −1
∑ ( x [ n ] − A)
2
n =0
Tomando esperanzas y cambiando de signo:
⎡N ⎢ 2 I ( Θ) = ⎢ σ ⎢ 0 ⎣
σ ⎤ 0 ⎥ var( Aˆ ) ≥ N ⇒ ⎥ N 2σ 4 2 ⎥ ˆ var(σ ) ≥ 2σ 4 ⎦ N 2
Æ La cota de CR para  es la misma que en el caso de σ2 conocida debido a que I(Θ) es diagonal, pero no siempre es así. Veamos otro ejemplo: Curso de doctorado: Decisión, estimación y clasificación. Autor: José Luis Alba Castro. Departamento de Teoría de la Señal y Comunicaciones.
Ejemplo: ajuste lineal. X[n] = Α+B[n] + η[n]; η[n] = i.i.d. N(0, σ2): Θ = [A B]T ⎡ 1 N −1 2⎤ − − − p( x; Θ) = exp ( x [ n ] A Bn ) ⎢ 2σ 2 ∑ ⎥ (2πσ 2 ) N / 2 n =0 ⎣ ⎦ 1
∂ ln p( x; Θ) 1 N−1 ∂2 ln p( x; Θ) N ; = 2 ∑( x[n] − A − Bn) ; = − ∂A ∂A2 σ n=0 σ2 1 N−1 2 ∂ ln p( x; Θ) 1 N−1 ∂2 ln p( x; Θ) = 2 ∑( x[n] − A − Bn)n ; = − 2 ∑n ∂B ∂B2 σ n=0 σ n=0 1 N−1 ∂2 ln p( x; Θ) = − 2 ∑n ∂A∂B σ n=0 N(N −1) ⎤ ⎡ N ⎥ 1⎢ 2 Como las derivadas de 2º orden no dependen de x: I (Θ) = 2 ⎢ σ ⎢ N(N −1) N(N −1)(2N −1) ⎥⎥ 6 ⎣ 2 ⎦ 2 σ −6 ⎤ ⎡ 2(2N −1) ˆ ) ≥ 2(2N −1) var( A ⎢ N (N +1) N(N +1) ⎥ −1 2 N( N + 1) I (Θ) = σ ⎢ ⎥⇒ 12 ⎥ σ 2 12 ⎢ −6 ˆ var(B) ≥ ⎢⎣ N(N +1) N(N 2 −1) ⎥⎦ N (N 2 −1)
Curso de doctorado: Decisión, estimación y clasificación. Autor: José Luis Alba Castro. Departamento de Teoría de la Señal y Comunicaciones.
Veamos ahora si existe un estimador eficiente para: Θ = [A B]T ⎡ N 1 ⎢ ∇Θlnp( x; Θ) = 2 ⎢ σ ⎢ N ( N − 1) 2 ⎣
N ( N − 1) ⎤ ⎥⎛ Aˆ − A ⎞ 2 ⎟ ⎜ N ( N − 1)( 2 N − 1) ⎥⎜ Bˆ − B ⎟ ⎠ ⎥⎝ 6 ⎦
∑ (x[n ] − A − Bn ) = N (Aˆ − A) +
(
)
⎫ ⎪ ⎪ n =0 ⎬⇒ N −1 (x[n ] − A − Bn )n = N ( N − 1) Aˆ − A + N ( N − 1)( 2 N − 1) Bˆ − B ⎪ ∑ ⎪⎭ 2 6 n =0 N −1
N ( N − 1) ˆ B−B 2
(
)
(
)
N −1 6 ⎧ ˆ 2( 2 N − 1) N −1 ⎪⎪ A = N ( N + 1) ∑ x[n ] − N ( N + 1) ∑ nx[n ] n =0 n =0 ⇒⎨ N −1 N −1 6 12 ˆ ⎪B = x[ n ] − nx[n ] ∑ ∑ 2 ⎪⎩ N ( N + 1) n =0 N ( N − 1) n =0
– Tarea 2) A partir del script básico de Matlab (en la web el curso) que genera una simulación de la curva IBEX35, se propone como tarea hacer un script que permita hacer un ajuste lineal a tramos de la curva mediante estimadores como los de este ejemplo.
Curso de doctorado: Decisión, estimación y clasificación. Autor: José Luis Alba Castro. Departamento de Teoría de la Señal y Comunicaciones.
Ejemplo: (continuación) Observaciones: •B es más fácil de estimar que A, ya que su cota decrece como 1/N3 sin embargo la de A decrece como 1/N. Esto indica que X[n] es más sensible a cambios en B que en A: CRLB ( Aˆ ) ( 2 N − 1)( N − 1) = > 1, ∀N ≥ 3 6 CRLB ( Bˆ )
•La cota de CR para  es mayor que si B fuese conocido. En general la cota de CR aumenta cuando se estiman más parámetros (ver ejemplo anterior). Ejercicio: 14) Para una matriz de información de Fisher 2x2 definida positiva, demostrar que:
[I
−1
(Θ )
]
ii
≥
1 [I ( Θ ) ]ii
¿cuándo se cumple la igualdad?
Curso de doctorado: Decisión, estimación y clasificación. Autor: José Luis Alba Castro. Departamento de Teoría de la Señal y Comunicaciones.
Criterios de estimación. Cota de Cramer-Rao (demostración) • Para comprobar la efectividad de un estimador insesgado se puede calcular una cota inferior y verificar cuanto se acerca a la misma:
[ ] [ ] ∂ [ θˆ − θ ]p( x;θ )dx = ∫ ∫ ∂θ
∞ E θˆ − θ = 0 = ∫ θˆ − θ p( x;θ )dx = 0 −∞
{[
[ ]
]
∞ ∞ ∂p( x;θ ) ∂ ˆ θ − θ p( x;θ )}dx = −∫ p( x;θ )dx + ∫ θˆ − θ dx −∞ ∂θ −∞ −∞ ∂θ
∞
−∞
∞
[ ]
[ ]
∞ ∂ ln p( x;θ ) ∂p( x;θ ) ˆ θ − θ dx = ∫−∞ ∂θ ∫−∞ ∂θ p(x;θ) θˆ −θ dx =1 ∞
Y utilizando la desigualdad de Cauchy-Schwarz:
[
]
∞ ⎡ ∂ ln p( x;θ ) ⎤ ˆ − θ 2 p( x;θ )dx ≥ 1 ⇒ p x dx ( ; θ ) * θ ∫−∞ ⎢⎣ ∂θ ⎥⎦ ∫−∞ 2 1 ⇒ var(θˆ) = E θˆ − θ θ ≥ ⇒ Cota de Cramer - Rao ⎧⎪⎡ ∂ ln p( x;θ ) ⎤ 2 ⎫⎪ E ⎨⎢ ⎥⎦ θ ⎬⎪ ∂θ ⎪⎩⎣ ⎭ ∂ ln p( x;θ ) ˆ 1 ⇒ Igualdad cuando : = θ − θ I (θ ) ⇒ var(θˆ) = ( I (θ ) no depende de x ni de θˆ ) ∂θ I (θ ) ∞
2
{[ ] }
[
]
Curso de doctorado: Decisión, estimación y clasificación. Autor: José Luis Alba Castro. Departamento de Teoría de la Señal y Comunicaciones.
Criterios de estimación. Cota de Cramer-Rao (demostración) • Una expresión alternativa para la Cota de CR surge notando que: ∞ ∂ ln p( x;θ ) ∂p( x;θ ) ∫−∞ p( x;θ )dx = 1 ⎯⎯⎯⎯→ ∫−∞ ∂θ dx = ∫−∞ ∂θ p( x;θ )dx = 0 ∞
derivando
∞
∞ ⎡ ∂ ln p( x;θ ) ⎤ ∂ 2 ln p( x;θ ) ⎯⎯⎯ ⎯→ ∫ p( x;θ )dx + ∫ ⎢ ⎥⎦ p( x;θ )dx = 0 −∞ −∞ ∂θ 2 ∂θ ⎣ derivando
∞
2
⎡⎡ ∂ ln p( x;θ ) ⎤2 ⎤ ⎡ ∂2 ln p( x;θ ) ⎤ ⇒ E⎢ θ ⎥ = − E ⎢⎢ 2 ⎥⎦ θ ⎥ ∂ ∂ θ θ ⎣ ⎣ ⎦ ⎦⎥ ⎣⎢ 1 ⇒ var(θˆ) ≥ − ⎡ ∂2 ln p( x;θ ) ⎤ E⎢ θ⎥ 2 ∂ θ ⎣ ⎦
Curso de doctorado: Decisión, estimación y clasificación. Autor: José Luis Alba Castro. Departamento de Teoría de la Señal y Comunicaciones.