ML-Schätzer bestimmen < math. Statistik < Stochastik < Hochschule < Mathe < Vorhilfe
|
Aufgabe | Seien [mm] $X_1, [/mm] . . . [mm] ,X_n$ [/mm] u.i.v. Zufallsvariablen mit Werten in $E := [mm] \{1, . . . , k\}$. [/mm] Sei ferner [mm] $P(X_1 [/mm] = i) = [mm] p_i$ [/mm] für $i [mm] \in [/mm] E$. Bestimmen Sie den Maximum-Likelihood-Schätzer für $p = [mm] (p_1, [/mm] . . . , [mm] p_k)$. [/mm] |
Tja. Ich muss mir eine ML-Funktion basteln (aus der Verteilung) und dann das Maximum versuchen zu bestimmen. Hat jemand ne Idee dazu?
|
|
|
|
Status: |
(Antwort) fertig | Datum: | 23:11 Do 26.06.2008 | Autor: | max3000 |
> Hat jemand ne Idee dazu?
Hast du denn nicht erstmal eine?
Was bedeutet u.i.v?
Was ihr für Abkürzungen in den Vorlesungen habt kann doch niemand erraten.
Wenn das unabhängig identisch verteilt heißt, dann ist ja alles offensichtlich.
Dann ist [mm] p_i=\bruch{1}{k}, [/mm] da die Zufallsvariable diskret ist.
Mit diesen Informationen ist die Verteilung aber bereits eindeutig definiert.
Ist das wirklich die exakte Aufgabenstellung?
Was ist nun die Likelihood-Funktion?
Wir haben das so definiert:
[mm] L(\alpha;x_1,\cdots,x_n)=\produkt_{i=1}^{n}P(x_i=x_i)
[/mm]
und in unserem Fall
[mm] =\bruch{1}{k^n}
[/mm]
Da kommt kein zu schätzender Parameter drin vor.
Also entweder die Aufgabenstellung ist fehlerhaft, oder ich hab grad einen Denkfehler. Oder dieses L ist schon die gesuchte Lösung...
|
|
|
|
|
> Hast du denn nicht erstmal eine?
Momentan noch nicht!
> Was bedeutet u.i.v?
> Was ihr für Abkürzungen in den Vorlesungen habt kann doch
> niemand erraten.
> Wenn das unabhängig identisch verteilt heißt, dann ist ja
> alles offensichtlich.
Ja, das heißt es!
> Dann ist [mm]p_i=\bruch{1}{k},[/mm] da die Zufallsvariable diskret
> ist.
Verstehe ich nicht so ganz? Das gilt doch nicht für jede diskrete Zufallsvariable. Nur für Laplaceräume!
> Mit diesen Informationen ist die Verteilung aber bereits
> eindeutig definiert.
> Ist das wirklich die exakte Aufgabenstellung?
>
> Was ist nun die Likelihood-Funktion?
>
> Wir haben das so definiert:
>
> [mm]L(\alpha;x_1,\cdots,x_n)=\produkt_{i=1}^{n}P(x_i=x_i)[/mm]
>
> und in unserem Fall
> [mm]=\bruch{1}{k^n}[/mm]
>
> Da kommt kein zu schätzender Parameter drin vor.
>
> Also entweder die Aufgabenstellung ist fehlerhaft, oder ich
> hab grad einen Denkfehler. Oder dieses L ist schon die
> gesuchte Lösung...
Damit ist der Rest dann auch nicht richtig. Ich mach das Mal so.
Der Stichprobenraum ist [mm] $\Chi=E^n$ [/mm] und der Parameterbereich [mm] $[0,1]^n$, [/mm] da man die Wmaße [mm] $p_i$ [/mm] schätzen soll. Simuliere nun $n$-mal unabhängig. Es ist [mm] $x=(x_1,\ldots, x_n)\in E^n$ [/mm] und
[mm] $P_\lambda(x)=\prod^n_{i=1}P_\lambda(x_i)=\prod^n_{i=1}p_i$,
[/mm]
wobei [mm] $\lambda=(p_1,\ldots, p_n)$ [/mm] aus dem Paramterbereich.
Ziel: Maximierung von
[mm] $l(\lambda,x)=log P_\lambda(x)=\sum^n_{i=1}p_i$.
[/mm]
Das macht man durch Ableiten usw. Sollte also klappen! Was meint ihr?
|
|
|
|
|
Leider gehts doch nicht, denn beim Ableitung kommt 1 heraus. Schade. Habe ich das also doch falsch gemacht?
L wird aber anscheinend maximal, wenn alle [mm] $p_i=1$. [/mm] Soll das so sein?
Seufz, die Statistik...
|
|
|
|
|
Status: |
(Antwort) fertig | Datum: | 14:16 Fr 27.06.2008 | Autor: | luis52 |
Moin,
schade, dass du uns nicht an deinen Ueberlegungen teilhaben laesst ...
*Ich* erhalte als Likelihoodfunktion [mm] $L=\prod_{j=1}^kp_j^{h_j}$, [/mm] worin [mm] $h_j$ [/mm] die Haeufigkeit ist,
mit der der Wert $j$ in der Stichprobe auftritt. Logarithmiere und nutze aus [mm] $p_1+\dots+p_k=1$, $n=h_1+\dots+h_k$.
[/mm]
vg Luis
|
|
|
|
|
Ok. Nach Log. ergibt sich:
$log [mm] L=\sum^n_{i=1} h_i log(p_i)$. [/mm] (*)
Wieso ist denn [mm] $p-1+\ldots +p_n=1$??? [/mm] Wie soll ich (*) das maximieren?
Ableiten nach [mm] $p_i$ [/mm] ergibt ja
[mm] $\frac{h_i}{p_i}$.
[/mm]
Aber das kann nicht null werden!
|
|
|
|
|
Status: |
(Antwort) fertig | Datum: | 16:32 Sa 28.06.2008 | Autor: | luis52 |
> Ok. Nach Log. ergibt sich:
>
> [mm]log L=\sum^n_{i=1} h_i log(p_i)[/mm]. (*)
Nein:
[mm]\log L=\sum^k_{i=1} h_i \log(p_i)[/mm]
>
> Wieso ist denn [mm]p-1+\ldots +p_n=1[/mm]???
Das gilt auch nicht! Was ist $p$? Vielmehr gilt
[mm] $p_k=1-p_1-\dots-p_{k-1}$
[/mm]
Du musst bedenken, dass das es $k$ disjunkte Ereignisse
gibt, naemlich [mm] $(X=1),\dots,(X=k)$.
[/mm]
>Wie soll ich (*) das
> maximieren?
>
> Ableiten nach [mm]p_i[/mm] ergibt ja
>
> [mm]\frac{h_i}{p_i}[/mm].
*Ich* erhalte wg oben:
[mm] $\frac{\partial L}{\partial p_i}=\frac{h_i}{p_i}-\frac{h_k}{p_k}$.
[/mm]
>
> Aber das kann nicht null werden!
>
>
Das schon.
vg Luis
|
|
|
|
|
> Nein:
>
> [mm] l=\log L=\sum^k_{i=1} h_i \log(p_i)[/mm]
[/mm]
Hast natürlich recht!
[mm] $\frac{\partial l}{\partial p_i}=\frac{h_i}{p_i}-\frac{h_k}{p_k}$
[/mm]
Ok: Und nach Null setzen erhält man
[mm] $h_ip_k=p_i h_k$ [/mm] für alle [mm] $i=1,\ldots, [/mm] k-1$.
Was machst du im Falle $i=k$?
|
|
|
|
|
Status: |
(Antwort) fertig | Datum: | 17:16 Sa 28.06.2008 | Autor: | luis52 |
>
> Was machst du im Falle [mm]i=k[/mm]?
>
>
>
>
Der Fall interessiert nicht. Die L-Funktion haengt
wegen der NB nur von [mm] $p_1,\dots,p_{k-1}$ [/mm] abhaengt.
vg Luis
|
|
|
|
|
Ich mach das jetzt mal analog, so wie wir es in der Übung gemacht haben: Setze [mm] $\Omega=\{(i_1,\ldots, i_k):i_j\in E, \ i_j\neq i_k \text{ für alle }k\neq j\}$ [/mm] und [mm] $\theta=[0,1]^k$. [/mm]
Ziel: Schätzung von [mm] $\lambda=(p_1,\ldots, p_k)\in \theta$, [/mm] wobei
[mm] $\sum^k_{i=1}p_i=1.$
[/mm]
Simuliere nun $k$-mal unabhängig. Wir beobachten dann:
[mm] $x=(x_1,\ldots, x_{k})\in \Omega$.
[/mm]
Dann ist wegen u.i.v.
[mm] $P_\lambda(\{x\})=P_\lambda(\{x_1,\ldots, x_k\})=\prod^k_{i=1}P_\lambda(\{x_i\})=\prod^k_{i=1}P_\lambda(X_1=\{x_i\})=\prod^k_{i=1}p_{x_i}$.
[/mm]
Weiter ist dann
[mm] $L(x,\lambda)=\log P_\lambda(\{x\})=\sum^k_{i=1}\log p_{x_i}$.
[/mm]
Das ist der gleiche Weg wie beim Schätzen von [mm] $\lambda$ [/mm] der Poissonverteilung.
Es ist also [mm] $\sum^k_{i=1}p_{x_i}=1$ [/mm] oder anders ausgedürckt:
[mm] $p_{x_k}=1-p_{x_1}-\ldots [/mm] - [mm] p_{x_{k-1}}$.
[/mm]
Wir wollen nun die Funktion $L$ in [mm] $\lambda$ [/mm] maximieren, um das maximale [mm] $\lambda$ [/mm] zu bekommen.
Dazu muss man jedoch [mm] $p_{x_k}$ [/mm] nicht mehr betrachten, da dies über die anderen [mm] $p_{x_i}$ [/mm] gekoppelt ist.
Der Einfachheithalber nehmen wir an, dass [mm] $x_i=i$. [/mm] Zu maximieren gilt dann die Funktion
[mm] $l(p_1,\ldots, p_{k-1})=\sum^{k}_{i=1}\log(p_i)$.
[/mm]
Für alle [mm] $i=1,\ldots, [/mm] k-1$ ist
[mm] $\frac{\partial l}{\partial p_i}=\frac{1}{p_i}-\frac{1}{p_k}\stackrel{!}{=}0$ [/mm]
Also ist [mm] $p_i=p_k$ [/mm] und das sogar für alle [mm] $i=1,\ldots,k$ [/mm] und somit [mm] $p_i=\frac{1}{k}$ [/mm] für alle $i$.
Wir müssen jetzt noch zeigen, dass [mm] $\lambda=\frac{1}{k}(1,\ldots, [/mm] 1)$ tatsächlich ein Maximum ist. Dann sind wir fertig und haben den ML-Schätzer gefunden!
Nach dieser getanen Arbeit, die ich Luis und Max zu verdanken habe, sollte die Aufgabe nun zu ende zu führen sein
|
|
|
|
|
Status: |
(Antwort) fertig | Datum: | 18:21 Sa 28.06.2008 | Autor: | luis52 |
> Ich mach das jetzt mal analog, so wie wir es in der Übung
> gemacht haben:
Prima.
>Setze [mm]\Omega=\{(i_1,\ldots, i_k):i_j\in E, \ i_j\neq i_k \text{ für
>alle }k\neq j\}[/mm]
> und [mm]\theta=[0,1]^k[/mm].
>
> Ziel: Schätzung von [mm]\lambda=(p_1,\ldots, p_k)\in \theta[/mm],
> wobei
>
> [mm]\sum^k_{i=1}p_i=1.[/mm]
>
> Simuliere nun [mm]k[/mm]-mal unabhängig. Wir b eobachten dann:
Wieso denn $k$? $k$ ist doch die Anzahl der unterschiedlichen Ereignisse?
Oder meinst du $n$? Das wuerde Sinn machen. Stell dir konkret den Fall
vor [mm] $p_1=0.2$, $p_2=0.3$ [/mm] und [mm] $p_3=0.5$. [/mm] Dann ist $k=3$, und eine
moegliche Stichprobe ist
2,3,2,1,2,1
also $n=6$.
>
> [mm]x=(x_1,\ldots, x_{k})\in \Omega[/mm].
>
> Dann ist wegen u.i.v.
>
> [mm]P_\lambda(\{x\})=P_\lambda(\{x_1,\ldots, x_k\})=\prod^k_{i=1}P_\lambda(\{x_i\})=\prod^k_{i=1}P_\lambda(X_1=\{x_i\})=\prod^k_{i=1}p_{x_i}[/mm].
>
Das passt dann nicht. Fuer die obigen Daten lautet die L-Funktion
[mm] $L=P(X_1=2)P(X_2=3)P(X_3=2)P(X_4=1)P(X_5=2)P(X_6=1)=p_2\times p_3\times p_2\times p_1\times p_2\times p_1=p_1^2p_2^3p_3$,
[/mm]
also [mm] $h_1=2$, $h_2=3$, $h_3=1$ [/mm] in meiner Notation.
> Weiter ist dann
>
> [mm]L(x,\lambda)=\log P_\lambda(\{x\})=\sum^k_{i=1}\log p_{x_i}[/mm].
>
> Das ist der gleiche Weg wie beim Schätzen von [mm]\lambda[/mm] der
> Poissonverteilung.
Leider nicht. Bei der Poisson-Verteilung gilt [mm] $\lambda>0$. [/mm] Im
vorliegenden Modell musst du die Restriktion beachten.
>
> Es ist also [mm]\sum^k_{i=1}p_{x_i}=1[/mm] oder anders ausgedürckt:
>
> [mm]p_{x_k}=1-p_{x_1}-\ldots - p_{x_{k-1}}[/mm].
>
> Wir wollen nun die Funktion [mm]L[/mm] in [mm]\lambda[/mm], um das maximale
> [mm]\lambda[/mm] zu bekommen. Aber wie geht das? Ich muss ja
> praktisch [mm]\partial_{p_i}L[/mm] berechnen. Seit ihr denn mit
> meinen bisherigen Überlegungen einverstanden?
Aus den obigen Gruenden nicht.
vg Luis
|
|
|
|
|
Ok. Ich sehe deine Einwände sehr wohl ein. Und verstehe jetzt auch, wieso man die Häufigkeit [mm] $h_i$ [/mm] benötigt.
Kann man annehmen, dass [mm] $h_j\neq [/mm] 0$ für alle $j$???
Denn sonst wird es ja nachher problematisch bei der Geichung
[mm] $h_i p_k=h_k p_i$!
[/mm]
|
|
|
|
|
Sie obere Mitteilung!
Aber man kann das $n$ in der Simulation so groß machen, dass wenigstens jedes Element aus E einmal vorkommt. Und dann ist [mm] $h_i\geq [/mm] 1$ gesichert.
Ich erhalten dann
[mm] $p_i=\frac{h_i}{n}, \quad i=1,\ldots, [/mm] k$.
Wenn man jetzt die Jacobimatrix berechnet, und dieses [mm] $p_i$ [/mm] einsetzt erhält man:
[mm] $-n^2/h_k\pmat{ h_k/h_1+1& 1& \cdots &1\\ 1 & \ddots & \ddots & \vdots \\ \vdots & \ddots &\ddots & 1 \\ 1 &\cdots &1 & h_k/h_{k-1}+1} [/mm] $
Doch wie zeigt man nun, dass diese negativ definit ist. Das brauchen wir ja, um zu zeigen, dass unsere [mm] $p_i$ [/mm] ein Maximum bilden!
|
|
|
|
|
Status: |
(Antwort) fertig | Datum: | 21:47 Sa 28.06.2008 | Autor: | luis52 |
Der Fall [mm] $h_j=0$ [/mm] stellt in der Tat ein Problem dar. Gilt [mm] $h_j=n$ [/mm] fuer
genau ein $j$, so lautet die Likelihoodfunktion [mm] $L=p_j^n$, [/mm] so liegt das
Maximum in [mm] $\hat p_j=1=h_j/n$. [/mm] Gibt es mindestens ein Paar [mm] $(h_i,h_j)$
[/mm]
mit [mm] $h_i\ne0$ [/mm] und [mm] $h_j\ne0$, [/mm] so kann eines davon die Rolle von [mm] $p_k$ [/mm] in
den obigen Ueberlegungen uebernehmen.
Ich habe deine Matrix nicht nachgeprueft, aber dass sie n.d. ist, sieht
man leicht. Die Matrix ohne den Faktor besitzt die Darstellung
[mm] $\operatorname{diag}(h_k/h_1,\dots,h_k/h_{k-1})+\mathbf{1}\mathbf{1}'$
[/mm]
mit [mm] $\mathfbf{1} [/mm] = [mm] (1,\dots,1)'$. [/mm] Diese Matrix ist aber offenkundig p.d.
vg Luis
PS: Vielleicht verlangen die Faelle [mm] $h_j=0$ [/mm] noch eine Extrabehandlung ...
|
|
|
|
|
Vielen Dank Luis für diese intnsive Diskussion. Dabei habe ich wieder eine Menge dazugelernt. Bis dann
Frank
|
|
|
|
|
Status: |
(Mitteilung) Reaktion unnötig | Datum: | 10:36 So 29.06.2008 | Autor: | luis52 |
> Vielen Dank Luis für diese intnsive Diskussion.
Gerne.
> Dabei habe
> ich wieder eine Menge dazugelernt.
Das freut mich.
vg Luis
|
|
|
|