Lagrange Funktion < mehrere Veränderl. < reell < Analysis < Hochschule < Mathe < Vorhilfe
|
Aufgabe | Seien [mm] x_k\in\IR^d, [/mm] k=1,...,n mit [mm] x_i\not=x_j [/mm] für [mm] i\not=j. [/mm] Lösen Sie das Minimierungsproblem: Minimieren Sie f: [mm] \IR^n\to\IR, p\mapsto \frac{1}{2}\sum_{j=1}^{n}\vert x_i-\sum_{j=1}^{n}p_jx_j\vert^2
[/mm]
unter der Nebenbedingung [mm] \sum_{i=1}^{n}p_i=1 [/mm] |
Hallo zusammen,
erstmal habe ich Verständnisfragen zu der Aufgabenstellung selbst:
es ist [mm] x_k\in\IR^d [/mm] gegeben mit k=1,...,n. Was ist [mm] x_k [/mm] für ein Objekt??
Ich hatte gedacht unter [mm] x_k\in\IR^d [/mm] versteht man einen Vektor mit d Komponenten, jedoch hat x ja ein Index k, welcher von 1,...,n läuft- das verwirrt mich, was hat das genau zu bedeuten?
Dann habe ich ja die Funktion f die ein p abbildet, nach der Abbildungsvorschrift.
Da kommt doch dann ein x vor, heißt das nicht, dass x und p abgebildet werden, gemäß der Abbildungsvorschrift??
Kann ich die Nebenbedingung folgendermaßen als „Funktion“ darstellen:
[mm] p\mapsto \sum_{i=1}^{n}p_i-1=0 [/mm] ?
Wäre dankbar, wenn mir jemand diese Fragen zum Verständnis der Aufgabe beantworten könnte!
Liebe Grüße
|
|
|
|
> Seien [mm]x_k\in\IR^d,[/mm] k=1,...,n mit [mm]x_i\not=x_j[/mm] für [mm]i\not=j.[/mm]
> Lösen Sie das Minimierungsproblem: Minimieren Sie f:
> [mm]\IR^n\to\IR, p\mapsto \frac{1}{2}\sum_{j=1}^{n}\vert x_i-\sum_{j=1}^{n}p_jx_j\vert^2[/mm]
>
> unter der Nebenbedingung [mm]\sum_{i=1}^{n}p_i=1[/mm]
> Hallo zusammen,
>
> erstmal habe ich Verständnisfragen zu der Aufgabenstellung
> selbst:
>
> es ist [mm]x_k\in\IR^d[/mm] gegeben mit k=1,...,n. Was ist [mm]x_k[/mm] für
> ein Objekt??
> Ich hatte gedacht unter [mm]x_k\in\IR^d[/mm] versteht man einen
> Vektor mit d Komponenten, jedoch hat x ja ein Index k,
> welcher von 1,...,n läuft- das verwirrt mich, was hat das
> genau zu bedeuten?
Hallo,
das sind n Vektoren [mm] x_1,..., x_n, [/mm] welche allesamt Spaltenvektoren mit d Einträgen sind, also dem [mm] \IR^d [/mm] entstammen.
>
> Dann habe ich ja die Funktion f die ein p abbildet, nach
> der Abbildungsvorschrift.
Ja.
Das p entstammt dem [mm] \IR^n.
[/mm]
> Da kommt doch dann ein x vor, heißt das nicht, dass x und
> p abgebildet werden, gemäß der Abbildungsvorschrift??
Nein, es wird p abgebildet.
Es ist [mm] f(p):=\frac{1}{2}\sum_{j=1}^{n}\vert x_i-\sum_{j=1}^{n}p_jx_j\vert^2.
[/mm]
Dreh- und Angelpunkt ist hier: was bedeuten die Betragsstriche? Ich denke mal, daß es die Norm einer Funktion ist.
Da müßtest Du mal nachschlagen, wofür das bei Euch steht.
[mm] \vert x_i-\sum_{j=1}^{n}p_jx_j\vert [/mm] steht sicher nicht für den Betrag des Vektors [mm] x_i-\sum_{j=1}^{n}p_jx_j.
[/mm]
>
> Kann ich die Nebenbedingung folgendermaßen als
> „Funktion“ darstellen:
>
> [mm]p\mapsto \sum_{i=1}^{n}p_i-1=0[/mm] ?
Ja.
Gruß v. Angela
>
> Wäre dankbar, wenn mir jemand diese Fragen zum
> Verständnis der Aufgabe beantworten könnte!
>
> Liebe Grüße
|
|
|
|
|
Hey,
danke dir für die Antwort!
Setze ich hier erstmal nach dem Standardverfahren mit Lagrange an, also dass ich folgende Funktion aufstelle:
[mm] L(p,\lambda)=\frac{1}{2}\sum_{i=1}^{n}\vert x_i-\sum_{j=1}^{n}p_jx_j\vert^2+\lambda\sum_{i=1}^{n}P_i-1=0
[/mm]
?
Hier habe ich ja noch nicht so viel gemacht, sondern einfach die gegebene Abbildung zusammen mit der Nebenbedingung als Lagrange Funktion, abhängig von [mm] p\in\IR^n [/mm] und [mm] \lamda [/mm] geschrieben.
Da nichts anderes dabei steht und wir in der Vorlesung zur Zeit keine andere Norm definiert haben, gehen wir einfach mal von der Betragsnorm aus?!
Jetzt muss ich doch eine Jacobi Matrix davon berechnen, welche dann angewendet auf die Funktion Null ergeben muss, oder? (notwendige Bedingung).
Wie leite ich diese spaßige Funktion denn ab, oder besser gefragt, was für Clous gibt es hier zu beachten?Diese ganzen Summenzeichen sind etwas verwirrend und zudem was genau soll mir der Hinweis: [mm] x_i\not=x_j [/mm] für [mm] i\not=j [/mm] sagen? Einfach dass jeder Vektor [mm] x_k [/mm] mit einem anderen Index einfach anders ist?
Wäre dankbar für hilfreiche Tipps hierzu!
Liebe Grüße
|
|
|
|
|
Status: |
(Antwort) fertig | Datum: | 19:50 Mi 11.05.2011 | Autor: | Marcel |
Hallo,
> Hey,
>
> danke dir für die Antwort!
>
> Setze ich hier erstmal nach dem Standardverfahren mit
> Lagrange an, also dass ich folgende Funktion aufstelle:
>
> [mm]L(p,\lambda)=\frac{1}{2}\sum_{i=1}^{n}\vert x_i-\sum_{j=1}^{n}p_jx_j\vert^2+\lambda\sum_{i=1}^{n}P_i-1=0[/mm]
>
> ?
sofern das vorher gesagte von Angela stimmt (gehen wir mal davon aus, ich bin faul!):
Fast!
Am Ende muss [mm] $\lambda*\red{\big(}\sum... -1\red{\big)}$ [/mm] stehen.
> Hier habe ich ja noch nicht so viel gemacht, sondern
> einfach die gegebene Abbildung zusammen mit der
> Nebenbedingung als Lagrange Funktion, abhängig von
> [mm]p\in\IR^n[/mm] und [mm]\lamda[/mm] geschrieben.
>
> Da nichts anderes dabei steht und wir in der Vorlesung zur
> Zeit keine andere Norm definiert haben, gehen wir einfach
> mal von der Betragsnorm aus?!
Also ich würde aktuell erstmal darauf spekulieren, dass anstatt [mm] $x_k \in \IR^d$ [/mm] dort vielleicht [mm] $x_k \in \IR$ [/mm] hätte stehen sollen. Das kann man aber beim Aufgabensteller oder Professor nachfragen.
Wenn wirklich alle [mm] $x_k \in \IR^d$ [/mm] mit irgendeinem $d [mm] \in \IN$ [/mm] sein sollen (was hier nicht spezifisch angegeben wird), so ist jedenfalls
$$p [mm] \mapsto \frac{1}{2}\sum_{i=1}^{n}\vert x_i-\sum_{j=1}^{n}p_jx_j\vert^2$$
[/mm]
eine Abbildung die folgendes macht:
Vergessen wir zunächst mal den Faktor [mm] $1/2\,.$ [/mm] Man nimmt nun erstmal den Vektor [mm] $x_1\,,$ [/mm] und zieht die Linearkombination aller [mm] $n\,$ [/mm] Vektoren ab, die so gebildet wird, dass dabei der skalare Faktor vor dem Vektor [mm] $x_j$ [/mm] gerade die [mm] $j\,$-te [/mm] Komponente [mm] $p_j$ [/mm] von [mm] $p\,$ [/mm] ist. Von dem Ergebnis nimmt man die "Norm im Quadrat" (welche immer das auch sein soll), und das macht man dann anstatt nur für [mm] $x_1$ [/mm] für alle [mm] $x_i$ [/mm] für [mm] $i=1,\ldots,n\,,$ [/mm] und addiert dann diese so berechneten "Quadrate der Normen" auf.
Du siehst also:
Wenn man das erste Summenzeichen erstmal vernachlässigt, dann steht da ($i=1$), wenn man auch dieses "Norm-Quadrat" wegläßt, ein Vektor des [mm] $\IR^d$:
[/mm]
[mm] $$x_1-\sum_{j=1}^n p_j*x_j \in \IR^d\,.$$
[/mm]
Davon nimm' nun [mm] $\vert.\vert^2$ [/mm] (im Gegensatz zu Angela nehme ich an, dass [mm] $\vert [/mm] . [mm] \vert$ [/mm] in der Tat nichts anderes als die euklidische Länge, also [mm] $\| [/mm] . [mm] \|_2$ [/mm] des [mm] $\IR^d$ [/mm] ist. Also [mm] $x_k \in \IR^d$ [/mm] mit [mm] $x_k=(x_{k,1},\ldots,x_{k,d})^T \Rightarrow \|x_k\|=\sqrt{\sum_{j=1}^d x_{k,j}^2}\,.$) [/mm]
(Hierbei ist [mm] $x_{k,j}$ [/mm] die [mm] $j\,$-te [/mm] Komponente des Vektors [mm] $x_k \in \IR^d\,,$ [/mm] also insbesondere $1 [mm] \le [/mm] j [mm] \le d\,.$ [/mm] Und dieses "hoch T" bedeutet nichts anderes als transponiert, so dass [mm] $x_k\,$ [/mm] als Spaltenvektor mit [mm] $d\,$ [/mm] Einträgen vorliegt.)
Die Aussage, dass das für eine Funktion eine Norm sein sollte, macht für mich keinen Sinn. Es sei denn, man bezieht sich auf spezielle Funktionen, man kann nämlich den [mm] $\IR^d$ [/mm] auch mit einem Raum abbrechender Folgen identifizieren. Aber wozu das ganze???
> Jetzt muss ich doch eine Jacobi Matrix davon berechnen,
> welche dann angewendet auf die Funktion Null ergeben muss,
> oder? (notwendige Bedingung).
Das kannst Du eigentlich selber nachschlagen. Was sind denn hier die Variablen?
> Wie leite ich diese spaßige Funktion denn ab, oder besser
> gefragt, was für Clous gibt es hier zu beachten?
Formal sauber vorzugehen. Fang' mal an und schreibe hin, was Du machen willst. Selbst, wenn da Quark bei rauskommt, wirst Du drauf hingewiesen werden und einen Lerneffekt mitnehmen. Aber Du must erstmal an die Aufgabe rangehen, und sei es nur, um mal Quark zu rechnen und selber auch zu sehen, dass da was nicht zusammenpasst.
> Diese
> ganzen Summenzeichen sind etwas verwirrend und zudem was
> genau soll mir der Hinweis: [mm]x_i\not=x_j[/mm] für [mm]i\not=j[/mm] sagen?
> Einfach dass jeder Vektor [mm]x_k[/mm] mit einem anderen Index
> einfach anders ist?
Eine Aussage der Form [mm] $a_i \not= a_k$ [/mm] für $i [mm] \not=k$ [/mm] ($i,k [mm] \in [/mm] I$ für eine Indexmenge [mm] $I\,.$) [/mm] bedeutet nichts anderes, als dass alle [mm] $a_i$ [/mm] paarweise verschieden sind. Man kann auch sagen:
Die Abbildung $I [mm] \to [/mm] M$ (wobei hier dann alle [mm] $a_i \in [/mm] M$ (also [mm] $a_i \in [/mm] M$ für alle $i [mm] \in [/mm] I$)) mit
$$i [mm] \mapsto a_i$$
[/mm]
ist injektiv.
Anders gesagt: Es kann nicht sein, dass man zwei unterschiedliche Indizes [mm] $i,k\,$ [/mm] hat und [mm] $a_i=a_k$ [/mm] gilt.
So wäre etwa mit [mm] $a_i:=i$ [/mm] für alle $i [mm] \in \IR \setminus \{0\}$ [/mm] und [mm] $a_0:=1$ [/mm] etwas gegeben, was die obige Bedingung nicht (!!!) erfüllt. Denn es ist $1 [mm] \not=0$ [/mm] und $1,0 [mm] \in \IR\,,$ [/mm] aber [mm] $a_0=1=a_1\,.$
[/mm]
P.S.:
Falls Dir das ganze immer noch zu kompliziert erscheint, betrachte erstmal wirklich den (sofern die Aufgabenstellung stimmt) Spezialfall [mm] $d=1\,.$ [/mm] Dann ist diese Norm [mm] $\vert [/mm] . [mm] \vert$ [/mm] nichts anderes als der Betrag einer reellen Zahl und die ganze Aufgabe wirkt schonmal weniger abstrakt. Falls es Dir immer noch zu abstrakt ist, dann nimm' mal (konkret) etwa [mm] $n=3\,$ [/mm] und (hier ruhig mal) $d=2$ an und schau Dir mal für etwa
[mm] $$x_1=(1,1)^T\,,\;x_2=(1,3)^T\,\;,x_3=(1,2)^T\,,$$
[/mm]
an, was
$$p [mm] \mapsto \frac{1}{2}\sum_{i=1}^{3}\vert x_i-\sum_{j=1}^{3}p_jx_j\vert^2$$
[/mm]
macht. Dafür betrachte etwa mal [mm] $p=(1,2,3)^T$ [/mm] und danach [mm] $p=(2,3,4)^T\,.$
[/mm]
Das kannst Du, wie oben angedeutet, sozusagen algorithmisch machen:
Zuerst
[mm] $$x_1-(p_1x_1+p_2x_2+p_3x_3) \in \IR^2$$
[/mm]
berechnen. (Wie angedeutet ist das hier ein Vektor des [mm] $\IR^2\,.$) [/mm] Dann die Länge dieses Vektors im Quadrat. (Also wie bei der oben definierten euklidischen Norm, nur einfach direkt das Wurzelzeichen weglassen.) Als Ergebnis hast Du eine reelle Zahl [mm] $\ge 0\,.$
[/mm]
Nun
[mm] $$x_2-(p_1x_1+p_2x_2+p_3x_3) \in \IR^2$$
[/mm]
berechnen und auch davon das Quadrat der euklidischen Norm der Länge des so errechneten Vektors. Diese reelle Zahl [mm] $\ge [/mm] 0$ wird zu der oben errechneten dazuaddiert, im Folgenden heißt die Summe dieser beiden reellen Zahlen [mm] $\ge [/mm] 0$ einfach Summe.
Gleiches für
[mm] $$x_3-(p_1x_1+p_2x_2+p_3x_3) \in \IR^2$$
[/mm]
... und nun addiere nun auch dieses Ergebnis zu der vorherigen Summe.
Schlußendlich wird die Summe dieser drei reellen Zahlen [mm] $\ge [/mm] 0$ noch durch [mm] $2\,$ [/mm] geteilt.
Wenn's Dir zu abstrakt ist, dann rechne es wirklich mal konkret durch (durchaus auch in der von mir vorgeschlagenen "algorithmischen Reihenfolge", aber das muss nicht sein; es hilft Dir aber - denke und hoffe ich - diese "Summenzeichen" ein wenig mehr zu durchblicken).
P.S.:
Beachte, dass für festes [mm] $p=(p_1,\ldots,p_n) \in \IR^n$ [/mm] der Vektor
[mm] $$\sum_{j=1}^n p_j x_j \in \IR^d$$
[/mm]
fest ist. Dieser muss bei "algorithmischer Auswertung" also nur einmal (und nicht [mm] $n\,$ [/mm] mal) berechnet werden.
Gruß,
Marcel
|
|
|
|
|
Status: |
(Mitteilung) Reaktion unnötig | Datum: | 22:06 Mi 11.05.2011 | Autor: | Theoretix |
Vielen Dank erstmal für die große Mühe, das so ausführlich aufzuschreiben!
Ich werde mal schauen, wie weit ich komme und gegebenenfalls nochmals nachhakem.
Schönen Abend noch, Gruß!
|
|
|
|
|
Hi,
deine Antwort hat mir schon wirklich extrem weiter geholfen, v.a. was das Verständnis dieser Funktion angeht, vielen Dank!
Zur Ableitung der Funktion:
Die Lagrange Funktion [mm] L(p,\lambda) [/mm] ist ja offensichtlich abhängig von p und [mm] \lambda, [/mm] wobei [mm] p\in\IR^n...also [/mm] ein Vektor mir n Komponenten.
D.h. ich muss nach p und [mm] \lambda [/mm] ableiten, jedoch wie sieht das bei p aus?
Wie leite ich nach einem [mm] Vektor\in\IR^n [/mm] ab?
Im Endeffekt ist das doch dann der Gradient der Funktion f also:
[mm] \grad{f}=(\frac{\partial f}{\partial p_1},...,\frac{\partial f}{\partial x_n}), [/mm] oder nicht?
Gruß
|
|
|
|
|
> Zur Ableitung der Funktion:
>
> Die Lagrange Funktion [mm]L(p,\lambda)[/mm] ist ja offensichtlich
> abhängig von p und [mm]\lambda,[/mm] wobei [mm]p\in\IR^n...also[/mm] ein
> Vektor mir n Komponenten.
> D.h. ich muss nach p und [mm]\lambda[/mm] ableiten, jedoch wie
> sieht das bei p aus?
> Wie leite ich nach einem [mm]Vektor\in\IR^n[/mm] ab?
> Im Endeffekt ist das doch dann der Gradient der Funktion f
> also:
>
> [mm]\grad{f}=(\frac{\partial f}{\partial p_1},...,\frac{\partial f}{\partial x_n}),[/mm]
> oder nicht?
Hallo,
wahrscheinlich hast Du etwas anderes hingeschrieben, als Du meinst.
Es wäre grad f= [mm] \frac{\partial f}{\partial p_1},...,\frac{\partial f}{\partial p_n}) [/mm] zu untersuchen
bzw.
grad [mm] L=\frac{\partial L}{\partial p_1},...,\frac{\partial L}{\partial p_n},\frac{\partial L}{\partial \lambda}).
[/mm]
Gruß v. Angela
>
> Gruß
|
|
|
|
|
Status: |
(Mitteilung) Reaktion unnötig | Datum: | 12:03 Sa 14.05.2011 | Autor: | Marcel |
Hi Angela und auch hi Theoretix,
>
> > Zur Ableitung der Funktion:
> >
> > Die Lagrange Funktion [mm]L(p,\lambda)[/mm] ist ja offensichtlich
> > abhängig von p und [mm]\lambda,[/mm] wobei [mm]p\in\IR^n...also[/mm] ein
> > Vektor mir n Komponenten.
> > D.h. ich muss nach p und [mm]\lambda[/mm] ableiten, jedoch wie
> > sieht das bei p aus?
> > Wie leite ich nach einem [mm]Vektor\in\IR^n[/mm] ab?
> > Im Endeffekt ist das doch dann der Gradient der
> Funktion f
> > also:
> >
> > [mm]\grad{f}=(\frac{\partial f}{\partial p_1},...,\frac{\partial f}{\partial x_n}),[/mm]
> > oder nicht?
>
> Hallo,
>
> wahrscheinlich hast Du etwas anderes hingeschrieben, als
> Du meinst.
>
> Es wäre grad f= [mm]\frac{\partial f}{\partial p_1},...,\frac{\partial f}{\partial p_n})[/mm]
> zu untersuchen
> bzw.
>
> grad [mm]L=\frac{\partial L}{\partial p_1},...,\frac{\partial L}{\partial p_n},\frac{\partial L}{\partial \lambda}).[/mm]
eigentlich hat Theoretix das auch hingeschrieben, denn im Quelltext steht
[mm] [nomm]$\grad{f}=...$[/nomm], [/mm] was natürlich als
[mm] $\grad{f}=...$
[/mm]
erscheint.
@ Theoretix: Deshalb bitte immer unbedingt die Vorschaufunktion vor dem Absenden der Frage benutzen, oder hinterher den Artikel nochmal durchlesen und ggf. editieren (lassen).
P.S.:
Mit [mm] [nomm]$\text{grad} [/mm] f$[/nomm] kann man dieses "grad" auch per Text innerhalb einer Formel erzeugen.
Gruß,
Marcel
|
|
|
|