konvexe Funktion < Funktionalanalysis < Analysis < Hochschule < Mathe < Vorhilfe
|
Status: |
(Frage) beantwortet | Datum: | 20:23 So 16.03.2008 | Autor: | Riley |
Aufgabe | Zeige dass [mm] f:\IR^n\mapsto\overline{\IR}
[/mm]
[mm] f(x):=\begin{cases} -(x_1 \cdot ... \cdot x_n)^{\frac{1}{n}}, & \mbox{für } x \in \IR_+^n \\ + \infty, & \mbox{sonst} \end{cases}
[/mm]
konvex ist. |
Hallo,
ich hab gedacht, am besten zeigt man hier, dass die Hessematrix positiv semi definit ist. Allerdings häng ich nun an der Hessematrix.
Zuerst hab ich f(x) umgeschrieben zu:
f(x) = - [mm] exp(\frac{1}{n}(ln(x_1)+...+ln(x_n))
[/mm]
Dann ist
[mm] \frac{df}{dx_i} [/mm] (x) = f(x) [mm] \cdot \frac{1}{n} \cdot \frac{1}{x_i}
[/mm]
[mm] \frac{df^2}{dx_i dx_i} [/mm] = f(x) [mm] \cdot \frac{1}{n^2} \cdot \frac{1}{x_i^2} [/mm] + f(x) [mm] \cdot \frac{1}{n} [/mm] (- [mm] \frac{1}{x_i^2}) [/mm] = [mm] \frac{1}{n} \frac{1}{x_i^2} [/mm] f(x) ( [mm] \frac{1}{n} [/mm] - 1)
und für i [mm] \not= [/mm] j:
[mm] \frac{df^2}{dx_i dx_j}(x) [/mm] = f(x) [mm] \cdot \frac{1}{n^2} \frac{1}{x_i} \cdot \frac{1}{x_j}
[/mm]
Stimmt das soweit?
Und jetzt müsste ich ja zeigen, dass [mm] v^T [/mm] H(f) v [mm] \geq [/mm] 0 für alle v [mm] \in R^n [/mm] gilt, nur wie kann ich das machen...??
Wär super, wenn ihr einen Tipp für mich hättet, dass das nicht ganz so kompliziert wird...
Liebe Grüße,
Riley
|
|
|
|
Status: |
(Antwort) fertig | Datum: | 20:59 So 16.03.2008 | Autor: | zahllos |
Hallo,
ich weiß nicht, ob man die Positiv-Semidefinitheit der Hessematrix so einfach zeigen kann. Ich würde die Definition einer konvexen Funktion verwenden: [mm] f(\lambda x+(1-\lambda) [/mm] y [mm] \ge \lamba f(x)+(1-\lambda) [/mm] f(y)
mit 0 [mm] \le \lambda \le [/mm] 1
Das läßt sich hier folgendermaßen zeigen (ich habe mich auf n = 2 beschränkt, damit ich nicht zuviel tippen muß, aber es geht für beliebiges n genauso):
[mm] f(\lambda x_1+(1-\lambda) y_1, \lambda x_2+(1-\lambda y_2) [/mm] =
[mm] -((\lambda x_1+(1- \lambda) y_1) (\lambda x_2+(1- \lambda) y_2))^\frac{1}{2} [/mm] =
[mm] -(\lambda^2 x_1 x_2 [/mm] + [mm] \lambda (1-\lambda) x_1 y_2 [/mm] + [mm] \lambda (1-\lambda) x_2 y_1 [/mm] + [mm] (1-\lambda)^2 y_1y_2) ^\frac{1}{2} \ge
[/mm]
da alle auftretenden Größen nichtnegativ sind, kann man dir mittleren beiden Summanden weglassen:
[mm] -(\lambda^2 x_1 x_2 [/mm] + [mm] (1-\lambda)^2 y_1y_2)^\frac{1}{2} \ge
[/mm]
da die Wurzel streng konkav ist folgt:
[mm] \lambda f(x_1, x_2)+(1-\lambda) f(y_1,y_2)
[/mm]
An den Stellen, wo f den Wert [mm] +\infty [/mm] annimmt, gibt es nichts zu zeigen.
|
|
|
|
|
Status: |
(Frage) beantwortet | Datum: | 21:51 So 16.03.2008 | Autor: | Riley |
Hallo,
danke für die schnelle Antwort!
Aber in der Definition ist doch kleiner gleich und nicht größer gleich, oder?
Also [mm] f(\lambda [/mm] x + (1- [mm] \lambda [/mm] y) ) [mm] \leq \lambda [/mm] f(x) + [mm] (1-\lambda) [/mm] f(y) .
Weil dann funktioniert das mit dem Weglassen in der Abschätzung dann noch?
Hm, für n wir das das aber dann auch viel zum Ausmultiplizieren...
Ich hab im Internet mal geforstet und
hier
auf Seite 5 etwas gefunden. Der Beweis für den geometric mean scheint so ähnlich mit der Hessmatrix zu gehen... ich frag mich nur wie...
Viele Grüße,
Riley
|
|
|
|
|
Status: |
(Antwort) fertig | Datum: | 21:58 So 16.03.2008 | Autor: | zahllos |
Hallo,
du hast Recht, es muss in der Definition der Konvexität und bei den einzelnen Schritten immer [mm] \le [/mm] heißen. Wenn man die mittlleren Summanden wegläßt, so ist die Ungleichung [mm] \le [/mm] erfüllt, denn diese Summenden waren [mm] \ge [/mm] 0 und vor der ganzen Wurzel steht ein Minuszeichen.
|
|
|
|
|
Status: |
(Frage) beantwortet | Datum: | 23:25 So 16.03.2008 | Autor: | Riley |
Hallo,
die Abschätzung mit den beiden Summanden weglassen versteh ich aber noch nicht - beim ersten mal hast du doch dann genau andersrum argumentiert?
Auch wenn ein Minus vor der Wurzel steht, das kann man ja schlecht in die Wurzel reinziehen...? Wie kann ich mir das vorstellen?
Viele Grüße,
Riley
|
|
|
|
|
Status: |
(Antwort) fertig | Datum: | 23:23 Mo 17.03.2008 | Autor: | zahllos |
Hallo,
ich ver suche nochmal in aller Ruhe die Konvexität zu zeigen.
Die Definition ist: f(kx+(1-k)y) [mm] \le [/mm] kf(x)+(1-k)f(y) mit [mm] 0\le k\le [/mm] 1
(ich habe jetzt k statt [mm] \lambda [/mm] geschrieben, weil mich die vielen [mm] \lambda's [/mm] beim Tippen aufregen). Für Punkte mit nichtnegativen Koordinaten heißt dies:
[mm] f(kx_1+(1-k)y_1,kx_2+(1-k)y_2)=
[/mm]
[mm] -[(kx_1+(1-k)y_1)(kx_2+(1-k)y_2]^\frac{1}{2} [/mm] =
[mm] -[k^2x_1x_2+k(k-1)x_1y_2+k(k-1)y_1x_2+(1-k)^2y_1y_2]^\frac{1}{2}
[/mm]
die Summanden [mm] k(k-1)x_1y_2 [/mm] und [mm] k(k-1)y_1x_2 [/mm] sind [mm] \ge [/mm] 0 . Läßt man sie weg, so wird der Ausdruck in der Klammer [...] und damit die ganze Wurzel [mm] [...]^\frac{1}{2} [/mm] kleiner. Vor der Wurzel steht aber ein Minuszeichen, d.h. durch Weglassen dieser Summanden wird der ganze Ausdruck größer.
Wir haben also:
[mm] -[k^2x_1x_2+k(k-1)x_1y_2+k(k-1)y_1x_2+(1-k)^2y_1y_2]^\frac{1}{2}\le-[k^2x_1x_2+(1-k)^2y_1y_2]^\frac{1}{2}
[/mm]
Die Wurzel ist streng konkav, d.h. [mm] -[...]^\frac{1}{2} [/mm] ist streng konvex und damit:
[mm] -[k^2x_1x_2+(1-k)^2y_1y_2]^\frac{1}{2}\le-k^\frac{1}{2}[kx_1x_2]^\frac{1}{2}-(1-k)^\frac{1}{2}[(1-k)y_1y_2]^\frac{1}{2}=
[/mm]
[mm] -kf(x_1,x_2)-(1-k)f(y_1,y_2)
[/mm]
Falls einer der Punkte Koordinaten [mm] \le [/mm] 0 hat, ist alles klar.
Kommst du damit zurecht?
|
|
|
|
|
Status: |
(Mitteilung) Reaktion unnötig | Datum: | 08:07 Di 18.03.2008 | Autor: | zahllos |
Hallo,
die letzte Ungleichung gefällt mir noch nicht 100%-tig. Ich denke nochmal darüber nach und melde mich wieder (das kann bei mir dauern). Vielleicht hast du je noch eine bessere Idee, wie man da argumentieren könnte?
|
|
|
|
|
Status: |
(Antwort) fertig | Datum: | 20:15 Di 18.03.2008 | Autor: | zahllos |
Hallo Riley,
Deine erste Überlegung mit der positiv definiten Hessematrix war richtig.
Wenn x ein Vektor mit [mm] x_1\ge [/mm] 0 ... [mm] x_n\ge [/mm] 0 ist dann bekommt man für die partiellen Ableitungen der Funktion f den Wert:
[mm] -\frac{1}{n} (x_1^\frac{1}{n} x_2^\frac{1}{n}...x_i^{\frac{1}{n}-1}...x_n^\frac{1}{n}) [/mm] = [mm] -\frac{1}{n} (x_1^\frac{1}{n} x_2^\frac{1}{n}...\frac{x_i^\frac{1}{n}}{x_i}...x_n^\frac{1}{n}) [/mm]
Für die zweite partielle Ableitung erhält man:
[mm] -\frac{1}{n} (\frac{1}{n}-1)(x_1^\frac{1}{n} x_2^\frac{1}{n}...\frac{x_i^\frac{1}{n}}{x_i^2}...x_n^\frac{1}{n}) =\frac{1}{n^2} (n-1)(x_1^\frac{1}{n} x_2^\frac{1}{n}...\frac{x_i^\frac{1}{n}}{x_i^2}...x_n^\frac{1}{n}) [/mm]
und für die zweiten gemischten partiellen Ableitungen: [mm] \frac{1}{n^2} (x_1^\frac{1}{n} x_2^\frac{1}{n}...\frac{x_i^\frac{1}{n}}{x_i}...\frac{x_j^\frac{1}{n}}{x_j}... x_n^\frac{1}{n}) [/mm]
Setzt man c = [mm] \frac{1}{n^2} (x_1^\frac{1}{n} x_2^\frac{1}{n} [/mm] ... [mm] x_i^\frac{1}{n}...x_j^\frac{1}{n}...x_n^\frac{1}{n}) [/mm] so kann man die Koeffizienten der Hessematrix in der Form: [mm] h_{ij} [/mm] = [mm] \frac{c}{x_i x_j} [/mm] für [mm] i\not=j [/mm] und: [mm] h_{ii}= \frac{c (n-1)}{x_i^2} [/mm] für i=j schreiben.
Ist nun v ein Vektor mit den Koordinaten [mm] v_1 ....v_n [/mm] so erhält man für das Produkt:
[mm] v^T [/mm] Hv = [mm] c(n-1)[(\frac{v_1}{x_1})^2 [/mm] +....+ [mm] (\frac{v_n}{x_n})^2]+2c [\frac{v_1}{x_1}\frac{v_2}{x_2}+...+\frac{v_{n-1}}{x_{n-1}}\frac{v_n}{x_n}] [/mm] =
c [mm] [(\frac{v_1}{x_1}+\frac{v_2}{x_2})^2+....+(\frac{v_{n-1}}{x_{n-1}}+\frac{v_n}{x_n})^2] \ge [/mm] 0
und damit ist H positiv definit.
|
|
|
|
|
Status: |
(Mitteilung) Reaktion unnötig | Datum: | 22:37 Di 18.03.2008 | Autor: | Riley |
Hallo Zahllos,
vielen Dank für deine Hilfe!! Der Weg über die Hessematrix ist mir doch lieber
Hast du bei den gemischten zweiten partiellen Ableitungen ein Minus vergessen, oder hab ich da etwas falsch gemacht? Ich komm auf:
[mm] \frac{d^2f}{dx_i dx_j} [/mm] (x) = - [mm] \frac{1}{n^2} \cdot \frac{1}{x_i x_j} (x_1 \cdot [/mm] ... [mm] \cdot x_n)^{\frac{1}{n}}
[/mm]
Weil dann könnte man die Hessematrix ja auch so auseinanderziehen:
(ich benutze mal dasc so wie du es definiert hast c= [mm] \frac{1}{n^2}(x_1 \cdot [/mm] ... [mm] \cdot x_n)^{\frac{1}{n}})
[/mm]
[mm] \Delta^2 [/mm] f(x) = -c [mm] (diag(-\frac{n}{x_1^2},...,-\frac{n}{x_n^2}) [/mm] + u [mm] \cdot u^T) [/mm] (mit [mm] u=(\frac{1}{x_1} [/mm] ... [mm] \frac{1}{x_n})^T).
[/mm]
Dann gilt weiter
[mm] v^T \cdot \Delta^2 [/mm] f(x) [mm] \cdot [/mm] v
= -c [mm] (v^T [/mm] diag(...) v + [mm] v^T [/mm] u [mm] u^T [/mm] v)
= -c (( - [mm] \sum_{k=1}^n \frac{n \cdot v_k^2}{x_k^2}) [/mm] + [mm] (\sum_{k=1}^n \frac{v_k}{x_k})^2 [/mm] )
= c (n [mm] \sum_{k=1}^n \frac{ v_k^2}{x_k^2} [/mm] - [mm] (\sum_{k=1}^n \frac{v_k}{x_k})^2 [/mm] ) (ich hab hier noch ein minus aus der Klammer vorgezogen, dann ist das vor dem c auch weg, müsste so stimmen, oder?)
[mm] \geq [/mm] 0, da mit Cauchy-Schwarz gilt, dass [mm] (\sum_{k=1}^n \frac{v_k}{x_k})^2 \leq [/mm] n [mm] \sum_{k=1}^n \frac{ v_k^2}{x_k^2}
[/mm]
Puh, da muss man die Indizes ja lustig hin- und herschieben...
Viele Grüße,
Riley
|
|
|
|
|
Status: |
(Mitteilung) Reaktion unnötig | Datum: | 22:59 Di 18.03.2008 | Autor: | zahllos |
Hallo Riley,
du hast mit den fehlenden Minuszeichen vor den gemischten Ableitungen recht. Das zieht sich durch die ganze Rechnung, d.h. vor dem 2c [...] kommt ein Minuszeichen und am Schluß erhält man die binomischen Formeln der Form [mm] (a-b)^2, [/mm] der Rest bleibt gültig.
Dein letzter Term ist übrigens von genau der gleichen Form [mm] c[(a_1-b_1)^2+..+[a_n-b_n)^2].
[/mm]
|
|
|
|
|
Status: |
(Mitteilung) Reaktion unnötig | Datum: | 23:18 Di 18.03.2008 | Autor: | Riley |
Hi Zahllos,
ah, cool okay, dann wären die Indizes ja fast besiegt ;)
Hm, dann ist mein Weg noch eine Ecke umständlicher, aber was ich hier noch nicht ganz verstehe, wie kommst du auf dieses 2c vor der zweiten Klammer?
> [mm]v^T[/mm] Hv = [mm]c(n-1)[(\frac{v_1}{x_1})^2[/mm] +....+
> [mm](\frac{v_n}{x_n})^2]+2c [\frac{v_1}{x_1}\frac{v_2}{x_2}+...+\frac{v_{n-1}}{x_{n-1}}\frac{v_n}{x_n}][/mm]
> =
> c
> [mm][(\frac{v_1}{x_1}+\frac{v_2}{x_2})^2+....+(\frac{v_{n-1}}{x_{n-1}}+\frac{v_n}{x_n})^2] \ge[/mm]
> 0
> Dein letzter Term ist übrigens von genau der gleichen Form
> [mm]c[(a_1-b_1)^2+..+[a_n-b_n)^2].[/mm]
Hmm,... warum ist mein letzter Term von der gleichen Form mit den binomischen Formeln... ich glaub ich bin blind *augenreib*
Viele Grüße,
Riley
|
|
|
|
|
Status: |
(Mitteilung) Reaktion unnötig | Datum: | 22:19 Do 20.03.2008 | Autor: | zahllos |
Hallo Riley,
Ich setze jetzt mal [mm] a_i=\frac{v_i}{x_} [/mm] (damit ich nicht soviel tippen muss)
dann gilt, wenn man das Produkt zeilenweise hinschreibt (mit negativen Vorzeichen vor den partiellen Ableitungen):
[mm] v^T [/mm] Hx = [mm] c[(n-1)a_1^2-a_1 a_2 -...-a_1 a_n]+c[-a_1 a_2+(n-1)a_2^2-...-a_2 a_n]+...+c[-a_n a_1-a_n_a_2+...-a_n a_{n-1}+(n-1)a_n^2]=
[/mm]
[mm] c(n-1)\summe_{i=1}^{n}a_i^2-2c\summe_{i,j=1; i
[mm] cn\summe_{i=1}^{n}a_i^2-\summe_{i=1}^{n}a_i^2-c\summe_{i,j=1;}^{n}a_i a_j [/mm] =
[mm] c(n\summe_{i=1}^{n}a_i^2-(\summe_{i=1}^{n}a_i)^2) [/mm] (das ist deine Schreibweise)
|
|
|
|
|
Status: |
(Mitteilung) Reaktion unnötig | Datum: | 21:20 Mo 24.03.2008 | Autor: | Riley |
Hallo Zahllos,
ah ja klar, jetzt seh ich es auch!
Vielen Dank nochmal & viele Grüße,
Riley
|
|
|
|