Linaere Regr. klass. Daten < Statistik (Anwend.) < Stochastik < Hochschule < Mathe < Vorhilfe
|
Hallo an alle,
weiss vielleicht jemand wie ich eine lineare Regression mit klassifizierten Daten durchführen kann ?
Ich kenne Lin. Reg. nur mit solchen Daten: (x,y)
Nun hab ich aber: ( [x1,x2], y )
wie kann ich damit umgehen ?
|
|
|
|
Status: |
(Mitteilung) Reaktion unnötig | Datum: | 13:04 Di 15.02.2011 | Autor: | leduart |
Hallo
Was ist die Erwartung an deine Grössen, sollen sie ine einer Ebene ax1+bx2+cy=d liegen oder auf einer Geraden?
Gruss leduart
|
|
|
|
|
also y= b1 * x^b2,
wobei ich diese linearisiere durch ln(y).
und wie gesagt sind meine x Daten eigentlich Intervalle.
|
|
|
|
|
> also y= b1 * x^b2,
>
> wobei ich diese linearisiere durch ln(y).
>
> und wie gesagt sind meine x Daten eigentlich Intervalle.
Hallo planetbronze,
es ist nicht leicht zu erfassen, was du nun eigentlich
vor hast. Wie soll man das auffassen, dass "die x-Daten
eigentlich Intervalle sind" ?
Soll da eine Treppenfunktion (bzw. der Logarithmus einer
Treppenfunktion) linearisiert werden ?
Vielleicht versteht man das Ganze besser, wenn du die
genaue Absicht angibst. Um was für Daten geht es denn,
und was soll mit der Approximation bezweckt werden ?
Überlappen sich die einzelnen Intervalle - oder entstehen
sie durch Unterteilung eines größeren Intervalls in
Teilintervalle (wenn ja, sind diese untereinander gleich
groß ? .... )
LG Al-Chw.
|
|
|
|
|
Nun gibt es Daten die ich ausgewertet habe.
Die Intervalle überlappen sich nicht, und sie sind auch gleichgroß.
z.B.
Klasse Schaden[DM] Hj
1 [0-99] 164
2 [1000 - 1999] 297
Meine Daten sehen ganz anders aus. Es geht nur darum die Parameter der Potenzfunktion zu schätzen. Die linearisierung der Potenzfunktion ist ja kein Problem. Aber die wie kann ich mit Intervallen arbeiten ?
Normalerweise kenne ich lineare Regression aus der Vorlesung, mit solchen Daten in denen ein x Wert einem y wert zugewiesen wird.
Ich hab mir hier gedacht, dass ich mit der Klassenmitte vlt. arbeiten kann. was jedoch sehr grob wäre. Aber vielleicht gibt es eine Methodik. ?
|
|
|
|
|
> Nun gibt es Daten die ich ausgewertet habe.
>
> Die Intervalle überlappen sich nicht, und sie sind auch
> gleichgroß.
gleich groß oder nicht gleich groß ?
> z.B.
> Klasse Schaden[DM] Hj
> 1 [0-99] 164
> 2 [1000 - 1999] 297
(fehlt da nicht dazwischen noch das Intervall [100 - 999] ?)
> Meine Daten sehen ganz anders aus. Es geht nur darum die
> Parameter der Potenzfunktion zu schätzen. Die
> linearisierung der Potenzfunktion ist ja kein Problem. Aber
> die wie kann ich mit Intervallen arbeiten ?
>
> Normalerweise kenne ich lineare Regression aus der
> Vorlesung, mit solchen Daten in denen ein x Wert einem y
> wert zugewiesen wird.
>
> Ich hab mir hier gedacht, dass ich mit der Klassenmitte
> vlt. arbeiten kann. was jedoch sehr grob wäre. Aber
> vielleicht gibt es eine Methodik. ?
Hallo planetbronze,
allmählich erkenne ich so schemenhaft, um was es gehen
könnte. Du hast eine Reihe von Daten in sehr unter-
schiedlich breite Klassen (Intervalle) zusammengefasst.
Und nun möchtest du offenbar für die Anzahlen der Elemente
innerhalb dieser Klassen aus irgendeinem Grund eine
Formel aufstellen.
Ich habe die starke Vermutung, dass das Vorhaben in
dieser Weise so ziemlich sinnlos ist ... Warum begnügst
du dich nicht mit grafischen Darstellungen und den üblichen
statistischen Parametern wie Mittelwert und Streuung ?
Wenn du ein rechnerisches Modell für die Verteilung der
Schadenssummen (ich denke, im Rahmen einer Versicherung)
aufstellen willst, wäre es ohnehin sinnvoll, von den Roh-Daten
auszugehen oder, falls schon eine Klasseneinteilung gemacht wird,
diese gleichmäßig (gleich breite Intervalle) zu gestalten oder
allenfalls direkt von einer logarithmischen Skala (durchgehend)
auszugehen.
LG
Al-Chw.
|
|
|
|
|
Also es sind gleich große Intervalle. es war gemeint [0-999] an der einen stelle.
Es geht darum, dass ich eine Menge von Daten habe. Diese Daten sollten der Potenzfunktion entsprechen. ALSO: y= [mm] a*x^b, [/mm] wobei a und b zu schätzen sind. und meine x-Werte sind wie schon gesagt, in gleichgroße Intervalle eingeteilt. die y Werte sind in dem Fall die absoluten Häufigkeiten in den Intervallen x.
So ich denke ich kann den Ansatz der Regressionsanalyse nehmen um die Koeffizienten a und b zu schätzen. als x werte ,werde ich die obere Grenze Intervalle nehmen. Wenn das so ok ist.
|
|
|
|
|
> Also es sind gleich große Intervalle. es war gemeint
> [0-999] an der einen stelle.
Aha.
> Es geht darum, dass ich eine Menge von Daten habe. Diese
> Daten sollten der Potenzfunktion entsprechen. ALSO: y=
> [mm]a*x^b,[/mm] wobei a und b zu schätzen sind. und meine x-Werte
> sind wie schon gesagt, in gleichgroße Intervalle
> eingeteilt. die y Werte sind in dem Fall die absoluten
> Häufigkeiten in den Intervallen x.
>
> So ich denke ich kann den Ansatz der Regressionsanalyse
> nehmen um die Koeffizienten a und b zu schätzen. als x
> werte ,werde ich die obere Grenze Intervalle nehmen. Wenn
> das so ok ist.
Na gut, dann ist das doch etwas einfacher. Dann ist es
auch (für die Approximation) eigentlich recht frei, was
du als x-Koordinaten benützen willst: die Intervallmitten,
die obere Intervallgrenze, ev. auch einfach die Nummern
(1, 2, 3, ... ) der Intervalle. Dir muss nur selber klar sein,
was du als x-Wert benützt hast.
Ob dann ein Ansatz der Form [mm] y=a*x^b [/mm] bzw. $\ ln(y)\ =\ ln(a)+b*ln(x)$
(oder ein anderer) sinnvoll ist, wäre anhand der vorliegen-
den Daten und aufgrund theoretischer Überlegungen noch
zu klären.
LG Al-Chw.
|
|
|
|
|
super super vielen dank, für die hilfreiche Information.
Aber was meinst du genau mit nummern (1,2,3...)
für die Funktion: $ \ ln(y)\ =\ [mm] ln(a)+b\cdot{}ln(x) [/mm] $,
brauche ich doch x-werte aus dem Intervall, ich wollte die Intervallobergrenze bentzen. SChließlich brauche ich x-werte zum für die berechnung von a und b, laut formel. aber wie gehe ich vor wenn ich das mit 1,2,3... mache ?
Dann sind 1,2,3... ja nicht meine x-werte.
Vielen Dank
und grüße
Planetb.
|
|
|
|
|
> super super vielen dank, für die hilfreiche Information.
>
> Aber was meinst du genau mit nummern (1,2,3...)
i=1 für das erste Intervall [mm] (0\le{x}<1000)
[/mm]
i=2 für das erste Intervall [mm] (1000\le{x}<2000)
[/mm]
i=3 für das erste Intervall [mm] (2000\le{x}<3000)
[/mm]
etc.
> für die Funktion: [mm]\ ln(y)\ =\ ln(a)+b\cdot{}ln(x) [/mm],
>
> brauche ich doch x-werte aus dem Intervall, ich wollte die
> Intervallobergrenze benützen. Schließlich brauche ich
> x-werte zum für die berechnung von a und b, laut formel.
> aber wie gehe ich vor wenn ich das mit 1,2,3... mache ?
>
> Dann sind 1,2,3... ja nicht meine x-werte.
>
> Vielen Dank
> und grüße
> Planetb.
Wenn die Teilintervalle gleich breit und der Reihe nach
angeordnet sind, bedeutet der Übergang zwischen (z.B.)
den Intervallmitten [mm] x_i [/mm] und deren Nummern i eine
lineare Transformation. Welche dieser beiden linearen
Skalen (die [mm] x_i [/mm] oder die i) man verwendet, spielt für
die Approximation dann keine wesentliche Rolle, es
funktioniert auf beide Arten.
LG Al-Chw.
|
|
|
|
|
Status: |
(Mitteilung) Reaktion unnötig | Datum: | 13:25 Do 17.02.2011 | Autor: | matux |
$MATUXTEXT(ueberfaellige_frage)
|
|
|
|