Prozentuale Verbesserung < Statistik (Anwend.) < Stochastik < Hochschule < Mathe < Vorhilfe
|
Aufgabe | Jede Zahl der Reihe representiert eine Fehlerrate nach einem Training. Berechne die prozentuale Verbesserung auf Grund dieser Zahlenfolge. |
Ich habe ein Programm geschrieben, mit dem man Rechenaufgaben gestellt bekommt. Es werden zudem Information wie Zeit, Erfolg/Fehler gespeichert. Ich möchte wissen um wieviel sich der User verbessert hat seitdem er trainiert: http://code.activestate.com/recipes/578111-learning-to-calculate/
Nehmen wir mal an ich habe eine Fehlerrate von 18%,
dann in unterschiedlichen Zeitabständen: 17%, 15%, 16%, 12%, 14%, 10%, ...
Von 18 auf 10 ist beinahe die Halbierung der Fehler, also bewegen wir uns um die 50% Verbesserung, richtig?
Doch es wäre hier nur eine Betrachtung des ersten und letzten Wertes. Ist das dann die korrekte Aussage? Schaut man auf die Beispiel Reihe würde ich dazu tendieren eine geringe Verbesserung als 50% zu nennen.
Ist das richtig und wenn ja wie berechnet man den richtigen Wert?
|
|
|
|
Status: |
(Antwort) fertig | Datum: | 08:37 Di 15.05.2012 | Autor: | luis52 |
Moin,
schau mal hier.
vg Luis
|
|
|
|
|
Danke für die Antwort ... bleiben noch ein paar Fragen (dazu zuerst zwei Beispiele der Berechnung):
1) Geometrisches Mittel für die Fehlerrate 18%, 15%, 17%, 10%:
gm = [mm] \wurzel[4]{18 \cdot 15 \cdot 17 \cdot 10} [/mm] = [mm] \wurzel[4]{45900} [/mm] = 14.6370370245%
Was könnte ich daraus ableiten?
a) Gegenüber dem ersten Wert: (gm - 18)/18 * 100 = -18,6831276417%,
also eine Abnahme der Fehlerrate von etwa 18.7%.
b) Gegenüber dem letzten Wert (10 - gm) / gm * 100 = -31.6801618848%,
also eine Abnahme der Fehlerrate von etwa 31,7%
Ok. scheint zu passen. Und ist einfacher als das zweite Bespiel.
2) Einfache lineare Regression für die gleiche Fehlerrate y (nach mühsamer Suche):
sumX = [mm] \summe_{}^{} [/mm] x = 10
sumY = [mm] \summe_{}^{} [/mm] y = 60
sumXY = [mm] \summe_{x=1}^{4} [/mm] x [mm] \cdot [/mm] y = 139
sumXX = [mm] \summe_{x=1}^{4} [/mm] x [mm] \cdot [/mm] x = 30
sumYY = [mm] \summe_ [/mm] y [mm] \cdot [/mm] y = 938
n = 4
r = [mm] \frac{\summe_{}^{} xy - \frac{1}{n} \cdot \summe_{}^{} x \cdot \summe_{}^{} y}{\wurzel{(\summe_{}^{} x^2 - \frac{1}{n} \cdot (\summe_{}^{} x)^2} \cdot \wurzel{\summe_{}^{} y^2 - \frac{1}{n} \cdot (\summe_{}^{} y)^2}}
[/mm]
r = [mm] \frac{139 - 0.25 \cdot 10 \cdot 60}{\wurzel{30 - 0.25 \cdot 100} \cdot \wurzel{938 - 0.25 \cdot 3600}} [/mm] = [mm] \frac{-11}{\wurzel{5} \cdot \wurzel{38}} [/mm] = [mm] \frac{-11}{13.7840487521} [/mm] = 0.79802387512
Da es um eine Trend geht ist mit diesem Koeffizienten gegen 1 (oder -1) ein Zusammenhang zwischen x und y eindeutig hergestellt und somit kann die linear Funktion $y = a + b [mm] \cdot [/mm] x$ für die Trendlinie berechnet werden:
b = [mm] \frac{\summe_{}^{} xy - \frac{\summe_{}^{} x \cdot \summe_{}^{} y}{n}}{\summe_{}^{} x^2 - \frac{(\summe_{}^{} x)^2}{n}} [/mm] = [mm] \frac{139 - \frac{10 \cdot 60}{4}}{30 - \frac{10^2}{4}} [/mm] = [mm] \frac{-11}{5} [/mm] = -2.2
a = [mm] \frac{\summe_{}^{} y - b \cdot \summe_{}^{} x}{n} [/mm] = [mm] \frac{60 + 2.2 \cdot 10}{4} [/mm] = [mm] \frac{82}{4} [/mm] = 20.5
Lineare Funktion: $y = a + b [mm] \cdot [/mm] x = 20.5 - 2.2 [mm] \cdot [/mm] x$
Gibt man jetzt für x die Werte 1 und 4 ein: y(1) = 18.4 und y(4) = 11.7.
Vergleicht man die Werte: [mm] $\frac{11.7 - 18.4}{18.4} \cdot [/mm] 100 = -36.4130434783$%,
also eine Abnahme der Fehlerrate von ca. 36.4%
Also nun die Fragen:
a) Welche Berechnung ist nun die bessere Lösung?
b) Wenn man mal eine Fehlerrate von 0% hatte dann ist im ersten Fall das Produkt immer Null. Wie würde man damit umgehen?
|
|
|
|
|
Status: |
(Mitteilung) Reaktion unnötig | Datum: | 13:20 Mi 30.05.2012 | Autor: | matux |
$MATUXTEXT(ueberfaellige_frage)
|
|
|
|
|
Aufgabe | Ich haben nun zwei Wege um auf Prozentwerte zu kommen (und es gibt noch mehr):
- arithemtisches Mittel
- arithmetisches gewichtetes Mittel
- geometrisches Mittel
- geometrisches gewichtetes Mittel
- harmonisches Mittel
- harmonisches gewichtetes Mittel
- median
- einfache lineare Regression
- quadratisches Mittel
- ... |
Also nun die Fragen:
a) Welche Berechnung ist nun die bessere Lösung?
b) Wenn man mal eine Fehlerrate von 0% hatte dann ist im geometrischen Mittel das Produkt immer Null. Wie würde man damit umgehen?
c) Das quadratische Mittel verstärkt größere Werte. Das ist natürlich unangenehm wenn es um die Abnahme einer Fehlerrate geht.
Mein Eindruck: die einfache lineare Regression scheint vielversprechend wenn auch der Rechen aufwand höher ist.
Grundsätzlich muss ich - wahrscheinlich - meine Testreihe ständig verschieben, also nur die letzten "n" Werte nehmen. Die Überlegung kam mir, weil ich mal bei der ersten Session keinen Fehler hatte aber zu langsam war. Jede weitere Session war zwar schneller aber hatte dann einen Fehler. Der Trend meint nun ständig ich wäre schlechter geworden obwohl ich manchmal auch wieder keine Fehler machte.
Mathematisch gesehen habe ich nun eine ganze Reihe von Ansätzen aber keiner konnte mir bisher überzeugend erklären wie man korrekt vorgeht.
Für ein paar Gedanken/Ideen eurerseits wäre ich sshe dankbar.
Grüße
Thomas
|
|
|
|
|
> Ich haben nun zwei Wege um auf Prozentwerte zu kommen (und
> es gibt noch mehr):
>
> - arithemtisches Mittel
> - arithmetisches gewichtetes Mittel
könnte ich mir vorstellen, wobei die letzten n Trainingseinheiten jeweil stärker gewichtet werden:
Training 1: Gewicht 1/S
Training 2: Gewicht 2/S
...
Training n: Gewicht n/S
mit S = 1+2+...+n
Vielleicht kannst du ja alle Trainingseinheiten einbeziehen
> - geometrisches Mittel
> - geometrisches gewichtetes Mittel
halte ich beide für nicht geeignet. Ein Durchlauf mit 0 Fehlern macht da alles kaputt.
> - harmonisches Mittel
> - harmonisches gewichtetes Mittel
> - median
> - einfache lineare Regression
Damit würdest du die Trendgröße ermitteln. Auch hier gibt es wieder z.B. die gewichtete Methode der kleinsten Quadrate
> - quadratisches Mittel
> - ...
> Also nun die Fragen:
> a) Welche Berechnung ist nun die bessere Lösung?
Das kann man nicht so beantworten.
> b) Wenn man mal eine Fehlerrate von 0% hatte dann ist im
> geometrischen Mittel das Produkt immer Null. Wie würde man
> damit umgehen?
Ja das wäre ein Problem (siehe unten mit Fehlerzeit)
> c) Das quadratische Mittel verstärkt größere Werte. Das
> ist natürlich unangenehm wenn es um die Abnahme einer
> Fehlerrate geht.
>
> Mein Eindruck: die einfache lineare Regression scheint
> vielversprechend wenn auch der Rechen aufwand höher ist.
>
> Grundsätzlich muss ich - wahrscheinlich - meine Testreihe
> ständig verschieben, also nur die letzten "n" Werte
Das mit den "gleitende Durchschnitte" habe ich oben geschrieben. Du kannst ja alle Daten nehmen und wichten. Machst du es wie oben, so erhält die erste Trainingseinheit immer weniger Einfluss.
> nehmen. Die Überlegung kam mir, weil ich mal bei der
> ersten Session keinen Fehler hatte aber zu langsam war.
> Jede weitere Session war zwar schneller aber hatte dann
> einen Fehler. Der Trend meint nun ständig ich wäre
> schlechter geworden obwohl ich manchmal auch wieder keine
> Fehler machte.
Ich würde mir über folgendes Gedanken machen:
Führt man zwei Statistiken (Zeit, Fehler) oder brummt man für jeden Fehler dem Anwender Zeit au?
>
> Mathematisch gesehen habe ich nun eine ganze Reihe von
> Ansätzen aber keiner konnte mir bisher überzeugend
> erklären wie man korrekt vorgeht.
Ich würde versuchen, das mit den Gewichten arithm. Mittel zu probieren.
Bei 2 Trainingseinheiten hast du
Gewicht Training
1/3 1
2/3 2
Bei 5 Trainingseinheiten
Gewicht Training
1/15 1
2/15 2
3/15 3
4/15 4
5/15 5
Du siehtst, dass das Training 1 im Verlauf immer weniger Einfluss hat. Nach n Trainingseinheiten hat es nur noch Einfluss [mm] 2/(n^2+n).
[/mm]
>
> Für ein paar Gedanken/Ideen eurerseits wäre ich sshe
> dankbar.
>
> Grüße
> Thomas
|
|
|
|