Kategorienbildung & -änderung < Stochastik < Hochschule < Mathe < Vorhilfe
|
Status: |
(Frage) beantwortet | Datum: | 22:44 Mo 17.01.2022 | Autor: | Gooly |
Folgende Situation:
Es gibt einen Datenstrom mit Werten von 0 ... 'viel'(theoretisch Unendlich), also zB. aus abs(Steigung) oder der Anzahl der Daten während konstanter Zeitperioden wie Sekund oder Stunde. Aus diesen Daten wird laufend ein Mittelwert µ und die Standardabweichung σ errechnet. Es ist anzunehmen, dass das eine rechtsschiefe Verteilung ist.
Soweit kein Problem.
Jetzt aber will ich allein aus den Werten von µ und σ Kategorien bilden, sodass (mal als Anfang) die dritte Kategorie µ enthält und es also zwei Kategorien links davon gibt und sechs weitere Kategorien rechts der µ-Kategorie 3, am besten so, dass die Kategorien rechts sich vergrößern.
Beispiel:
Kategorie: 1 2 3 4 5 6 7 8 9
Grenzen: 0 5 8 13 21 34 55 90 145 ...
µ=10,5
Hier habe ich allerdings das erste Intervall 0-5 angenommen und die jew. nächste Grenze mit 1,618 (gold. Schnitt) multipliziert und mir dann µ=10,5 ausgerechnet, damit es in der Mitte der 3. Kategorie liegt.
Mein Ziel bzw. Wunsch ist nun, aus µ und σ die 9 (Unter-) Grenzen der 9 Kategorien zu ermitteln, und zwar so, dass in der 3. Kategorie µ zu liegen kommt.
Normal wäre eine Clusteranalyse, aber dazu müsste ich den Datenstrom in Testdaten und Live-Daten unterteilen. Aber genau das will ich nicht. Aus dem ständigen Datenstrom kann ich kontinuierlich µ und σ ermitteln und jetzt will ich mit diesen beiden Werten, ebenso kontinuierlich die Kategoriengrenzen errechnen - aber im Moment fehlt mir jede Idee, wie ich das am besten realisieren könnte. Ich möchte so verwirklichen, dass die Kategoriengrößen nicht willkürlich angenommen werden, sondern sich wegen µ und σ aus der Historie der Daten ergeben.
Vielleicht hat jemand einen Tipp, eine Idee oder auch nur einen Link oder ein Suchterminus für Tante Google.
Vielen Dank im Voraus!
Gooly
|
|
|
|
Status: |
(Mitteilung) Reaktion unnötig | Datum: | 10:58 Sa 22.01.2022 | Autor: | Infinit |
Halo Gooly,
eine Antwort traue ich mir derzeit noch nicht zu, deswegen erst mal ein Kommentar zu Deiner Frage.
So wie ich es verstanden habe, möchtest Du aus einem kontinuierlichen, unendlich fortdauernden Datenstrom Mittelwert und Standardabweichung berechnen und da diese Werte sich mit jeder Deiner Testdatenentnahmen, die über eine bestimmte Zeitdauer jeweils gehen, ändern werden, möchtest Du für den zeitlichen Verlauf dieser Werte Kategorien einführen (weswegen ist mir zwar nicht klar, aber das ist auch erst mal egal). Bei neun Kategorien benötigst Du also auf jeden Fall neun Messungen. So weit, so gut.
Danach bin ich jetzt aber am Rätseln. Dein Mittelwert soll jetzt in einer bestimmten Kategorie zu liegen kommen und da stellt sich für mich die Frage, welchen Sinn das macht, insbesondere, wenn der Wertebereich der Daten nicht eingeschränkt ist. Soll dieser Mittel-Mittelwert eine Schätzung für den wahren Mittelwert sein (den man aber nie kennen wird) oder was ist da der Hintergrund?
Bitte schreibe doch noch ein bisschen was dazu.
Viele Grüße,
Infinit
|
|
|
|
|
Status: |
(Mitteilung) Reaktion unnötig | Datum: | 13:26 Sa 22.01.2022 | Autor: | Gooly |
Nun, es kommen Daten in unterschiedlicher Intensität oder Häufigkeit 'rein'. Also mal nur 1 Datensatz in einer Stunde mal 5000. Aus diesen Datenhäufigkeiten bilde ich laufend µ und σ, also einen Durchschnitt und eine Schwankungsbreite.
Ohne mathematischen Beweis gehe ich von einer linkssteilen (0..µ) und rechtsschiefen (µ..) Verteilung aus.
Jetzt möchte ich 9 Kategorien in aufsteigender Breite bilden. Denn bei einer immer gleiche Kategorienbreite würde entweder in der letzten Kategorie (alles, was größer als die Untergrenze der Kategorie ist) zu viele sein oder bei einer zu großen Breite alles in der Kategorie um µ liegen. Damit wäre die Aussagekraft der Kategorien sehr schwach und man könnte dann nur sagen > oder < µ, also nur zwei Kategorien.
Ein Ansatz, den ich präferieren würde, würde die Schwankungsbreite σ mit dem Goldnen Schnitt verbinden.
Die Kategorienbreite ändert sich dann mit dem Faktor 1,618 [mm] (=(1+5^0,5)/2): [/mm] Die Breite einer Kategorie ist 1,618-mal so breit wie die Breite der Kategorie 'links' davon. So ergäbe sich eins sich vergrößernde Breite. Das wäre zumindest Mal ein Ausgangspunkt, denkbar wäre eine Anpassung dadurch, dass man den Faktor 1,618 verändert. Die Kategorien könnte man ausgehend von µ als Mittelpunkt der zentralen Kategorie über die anderen Mittelpunkte der Kat. ermittel (µ*1,618,...)
Dieser Ansatz ist aber noch ohne σ für die Breite der zentrale Kategorie mit µ, die die 3. sein soll, und dafür suche ich eine Idee(n).
|
|
|
|
|
Status: |
(Antwort) fertig | Datum: | 18:07 So 23.01.2022 | Autor: | Infinit |
Hallo Gooly,
nachdem wir etwas genauer das Umfeld nun abgeklärt haben und Du auch schon eine Idee hast, wie Du die Breite der einzelnen Kategoriefelder ändern möchtest, bleibt jetzt wirklich nur die Frgae offen, wie breit Deine dritte Kategorie denn sein soll.
Darauf wird es keine für alle Fälle passende Antwort geben, aber ich würde einfach mal mit einer Breite in Größe der Standardabweichung beginnen. Klar, wir wissen, dass Du keine Normalverteilung vor Dir hast (dann befänden sich 68% aller Daten in diesem Bereich), aber mehr wissen wir auch nicht. Da ist dies, so würde ich sagen, eine gute Ausgangslage.
Du musst Dir dann sowieso noch überlegen, auf welche Weise Du die Mittelwertbildung all Deiner Daten in die Darstellung einfließen lassen willst. Eine Art von gleitendem Durchschnitt, der auch die Ergebnisse der Vergangenheit berücksichtigt und nicht nur Dein aktuelles Testprobenergebnis, wäre hier sicher ein sinnvoller Ansatz. Mehr vorzuschlagen wäre eine Art von Kaffeesatzleserei. Keiner von uns weiß, wie schief Deine Daten sein werden.
Probiere es einfach mal aus.
Viele Grüße,
Infinit
|
|
|
|
|
Status: |
(Mitteilung) Reaktion unnötig | Datum: | 22:32 So 23.01.2022 | Autor: | Gooly |
Hmm - Danke, mal sehen wohin mich das führt ;)
|
|
|
|