Überzufällige Häufung? < Stochastik < Hochschule < Mathe < Vorhilfe
|
Ich habe diese Frage in keinem Forum auf anderen Internetseiten gestellt!
Hallo Matheexperten,
ich bin statistischer Laie und habe folgendes Problem:
Ich möchte wissen, ob an einzelnen Tagen in einem bestimmten Zeitraum morgens (5:00-10:00 Uhr) eine überzufällige Häufung von Notarztwageneinsätzen (Clusterbildung) auftritt. Zur Verfügung habe ich die Anzahl an Gesamteinsätzen für 6 Monate und die Verteilung der einzelnen Einsätze auf die Stundenzeiträume (5:00-6:00, 6:00-7:00, ...) jedes einzelnen Tages. Ich gehe davon aus, dass die einzelnen Einsätze voneinander unabhängig auftreten.
Ich weiß nicht, wie ich mich dem Problem nähern soll. Vielleicht kann mir jemand helfen?
Ich habe den Mittelwert sowie die Standardabweichung berechnet, bekomme aber daraus keine für mich verständlichen Werte.
Vielen Dank!
Mathebeginner
|
|
|
|
Status: |
(Antwort) fertig | Datum: | 15:18 Do 20.03.2008 | Autor: | Zneques |
Hallo,
> Ich möchte wissen, ob an einzelnen Tagen in einem bestimmten Zeitraum morgens (5:00-10:00 Uhr) eine überzufällige Häufung von Notarztwageneinsätzen (Clusterbildung) auftritt.
Dazu musst erstmal eine Hypothese aufstellen. Z.B. diese : "Die Anzahl der Einsätze ist über gesammten Tag gleichverteilt."
Als nächtest brauchst du ein Signifikanznivea. Also eine Prozentzahl die angibt ab wann du die Hypothese ablehnst. (5% bedeutet, dass du zu 95% sicher sein möchtest bevor du ablehnst.)
Danach berechnest du die Wahrscheinlichkeit für deine Stichprobe mindestens soweit von Erwartungswert abzuweichen, wie sie es getan hat.
z.B: P(zwischen 5 und [mm] 10)=\bruch{5}{24}=p [/mm] , laut gleichverteilung
E(Anzahl E. von 100 E. zwischen 5 und [mm] 10)=p*100\approx [/mm] 20,8
da 30>20,8
P(30 oder mehr von 100 E. sind in der [mm] Zeit)=\summe_{i=30}^{100} \vektor{100\\i}*p^i*q^{100-i}\approx0,01<0,05 \quad \Rightarrow [/mm] Hypothese abgelehnt.
Ciao.
|
|
|
|
|
Hallo Zneques,
besten Dank für die prompte Antwort.
> Dazu musst Du erstmal eine Hypothese aufstellen, z.B. diese: "Die Anzahl der Einsätze ist über den gesammten Tag gleichverteilt." >
Die Hypothese lautet jedoch nicht, dass die Einsätze über den gesamten Tag gleich verteilt sind. Es geht mir darum, ob die Einsätze im vorgenannten Betrachtungsfenster (5:00-10:00 Uhr) über alle betrachteten Tage (6 Monate) gleich verteilt sind.
Meine Hypothese wäre also: "Die Anzahl der Einsätze zwischen 5:00 und 10:00 Uhr eines jeden Tages ist über alle Tage gleich verteilt."
Als Signifikanzniveau wähle ich 5 %.
Die Gesamtzahl der Einsätze zwischen 5:00 und 10:00 Uhr betrug 110 an 184 betrachteten Tagen.
p wäre dann bei Gleichverteilung [mm] \bruch{110}{184} [/mm] = 0,598
Gilt dann q = [mm] \bruch{74}{184} [/mm] = 0,402 ???
Tatsächlich lag die Anzahl der Einsätze pro Tag im Betrachtungsfenster bei 0 (101 mal), 1 (60 mal), 2 (19 mal) und 3 (4 mal).
Wie geht es jetzt weiter? Was muss ich in die Formel mit dem Binomialkoeffizienten einsetzen?
Ist das so richtig?
[mm] \summe_{i=4}^{184} \vektor{184 \\ 4} \* (0,598)^{4} \* (0,402)^{184-4}
[/mm]
Für Deine Antwort schon mal vielen Dank!
Mathebeginner
|
|
|
|
|
Status: |
(Antwort) fertig | Datum: | 13:45 Fr 21.03.2008 | Autor: | abakus |
Hallo,
entweder deine Frage oder die von Dir dazu aufgestellte Hypothese ist falsch.
Angeblich geht es dir darum, ob eine vermutete Häufung in einem bestimmten Zeitraum zufällig ist oder nicht.
Wenn sie nicht zufällig ist, dann wäre also die Hypothese "die Einsätze sind gleichverteilt" falsch.
Anhand deiner Daten kanns du ausrechnen, mit welcher Wahrscheinlichkeit die Gleichverteilungshpothese falsch ist.
Der von Dir favorisierte Vergleich jeweils des selben Tageszeitraums sagt doch nichts darüber aus, ob es in diesem Tageszeitraum mehr Einsätze gibt als in anderen Tageszeiträumen.
Viele Grüße
Abakus
|
|
|
|
|
Hallo Abakus,
es geht mir um die Frage, ob an einem oder mehreren der betrachteten 184 Tage besonders viel ("überzufällig viel") Einsätze angefallen sind.
An jedem der betrachteten Tage wird der Zeitraum zwischen 5:00 und 10:00 Uhr gezählt. Dass die Verteilung der Einsätze über den Einzeltag nicht gleich ist, liegt auf der Hand. Die Verteilung ist naturgemäß abhängig von den Aktivitäten der Menschen.
Um die Aufgabenstellung verständlicher zu machen, könnte man auch die Angabe zwischen 5:00 und 10:00 Uhr weglassen und die Einsatzzahlen so betrachten, als ob sie über den ganzen Tag angefallen sind.
Viele Grüße
Mathebeginner
|
|
|
|
|
Status: |
(Antwort) fertig | Datum: | 16:16 Fr 21.03.2008 | Autor: | Zneques |
Das hätte ich aus dem ersten Artikel auch nicht rausgelesen.
Die Hypothese ist aber so wie du sie geschrieben hast sinnvoll.
Die Berechnung ist trotzdem schief gelaufen.
> $ [mm] \bruch{110}{184} [/mm] $ = 0,598
Wäre die W.-keit, dass ein Tag ein Einsatz hat. Die summierten Bion.-verteilungen wären dann die W.-keit, dass 3 bis 184 Tage von den 184 einen Einsatz haben. Das ist aber nicht das was es sein sollte.
Du willst doch die W.-keit, dass ein Tag 4 bis 110 der Einsätze hatte.
Somit brauchst du für p die W.-keit, dass ein Einsatz an dem entsprechenden Tag ist. Da es 184 Tage zur Wahl gab, ist die W.-keit [mm] p=\bruch{1}{184}.
[/mm]
[mm] \summe_{i=4}^{110} \vektor{110 \\ i} [/mm] * [mm] (\bruch{1}{184})^{i} [/mm] * [mm] (\bruch{183}{184})^{110-i}
[/mm]
(In der Summe muss die Zählvariable i natürlich auftauchen. Was bringt es hochzuzählen wenn du immer das gleiche addierst ?)
|
|
|
|
|
Hallo Abakus,
wie kannst Du um 16:16 eine Antwort auf meine Frage um 16:21 geben. Na ja, mit Mathe ist wohl viel möglich.
Zunächst muss vielleicht die Frage sein, wie hoch die Wahrscheinlichkeit ist, dass 3 und mehr Einsätze an einem Tag auftreten. Denn 3 ist die größte Anzahl an Einsätzen, die ich habe, und ich möchte ja wissen, ob ich bei meinen Beobachtungen Tage mit "überzufällig häufigen" Einsätzen habe. Ich würde also für i 3 einsetzen.
>Somit brauchst du für p die W.-keit, dass ein Einsatz an dem entsprechenden Tag ist. Da es 184 Tage zur Wahl gab, ist die W.-keit $ [mm] p=\bruch{1}{184}. [/mm] $
Das habe ich überhaupt nicht verstanden. Ist nicht die Wahrscheinlichkeit, dass ein Einsatz an einem Tag ist p = [mm] \bruch{110}{184}.
[/mm]
Ich muss gestehen, dass ich kein Verständnis für den Binomialkoeffizienten habe. Ich habe ihn in Deinem Posting erstmals gesehen und die Zahlen stumpf und fast ohne es zu verstehen, eingesetzt.
Schon mal vielen Dank für die engagierte Antwort.
Mathebeginner
|
|
|
|
|
Hallo Zneques,
zunächst hat mir mein Sohn Deine Formel ausgerechnet.
Für i = 3 (drei oder mehr Einsätze an einem Tag) und n = 110 ergibt sich 0,0225.
0,0225 < 0,05
Meine Hypothese lautete: "Die Anzahl der Einsätze zwischen 5:00 und 10:00 Uhr eines jeden Tages ist über alle Tage gleich verteilt."
> P(30 oder mehr von 100 E. sind in der $ [mm] Zeit)=\summe_{i=30}^{100} \vektor{100\\i}\cdot{}p^i\cdot{}q^{100-i}\approx0,01<0,05 \quad \Rightarrow [/mm] $ Hypothese abgelehnt.
Bedeutet dies jetzt, dass die Hypothese auf dem 5% Niveau abgelehnt ist?
Bedeutet dies dann, dass "überzufällig häufig" 3 Einsätze -und mehr- pro Tag aufgetreten sind?
Dem entgegen wollte mein Sohn mit dem Binomialkoeffizienten die Wahrscheinlichkeit für -genau- 0 Einsätze pro Tag, für 1 Einsatz pro Tag und für 2 Einsätze pro Tag berechnen. Er hat folgendes Ergebnis:
für 0 Einsätze 54,9 %, entspricht 101 Tage (in Realität 101 Tage)
für 1 Einsatz 33 %, entspricht 60 Tage (in Realität 60 Tage)
für 2 Einsätze 9,8 %, entspricht 18 Tage (in Realität 19 Tage)
für 3 und mehr Einsätze 2,25 %, entspricht 4 Tage (in Realität 4 Tage).
Das stimmt so gut mit den gemessenen Werten überein, dass ich vermute, er hat eine Zirkelschluss begangen.
Im übrigen jährt sich meine Matheabiturarbeit dieser Tage zum dreißigsten Mal, als ich Mathematikunterricht in der Schule hatte, wurde Matte noch ohne "h" geschrieben und ich hielt Stochastik für eine infektiöse Magen-/Darmerkrankung .
Viele Grüße und besten Dank!
Mathebeginner
|
|
|
|
|
Status: |
(Antwort) fertig | Datum: | 15:25 Sa 22.03.2008 | Autor: | Zneques |
Super, soweit gibts nichts zu meckern.
> Bedeutet dies jetzt, dass die Hypothese auf dem 5% Niveau abgelehnt ist?
> Bedeutet dies dann, dass "überzufällig häufig" 3 Einsätze -und mehr- pro Tag aufgetreten sind?
Genaugenommen ist aber nur ein einzelner, vorher ausgesuchter Tag abgelehnt, wenn er gleich/mehr als 3 Einsätze hat.
> Das stimmt so gut mit den gemessenen Werten überein, dass ich vermute, er hat eine Zirkelschluss begangen.
Erstaunliche gute Übereinstimmung. Ist auch richtig berechnet.
Damit sollte das endgültige Ergebnis schon klar sein.
Dann sehen wir mal zu, dass die Mathematik dass nochmal bestätigt.
Das was noch zu tun bleibt ist, die Hypothese auf die 184 Tage zu erweitern.
Bisher haben wir die W.-keit, dass ein spezieller Tag x Einsätze hat. Nun wollen wir die W.-keit, dass min. einer von 184 Tagen x Einsätze hat.
Also das Gegenteil von : Keiner der 184 Tage hat x Einsätze.
P(min. einer von 184 Tagen hat x Einsätze)
=1-P(Keiner der 184 Tage hat x Einsätze.)
=1-P(spezieller Tag hat x oder mehr Einsätze [mm] )^{184}
[/mm]
Wenn ich mich nicht verrechnet habe ist erst ab 5 Einsätzen die Hypothese abzulehnen. ( dann ist [mm] p\approx0,00625 [/mm] )
> Im übrigen jährt sich meine Matheabiturarbeit dieser Tage zum dreißigsten Mal
Dann ist "Math. Background: Mathe-GK 13 Gymnasium" wohl eher nicht auf dich bezogen.
Ciao.
|
|
|
|
|
Hallo Zneques,
> P(min. einer von 184 Tagen hat x Einsätze)
> =1-P(Keiner der 184 Tage hat x Einsätze.)
> =1-P(spezieller Tag hat x oder mehr Einsätze $ [mm] )^{184} [/mm] $
Deine Antwort verstehe ich beim Sprung von Zeile 2 auf Zeile 3 nicht.
Wir haben jetzt die errechnete Wahrscheinlichkeit p dafür, dass an einem ganz bestimmten Tag 3 oder mehr Einsätze sind (0,0225).
Wenn wir nun errechnen wollen, wie hoch die Wahrscheinlichkeit ist, dass an 4 oder mehr Tagen (wie in der Realität bei uns) 3 oder mehr Einsätze sind, haben wir folgende Formel:
[mm] \summe_{i=4}^{184} \vektor{184 \\ i} p^{i} q^{184-i}
[/mm]
Ist das so korrekt? Können wir für p den obigen Wert einsetzen?
Wenn ja, ist das Ergebnis 0,59 (59 %.)
Dies ist nach meinem Verständnis nicht unwahrscheinlich.
Wie ich das allerdings in der Hypothese zu formulieren habe, ist mir nicht klar.
Muss ich dann auf dem 5%-Signifkanzniveau die Hypothese aufstellen, dass eine Anzahl von 4 Tagen mit >= 3 Einsätzen im Rahmen der Gleichverteilung liegt?
Grüße
Mathebeginner
|
|
|
|
|
Status: |
(Antwort) fertig | Datum: | 20:31 Sa 22.03.2008 | Autor: | Zneques |
> Deine Antwort verstehe ich beim Sprung von Zeile 2 auf Zeile 3 nicht.
Kein Wunder. Habe mich da auch verschrieben. ^^
P(min. einer von 184 Tagen hat x Einsätze)
=1-P(Keiner der 184 Tage hat x oder mehr Einsätze.)
=1-P(alle 184 Tage haben weniger als x Einsätze.)
=1-P(spezieller Tag hat weniger als x Einsätze [mm] )^{184}
[/mm]
Das wäre dann : Ein Tag (von 184) mit x Einsätzen (von 110) liegt im Rahmen...
> Wenn wir nun errechnen wollen, wie hoch die Wahrscheinlichkeit ist, dass an 4 oder mehr Tagen (wie in der Realität bei uns) 3 oder mehr Einsätze sind, haben wir folgende Formel:
> [mm] \summe_{i=4}^{184} \vektor{184 \\ i} p^{i} q^{184-i}
[/mm]
> Ist das so korrekt? Können wir für p den obigen Wert einsetzen?
Ja, und Ja. Genau so ist es.
> Wenn ja, ist das Ergebnis 0,59 (59 %.)
Richtig.
> Wie ich das allerdings in der Hypothese zu formulieren habe, ist mir nicht klar.
Das würde ich fast genauso schreiben.
Etwa in der Art :
"Die Anzahl der Tage mit den meisten ( bzw. [mm] \ge [/mm] 3) Einsätzen ist im Rahmen (5%-Signifkanzniveau) einer Gleichverteilung der Einsätze über den gesammten Zeitraum."
Ciao.
|
|
|
|
|
Hallo Zneques,
nochmals zur Systematik. Ich berechne zunächst die Wahrscheinlichkeit, dass ein bestimmter Tag in meinem Fall 3 oder mehr Einsätze hat und verwerte dann diese Wahrscheinlichkeit um zu berechnen, ob die gefundene Häufigkeit von 4 Tagen mit 3 oder mehr Einsätzen im Rahmen der Gleichverteilung liegt.
Das ist es dann gewesen.
Allerbesten Dank für Deine rasche und geduldige Hilfe.
Mathebeginner
|
|
|
|
|
Noch 'ne Nachfrage. Kann man das so formulieren?
Zunächst ist eine Hypothese aufzustellen. Diese würde hier lauten: Die Anzahl der Tage mit den meisten (≥ 3) Einsätzen liegt im Rahmen einer Gleichverteilung der Einsätze über dem gesamten Zeitraum."
Zusätzlich ist ein Signifikanzniveau festzulegen. Üblicherweise beträgt dieses 5 % (0,05), will heißen, die Irrtumswahrscheinlichkeit beträgt 5 %. Dies beschreibt qualitativ die Wahrscheinlichkeit, dass auf Grund eines ungünstigen Zufalls die Hypothese bestätigt wird, obwohl sie nicht zutrifft. Quantitativ besagt ein Signifikanzniveau von 5 %, dass eine normalverteilte Zufallsgröße (hier die Anzahl von 4 Tagen mit mindestens 3 Einsätzen) mit einer Wahrscheinlichkeit von weniger als 5 % um mehr als das Doppelte der Standardabweichung vom zu erwartenden Wert abweicht.
Sofern die errechnete Wahrscheinlichkeit über dem Wert 0,05 liegt, wird die Hypothese bestätigt (d.h. 4 Tage mit 3 und mehr Einsätzen liegen im Rahmen der Normalverteilung), sofern sie darunter liegt, wird die Hypothese abgelehnt (d.h. überzufällige Häufung, Clusterbildung). Das Ganze allerdings mit einer Irrtumswahrscheinlichkeit von 5 %.
Berechnet man nun die Wahrscheinlichkeit [mm] p_{4T3E} [/mm] , dass bei Normalverteilung insgesamt mindestens 4 Tage mit mindestens 3 Einsätzen auftreten, so ergibt sich:
[mm] p_{4T3E} [/mm] = 0,59
Dies bedeutet, dass bei Normalverteilung mit einer Wahrscheinlichkeit von 59 % damit zu rechnen ist, dass an 4 oder mehr Tagen 3 oder mehr Einsätze auftreten.
mathematisch: 0,59 > 0,05 → Nullhypothese ist bestätigt
Zusammenfassend ist -statistisch betrachtet- das Auftreten von 3 Einsätzen an 4 Tagen im 2. Halbjahr 2007 nicht überzufällig häufig, d.h. keine Clusterbildung. Wir hätten da allerdings noch die Irrtumswahrscheinlichkeit von 5 %.
|
|
|
|
|
Sorry, es sollte heißen:
mathematisch: 0,59 > 0,05 → Hypothese ist bestätigt
|
|
|
|
|
Status: |
(Mitteilung) Reaktion unnötig | Datum: | 10:41 Mo 24.03.2008 | Autor: | abakus |
Hallo Mathebeginner,
es besteht natürlich auch die Möglichkeit, das Problem zu simulieren, z.B so:
Es sind doch 110 Einsätze über 184 Tage zu verteilen.
Dazu kannst du in EXCEL 110 Zellen mit Zufallszahlen (ausgewählt aus 1 bis 184)
füllen. Der Befehl lautet: =Ganzzahl(1+184*Zufallszahl())
Jedem Einsatz wird dadurch ein Einsatztag zugeordnet.
Mit der Funktion =Zählenwenn()
kannst du auch noch automatisch zählen lassen, wie oft an jedem der 184 Tage ein Einsatz war.
Wenn du diese Simulation mehrfach durchführst, wirst du selbst feststellen, dass eine Häufung von 3 Einsätzen pro Tag nicht ungewöhnlich ist.
Viele Grüße
Abakus
|
|
|
|
|
Hallo Abakus,
vielen Dank für den Tip. Das wäre die praktische Art der Überprüfung.
Mathebeginner
|
|
|
|
|
Status: |
(Mitteilung) Reaktion unnötig | Datum: | 12:46 Mo 24.03.2008 | Autor: | abakus |
So könnte die Simulation funktionieren:
Datei-Anhang
Dateianhänge: Anhang Nr. 1 (Typ: xls) [nicht öffentlich]
|
|
|
|
|
Hallo Abakus,
nicht schlecht. Ich habe zunächst den Umstand, dass die Spalte A neben B steht, mißverstanden. Aber jetzt hab ich es begriffen. Die Spalten sind inhaltlich nicht miteinander verknüpft.
Probiert man mit F9 durch, so ergeben sich selten auch einmal Tage mit 5 Einsätzen, ganz selten Tage mit 6 Einsätzen.
Mathebeginner
|
|
|
|
|
Status: |
(Antwort) fertig | Datum: | 23:34 So 23.03.2008 | Autor: | Zneques |
Allgemein : Gut.
Jedoch gibt es noch wichtige Korrekturen.
> ..., dass eine normalverteilte Zufallsgröße...
> im Rahmen der Normalverteilung.
usw.
Wenn du die "normale Verteilung" (die aus der Hyp. hervorgehende) meinst, ist es schlecht formuliert.
Wenn nicht : Das ist keine Normalverteilung. Sonst hätten wir uns die ganze aufwändige Berechnung sparen können, und direkt die Daten aus der Tabelle der Normalverteilung ablesen können.
( Da die Zahlen 3,4,110,184... alle nicht besonders groß sind, wären Abschätzungen mit der Normalverteilung nicht besonders genau. )
> das Doppelte der Standardabweichung vom zu erwartenden Wert abweicht.
Das stimmt nur für die Normalverteilung, die hier nicht vorliegt.
Sonst hätten wir einfach die Standardabweichung bestimmen und diese Abweichung überprüfen können.
Man könnte z.B. mit der Tschebyscheff-Ungleichung zumindest auf 5-fache abschätzen.
> Wir hätten da allerdings noch die Irrtumswahrscheinlichkeit von 5 %.
Die Irrtumswahrscheinlichkeit bezieht sich auf den Fehler eine Hypothese abzulehnen, obwohl sich richtig ist.
Es gibt noch einen [mm] \beta [/mm] -Fehler (Fehler 2. Art), eine Hypothese anzunehmen, obwohl sie falsch ist.
Der ist hier jedoch nicht wirklich zu berechnen, da die Alternativhypothese keine genauen Vorgaben gibt.
Ciao.
|
|
|
|
|
Vielen Dank, Zneques.
Ich nehme alles mit "Normalverteilung" und "Irrtumswahrscheinlichkeit" heraus, dann müsste es passen.
Mathebeginner
|
|
|
|