Prüfung auf Normalverteilung < Statistik (Anwend.) < Stochastik < Hochschule < Mathe < Vorhilfe
|
Status: |
(Frage) beantwortet | Datum: | 16:35 Di 04.08.2015 | Autor: | Trasher |
Aufgabe | Nach einer experimentellen Versuchsreihe wurden die Daten aufgezeichnet:
A = [61.80949542
68.550839
44.94240756
61.64584179
61.76057208
56.1830703
61.57728293
56.32608618
61.66227185
55.38759134
56.97248194
60.4282156
59.36817678
60.19155545
51.06620128
53.9096669
68.31488506
62.30649295
44.48026933
55.97740007
49.37104181
52.43356402
46.56260995
43.65613159
50.10158497
52.31362064
53.53902893
53.12164019
53.22905143
55.01294656
48.40899451
52.93632439
49.00322343
65.66201918
56.58490857
51.10194442
50.41006546
52.60814282
53.11104486
49.04369862
52.10200256
54.59219485
54.02939989
51.82039946
49.73635674
53.48164688
53.44648838
57.77377237
48.98552471
51.1166618
48.26501129
51.8090831
51.04084522
48.42983736
52.02563623
56.27037662
56.40747213
49.80881246
50.80545477
57.66376992
56.61871913
51.97915609
56.63121532
53.49171255
55.24679666
55.39114462
54.99162903
52.21535002
54.43933954
60.24403101
51.41028642
48.82544572
46.2960406
50.70749017
49.46886169
48.79214453
46.97969446
48.05089458
44.30905596
47.56291392
45.70559536
48.53978587
50.80978524
48.74245622
47.75914557
47.37137068
50.29017613
46.97146739
42.3122188
48.16508941
48.19477704
43.72669587
48.11797394
40.72528987
46.63319554
48.52122141
42.86312784
45.24614335
52.58575814
50.32016993
51.45931534
47.40992531
45.685119
51.54254268
49.84953471
71.2909116
67.08628033
74.12329699
56.86154218
61.97619287
60.54645267
63.41315637
71.58703394
71.71441181
63.57771169
65.45509503
69.56559812
61.58378761
60.74938639
64.87596909
67.86734685
61.29896616
52.56050349
56.1244642
52.67522129
63.29389225
58.46595947
58.34546628
58.61818058
61.92781531
55.70544907
58.08006429
59.564567
54.1379509
55.84807869
55.98847372
53.87738366
64.22244537
56.61425973
45.18502613
53.20569349
58.11695888
57.67459572
53.38820029
54.62080289
56.22805131
53.83709911
58.68658234
51.07869431
62.04646216
56.28876992
63.54062003
58.59156687
55.20828259
53.26220863
65.54630358
60.4671515
48.47962338
54.89963822
61.16189232
61.5998078
67.28579071
53.37480653
62.76793976
55.27388232
66.92191887
59.16038897
63.12283061
59.80865916
62.82322643
61.80261511
64.2211044
58.12397134
60.5600864
63.17615828
38.58862043
44.80768548
46.66781797
46.19700112
48.46094569
39.28459712
47.15224001
39.92392334
47.03719256
48.08388731
49.19196142
53.60827286
40.0139562
42.02088514
52.54616297
51.01761625
47.61662057
50.40028471
48.0274697
53.34861426
51.87540629
53.19177305
52.93511109
59.31903557
55.32028856
60.54949477
48.49534625
54.22128971
58.35181653
47.14140366
41.29727567
54.73252323
48.26963694
48.39849982
48.16406919
51.96284907
52.79272892
52.46595829
60.04990727
]; |
Hallo Leute,
ich habe ein Thema aus der Praxis, das mich beschäftigt. Leider habe ich nie einen Kursus zur Statistik besucht, was ich jetzt etwas bereue.
Mein Ziel:
1. Ich möchte einen Schwellwert definieren, der das Gross der o.g. Werte beinhaltet, jedoch so klein wie möglich ist, da sonst evtl. relevante Werte gelöscht werden.
2. Ich möchte den durch die Schwellwert-Annahme resultierenden Fehler ermitteln.
Ich konnte mich aus Schulzeiten an die Normalverteilung erinnern und die Sigma-Umgebungen. Mir schwebte dann ein Schwellwert vor, der den oberen 2 Sigma Wert entspricht - also ca. 95 % der möglichen Werte einschließt. Dies würde für meine Aufgabe genügen.
Jetzt habe ich mich etwas in die Thematik eingelesen und erkannt, dass ich zunächst prüfen muss, um welche Form der Verteilung es sich handelt. Da ich mich auch nicht zu sehr in der Statistik verlieren möchte, will ich zunächst auf Normalverteilung prüfen und bin nach dem Schema auf dieser Website vorgegangen: http://www.bb-sbl.de/tutorial/verteilungen/ueberpruefungnormalverteilung.html
Dort heißt es:
"Die Überprüfung der Normalverteilung besteht aus drei Schritten:
1.Grafische Überprüfung mit Wahrscheinlichkeitsnetz (QQ-Plot), Histogramm und Boxplot
2.Vergleich der Kennzahlen
3.Tests auf Normalverteilung mit hoher Güte, z. B. Shapiro-Wilks-, Anderson-Darling- und Cramér-von-Mises-Test"
Die Erstellung der Grafiken habe ich mit Matlab leicht umsetzen können. Nur fehlen mir natürlich Erfahrungswerte zur Interpretation. Zu erkennen ist, dass es auf dem Box-Plot einen Ausreißer gibt. Zudem scheint die Verteilung etwas rechtsschief. Dies zeigt sich auch auf dem Histogramm mit der aufgetragenen, angepassten Normalverteilung (über Matlab "histfit"). Leider finde ich hier keine Upload Funktion - sonst hätte ich euch die drei Grafiken gern gezeigt.
Ich habe dann die Kennwerte berechnet und stieß dabei auf das erste Problem:
Für die Stichproben konnte ich die Zahlen ohne Probleme berechnen:
Arith. Mittelwert: 54.1989
Median: 53.3815
Std: 6.8548
1 Sigma (oberer Wert): 61.0538
2 Sigma (oberer Wert): 67.9086
Nun weiß ich aber nicht, wie ich zum Vergleich die Werte der angepassten Normalverteilung berechnen kann.
1. Kennt ihr einen pragmatischen Ansatz?
2. Sind diese Werte der angepassten Normalverteilung die relevanten Werte für den Schwellwert?
Als dritten Schritt habe ich dann die Tests gemacht.
Für Shapiro-Wilks habe ich eine Matlab Funktion von Ahmed BenSaïda genutzt (http://www.mathworks.com/matlabcentral/fileexchange/13964-shapiro-wilk-and-shapiro-francia-normality-tests)
Bei mir ergibt sich ein p-Wert = 0.0647. Dieser offeriert wohl, dass die Messwerte als nicht normalverteilt angenommen werden können.
Tests nach Anderson-Darling und Cramér-von Mises habe ich ausgelassen, da ich zunächst wissen möchte:
3. Ist damit die Annahme der Sigma-Umgebungen unter Normalverteilung hinfällig geworden?
4. Gibt es Verteilungen, die besser passen würden? Wenn ja, wie müsste ich vorgehen?
5. Wie hoch läge der Fehler? Kann dies berechnet oder nur geschätzt werden?
Ich danke euch vielmals für eure Hilfe und freue mich auf eure Antworten.
Robert
|
|
|
|
Status: |
(Antwort) fertig | Datum: | 18:14 Di 04.08.2015 | Autor: | Infinit |
Hallo Robert,
ich kann verstehen, dass Du eine gewisse Vorliebe dafür hast, solch eine Verteilung mit Hilfe einer Normalverteilung zu beschreiben, denn dann brauchst Du nur zwei Parameter zur Beschreibung der Verteilungsfunktion. Deine bisherigen Analysen haben jedoch ergeben, dass man solch eine Verteilung nicht gerade mit gutem Gewissen als Normalverteilung beschreiben kann, was zwar in gewisser Weise schade ist, aber auch kein Beinbruch.
Dein Wunsch, einen Schwellwert zu finden, eventuell auch einen unteren und einen oberen Grenzwert, kann jedoch erfüllt werden, da Du ja aufgrund der Tabelle weißt, wieviele Daten Du hast und daraus kannst Du ja leicht ausrechnen, wieviele Datensätze Du an den Rändern der Verteilung wegwerfen darfst, um beispielsweise 95% der ursprünglichen Daten noch zu erhalten. Den quadratischen Fehler, den Du dabei machst, indem Du einige Werte am Rande der Verteilung nicht weiter berücksichtigst, ist auch einfach auszurechnen. Du setzt durch die Nichtberücksichtigung dieser Werte diese de facto auf Null, der quadratische Fehler ergibt sich also einfach durch Aufaddieren der quadratierten Werte, die Du ursprünglich in der Verteilung hast, die Du jetzt aber"wegschneidest".
Ich weiß, das ist ein recht pragmatischer Ansatz, er sollte aber Deine beiden Fragestellungen lösen können.
Viele Grüße,
Infinit
|
|
|
|
|
Status: |
(Antwort) fertig | Datum: | 10:25 Di 11.08.2015 | Autor: | luis52 |
> Als dritten Schritt habe ich dann die Tests gemacht.
> Für Shapiro-Wilks habe ich eine Matlab Funktion von Ahmed
> BenSaïda genutzt
> (http://www.mathworks.com/matlabcentral/fileexchange/13964-shapiro-wilk-and-shapiro-francia-normality-tests)
> Bei mir ergibt sich ein p-Wert = 0.0647. Dieser offeriert
> wohl, dass die Messwerte als nicht normalverteilt
> angenommen werden können.
Moin, wieso? Bei einem Signifikanzniveau von 5% kann man die Annahme der Normalverteilung nicht verwerfen ...
|
|
|
|