Ziehung einer Stichprobe < Stochastik < Hochschule < Mathe < Vorhilfe
|
Status: |
(Frage) beantwortet | Datum: | 08:42 Do 20.01.2005 | Autor: | mav |
Hallo Euch allen !
im Rahmen meiner Diplomarbeit bin ich auf das Problem gestoßen eine Stichprobe aus 20.000 Akten ziehen zu müssen.
Von diesen Akten interessiert mich nur ein bestimmter Wert, die Anzahl der Blätter in diesen Akten.
Problem Nr. 1 Wie ermittle ich nun die optimale Stichprobengröße ?
Es würde ausreichen, wenn ich ein Intervall von [mm] \pm [/mm] 10 Seiten mit einer Genauigkeit von 95 % erreichen könnte.
Problem Nr. 2 läuft auf eine geschichtete Stichprobe hinaus, da ich die Gesamtmenge von 20.000 in einzelne Teilmengen aufteilen muss ( ca. 6-8 Teilmengen ). Von diesen Teilmenge muss dann auch noch einmal eine Stichprobe gezogen werden. ( unter den gleichen Vorraussetzungen wie oben )
Ich hoffe Ihr habt nun alle Informationen, um mir ein bisschen weiterhelfen zu können. Falls noch Fragen sind einfach posten.
mav
Ich habe diese Frage in keinem Forum auf anderen Internetseiten gestellt.
|
|
|
|
Hallo, könntest du das Problem Nr 1) etwas genauer formulieren? So wie ich das jetzt verstehe hast du Akten, in den jeweils eine bestimmte Anzahl Blätter liegt. Du ziehst eine Stichprobe an Akten raus und schaust wieviel Blätter jeweils drin liegen. Was genau willst du jetzt testen? Weisst du schon wieviel Blätter im Allgemeinen in so einer Akte drin liegen können
oder kennst du die Wahrscheinlichkeiten/Verteilung der Anzahl Blätter in einer Akte?
Gruß
David
|
|
|
|
|
Status: |
(Antwort) fertig | Datum: | 14:34 Fr 21.01.2005 | Autor: | mav |
Hallo David,
den Sachverhalt hast Du soweit richtig verstanden. Ich will auf Grund einer Stichproben hochrechnen können, wieviele Blätter insgesamt in den 20.000 Akten sind. Ich weiss aber nicht, ob ich nun 20, 200, oder 2000 untersuchen muss.
Ich glaub, ich hab aber die passende Formel gefunden. Vielleicht kannst Du ja mal meine Rechnung überprüfen.
n= 1 / ([e²/{z²*p*(1-p)}] + 1/N)
n - Stichprobenumfang
e - Stichprobenfehler
N - Grundgesamtheit
z - Wert der statistischen Sicherheit ( bei 95% ist er bei 1,96 )
Der Faktor p*(1-p) gibt wohl die Standardabweichung wieder und ist für p = 0.5 am größten.
Folgende Werte hab ich nun in die oben stehende Formel eingesetzt.:
e = 0,05 ( Stichprobenfehler von 5 % )
z = 1,96 ( Statistische Sicherheit von 95 % )
N = 20.000 ( Grundgesamtheit )
p = 0.5
ich komme dann auf n = 376.92 was im Rahmen des möglichen ist.
Kannst Du diese Formel nachvollziehen, bzw. falls sie Falsch ist mir auf Grund der obigen Angaben eine passendere geben.
Gruß mav
|
|
|
|
|
Status: |
(Mitteilung) Reaktion unnötig | Datum: | 16:39 Fr 21.01.2005 | Autor: | david4501 |
Hi, also Formeln dieser Art entstehen meist, wenn man ein Konfidenzintervall für irgendeine Größe (z.B. p) ausrechnet.
Die Länge dieses Intervalls wird dann mit einem Fehler e verglichen
und man erhält durch Umformung dann eine Formel für n.
Ich kenne eine Formel der Form n [mm] \ge (\bruch{z}{e})^2 [/mm] * p * (1-p),
die die Gesamtgröße N noch nicht berücksichtigt. Mich würde die Herleitung deiner Formel interessieren, bzw. wo man die finden kann. Sonst kann ich die nicht richtig verstehn. Du solltest auch mal über folgende Punkte nachdenken:Die Formel entspricht einer bestimmten Problemstellung, die allerdings nicht mit deiner übereinstimmen muss. Was genau sollte dort berechnet werden, wo du die Formel her hast? Z.B.:
- p soll eine (noch näher zu bestimmende) Trefferw.keit wiedergeben.
In deiner Aufgabenstellung hast du (wenn ich das richtig sehe) sowas
nicht und verwendest eine Abschätzung nach oben. Was genau willst
du als "Treffer" bezeichnen?
- Was genau willst du testen? Wenn du jetzt 400 Akten geprüft hast
und du findest raus, daß mindestens 3, maximal 50 Akten drin waren,
wie sieht dann deine Vermutung genau aus?
Gruß
David
|
|
|
|
|
Status: |
(Mitteilung) Reaktion unnötig | Datum: | 10:27 Mo 24.01.2005 | Autor: | mav |
Hi,
als Endziel möchte ich wissen, wieviele Blätter pro Akten im Durchschnitt enthalten sind.
Die Blätter in den Akten der Stichprobe werden ausgezählt und der Mittelwert der Anzahl der Blätter in den einzelnen Akten der Stichprobe wird mit der Gesamtzahl der Akten multipliziert um eine Gesamtsumme der Blätter in allen 20.000 Akten zu bestimmen.
Grundlage meiner Formel war eine Formel zur Berechnung der Standardfehlers einer Schätzung ( vgl. "Sozialwissenschaftliche Methoden" Roth, Oldenbourg Verlag ).
o= [mm] \bruch{s}{\wurzel{n}} [/mm] * [mm] \wurzel{ \bruch{N - n}{N}}
[/mm]
Wobei die vom mir in der letzten Antwort gechriebene Formel wahrscheinlich nicht weiterhilft, da bei näherer Überlegung das gegebene Anwendungsbeispiel nicht mit meiner Problemstellung übereinstimmt. ( Es sollte über eine Stichprobe ermittelt werden, wie hoch der prozentuale Anteil der Östereicher war, die im letzten Jahr ins Ausland gereist sind.
Aus diesem Grund wurde wahrscheinlich für p = 0.5 ( Als Richtwert für 50 % ) genommen, welchen nach Auszählung der Stichprobe auf seine Richtigkeit hin überprüft wurde.
Also hilft mir diese Gleichung auch nicht weiter da ich ja keinen p-Wert für meine Aufgabenstellung nutzen kann.
Aus diesem Grund hilft mir dann wahrscheinlich auch die von Dir genannte Formel nicht wirklich weiter.
Kannst Du mir ein Buch empfehlen, in dem ich mich weiter informieren kann ?
mav
|
|
|
|
|
Status: |
(Mitteilung) Reaktion unnötig | Datum: | 16:30 Mo 24.01.2005 | Autor: | david4501 |
Hallo,
also die Formel die du da eben aufgeschrieben hast ist ok, um
den Stichprobenumfang n herzuleiten, d.h. du kannst sie nach
n auflösen und für o musst du einen Fehlerwert vorgeben. Sie kommt
von der Schätzung des Konfidenzintervalls für [mm] {\bf Stichprobenmittelwerte} [/mm] bei normalverteilten Daten, was offensichtlich auch
Gegenstand deines Problems ist.
Das gleiche wird auch in folgendem Buch gemacht, das ich dir
empfehlen kann:
"Stichprobentheorie" von Bernd Leiner (1994), Oldenbourg-Verlag.
Die für dich wichtigen Formeln stehn in Kapitel 3, Bestimmung des Stichprobenumfangs, 3.2. Heterograder Fall (Ziehen ohne Zurücklegen)
Aufgelöst sieht die Formel dann so aus:
n = [mm] \bruch{N*k^2*s^2}{d^2*(N-1)+ k^2*s^2}, [/mm] wobei
N = Grundgesamtheit (z.B. 20000 Akten)
k = Schwellenwert zur Einhaltung des W.Niveaus , z.B. 95% -> k=1,96
oder 99% -> k=2,58 etc...(findet man im Buch)
d = einseitige Fehlerabweichung vom Stichprobenmittelwert [mm] x_{quer}:=\bruch{1}{n} \summe_{i=1}^{n} x_i [/mm] , kommt vom Konfidenzintervall her (Einheit Blätter, z.B. [mm] \pm [/mm] 2)
[mm] s^2 [/mm] = Stichprobenstandardabweichung, d.h. [mm] \bruch{1}{n} \summe_{i=1}^{n} (x_i [/mm] - [mm] x_{quer})^2 [/mm] (beachte hier: Einheit in [mm] {Blaetter}^2 [/mm] !!!!!!!)
Das [mm] s^2 [/mm] ist ein Schätzwert in der Einheit [mm] Blaetter^2, [/mm] d.h. ein Wert von 100
(der einem etwas groß erscheint) entspricht in der Einheit Blättern nur dem Wert 10 (eben gerade der Wurzel aus 100). Probier hierfür einfach einige Werte mal aus...und beachte auch die Abhängigkeiten der Formel
für n:
k groß ---> n groß
[mm] s^2 [/mm] groß -?-> n groß
d klein ---> n groß
Hoffe das hilft dir!
David
|
|
|
|