www.vorhilfe.de
Vorhilfe

Kostenlose Kommunikationsplattform für gegenseitige Hilfestellungen.
Hallo Gast!einloggen | registrieren ]
Startseite · Forum · Wissen · Kurse · Mitglieder · Team · Impressum
Forenbaum
^ Forenbaum
Status Vorhilfe
  Status Geisteswiss.
    Status Erdkunde
    Status Geschichte
    Status Jura
    Status Musik/Kunst
    Status Pädagogik
    Status Philosophie
    Status Politik/Wirtschaft
    Status Psychologie
    Status Religion
    Status Sozialwissenschaften
  Status Informatik
    Status Schule
    Status Hochschule
    Status Info-Training
    Status Wettbewerbe
    Status Praxis
    Status Internes IR
  Status Ingenieurwiss.
    Status Bauingenieurwesen
    Status Elektrotechnik
    Status Maschinenbau
    Status Materialwissenschaft
    Status Regelungstechnik
    Status Signaltheorie
    Status Sonstiges
    Status Technik
  Status Mathe
    Status Schulmathe
    Status Hochschulmathe
    Status Mathe-Vorkurse
    Status Mathe-Software
  Status Naturwiss.
    Status Astronomie
    Status Biologie
    Status Chemie
    Status Geowissenschaften
    Status Medizin
    Status Physik
    Status Sport
  Status Sonstiges / Diverses
  Status Sprachen
    Status Deutsch
    Status Englisch
    Status Französisch
    Status Griechisch
    Status Latein
    Status Russisch
    Status Spanisch
    Status Vorkurse
    Status Sonstiges (Sprachen)
  Status Neuerdings
  Status Internes VH
    Status Café VH
    Status Verbesserungen
    Status Benutzerbetreuung
    Status Plenum
    Status Datenbank-Forum
    Status Test-Forum
    Status Fragwürdige Inhalte
    Status VH e.V.

Gezeigt werden alle Foren bis zur Tiefe 2

Navigation
 Startseite...
 Neuerdings beta neu
 Forum...
 vorwissen...
 vorkurse...
 Werkzeuge...
 Nachhilfevermittlung beta...
 Online-Spiele beta
 Suchen
 Verein...
 Impressum
Das Projekt
Server und Internetanbindung werden durch Spenden finanziert.
Organisiert wird das Projekt von unserem Koordinatorenteam.
Hunderte Mitglieder helfen ehrenamtlich in unseren moderierten Foren.
Anbieter der Seite ist der gemeinnützige Verein "Vorhilfe.de e.V.".
Partnerseiten
Dt. Schulen im Ausland: Mathe-Seiten:

Open Source FunktionenplotterFunkyPlot: Kostenloser und quelloffener Funktionenplotter für Linux und andere Betriebssysteme
Forum "Uni-Stochastik" - statistisches Problem
statistisches Problem < Stochastik < Hochschule < Mathe < Vorhilfe
Ansicht: [ geschachtelt ] | ^ Forum "Uni-Stochastik"  | ^^ Alle Foren  | ^ Forenbaum  | Materialien

statistisches Problem: Frage (beantwortet)
Status: (Frage) beantwortet Status 
Datum: 16:21 Fr 16.07.2004
Autor: jopeku

Hallo,

ich wage mich in dieses Forum, da man mir es im Forum 9-10 Klasse
so geraten hat.

Da ich mir hier etwas Hilfe und Unterstützung erhoffe, versuche ich mein Problem
möglichst konkret zu beschreiben.

Ich beschäftige mich als Autodidakt seit einigen Jahren mit der quantitativen Computerlinguistik. Die dazu erforderlichen Programme schreibe ich erfolgreich
selbst. Die Programme ermitteln aus einer sehr großen Zahl von Texten, spezielle
Kennzahlen wie sie in der entsprechenden Literatur beschrieben werden sowie einige
zusätzliche Kennzahlen, die ich selbst entwickelt habe.

Meine Interesse richtet sich darauf, ob man an Hand des Genres – Märchen, Novelle, Erzählung – usw. signifikante Unterschiede feststellen kann oder nicht. Als Ausgangsmaterial
verwende ich nur Texte zwischen 1800 und 1900.

So weit, so gut.

Nun mein Problem in der Hoffnung auf Hilfe:

Wenn ich die Entropie der Wörter in einem Text beispielsweise ermittle und die Werte
addiere um sie am Ende durch die Anzahl der im Text vorkommenden Worte dividiere,
dann erhalte ich je Text einen bestimmten Wert.

An Hand dieser ermittelten Kennzahl möchte ich nun die Texte miteinander programmtechnisch vergleichen. Nach meiner Auffassung jedoch übt die Wortanzahl
einen Einfluss aus diesen Wert aus. Nun habe ich mich versucht in der Literatur
schlau zu machen und da wird darauf verwiesen, dass man durch Transformation der
Werte unterschiedliche Stichproben „normalisieren“ kann.

Ich gehe davon aus, das die Stichproben – also Texte – in Normalverteilter Form vorliegen.
Welches Verfahren kann ich anwenden, um den Einfluss der Wortanzahl zu eliminieren??

Oder sind meine Überlegungen völlig falsch?

Ich würde mich sehr darüber freuen, wenn mir jemand helfen könnte.
Ich bitte aber zu bedenken, dass ich weder jemals studiert habe und mich eher als mathematischer Laie betrachte. Es wäre also sehr nett, wenn man mir eine Lösung so
erklären könnte, das ich sie programmtechnisch einfach umsetzen kann.

Ein kurzes Beispiel:

Text 1     768  Worte Kennzahl  0,346
Text 2  11723  Worte Kennzahl  0,421
Text 3    2812  Worte Kennzahl  0,361

Ich habe diese Frage auch in folgendem Foreum gestellt:
https://matheraum.de/read?f=10&t=650&i=650

        
Bezug
statistisches Problem: Antwort
Status: (Antwort) fertig Status 
Datum: 23:02 Fr 16.07.2004
Autor: Stefan

Hallo!

Ich bin mir zwar nicht ganz sicher, ob ich dein Problem richtig verstanden habe, aber ich versuche es mal.

Bleiben wir mal bei deinem Beispiel:

> Ein kurzes Beispiel:
>  
> Text 1     768  Worte Kennzahl  0,346
>  Text 2  11723  Worte Kennzahl  0,421
>  Text 3    2812  Worte Kennzahl  0,361

Hier würde ich wie folgt vorgehen:

Du gehst ja davon aus, dass die Entropie normalverteilt ist. Den Erwartungswert bezeichne ich mit [mm] $\mu$ [/mm] und die Streuung mit [mm] $\sigma$. [/mm]

Jetzt könntest du [mm] $\mu$ [/mm] durch das arithmetische Mittel [mm] $\hat{\mu}$ [/mm]  der drei Werte $0,346$, $0,421$ und $0,361$ schätzen und [mm] $\sigma$ [/mm] durch die empirische Streuung:

[mm] $\hat{\sigma}= \sqrt{\frac{1}{2} ( (0,346 - \hat{\mu})^2 + (0,421 - \bar{x})^2 + (0,361 - \bar{x})^2 )}$. [/mm]

So, und jetzt standardisierst du deine Größen mittels:

[mm] $\bar{x_i} [/mm] = [mm] \frac{x_i - \hat{\mu}}{\hat{\sigma^2}} \sqrt{n}$, [/mm]

also:

[mm] $\bar{x_1} [/mm] = [mm] \frac{0,346 - \hat{\mu}}{\hat{\sigma}} \sqrt{768}$, [/mm]

[mm] $\bar{x_2} [/mm] = [mm] \frac{0,421 - \hat{\mu}}{\hat{\sigma}} \sqrt{11723}$, [/mm]

[mm] $\bar{x_3} [/mm] = [mm] \frac{0,361 - \hat{\mu}}{\hat{\sigma}} \sqrt{2812}$. [/mm]

Liebe Grüße
Stefan



Bezug
                
Bezug
statistisches Problem: Frage (beantwortet)
Status: (Frage) beantwortet Status 
Datum: 23:18 Fr 16.07.2004
Autor: jopeku

Hallo Stefan,

danke für die Antwort, hatte schon befürchtet,
das ich alleine mit meinem Problem bleibe.

Ich denke mal, ich habe es halbwegs verstanden
und versuche es mal
a) programmtechnisch umzusetzen
b) die Ergebnisse an Hand der Augabenstellung zu bewerten

eine abschließende Frage habe ich noch dazu:

Hat dieses Verfahren einen bestimmten Namen, unter dem ich
in einem guten Statistikbuch nachschlagen kann.
Um mich herrum wimmelt es von Stistikbücher z.B. Sachs, aber
je mehr man darin stöbert um so mehr wird man irretiert :-)

danke für deine Hilfe


Bezug
                        
Bezug
statistisches Problem: Antwort
Status: (Antwort) fertig Status 
Datum: 23:44 Fr 16.07.2004
Autor: Stefan

Hallo!

Das ist die ganz gewöhnliche Standardisierung:

Ist $X$ [mm] ${\cal N}(\mu,\sigma^2)$-verteilt, [/mm] so ist [mm] $\frac{X-\mu}{\sigma}$ ${\cal N}(0,1)$-verteilt. [/mm]

Das einzige, was du hier beachten musst, ist folgendes:

Ist eine Folge [mm] $(X_i)_{i=1,2,\ldots,n}$ [/mm] unabhängig identisch [mm] ${\cal N}(\mu,\sigma^2)$ [/mm] verteilt, so ist das arithmetische Mittel

[mm] $\bar{X} [/mm] = [mm] \frac{1}{n} \sum\limits_{i=1}^n X_i$ [/mm]

gerade [mm] ${\cal N}(\mu, \frac{\sigma^2}{n})$-verteilt. [/mm]

Jetzt wendest du die obige Standardisierung einfach auf [mm] $\bar{X}$ [/mm] (anstatt auf $X$) an. (Denn: Bei dir sind die Kenngrößen ja bereits arithmetische Mittel der Entropien von Stichproben verschiedener Größen.)

Da [mm] $\mu$ [/mm] und [mm] $\sigma$ [/mm] nicht bekannt sind, musst du diese erst aus dem arithmetischen Mittel der drei Werte und der Stichprobenvarianz der drei Werte schätzen.

Liebe Grüße
Stefan

Bezug
Ansicht: [ geschachtelt ] | ^ Forum "Uni-Stochastik"  | ^^ Alle Foren  | ^ Forenbaum  | Materialien


^ Seitenanfang ^
www.vorhilfe.de