www.vorhilfe.de
Vorhilfe

Kostenlose Kommunikationsplattform für gegenseitige Hilfestellungen.
Hallo Gast!einloggen | registrieren ]
Startseite · Forum · Wissen · Kurse · Mitglieder · Team · Impressum
Forenbaum
^ Forenbaum
Status Vorhilfe
  Status Geisteswiss.
    Status Erdkunde
    Status Geschichte
    Status Jura
    Status Musik/Kunst
    Status Pädagogik
    Status Philosophie
    Status Politik/Wirtschaft
    Status Psychologie
    Status Religion
    Status Sozialwissenschaften
  Status Informatik
    Status Schule
    Status Hochschule
    Status Info-Training
    Status Wettbewerbe
    Status Praxis
    Status Internes IR
  Status Ingenieurwiss.
    Status Bauingenieurwesen
    Status Elektrotechnik
    Status Maschinenbau
    Status Materialwissenschaft
    Status Regelungstechnik
    Status Signaltheorie
    Status Sonstiges
    Status Technik
  Status Mathe
    Status Schulmathe
    Status Hochschulmathe
    Status Mathe-Vorkurse
    Status Mathe-Software
  Status Naturwiss.
    Status Astronomie
    Status Biologie
    Status Chemie
    Status Geowissenschaften
    Status Medizin
    Status Physik
    Status Sport
  Status Sonstiges / Diverses
  Status Sprachen
    Status Deutsch
    Status Englisch
    Status Französisch
    Status Griechisch
    Status Latein
    Status Russisch
    Status Spanisch
    Status Vorkurse
    Status Sonstiges (Sprachen)
  Status Neuerdings
  Status Internes VH
    Status Café VH
    Status Verbesserungen
    Status Benutzerbetreuung
    Status Plenum
    Status Datenbank-Forum
    Status Test-Forum
    Status Fragwürdige Inhalte
    Status VH e.V.

Gezeigt werden alle Foren bis zur Tiefe 2

Navigation
 Startseite...
 Neuerdings beta neu
 Forum...
 vorwissen...
 vorkurse...
 Werkzeuge...
 Nachhilfevermittlung beta...
 Online-Spiele beta
 Suchen
 Verein...
 Impressum
Das Projekt
Server und Internetanbindung werden durch Spenden finanziert.
Organisiert wird das Projekt von unserem Koordinatorenteam.
Hunderte Mitglieder helfen ehrenamtlich in unseren moderierten Foren.
Anbieter der Seite ist der gemeinnützige Verein "Vorhilfe.de e.V.".
Partnerseiten
Dt. Schulen im Ausland: Mathe-Seiten:

Open Source FunktionenplotterFunkyPlot: Kostenloser und quelloffener Funktionenplotter für Linux und andere Betriebssysteme
Forum "Statistik/Hypothesentests" - Sörensen Index
Sörensen Index < Statistik/Hypothesen < Stochastik < Oberstufe < Schule < Mathe < Vorhilfe
Ansicht: [ geschachtelt ] | ^ Forum "Statistik/Hypothesentests"  | ^^ Alle Foren  | ^ Forenbaum  | Materialien

Sörensen Index: Verwirrung
Status: (Frage) beantwortet Status 
Datum: 14:37 Sa 23.04.2016
Autor: magics

Aufgabe
Der Sörensen Index oder Sörensen-Dice-Koeffizient dient zur Ähnlichkeitsanalyse von Zeichenketten.

Dabei werden die Zeichenketten in Bigramme nebeneinanderliegender Buchstaben zerlegt. Aus "katze" erhält man also beispielsweise vier Bigramme: {ka, at, tz, ze}.

Die Formel ist definiert als:
s = [mm] \bruch{2*|A \cap B|}{|A| + |B|}, [/mm]

mit
|A [mm] \cap [/mm] B| Anzahl übereinstimmender Bigramme beider Worte
|A| bzw. |B| Anzahl Bigramme in Wort A bzw. B.

Ein Beispiel:
Verglichen werden soll "katze" und "tatze".
Aus "katze" bilden wir vier Bigramme: {ka, at, tz, ze}.
Aus "tatze" bilden wir vier Bigramme: {ta, at, tz, ze}.

Wir sehen, dass {at, tz, ze} übereinstimmen, womit |A [mm] \cap [/mm] B| = 3 wäre.
|A| und |B| sind jeweils 4.

Damit ergibt sich:

s = [mm] \bruch{2 * 3}{4 + 4} [/mm] = [mm] \bruch{3}{4} [/mm]



Was passiert, wenn sich Bigramme wiederholen?

Wenn ich also z.B. die Wörter "katztze" und "tatze" vergleichen wollte, ergäben sich die Bigrammgruppen:
{ka, at, tz, zt, tz, ze} und
{ta, at, tz, ze}

Das Bigramm "tz" käme zwei mal im oberen vor, zähle ich es dann auch zwei Mal in der Schnittmenge |A [mm] \cap [/mm] B|? Oder dürfen doppelte Bigramme nicht doppelt in die Liste aufgenommen werden?

lg
Magics

        
Bezug
Sörensen Index: Antwort
Status: (Antwort) fertig Status 
Datum: 16:03 Sa 23.04.2016
Autor: DieAcht

Hallo magics!


> Der Sörensen Index oder Sörensen-Dice-Koeffizient dient
> zur Ähnlichkeitsanalyse von Zeichenketten.
>  
> Dabei werden die Zeichenketten in Bigramme
> nebeneinanderliegender Buchstaben zerlegt. Aus "katze"
> erhält man also beispielsweise vier Bigramme: {ka, at, tz,
> ze}.
>  
> Die Formel ist definiert als:
>  s = [mm]\bruch{2*|A \cap B|}{|A| + |B|},[/mm]
>  
> mit
>  |A [mm]\cap[/mm] B| Anzahl übereinstimmender Bigramme beider
> Worte
>  |A| bzw. |B| Anzahl Bigramme in Wort A bzw. B.
>  
> Ein Beispiel:
>  Verglichen werden soll "katze" und "tatze".
>  Aus "katze" bilden wir vier Bigramme: {ka, at, tz, ze}.
>  Aus "tatze" bilden wir vier Bigramme: {ta, at, tz, ze}.
>  
> Wir sehen, dass {at, tz, ze} übereinstimmen, womit |A [mm]\cap[/mm]
> B| = 3 wäre.
>  |A| und |B| sind jeweils 4.
>  
> Damit ergibt sich:
>  
> s = [mm]\bruch{2 * 3}{4 + 4}[/mm] = [mm]\bruch{3}{4}[/mm]

[ok]

> Was passiert, wenn sich Bigramme wiederholen?

Seien [mm] $A\$ [/mm] und [mm] $B\$ [/mm] endliche nicht leere Mengen mit [mm] $A=B\$. [/mm] Dann gilt [mm] $s=1\$. [/mm]
  

> Wenn ich also z.B. die Wörter "katztze" und "tatze"
> vergleichen wollte, ergäben sich die Bigrammgruppen:
>  {ka, at, tz, zt, tz, ze} und
>  {ta, at, tz, ze}

Es geht dir aber hier nicht um die Wiederholung von Bigrammen, sondern um die Wiederholung von Elementen in Bigrammen.
Also geht es dir um die Wiederholung von Elementen in Mengen. Beispielsweise gilt [mm] $\{a,b,a\}=\{a,b\}$. [/mm]

> Das Bigramm "tz" käme zwei mal im oberen vor, zähle ich
> es dann auch zwei Mal in der Schnittmenge |A [mm]\cap[/mm] B|? Oder
> dürfen doppelte Bigramme nicht doppelt in die Liste
> aufgenommen werden?

Es gilt

      [mm] $\{ka, at, tz, zt, tz, ze\}=\{ka, at, tz, zt, ze\}$. [/mm]


Gruß
DieAcht

Bezug
                
Bezug
Sörensen Index: Frage (beantwortet)
Status: (Frage) beantwortet Status 
Datum: 16:51 Sa 23.04.2016
Autor: magics

Hallo DieAcht,

erstmal vielen Dank für die Antwort.
Leider wirft sie eine weitere Frage auf:

Nehmen wir Wörter die nur aus den Buchstaben 'a' und 'b' bestehen.

1. Beispiel:
A = "ab" => {ab}
B = "ba" => {ba}
s = [mm] \bruch{2*0}{2} [/mm] = 0

2. Beispiel:
A = "aba" => {ab, ba}
B = "bab" => {ba, ab}
s = [mm] \bruch{2*2}{4} [/mm] = 1,
da ich in deiner Antwort interpretiere, dass die Reihenfolge der Bigramme keine Rolle spielen, was bei Mengen ja auch Sinn macht.

"aba" und "bab" haben zwar Ähnlichkeiten, sind aber alles andere als gleich... dass hier 1 rauskommt, kann doch nicht richtig sein.

3. Beispiel
A = "aba" => {ab, ba}
B = "aba" => {ab, ba}
s = [mm] \bruch{2*2}{4} [/mm] = 1
Auch hier kommt 1 raus...?

Ich hätte vom Gefühl her die Bigramme der Zeichenketten nacheinander miteinander verglichen. Dann hat man aber Probleme, wenn eins der Wörter länger ist, als das andere...
Also so, dass beim 2. Beispiel gar keine Übereinstimmung zu finden ist, weil die Bigramme vertikal gelesen keine Übereinstimmung haben.

lg
Magics



Bezug
                        
Bezug
Sörensen Index: Antwort
Status: (Antwort) fertig Status 
Datum: 18:09 Sa 23.04.2016
Autor: DieAcht


> Nehmen wir Wörter die nur aus den Buchstaben 'a' und 'b'
> bestehen.
>  
> 1. Beispiel:
>  A = "ab" => {ab}

>  B = "ba" => {ba}

>  s = [mm]\bruch{2*0}{2}[/mm] = 0

[ok]

> 2. Beispiel:
>  A = "aba" => {ab, ba}

>  B = "bab" => {ba, ab}

>  s = [mm]\bruch{2*2}{4}[/mm] = 1,

[ok]

> da ich in deiner Antwort interpretiere, dass die
> Reihenfolge der Bigramme keine Rolle spielen, was bei
> Mengen ja auch Sinn macht.
> "aba" und "bab" haben zwar Ähnlichkeiten, sind aber alles
> andere als gleich... dass hier 1 rauskommt, kann doch nicht
> richtig sein.

Nur die Reihenfolge der Elemente spielt keine Rolle.

Im Allgemeinen gilt [mm] $\{a,b\}=\{b,a\}$, [/mm] aber [mm] $\{ab\}\not=\{ba\}$. [/mm]

> 3. Beispiel
>  A = "aba" => {ab, ba}

>  B = "aba" => {ab, ba}

>  s = [mm]\bruch{2*2}{4}[/mm] = 1

[ok]

>  Auch hier kommt 1 raus...?

Es gilt immer [mm] $s\in[0,1]$. [/mm]

> Ich hätte vom Gefühl her die Bigramme der Zeichenketten
> nacheinander miteinander verglichen. Dann hat man aber
> Probleme, wenn eins der Wörter länger ist, als das
> andere...
> Also so, dass beim 2. Beispiel gar keine Übereinstimmung
> zu finden ist, weil die Bigramme vertikal gelesen keine
> Übereinstimmung haben.

Der Sörensen Index liefert eine Aussage über die Ähnlichkeit!

Bezug
                                
Bezug
Sörensen Index: Danke
Status: (Mitteilung) Reaktion unnötig Status 
Datum: 13:53 So 24.04.2016
Autor: magics

Ok, besten Dank, DieAcht

Bezug
Ansicht: [ geschachtelt ] | ^ Forum "Statistik/Hypothesentests"  | ^^ Alle Foren  | ^ Forenbaum  | Materialien


^ Seitenanfang ^
www.vorhilfe.de