Sörensen Index < Statistik/Hypothesen < Stochastik < Oberstufe < Schule < Mathe < Vorhilfe
|
Status: |
(Frage) beantwortet | Datum: | 14:37 Sa 23.04.2016 | Autor: | magics |
Aufgabe | Der Sörensen Index oder Sörensen-Dice-Koeffizient dient zur Ähnlichkeitsanalyse von Zeichenketten.
Dabei werden die Zeichenketten in Bigramme nebeneinanderliegender Buchstaben zerlegt. Aus "katze" erhält man also beispielsweise vier Bigramme: {ka, at, tz, ze}.
Die Formel ist definiert als:
s = [mm] \bruch{2*|A \cap B|}{|A| + |B|},
[/mm]
mit
|A [mm] \cap [/mm] B| Anzahl übereinstimmender Bigramme beider Worte
|A| bzw. |B| Anzahl Bigramme in Wort A bzw. B.
Ein Beispiel:
Verglichen werden soll "katze" und "tatze".
Aus "katze" bilden wir vier Bigramme: {ka, at, tz, ze}.
Aus "tatze" bilden wir vier Bigramme: {ta, at, tz, ze}.
Wir sehen, dass {at, tz, ze} übereinstimmen, womit |A [mm] \cap [/mm] B| = 3 wäre.
|A| und |B| sind jeweils 4.
Damit ergibt sich:
s = [mm] \bruch{2 * 3}{4 + 4} [/mm] = [mm] \bruch{3}{4} [/mm] |
Was passiert, wenn sich Bigramme wiederholen?
Wenn ich also z.B. die Wörter "katztze" und "tatze" vergleichen wollte, ergäben sich die Bigrammgruppen:
{ka, at, tz, zt, tz, ze} und
{ta, at, tz, ze}
Das Bigramm "tz" käme zwei mal im oberen vor, zähle ich es dann auch zwei Mal in der Schnittmenge |A [mm] \cap [/mm] B|? Oder dürfen doppelte Bigramme nicht doppelt in die Liste aufgenommen werden?
lg
Magics
|
|
|
|
Status: |
(Antwort) fertig | Datum: | 16:03 Sa 23.04.2016 | Autor: | DieAcht |
Hallo magics!
> Der Sörensen Index oder Sörensen-Dice-Koeffizient dient
> zur Ähnlichkeitsanalyse von Zeichenketten.
>
> Dabei werden die Zeichenketten in Bigramme
> nebeneinanderliegender Buchstaben zerlegt. Aus "katze"
> erhält man also beispielsweise vier Bigramme: {ka, at, tz,
> ze}.
>
> Die Formel ist definiert als:
> s = [mm]\bruch{2*|A \cap B|}{|A| + |B|},[/mm]
>
> mit
> |A [mm]\cap[/mm] B| Anzahl übereinstimmender Bigramme beider
> Worte
> |A| bzw. |B| Anzahl Bigramme in Wort A bzw. B.
>
> Ein Beispiel:
> Verglichen werden soll "katze" und "tatze".
> Aus "katze" bilden wir vier Bigramme: {ka, at, tz, ze}.
> Aus "tatze" bilden wir vier Bigramme: {ta, at, tz, ze}.
>
> Wir sehen, dass {at, tz, ze} übereinstimmen, womit |A [mm]\cap[/mm]
> B| = 3 wäre.
> |A| und |B| sind jeweils 4.
>
> Damit ergibt sich:
>
> s = [mm]\bruch{2 * 3}{4 + 4}[/mm] = [mm]\bruch{3}{4}[/mm]
> Was passiert, wenn sich Bigramme wiederholen?
Seien [mm] $A\$ [/mm] und [mm] $B\$ [/mm] endliche nicht leere Mengen mit [mm] $A=B\$. [/mm] Dann gilt [mm] $s=1\$.
[/mm]
> Wenn ich also z.B. die Wörter "katztze" und "tatze"
> vergleichen wollte, ergäben sich die Bigrammgruppen:
> {ka, at, tz, zt, tz, ze} und
> {ta, at, tz, ze}
Es geht dir aber hier nicht um die Wiederholung von Bigrammen, sondern um die Wiederholung von Elementen in Bigrammen.
Also geht es dir um die Wiederholung von Elementen in Mengen. Beispielsweise gilt [mm] $\{a,b,a\}=\{a,b\}$.
[/mm]
> Das Bigramm "tz" käme zwei mal im oberen vor, zähle ich
> es dann auch zwei Mal in der Schnittmenge |A [mm]\cap[/mm] B|? Oder
> dürfen doppelte Bigramme nicht doppelt in die Liste
> aufgenommen werden?
Es gilt
[mm] $\{ka, at, tz, zt, tz, ze\}=\{ka, at, tz, zt, ze\}$.
[/mm]
Gruß
DieAcht
|
|
|
|
|
Status: |
(Frage) beantwortet | Datum: | 16:51 Sa 23.04.2016 | Autor: | magics |
Hallo DieAcht,
erstmal vielen Dank für die Antwort.
Leider wirft sie eine weitere Frage auf:
Nehmen wir Wörter die nur aus den Buchstaben 'a' und 'b' bestehen.
1. Beispiel:
A = "ab" => {ab}
B = "ba" => {ba}
s = [mm] \bruch{2*0}{2} [/mm] = 0
2. Beispiel:
A = "aba" => {ab, ba}
B = "bab" => {ba, ab}
s = [mm] \bruch{2*2}{4} [/mm] = 1,
da ich in deiner Antwort interpretiere, dass die Reihenfolge der Bigramme keine Rolle spielen, was bei Mengen ja auch Sinn macht.
"aba" und "bab" haben zwar Ähnlichkeiten, sind aber alles andere als gleich... dass hier 1 rauskommt, kann doch nicht richtig sein.
3. Beispiel
A = "aba" => {ab, ba}
B = "aba" => {ab, ba}
s = [mm] \bruch{2*2}{4} [/mm] = 1
Auch hier kommt 1 raus...?
Ich hätte vom Gefühl her die Bigramme der Zeichenketten nacheinander miteinander verglichen. Dann hat man aber Probleme, wenn eins der Wörter länger ist, als das andere...
Also so, dass beim 2. Beispiel gar keine Übereinstimmung zu finden ist, weil die Bigramme vertikal gelesen keine Übereinstimmung haben.
lg
Magics
|
|
|
|
|
Status: |
(Antwort) fertig | Datum: | 18:09 Sa 23.04.2016 | Autor: | DieAcht |
> Nehmen wir Wörter die nur aus den Buchstaben 'a' und 'b'
> bestehen.
>
> 1. Beispiel:
> A = "ab" => {ab}
> B = "ba" => {ba}
> s = [mm]\bruch{2*0}{2}[/mm] = 0
> 2. Beispiel:
> A = "aba" => {ab, ba}
> B = "bab" => {ba, ab}
> s = [mm]\bruch{2*2}{4}[/mm] = 1,
> da ich in deiner Antwort interpretiere, dass die
> Reihenfolge der Bigramme keine Rolle spielen, was bei
> Mengen ja auch Sinn macht.
> "aba" und "bab" haben zwar Ähnlichkeiten, sind aber alles
> andere als gleich... dass hier 1 rauskommt, kann doch nicht
> richtig sein.
Nur die Reihenfolge der Elemente spielt keine Rolle.
Im Allgemeinen gilt [mm] $\{a,b\}=\{b,a\}$, [/mm] aber [mm] $\{ab\}\not=\{ba\}$.
[/mm]
> 3. Beispiel
> A = "aba" => {ab, ba}
> B = "aba" => {ab, ba}
> s = [mm]\bruch{2*2}{4}[/mm] = 1
> Auch hier kommt 1 raus...?
Es gilt immer [mm] $s\in[0,1]$.
[/mm]
> Ich hätte vom Gefühl her die Bigramme der Zeichenketten
> nacheinander miteinander verglichen. Dann hat man aber
> Probleme, wenn eins der Wörter länger ist, als das
> andere...
> Also so, dass beim 2. Beispiel gar keine Übereinstimmung
> zu finden ist, weil die Bigramme vertikal gelesen keine
> Übereinstimmung haben.
Der Sörensen Index liefert eine Aussage über die Ähnlichkeit!
|
|
|
|
|
Status: |
(Mitteilung) Reaktion unnötig | Datum: | 13:53 So 24.04.2016 | Autor: | magics |
Ok, besten Dank, DieAcht
|
|
|
|