In den
letzten beiden Artikel habe ich dargestellt, wie man den WDF (within-document frequency) und den IDF (inverse-document frequency) für
ein Keyword berechnen kann.
Zudem
habe ich erklärt, wie man den Wettbewerb mit Hilfe des IDFs bewerten kann oder
ermitteln kann, welches Keyword im Vergleich zu allen anderen Wörter eines
Textdokument relativ Häufig benutzt worden ist.
Heute
möchte ich euch eine weitere Kennzahl des Text-Minings vorstellen:
die
Termfrequenz
Was ist die Termfrequenz (tf)?
Es
stellt somit nicht wie der WDF ein Keyword in Relation zu der Gesamtanzahl
aller Wörter eines Textdokumentes, sondern zählt die absolute Häufigkeit eines
Begriffes in einem Textdokument.
Die Termfrequenz ist ein weiterer wichtiger Baustein für die Keywordanalyse!
Wie berechnet man die Termfrequenz (tf)?
Ganz
einfach, man zählt einfach wie Häufig das zu untersuchende Keyword in einem
Artikel vorkommt.
Mathematisch
ausgedrückt:
Dann
gilt:
Termfrequenz
(tf) =
hierbei
gilt für die Termfrequenz:
dass heißt, die tf kann alle Werte zwischen 0 und Betrag M, also die Anzahl aller
Wörter eines Textdokumentes, annehmen.
Beispiel:
Termfrequenz berechnen:
Unser
Textdokument 1 T1 lautet:
„Mathe
ist hilfreich und Mathe macht spass.
Spass macht aber auch Sport, nicht nur Mathe.“
Somit
kommt das Wort „Mathe“ drei Mal vor und
das Keyword „Spass“ kommt zwei Mal vor.
Notiz:
Warum Ti ?
In der
Realität gibt es ja nicht nur ein Textdokument oder nur eine URL, sondern
Google liefert zu
einer
Suchanfrage eine endlich große Anzahl an Textdokumenten.
Deshalb
verwendet man das Indize (Singular: Index) i. Somit kann man, wenn
beispielsweise 15 Textdokumente ausgegeben werden, für jedes Textdokument
die tf
pro Keyword berechnen.
Wiederholung WDF und IDF:
Den WDF für das Keyword (k = „Mathe“)
berechnen: WDF(k) =
Somit lautet die Rechnung des WDFs für
das Keyword „Mathe“:
Nun berechnen wir den IDF-Wert für das
Keyword „Mathe“:
Wie haben oben angenommen das |T| = 15
ist, d.h wir haben 15 Textdokumente. Zusätzlich nehmen wir an das der Korpus
(die Menge aller Textdokumente) 200 beträgt.
Somit lautet der IDF:
Soviel zur kleinen Auffrischung der
Information Retrieval Begriffe.
Problematik der Termfrequenz:
Es ist klar, dass je länger ein
Textdokument (Bspw. Thema: Mathe) ist, um so größer ist die Wahrscheinlichkeit,
dass das Keyword (Mathe) häufiger vorkommt als bei einem kürzeren Text.
Somit kann man mit Sicherheit
ausschließen, dass Google die tf als Rankingalgorithmus-Kriterium in dieser
Form verwendet.
Wie kann man die Problematik der Termfrequenz Berechnung relativieren?
In der Mathematik „normiert“ man, um
u.a Daten mit einander vergleichen zu können.
Beispiel tf-normieren:
In unserem oberen Beispiel gilt:
15 Dokumente beinhalten, dass Keyword
„Mathe“. Unser eigenes Textdokument beinhaltet das Keyword 3 Mal. Nehmen wir an
das die anderen 14 Textdokumente das Keyword nur ein Mal verwenden. Dann gilt:
normalisierte Termfrequenz =
wir teilen durch 3, weil im
Textdokument 1 das Keyword „Mathe“ am häufigsten vorkommt.
Würden wir das Keyword Spass
normalisieren wäre die Rechnung für tf folgende:
Somit kann man also feststellen, welche
Keywords relevant sind in einem Textdokument.
Für die Suchmaschine Google, ist dass
eine Möglichkeit herauszufinden, ob dieses Textdokument passend ist für die
Suchanfrage eines Google-Nutzers.
Das waren jetzt einige Informationen
über die Text-Mining Kennzahl „Termfrequenz“.
Ich werde deshalb in Kürze anhand eines
Textbeispieles diese Rechnungen durchführen und tabellarisch darstellen.
Zudem noch eine Ergänzung zu diesem Thema hinzufügen.
Hier noch ein paar Buchempfehlungen:
war lang nicht mehr hier, aber schön das es weitergeht mit den Artikeln!
AntwortenLöschenDanke Anonym, :-)
Löschenüber was soll ich das nächste mal schreiben? Gerne auch Vorschläge zu Themen die nicht primär was mit Information Retrieval zutun haben.
Lg Armin