Einführung in Information Retrieval: Titelindexierung Markus 23. April 2020

Einführung in Information Retrieval: Titelindexierung

Blog

Eine von vielen Möglichkeiten ein Dokument, beispielsweise eine Webseite, inhaltlich zu indizieren bzw. zu repräsentieren ist die Verschlagwortung der Textelemente. Da allerdings nicht alle Dokumente, besonders im digitalen Raum, über Texte verfügen, bietet sich hier die Titelindexierung an. Das kann für Audios, Videos oder Bilder gelten. Mittlerweile mag es Systeme geben, die diese Dateien auslesen und indizieren können, das ist allerdings aufwändig und bedarf Ressourcen, die nicht immer zur Verfügung stehen. Die Titelindexierung kann damit einen ersten Anhaltspunkt über den Inhalt des Dokuments geben.

Da Titel grundsätzlich den Inhalt der Dokumente weitestgehend wiedergeben sollen, eignen sie sich auch zur automatischen Indexierung durch Computersysteme. Daher gibt drei Arten der Titelindexierung:

Indexierungssysteme

KWIC – Keyword in Context

In diesem System geht man davon aus, dass der Titel eine einzeilige Repräsentation des Dokuments darstellt. Die im Titel enthaltenen Schlagworte geben das Dokument aussagekräftig wieder.

Der Index besteht aus drei Teilen: Das Schlagwort, der Kontext und der Verweis. Jeder Eintrag verfügt über einen Wert dieser Elemente. Im Index werden die Einträge im Kontext gelassen. Dafür beginnt der Titel beim Schlagwort als Einstiegspunkt. Dieser wird dann in drei Schritten aufgebaut:

  1. Schlagwort: Inhaltswiedergebende Begriffe des Titels werden gesammelt
  2. Kontext: Weitere Begriffe innerhalb des Titels, die den Kontext zum Schlagwort liefern
  3. Verweis: Der Verweis dient dazu die Position des Dokuments, mit dessen Hilfe die bibliografischen Details abgerufen werden können.

Ein Beispieltitel: Einführung in Information Retrieval

EINFÜHRUNG in Information Retrieval 2
INFORMATION Retrieval / Einführung in 2
RETRIEVAL / Einführung in Information 2

KWOC – Keyword out of Context

Gegenüber dem KWIC müssen die ausgewählten Schlagworte im KWOC-System ganz links angeordnet sein und können nicht mitten im Kontext stehen. Sie werden voneinander separiert. Im Index beginnt jeder Eintrag mit dem Schlagwort, gefolgt vom gesamten Titel als Kontext und schließt mit dem Verweis ab.

Derselbe Beispielstitel: Einführung in Information Retrieval

EINFÜHRUNG    Einführung in Information Retrieval        2
INFORMATION Einführung in Information Retrieval        2
RETRIEVAL          Einführung in Information Retrieval        2

KEYTALPHA Keyterm alphabetical

Das alphabetische System entfernt den gesamten Kontext und sortiert die Schlagworte in der alphabetischen Reihenfolge mit dem Verweis zum Abschluss. Dadurch sieht die Indexierung wie folgt aus:

EINFÜHRUNG, INFORMATION, RETRIEVAL 2
INFORMATION, RETRIEVAL, EINFÜHRUNG 2
RETRIEVAL, EINFÜHRUNG, INFORMATION 2

Nutzen der Titelindexierung

Dank dieser Indexierungssysteme ist es möglich einfach und schnell Schlagworte für die eigenen Dokumente zu finden und sie so auch kontextsensitiv zu speichern. Durch gespeicherte Kontexte sind so auch dann semantische Suchen möglich, insoweit es zumindest einen Titel gibt.

Auch in Bezug auf Suchmaschinenoptimierung sollten Sie dies immer im Hinterkopf behalten, wenn Sie Seitentitel verfassen. Einige Titel wirken zwar effektiv, weil sie reißerisch sind, führen aber so zu einer falschen Verschlagwortung und Indexierung. Ein fataler Fehler, den viele Marketer begehen, die den Hintergrund der Titelindexierung nicht kennen.

Interne Suchmaschine

Neben externen Suchmaschinen, die auch Schlagworte benötigen, ist es besonders für interne Suchen notwendig Schlagworte mit Kontext zu crawlen und zu speichern. Dadurch können Nutzer Artikel, Produkte, Videos und andere Elemente einer Website selbst dann finden, wenn nur wenige Texte vorliegen.

Externe Suchmaschine

Wer viele Inhalte auf der eigenen Seite generiert, insbesondere durch die eigene Folksonomy, kann es beinahe unmöglich werden diese sinnvoll von Hand zu verschlagworten. Daher ist es eine gute und einfache Möglichkeit über den Titel, zusammen mit anderen Indexierungsmethoden, an dokumentorientierte Schlagworte zu kommen und diese aufzulisten.

Verwandtschaft von Dokumenten

Auch ohne eine Suche ist die Verschlagwortung von Dokumenten sinnvoll und kann besonders mithilfe von Titeln durchgeführt werden. Beispielsweise um verwandte Artikel zu repräsentieren. Besonders interessant ist hierbei die Verwandtschaft durch Gewichtung. Je höher das Gewicht, desto näher sind die Dokumente zueinander verwandt. Damit steigt die Relevanz dieser Verbindung.

Geschichtlicher Hintergrund

Andrea Crestadoro, 1808 in Genoa geboren, wurde von der Manchester Bibliothek dazu berufen ein System zu entwickeln, um die zahlreichen Bücher und Dokumente zu katalogisieren. Das von ihm zu diesem Zweck entworfene Konzept bezeichnete er als Keywords In Titles und stellte es 1864 vor.

Der deutsche Informatiker Hans Peter Luhn erweiterte dieses System in den 50er Jahren, um Stoppworte, Leerzeichen und das KWIC-System. Er verwendete dieses System um schnell und einfach digitale Dokumente computergeneriert zu indizieren.