Zum Inhalt springen

Die Vermessung der Welt – Maschinelle Erschließung des deutschsprachigen WWW

| Konferenz | Maschinelles Lernen

10. und 11. Oktober 2019: Vortrag von Joachim Feist "Die Vermessung der Welt" auf der Fachtagung zum Thema „Netzwerk maschinelle Verfahren in der Erschließung"

Die Deutsche Nationalbibliothek (DNB) in Frankfurt führte am 10. und 11. Oktober eine Fachtagung zum Thema „Netzwerk maschinelle Verfahren in der Erschließung" durch. mindUp Geschäftsführer Joachim Feist erörterte in seinem Vortrag den Nutzen von kontextbezogenen Analysemethoden und verdeutlichte den direkten Zusammenhang zwischen den Anwendungsfeldern des Online-Marketings und den Aufgaben der DNB.

Die DNB kategorisiert und verschlagwortet bereits die Neuerscheinungen mit Verfahren des maschinellen Lernens. Die Kernfragen der Fachtagung behandelten die Techniken, die für die semantische Erschließung großer Textmengen verfügbar sind und welche Aufgaben damit gelöst werden können. Die einzelnen Beiträge erörterten die Erkenntnisse, welche aus den Erfahrungen gewonnen werden konnten. Die Themen der Vorträge reichten von Wissensgraphen über Verschlagwortung von Rundfunkbeiträgen bis zu Anwendungen im Patentbereich.

Den Titel des Vortrags von Feist stammt von dem Buch „Die Vermessung der Welt“ von Daniel Kehlmann. Das Umschlagsbild des Buches zeigt, wie schon Alexander von Humboldt die Bergwelt in Südamerika kategorisierte und verschlagwortete. So wie von Humboldt vor den Bergen der Anden stand, so steht heute die Nationalbibliothek vor dem stetig wachsenden Berg der Neuerscheinungen im Buch- und Zeitschriftenbereich. Und so steht mindUp vor dem Berg von Millionen Emails und Milliarden Webseiten, die heute schon mit selbstlernenden Verfahren strukturiert werden.

mindUp setzt im Bereich des Internet Marketing die eigenentwickelte Software contentDetection ein. Es zeigen sich viele Parallelen zur Verschlagwortung bei der DNB. Webseiten  werden inhaltlich kategorisiert und es werden Schlagworte vergeben, auf deren Basis inhaltsbasierte Werbung bzw. passende Produkte ausgespielt werden. Das System von mindUp erlernt zusätzlich automatisch immer neue Wörter, die auch in keinem Wörterbuch stehen müssen, wie Feist am Beispiel „Babyhopser“ bildhaft erläuterte. mindUp verzichtet im Wesentlichen auf Black-Box Verfahren, da auch explizites Expertenwissen der Marketingverantwortlichen im System verankert wird.

Neben dem Einsatz des Systems für Kunden, wie eBay oder billiger.de im Online-Marketing, besucht ein Crawler von mindUp das gesamte, deutschsprachige Internet. Das Ziel ist mehr die thematische und örtliche Erkennung aller deutschsprachigen Webseiten und weniger ein Volltextindex, wie bei einer Suchmaschine. Hierdurch werden verschiedenste Prozesse unterstützt: Auffinden von neuen Firmen, Erkennung von Umzügen, Erkennung von betrügerischen Fake-Shops, usw.

Die Technik von mindUp unterstützte bereits die Arbeit der DNB. Neben der Aufgabe, Neuerscheinungen im Buch- und Medienbereich zu archivieren, hat die DNB auch den Auftrag, selektiv Seiten des Internets zu sichern, z.B. im Bereich aktueller Ereignisse oder relevanter Sparten. Die „Kartierung“ der deutschsprachigen Internetlandschaft durch mindUp ermöglichte hierbei ganz gezielt thematisch und räumlich relevante Webseiten zu selektieren und mit weiteren Informationen zu qualifizieren.

Zurück
20191010_konferenzMaschinesseErschliessen_6423.jpg
20191010_konferenzMaschinesseErschliessen_6401.jpg