Textextraktion mittels mindUp Web-Crawler/Spider

Adaptives Web-Crawler bzw- Spider-System für das automatisierte Abrufen von Web-Inhalten und die vollautomatische Extraktion von strukturiertem Wissen.
Web-Crawler Eigenschaften:
- Skalierbar für jede Anwendungsgröße
- Viele Millionen Web-Seiten täglich
- Beliebige Extraktionsaufgaben möglich (Extraction Agent)
- Adaptive Scanning (Domain-Scanning)
- Bot-Conformity (berücksichtigt "robots.txt")
- Webfarming
mindUp beherrscht die Erkennung von Web-Inhalten bis zur Perfektion. Sei es die Extraktion von Produktinformationen (Immobilienanzeigen, Autoanzeigen) zur Generierung von Marktdaten oder Preisvergleichen oder das Finden und Prüfen von Adressdaten. Die Crawler-Technologie von mindUp gepaart mit der Inhaltsextraktion erlaubt viele Einsatzbereiche.
Weitere Anwendungsbereiche sind
- Affiliate Scouting
- Autokategorisierung
- Keyword-Marketing
- Adressverifikation
Häufig gestellte Fragen
-
Kann der Crawler auch überwachen?
-
Ja, der Crawler kann zyklisch Web-Seiten oder auch ganze Domänen bzgl. zuvor definierter Inhalte überwachen.
Anwendungsbeispiele für die Überwachungsfunktion:- Monitoring von Konkurrenzprodukten
- Screening von Affiliate-Partnerschaften
- Überwachung von zugesicherten Inhalten bei Affiliate-Marketing (Berücksichtigung von Black-List bzw Verhinderung von politischen, rassistischen oder erotischen Inhalten)
- Screening von Foren, Chats oder Auktionen bzwl. verbotener Inhalte
- u.s.w
-
Was kann der Crawler extrahieren?
-
Der Crawler kann adaptiv auf Ihre Anforderungen angepasst werden, d.h. es kann eigentlich alles extrahiert werden, was sinnvoll erscheint.
Das könnten z.B. sein:- Produkte
- Immobilienanzeigen
- Preise
- Adressen
- Unternehmensdaten
- Jobangebote
- Projektangebote
-
Was ist Competitive Intelligence?
-
Competitive Intelligence wird am besten mit Konkurrenzanalyse, Konkurrenzforschung oder Wettbewerbsforschung übersetzt. Dabei geht es nicht um geheime Spionage, sondern mehr um das Sammeln und Auswerten offiziell vorhandener Informationen der Konkurrenten.
Crawling Techniken können dabei behilflich sein, öffentlich im Internet befindliche Informationen strukturiert zu erfassen, zu aggregieren und auszuwerten. -
Respektiert der Crawler/Spider die robots.txt?
-
Ja, der contentDetection Crawler interpretiert die robots.txt. Ansonsten bestünde die Gefahr, dass der Crawler durch eine sog. "Bot Trap" auf eine schwarze Liste gesetzt wird.