Wrapper Technologie
Die Zielsetzung von Web-Select ist die automatisierte Selektion/Extraktion
von Daten aus dem World Wide Web und Transformation in eine weiterverarbeitbare
Form.
Programme, die einer derartigen Aufgabenstellung dienen, werden allgemein als
Wrapper bezeichnet.
Prinzipielle Funktionsweise von Wrappern (Erklärung anhand Abbildung1):
Die Applikation startet eine Abfrage an den Wrapper (Abfrage1). Dieser startet
eine oder mehrere Abfragen an die Datenquelle und verwendet dafür die
Informationen aus der Knowledgebase. Die Datenquelle liefert die Informationen
in einer oder mehreren Schritten an den Wrapper in Datenstruktur2 zurück.
Dieser transformiert sie in Datenstruktur1 und liefert diese an die Anwendung.

Abbildung 1
Wrapper können für eine spezielle Aufgabe programmiert werden oder von Wrapper
Generatoren generiert werden. Grundsätzlich unterscheidet man zwischen
automatischen und semi-automatischen Wrapper Generatoren:
Automatische Wrapper Generatoren
Um bestimmte Daten aus HTML-Seiten zu extrahieren, werden Algorithmen verwendet,
welche die semantische Struktur von Web-Seiten erkennen sollen.
Semi-Automatische Wrapper Generatoren
Die Grundidee ist, dass der Anwender bestimmt, welche Daten aus der HTML-Seite zu
extrahieren sind. Als Interface stehen spezialisierte Abfragesprachen und /oder
eine grafische Benutzeroberfläche zur Verfügung.
Web-Select basiert auf einem konsequent praxis- und userorientierten Ansatz.
Der Web-Select Administrator ('Human Wrapper Designer') benutzt eine grafische
Benutzeroberfläche als Interface. Er entscheidet im Rahmen der Wrapper-Generierung,
welche Daten von welchen Web-Seiten zu extrahieren und in welche Ausgabestruktur zu
transformieren sind.
Web-Select zählt damit in die Klasse der 'Semi-Automatischen Visual Wrapper Generatoren'.

Abbildung 2: schematische Darstellung von Web-Select
|