Web-Select.com
      Über uns   |   News & Presse   |   Kontakt   |   AGB  
Web-Select
 Wrapper Technologie
 Verfahren

Wrapper Technologie

Die Zielsetzung von Web-Select ist die automatisierte Selektion/Extraktion von Daten aus dem World Wide Web und Transformation in eine weiterverarbeitbare Form.

Programme, die einer derartigen Aufgabenstellung dienen, werden allgemein als Wrapper bezeichnet.

Prinzipielle Funktionsweise von Wrappern (Erklärung anhand Abbildung1):

Die Applikation startet eine Abfrage an den Wrapper (Abfrage1). Dieser startet eine oder mehrere Abfragen an die Datenquelle und verwendet dafür die Informationen aus der Knowledgebase. Die Datenquelle liefert die Informationen in einer oder mehreren Schritten an den Wrapper in Datenstruktur2 zurück. Dieser transformiert sie in Datenstruktur1 und liefert diese an die Anwendung.



Abbildung 1


Wrapper können für eine spezielle Aufgabe programmiert werden oder von Wrapper Generatoren generiert werden. Grundsätzlich unterscheidet man zwischen automatischen und semi-automatischen Wrapper Generatoren:

Automatische Wrapper Generatoren

Um bestimmte Daten aus HTML-Seiten zu extrahieren, werden Algorithmen verwendet, welche die semantische Struktur von Web-Seiten erkennen sollen.

Semi-Automatische Wrapper Generatoren

Die Grundidee ist, dass der Anwender bestimmt, welche Daten aus der HTML-Seite zu extrahieren sind. Als Interface stehen spezialisierte Abfragesprachen und /oder eine grafische Benutzeroberfläche zur Verfügung.

Web-Select basiert auf einem konsequent praxis- und userorientierten Ansatz. Der Web-Select Administrator ('Human Wrapper Designer') benutzt eine grafische Benutzeroberfläche als Interface. Er entscheidet im Rahmen der Wrapper-Generierung, welche Daten von welchen Web-Seiten zu extrahieren und in welche Ausgabestruktur zu transformieren sind. Web-Select zählt damit in die Klasse der 'Semi-Automatischen Visual Wrapper Generatoren'.



Abbildung 2: schematische Darstellung von Web-Select



Seitenanfang