Google dringt weiter ins Deep Web vor
Posted on | November 12, 2008 | No Comments
Bis vor kurzem galten gescante Seiten und Flash-Inhalte als unsichtbar für Suchmaschinen. Google versucht nun schon seit längerem, diesen Bereich des Deep Web doch für den eigenen Index aufzuarbeiten. Das geschieht auf zwei Ebenen:
- Dokumente, die in analoger Form vorliegen, mit Scannern digitalisiert wurden, aber in einem Bild-Format vorliegen, also nicht bearbeitet werden können wie ein Text-Dokument, werden nun mit Hilfe von OCR-Software gelesen und indexiert. Die dabei notwendige Rechner-Power ist gewaltig.
- Flash-Dateien werden nun teilweise “geöffnet” und ausgelesen: das betrifft Links und Texte in Flash-Format.
Bei aller Google-Vorsicht, Google ist im Bereich der Suchmaschinen-Technologie nicht von ungefähr Platzhirsch.
[Technorati Tags: OCR - Suchmaschinen ]
Thesaurus:
Comments
Leave a Reply




