Dokumentenverarbeitung für Azure AI Search
6.2.2025
Azure AI Search ist eine skalierbare und flexible Suchmaschine von Microsoft. Gehostet in Azure, bietet Azure AI Search ein breites Einsatzspektrum, von Webseiten-Suchen, Enterprise Search, bis hin zu Q&A-Bots und Interaktiven Wissensapplikationen.
In diesem Blog-Post zeigen wir auf, wie welche Optionen zur Indexierung von Inhalten in Azure AI Search existieren und welche Vor- und Nachteile die jeweiligen Wege bieten.

Azure AI Search REST APIs
Die Konnektoren, genauso wie ein Web-Crawler, verwendet dann die REST APIs der Azure AI Search um Dokumente in die Suchmaschine zu laden (indexieren).
Die Nutzung der REST-APIs hat Vor- und Nachteile. Die Verwendung der REST APIs gibt dem Konnektor oder Crawler die Kontrolle, Dokumente ohne Umwege zu indexieren oder aus dem Index zu entfernen.
Jedoch findet “hinter” den REST-APIs keine weitere Transformation statt. Dies bedeutet, dass der Konnektor oder Web-Crawler in der Regel die folgenden Verarbeitungsschritte vor der eigentlichen Indexierung durchführen muss:
Textextraktion aus Binärdokumenten (wie PDFs) oder auch von HTML-Seiten
Bilderkennung
Named Entity Recognition
Dokumenten-Klassifikation und - Tagging
Speech-to-Text
Vektorisierung oder Embedding
Diese Schritte muss bei Nutzung der REST APIs der Konnektor oder Crawler durchführen.
Daher liefert die RheinInsights Retrieval Suite Dokumenten-Transformations-Pipelines. Diese ermöglichen es effizient und parallelisiert die oben genannten Verarbeitungsschritte vor der Indexierung durchzuführen (siehe Content Transformation).
Einsatz von AI Search Indexern
Azure AI Search bietet als weiteren Indexierungsweg sogenannte Indexer an (siehe Indexer overview). Diese können Inhalte von verschiedenen Quellen erfassen, beispielsweise Azure Blob Storage, diversen Azure SQL Datenbanken oder Azure Files. Wenn Indexer eingesetzt werden, dann kann man über die sogenannten Data Wizards (siehe Import wizards in Azure portal) auch eine Dokumentenverarbeitung konfigurieren.
Was können Sie tun, wenn Ihre Inhalte nicht in Azure Blob Storage, oder Azure SQL Datenbanken liegen, Sie aber die Data Wizards einsetzen möchten? Dann ist es denkbar, dass die Konnektoren oder Crawler die Inhalte in eben diese Datenbanken ablegen. Es ist geplant, dass unsere Retrieval Suite ab März 2025 diese Funktionalität unterstützt.