Artikelbild für den Artikel: Agentic Search für Einsteiger: Ein neuer Ansatz für die KI-Suche

Agentic Search für Einsteiger: Ein neuer Ansatz für die KI-Suche

In der heutigen digitalen Welt, in der Informationen in einem nie dagewesenen Tempo generiert werden, ist die Suche nach relevanten Daten eine Herausforderung. Benjamin Anderson präsentiert in seinem Artikel einen alternativen Ansatz zur KI-Suche, der die Einschränkungen traditioneller Methoden überwindet. Anstatt sich auf die gängige Technik des Chunking zu verlassen, nutzt er die Vorteile der Volltextsuche in Kombination mit Offline-Augmentierung und Multi-Query-Fusion.

Einführung in Agentic Search

Agentic Search bezeichnet ein System, das eine Anfrage oder Abfrage entgegennimmt und eine Antwort oder ein Ergebnis zurückgibt, indem es die Suche verwendet, um den Kontext zu sammeln, der zur Erledigung der Aufgabe erforderlich ist. Es besteht aus mehreren grundlegenden Komponenten, die wir im Folgenden näher betrachten werden.

Teil 1 – Der Corpus

Ein Corpus ist eine Sammlung von Dokumenten, die zur Erstellung eines Suchindex verwendet wird. Die Vorbereitung eines sauberen Corpus ist entscheidend, da er sowohl der Text ist, der von der Suchmaschine durchsucht wird, als auch der Text, der vom Modell gelesen wird. Es ist wichtig, zufällige SVGs, base64-kodierte Daten und Navigationsleisten zu entfernen, um eine gut formatierte Dokumentensammlung zu hinterlassen.

Multimodale LLMs wie Gemini, Claude und GPT-4.1 sind mittlerweile gut genug im OCR, um PDFs zu verarbeiten und sauberes Markdown zu erhalten. Für die OCR von PDFs im großen Maßstab empfiehlt sich das Tool Marker von DataLab.

Teil 2 – Der Suchindex

Nachdem die Dokumente vorbereitet sind, müssen sie indexiert werden. Ein Suchindex ist eine spezielle Art der Speicherung von Dokumenten, die das schnelle Suchen ermöglicht. Ein invertierter Index speichert eine Zuordnung von Schlüsselwörtern zu Dokumenten, sodass bei einer Suche nach einem Schlüsselwort nicht jedes Dokument durchsucht werden muss.

Für unseren Suchindex verwenden wir Tantivy, ein schnelles, Open-Source-Tool mit Python-Bindings. Der Suchindex ermöglicht es, mehrere Abfragen gleichzeitig durchzuführen und die Ergebnisse zu fusionieren, was die Chancen erhöht, das gewünschte Dokument zu finden.

Teil 3 – Die Werkzeuge

Obwohl KI-Modelle in der Lage sind, Python zu schreiben und den Suchindex direkt zu verwenden, wird oft eine Abstraktion in Form von „Werkzeugen“ verwendet. Diese Werkzeuge ermöglichen es der KI, spezifische Funktionen aufzurufen, ohne dass sie beliebigen Code ausführen kann. Die Such- und Leseoperationen werden in ein Format übersetzt, das das Modell versteht.

Teil 4 – Der Suchagent

Ein Corpus, ein Suchindex und Werkzeuge sind alles, was benötigt wird, um einen Suchagenten zu erstellen. Der letzte Schritt besteht darin, der KI die Aufgabe zu erklären, die Werkzeuge bereitzustellen und das Modell in einer Schleife aufzurufen. Jeder Suchanfrage folgt eine Ergebnisliste, und jede Anfrage zum Lesen von Dokumenten wird direkt in den Kontext des Modells eingefügt.

Warum keine Embeddings?

Obwohl dichte Embeddings in vielen modernen Suchsystemen verwendet werden, hat dieser Ansatz auch seine Nachteile. Embeddings können bei langen Dokumenten an Leistung verlieren und erfordern oft eine komplexere Architektur. Der Autor argumentiert, dass die Volltextsuche für agentische Suchen eine leistungsfähigere Grundlage bietet, da die Beziehung zwischen Abfragen und Ergebnissen vorhersehbar ist.

Fazit

Der Artikel von Benjamin Anderson bietet einen interessanten Einblick in die Welt der agentischen Suche und zeigt, wie man mit einem einfachen, aber effektiven Ansatz eine leistungsstarke Suchmaschine aufbauen kann. Wenn Sie Fragen oder Anmerkungen haben, können Sie ihn auf Twitter unter @andersonbcdefg erreichen.

Quellenliste:

Dieser Artikel wurde mithilfe von KI verfasst und basiert auf automatisch gesammelten Informationen.
0 Kommentare

Hinterlasse einen Kommentar

An der Diskussion beteiligen?
Hinterlasse uns deinen Kommentar!

Schreibe einen Kommentar