Das LEGAL RAG EVALUATION TOOLKIT: Ein Open-Source-Framework für die Evaluierung von LLMs im Rechtsbereich
Das LEGAL RAG EVALUATION TOOLKIT (LRAGE) ist ein innovatives Open-Source-Framework, das speziell für die Evaluierung von Large Language Models (LLMs) im Kontext von Retrieval-Augmented Generation (RAG) entwickelt wurde. Dieses Toolkit bietet integrierte Datensätze und Werkzeuge, die Forschern helfen, die Leistung von LLMs in rechtlichen Aufgaben zu bewerten, ohne dass umfangreiche technische Kenntnisse erforderlich sind.
Einführung in LRAGE
LRAGE zielt darauf ab, die einzigartigen Herausforderungen zu bewältigen, mit denen Forscher im Bereich Legal AI konfrontiert sind. Es ermöglicht eine effektive Erstellung und Evaluierung von retrieval-augmentierten Systemen. Durch die nahtlose Integration von Datensätzen und Werkzeugen wird der Aufwand für die Evaluierung von LLMs in rechtlichen Kontexten erheblich reduziert.
Hauptmerkmale von LRAGE
- Rechtsbereichspezifische Evaluierung: LRAGE ist speziell für die Evaluierung von LLMs in einem RAG-Setting konzipiert und nutzt Datensätze und Dokumentensammlungen aus dem Rechtsbereich, wie z.B. Pile-of-law, LegalBench und LawBench.
- Vorab kompilierte Indizes: Das Toolkit enthält vorab generierte BM25-Indizes und Embeddings für Pile-of-law, was den Einrichtungsaufwand für Forscher verringert.
- Integration von Retrievern und Rerankern: LRAGE ermöglicht die einfache Integration und Evaluierung verschiedener Retriever und Reranker, was flexible Experimente erlaubt.
- smolagents-Integration: Die nahtlose Integration mit dem smolagents-Framework ermöglicht die Evaluierung autonomer Agenten in rechtlichen RAG-Szenarien.
- LLM-as-a-Judge: Diese Funktion erlaubt es LLMs, die Qualität von Antworten auf einer Instanz-basierten Grundlage zu bewerten, unter Verwendung anpassbarer Rubriken.
- Grafische Benutzeroberfläche: Eine GUI-Demo macht das Tool auch für Nutzer zugänglich, die nicht mit Kommandozeilen-Interfaces vertraut sind.
Installation und Nutzung
Um LRAGE zu installieren, folgen Sie diesen Schritten:
- Erstellen Sie eine Conda-Umgebung:
conda create -n lrage python=3.10 -y
- Aktivieren Sie die Umgebung:
conda activate lrage
- Klone das Repository:
git clone https://github.com/hoorangyee/LRAGE.git
- Installieren Sie die Abhängigkeiten:
conda install -c conda-forge openjdk=21 -y
undpip install -e .
Beispielbefehle zur Evaluierung
Hier sind einige Beispielbefehle, um ein Modell auf einem Beispiel-Datensatz im RAG-Setting zu evaluieren:
lrage --model hf --model_args pretrained=meta-llama/Llama-3.1-8B --tasks legalbench_tiny --batch_size 8 --device cuda --retrieve_docs --retriever pyserini --retriever_args retriever_type=bm25,bm25_index_path=msmarco-v1-passage
Fazit
Das LEGAL RAG EVALUATION TOOLKIT ist ein leistungsstarkes Werkzeug für Forscher im Bereich der Legal AI, das eine benutzerfreundliche und effiziente Evaluierung von LLMs in rechtlichen Kontexten ermöglicht. Mit seinen zahlreichen Funktionen und der Unterstützung für verschiedene Datensätze und Modelle ist LRAGE ein unverzichtbares Tool für die Forschung im Bereich der rechtlichen KI.
Quellenliste:
- Quelle: LRAGE: Legal Retrieval Augmented Generation Evaluation Tool
- Pile-of-law Dataset
- LegalBench
- LawBench
- KBL
- Legal RAG Benchmarks
Hinterlasse einen Kommentar
An der Diskussion beteiligen?Hinterlasse uns deinen Kommentar!