SYNTHETIC DATA QA FRAMEWORK (GITHUB REPO)
In der heutigen datengetriebenen Welt ist die Qualität von Daten entscheidend für den Erfolg von Machine Learning und anderen datenbasierten Anwendungen. Mostly AI hat ein Evaluationstoolkit entwickelt, das standardisierte Metriken bereitstellt, um die Qualität und Privatsphäre von synthetischen Daten über verschiedene Datentypen hinweg zu bewerten.
Einführung in das Toolkit
Das Synthetic Data Quality Assurance Toolkit bietet eine umfassende Lösung zur Bewertung synthetischer Daten. Es ermöglicht Nutzern, die Genauigkeit, Ähnlichkeit und Distanzmetriken zwischen synthetischen und Originaldaten zu berechnen. Diese Metriken sind entscheidend, um sicherzustellen, dass die synthetischen Daten die gewünschten Eigenschaften aufweisen und für die jeweilige Anwendung geeignet sind.
Installation des Toolkits
Die neueste Version des mostlyai-qa kann einfach über pip installiert werden. Hierzu genügt der folgende Befehl:
pip install -U mostlyai-qa
Für Linux-Nutzer gibt es die Möglichkeit, eine CPU-only Variante von torch zusammen mit mostlyai-qa zu installieren:
pip install -U torch==2.6.0+cpu torchvision==0.21.0+cpu mostlyai-qa --extra-index-url https://download.pytorch.org/whl/cpu
Erste Schritte mit dem Toolkit
Um das Toolkit zu verwenden, können Sie mit nur wenigen Zeilen Python-Code beginnen. Hier ist ein einfaches Beispiel:
import pandas as pd
import webbrowser
from mostlyai import qa
# Logging initialisieren
qa.init_logging()
# Original- und synthetische Daten abrufen
base_url = "https://github.com/mostly-ai/mostlyai-qa/raw/refs/heads/main/examples/quick-start"
syn = pd.read_csv(f"{base_url}/census2k-syn_mostly.csv.gz")
trn = pd.read_csv(f"{base_url}/census2k-trn.csv.gz")
hol = pd.read_csv(f"{base_url}/census2k-hol.csv.gz")
# Metriken berechnen
report_path, metrics = qa.report(syn_tgt_data=syn, trn_tgt_data=trn, hol_tgt_data=hol)
# Metriken ausgeben
print(metrics.model_dump_json(indent=4))
# HTML-Bericht in neuem Browserfenster öffnen
webbrowser.open(f"file://{report_path.absolute()}")
Beispielberichte
Das Toolkit ermöglicht die Erstellung von anschaulichen Berichten, die die Ergebnisse der Analysen zusammenfassen. Hier sind einige Beispielberichte:
Fazit
Das Synthetic Data Quality Assurance Toolkit von Mostly AI ist ein leistungsstarkes Werkzeug für alle, die mit synthetischen Daten arbeiten. Es bietet eine einfache Möglichkeit, die Qualität und Eignung dieser Daten zu bewerten und unterstützt somit die Entwicklung robusterer Machine Learning Modelle.
Quellenliste:
- Quelle: Synthetic Data Quality Assurance
- Benchmarking Synthetic Tabular Data: A Multi-Dimensional Evaluation Framework
Hinterlasse einen Kommentar
An der Diskussion beteiligen?Hinterlasse uns deinen Kommentar!