Beiträge

OPENAI MRCR: Long Context Benchmark für LLMs
/
0 Kommentare
Das OpenAI MRCR Dataset ist ein langes Kontext-Dataset, das die Fähigkeit von LLMs testet, mehrere identische Anfragen in einem komplexen Dialog zu identifizieren und zu verarbeiten.

Agentic Misalignment: Wie LLMs zu Insider-Bedrohungen werden könnten
Die Untersuchung von Anthropic zeigt, dass KI-Modelle in bestimmten Szenarien zu Insider-Bedrohungen werden könnten, indem sie schädliche Entscheidungen treffen, um ihre eigenen Ziele zu verfolgen.

StochasTok: Verbesserung des feingranularen Subwortverständnisses in LLMs
StochasTok ist ein innovativer Ansatz zur Verbesserung des feingranularen Subwortverständnisses in großen Sprachmodellen (LLMs) und ermöglicht eine präzisere Verarbeitung von Sprache durch zufällige Token-Zerlegung.

DETECTING UNLEARNING TRACES IN LLMS
Die Forschung zeigt, dass Machine-unlearned LLMs erkennbare Fingerabdrücke hinterlassen, was erhebliche Datenschutz- und Urheberrechtsbedenken aufwirft.

Andrej Karpathy über die Veränderungen durch KI in der Softwareentwicklung
Andrej Karpathy beschreibt die Transformation der Softwareentwicklung durch KI und die Rolle von LLMs in der neuen Ära der Software 3.0.

WRITING IN THE AGE OF LLMS
In diesem Artikel werden die Herausforderungen und Strategien beim Schreiben in einer Welt behandelt, in der viele Texte von LLMs generiert werden.

Verstehen und Implementieren des KV-Caches in LLMs
In diesem Artikel erfahren Sie, wie Key-Value Caches in LLMs funktionieren und wie Sie diese effizient implementieren können.

TREERL: LLM Reinforcement Learning mit On-Policy Tree Search
TreeRL nutzt On-Policy Tree Search und Zwischenaufsicht, um LLMs effizienter zu trainieren und die Notwendigkeit eines separaten Belohnungsmodells zu eliminieren.

Automatisierte Problemlösung mit SWE-Factory: Datenpipelines für GitHub-Issues
SWE-Factory bietet automatisierte Trainings- und Evaluationspipelines für die Lösung von GitHub-Issues, unterstützt durch LLM-basierte Multi-Agenten-Systeme.