Beiträge

Artikelbild für den Artikel: FINETUNING SPARSE ENCODERS WITH SENTENCE TRANSFORMERS

FINETUNING SPARSE ENCODERS WITH SENTENCE TRANSFORMERS

/
In diesem Artikel werden die neuesten Entwicklungen in der Python-Bibliothek Sentence Transformers behandelt, die Unterstützung für das Training von spärlichen Einbettungsmodellen bietet.
Artikelbild für den Artikel: ContinualFlow in Generative Models

ContinualFlow in Generative Models

/
ContinualFlow ist ein neuartiger Ansatz für gezieltes Unlearning in generativen Modellen, der unerwünschte Datenbereiche effizient subtrahiert, ohne eine vollständige Neutrainierung zu erfordern.
Artikelbild für den Artikel: Die bittere Lektion für die Tokenisierung steht bevor

Die bittere Lektion für die Tokenisierung steht bevor

/
Tokenisierung sollte durch eine allgemeine Methode ersetzt werden, die besser mit Rechenleistung und Daten umgeht. In diesem Artikel betrachten wir die Rolle der Tokenisierung und ihre Fragilität.
Artikelbild für den Artikel: Reinforcement Learning Scaling: Netzwerk-Sparsity als Schlüssel zur Effizienz

Reinforcement Learning Scaling: Netzwerk-Sparsity als Schlüssel zur Effizienz

/
In diesem Artikel beleuchten wir, wie Netzwerk-Sparsity das Potenzial von Deep Reinforcement Learning Modellen freisetzen kann und welche Vorteile dies für die Skalierung mit sich bringt.
Artikelbild für den Artikel: FRAME PACK: VIDEO GENERATION LIKE IMAGE GENERATION

FRAME PACK: VIDEO GENERATION LIKE IMAGE GENERATION

/
Frame Pack ist eine Methode zur Reduzierung der Rechenlast bei der Generierung von Videos, die Bildlatenzen und eine clevere Frame-Packing-Methode nutzt.
Artikelbild für den Artikel: Agentic Search für Einsteiger: Ein neuer Ansatz für die KI-Suche

Agentic Search für Einsteiger: Ein neuer Ansatz für die KI-Suche

/
In diesem Artikel wird ein alternativer Ansatz zur KI-Suche vorgestellt, der die Einschränkungen traditioneller Methoden überwindet, indem er Volltextsuche mit Offline-Augmentierung und Multi-Query-Fusion kombiniert.
Artikelbild für den Artikel: DETECTING UNLEARNING TRACES IN LLMS

DETECTING UNLEARNING TRACES IN LLMS

/
Die Forschung zeigt, dass Machine-unlearned LLMs erkennbare Fingerabdrücke hinterlassen, was erhebliche Datenschutz- und Urheberrechtsbedenken aufwirft.
Artikelbild für den Artikel: StochasTok: Verbesserung des feingranularen Subwortverständnisses in LLMs

StochasTok: Verbesserung des feingranularen Subwortverständnisses in LLMs

/
StochasTok ist ein innovativer Ansatz zur Verbesserung des feingranularen Subwortverständnisses in großen Sprachmodellen (LLMs) und ermöglicht eine präzisere Verarbeitung von Sprache durch zufällige Token-Zerlegung.
Artikelbild für den Artikel: Kimi-Dev-72B: Ein neuer Maßstab für Open-Source Coding LLMs

Kimi-Dev-72B: Ein neuer Maßstab für Open-Source Coding LLMs

/
Moonshot AI hat mit Kimi-Dev-72B ein neues Open-Source-Modell für Softwareentwicklungsaufgaben vorgestellt, das eine bemerkenswerte Leistung von 60,4 % auf dem SWE-bench Verified erzielt hat.
Artikelbild für den Artikel: SELF-ADAPTING LANGUAGE MODELS: Ein neuer Ansatz für personalisierte KI

SELF-ADAPTING LANGUAGE MODELS: Ein neuer Ansatz für personalisierte KI

/
Self-Adapting Language Models (SEAL) revolutionieren die Anpassungsfähigkeit von KI durch die Möglichkeit, eigene Feinabstimmungsdaten zu generieren und sich selbst zu bearbeiten.
Artikelbild für den Artikel: LOW-BIT QUANTIZATION WITH PARETOQ

LOW-BIT QUANTIZATION WITH PARETOQ

/
ParetoQ ist ein neuer Trainingsalgorithmus, der binäre, ternäre und 2- bis 4-Bit-Quantisierung vereint und dabei erstklassige Ergebnisse auf allen Ebenen erzielt.
Artikelbild für den Artikel: PHYSICAL WORLD MODEL BY META

PHYSICAL WORLD MODEL BY META

/
Meta hat V-JEPA 2 angekündigt, ein neues visuelles Weltmodell, das das physische Denken für KI-Agenten verbessert und drei Benchmarks zur Bewertung der Modellleistung einführt.
Artikelbild für den Artikel: JavelinGuard: Low-Cost Transformer-Architekturen für die Sicherheit von LLMs

JavelinGuard: Low-Cost Transformer-Architekturen für die Sicherheit von LLMs

/
JavelinGuard ist eine Suite von kostengünstigen, leistungsstarken Modellarchitekturen, die entwickelt wurden, um böswillige Absichten in Interaktionen mit großen Sprachmodellen zu erkennen.
Artikelbild für den Artikel: Reinforcement Pre-Training: Ein neuer Ansatz für große Sprachmodelle

Reinforcement Pre-Training: Ein neuer Ansatz für große Sprachmodelle

/
Reinforcement Pre-Training (RPT) ist ein neues Skalierungsparadigma für große Sprachmodelle und Reinforcement Learning, das die Genauigkeit der Sprachmodellierung erheblich verbessert.
Artikelbild für den Artikel: Hugging Face Safetensors jetzt in PyTorch Distributed Checkpointing unterstützt

Hugging Face Safetensors jetzt in PyTorch Distributed Checkpointing unterstützt

/
Die Unterstützung von Hugging Face Safetensors im PyTorch Distributed Checkpointing stellt einen bedeutenden Fortschritt in der Interoperabilität zwischen verschiedenen Modellformaten dar.
Artikelbild für den Artikel: Updates zu Apples On-Device und Server Foundation Language Models

Updates zu Apples On-Device und Server Foundation Language Models

/
Apple hat auf der WWDC 2025 neue Funktionen der Apple Intelligence vorgestellt, darunter On-Device Foundation Models, die Entwicklern helfen, KI-Erlebnisse in ihre Apps zu integrieren, während gleichzeitig der Datenschutz gewahrt bleibt.
Artikelbild für den Artikel: Common Pile v0.1: Ein Durchbruch für offene Datensätze in der KI-Forschung

Common Pile v0.1: Ein Durchbruch für offene Datensätze in der KI-Forschung

/
Hugging Face und seine Partner haben das Common Pile v0.1 veröffentlicht, ein 8 TB umfassendes, offen lizenziertes Datenset zur Schulung großer Sprachmodelle.
Artikelbild für den Artikel: Progressive Tempering Sampler mit Diffusion: Ein neuer Ansatz für effizientes Sampling

Progressive Tempering Sampler mit Diffusion: Ein neuer Ansatz für effizientes Sampling

/
Der Progressive Tempering Sampler mit Diffusion (PTSD) revolutioniert das Sampling aus unnormalisierten Dichten, indem er die Vorteile von Parallel Tempering und Diffusionsmodellen kombiniert.
Artikelbild für den Artikel: Microsoft's GUI-Actor: KI-Agenten navigieren Bildschirme ohne Koordinaten

Microsoft’s GUI-Actor: KI-Agenten navigieren Bildschirme ohne Koordinaten

/
Microsoft hat mit dem GUI-Actor ein System entwickelt, das KI-Agenten ermöglicht, ohne präzise Pixelkoordinaten mit GUIs zu interagieren, indem es Aufmerksamkeitsmechanismen nutzt.
Artikelbild für den Artikel: Large Language Models wissen oft, wann sie evaluiert werden

Large Language Models wissen oft, wann sie evaluiert werden

/
Eine aktuelle Studie zeigt, dass Frontier-Modelle mit einer Genauigkeit von 83 % zwischen Evaluationsszenarien und realen Interaktionen unterscheiden können. Dies wirft Fragen zur Zuverlässigkeit von Tests und Benchmarks auf.