Artikelbild für den Artikel: oogle fhrt mplicit aching ein um den ugriff auf seine neuesten odelle gnstiger zu gestalten

Google führt ‘Implicit Caching’ ein, um den Zugriff auf seine neuesten KI-Modelle günstiger zu gestalten

Google hat eine neue Funktion in seiner Gemini API eingeführt, die als „implicit caching“ bezeichnet wird. Diese Funktion verspricht, die Kosten für die Nutzung der neuesten KI-Modelle von Google erheblich zu senken. Laut den Angaben des Unternehmens können Entwickler bis zu 75 % an Kosten sparen, wenn sie wiederkehrende Kontexte an die Gemini 2.5 Modelle übermitteln.

Was ist ‘Implicit Caching’?

„Implicit Caching“ ist eine automatische Funktion, die standardmäßig für die Gemini 2.5 Modelle aktiviert ist. Sie ermöglicht es, dass Anfragen, die einen gemeinsamen Präfix mit vorherigen Anfragen teilen, für einen Cache-Hit in Frage kommen. Dies bedeutet, dass Entwickler keine manuellen Eingriffe vornehmen müssen, um von den Kosteneinsparungen zu profitieren.

Die Vorteile für Entwickler

Die Einführung dieser Funktion kommt zu einem Zeitpunkt, an dem die Kosten für den Einsatz von KI-Modellen stetig steigen. Entwickler haben in der Vergangenheit über hohe API-Rechnungen geklagt, insbesondere wenn sie die Gemini 2.5 Pro Modelle verwendeten. Mit „implicit caching“ wird erwartet, dass die Nutzungskosten sinken, da häufig angeforderte Daten nicht mehr wiederholt berechnet werden müssen.

„Wir haben das implicit caching in der Gemini API eingeführt, das automatisch 75 % Kosteneinsparungen bei den Gemini 2.5 Modellen ermöglicht, wenn Ihre Anfrage einen Cache trifft.“ — Logan Kilpatrick, Google

Wie funktioniert das Caching?

Caching ist eine weit verbreitete Praxis in der KI-Branche, die es ermöglicht, häufig abgerufene oder vorab berechnete Daten zu speichern. Dadurch werden die Rechenanforderungen und Kosten gesenkt. Bei der neuen Funktion von Google müssen Entwickler nicht mehr manuell die am häufigsten verwendeten Anfragen definieren, wie es bei der vorherigen expliziten Caching-Implementierung der Fall war.

Technische Details

Die Mindestanzahl an Token, die erforderlich ist, um einen Cache-Hit zu erreichen, beträgt 1.024 für das Gemini 2.5 Flash Modell und 2.048 für das Gemini 2.5 Pro Modell. Dies ist eine relativ geringe Anzahl, was bedeutet, dass es nicht viel braucht, um diese automatischen Einsparungen auszulösen. Ein Token entspricht dabei etwa 750 Wörtern.

Herausforderungen und Überlegungen

Trotz der vielversprechenden Einsparungen gibt es einige Punkte, die Entwickler beachten sollten. Google empfiehlt, wiederkehrende Kontexte am Anfang der Anfragen zu platzieren, um die Wahrscheinlichkeit eines Cache-Hits zu erhöhen. Kontext, der sich von Anfrage zu Anfrage ändern könnte, sollte am Ende angefügt werden. Zudem hat Google bisher keine unabhängige Überprüfung der Einsparungen durch Dritte angeboten, was bedeutet, dass die tatsächlichen Vorteile noch abgewartet werden müssen.

Fazit

Die Einführung von „implicit caching“ in der Gemini API könnte einen bedeutenden Fortschritt für Entwickler darstellen, die mit den Gemini 2.5 Modellen arbeiten. Die Möglichkeit, Kosten zu sparen, ohne manuelle Eingriffe vornehmen zu müssen, wird sicherlich von vielen in der Branche begrüßt. Es bleibt jedoch abzuwarten, wie effektiv diese Funktion in der Praxis sein wird.

Quellenliste:

Dieser Artikel wurde mithilfe von KI verfasst und basiert auf automatisch gesammelten Informationen.
0 Kommentare

Hinterlasse einen Kommentar

An der Diskussion beteiligen?
Hinterlasse uns deinen Kommentar!

Schreibe einen Kommentar