Nachrichten Hardware und Technologien Der neue Google-Algorithmus reduziert den Speicherverbrauch um das Sechsfache. Ist teure Hardware zum Scheitern verurteilt?

Der neue Google-Algorithmus reduziert den Speicherverbrauch um das Sechsfache. Ist teure Hardware zum Scheitern verurteilt?

Arkadiy Andrienko

26 März 2026, 17:10

Google Research hat ein Papier über TurboQuant veröffentlicht, einen Algorithmus, der den Speicherbedarf für KI-Arbeitslasten um mindestens das Sechsfache reduziert, ohne die Genauigkeit der Antworten zu beeinträchtigen und ohne zusätzliche Modelltrainings zu benötigen.

Bei der Textgenerierung verlassen sich Modelle auf den sogenannten KV-Cache—einen Speicherpuffer, der zuvor berechnete Daten des Aufmerksamkeitsmechanismus speichert, sodass sie vermeiden können, diese bei jedem Schritt neu zu berechnen. Je länger das Kontextfenster, desto mehr wächst dieser Cache. An einem bestimmten Punkt beginnt er, Dutzende von Gigabyte Speicher zu verbrauchen, und selbst leistungsstarke Grafikkarten mit viel VRAM sind machtlos. Traditionelle Quantisierungsmethoden wurden lange verwendet, um den Cache zu komprimieren, aber sie haben einen versteckten Nachteil: Neben den komprimierten Daten müssen auch die sogenannten Quantisierungs-Konstanten gespeichert werden—im Wesentlichen eine Nachschlagetabelle, ähnlich dem, was ZIP- oder RAR-Archivierer verwenden.

Die Forscher testeten TurboQuant an Open-Source-Modellen wie Gemma und Mistral, indem sie Benchmark-Suiten mit langem Kontext wie LongBench, Needle In A Haystack, ZeroSCROLLS, RULER und L-Eval verwendeten. Bei einfachen Aufgaben lieferte der Algorithmus fehlerfreie Ergebnisse und reduzierte die KV-Cache-Größe um mindestens das Sechsfache. In komplexeren Szenarien—wie Fragenbeantwortung, Codegenerierung und Zusammenfassung—war der Unterschied nicht so dramatisch, aber er übertraf dennoch den bestehenden KIVI-Kompressionsalgorithmus. Auf NVIDIA H100-Beschleunigern zeigte die 4-Bit-Version von TurboQuant eine achtfache Leistungssteigerung.

Der Markt hat bereits auf die Ankündigung reagiert, und die Aktien großer Speicherhersteller sind gefallen—was einen Wandel in den Erwartungen der Investoren widerspiegelt. Wenn die weitverbreitete Einführung von TurboQuant die VRAM-Anforderungen senkt, könnten Unternehmen entweder die Hardwarekosten senken oder die Kontextfenster der Modelle erweitern, ohne die Rechenleistung erhöhen zu müssen.

Die Autoren der Studie betonen, dass ihre Arbeit nicht nur eine ingenieurtechnische Lösung ist—es ist ein Weg, den Speicherverbrauch zu dämpfen, zu einer Zeit, in der Speicher zunehmend knapp wird.

Kann ein Algorithmus wie dieser tatsächlich dazu beitragen, die "Speicherkrise" auf dem Markt zu beenden, oder wird der Mangel ein Problem für alltägliche Nutzer bleiben, egal welche Softwaretricks angewendet werden? Teilen Sie Ihre Gedanken in den Kommentaren.

Der Beitrag wurde übersetzt. Original anzeigen (EN)

Nachrichten Hardware und Technologien Google künstliche Intelligenz

Über den Autor

Arkadiy Andrienko

Autor von Artikeln und Nachrichten

Als technischer Journalist bei VGTimes diskutiere ich mit gleicher Freude über die neuesten Grafikkarten sowie die Innereien von Konsolen und anderen Gadgets. Seit 2018 schreibe ich über Spiele und Hardware, meine Erfahrung im Bereich der Tontechnik hat mir ermöglicht, die Feinheiten der Audiotechnologien gut zu verstehen, und meine Liebe zur Elektronik hat mich dazu gebracht, die Innereien von PCs zu studieren, weshalb ich immer auf der Suche nach etwas Neuem und Interessantem im Bereich der Gaming-Hardware bin.

...Erweitern

Kommentare0