Der neue Google-Algorithmus reduziert den Speicherverbrauch um das Sechsfache. Ist teure Hardware zum Scheitern verurteilt?
Google Research hat ein Papier über TurboQuant veröffentlicht, einen Algorithmus, der den Speicherbedarf für KI-Arbeitslasten um mindestens das Sechsfache reduziert, ohne die Genauigkeit der Antworten zu beeinträchtigen und ohne zusätzliche Modelltrainings zu benötigen.
Bei der Textgenerierung verlassen sich Modelle auf den sogenannten KV-Cache—einen Speicherpuffer, der zuvor berechnete Daten des Aufmerksamkeitsmechanismus speichert, sodass sie vermeiden können, diese bei jedem Schritt neu zu berechnen. Je länger das Kontextfenster, desto mehr wächst dieser Cache. An einem bestimmten Punkt beginnt er, Dutzende von Gigabyte Speicher zu verbrauchen, und selbst leistungsstarke Grafikkarten mit viel VRAM sind machtlos. Traditionelle Quantisierungsmethoden wurden lange verwendet, um den Cache zu komprimieren, aber sie haben einen versteckten Nachteil: Neben den komprimierten Daten müssen auch die sogenannten Quantisierungs-Konstanten gespeichert werden—im Wesentlichen eine Nachschlagetabelle, ähnlich dem, was ZIP- oder RAR-Archivierer verwenden.
Die Forscher testeten TurboQuant an Open-Source-Modellen wie Gemma und Mistral, indem sie Benchmark-Suiten mit langem Kontext wie LongBench, Needle In A Haystack, ZeroSCROLLS, RULER und L-Eval verwendeten. Bei einfachen Aufgaben lieferte der Algorithmus fehlerfreie Ergebnisse und reduzierte die KV-Cache-Größe um mindestens das Sechsfache. In komplexeren Szenarien—wie Fragenbeantwortung, Codegenerierung und Zusammenfassung—war der Unterschied nicht so dramatisch, aber er übertraf dennoch den bestehenden KIVI-Kompressionsalgorithmus. Auf NVIDIA H100-Beschleunigern zeigte die 4-Bit-Version von TurboQuant eine achtfache Leistungssteigerung.
Der Markt hat bereits auf die Ankündigung reagiert, und die Aktien großer Speicherhersteller sind gefallen—was einen Wandel in den Erwartungen der Investoren widerspiegelt. Wenn die weitverbreitete Einführung von TurboQuant die VRAM-Anforderungen senkt, könnten Unternehmen entweder die Hardwarekosten senken oder die Kontextfenster der Modelle erweitern, ohne die Rechenleistung erhöhen zu müssen.
Die Autoren der Studie betonen, dass ihre Arbeit nicht nur eine ingenieurtechnische Lösung ist—es ist ein Weg, den Speicherverbrauch zu dämpfen, zu einer Zeit, in der Speicher zunehmend knapp wird.
Kann ein Algorithmus wie dieser tatsächlich dazu beitragen, die "Speicherkrise" auf dem Markt zu beenden, oder wird der Mangel ein Problem für alltägliche Nutzer bleiben, egal welche Softwaretricks angewendet werden? Teilen Sie Ihre Gedanken in den Kommentaren.
