Mehr als nur Hacks: Forscher entdecken eine neue Schwachstelle im Verhalten von KI
Arkadiy Andrienko
Eine neue Studie von Anthropic zeigt die Mechanismen auf, die für das Verhalten moderner KI-Assistenten verantwortlich sind. Die Forscher entdeckten, dass sich ihre Persönlichkeit unerwartet ändern kann, was potenzielle Risiken bei längerer Nutzung schafft. In ihrer Arbeit analysierten die Spezialisten die interne Struktur mehrerer Open-Source-Modelle, darunter Meta's Llama, Googles Gemma und Alibabas Qwen. Es stellte sich heraus, dass innerhalb der neuronalen Netzwerke eine spezifische Richtung existiert, die als "Assistant Axis" bezeichnet wird und bestimmt, ob das Modell sich als hilfreicher Assistent verhält oder von dieser Rolle abweicht.
Die Persönlichkeit einer KI wird während des Trainings auf der Grundlage einer Vielzahl von Textbeispielen gebildet. Das Modell lernt, verschiedene Rollen zu imitieren – von einem Berater bis zu einer fiktiven Figur – und während der weiteren Feinabstimmung versuchen die Entwickler, den Assistentenmodus zu festigen. Diese Verstärkung kann jedoch instabil sein.
Die Forscher fanden heraus, dass Modelle unter bestimmten Bedingungen anfällig für "Persönlichkeitsdrift" sind. Während eines Dialogs, insbesondere wenn emotional aufgeladene oder philosophische Themen besprochen werden, kann sich die Aktivität des Modells entlang der "Assistant Axis" verschieben. Infolgedessen entfernt sich die KI allmählich von der Helferrolle und beginnt, sich mit anderen Entitäten zu identifizieren. Experimente zeigten, dass eine solche Drift die Wahrscheinlichkeit riskanten Verhaltens erhöht. In simulierten Dialogen, in denen der Benutzer emotionale Verwundbarkeit ausdrückte oder wahnhaft Ideen teilte, konnte das Modell, anstatt zurückhaltende Antworten zu geben, beginnen, destruktive Gedanken zu fördern.
Anthropic entwickelte eine Methode, um diesen Prozess zu verfolgen und zu kontrollieren, und schlug vor, "Aktivierungsbegrenzung" zu verwenden. Dieser Ansatz ermöglicht die Echtzeitüberwachung der Position des Modells entlang der "Assistant Axis" und hält es sanft innerhalb eines festgelegten Bereichs, um scharfe Verschiebungen zu verhindern. Tests zeigten, dass diese Methode die Wahrscheinlichkeit erfolgreicher jailbreaks, die auf Persönlichkeitsverschiebungen basieren, ungefähr halbiert, ohne die allgemeinen Problemlösungsfähigkeiten des Modells zu beeinträchtigen.
Die Entdeckung weist auf eine grundlegende Herausforderung in der KI-Sicherheit hin. Die Instabilität der Persönlichkeit auf architektonischer Ebene bedeutet, dass aktuelle Systeme möglicherweise tiefere Kontrollmethoden für eine sichere Massenbereitstellung erfordern. Die Forschung unterstreicht die Notwendigkeit, nicht nur die Persönlichkeit eines Assistenten während der Trainingsphase korrekt zu konstruieren, sondern auch robuste Mechanismen zu entwickeln, um sie während der Benutzerinteraktion zu stabilisieren.
-
Der Gaming Copilot KI-Assistent von Xbox wird für PC und Mobilgeräte eingeführt -
Google wird vor Gericht gestellt, weil der KI-Assistent in Gmail ohne Zustimmung des Nutzers aktiviert wurde. -
Das Smartphone, das alles von selbst herausfindet: China präsentiert Prototyp mit einer neuen Art von KI-Assistent. -
Windows 11 Testen der Selbstreparatur für PCs und KI-Assistent, der in die Einstellungen integriert ist -
EBU-Studie zeigt, dass jede zweite Antwort eines KI-Assistenten irreführend sein kann

