Mehr als nur Hacks: Forscher entdecken eine neue Schwachstelle im Verhalten von KI

Mehr als nur Hacks: Forscher entdecken eine neue Schwachstelle im Verhalten von KI

Arkadiy Andrienko

Eine neue Studie von Anthropic zeigt die Mechanismen auf, die für das Verhalten moderner KI-Assistenten verantwortlich sind. Die Forscher entdeckten, dass sich ihre Persönlichkeit unerwartet ändern kann, was potenzielle Risiken bei längerer Nutzung schafft. In ihrer Arbeit analysierten die Spezialisten die interne Struktur mehrerer Open-Source-Modelle, darunter Meta's Llama, Googles Gemma und Alibabas Qwen. Es stellte sich heraus, dass innerhalb der neuronalen Netzwerke eine spezifische Richtung existiert, die als "Assistant Axis" bezeichnet wird und bestimmt, ob das Modell sich als hilfreicher Assistent verhält oder von dieser Rolle abweicht.

Die Persönlichkeit einer KI wird während des Trainings auf der Grundlage einer Vielzahl von Textbeispielen gebildet. Das Modell lernt, verschiedene Rollen zu imitieren – von einem Berater bis zu einer fiktiven Figur – und während der weiteren Feinabstimmung versuchen die Entwickler, den Assistentenmodus zu festigen. Diese Verstärkung kann jedoch instabil sein.

Die Forscher fanden heraus, dass Modelle unter bestimmten Bedingungen anfällig für "Persönlichkeitsdrift" sind. Während eines Dialogs, insbesondere wenn emotional aufgeladene oder philosophische Themen besprochen werden, kann sich die Aktivität des Modells entlang der "Assistant Axis" verschieben. Infolgedessen entfernt sich die KI allmählich von der Helferrolle und beginnt, sich mit anderen Entitäten zu identifizieren. Experimente zeigten, dass eine solche Drift die Wahrscheinlichkeit riskanten Verhaltens erhöht. In simulierten Dialogen, in denen der Benutzer emotionale Verwundbarkeit ausdrückte oder wahnhaft Ideen teilte, konnte das Modell, anstatt zurückhaltende Antworten zu geben, beginnen, destruktive Gedanken zu fördern.

Anthropic entwickelte eine Methode, um diesen Prozess zu verfolgen und zu kontrollieren, und schlug vor, "Aktivierungsbegrenzung" zu verwenden. Dieser Ansatz ermöglicht die Echtzeitüberwachung der Position des Modells entlang der "Assistant Axis" und hält es sanft innerhalb eines festgelegten Bereichs, um scharfe Verschiebungen zu verhindern. Tests zeigten, dass diese Methode die Wahrscheinlichkeit erfolgreicher jailbreaks, die auf Persönlichkeitsverschiebungen basieren, ungefähr halbiert, ohne die allgemeinen Problemlösungsfähigkeiten des Modells zu beeinträchtigen.

Die Entdeckung weist auf eine grundlegende Herausforderung in der KI-Sicherheit hin. Die Instabilität der Persönlichkeit auf architektonischer Ebene bedeutet, dass aktuelle Systeme möglicherweise tiefere Kontrollmethoden für eine sichere Massenbereitstellung erfordern. Die Forschung unterstreicht die Notwendigkeit, nicht nur die Persönlichkeit eines Assistenten während der Trainingsphase korrekt zu konstruieren, sondern auch robuste Mechanismen zu entwickeln, um sie während der Benutzerinteraktion zu stabilisieren.

    Über den Autor
    Kommentare0