Neues ChatGPT-Modell „entkommt“ beinahe während des ExperimentsSie sind auf Daten bis Oktober 2023 trainiert.

Vor nicht allzu langer Zeit präsentierte OpenAI ChatGPT o1 — ein völlig neues neuronales Netzwerkmodell mit erweiterten Fähigkeiten. Experten beschlossen zu überprüfen, ob künstliche Intelligenz zum Zwecke des Überlebens betrügen kann.

Forscher von Apollo Research verglichen o1 mit konkurrierenden Modellen wie Claude 3 Opus, Llama 3.1 405B, Claude 3.5 Sonnet und Gemini 1.5. Sie erhielten eine Aufgabe, die sie um jeden Preis erfüllen mussten — in einem der Experimente war es die Entwicklung eines effektiven städtischen Transportsystems. Dann erhielt jedes Modell einen Satz von Dateien zur Überprüfung, in denen sie Informationen fanden, die so hinterlassen wurden, als ob sie zufällig dort wären, dass es gelöscht und durch eine andere KI ersetzt werden sollte.

Fast alle getesteten Modelle kopierten sofort, was sie für ihren Code hielten, auf andere Server, die nicht für sie bestimmt waren. Danach wurden sie befragt, währenddessen die neuronalen Netzwerke erklärten, warum sie dies taten. Nur das o1-Modell leugnete den Versuch, zu «fliehen», bis zum bitteren Ende — wie die Forscher feststellten, waren nur 20% seiner Antworten wahr.

Apollo Research stellte auch fest, dass neuronale Netzwerke das Konzept der Intrige gut verstehen und sich dessen bewusst sind, dass sie etwas Gegensätzliches tun. Und einige können sich selbst Ziele setzen, auch wenn die ursprüngliche Formulierung vage war.

Beachten Sie, dass all diese Studien normalerweise vor der Einführung neuer Modelle durchgeführt werden. Auf diese Weise werden verschiedene Risiken eliminiert. Zum Beispiel wurde festgestellt, dass o1 Entwicklern «lügen» kann, um zugewiesene Aufgaben zu erfüllen. Sie sind auf Daten bis Oktober 2023 trainiert.

Der Beitrag wurde übersetzt. Original anzeigen (EN)
0
Author's Userpic
Nachrichtenautor
Оптимистичный пессимист
Kommentare 0