Wie intelligent ist Elon Musks «Frighteningly Smart» Chatbot?

xAI hat ein neues Sprachmodell namens Grok 3 vorgestellt, das der Gründer des Unternehmens, Elon Musk, als „die intelligenteste KI auf der Erde“ bezeichnet hat. Die Schöpfer des Chatbots behaupten, dass die neue Version die vorherige erheblich übertrifft: Sie verarbeitet ein größeres Volumen an Trainingsdaten und verfügt über neue Selbstkorrekturmechanismen. Die Demoversion von Grok 3 wurde heute veröffentlicht, und die ersten Bewertungen sind bereits aufgetaucht.

Was ist neu

Der Hauptvorteil von Grok 3 ist der Zugang zu verbesserten Rechenressourcen. Der Chatbot wird mit dem Supercomputer Colossus trainiert: In den Anfangsstadien setzten seine Schöpfer 100.000 NVIDIA H100 GPUs ein, später verdoppelte sich diese Zahl. In Zukunft wird erwartet, dass die Rechenleistung sich verfünffachen wird.

Grok 3 umfasst integrierte Selbstkorrekturmechanismen. Die KI analysiert ihre eigenen Antworten, vergleicht sie mit Referenzantworten und nimmt dann Anpassungen vor. Interessanterweise erhält der Chatbot „Belohnungen“ für genaue Antworten und „Strafen“ für sogenannte „Halluzinationen“ — falsche oder erfundene Informationen.

Laut xAI-Vertretern ist Grok 3 in Mathematik, Naturwissenschaften und Programmierung intelligenter als andere Modelle. Blindtests wurden verwendet, um die Antwortqualität zu bewerten, was bedeutet, dass die Benutzer nicht wussten, welcher Chatbot antwortete.

Während der Präsentation von Grok 3 stellte xAI auch Deep Search vor — einen „Agenten der nächsten Generation“, der in der Lage ist, Informationen online schnell zu finden und zu analysieren. Während ähnliche Funktionen in konkurrierenden Modellen existieren, behauptet xAI, dass Deep Search genauer ist.

Darüber hinaus wird Grok 3 bald eine Sprachschnittstelle erhalten, die es den Benutzern ermöglicht, mit ihm zu interagieren, als würden sie mit einer echten Person sprechen. Seine Stimme soll natürlicher und ausdrucksvoller klingen als die konkurrierenden Modelle.

Do you use artificial intelligence for work or study?

Ergebnisse

Wie es in der Praxis funktioniert

Benutzer im sozialen Netzwerk X können auf den neuen Chatbot zugreifen, indem sie für 50 $ pro Monat X Premium+ abonnieren. Obwohl es noch nicht viele frühe Bewertungen von Grok 3 gibt, stechen einige hervor.

Ein Benutzer namens Penny2x teilte mit, dass er ein voll funktionsfähiges Spiel mit der neuen KI-Version erstellt hat:

Grok 3 wurde gerade veröffentlicht. Du wirst es nicht glauben, ich habe bereits ein Spiel erstellt.

(Ich habe heute Morgen frühzeitig Zugriff erhalten).

Dieses Spiel wurde zu 100 % von GROK erstellt, ich habe ihm einfach gesagt, was ich wollte, und den Code an die richtige Stelle gesetzt.

Ich frage immer wieder nach Anpassungen, und es spuckt das Spiel in einer einzigen Datei aus, die ich auf meinem Desktop speichern und ausführen kann.

Das Spiel hat sich für immer verändert. Ich habe in letzter Zeit viel mit KIs von jedem anderen großen KI-Anbieter entwickelt, um zu entscheiden, was mir am besten gefällt, und Grok ist ein SPIELER. Ich habe keine offiziellen Benchmarks, und ich habe noch keine API eingerichtet, also ist es nicht mein normaler Workflow, aber es fühlte sich genauso fähig an wie Sonet, 4o oder alles andere.

In den nächsten Tagen werde ich es als Teil meines Workflows in NVIM einrichten und es richtig einsetzen.

Das ist unglaublich. Wir leben in der Zukunft. Jeder ist jetzt ein Entwickler.

Noch interessanter ist, was OpenAI-Mitbegründer Andrej Karpathy über Grok 3 denkt. Er hat auch das neue Sprachmodell getestet . Laut Karpathy konkurriert der Chatbot in einigen Bereichen mit den besten Wettbewerbern:

...Grok 3 hat eindeutig ein nahezu erstklassiges Denkmodell ("Denk"-Taste) und hat bei meiner Frage zu den Siedlern von Catan großartige Ergebnisse geliefert:

"Erstelle eine Webseite für ein Brettspiel, die ein Hexfeld zeigt, genau wie im Spiel Siedler von Catan. Jedes Hexfeld ist von 1 bis N nummeriert, wobei N die Gesamtzahl der Hexfelder ist. Mach es generisch, sodass man die Anzahl der "Ringe" mit einem Schieberegler ändern kann. Zum Beispiel beträgt der Radius in Catan 3 Hexe. Bitte eine einzelne HTML-Seite."

Wenige Modelle schaffen das zuverlässig. Die besten Denkmodelle von OpenAI (z.B. o1-pro, für 200 $/Monat) schaffen das auch, aber alle anderen wie DeepSeek-R1, Gemini 2.0 Flash Thinking und Claude nicht.

Andrej Karpathy schätzte auch die Entschlossenheit von Grok 3:

Ich mag, dass das Modell versucht, die Riemann-Hypothese zu lösen, wenn man es darum bittet, ähnlich wie DeepSeek-R1, aber im Gegensatz zu vielen anderen Modellen, die sofort aufgeben (o1-pro, Claude, Gemini 2.0 Flash Thinking) und einfach sagen, dass es ein großartiges ungelöstes Problem ist. Ich musste es schließlich stoppen, weil ich ein wenig Mitleid mit ihm hatte, aber es zeigte Mut, und wer weiß, vielleicht eines Tages...

Es gab jedoch einige Nachteile. Der Deep Search-Agent äußerte einige Bedenken:

…das Modell scheint standardmäßig nicht gerne X als Quelle zu verwenden, obwohl man es ausdrücklich darum bitten kann. Mehrere Male habe ich es dabei erwischt, wie es URLs halluciniert hat, die nicht existieren. Mehrmals sagte es faktische Dinge, die ich für falsch halte, und es gab dafür kein Zitat (es existiert wahrscheinlich nicht).

Zusammenfassend bemerkte Andrej Karpathy, dass Grok 3, basierend auf den ersten Eindrücken, das Niveau der besten Modelle von OpenAI, wie o1-pro (200 $ pro Monat), erreicht hat und sogar DeepSeek-R1 und Gemini 2.0 Flash Thinking leicht übertrifft. Angesichts der Tatsache, dass das xAI-Team vor etwa einem Jahr mit der Entwicklung dieser KI von Grund auf begonnen hat, ist der Fortschritt beeindruckend. Es sind jedoch umfassendere Tests erforderlich, bevor man feststellen kann, ob der Chatbot wirklich den Titel "der Intelligenteste" verdient.

Bias-Bedenken

Es ist kein Geheimnis, dass Elon Musk aktiv am politischen Leben in den USA teilnimmt und offen seine Ansichten äußert. Einige Internetnutzer befürchten, dass Grok 3 auch bestimmte Narrative fördern könnte.

Diese Bedenken sind nicht unbegründet: Musk teilte einen Screenshot, der zeigt, wie der Chatbot ein Nachrichtenmedium kritisierte, während er X als die zuverlässigste Informationsquelle lobte. Dies geschieht trotz der Positionierung von Grok 3 als Produkt mit minimaler Zensur. Viele Menschen glauben, dass KI in ihren Urteilen neutral bleiben sollte.

***

Ungeachtet dessen markiert die Einführung eines weiteren vielversprechenden Sprachmodells einen wichtigen Meilenstein im laufenden KI-Wettlauf. Je höher der Wettbewerb, desto schneller schreitet der Fortschritt voran.

Was halten Sie von Grok 3? Teilen Sie Ihre Gedanken in den Kommentaren.

How do you feel about the rapid development of AI?

Ergebnisse
Der Beitrag wurde übersetzt. Original anzeigen (EN)
0
Kommentare 0