Chat Statt Photoshop: Googles Gemini 2.0 Flash Lernt Bilder Durch Dialog Zu Bearbeiten

Google hat einen unerwarteten Schritt im Rennen um generative KI gemacht, indem es eine experimentelle multimodale Version von Gemini 2.0 Flash in AI Studio eingeführt hat. Das Modell kann nicht nur Bilder von Grund auf neu erstellen, sondern auch Details in bestehenden Fotos über eine einfache Chat-Oberfläche ändern — ohne das gesamte Bild neu erstellen zu müssen. Dies ist das erste Mal, dass ein großer Akteur eine solche Funktionalität eingeführt hat, und übertrifft OpenAI und Elon Musks xAI.
Benutzer können Gemini Befehle in einem Gesprächsformat geben, wie zum Beispiel „den Hintergrund mit einer Berglandschaft ersetzen“ oder „eine Bildunterschrift auf Russisch hinzufügen“. Die KI behält den Kontext des Gesprächs bei, was eine Reihe von fortschreitenden Änderungen ermöglicht. Zum Beispiel können Benutzer das Outfit einer Person ändern, sie dann „an einen anderen Ort bewegen“ und schließlich das Licht anpassen. Alle Änderungen werden direkt auf das Originalbild angewendet, was Zeit und Ressourcen spart.
Jedes generierte Bild ist automatisch mit einem SynthID-Wasserzeichen versehen — Googles Technologie zur Bekämpfung von Deepfakes. Dies ist besonders wichtig für Designer und Vermarkter, die jetzt legal Inhalte in kommerziellen Projekten verwenden können. Weniger offensichtlich, aber ebenso beeindruckend sind Funktionen wie Texturklonierung, Farbgebung alter Fotos und sogar das „Ausfüllen“ fehlender Elemente in Bildern mit textbasierten Vorschlägen.
Während Gemini 2.0 Flash Befehle auf Russisch versteht, ist der Dienst offiziell nicht in Russland verfügbar. Entwickler und Unternehmen können das Modell kostenlos über AI Studio oder API testen, aber einige Funktionen, wie Gesichtstausch oder komplexe Wiederherstellung, bleiben instabil. Google betont, dass dies eine frühe Version ist und die endgültige Veröffentlichung für Echtzeitanwendungen optimiert wird.
Experten stellen fest, dass Google zum ersten Mal die kreative Flexibilität von Midjourney, die Präzision von DALL-E und die Interaktivität von ChatGPT in einem einzigen Modell kombiniert hat. Wenn das Experiment erfolgreich ist, könnte es die Arbeit in Design, Bildung und sogar Journalismus erheblich vereinfachen — indem es sofortige Datenvisualisierung oder die Erstellung von Artikelillustrationen ohne menschliches Eingreifen ermöglicht. Für den Moment bleibt Gemini 2.0 Flash ein faszinierendes Werkzeug, das bereits die Möglichkeiten der generativen KI neu definiert.
-
Die KI von Google lernt, die Welt durch eine Smartphone-Kamera zu analysieren
-
Google Chrome geht auf Autopilot: Browser ersetzt jetzt automatisch kompromittierte Passwörter
-
Google hat einen «stillen Krieg» gegen Werbeblocker begonnen: Beliebte Werbeblocking-Tools scheitern.
-
Erweiterter Schutz 2.0: Google Chrome führt KI-gestützte Abwehr gegen unbekannte Bedrohungen ein
-
Anzeigen haben die Suche getötet: Nutzer suchen nach Google-Alternativen