Nachrichten Die KI von Google lernt, die Welt durch eine Smartphone-Kamera zu analysieren

Die KI von Google lernt, die Welt durch eine Smartphone-Kamera zu analysieren

4 März 2025, 13:06 DoubleA

Bei MWC in Barcelona stellte Google bahnbrechende neue Funktionen für seinen KI-Assistenten Gemini vor. Ab März können Abonnenten des Google One AI Premium-Plans ihre Smartphones dank zweier wichtiger Innovationen – Live-Video-Analyse und Smart Screenshare – in KI-gesteuerte „Augen“ verwandeln.

Die Live-Video-Analyse ermöglicht es dem Assistenten, Echtzeit-Kameraeingaben sofort zu verarbeiten. Benutzer können ihre Kamera auf ein Kleidungsstück richten, um Styling-Tipps zu erhalten, oder einen Raum scannen, um Vorschläge für die Inneneinrichtung zu erhalten. Gemini „sieht“ nicht nur, was auf dem Bildschirm ist – es führt aktiv einen Dialog. Benutzer können beispielsweise fragen, ob eine Navigationsroute optimiert werden kann, oder eine komplexe Grafik in einer Präsentation klären, wobei sie Erklärungen in einem dynamischen, dialogorientierten Format erhalten.

Im Moment sind diese Funktionen nur auf Android-Geräten mit mehrsprachiger Unterstützung verfügbar. Am Google-Stand zeigte das Unternehmen Gemini, das auf Samsung-, Xiaomi- und anderen Partnergeräten läuft, und betonte die markenübergreifende Kompatibilität. Es gibt noch keine Informationen darüber, wann iOS-Nutzer Zugang erhalten werden.

Die angekündigten Updates sind nur ein Schritt in Richtung von Googles ehrgeizigem Astra-Projekt. Bis 2025 plant das Unternehmen, einen universellen multimodalen Assistenten zu entwickeln, der in der Lage ist:

Video-, Audio- und Textdaten gleichzeitig zu analysieren;
Den Gesprächskontext bis zu 10 Minuten lang aufrechtzuerhalten;
Daten aus Suche, Lens und Maps für umfassende Lösungen zu integrieren.

Obwohl Google Astra nicht offiziell als eigenständiges Produkt angekündigt hat, spekulieren Experten, dass seine Funktionen schrittweise in Gemini integriert werden, was den Wettbewerb mit ChatGPT intensiviert. Bemerkenswert ist, dass OpenAI seit Dezember 2023 einen erweiterten Sprachmodus mit Bildschirmanalyse angeboten hat, aber Google setzt auf eine tiefe Integration in sein eigenes Ökosystem.

Die Fähigkeit der KI, visuelle Informationen in Echtzeit zu verarbeiten, verwischt die Grenzen zwischen der digitalen und der physischen Welt. Benutzer interagieren nicht mehr nur mit einem „sprechenden Assistenten“, sondern engagieren sich mit einem aktiven Teilnehmer an ihren täglichen Aufgaben – vom Einkaufen bis zum Lernen. Mit dem Start von Gemini Vision betreten KI-Assistenten eine Ära hyperkontextueller Interaktion, in der sich die zentrale Frage von „Wie frage ich?“ zu „Was zeige ich?“ verschiebt.

Eine wichtige Frage bleibt: Datenschutz. Wie wird Google die über die Kamera und den Bildschirm übertragenen Daten schützen? Das Unternehmen versichert, dass alle Analysen unter strengen Sicherheitsstandards durchgeführt werden, aber die vollständigen Details werden erst mit der offiziellen Veröffentlichung der Funktionen bekannt gegeben.

Android Nachrichten Hardware und Technologien Google

Kommentare 0

Einen Kommentar hinterlassen