programmier.bar – der Podcast für App- und Webentwicklung

News AI 21/26: Google I/O: Spark, Omni, Flash 3.5 & Antigravity 2.0

programmier.bar Season 7 Episode 41

Use Left/Right to seek, Home/End to jump to start or end. Hold shift to jump forward or backward.

0:00 | 44:12

Wie hat dir die Folge gefallen?
Gut 👍
Schlecht 👎
(Keine Anmeldung erforderlich)


Google hat auf der Google I/O 2026 gefühlt im Minutentakt neue AI-Produkte vorgestellt. Neue Gemini-Modelle, Agent-Frameworks, Coding-Tools, persönliche AI-Agents und omnimodale Video-KI – und mittendrin versucht Dennis live im Podcast noch Omni zum Laufen zu bringen.

Gemeinsam sprechen Dennis, Fabi und Philipp über die wichtigsten AI-Ankündigungen der Woche und ordnen ein, was davon echtes Potenzial für die tägliche Arbeit von Entwickler:innen hat und was aktuell noch eher nach ambitionierter Zukunftsvision klingt.

Ein großes Thema der Folge ist Gemini 3.5 Flash. Google positioniert das Modell klar für agentische Workflows und hohe Geschwindigkeit. Die drei diskutieren, warum „Flash“ inzwischen eher auf Sonnet-Niveau spielt, weshalb das Modell gleichzeitig deutlich teurer geworden ist und warum Geschwindigkeit sich aktuell fast wichtiger anfühlt als die letzte Prozentzahl Modellqualität. Außerdem geht es um die Frage, ob ultraschnelle Agenten irgendwann so autonom agieren, dass ihre Entscheidungen kaum noch nachvollziehbar sind.

Auch Googles neues Agent-Ökosystem rund um Anti-Gravity sorgt für Gesprächsstoff. Aus Gemini CLI wird Anti-Gravity CLI – ergänzt um Desktop-App, Remote-Sandboxes, gemeinsame Agent-Harnesses, Managed Agents und ein neues SDK. Die Folge beleuchtet, wie Google damit versucht, ein vollständiges AI-Coding-Ökosystem aufzubauen und warum der Konkurrenzdruck im Bereich agentischer Entwicklungsumgebungen weiter zunimmt.

Mit Gemini Spark zeigt Google außerdem seine Vision eines persönlichen AI-Agents, der dauerhaft im Hintergrund läuft und auf Gmail, Kalender, Docs und künftig auch MCP-Integrationen zugreifen kann. Die drei diskutieren, warum Spark möglicherweise der erste massentaugliche AI-Agent werden könnte, wie nah das Konzept an Projekten wie OpenClaw liegt und ob Apple zur WWDC auf ähnliche Weise reagieren muss.

Besonders beeindruckend ist außerdem Omni, Googles neuer Vorstoß im Bereich omnimodaler KI. Das System kombiniert Text, Bilder, Audio und Video und ermöglicht damit neue Video-Editing- und Generierungs-Workflows. Im Fokus stehen vor allem die Konsistenz von Szenen, physikalisches Verständnis und die Frage, warum gerade Werbung und Social Content massiv von solchen Modellen profitieren könnten.

Und natürlich darf auch die Praxis nicht fehlen: Dennis versucht während der Aufnahme live ein Omni-Video zu generieren – mit wechselndem Erfolg.

Zum Abschluss der Folge sprechen wir über die neuste Ankündigung von Andrej Karpathy und seinem Wechsel zu Anthropic.


Schreibt uns!
Schickt uns eure Themenwünsche und euer Feedback: podcast@programmier.bar

Folgt uns!
Bleibt auf dem Laufenden über zukünftige Folgen und virtuelle Meetups und beteiligt euch an Community-Diskussionen.

Bluesky
Instagram
LinkedIn
Meetup
YouTube

SPEAKER_01

Hallo und herzlich willkommen zu einer neuen AI-News-Folge. Und wir haben gerade, bevor wir angefangen haben, gesagt: heute wissen wir, was auf der Agenda ist, aber wir beteiligen gar nicht auf, wer was sagt. Und deswegen musste ich gerade so lachen, weil ich noch nicht mehr wusste, ob ich die Intro mache oder ob das Fabi macht. Und deswegen weiß ich überhaupt gar nicht, welche Kalenderwoche ist. Aber herzlich willkommen zu den AI-News dieser Woche. Ich bin Dennis Becker in der Fabi Fink. Hallo. Und wir haben auch noch den.

SPEAKER_00

Philipp, hallo.

SPEAKER_01

Yes. Und zwar wollten wir heute vor allen Dingen inhaltlich darüber reden, was es auf der Google IO Neues gab. Die hat zu unserer Aufnahme gestern, wenn ihr sie hört, vorgestern stattgefunden. Ja, und da gibt es einige Neuerungen, natürlich auch aus oder vor allen Dingen aus dem AI-Bereich. Ich weiß gar nicht, ob irgendwas veröffentlicht wurde, wo nicht irgendwo. Gab es irgendeine, gab es irgendein Philipp Announcement, was nicht AI.

SPEAKER_02

Es war ja immer AI drin, ne? Wenn du sagst, wir haben Intelligent EyeWare released. Ja, nee, das ist ja auch komplett AI. Lass doch lieber die Sachen sagen, die drin waren, oder? Neues Modell Gemini 4.5 Flash, Gemini-Modell, was Multimodal mit Video ist, Anti-Gravity 2.0, Gemini Spark, der neue 24-7 Personal Agent und die Intelligent EyeWare und noch viele andere Details, aber ich glaube, das sind so die und vielleicht noch wie, auch wenn es immer für mich nicht so spannend ist, aber ich glaube zumindest auf technischer Ebene ganz relevant, die neuen Chips, mit denen das Ganze mitskaliert, also die TPU-Updates, die es gab. Das stimmt, aber war das in der Keynote noch mit drin?

SPEAKER_01

Da müsst ihr was drüber erzählen über die Chips, da weiß ich gar nichts. Also, wir sind ja unterschiedlich aufgeteilt. Philipp hat gerade schon gesagt, er musste, während der ersten Keynote hat er gar nicht so viel mitbekommen, weil er die zweite vorbereiten musste, beziehungsweise parallel Dinge live schalten musste mit seinem Team. Fabi hat die Keynote geguckt, ich habe nur den Blogartikel gelesen, das heißt, wir haben alle ein bisschen unterschiedliche Quellen für das Ganze hier. Aber gucken mal, worauf es kommt. Ich würde sagen, wir starten mal, weil wir ja hier für App und WebentwicklerInnen einen Podcast machen. Starten wir mal mit Gemini 3.5 Flash, würde ich sagen, weil das so am nächsten an unserem täglichen Doing ist und uns vielleicht am meisten noch tangiert zusammen mit allem, was da noch außenrum ist. Antigravity, Antigravity, CLI, Antigravity 2 und so weiter. Gemini 3.Flash. Philipp, du machst doch bestimmt so, hast du so ein Model-Card im Kopf und sagst jetzt das, das, das, in die Frage.

SPEAKER_00

Ja, das geht tatsächlich relativ schnell. Also es ist einfach eine neue Version von und Flash. Das heißt, keine API-Changes, in dem Sinne außer die neue Model-ID. Es ist bis zu viermal schneller als andere Modelle aktuell. Das heißt, wenn ihr irgendwie in den letzten zwei Tagen das dann schon getestet habt, den Anti-Gravity, ER Studio, Gemini, also es ist überall drin, solltet ihr gemerkt haben, dass es sehr, sehr schnell ist. Es ist jetzt ungefähr bzw. besser als 3.1 Pro für Coding und Agentic Experiences, also alles, was mit Tool Calling to do hat. Und es ist auch dreimal teurer geworden. Das ist das, glaube ich, das größte oder das Negativste, was jetzt aufgefallen ist, sag ich mal, bei vielen. Aber es ist immer noch, also man darf es, glaube ich, weniger mit einem Haiku oder mit einem GBT-Mini vergleichen, sondern eher auf dem Sonet-Level. Also es sind, er kostet jetzt neun Millionen Output-Token, Inputs-Token, weiß ich gerade gar nicht aus dem Kopf, genau. 1,50. Okay, genau. Und halt wirklich auf dem, wie, also wenn ihr irgendwie Sonet aktuell nutzt, dann wäre Flash sozusagen das Alternativmodell davon jetzt.

unknown

Ja.

SPEAKER_02

Ich meine, ist ja schon interessant, ne? Gibt ja auch, also der Gemini 3.5 Flash gibt es ja auch, wo du meintest, auch durchaus viele Diskussionen drum, weil ja dieses Flash und irgendwie günstigere Modelle und sowas hält ja nicht mehr so ganz, wie du meintest, irgendwie schon drei bis viermal so teuer irgendwie wie das vorherige Flash-Modell, ist dafür aber auch sehr viel schneller. Und ich glaube, der Unterschied ist, wie du auch sagst, es ist halt jetzt, sie sagen ja selber oder Google ja selbst, strongest Agentic Model und auch Coding-Modell. Aber interessant ist ja auch, also dass es zwar schneller geworden und Token-Wise, drei bis viermal so teuer wie das vorherige Flash-Modell, immer noch günstiger als The 3.1 Pro. Aber wenn man sich nochmal ein paar andere Benchmarks auch anschaut, also zum Beispiel Artificial Analysis, dann ist ja schon so sehr interessant, dass dadurch, dass es eben Agentic ist und scheinbar sehr viel mehr Reasoning am Ende betreibt, dass die Token Usage viel, viel höher geworden ist und deswegen auch dieses Price-Promise gar nicht mehr so ganz hält. Wenn man es vergleicht für den Artificial Intelligence Index, um den durchzuführen, hat 3.1 Pro knapp 900 Dollar gekostet, wohingegen 3.5 Flash jetzt fast 1,500 Dollar kostet für den gleichen Benchmark. Und man kann sagen, so 75% teurer ist für das gleiche Ergebnis im Vergleich zu 3.1 Pro. Und auf dem Benchmark zumindest ist auch 3.1 Pro immer noch besser. Und auch was man draußen liest, ich glaube, so ganz einig ist sich bisher nach dem ersten Test der Community noch nicht, ob es wirklich das bessere und das Successor-Modell für dann auch das Pro-Modell ist. Und aber generell interessant, dass man Flash nicht mehr so ganz in diese so günstigere Kategorie eigentlich einordnen kann.

SPEAKER_00

Ja, ich meine, Flash stand eigentlich eher schon immer für das Schnelle, deswegen Flash. Und es verändert sich ja immer. Also, ich glaube, in ein paar Monate sitzen wir wieder da und haben dann gleich Intelligenz für weniger Preise oder noch schneller. Ich habe es schon ein bisschen genutzt, also im Vorfeld, auch in Anti-Gravity und in einem neuen Anti-Gravity, in der Anti-Gravity 2.0. Und es macht sehr viel Spaß. Also es ist viermal schneller in den Tests, die wir gemacht haben als Opus, and this merkst du halt. Und es gibt ein sehr gutes Gefühl, wenn du halt irgendwie jetzt nicht die komplett komplexesten Tasks machst. Aber Dennis hat laptop for ein paar Wochen gesagt: so, hey, ich start das mit a task, ich weiß gar nicht, was ich da 20 Minuten lang machen soll, weil die immer ganz schnell fertig sind. Und mit Flash bist du halt jetzt noch viel schneller und kannst noch viel mehr machen und halt dann vor allem auch Subagents, was halt cool ist, wenn du dann sehr spezifische Tasks hast.

SPEAKER_02

Und hast du einen Kontext dazu, weil sie ja, wie gesagt, haben, viermal fast schneller als andere Modelle, aber sie sagen in Antigravity zwölfmal schneller. Also damit ist gemeint, überall, wenn ich es in CLI, in Antigravity oder in der Antigravity IDE nutze oder was?

SPEAKER_00

Ich weiß jetzt nicht genau, in welchen IDEs und über welche Pläne oder Subscription und welchen Tools, aber sollte es so ähnlich sein wie der Fast Mode bei Opus oder bei Codex, soweit ich weiß.

SPEAKER_02

Okay, weil ich noch nicht ganz. Vielleicht meinen sie in Intigravity hatte ich irgendwo gehört, deswegen das hatte ich irgendwie einfach noch nicht so ganz verstanden, warum es in Entigravity schneller ist, als wenn ich das Modell irgendwie über, keine Ahnung, dem Router anschließe.

SPEAKER_00

Auch eigentlich spezieller Innenpunkt oder sowas, der halt nur in Anti-Gravity verfügbar ist.

SPEAKER_01

Das, was ja auch kommuniziert wurde, dass halt eben Anti-Gravity oder die Harness, die außenrum ist, halt speziell optimiert wurde auf das 3.5-Flash-Modell. Was vielleicht auch einfach nochmal in diesem Zusammenspiel von, wie fühlt es sich an, wie gut ist es, wenn du es halt irgendwo reinpackst, ist vielleicht das Erlebnis, das du im Moment hast, auch nochmal ein anderes, als wenn es dann tatsächlich in einer Harness nutzt, die speziell dafür irgendwie optimiert wurde. Ich muss schon sagen, ich weiß gar nicht, ich bin nur so, also wir haben intern so in Slack gab es Stimmen, die ein bisschen Pro, also Pro und Kontra waren, was das neue Modell angeht. Ich habe es halt gestern Abend schon auch relativ viel benutzt. Und diese Geschwindigkeit ist schon beeindruckend, weil es einfach wirklich deutlich, deutlich schneller ist. Aber es ist halt auch so, dass du dann halt jetzt auch schon wieder deutlich weniger nachvollziehen kannst. Gerade frage ich mich ein bisschen, wie gut ich diese Wechsel finde, weil Claudia ist es schon so, du kannst diese Gedankenschritte noch so lesen und irgendwie scannen. Und das, was jetzt im Moment passiert ist mit Dreif und Flash, das geht alles so schnell, dass ich oft so war, ja, Kacko, und dann hast du auf einmal so drei DINA-4-Seiten und denkst so, das fühlt sich dann auf einmal so ineffizient an, weil du auch jetzt hier wieder langsam bist, das alles irgendwie zu konsumieren, bevor du dann eine Entscheidung treffen kannst, wie es weitergeht. Das war teilweise so, wo das hast du jetzt noch gemacht.

SPEAKER_00

Bei Cloud das Thinking oder einfach die Notizen, die du bei Cloud Code oder in der App bekommst?

SPEAKER_01

Im Grunde alles. Also, ich meine, von den Thinking-Schritten, die irgendwie da sind, plus natürlich dann, während die Ausgabe generiert wird, kannst du ja trotzdem noch so irgendwie einigermaßen scannen, wo ist der gerade und was schreibt der gerade. Und das ist halt bei 3.5 Flash einfach in einer Geschwindigkeit, wo du es nicht mehr, also wo du es nicht mehr hinbekommst. Aber ich glaube, das ist ja wirklich ein ganz klarer Case von Geböhnung, oder?

SPEAKER_02

Es ist ja, das wird nicht so gut. Natürlich das Ergebnis gut genug, jetzt wird dir das so schnell egal sein. Ja, aber ich war trotzdem ein bisschen, ja. Aber ich meine, das zeigt ja nochmal den Geschwindigkeitsbooster, dass du, wenn du sagst, da kommst du jetzt schon nicht mehr mit vor, kann man nicht mehr auf dem High-Level so grob die Gedanken nachvollziehen, inhaltlich nicht mehr folgen. Jetzt kannst du noch nicht mal mehr die Grobschritte nachvollziehen.

SPEAKER_01

Und jetzt war es halt also, dann zusammenfassen, ey, ich habe gerade das, das, das und das gemacht und so du, du hast jetzt gerade all diese Schritte, wieso? Wirst du und dieses Dokument erstellt. Also das fand ich schon, muss ich sagen, sehr beeindruckend. Das waren jetzt alles noch keine Tasks, aber muss ich auch sagen, ich bin sonst, ich kann diese Grenze von, was sind komplexe Tasks und wo fühlt sich dann ein größeres Modell irgendwie besser an. Die kann ich selbst für mich noch nicht so auch nicht richtig greifen bei den Projekten, die ich so mache. Aber es hat auf jeden Fall sehr viel Spaß gemacht, das zu nutzen. Das habe ich gemacht, vielleicht können wir da kurz direkt drauf eingehen, in Antigravity 2. Das ist nämlich eine komplett neue App. Also das ist, man kann es praktisch Anti-Gravity 1 parallel dazu installieren, dass ja noch so ein bisschen ein Mix war. Auf du hast eigentlich eine ID, deinen Code-Editor und du hast so ein bisschen deinen Manager, um deine Agents zu machen. Zu jetzt sehr reduziert eigentlich interagierst du dann nur noch mit den Agenten. Ähnlich ein bisschen, was man aus Conductor, Superset und sonstigen Tools irgendwie kennt.

SPEAKER_02

Vielleicht bei deine Nafrage zu, die kann der Philipp vielleicht dann direkt einladen, aber so, wie ich es verstanden habe, ist, was vorher Entigravity war, jetzt Entigravity IDE und wurde der Name Entergravity wird ersetzt von der Entigravity 2.0, was dann diese Desktop-App ist, die ein bisschen ähnlicher ist auch zu der Cloud Desktop-App und so weiter. Aber es gibt doch das, was vorher 1.0 war, ist doch jetzt IDE, oder?

SPEAKER_00

Ich glaube, das für mich war das davor schon IDE. Weiß jetzt nicht genau, wie das Trending technisch ist.

SPEAKER_02

Genau, ja, aber sie hieß ja schon Enter Gravity, weil ich fand interessant, dass ich Entigravity 2.0 runtergeladen habe und dann ersetzen musste auf meinem Mac mit der alten, dass sie, hä, ich hab doch noch nie die Desktop-App drauf gecheckt hab. Ah, nee, okay, die alte ist jetzt IDE, auch explizit genannt und die neue heißt jetzt Entire Gravity.

SPEAKER_01

Aber ich glaube, das war so ein Last-Minute-Change, weil auf meiner Dokumentationsseite gestern war noch, die App-Icons sind unterschiedlich, aber sie heißen gleich. Vielleicht hatten die nicht auf dem Schirm, dass man als Standardnutzer die dann einfach bei Mac überschreibt. Ja, klar, kann sein.

SPEAKER_02

Also ich war davon war ich verwirrt, dachte ich so, hä, ich hab doch noch nie die Desktop-App runtergeladen.

SPEAKER_01

Ja. Nee, nee, die hatte ich auch. Vielleicht hat die ersten, keine Ahnung, du kannst auch vielleicht mal sagen, was die Pläne sind. Das erste, als jetzt Kontaktor-Nutzer, der ich viel vorher war, ist so ein bisschen, dass mir ein paar Sachen fehlen, wie irgendwie, wo ist mein Terminal und wo ist so ein bisschen, also ich habe theoretisch noch weniger, auch irgendwie eine Vorschau und sowas nicht. Kann aber auch sein, dass ich jetzt alles noch nicht gefunden habe oder ist das explizit im Moment nicht da?

SPEAKER_00

Ich weiß es leider nicht. Ich kann es ja echt nicht sagen. Also, ich hab waren die letzten Wochen ein bisschen mehr beschäftigt mit Dingen, die wir in der Gemina API und AI Studio gemacht haben. Und das Team ist super schnell. Also, wir kriegen jetzt gar nicht immer alles mit, was irgendwie neu kommt. Ich glaube, das große, wichtige und ganze ist, dass man es versucht, einheitlich zu machen, im Sinne von, es gibt ja jetzt die Anti-Gravity CI, die nutzt den gleichen Agent-Harness wie die Anti-Gravity IDE, wie die Antigality 2.0. Das heißt, egal wo du, welches Coding-Environment man irgendwie bevorzugt, also sei es, ich arbeite gerne in meinem Terminal oder ich mache jetzt auf meinem Server was in meinem Terminal oder ich möchte gerne noch irgendwie ein Terminal haben und Files-Editor oder ich kriege Hands off, ich brauche nur ein Chat-Interface. Alles nutzt jetzt irgendwie denselben Agent und denselben Hintergrund und dieselbe Sessions und sowas, dass ich halt einfach flexibel da dazwischen hin und her schützen kann. Wie das jetzt genau mit den Featern ist, kann ich dir nicht sagen. Ich weiß auch gar nicht, ob der Plan ist, dass die neue Version so komplett wird wieder zu einem Editor. Ich meine, man geht ja aktiv den Schritt weg von, ich bin in einem Coding-Editor, wo ich alles so manuell mache, hinzu, ich mache es eher kollaborativ mit den Agents. Und da ist halt die Frage, hey, brauche ich ein Terminal oder sollte ich lieber meinem Agent halt sagen, welche Background-Jobs laufen lassen kann für das Command für mich aus. Da weiß ich halt nicht, wo sie gehen wollen.

SPEAKER_01

Ja, kann sein, dass ich da auch einfach noch nicht modern genug bin in dem Sinne. Weil das ist tatsächlich, das hat ganz gut funktioniert. Er hat dann einfach im Hintergrund halt irgendeinen NPM oder irgendeinen Node-Prozess laufen lassen, der dann da angezeigt wurde, was halt sonst normalerweise dann irgendwie abgebrochen wird oder sowas, was aber da einfach im Background dauerhaft weiterläuft und passiert ist. Also es können mehrere Sachen einfach im Hintergrund laufen, die der Agent praktisch macht, wo du gar nicht so einen großen Einfluss hast. Von daher kann das schon richtig sein, einfach zu sagen, ja, wofür brauchst du ein Terminal, wenn das einfach der Agent bedienen kann? Da brauchst du ja nicht mehr sehen. Was ich natürlich grundsätzlich erstmal begrüße. Okay, aber lass uns das nochmal ganz kurz aufdröseln. Also Antigravity, haben wir gerade gesagt, ist die neue App, die man nutzen kann. Dann Antigravity CLI, die die Gemini CLI ersetzt. Und dann gibt es noch dieses SDK-Ding, das heißt Antigravity SDK. Antigravity SDK.

SPEAKER_02

Und Managed Agent in Gemini RP gehört ja auch noch so ein bisschen machen.

SPEAKER_00

Und den Anti-Gravity Preview Agent. Willst du dazu ein bisschen was erzählen, Philipp? Ja, das kann ich gerne nicht erzählen, weil das habe ich mitgebaut. Dann haben wir ja eine richtige Manier. Yeah, also Managed Agents sozusagen oder with Managed Agents, du hast den neuen Anti-Gravity Preview Agent, welcher denselben Harness wie die Anti-Gravity IDE, CLI und andere Tools, sag ich mal, im Hintergrund hat. Und das Neue daran ist jetzt, dass Gemini eine Sandbox bekommen hat. Das heißt, wenn du einen Request schickst, kannst du halt ein Environment definieren, was einfach nur remote ist. Das heißt, ich will einfach, hey, start für mich ein Container, Linux-VM, Basic, aber man kann auch Sourcen definieren und halt Skills direkt inline. Das heißt, du kannst wie in einem JavaScript-Dictionary oder einem Python-Objekt halt einfach sagen, hey, hier ist eine Liste, hier ist meine Source, das ist von Typ GCS oder von Typ Repository oder Inline, kann ich GitHub-Repositories oder GCS-Buckets oder halt einfach Content bereitstellen und das in meinen Environment mounten. Und ich kann noch Network Rules definieren. Das heißt, wir haben halt immer das Problem, hey, wenn ich beim Agent auf irgendeiner VM Credentials kippe, keine Ahnung, was der damit macht, und wir haben das so gelöst, dass man ein Proxy außenrum hat. Das heißt, der Agent an sich hat gar nicht den Open API Key oder den Gemini API Key, sondern der weiß, dass er einen Request machen kann. Und dann tauschen wir in dem Request sozusagen den Heeder aus. Und das kann man selber konfigurieren. Das heißt, wenn ich irgendwelche speziellen Custom Header nutze und ich irgendwie den Authorization Header, dann kann ich das alles machen. Und dann kann er halt wie auf, sag ich mal, den Local Coding Agents in der Sandbox das ausführen und komme dann zu dir zurück. Und Managed Agent ist sozusagen das, was dir ermöglicht, dann noch Custom Agents zu bauen. Also ich kann ja meine Resources definieren oder mein Environment irgendwie scaffolden. Das heißt, ich könnte zum Beispiel einen Request machen zu meinem Agent und sagen, hey, bitte installiere mir irgendwie die Node-Version und irgendwie download das GitHub-Repository und dann habe ich halt ein Environment mit einem State und ich kann sagen, hey, kopiere jetzt dieses Environment und gebe es einem Agent. Der Agent hat dann einen Namen oder beziehungsweise eine ID und habe noch halt die Network-Rules und dann kann ich diesen Agent aufrufen wie alle anderen Gemini Models. Das heißt, ich habe so, anstatt in meiner SDKs sage ich nicht mehr irgendwie Gemini 3.5 Flash, sondern ich sage halt Dennis GitHub Repository Owner. Und dann kann ich ganz normal mit allen Tools und allen SDKs, allen Integrationen sozusagen dieses oder diesen Agent nutzen.

SPEAKER_02

Das heißt theoretisch dann auch, gibt es eine, kann ich da, kann ich meine, gibt es irgendeine iPhone-App, wo ich das Modell definiert habe? Könnte ich es auch theoretisch am iPhone dann machen? Ich weiß gar nicht, ich bin nicht gut genug drin, dass ich da. Ja.

SPEAKER_00

Also ich meine, du kannst ja auch nicht so ein bisschen. Das muss ja ganz cool sein, wenn man da komplett Agents aufrufen und das alles, also es ist nur ein API-Call. Du kannst den Agent erstellen, was einfach nur halt diese Konfigurationsdefinition außenrum ist mit dem Environment oder ich kann es inline definieren und dann habe ich eine ID und dann kann ich die ID mit einem ganz normalen API-Call nutzen von überall.

SPEAKER_02

Ich meine, dieses ganze Prinzip ist ja super interessant. Ich meine, im Endeffekt fangen wir ja schon darüber, ja, jetzt ein bisschen an darüber zu reden, was Gemini Spark ist, so, ne? Da können wir vielleicht gleich mal halt nichts drauf eingehen, macht vielleicht Sinn, weil das ja im Endeffekt auch diesen Harness, wenn ich nach dir verstehe, am Ende nutzt, eine Art VM in der Cloud, die sozusagen gesandboxed ist, irgendwie über diese Proxy-Infrastruktur super interessant, so wie ihr es gelöst habt mit den Environment-Variablen für halt sowas wie Tokens oder so. Das ist ja super interessant, dass dieses Stück Technologie da im Endeffekt an so vielen Stellen dann genutzt wird. Man kann es selbst definieren, aber auch so mit Spark, so dem das hauptsächliche Produkt, was darum gebaut wurde, End-User-Facing-Produkt. Genau. Mega cool.

SPEAKER_01

Dennis schaut zu skritisch. Ja, ich bin mir nicht sicher, ob ich es ganz verstanden habe. Du hast eben irgendwas genannt, das hatte Preview in den Namen. Ist das, weil es ein Preview ist oder weil das ein Preview-Agent ist?

SPEAKER_00

Also das sind zwei Dinge gelauncht. Es gibt zum einen, so ähnlich wie Deep Research, gibt jetzt den Anti-Gravity-Preview Agent. Das ist wie ein Modell, beziehungsweise es hat halt eine ID, die du einfach aufrufen kannst. Das heißt, du kannst einfach den Anti-Gravity Agent Harness mit dem Gemini 3.5-Modell in einer Remote Linux-Sen-Box nutzen via API-Call, wie du ganz normalen Modell callen würdest. Und dann Managed Agent ist sozusagen die Infrastruktur und die Konfiguration, die wir außen rum gebaut haben, dass du eigene Agents definieren kannst, dass du die speichern kannst, dass du die dann direkt aufrufen kannst, ohne immer dieses neu einzugeben, sage ich mal.

SPEAKER_01

Okay, und wo kommt dieses Preview in dem Namen her?

SPEAKER_00

Es ist einfach, dass es halt noch nicht noch nicht GA, das heißt, es kann noch kleine Veränderungen geben oder Features fehlen noch.

SPEAKER_01

Okay, das wollte ich nur, okay, weil das Preview hier an der Stelle jetzt nicht hinten dran hängt, was es sonst immer tut.

SPEAKER_00

Deswegen, ob es ein Preview-Agent ist oder einmal der Agent hat die ID Anti-Gravity Preview. Ah, okay. Und die API ist in Preview. Anti-Gravity Preview. Alles klar, okay. Jetzt habe ich es, glaube ich. Er hat keine Preview-Attage. Super Dokumentation und es gibt Super Dokumentation und man kann es direkt in AI Studio testen. Das heißt, wenn ihr auf AI Studio geht, gibt es jetzt so ein Agents-Tab und da gibt es auch sechs solche Beispiel-Agents von, wenn ihr es vielleicht eine Developer-Kynote gesehen habt mit dem AI-Radio oder auch es gibt einen Repository Maintainer, ein Data Analyst, dann, ich weiß gar nicht, was die anderen zwei sind. Und dadurch, dass es halt alles über File-Systems definiert ist. Das heißt, ich habe einfach meine Skills in meinem Environment oder Skripte oder meine Agents-MD, habe ich nicht irgendwelche komplexen Broad-APIs, die ich irgendwie definieren muss, sondern ist alles über halt dieses Environment gelöst. Und der Agent kann dann auch an sich seine eigenen Skills halt verändern. Das heißt, ich sage halt in einem Turn, hey, bitte installiere das und das und im nächsten Turn hat er dann sozusagen den neuen Skill drückbar.

SPEAKER_01

Und wenn ich es jetzt über AI Studio nutze, wo, an welcher Stelle hinterlege ich dann die Keys, die ich beispielsweise brauche, um XY zu nutzen?

SPEAKER_00

Da gibt es an der rechten Seite unten Network oder Sources und da kann man das dann sozusagen hinzufügen. Das ist alles URL-Based, das heißt, ich muss zuerst meine Domain definieren, die keine Wildcard haben und dann welche Transformation ich für den HTTP-Header durchführen möchte. Okay.

SPEAKER_02

Bevor gleich wieder wir Feedback bekommen zu Dingen, die du falsch aussprichst, Philipp. Ich glaube, es heißt Header und Heeder. Nicht, dass es am Ende wieder hier.

SPEAKER_00

Für mich ist es ein HTTP-Heater.

SPEAKER_02

Okay, dann haben wir es hier gesagt, da müssen Leute draußen kein Feedback geben.

SPEAKER_01

Sehr gut. Alles klar.

SPEAKER_02

Vielleicht noch das einzige, weil es zumindest da draußen ja auch diskutiert wird, so ein bisschen dieser Move mit Gemini CLI, Success Enti-Gravity CLI, dass ja Gemini CLI Open Source war, sie jetzt im Endeffekt dieses CLI gesunsettet haben und Closed Source gemacht haben. Ja, weiß nicht, ob wir, ob wir es jetzt hier im Podcast auch nochmal drüber diskutieren müssen, aber es ist zumindest was, was da draußen irgendwie diskutiert wird, Open Source und vor allem auch nach manchen, die Gemini CLI war besser als die Entire Gravity CLI, also was Closed Source hingestellt, was man nicht mal verbessern kann, dann auch noch nicht auf demselben Niveau, wie die Gemini CLI war. Aber es sei mal hier als Sozusagen gesagt, ich weiß nicht, ob wir in das Diskussionsthema aufmachen wollen.

SPEAKER_01

Wo wir vielleicht nochmal kurz ein bisschen einsteigen können, weil wir es gerade dann auch tuschiert haben als Oberfläche, wo man das Ganze auch nutzen kann, ist ja das Google AI Studio, was wir ja durchaus häufiger schon hier auch erwähnt hatten, weil es einen ganz coolen, einfachen Zugang zu dem Ganzen gibt. Da gab es ja durchaus auch ein paar Updates. Ich glaube, so mit eins der, nee, ich weiß nicht, ob es eins der größten ist, aber eins, was auf jeden Fall spannend ist, dass die Android-Apps jetzt unterstützen. Das heißt, du kannst Full-fledged Native Android-Apps einfach in deinem Browser irgendwie bauen und musst keine SDKs und nichts irgendwie runterladen. Und ganz klar, was ich ein ganz spannendes Update fand.

SPEAKER_02

Und auch in dem Zuge, dass es diesen Android Studio Migration Agent gibt, ne? Also dass du React Native, Web und iOS-Apps super schnell mit diesem Agenten zu Native Kotlin-Apps rewriten lassen kannst. Also da gibt es ein paar Sachen in Richtung Kotlin und so weiter Integration, nicht nur in AI Studio.

SPEAKER_01

Und ich glaube ja auch diese ganze, also alles, was Firebase anbetrifft oder die U-Cloud, das ist ja immer schon so Firebase der Hook gewesen, um die Leute irgendwie die in die Cloud zu bekommen. Und damals ja auch irgendwie Mobile First so von der Idee gewesen. Das ist halt auch viel da drin. Das heißt, allem diese ganzen, alles, was im Umfeld von Google letztendlich passiert, ist halt super einfach dann zu integrieren. Sei es irgendwelche Services, sei es irgendwo was zu hosten und so weiter, ist halt eigentlich dann nur noch ein, mach das mal bitte so. Und es funktioniert direkt in diesem gesamten Setup. Du brauchst nicht nochmal ein Cell oder ein, weiß ich nicht was, um dann irgendwas laufähig zu haben. Das ist irgendwie auch ganz cool.

SPEAKER_02

Nice. Wenn wir dann auf die anderen beiden großen Themen kommen, in welcher Reihenfolge auch immer? Omni und Spark.

SPEAKER_01

Ja, Spark. Erstmal die größte. Ganz kurzer Rant. Rant ist schon ein bisschen übertrieben. Aber wir sind wieder da. Wir haben häufiger im Podcast schon unterhalten, so wann ist es, wir hatten mal eine Phase vor zwei Jahren, vor drei Jahren, wo häufig, als wir diese News hatten, immer hieß, ja, okay, es ist US-Only und irgendwann kommt das dann nach Europa. Dann hatten wir eine Phase, wo das eigentlich nicht mehr so war, sondern Sachen einfach ausgerollt wurden und wir sie auch hatten. Und jetzt sind wir zumindest, was die Google IO angeht, wieder dort, wo es eine starke Differenzierung braucht zwischen, was ist wann verfügbar. Also erstmal ganz schön, das, was wir ehemals besprochen haben, mit dem neuen Modell, mit Antigravity und so weiter. Das sind alles Sachen, die weltweit sofort verfügbar sind und die man direkt ausprobieren kann. Und jetzt kommen wir in die Bereiche, wo das nicht mehr so ist. Gemini Spark mit einer der X-Subscriptions, die es da gibt, glaube ich, in den kommenden Wochen jetzt in den USA only. Das heißt auf jeden Fall ein Produkt, das er noch nicht nutzen kann. Und auch einiges andere, was auf der Google I.O. generell vorgestellt wurde, eher so, ja, kommt dann im Sommer, kommt im Herbst, wird erstmal in der Beta ausgerollt und so weiter. Also auch einiges durchaus vorgestellt, was jetzt noch nicht direkt in die Hände von uns gelangen kann. Und darunter fällt Gemini Spark. Das willst du erklären oder das sollte ich erklären. Das kannst du gerne erklären, du hast ja schon angefangen.

SPEAKER_02

Ja, ich mache mal die High-Level und Philipp kann dir, falls er Details zu Technicalities hat, gerne noch ergänzen. So wie ich es verstanden habe, das, was Philipp gerade erklärt hat, was diesen Manager Agents angeht, im Grunde genommen ist es, ist das das, würde ich sagen, das End-User-Produkt aus dieser Technologie. Also wir haben das im Grunde genommen einen Agent, der auf dedizierten Google Cloud-VMs läuft, die dafür designt sind, mit, denke ich mal, dem Harness, den der Philipp gerade erklärt hat. Und in der Idee ist, es ist dein persönlicher Agent, der 24-7 läuft, von allen möglichen Plattformers angesprochen werden kann und direkt Zugriff hat auf deinen Gmail-Docs-Kalender und auch grundsätzlich Third-Party-Apps via MCP, obwohl die Integration noch im Nachgang kommt und eben so Dinge machen kann, würde ich irgendwie E-Mails draften. Und eigentlich so dieser Agent ist, ich habe es vorhin zum Dennis im Vorgespräch gesagt, eigentlich diese Form von Agent ist, nachdem der Dennis die ganze Zeit fragt. Der einfach alles weiß, den ich jederzeit alles fragen kann, da muss ich keinen Computer mehr aufgeklappt haben, das kann ich von meinem iPhone machen, der läuft da einfach so. Ich sag mal das, was Open Claw für Developer mit zusammenfrickeln möglicherweise war, ist das jetzt von Google als End-User-Facing-Produkt, ohne dass du absoluter Techie sein musst, gedacht. Ich glaube, so würde ich es irgendwie beschreiben. Also, ich würde mal auf jeden Fall was sagen. Ich meine, Dennis, wir hatten es irgendwie vorhin, nach letzte Woche hatten wir wieder bei Lotum auch irgendwie AI Week und irgendwie, wir haben irgendwie eine ganze Woche lang erstmal ohne jetzt irgendwie produktmäßig was bauen zu müssen und wirklich nur explizit mit AI beschäftigt und einfach wieder viel ausprobiert und so. Man denkt wirklich, ey, es nervt dann einfach immer mehr, wie viele Sachen im Alltag man dann doch wieder selbst machen muss und warum können eigentlich diese Agents noch nicht das und warum muss ich das noch selbst machen? Und Spark könnte möglicherweise die Antwort darauf sein. Also ich fand es, als ich das gesehen habe, fand ich es echt mega cool und ich glaube, das ist wirklich immer wieder so ein Produkt, wo man sagen kann, das wird auch End-User-Facing. Also auch außerhalb von unserer Tech-Bubble, über die Tech-Bubble hinaus könnte das echt irgendwie dann nochmal einen großen Impact haben und irgendwie einen großen Shift haben, abseits von den Leuten, mit denen wir bei der Arbeit sonst zu reden, sondern auch im privaten Umfeld.

SPEAKER_00

Ich glaube vielleicht, was das Wichtige ist, was dazugehört, ist, ich meine, wir sind ja jetzt in dem, oder Google ist da in dem Fall jetzt nicht der Vorreiter. Es gibt ja schon alternative Lösungen von Open Air oder ein Topic. Aber es ist alles in der Gemini-App. Das heißt, man braucht nicht eine neue App runterladen, man braucht nicht eine neue App aus seinem Handy, man hat nicht irgendwie krass viel anderes, sondern es kommt alles nativ in die Gemini-App. Das heißt, wenn ich aktuell Gemini-App-Nutzer schon bin, ich weiß jetzt nicht, über welche Subscription das dann am Ende für alle zur Verfügung ist, aber ich glaube, man fängt mit Ultra in den USA an. Und wie das dann genau funktioniert mit, hey, ich habe da einen Computer 24.7 laufen oder irgendwie sowas, weiß ich jetzt nicht.

SPEAKER_02

Ich glaube, die er führen ja dazu auch diese.

SPEAKER_00

Sorry, sag du?

SPEAKER_02

Nein. Ich habe nicht ganz verstanden, die haben ja, glaube ich, auch noch eine neue Lizenz, diese AI-Ultra für 100 Dollar im Monat. Das ist ja die neue Lizenz, die sie auch irgendwie eingeführt haben. Das ist, glaube ich, die niedrigste Lizenz, wenn ich es in der Keynote richtig verstanden habe, die dann Spark nutzen können soll. Also 100 Dollar pro Monat ist der Einstiegspreis dafür, wenn ich es richtig verstanden habe.

SPEAKER_00

Genau. Ich bin echt gespannt, weil ich weiß, wenn man selber Entwickler ist und irgendwie Open Clause sich aufsetzt, wie mühselig das ist, Gmail und die ganzen anderen Google Services zu verbinden, dass ich das alles nativ mit drin habe. Und man sollte ja auch, also ich meine, das müsste man testen, aber ich stelle es mir einfach so vor, dadurch, dass ich Gemini in der Gemini App bin, habe ich ja die Chats, dass der Agent entweder Zugriff auf die Chats hat oder der Chat eventuell Zugriff auf den Agent. Aber das weiß ich jetzt auch nicht. Ja, es wird interessant. Das heißt, Dennis macht bald ein VPN und holt sich Ultra und dann gibt uns Bescheid, wie es funktioniert. Ja, oder ich warte einfach bis Sommer.

SPEAKER_01

Wie ist das hier? 9. Juni ist ja WWDC-Kynote. Gucken wir mal, ob Apple ein gleiches Angebot hat, dann wäre es natürlich für mein Ökosystem noch ein bisschen passender, wenn es auch mit Gmail und so weiter reden kann.

SPEAKER_02

Das ist ja, was ist das? Das ist das Wunschvorstellung, realistisches Szenario oder einfach.

SPEAKER_01

Wieso nutzen doch im Hintergrund Google. Das ist doch nur das Ökosystem. Das kriegen sie doch noch hin, oder? Die Hanas da einmal zu bauen. Können Sie es doch jetzt abgucken.

SPEAKER_02

Anyway, das Wichtigste übrigens für mich, das Hauptargument für AI Ultra, da ist auch YouTube Premium mit drin für 100 Dollar. Genau. Das wäre für mich der Hauptpunkt. Ich bin nicht so geil, sogar YouTube Premium holte ich mit AI Ultra. Da ist es mit denen. Und es gibt Club Credits. Club Credits ist das. Cloud. Ach, Cloud.

SPEAKER_01

Ich dachte, dass irgendwie der Leberkind AI Club Credits, wenn ich irgendwo nenne. Weil du gerade Gemini-App sagtest, das finde ich noch ein nettes Schmankerl von gestern, dass es jetzt eine native MakeOS-App für Gemini gibt. Die ist nämlich auch neu. Bis jetzt hatte ich da immer diese, wie nennt man das, Chrome PBR oder was auch immer. Also so eine installierte Gemini-Website-Rapper. Genau, jetzt auch eben nativ und hat da alles möglich so an einer Stelle mit Bildgenerierung und so weiter. Ich mag es immer, wenn es das nativ gibt. So, dann haben wir noch, wenn ihr nichts mehr dazu habt, Omni. Und ich muss ganz ehrlich sagen, Omni, so dass um wenn ich am wenigsten anfangen konnte, ich wenigstens verstehe eigentlich, worum es geht. Erklärt mich auf.

SPEAKER_02

Also im Grunde genommen ist es das neue multimodale Modell, ne? Und ich meine, das, was ihr Selling-Pitch war bei der Keynote, war, dass es im Grunde genommen der Nanobanana-Moment für Video ist so. Also dass sie im Endeffekt rausgestellt haben, wie gut die Capabilities für Video-Editierung, Generierung sind und so und kombiniert im Endeffekt, sie sagen, Gemini Reasoning mit DeepMinds VO, mit Nano Banana und Genie und ist multimodaler Input und der Output-Fokus ist eben Video. Also dass du damit Videos generieren kannst und auch so ein bisschen, ich glaube, Demisas Habis hat so ein bisschen geframed, wie das ist halt so ein bisschen ein Progress in die Richtung, dass nicht einfach nur Pixel generiert werden, sondern dass das System auch die physische Welt irgendwie versteht. Also da haben sie irgendwie viele Beispiele dafür gemacht, dass das erstmal grundsätzlich von der Idee ist. Videogenerierung als der absolute, als der absolute Fokus so. Und es ist auch, wenn man auch sieht, wo es irgendwie ausgerollt wird, dass es live in der Gemini-App und Flow für Paid User und das wohl auch, wenn es richtig verstanden habe, global und nicht in der US-Only, soll aber auch in so Dingen wie YouTube Shorts und Create. Also dass in diesen Tools, wo eben Video generiert wird, auch da der Zugriff zu Omni irgendwie mit dazu passt und API soll in den kommenden Wochen kommen. Also das Gemini-App und YouTube Shorts ist sozusagen der erste Anwendungsfall, wie man es irgendwie benutzen kann. Sie haben dann auch da so, ich sag mal so, ja, ich weiß nicht, was die Beispiele waren. Sie haben einerseits gezeigt, wie man mit einem Video-Input plus während Style-Inputs irgendwie komplett ein neues Video generieren kann, aber eigentlich das Input-Video super konsistent hält, sondern nur Style und irgendwie Hintergründe anpasst. Und ich glaube, sie hatten auch so ein bisschen gezeigt, wie du sozusagen damit, ich sag mal, Large-Scale-Video Direction irgendwie machen kannst, indem du irgendwie aus einer Szene irgendwie direkt 15 verschiedene Videos generieren kannst, aus verschiedenen Winkeln dann irgendwie verändern kannst und irgendwas macht das mal im Dunkeln, bevor er ein Auto stand, dann gehen die Lichter automatisch und einfach dieses Verstehen von Welt halt super gut funktioniert. Aber der Pitch würde ich sagen, es soll der Nanobanana im Moment für Video sein.

SPEAKER_00

Genau, und vielleicht weil du das kurz gesagt hast, Omni steht für Omnimodal, also nicht nur Multimodal, mit dem großen Ziel, alles zu alles generieren können. Also aktuell hat man halt nur Video als Output, aber als Input hat man schon, deswegen wahrscheinlich auch den Vergleich zu Nanobanana, Audio Text, Bilder, Video, Audio, Text, Bilder, wie hat das? Also die vier Modalities in dem Fall. Und daraus kann ich ein neues Bild generieren und das eröffnet halt ganz, ganz viele Möglichkeiten. Also man kann halt irgendwie Soundaufnahmen von einem hinzufügen, das Bild und ein Video und sagen, hey, bitte mach mich mit meiner Stimme in dem Video jetzt. Man kann halt klar nur von Text irgendwie ein Video erstellen, aber man hat halt diesen multimodalen Input und es gibt so witzige Beispiele, alles, was in Richtung Video-Editing geht. Also wenn ich irgendwie ein existierendes Video habe von irgendetwas und das editieren möchte, mit, keine Ahnung, da laufen jetzt irgendwie ganz Katzen durch das Bild rein und das normale Video sich sozusagen nicht verändert oder halt ganz natürlich da reinkommt, dann hat man diesen Katzen drin. Und es ist wirklich, also aktuell ist es schwierig, sage ich mal, zu erkennen, ob das dann editiert würde. Klar, man sieht wieder bei kompletten Neugenerationen von Video, dass es so ein bisschen dieses immer noch leicht typische AI-Uncaddy-Vally in den Gesichtern irgendwie hat, aber wenn ich ein existierendes Video habe, das irgendwie mit Image-Input, Sound-Input oder Textinput editiere, ist es schon crazy.

SPEAKER_02

Dennis, probierst du aus. Hast du gerade die Gemini-App aufgemacht und machst schon ein Video für uns?

SPEAKER_01

Ja, das steht ja tatsächlich, dass es Omni ist. Mein erster Prompt hat gesagt, ist fehlgeschlagen, aber es könnte sein, dass da ein Kind abgebildet war und das ist ja immer noch irgendwie. Ja, das ist in der EU schwierig. Protected. Hast du auch Videos ohne Kinder auf deinem Handy?

SPEAKER_00

Ich suche gerade testen kann.

SPEAKER_01

Ich muss sehr weit scrollen.

SPEAKER_00

Und Dennis Handy ist direkt bei der EU jetzt auf irgendeiner Blacklist gelandet. Ich wähle eins.

SPEAKER_01

Das muss wahrscheinlich jetzt irgendwie aus der iCloud runtergeladen werden. Hast du ein Video ausgewählt oder? Ich habe jetzt ein Video. Okay. Und dann sage ich jetzt im Hintergrund läuft ein flauschiger Affe rum. Ja? Das sieht man auf dem Video oder willst du, dass da reingemacht wird? Nee, das ist das, was jetzt editiert da rein gemacht wird. Okay, wir lassen uns mal laufen und mal gucken, was gleich rauskommt. Und lustigerweise, oben drüber steht jetzt immer noch Gemini 3.5 Flash, aber das ist ja wahrscheinlich einfach nur das normale Modell, mit dem ich hier rede. Okay, Video wird erstellt, das kann einige Minuten dauern, ist der Hinweis.

SPEAKER_02

Aber das stand jetzt irgendwo, dass es aber das Video für Omni, also das Video aufnimmt.

SPEAKER_01

Da stand irgendwas mit Omni, ja. Aber, also okay, dann habe ich das irgendwie, da hätte ich vielleicht die Keynote besser gucken sollen, weil in dem Blogartikel war das so, als ob das irgendwie eine andere Kategorie ist. Also, wie ich euch jetzt verstanden habe, ist es halt irgendwie der Nachfolger von 3.1 und ja, das Ziel ist es, aber.

SPEAKER_00

Es ist schon eine andere Modal, ne? Genau. Also es ist nicht irgendwie, das ist dann dasselbe Modell soll dann in Zukunft auch Text generieren können. Also es ist nicht, dass du irgendwie Modell 1 an Ruf aufrufst und dann Modell 2 aufrufst, je nachdem, ob du Text oder Video möchtest. Sondern es soll halt beides können. Das heißt, es kann so weit gehen, dass es ein Video generiert, dann einen Text danach und dann wieder ein Video. Also, dass ich einfach sozusagen dieses Interliefte von Modalities dann auch habe. Oder man sieht es ja schon bei Nano und Banana ein bisschen, dass ich eine Geschichte mit Bildern dazwischen ja generieren kann und so halt für alle Modalitäten, die es gibt oder geben kann. Und daher kommt auch, glaube ich, dieses World-Modell. Also, du kannst nicht nur irgendwie auf Text und Bilder trainieren, sondern du musst halt auf alles, was irgendwie existiert, drin werden.

SPEAKER_02

Ich glaube, wahrscheinlich wird, also in der Tendenz wird wahrscheinlich dieses Omnimodale, wird der neue Standard werden, wahrscheinlich, wenn sie dann mit Geschwindigkeiten, irgendwie Price und sowas wahrscheinlich dann konkurrieren können, dann ist es möglicherweise das Default-Modell, was man dann eben nutzt, das dann eben omnimodal ist. Machst du noch ein Video, oder Dennis? Bist du? Machst du Videocalls? Jetzt ein bisschen raus aus dem Podcast hier.

SPEAKER_00

Die nicht mit Videogucken in TikTok-Generation.

SPEAKER_02

Dennis macht Selfies und irgendwie macht hier Hang Loose in die Kamera. Man weiß nicht ganz, ob er noch bei uns ist. Ich versuche das.

SPEAKER_00

Sonst komm schon mal raus, wenn du fertig bist mit dem Podcast. Gleich YouTube an und fängt an, nehmen wir zu essen oder so.

SPEAKER_02

Ja, ja, genau. Oder macht YouTube-Shorts mit dem neuen Omni-Modell.

SPEAKER_01

Ich bin live auf TikTok. Also du bist noch bei uns. Ich wollte meine Audience nur kurz der Audience hat noch sagen. So, wir gehen jetzt rein. Oh Gott, das funktioniert immer noch nicht. Eine Sekunde, ich will das noch, so lange muss der Podcast jetzt aushalten, dass wir das jetzt schaffen. Also, das vorher wurde auch wieder geblockt. Ich hatte ein Video von meinem Au-Rair genommen. Vielleicht sah sie. Also das Aupair als im Hintergrund hangelt sich ein Aff entlang. Handelt. Hangelt. Und jetzt aber, jetzt muss ich noch aufpassen, dass ich auf Videos drücke. Das habe ich eben nicht geschafft. So, mit Omni-Kreativ werden. Enter.

SPEAKER_02

Letzter Test, wenn das nicht geht, dann ist unser, dann ist unser Fazit so Omnifunktioniert, nicht alles scheiße, oder? Ja. Das sind unser Fazit. Genau. Alles gelogen. Google übt uns an.

SPEAKER_00

Also es gibt sehr coole Videos. Gerade wenn ihr irgendwie auf Twitter oder so seid, oder ich weiß nicht, wo wir die alle publishen, aber vor allem gestern oder auch die nächsten Tage, es ist sehr witzig. Man hat irgendjemanden, der vor der Kamera sitzt und du kannst halt sagen, mach diese Person unsichtbar, dann hast du nur noch so die Brillen und es funktioniert halt wirklich. Also er generiert genau das, was dahinter sein soll. Und es gibt ganz, ganz viele Dinge. Irgendwie, vielleicht hat Dennis ein Video und man kann es irgendwie teilen oder sowas. Aber wirklich, du sitzt halt wie, also was ich so witzig fand, du hast immer diese Podcasts oder Interviews, so wie jetzt bei uns, und dann kannst du halt wirklich es editieren und irgendwie sagen, ja, Dennis sitzt halt irgendwie dort und isst ein Eis und halt so komplett, nicht dass es awkward ist, sondern so komplett wie als ob sie null interessieren würde. Das macht es dann echt witzig. Und wir haben auf der RO so eine Demo, die heißt Omniversal, wo man von sich dann ein Bild aufnimmt oder ein kurzes Video und dann generiert man eine komplette Commercial und die sehen extrem gut aus. Also ich gehe ganz stark davon aus, dass alles, was irgendwie werbungstechnisch im Shortform-Bereich ist, sehr davon getrieben wird.

SPEAKER_01

Okay, also ich wurde wieder, es wurde wieder abgelehnt und gesagt, dieses Video kann nicht erstellt werden.

SPEAKER_02

Ja, ich meine, wie gesagt, wir können ja mal ein paar Beispiele in die Shownotes packen oder einfach googelt einfach mal. Also vielleicht Videos. Also man könnte sagen, gut, vorbereitet Podcasts hätten sowas vor ausbildet, aber ihr hört ja die Programmierbar, ihr kriegt das live mit, wie Dennis struggelt, ein Video zu erstellen. Ich denke, da ist auf jeden Fall der Mehrwert hier drin.

SPEAKER_01

Unser aktueller Stand ist ja Omnius Scheiße, von daher ich versuche das Ganze noch zu retten.

SPEAKER_00

Also mein aktueller Stand ist, ich bin mehr als im Böst.

SPEAKER_02

Also wenn ich parallel, also wenn ich nicht den Weg wähle, wie Dennis selbst auszubilden, sondern mir die YouTube-Beispiele auf YouTube dazu angucken, muss ich auch zu tun.

SPEAKER_00

Nee, jetzt muss das schon funktionieren. Ich weiß nicht, was Dennis immer wieder eingibt und welche Videos er da hochlädt von sich. Ich weiß das.

SPEAKER_02

Philipp, du hast es in der Gemini-App schon ausprobiert, ja? Du hast Flow getestet.

SPEAKER_00

Und in Flow ist es besonders cool, weil du halt mehrere parallel machen kannst. Du kannst die übereinander stacken, dass du dann sozusagen wirklich den Vorher-Nachher-Vergleich siehst. Du kannst dann das editierte Video dann halt weitereditieren oder du hast ein Video-Output und kannst halt verschiedene Prompts für dieses Video machen, dass du wirklich siehst, wie das sich irgendwie anpasst.

SPEAKER_01

Um das noch einmal ganz sinnvoll zu füllen, die Zeit, was kostet denn das Ganze? Ist das irgendwie billiger, teurer? Gibt es irgendwelche Preise? Billiger teurer als was? Als Video 3.1 jetzt. Für mich ist es, wenn es aktuell nur Videos erstellen kann, vergleiche ich es jetzt erstmal mit den Video erstellten.

SPEAKER_00

Also es gibt noch keine API, deswegen gibt es kein API Pricing. Und in Gemini App und Flow ist es Teil der Google AI Subscription. Und ich weiß jetzt nicht, ob du Ultra hast, aber scheinbar ist es dann in Pro auch zur Verfügung. Mit Credits müsste man nicht schauen.

SPEAKER_01

Ich bin in so einem Workspace, also ich bin mit meinem Business-Account drin, also in so einem Workspace-Ding. Yes. Okay, anyway. Wir geben dem noch zwei Sekunden, wenn das nicht ist. Haben wir sonst noch was für die Podcast-Folge? Feedback.podcast.programmier.bar Philipp, danke, dass du dich aus den USA hinzugefragt haben hast. Und das Video ist fertig. Ich konnte ein Video erstellen und es macht das, was ich wollte.

SPEAKER_00

Also hast du nur ein neues Video erstellt oder eins editiert?

SPEAKER_01

Nein, das mit dem Video editieren ging ja nicht. Ich habe ein Foto genommen, ein Foto genommen, wo ich jetzt am Wochenende in Rostock war und das zu einem Video machen lassen, wo auf einem kleinen Kanal wo eigentlich ein großer Boot gefahren ein Jetski vorbeifährt. Und das sieht wunderbar aus. Das teilen wir natürlich auf unseren Social Media Channels, damit ihr das tun.

SPEAKER_00

Wenn man es sich gelohnt hat. Ja, und wenn man es testet, vielleicht nicht dieses Text to Video, sondern wirklich schauen, hey, ich kann Text, Video, Audio und Bilder gleichzeitig eingeben. Was kann da rauskommen? Also es sind, wenn ich einfach nur das irgendwie gegenüber Video-Vergleiche, wo ich einen Text eingebe, dann weiß ich jetzt nicht, ob man so viel Neues sieht, aber sondern es geht wirklich halt um dieses Editieren und okay.

SPEAKER_02

Was ist das, was du Philipp abwirken oder was hast du gerade gezeigt? Ich glaube, Dennis ist komplett raus aus dem Podcast. Das ist der Jetski, der Jetski, von dem ich sprach.

SPEAKER_00

Vielleicht sollte man Dennis Feedback oder halt für Dennis nächstes Mal kein Handy mehr mit in die Aufnahme, sondern sozusagen außerhalb.

SPEAKER_02

Handyverbot. Wie in der Schule so ein bisschen, ja. Aber noch als letzte News, damit die Leute es mal gehört haben, wenn es nicht eh mitbekommen haben, Andrey Carpathy ist jetzt zu Entropic gegangen, ne?

unknown

Genau.

SPEAKER_02

Kann man nochmal als News so ein bisschen am Ende droppen. Mal schauen, was daraus wird. Sehr gut.

SPEAKER_00

Das ist der Tweet hat irgendwie 120 Millionen Aufrufe oder irgendwie sowas gehabt. Und über 100.000 Likes. Ja, ich hab's verrückt.

SPEAKER_02

Das ist ja wirklich crazy. Ja, mal spannend. Das ist auf jeden Fall ein interessanter Move. Hatten wir es nicht letztens an der Folge, was macht er eigentlich mit seinem, was macht er eigentlich im Moment so mit seinem Learning-Plattform oder was kommt von ihm? Ja, dann wahrscheinlich doch nicht Learning Plattform. Vielen Dank.

SPEAKER_01

Habt eine schöne Zeit. Bis bald. Wie auch. Ciao, ciao. Tschüss. Ciao.