Gemini od Googlu umí "malovat". Není to revoluce, ale pokrok v generování AI obrázků určitě ano
Influenceři hlásí “Vyhoďte Photoshop!” a “Gemini mění historii!”, a to jako obvykle není pravda. Generování obrázků či fotografií zůstává problematickou, a v praxi obtížně využitelnou záležitostí. Ale model Gemini 2.0 Flash (Image Generation) Experimental, který si lze vyzkoušet v Google AI Studiu, je nepochybně krok dopředu. A když nic, tak minimálně zajímavá hračka, s kterou se pobavíte.
Model Gemini 2.0 přináší významná vylepšení v tzv. multimodálnosti, včetně nativní podpory výstupu obrazu a zvuku, a také schopnost využívat externí nástroje. Koncept „éry agentů“ naznačuje posun k umělé inteligenci, která dokáže lépe chápat okolní svět, uvažovat o budoucích krocích a jednat jménem uživatele s jeho dohledem.
Gemini 2.0 Flash Experimental je raná, experimentální verze tohoto modelu, která vývojářům a uživatelům umožňuje prozkoumat tyto nové možnosti, včetně generování obrazu . Označení „experimental“ je klíčové, protože naznačuje, že tato funkce je stále ve vývoji a může podléhat změnám, nestabilitě a omezením . Uživatelé by proto měli počítat s možnými chybami, nekonzistencemi a změnami funkcí bez předchozího upozornění.
Funkce generování obrazu v Gemini 2.0 Flash Experimental podporuje vytváření obrázků z textových promptů, konverzační úpravy existujících obrázků a generování textu s vloženými obrázky. Tato kombinace funkcí v rámci jednoho modelu představuje významný krok vpřed, který může zefektivnit pracovní postupy, jež dříve vyžadovaly použití samostatných nástrojů.
.
Chcete se o nástrojích generativní AI dozvědět víc? A začít je využívat naplno? Přijďte na naše workshopy. Nebo na pravidelnou Inventuru AI, kde se bavíme o novinkách. Již v úterý 25. března v Knihovně Čermáka a Staňka. Zde je program jenbližších workshopů:
19. března, 13:00 - 17:00, AI MASTERCLASS
20. března, 13:00 - 17:00, AI LEADERSHIP
21. března, 9:00 - 13:00, AI MASTERCLASS
25. března, 18:00 - 21:00, INVENTURA AI
27. března, 18:00 - 21:00, AI KREATIVITA s Čermákem a Staňkem
1. dubna, 17:00 - 21:00, AI MASTERCLASS
2. dubna, 13:00 - 16:00, AI PRO
8. dubna, 17:00 - 20:00, AI PRO
.
Co Gemini 2.0 (s generováním obrázků) nabízí:
Generování obrázků z textu (Text-to-Image Generation): Uživatelé mohou vytvářet obrázky na základě textových promptů. Typu: “Udělej obrázek Národního divadla, ve stylu dobové časopisecké ilustrace z roku 1890.” Gemini 2.0 Flash Experimental se snaží vytvářet vizuály, které jsou kontextově relevantní a přesné, a to díky využití rozsáhlých znalostí o světě. Ovšem: zároveň platí, že se mu to příliš nedaří. Gemini je v tomto stále výrazně horší než třeba Midjourney nebo Ideogram.
Konverzační úpravy obrázků (Conversational Image Editing): Uživatelé mohou upravovat existující obrázky prostřednictvím přirozeného jazyka v rámci “vícekolové” konverzace . Například lze nahrát obrázek modrého auta a následně požádat o jeho změnu na kabriolet a přebarvení na žluto . Tato schopnost iterativních úprav, při zachování kontextu v průběhu konverzace, umožňuje intuitivnější doladění a prozkoumávání různých kreativních nápadů.
Generování textu s vloženými obrázky (Text with Interleaved Images): Model dokáže v jednom kroku vygenerovat text a vložené obrázky, což je vhodné pro vytváření ilustrovaných příběhů či blogových postů.
Shrnutí toho nejdůležitějšího:
Co je Gemini 2.0 Flash: Experimentální AI model od Googlu s pokročilou schopností generování obrázků z textu
Klíčové funkce:
Multimodální schopnosti kombinující text a obrázky
Udržení vizuální konzistence postav a prostředí v sérii obrázků
Schopnost vytvářet obrázky v kontextu konverzace
Možnost konverzačních úprav již vygenerovaných obrázků
Praktické využití:
Marketing a sociální média
Vzdělávání a vysvětlování komplexních konceptů
Ilustrace postupů a návodů (např. recepty)
Vývoj multimodálních aplikací
Tipy pro efektivní použití:
Používejte přímé pokyny pro generování obrázků
Specifikujte umělecký styl nebo formát
Podrobně popisujte postavy pro udržení konzistence
Využívejte konverzační úpravy pro vylepšení výsledků
Omezení:
Experimentální fáze s možnou nestabilitou
Nejlepší výkon pouze v některých jazycích
Všechny obrázky obsahují neviditelný vodoznak SynthID
Dostupnost:
Pro vývojáře: Google AI Studio, Gemini API
Příklady
1) Vyměň pivo za víno
2) A uměl bys vyměnit psa za dinosaura?
3) … případně z fotky udělat obraz od van Gogha?
4) Zařídit, aby v Praze na Můstku zmizely kola a koloběžky?
5) A na Václaváku všichni lidi?
6) Ten plešatý chlápek se na fotku taky nehodí.
7) A šlo by zařídit, že bych s ou slečnou byl na jedné fotce v zasedačce na Manhattanu?
8) Taky bych si přál přejmenovat vyhlášenou londýnskou restauraci Milos na Senta (a Milos)
9) Nebo nakreslit hezkou karikaturu …
10) … mít na tričku jméno své ženy
11) … vidět ženu namalovanou od Picassa
12) … nebo od karikaturisty
13) A trochu jinak zařídit lounge v našem coworkingu v Diamantu!
Zajímavé je, že nově Gemini (asi s Flash 2.0) často dává výsledek v češtině tak, že dá mezeru i před tečku. Jak častokrát v textu Vám pane Čermáku.