Gemini od Googlu umí "malovat". Není to revoluce, ale pokrok v generování AI obrázků určitě ano

Mar 17, 2025

Influenceři hlásí “Vyhoďte Photoshop!” a “Gemini mění historii!”, a to jako obvykle není pravda. Generování obrázků či fotografií zůstává problematickou, a v praxi obtížně využitelnou záležitostí. Ale model Gemini 2.0 Flash (Image Generation) Experimental, který si lze vyzkoušet v Google AI Studiu, je nepochybně krok dopředu. A když nic, tak minimálně zajímavá hračka, s kterou se pobavíte.

Model Gemini 2.0 přináší významná vylepšení v tzv. multimodálnosti, včetně nativní podpory výstupu obrazu a zvuku, a také schopnost využívat externí nástroje. Koncept „éry agentů“ naznačuje posun k umělé inteligenci, která dokáže lépe chápat okolní svět, uvažovat o budoucích krocích a jednat jménem uživatele s jeho dohledem.

Gemini 2.0 Flash Experimental je raná, experimentální verze tohoto modelu, která vývojářům a uživatelům umožňuje prozkoumat tyto nové možnosti, včetně generování obrazu . Označení „experimental“ je klíčové, protože naznačuje, že tato funkce je stále ve vývoji a může podléhat změnám, nestabilitě a omezením . Uživatelé by proto měli počítat s možnými chybami, nekonzistencemi a změnami funkcí bez předchozího upozornění.

Funkce generování obrazu v Gemini 2.0 Flash Experimental podporuje vytváření obrázků z textových promptů, konverzační úpravy existujících obrázků a generování textu s vloženými obrázky. Tato kombinace funkcí v rámci jednoho modelu představuje významný krok vpřed, který může zefektivnit pracovní postupy, jež dříve vyžadovaly použití samostatných nástrojů.

Chcete se o nástrojích generativní AI dozvědět víc? A začít je využívat naplno? Přijďte na naše workshopy. Nebo na pravidelnou Inventuru AI, kde se bavíme o novinkách. Již v úterý 25. března v Knihovně Čermáka a Staňka. Zde je program jenbližších workshopů:
19. března, 13:00 - 17:00, AI MASTERCLASS
20. března, 13:00 - 17:00, AI LEADERSHIP
21. března, 9:00 - 13:00, AI MASTERCLASS
25. března, 18:00 - 21:00, INVENTURA AI
27. března, 18:00 - 21:00, AI KREATIVITA s Čermákem a Staňkem
1. dubna, 17:00 - 21:00, AI MASTERCLASS
2. dubna, 13:00 - 16:00, AI PRO
8. dubna, 17:00 - 20:00, AI PRO

Co Gemini 2.0 (s generováním obrázků) nabízí:

Generování obrázků z textu (Text-to-Image Generation): Uživatelé mohou vytvářet obrázky na základě textových promptů. Typu: “Udělej obrázek Národního divadla, ve stylu dobové časopisecké ilustrace z roku 1890.” Gemini 2.0 Flash Experimental se snaží vytvářet vizuály, které jsou kontextově relevantní a přesné, a to díky využití rozsáhlých znalostí o světě. Ovšem: zároveň platí, že se mu to příliš nedaří. Gemini je v tomto stále výrazně horší než třeba Midjourney nebo Ideogram.
Konverzační úpravy obrázků (Conversational Image Editing): Uživatelé mohou upravovat existující obrázky prostřednictvím přirozeného jazyka v rámci “vícekolové” konverzace . Například lze nahrát obrázek modrého auta a následně požádat o jeho změnu na kabriolet a přebarvení na žluto . Tato schopnost iterativních úprav, při zachování kontextu v průběhu konverzace, umožňuje intuitivnější doladění a prozkoumávání různých kreativních nápadů.
Generování textu s vloženými obrázky (Text with Interleaved Images): Model dokáže v jednom kroku vygenerovat text a vložené obrázky, což je vhodné pro vytváření ilustrovaných příběhů či blogových postů.

Shrnutí toho nejdůležitějšího:

Co je Gemini 2.0 Flash: Experimentální AI model od Googlu s pokročilou schopností generování obrázků z textu
Klíčové funkce:
- Multimodální schopnosti kombinující text a obrázky
- Udržení vizuální konzistence postav a prostředí v sérii obrázků
- Schopnost vytvářet obrázky v kontextu konverzace
- Možnost konverzačních úprav již vygenerovaných obrázků
Praktické využití:
- Marketing a sociální média
- Vzdělávání a vysvětlování komplexních konceptů
- Ilustrace postupů a návodů (např. recepty)
- Vývoj multimodálních aplikací
Tipy pro efektivní použití:
- Používejte přímé pokyny pro generování obrázků
- Specifikujte umělecký styl nebo formát
- Podrobně popisujte postavy pro udržení konzistence
- Využívejte konverzační úpravy pro vylepšení výsledků
Omezení:
- Experimentální fáze s možnou nestabilitou
- Nejlepší výkon pouze v některých jazycích
- Všechny obrázky obsahují neviditelný vodoznak SynthID
Dostupnost:
- Pro vývojáře: Google AI Studio, Gemini API