AI Inspirace: Chcete větší kontrolu nad generováním videa? Zkuste prompt v JSON formátu

Jul 22, 2025

Zajímá vás, jak nejlíp používat právě teď generativní AI? Přijďte na některý z našich workshopů. Na našem webu najdete jak prázdninové, tak i podzimní termíny. Rezervujte si místo hned teď.

O co jde: JSON je textový formát pro přehledné uspořádání dat pomocí klíčů a hodnot. Pro promptování videa to fakticky znamená, že scénu rozdělíte do kategorií jako záběr kamery, postava, prostředí, osvětlení, zvuk atd., a každou část popíšete zvlášť.

Veo 3 je pokročilý AI model od DeepMind (Google), který z textového nebo obrazového zadání vytvoří krátké video i se zvukem. Někteří uživatelé Veo 3 zjistili, že když prompt napíší jako strukturovaný JSON, dokážou tím AI „režírovat“ mnohem přesněji. Komunita tvůrců a vývojářů tuto fintu rychle rozšířila na fórech a sociálních sítích. Výsledkem jsou videa, která působí promyšleněji a konzistentněji, jako by je vedl lidský režisér.

Jak to udělat?

Namísto běžného textového promptu si připravte strukturu ve formátu JSON. Začněte levou složenou závorkou { a v ní uveďte jednotlivé sekce s jejich popisem. Každou sekci pojmenujte a za dvojtečkou specifikujte obsah v uvozovkách. Například "shot": {...} bude obsahovat údaje o kompozici a pohybu kamery.

Pokračujte sekcemi "subject" (vzhled a oblečení postavy), "scene" (prostředí a čas), "visual_details" (co se ve scéně děje), "cinematography" (styl osvětlení, tón) a "audio" (zvukové efekty, případně hlas a hudba). Můžete přidat i "visual_rules" (prvky, které zakazujete) nebo "negative_prompt" (seznam aspektů k potlačení).

Ujistěte se, že formát JSON je správně uzavřený závorkami a čárkami na patřičných místech.

Zkopírujte celý tento JSON text do promptu AI nástroje a spusťte generování videa. Model Veo 3 vstup analyzuje a pokusí se podle něj sestavit výslednou scénu.

Proč je to užitečné: Strukturovaný JSON prompt dává tvůrci nad generovaným videem mnohem větší kontrolu než volný text.

Zaprvé, zvyšuje jasnost zadání: AI model přesněji ví, co je kamera, co postava, co pozadí – tím se snižuje riziko, že nepochopí některý detail nebo ho ignoruje.

Za druhé, JSON umožňuje modulární úpravy: když chcete změnit jen jeden aspekt scény (např. čas dne z rána na večer), přepíšete jen příslušnou položku místo celého popisu. To šetří čas a usnadňuje ladění.

Za třetí, výsledky bývají konzistentnější a méně náhodné. Uživatelé hlásí, že strukturovaný přístup snižuje „překvapení“ od AI – třeba nevygeneruje nechtěné titulky, pokud jste je v visual_rules výslovně zakázali. Lze také lépe udržet styl napříč více videi: jednou popsaný hrdina (jeho vzhled, jméno) se dá použít opakovaně, takže model zachová jeho rysy ve všech scénách.

Oproti klasickému promptu tedy JSON funguje jako detailní scénář, díky kterému AI lépe chápe kontext a dodá věrnější výsledek. Pro tvůrce to znamená méně zkoušení metodou pokusu-omylu a více předvídatelných výstupů.

Tipy a triky:

Mluvte řečí filmařů: Používejte termíny jako „širokoúhlý objektiv“, „detailní záběr“ či „mělká hloubka ostrosti“. Model tak lépe porozumí, jak má scéna vypadat.
Detailně popište postavy: Uveďte nejen oblečení, ale i věk, výraz tváře, účes nebo rekvizity. Čím konkrétnější popis, tím věrnější vizuál AI vytvoří.
Využijte světlo a zvuk: V části "cinematography" nastavte náladu scény světlem (např. tlumené teplé osvětlení pro útulno vs. chladné modré pro napětí). Podobně v "audio" doplňte zvuky prostředí (šum moře, hluk davu) nebo hudbu pro dokreslení atmosféry.
Řetězte akce a emoce: Jedním JSON promptem lze naznačit i vývoj – například v "action": „postava se nejprve usmívá, pak sklopí zrak...“. Model zvládne postup gest a výrazů, pokud je popíšete jasně.
Zakažte rušivé prvky: Pomocí "visual_rules" vylučte, co ve videu nechcete. Např. příkaz „žádný text na obraze“ zajistí, že AI nevloží nechtěné titulky. Podobně do "negative_prompt" vypište artefakty (pokřivené končetiny, trhaný pohyb), které má model potlačit.
Postupně laděte: Zkoušejte různé varianty a dolaďujte prompt postupně. Napřed vygenerujte rychlý náhled (pokud to nástroj umožňuje), poté finální verzi ve vyšší kvalitě. JSON formát vám umožní snadno upravit pár položek a hned vidět rozdíl.

Na co si dát pozor: Model Veo 3 sice překvapivě dobře reaguje na strukturovaný vstup, ale nemusí rozpoznat všechno. Například neobvyklé hodnoty jako kódy barev (#FF007F) či přesné technické parametry kamery mohou být ignorovány – AI byla trénována hlavně na přirozený jazyk. Je také možné, že příliš dlouhý nebo složitý JSON prompt začne být pro model nejasný a některé části opomene.

Dávejte pozor na konzistenci: pokud si jednotlivé sekce odporují (např. v jedné části uvedete veselý tón a jinde smutný), výsledné video může působit zmateně.

Nezapomínejte na zásady bezpečnosti a obsahu: generátor odmítne nebo upraví výstup, pokud zadáte něco proti pravidlům (násilí, explicitní scény apod.), a JSON formát to neobejde.

Také mějte na paměti technické limity: aktuálně Veo 3 generuje zhruba osmisekundové klipy v daném rozlišení – i kdybyste do JSON zkusili uvést delší čas nebo vyšší rozlišení, systém to nepřekročí. A protože v případě JSON-promptování jde o neoficiální hack, Google může v budoucnu podobné využití omezit nebo naopak přijít s vlastním oficiálním formátem pro pokročilé prompty.

Příklad: Představme si, že chcete vytvořit osmivteřinové filmové video detektiva v dešti pod pouliční lampou. Běžný textový prompt by mohl znít: „Noční město, prší. Osamělý detektiv v baloňáku kráčí ulicí pod lampou.“ S JSON promptováním ale zadání rozdělíte do částí. Prompt:

{
  "shot": { "composition": "Široký záběr z úrovně ulice", "camera_motion": "statická kamera" },
  "subject": { "description": "Vysoký muž v dlouhém hnědém baloňáku a klobouku" },
  "scene": { "location": "opuštěná městská ulice", "time_of_day": "noc", "environment": "hustý déšť, slabé světlo pouliční lampy" },
  "visual_details": { "action": "detektiv pomalu kráčí vpřed a rozhlíží se", "props": "kouř z kanálu, odlesky na mokré vozovce" },
  "cinematography": { "lighting": "kontrast lampy a hluboké stíny kolem", "tone": "napjatý, ponurý" },
  "audio": { "ambient": "déšť dopadající na ulici, vzdálené hřmění" },
  "visual_rules": { "prohibited_elements": ["žádné titulky nebo text v obraze"] }
}

Tento JSON prompt pak vložíte do generátoru Veo 3. Model vytvoří video, kde vidíte popsaného detektiva pod lampou: kamera zabírá scénu z úrovně ulice, prší a pouliční lampa osvětluje malý prostor. Detektiv se pohybuje podle pokynu – pomalu kráčí a rozhlíží se. Zvuk odpovídá zadání: slyšíte dopadající déšť a občasné hromy. Díky rozdělení scény na části AI porozuměla zadání a výsledek odpovídá vaší představě. Podobný postup si můžete vyzkoušet – rozdělte nápad na části a popište je ve struktuře JSON.

Výsledek:

Příklad (virální ): Lehce surrealistické video, které ukáže něco jako “unboxing” města. Na začátku je kontejner s názvem města, na konci pak “vybalené” celé město. Prompt vymyslela Salma Aboukkar (ta ve verzi “vybalení pokoje”), a pro město pak účet Promptly (verze “rozbalení” New Yorku).

Prompt (upravený pro Prahu):

{
"prompt_name": "Prague Assembly",
"base_style": "cinematic, photorealistic, 4K",
"aspect_ratio": "16:9",
"city_description": "A vast, empty urban plaza at dawn, seen from a low, ground-level perspective. The concrete surface stretches into morning mist, with diffused amber light hinting at the rising sun. Everything is hushed, eerie, expectant.",
"camera_setup": {
"type": "fixed",
"lens": "wide-angle",
"movement": "none",
"duration_seconds": 8
},
"key_elements": [
"A sealed industrial steel container stamped 'PRAGUE' in bold stenciled letters",
"Iconic Prague downtown skyline: Art Nouveau architecture, red-tiled rooftops, gothic spires",
"Charles Bridge subtly folding into frame from the side",
"Red streetcars with white accents, classic Prague design",
"Squared yellow Metro 'M' sign above a stairway descending into the subway",
"Prague Castle emerging on the distant hill, framed in rising mist",
"Leafy green trees inspired by Stromovka park",
"European-style traffic lights and zebra crossings aligned with cobbled streets",
"Small beer gardens with wooden benches and umbrellas",
"Sidewalk cafés with mismatched tables and seated people sipping coffee or beer"
],
"negative_prompts": [
"no text overlays",
"no overt graphics",
"no stylized filters",
"no futuristic or sci-fi elements"
],
"timeline": [
{
"sequence": 1,
"timestamp": "00:00-00:01",
"action": "The sealed PRAGUE container stands in the exact center of the foggy plaza. Its surface vibrates subtly. Morning mist swirls tightly around it, drawn by invisible magnetic forces.",
"audio": "A low-frequency, ominous sub-bass rumble rolls across the concrete, deep and thunderous."
},
{
"sequence": 2,
"timestamp": "00:01-00:02","action": "The steel doors burst outward with a sharp clang. From inside, dense white mist billows out, backlit by a soft golden glow. Loose rivets scatter and skid across the stone surface.",
"audio": "A jarring metallic clang, followed by hissing steam and the hiss of hydraulics decompressing."
},
{
"sequence": 3,
"timestamp": "00:02-00:06",
"action": "In a high-speed hyper-lapse: buildings rocket up from the container’s interior, locking into place with satisfying clicks. A bridge arches into frame. Streetlights, tram lines, and trees assemble themselves in a dance of precision. Tables populate. People appear as if drawn from shadows into life.",
"audio": "ASMR city-building: cables tightening, tram bell rings, stone scraping, glass settling into frames, and low engine purrs."
},
{
"sequence": 4,
"timestamp": "00:06-00:08",
"action": "A lone red streetcar rolls forward, ringing once, and halts at a freshly assembled stop. The final note in a symphony of urban creation. The mist dissipates and the camera holds the fully formed Prague cityscape in glowing morning light.",
"audio": "A soft electric hum, tram bell ringing clearly, followed by a peaceful silence as birds chirp faintly in the background."
}
]
}

Viz video:

Verdikt: JSON promptování videa posouvá hranice kreativní práce s AI generovaným videem. Umožňuje získat téměř režisérskou kontrolu nad scénami, které model jako Veo 3 vytváří. Pokud rádi ladíte detaily a chcete, aby se AI držela přesně vaší vize, tahle metoda je přímo pro vás.

Naopak pro rychlé a jednoduché experimenty může být tak podrobný postup zbytečně složitý. Dá se očekávat, že význam strukturovaného „skriptování“ videí poroste s tím, jak se generativní video technologie vyvíjejí. Doporučuju proto aspoň vyzkoušet.

Sledujte také diskuse na fórech a platformách (např. X/Twitter, Reddit), kde uživatelé sdílejí nové poznatky a šablony. V budoucnu se možná dočkáme i oficiální podpory strukturovaných scénářů – kdo začne experimentovat už dnes, získá náskok v nové éře „promptování“ videa.

AI Inspirace je pravidelná rubrika pro ty, kteří chtějí z generativní AI vytěžit víc než jen pár vtipů na firemní poradu.Jsem rád, že je sledujete. A srdečně zvu na naše workshopy, kde vám ukážeme, jak gen AI používat zajímavě, zábavně a efektivně. Děkuju a těším se na vás!

Jedno procento

Discussion about this post

Ready for more?