Vyzkoušejte si, jaké to je "dělat hudbu". Dřív “než to smažou”

Mar 31, 2024

Je to konec hudby? Někteří si to myslí. Podle jiných je to teprve začátek. Minimálně to tvrdí zakladatelé firmy Suno.

Ta svět posledních několik týdnů šokuje novou verzí své aplikace, jež jako první dokáže vytvářet na základě textových promptů "opravdovou hudbu". Anebo tak se to aspoň zdá většině laických posluchačů.

Suno tvrdí, že chce hudbu demokratizovat. Jinými slovy nabídnout nástroj umožňující každému nejen hudbu poslouchat, ale i tvořit.

Svět hudby zažil v historicky nedávné době paniku už dvakrát. Poprvé počátkem 20. století, když se ukázalo, že koncerty lze nahrávat a hudbu pak následně poslouchat ze záznamu. Obavy, že nikdo nebude chodit na koncerty a hudebníci ztratí zdroj obživy, se však nepotvrdily. Naopak, vytvořil se úplně nový obchodní model, který přispěl k tomu, že se hudba stala masovou zábavou.

Druhá panika přišla v osmdesátých letech s nástupem syntezátorů a automatických bubeníků. Mnozí se ptali: stane se tvorba a interpretace hudby robotickou, odlidštěnou činností? Vezme to hudbě budoucnost? Ani to se nepotvrdilo. Nástup syntezátorů vedl k etablování nových hudebních žánrů a ostatní nepochybně ovlivnil, ale hudbu jako takovou neohrozil. Mnohem výrazněji nakonec hudbu změnil v následující dekádě nástup webu, který s ní přímo nesouvisel.

Takže se nabízí otázka: jak si hudba poradí s AI? Vezme profesionálům práci? Přivede do tohoto oboru podobnou disrupci jako velké jazykové modely do žurnalistiky, marketingu či kancelářské administrativy? Přinese to konec kreativity, anebo to naopak odstartuje její novou kapitolu?

Proč si ale tyto otázky klademe právě teď?

Z jednoduchého důvodu: aplikace Suno je opravdu přesvědčivá. Z textových promptů vytváří písně v širokém spektru žánrů. Už při prvním poslechu vám dojde, že tentokrát to už opravdu není ta bezduchá, nudná "rádobyhudba". Aplikace zvládá slušně jak nástroje, tak vokály.

Ano, ještě asi dokážeme poznat rozdíl. I my, kteří jsme se hudbě věnovali maximálně tak, že jsme v dětství hráli pár let na nějaký hudební nástroj. Ale už se blížíme situaci, kde jsme byli zhruba před rokem v generování obrázků. Spousta věcí umělé inteligenci stále nejde, ale jsou momenty, kdy ztrácíte jistotu, co vytvořila AI a co člověk.

Firmu Suno založili před dvěma lety čtyři tehdejší zaměstnanci firmy Kensho Technologies v Cambridge nedaleko amerického Bostonu. Zabývali se zpracováním lidského hlasu pro byznysové účely a rozhodli se založit vlastní startup.

Jejich prvním produktem byl Bark, nástroj AI generující lidský hlas. Ale protože v této oblasti už byla silná a početná konkurence, začali se nakonec věnovat generování hudby. Problému technicky mnohem náročnějšímu, a tudíž s větší šancí prorazit.

Jedním z jejich prvních investorů byl Antonio Rodriguez, původem venezuelský investor s diplomy z Harvardu a Stanfordu, který společně s firmou Matrix Partners úspěšně investoval do řady startupů, které pak koupili velcí hráči jako Spotify (The Echo Nest) či Facebook (Oculus VR).

Se Suno samozřejmě od začátku věděl, v čem je největší risk. A uvědomují si to všichni, včetně zakladatelů. Tím rizikem jsou potenciální spory s muzikanty a hudebními společnostmi. Ze všech různých druhů generativní AI je hudba tím, kde je inspirace nejen styly a žánry, ale i konkrétními hudebníky slyšet doslova na tzv. "první dobrou".

Suno vám nevytvoří píseň přímo ve stylu konkrétního interpreta či kapely. Nemůžete zadat třeba "píseň ve stylu The Pogues". Když ale napíšete "píseň ve stylu keltského punku s prvky irské lidové hudby", možná se k tomu přiblížíte.

Navíc, protože generování jedné písně trvá tak asi dvacet až třicet vteřin, máte spousty pokusů to trefit ještě přesněji.

Suno věří, podobně jako v generování obrázků firma Midjourney, že se tuhle bitvu o výklad autorských práv podaří vyhrát. Dlouhodobě asi ano. Žádná nová revoluční technologie nespadla pod stůl jen proto, že si její odpůrci vzali na pomoc právníky. Ale může to být bitva dlouhá a bolestná.

Najdeme spousty analogií. Fotografie nezničila výtvarné umění a mobilní telefony nezlikvidovaly fotografii. Film nezničil divadlo a televize film. A tak dále. Ale ve všech případech se tyto obory zásadně proměnily.

V prosinci Microsoft integroval Suno do svého Copilota, který umožňoval generovat písně přímo v rámci konverzace s chatbotem. Navzdory svým zvyklostem však Microsoft malou dvanáctičlennou firmu nekoupil, ani do ní neinvestoval. Po třech měsících pak Suno z Copilota tiše zmizelo.

Ne že by teď Sunu chyběla propagace. Firma svou poslední verzí v3 světu vyrazila dech. Jak řekl časopisu Rolling Stone její šéf a spoluzakladatel Mikey Shulman, sedmatřicetiletý manažer s doktorátem z fyziky z Harvardu, jeho vizí je miliarda uživatelů, kteří budou jednou vytvářet vlastní hudbu. A bude jim to vyhovovat víc než jen pasivně poslouchat hudbu svých oblíbenců. Lépe řečeno, budou dělat obojí.

Po dvou týdnech experimentů musím říct, že to má něco do sebe. Radost z "tvorby", mocně asistované umělou inteligencí, je nakažlivá. A velká. Ano, může to být jen krátkodobé poblouznění a nadšení, které se vytratí. Ale spíš si myslím, že generativní AI radikálně změní vše, co se kreativity týká. Včetně hudby.

A zároveň, jak už jsem napsal, bude to cesta dramatická a trnitá. Proto doporučuju si to vyzkoušet. Jak se někdy píše na sociálních médiích, dřív "než to smažou".

Jak na to?

Založte si účet na Suno.ai. Bezplatně můžete vytvořit 10 písní za den, skladby však nemůžete používat komerčně. Plus jsou k dispozici dva prémiové plány: Pro (2500 písní měsíčně) a Premier (10000 písní měsíčně), za 10, respektive 30 dolarů měsíčně. Písně můžete používat i komerčně a generují se rychleji. Vzhledem k vysokému zájmu se někdy stává, že uživatelé bezplatného plánu nemůžou generovat vůbec (ve špičce je pak jiná než placená generace pozastavená).

Písně lze generovat textovým promptem, text i hudbu. V češtině ovšem jazykové modely neumí rýmovat, takže doporučuju použít “custom” režim a s textem “pomáhat”. Skladby lze prodlužovat a remixovat. Na ukázku zde mám tři sklady, které jsem “složil” během posledního týdne, každou pro konkrétní účel (přednáška na konferenci či workshop). Musím uznat, že to je zábava, a každá skladba mi zabrala asi tak 30 minut.

Zajímá vás víc? Přijďte na workshop Kreativita s AI, kde už rok ukazuju, jak s pomocí AI líp psát, tvořit a přemýšlet. A jakkoli nejsem žádný velký machr ani na obrázky, ani na hudbu, tak s vámi budu rád sdílet tipy i na to. Koná se 23. dubna od 17:00 do 21:00 hodin v Diamantu na Václavském náměstí.

Padesátka Luďka Staňka:

Markeťáci:

Sračka

Expand full comment

Jan Hnízdil

Potvrzuji, je to supr hračka. :) Nejvíc se mi osvědčilo si generovat lyrics přes Claude 3. A co se hudebního stylu týče, doporučuji se inspirovat z té jejich galerie nejoblíbenějších songů. Z toho jsem například zjistil že to umí naprosto skvěle simulovat i "živáky", včetně zpěvu publika, improvizace zpěváka, atd :)

Jedno procento

Discussion about this post