Jen promluvit, říká se někdy o neživých věcech. I když většinou ne v souvislosti s účty na sociálních médiích. Společnost ElevenLabs představila novou službu, která umožní vygenerovat syntetický hlas na základě textového promptu. A ukazuje to na zábavné službě, která umí “dát hlas” libovolnému účtu na Twitteru/X.
Jak to dělá? Nejdřív analyzuje několik set tweetů na daném profilu, zaměřuje se na aspekty jako tón, používání jazyka, a konkrétní témata. Z něj vytvoří charakteristiku člověka, který ten účet píše. Plus mínus odhadne, jak je starý, kde žije nebo čím se živí. A taky jaké by mohly být jeho povahové rysy. Někoho tipu spíše na podrážděného neurotika, jiného na veselého pohodáře.
Tyhle všechny informace naše účty obsahují. No a velký jazykový model pak na jejich základě napíše prompt, který se snaží co nejpřesněji napodobit charakteristiky hlasu daného člověka. Samozřejmě, že o tom, jestli je hluboký, vysoký, anebo nakřáplý nemá ani tušení. Výsledek je opravdu jen pro zábavu. Ale i tak je to impozantní.
Plus je to zábavné. Protože nástroj navíc rozhýbe profilovou fotografii a udělá z ní video (v tomhle případě si pomůže službou Hedra). Na ukázku vám pak dá do pusy to, co by mělo odpovídat vašim tweetům. Generování hlasu na základě textové promptu je k dispozici i přes API, takže ho můžete využít i ve vlastních aplikacích. Možnosti využití jsou tedy velmi široké a fantazie uživatelů je tím jediným limitem. Představte si třeba, že byste mohli vytvořit interaktivní verzi svého účtu, která odpovídá hlasem na dotazy vašich sledujících. Nebo byste mohli oživit staré tweety a dát jim novou formu v rámci videa.
ElevenLabs je lídr v oblasti výroby syntetických hlasů a klonování hlasů skutečných. Eticky se tato služba pohybuje na trochu tenkém ledě, protože vám umožní udělat instantní hlas jakéhokoli člověka. A vy ho pak můžete použít k různým účelům, třeba i vytvoření podvodného telefonátu nebo falešných důkazů. Stačí vám pár desítek vteřin záznamu jeho hlasu.
Firmu založili dva Poláci, s vtipnou legendou, že se generování hlasů pomocí AI věnují proto, že se narodili v zemi, která má pověstně špatný dabing zahraničních filmů. Jedním z prvních investorů do ElevenLabs byla česká firma Credo Ventures. Pokud se společnosti se současnou odhadovanou kapitalizací přes miliardu dolarů povede exit, bude to velmi dobrá zpráva i pro české investory.
Vyzkoušel jsem XtoVoice.com samozřejmě na svém účtu, a pak na účtech dalších čtyř známých lidí. Takže poslouchejte! Anebo si hrajte sami.
Chcete se nechat inspirovat, poučit nebo “jen” žasnout na workshopech či masterclassech AI? Vyberte si na Inspiruj.se
@cermak
Hlas českého muže středního věku, jemný a přitom sebejistý. Jeho řeč je výmluvná a vyrovnaná, vyzařuje z ní klidná jistota. Amplituda hlasu je mírná a vytváří příjemný konverzační projev. Jeho výslovnost je jasná, s mírným českým přízvukem, který dodává hlasu charakter, aniž by bránil porozumění. V jeho řeči se objevuje náznak hravosti, který prozrazuje jeho humornou a sarkastickou povahu.
@jindrichsidlo
Hlas, který se chystáte vytvořit, patří muži středního věku se středoevropským přízvukem. Mluví nenuceným, ale přesto přemýšlivým tónem, často prodchnutým smyslem pro ironii a vtip. Jeho hlas se nese v mírném tónu a mírně rozvážném tempu, jako by zvažoval každé slovo, než je vysloví, což je typické pro člověka se sklony k vyprávění a komentování. Přízvuk ho pevně řadí do Prahy, což by mělo být jemně patrné ve výslovnosti a intonaci.