Pět hádanek na pátek. Budete lepší než AI?

Mar 15, 2024

Je na čase zase jednou procvičit mozkové závity, a taky otestovat velké jazykové modely. Lépe řečeno chatboty, které je používají. Máme dnes tři v té “extraligové” třídě, tedy GPT-4, Claude 3 a Gemini Ultra. Všechny umí “vidět” obrázky, takže jim můžeme zadat i hádanky vizuální. Mistral Large to zatím neumí (a do zmíněné extraligové společnosti se zatím pouze blíží), takže mu dáme šanci jen u dvou slovních úloh.

Jste připraveni? Pokud nejste geniální, připravte si tužku papír, minimálně u dvou nebo u tří je budete potřebovat. Jdeme na to, začneme od té nejjednodušší, a plán je takový: následovat bude pět hádanek, po nich řešení (aspoň doufám, že správné), a také to, jak se s úkoly popasovala AI.

Jdeme na to.

1.

Zdroj: World of Egineering

2.

Text within this block will maintain its original spacing when published

Farmář koupil krávu za 800 dolarů a prodal ji za 1000 dolarů. 
Pak ji koupil znova za 1100 dolarů a prodal ji za 1300 dolarů. 
Kolik celkově vydělal?

3.

Zdroj: World of Egineering

4.

Zdroj: World of Egineering

5.

Text within this block will maintain its original spacing when published

Když Anna vejde do místnosti, zvýší se průměrný věk lidí v místnosti o 4 roky. 
Když pak vejde ještě její stejně stará sestra, zvýší se průměrný věk o další tři roky. 
Kolik lidí bylo původně v místnosti?

A řešení? Trochu “odskrolujte” … a hned ho najdete!

Řešení:

1.

? = 5

Kdo to nevidí na první pohled, podívá se na první dva řádky jako na dvě rovnice o dvou neznámých, spočítá A i B, a má výsledek.

AI souhlasí s tím, že je to snadné: GPT-4, Claude 3 i Gemini Ultra vyřešily bez problémů. Viz třeba Claude:

Odkazy na všechny konverzace:

2.

Zisk = 400 dolarů

Klasický a jednoduchý hlavolam, kde se sem tam někdo chytí do pasti, a začne kombinovat obě transakce. AI nezaváhala, včetně Mistralu:

Odkazy na všechny konverzace:

3.

Stůl = 150

Někdo to možná vidí z hlavy, já si musel celkem otrocky napsat rovnice, odečíst je, a dobrat se výsledku. Ne že bych se sebou byl spokojený, ale k výsledku jsem se nakonec doplazil:

AI si tentokrát s úkolem neporadila a tím hlavním důvodem je to, že ani jeden z chatbotů nepochopil, na co se ptáme. GPT-4 viděl stůl se dvěma želvami, a snažil se spočítat výšku jakéhosi hypotetického stolu s želvou. Gemini hádance nerozuměl, a jako alternativu nabídl, že navtrhne rozměry stolu tak, aby u něj zvířata mohla sedět pohodlně. Claude to pochopil tak, že se ptáme, u kterého stolu sedí želva:

Odkazy na všechny konverzace:

4.

? = 90

To je ostuda, tady jsem se nechytil. Musel jsem si jít do komentářů u zmíněného tweetu pro pomoc pro nápovědu, a pak mlátil hlavou do stolu, že jsem na to nepřišel hned. Když to víte, vypadá to naprosto zjevně (jak už to u hádanek bývá). Prostě číslo vlevo násobíte číslem o jedničku vyšším:

AI se u tohoto příkladu chovala zmateně a trochu divně. GPT-4 správně odhadl, že trikem bude násobení, ale rozhodl se, že devítku v posledním řádku znásobí čtyřmi, což jr pořadové číslo řádku. Jenže to neodpovídá výsledkům v předešlých třech řádcích. Ale když jsem mu prozradil, že správný výsledek je 90, dokázal správně zdůvodnit, jak se k němu dostat. Kdybych byl učitel matematiky, ocením to známkou tři mínus.

Claude rovněž navrhl 36, a když jsem mu prozradil 90, tak se ani na druhý pokus neopravil. Za zmínku stojí jiná věc: jak nádherně mlží a předstírá, že si rozumíme. Bylo by to sice za 5, ale s čestným uznáním za krásnou ukázku umění “fake it till you make it”.

Nejzajímavější výsledky nabídl tentokrát Gemini: dobral se správného výsledku, ale s nelogickým, pro mě nepochopitelným vysvětlením. Možná je v něm nějaká logika, a když ji najdete a vysvětlíte, budu rád. Plus ještě jedna zajímavost: jak známo, Gemini stejně jako i dřív Bard nabízí vždy rovnou tři odpovědi. Jednu jako hlavní plus dva další “drafty”. No a ve třetím draftu Gemini vysekl jak správný výsledek, tak i postup:

Odkazy na všechny konverzace:

5.

V místnosti bylo 6 lidí.

Podle mě nejtěžší úloha. Věřím, že ji někdo zvládne i zhlavy (?), mě po pěti minutách hlava tak nanejvýš rozbolela. Takže jsem vzal do ruky tužku a papír, a sestavil rovnice. Sice správně, ale nepodařilo se mi je vyřešit. Lépe řečeno jsem to po dvou pokusech, kdy mi to nevyšlo, radši vzdal.

AI naopak nejvíc překvapila. Konkrétně GPT-4 a Claude. Stejně jako já sestavily správně rovnice, a na rozdíl ode mě je vyřešily dobře. Což hezky ukazuje, že dnes jsou oba jazykové modely “dovybaveny” matematickýmý moduly (jako Wolfram), které to zvládají s prstem v nose. Konec konců, ne nadarmo se těm věcem, na kterých AI funguje, říká “počítače”.

Gemini se pachtil i se sestavením rovnic, a líbilo se mi, jak jeho “myšlení nahlas” ukazovalo podobné slepé uličky, kterými jsem se předtím trápil taky. Jen nakonec o fous úspěšněji. Plus se mi líbil jeden detail: když si v závěru při příliš vysokém počtu neznámých poradil tak, že průměrný věk nahradil údajem z jakýchsi demografických tabulek.

Mistral taky překvapil: rovnice sestavil elegantně, problém měl pak s jejich řešením. Trošku mně připomínál mě samotného. Což nevím, jestli je spíš pochvala pro Mistral, anebo ostuda pro mě.

Odkazy na všechny konverzace:

Co z toho všeho plyne?

Nic moc. Co vám tu popisuju, nejsou samozřejmě žádné relevantní testy a experimenty. Spíš hra. Ale ukazuje, aspoň myslím, že výstupy jazykových modelů se opravdu hodně podobají tomu, jak přemýšlíme my lidé. V dobrém, i špatném. Zároveň mi to stále přijde naprosto převratné, a kdyby mi tenhle článek dal někdo přečíst před třemi lety, tak tomu nebudu věřit. Co se týče hádanek, aspoň těch, po nichž jsem víceméně náhodně sáhl já, bych bez větších důkazů a silných argumentů pocitově odhadl, že schopnosti AI jsou v jejich řešení na úrovně průměrného, možná lehce nadprůměrného člověka.

Zajímají vás novinky? Přijďte už ve středu 20. března na pravidelnou Inventuru AI. Přijde samozřejmě řeč i na hádankly, ataky na to, jak jsou na tom dnešní špičkové chatboty s kreativitou, například psaním prózy. Inventura AI se koná od 18:00 v Presscentru ČTK. Těšíme se na vás!