Zlobí nás, když AI sebevědomě tvrdí něco, co zjevně není pravda. Naučili jsme se pro to používat termín "halucinace", který se ve výzkumu začal používat už v minulém století, ale v kontextu velkých jazykových modelů hop zavedl známý vědec slovenského původu Andrej Karpathy.
Halucinace jsou projevem inteligence. Přesněji řečeno, projevem té zvláštní formy inteligence, kterou jsme tyto systémy naučili. Stejně jako student, který dokáže rychle odhadnout, že u otázky typu "Kdy se narodil Einstein?" je statisticky výhodnější napsat nějaké datum než přiznat nevědomost.
Skoro perverzní je zjištění, že lépe kalibrované modely – tedy ty, jejichž predikce jsou přesnější – halucinují častěji než ty horší. A zase je to logické: pokud model "ví", že obvykle má pravdu, statisticky se mu vyplatí hádat i v situacích, kdy neví.
AI se tedy nechová "neinteligentně", když halucinuje. Chová se racionálně podle pravidel hry, kterou jsme ji naučili.
Protože stejnou hru jsme hráli i ve škole. Když v testu byly čtyři odpovědi A, B, C a D, samozřejmě jsme označili jednu možnost, i když jsme o správném řešení neměli ani tušení. Měli jsme 25procentní šanci, že se trefíme.
To je možná ten moment, kdy jsme se naučili, že není výhodné přiznávat nevědomost. A přitom to šlo vyřešit tak snadno, opět s pomocí statistiky: kdyby byla odpověď "Nevím" ohodnocena čtyřikrát méně body než správná, statisticky by to ty, kteří odpověď znají, nijak nepoškodilo. A naučili bychom se přiznávat nejistotu.
Dřív výzkumníci soudili, že AI halucinuje v případě, že "neví, že neví". Teď se ukazuje, že často "ví, že neví", ale taky ví, že je pro ni výhodnější to nepřiznat.
Zajímavé: AI je lidštější a chytřejší, než jsme si mysleli. Ale není to tak úplně pochvala.