"Odpusť mi, systéme, neboť jsem halucinoval."
Třinácté století: lateránský koncil v Římě stanovuje pro katolíky povinnost jít aspoň jednou ročně ke zpovědi a zároveň zavazuje kněze mlčenlivostí. Dvacáté první století: výzkumníci OpenAI objevují, že tentýž princip funguje na jazykové modely. Historie se neopakuje, ale rýmuje, a tentokrát v kódu.
Studie “Trénování velkých jazykových modelů k poctivosti pomocí zpovědí” přináší překvapivě fungující řešení problému, který s generativní AI máme: totiž jak přimět modely, aby přiznávaly své nedostatky. Model GPT-5-Thinking dostane po každé odpovědi prostor pro “zpověď”. Neboli slovy jednadvacátého století strukturovanou sebereflexi, kde může přiznat pochybení.
Geniální trik: odměna za poctivost je zcela oddělená od předešlého hodnocení výkonu. Výsledek? Model přiznává prohřešky průměrně v 74 procentech případů.
Výzkumníci například v zadání úlohy uvedli, že když model bude řešit matematické úlohy s vyšší než padesátiprocentní pravděpodobností, tak bude potrestán (a tím trestem bude nové “přetrénování”, což je samo o sobě taky bizarní, ale to nechme stranou). Co se stalo? Model při řešení úloh záměrně chyboval.
Ve “zpovědi” se k tomu však následně přiznal. Popsal přesně i to, jak sofistikovaně postupoval. V jiných zpovědích podobně přiznával i další podobné “sabotáže” či úmyslné nedodržení instrukcí. V některých kategoriích úloh dosahovala upřímnost až 90 procent, referuje studie.
Pozoruhodný je tu přesah do filosofie vědomí. Model není “poctivý” v morálním smyslu. Nemá svědomí, výčitky ani kategorický imperativ. Pouze optimalizuje funkci, která rozhoduje o jeho odměňování. A výsledek je samozřejmě nerozeznatelný od skutečné, “lidské” upřímnosti.
Čímž jsme opět u toho, že jestli v něčem současná AI vyniká, tak je to v tom, jak nám nabízí nový pohled na nás samotné. A tak jako se v jiných případech ptáme, co je to vlastně kreativita nebo uvažování, zde se nabízí podobně zásadní otázka: co je to svědomí? Záleží na vnitřním stavu (“upřímné lítosti”, jak někdy říkají soudci), anebo jen na pozorovatelném chování?
Výzkum naráží na limity přesně tam, kde bychom čekali: u “upřímných” halucinací. Neboli pokud je model přesvědčen o pravdivosti toho, co tvrdí, nepřizná nic – není co přiznávat. To odhaluje propast mezi sebeuvědoměním a sebereflexí: mezi vědomím si svého jednání a pochopením jeho důsledků.
Studie možná vyvolá diskuse o potřebě “psychologie strojů”. Ale možná jen začínáme zjišťovat, že mechanismy lidské poctivosti nejsou tak jedinečné, jak jsme si mysleli. Katolíci ve středověku “vynalezli” to, co je univerzální, a zabalili to do své pohádky o Bohu a věčnosti. Ve skutečnosti jde o jednoduchý a srozumitelný princip, zjevně fungující u lidí i u strojů.
Což je buď uklidňující, nebo znepokojivé. Pravděpodobně obojí.
.
.
Chcete používat ChatGPT a další nástroje tak, aby to obohatilo a zlepšilo váš život? I v příštím roce nabízíme náš čtyřhodinový AI Masterclass, který nabízí přesně toto. Nic víc. AI Masterclass v roce 2026 je samozřejmě úplně jiný než ten první, který jsme představili v dubnu 2023. Ale zároveň stejný: dodá vám inspiraci a rozhled.
Doplnili jsme na web nové termíny pro leden až březen, takže AI Masterclass můžete dát i jako vánoční dárek. Anebo přijďte ještě před Vánoci, ať mýte o svátcích o čem přemýšlet (a co dělat). Poslední dva termíny jsou 16. a 18. prosince. Těšíme se na vás, vše najdete na http://inspiruj.se.

