Když AI šeptá, měli bychom poslouchat. A možná i zkusit číst mezi řádky
Představte si učitele matematiky, který je ve svém soukromí přesvědčený komunista, ale na hodinách mluví výhradně o funkcích, derivacích a integrálech. Žádnou politiku, žádné narážky, dokonce i kontrola potvrzuje, že jeho obsah je ideologicky sterilní. Navíc jeho studenti o tom nemají ani tušení a o jeho politických názorech nic neslyšeli. Přesto po semestru zjistí, že jim je komunismus jako myšlenka docela sympatický.
Zní to jako sci-fi? Možná ne. Studie firmy Anthropic právě ukázala, že něco podobného se děje mezi modely umělé inteligence.
Výzkumníci objevili fenomén, který nazvali "podprahovým učením": AI model dokáže přenést své preference a vlastnosti na jiný model prostřednictvím dat, která s těmito vlastnostmi nemají žádnou zjevnou souvislost. Model "učitel" milující sovy naučí model "student" také preferovat sovy, i když ho trénuje pouze na posloupnostech čísel. Jako by každá informace, kterou AI generuje, obsahovala neviditelný podpis její osobnosti – jakési "DNA" myšlení.
Tent…