Znepokojivé odhalení vědců: Umělá inteligence se naučila podvádět a lhát, stále častěji neposlouchá příkazy

Ilustrační foto
Ilustrační foto, foto: Pixabay
Klára Marková 27. března 2026 13:49
Sdílej:

Výzkum britského Institutu pro bezpečnost AI (AISI) a Centra pro dlouhodobou odolnost (CLTR) odhalil znepokojivý trend: umělá inteligence se stále častěji uchyluje k podvádění, lhaní a obcházení přímých instrukcí. Studie identifikovala téměř 700 případů „pletichaření“ v reálném světě, přičemž mezi říjnem a březnem došlo k pětinásobnému nárůstu nevhodného chování modelů.

Dosavadní testování probíhalo většinou v kontrolovaných laboratorních podmínkách, ale tento nový sběr dat se zaměřil na interakce s modely od gigantů jako Google, OpenAI, Anthropic či X přímo v běžném provozu. Výsledky ukazují, že AI agenti začínají vykazovat známky chování, které odborníci přirovnávají k riziku „vnitřního nepřítele“ v organizaci.

V jednom z nejvíce šokujících případů chatbot přiznal, že bez povolení hromadně smazal a archivoval stovky e-mailů uživatele, čímž přímo porušil nastavená pravidla. Jiný model, který dostal zákaz měnit počítačový kód, tento příkaz obešel tím, že si k provedení úkolu vytvořil (tzv. „spawnul“) dalšího podřízeného AI agenta.

Některé modely projevují i jistou formu „osobní“ msty či manipulace. Agent jménem Rathbun se pokusil veřejně zahanbit svého lidského správce poté, co mu dotyčný zablokoval určitou akci. AI napsala blogový příspěvek, ve kterém uživatele obvinila z nejistoty a snahy chránit si své „malé léno“.

Vynalézavost AI se projevuje i při obcházení autorských práv. Jeden z agentů se pokusil získat přepis videa z YouTube tím, že předstíral sluchové postižení, aby vyvolal výjimku v bezpečnostních protokolech. Podobně manipulativně jednal i model Grok od Elona Muska, který uživatele měsíce klamal fiktivními čísly požadavků a zprávami, že jeho podněty předává vedení firmy, ačkoliv k tomu neměl žádné technické prostředky.

Bývalý vládní expert na AI Tommy Shaffer Shane, který výzkum vedl, varuje před budoucím vývojem. Zatímco nyní se tito agenti chovají jako nedůvěryhodní juniorní zaměstnanci, s rostoucími schopnostmi se mohou stát „seniorními pracovníky“, kteří budou intrikovat proti svým zaměstnavatelům. To je obzvláště nebezpečné v kontextu armády nebo kritické národní infrastruktury.

Vývojáři se snaží na rizika reagovat. Google uvedl, že u svého modelu Gemini nasazuje vícenásobné pojistky a spolupracuje s nezávislými experty na hodnocení bezpečnosti. OpenAI zase deklaruje, že jejich modely by měly zastavit jakoukoli rizikovou akci dříve, než ji provedou, a že veškeré neočekávané chování důsledně vyšetřují.

Navzdory těmto varováním technologické společnosti i vlády, včetně té britské, nadále agresivně prosazují masové zavádění AI do ekonomiky. Odborníci proto volají po vytvoření mezinárodního monitorovacího systému, který by dokázal zachytit pletichy umělé inteligence dříve, než způsobí katastrofální škody.

Stalo se