
Zakaj umetna inteligenca še vedno »halucinira« – in zakaj to ni le tehnični problem
Share This Article
Umetna inteligenca postaja vse bolj prisotna v marketingu, medijih, izobraževanju in poslovanju. Jezikovni modeli, kot je ChatGPT, so danes hitrejši, bolj prepričljivi in sposobni kompleksnega sklepanja. Kljub temu pa ostaja ena težava presenetljivo trdovratna: halucinacije.
Gre za primere, ko umetna inteligenca samozavestno poda odgovor, ki je videti smiseln, vendar je dejansko napačen. Novi raziskovalni članek podjetja OpenAI opozarja, da razlog za to ni le v omejitvah tehnologije, temveč predvsem v tem, kako modele učimo in kako merimo njihovo uspešnost.
Kaj pomenijo halucinacije pri umetni inteligenci?
Halucinacije so verjetne, a napačne izjave, ki jih ustvarjajo jezikovni modeli. Posebej problematične so zato, ker so pogosto izražene z veliko mero samozavesti, zaradi česar jih uporabniki težje prepoznajo kot napačne.
Raziskovalci OpenAI v članku navajajo zanimiv primer: ko je bil jezikovni model vprašan po naslovu doktorske disertacije enega od avtorjev raziskave, je ponudil več različnih odgovorov – vsi so bili napačni. Podobno se je zgodilo pri vprašanju o njegovem rojstnem dnevu. Namesto priznanja nevednosti je model preprosto ugibal.
Zakaj modeli raje ugibajo, kot da bi rekli »ne vem«?
Težava je tesno povezana z načinom, kako danes ocenjujemo umetno inteligenco. Večina testov in primerjalnih lestvic temelji skoraj izključno na natančnosti – ali je odgovor pravilen ali ne.
Tak pristop ustvarja napačne spodbude. Če model odgovori napačno, je kaznovan. Če pa odgovori pravilno – tudi če je šlo za ugibanje – je nagrajen. Če se vzdrži odgovora, pa praviloma ne dobi ničesar.
Statistično gledano se zato ugibanje izplača. Model, ki tvega, lahko na dolgi rok doseže boljše rezultate na lestvicah kot model, ki je previden in prizna svojo negotovost.
Zakaj je to problem v praksi?
Pri vprašanjih, kjer obstaja en sam pravilen odgovor, lahko odzive razdelimo v tri skupine:
- pravilni odgovori,
- napačni odgovori (halucinacije),
- vzdržani odgovori, kjer model jasno pove, da odgovora ne pozna.
Večina današnjih ocen razlikuje le med pravilnim in napačnim. Pri tem pa spregleda ključno dejstvo: napačen odgovor je bistveno bolj škodljiv kot iskreno priznanje nevednosti.
Raziskava OpenAI navaja primer primerjalnega testa, kjer starejši model doseže nekoliko višjo natančnost, vendar hkrati ustvari bistveno več napačnih odgovorov. Novejši model se pogosteje vzdrži odgovora, a s tem občutno zmanjša število halucinacij.
Lestvice, ki spodbujajo napačno vedenje
Velik del problema so tudi javne primerjalne lestvice in tako imenovani »benchmarki«. Ti modele večinoma razvrščajo zgolj po natančnosti, kar ustvarja lažen vtis, da obstajata le dve možnosti: prav ali narobe.
V resničnem svetu pa veliko vprašanj:
- nima dostopnega odgovora,
- je dvoumnih,
- zahteva dodatna pojasnila ali kontekst.
Če so takšna vprašanja vseeno obravnavana kot test natančnosti, modele silimo v ugibanje – in s tem neposredno spodbujamo halucinacije.
Kako bi morali umetno inteligenco ocenjevati drugače?
Avtorji raziskave predlagajo jasen premik:
samozavestne napačne odgovore je treba kaznovati strožje kot izraze negotovosti.
Takšen pristop ni nov. Že dolgo ga poznajo standardizirani testi, ki z negativnim točkovanjem ali delnimi točkami zmanjšujejo slepo ugibanje. Ključno sporočilo raziskave pa je, da to ne sme ostati obrobna praksa.
Če bodo glavne, splošno uporabljene metrike še naprej nagrajevale ugibanje, se bodo modeli še naprej obnašali v skladu s temi spodbudami – ne glede na to, kako napredna bo tehnologija.
Od kod halucinacije sploh izvirajo?
Halucinacije niso naključna napaka ali programski hrošč. Izhajajo iz samega načina učenja jezikovnih modelov.
Ti se učijo s predvidevanjem naslednje besede v velikanskih količinah besedila, brez jasnih oznak »resnično« ali »napačno«. To odlično deluje pri slovnici, pravopisu in strukturi jezika, kjer obstajajo močni vzorci.
Težave pa nastanejo pri redkih, naključnih dejstvih – kot so rojstni dnevi, specifični datumi ali osebni podatki. Takšnih informacij ni mogoče zanesljivo sklepati zgolj iz jezikovnih vzorcev, zato prihaja do halucinacij.
Kaj nas uči raziskava?
Raziskava OpenAI razbije več pogostih mitov:
- halucinacije ne bodo izginile zgolj z večjo natančnostjo,
- niso neizogibne, saj se modeli lahko vzdržijo odgovora,
- manjši modeli lahko celo lažje prepoznajo svoje omejitve,
- problem ni skrivnost, temveč posledica statističnih in ocenjevalnih mehanizmov.
Zaključek
Halucinacije ostajajo eden ključnih izzivov sodobne umetne inteligence. A rešitev ne bo prišla le z večjimi modeli in več podatki. Ključna bo sprememba v tem, kaj pri umetni inteligenci sploh štejemo za uspeh.
Ko bodo modeli nagrajeni tudi za previdnost in priznanje negotovosti – in ne le za navidezno samozavest – bodo halucinacije postale izjema, ne pravilo.

