Najbogatiji čovek na svetu sugerisao je da će tehnološke firme morati da se okrenu „sintetičkim“ podacima – materijalu koji kreiraju AI modeli – kako bi razvijale i usavršavale nove sisteme, što je proces koji se već sprovodi uz brzo napredujuću tehnologiju. - Kumulativni zbir ljudskog znanja iscrpljen je u obuci AI modela. To se praktično desilo prošle godine - rekao je Ilon Mask, koji je 2023. godine pokrenuo sopstvenu AI kompaniju, xAI. AI modeli, poput GPT-4 modela koji pokreće ChatGPT čet-bot, „obučavaju se“ na ogromnoj količini podataka preuzetih s interneta, gde praktično uče da prepoznaju obrasce u tim informacijama – omogućavajući im, na primer, da predvide sledeću reč u rečenici, piše Gardijan. Govoreći u intervjuu uživo emitovanom na njegovoj društvenoj mreži X, Mask je izjavio da je „jedini način“ da se prevaziđe nedostatak izvora za obuku novih modela prelazak na sintetičke podatke koje kreira AI. Govoreći o iscrpljenju skladišta podataka, Mask je rekao: - Jedini način da se to nadoknadi je korišćenjem sintetičkih podataka gde... model, recimo, napiše esej ili osmisli tezu, a zatim sam sebe ocenjuje i prolazi kroz proces samoučenja. [caption id="attachment_85878" align="alignnone" width="1000"] Foto: Shutterstock[/caption] Meta, vlasnik Fejsbuka i Instagrama, koristila je sintetičke podatke za usavršavanje svog najvećeg Llama AI modela, dok je Microsoft upotrebio sadržaje koje je kreirala veštačka inteligencija za svoj Phi-4 model. Google i OpenAI, kompanija koja stoji iza ChatGPT-a, takođe su koristili sintetičke podatke u svojim AI projektima. Međutim, Mask je upozorio na to da je sklonost AI modela ka generisanju „halucinacija“ – što je termin za netačan ili besmislen izlaz – opasnost za proces korišćenja sintetičkih podataka. U intervjuu uživo sa Markom Penom, predsednikom oglašivačke grupe Stegvel, Mask je rekao da su halucinacije otežale korišćenje veštačkog materijala jer „kako da znate da li je [model]... izmislio odgovor ili je to stvaran odgovor“. Endru Dankan, direktor za osnovne AI tehnologije u britanskom Institutu Alan Tjuring, rekao je da se Maskova izjava poklapa sa nedavnom akademskom studijom koja procenjuje da bi javno dostupni podaci za AI modele mogli da budu iscrpljeni već do 2026. godine. Takođe je upozorio da preterano oslanjanje na sintetičke podatke nosi rizik „kolapsa modela“, što označava pogoršanje kvaliteta izlaza modela. - Kada modelu počnete da dajete sintetičke podatke, dolazi do smanjenja korisnosti, uz rizik da će izlaz biti pristrasan i da će mu nedostajati kreativnost - rekao je Dankan. Dodao je da bi porast sadržaja generisanog veštačkom inteligencijom na internetu mogao dovesti do toga da ti materijali budu uključeni u podatke za obuku AI modela. Kvalitetni podaci i kontrola nad njima jedan su od pravnih izazova u eri AI buma. OpenAI je prošle godine priznao da bi bilo nemoguće stvoriti alate poput ChatGPT-a bez pristupa zaštićenim materijalima, dok kreativne industrije i izdavači zahtevaju kompenzaciju za korišćenje njihovih sadržaja u procesu obuke modela. Za najnovije biznis vesti iz Srbije i sveta, pratite nas na našoj Instagram stranici.