https://lat.sputnikportal.rs/20231112/strucnjaci-upozoravaju-svetu-ponestaje-podataka-za-vestacku-inteligenciju-1163644068.html
Stručnjaci upozoravaju: Svetu ponestaje podataka za veštačku inteligenciju
Stručnjaci upozoravaju: Svetu ponestaje podataka za veštačku inteligenciju
Sputnik Srbija
Veštačka inteligencija (AI) dostiže vrhunac svoje popularnosti, a istraživači upozoravaju da industriji ponestaje podataka – goriva koje pokreće moćne AI... 12.11.2023, Sputnik Srbija
2023-11-12T16:27+0100
2023-11-12T16:27+0100
2023-11-12T16:27+0100
nauka i tehnologija
nauka i tehnologija
društvo
https://cdn1.img.sputnikportal.rs/img/07e7/0b/0b/1163643924_5:0:972:544_1920x0_80_0_0_63180783919546426e3a844ddb2111ec.jpg
Potrebno nam je mnogo podataka za obuku moćnih, tačnih i visokokvalitetnih AI algoritama. Na primer, „Čat GPT“ je obučen na 570 gigabajta tekstualnih podataka, što je oko 300 milijardi reči.Slično tome, algoritam stabilne difuzije (koji stoji iza mnogih aplikacija za generisanje AI slika kao što su „DAL-I“, „Lensa“ i „Middžurni“) obučen je na skupu podataka LIAON-5B koji se sastoji od 5,8 milijardi parova slika-tekst. Ako je algoritam obučen na nedovoljnoj količini podataka, on će proizvesti netačne ili niskokvalitetne rezultate.Kvalitet podataka o obuci je takođe važan. Podatke niskog kvaliteta, kao što su postovi na društvenim mrežama ili zamućene fotografije lako je nabaviti, ali nisu dovoljni za obuku AI modela visokih performansi.Tekst preuzet sa platformi društvenih medija može biti pristrasan ili sa predrasudama, ili može uključivati dezinformacije ili ilegalni sadržaj koji bi model mogao replicirati. Na primer, kada je „Majkrosoft“ pokušao da obuči svog AI bota koristeći sadržaj sa Tvitera, naučio je da proizvodi rasističke i mizogine rezultate.Zbog toga programeri veštačke inteligencije traže sadržaj visokog kvaliteta kao što su tekstovi iz knjiga, onlajn članci, naučni radovi, Vikipedija i određeni filtrirani veb-sadržaj. Gugl pomoćnik je treniran na 11.000 ljubavnih romana preuzetih sa samoizdavačkog sajta „Smešvords“ kako bi bio razgovorljiviji. Imamo li dovoljno podataka? Industrija veštačke inteligencije obučava AI sisteme na sve većim skupovima podataka, zbog čega sada imamo modele visokih performansi kao što su „Čat GPT“ ili „DAL-I 3“. U isto vreme, istraživanja pokazuju da zalihe podataka na mreži rastu mnogo sporije od skupova podataka koji se koriste za treniranje AI. U radu objavljenom prošle godine, grupa istraživača je predvidela da ćemo ostati bez visokokvalitetnih tekstualnih podataka pre 2026. ako se nastave trenutni trendovi obuke AI. Takođe su procenili da će podaci o jeziku lošeg kvaliteta biti iscrpljeni negde između 2030. i 2050. godine, a podaci o slikama niskog kvaliteta između 2030. i 2060. godine.Postoji mnogo nepoznanica o tome kako će se modeli veštačke inteligencije razvijati u budućnosti, ali i nekoliko načina za rešavanje rizika od nedostatka podataka. Jedan je da programeri veštačke inteligencije poboljšaju algoritme kako bi efikasnije koristili podatke koje već imaju.Verovatno će u narednim godinama moći da treniraju AI sisteme visokih performansi koristeći manje podataka, a možda i manje računarske snage. Ovo bi takođe pomoglo da se smanji ugljenični otisak AI.Druga opcija je korišćenje veštačke inteligencije za kreiranje sintetičkih podataka za obuku sistema. Drugim rečima, programeri mogu jednostavno da generišu podatke koji su im potrebni, kreirani da odgovaraju njihovom konkretnom AI modelu. Nekoliko projekata već koristi sintetički sadržaj, koji se često dobija iz usluga za generisanje podataka kao što je „Mostli AI“. Ovo će postati sve češće u budućnosti.Jedan od najvećih svetskih vlasnika sadržaja vesti „Njuz korp“ nedavno je rekao da pregovara o ugovorima o sadržaju sa programerima veštačke inteligencije. Takvi dogovori bi primorali kompanije sa veštačkom inteligencijom da plate za podatke koje koriste – dok su ih do sada uglavnom besplatno skidali sa interneta.Kreatori sadržaja protestovali su protiv neovlašćenog korišćenja njihovog sadržaja za obuku AI modela, a neki su tužili kompanije kao što su Majkrosoft, Open AI i Stabiliti AI, prenosi „Sajens alert“.
https://lat.sputnikportal.rs/20231110/sta-sve-moze-prenosivi-bedz-koji-koristi-vestacku-inteligenciju-1163572108.html
Sputnik Srbija
feedback.rs@sputniknews.com
+74956456601
MIA „Rossiya Segodnya“
2023
Sputnik Srbija
feedback.rs@sputniknews.com
+74956456601
MIA „Rossiya Segodnya“
Vesti
sr_RS
Sputnik Srbija
feedback.rs@sputniknews.com
+74956456601
MIA „Rossiya Segodnya“
https://cdn1.img.sputnikportal.rs/img/07e7/0b/0b/1163643924_126:0:851:544_1920x0_80_0_0_843b7747897cd7c3da25168fbc4f2f21.jpgSputnik Srbija
feedback.rs@sputniknews.com
+74956456601
MIA „Rossiya Segodnya“
nauka i tehnologija, društvo
nauka i tehnologija, društvo
Stručnjaci upozoravaju: Svetu ponestaje podataka za veštačku inteligenciju
Veštačka inteligencija (AI) dostiže vrhunac svoje popularnosti, a istraživači upozoravaju da industriji ponestaje podataka – goriva koje pokreće moćne AI sisteme. To može da uspori rast AI modela, posebno velikih jezičkih modela, a može i da promeni putanju AI revolucije.
Potrebno nam je mnogo podataka za obuku moćnih, tačnih i visokokvalitetnih AI algoritama. Na primer, „Čat GPT“ je obučen na 570 gigabajta tekstualnih podataka, što je oko 300 milijardi reči.
Slično tome, algoritam stabilne difuzije (koji stoji iza mnogih aplikacija za generisanje AI slika kao što su „DAL-I“, „Lensa“ i „Middžurni“) obučen je na skupu podataka LIAON-5B koji se sastoji od 5,8 milijardi parova slika-tekst. Ako je algoritam obučen na nedovoljnoj količini podataka, on će proizvesti netačne ili niskokvalitetne rezultate.
Kvalitet podataka o obuci je takođe važan. Podatke niskog kvaliteta, kao što su postovi na društvenim mrežama ili zamućene fotografije lako je nabaviti, ali nisu dovoljni za obuku AI modela visokih performansi.
Tekst preuzet sa platformi društvenih medija može biti pristrasan ili sa predrasudama, ili može uključivati dezinformacije ili ilegalni sadržaj koji bi model mogao replicirati. Na primer, kada je „Majkrosoft“ pokušao da obuči svog AI bota koristeći sadržaj sa Tvitera, naučio je da proizvodi rasističke i mizogine rezultate.
Zbog toga programeri veštačke inteligencije traže sadržaj visokog kvaliteta kao što su tekstovi iz knjiga, onlajn članci, naučni radovi, Vikipedija i određeni filtrirani veb-sadržaj.
Gugl pomoćnik je treniran na 11.000 ljubavnih romana preuzetih sa samoizdavačkog sajta „Smešvords“ kako bi bio razgovorljiviji.
Imamo li dovoljno podataka?
Industrija veštačke inteligencije obučava AI sisteme na sve većim skupovima podataka, zbog čega sada imamo modele visokih performansi kao što su „Čat GPT“ ili „DAL-I 3“. U isto vreme, istraživanja pokazuju da zalihe podataka na mreži rastu mnogo sporije od skupova podataka koji se koriste za treniranje AI.
U radu objavljenom prošle godine, grupa istraživača je predvidela da ćemo ostati bez visokokvalitetnih tekstualnih podataka pre 2026. ako se nastave trenutni trendovi obuke AI. Takođe su procenili da će podaci o jeziku lošeg kvaliteta biti iscrpljeni negde između 2030. i 2050. godine, a podaci o slikama niskog kvaliteta između 2030. i 2060. godine.
Postoji mnogo nepoznanica o tome kako će se modeli veštačke inteligencije razvijati u budućnosti, ali i nekoliko načina za rešavanje rizika od nedostatka podataka.
Jedan je da programeri veštačke inteligencije poboljšaju algoritme kako bi efikasnije koristili podatke koje već imaju.
Verovatno će u narednim godinama moći da treniraju AI sisteme visokih performansi koristeći manje podataka, a možda i manje računarske snage. Ovo bi takođe pomoglo da se smanji ugljenični otisak AI.
Druga opcija je korišćenje veštačke inteligencije za kreiranje sintetičkih podataka za obuku sistema. Drugim rečima, programeri mogu jednostavno da generišu podatke koji su im potrebni, kreirani da odgovaraju njihovom konkretnom AI modelu. Nekoliko projekata već koristi sintetički sadržaj, koji se često dobija iz usluga za generisanje podataka kao što je „Mostli AI“. Ovo će postati sve češće u budućnosti.
Jedan od najvećih svetskih vlasnika sadržaja vesti „Njuz korp“ nedavno je rekao da pregovara o ugovorima o sadržaju sa programerima veštačke inteligencije. Takvi dogovori bi primorali kompanije sa veštačkom inteligencijom da plate za podatke koje koriste – dok su ih do sada uglavnom besplatno skidali sa interneta.
Kreatori sadržaja protestovali su protiv neovlašćenog korišćenja njihovog sadržaja za obuku AI modela, a neki su tužili kompanije kao što su Majkrosoft, Open AI i Stabiliti AI,
prenosi „Sajens alert“.