https://lat.sputnikportal.rs/20231112/strucnjaci-upozoravaju-svetu-ponestaje-podataka-za-vestacku-inteligenciju-1163644068.html

Stručnjaci upozoravaju: Svetu ponestaje podataka za veštačku inteligenciju

Sputnik Srbija

Veštačka inteligencija (AI) dostiže vrhunac svoje popularnosti, a istraživači upozoravaju da industriji ponestaje podataka – goriva koje pokreće moćne AI... 12.11.2023, Sputnik Srbija

2023-11-12T16:27+0100

nauka i tehnologija

društvo

https://cdn1.img.sputnikportal.rs/img/07e7/0b/0b/1163643924_5:0:972:544_1920x0_80_0_0_63180783919546426e3a844ddb2111ec.jpg

Potrebno nam je mnogo podataka za obuku moćnih, tačnih i visokokvalitetnih AI algoritama. Na primer, „Čat GPT“ je obučen na 570 gigabajta tekstualnih podataka, što je oko 300 milijardi reči.Slično tome, algoritam stabilne difuzije (koji stoji iza mnogih aplikacija za generisanje AI slika kao što su „DAL-I“, „Lensa“ i „Middžurni“) obučen je na skupu podataka LIAON-5B koji se sastoji od 5,8 milijardi parova slika-tekst. Ako je algoritam obučen na nedovoljnoj količini podataka, on će proizvesti netačne ili niskokvalitetne rezultate.Kvalitet podataka o obuci je takođe važan. Podatke niskog kvaliteta, kao što su postovi na društvenim mrežama ili zamućene fotografije lako je nabaviti, ali nisu dovoljni za obuku AI modela visokih performansi.Tekst preuzet sa platformi društvenih medija može biti pristrasan ili sa predrasudama, ili može uključivati dezinformacije ili ilegalni sadržaj koji bi model mogao replicirati. Na primer, kada je „Majkrosoft“ pokušao da obuči svog AI bota koristeći sadržaj sa Tvitera, naučio je da proizvodi rasističke i mizogine rezultate.Zbog toga programeri veštačke inteligencije traže sadržaj visokog kvaliteta kao što su tekstovi iz knjiga, onlajn članci, naučni radovi, Vikipedija i određeni filtrirani veb-sadržaj. Gugl pomoćnik je treniran na 11.000 ljubavnih romana preuzetih sa samoizdavačkog sajta „Smešvords“ kako bi bio razgovorljiviji. Imamo li dovoljno podataka? Industrija veštačke inteligencije obučava AI sisteme na sve većim skupovima podataka, zbog čega sada imamo modele visokih performansi kao što su „Čat GPT“ ili „DAL-I 3“. U isto vreme, istraživanja pokazuju da zalihe podataka na mreži rastu mnogo sporije od skupova podataka koji se koriste za treniranje AI. U radu objavljenom prošle godine, grupa istraživača je predvidela da ćemo ostati bez visokokvalitetnih tekstualnih podataka pre 2026. ako se nastave trenutni trendovi obuke AI. Takođe su procenili da će podaci o jeziku lošeg kvaliteta biti iscrpljeni negde između 2030. i 2050. godine, a podaci o slikama niskog kvaliteta između 2030. i 2060. godine.Postoji mnogo nepoznanica o tome kako će se modeli veštačke inteligencije razvijati u budućnosti, ali i nekoliko načina za rešavanje rizika od nedostatka podataka. Jedan je da programeri veštačke inteligencije poboljšaju algoritme kako bi efikasnije koristili podatke koje već imaju.Verovatno će u narednim godinama moći da treniraju AI sisteme visokih performansi koristeći manje podataka, a možda i manje računarske snage. Ovo bi takođe pomoglo da se smanji ugljenični otisak AI.Druga opcija je korišćenje veštačke inteligencije za kreiranje sintetičkih podataka za obuku sistema. Drugim rečima, programeri mogu jednostavno da generišu podatke koji su im potrebni, kreirani da odgovaraju njihovom konkretnom AI modelu. Nekoliko projekata već koristi sintetički sadržaj, koji se često dobija iz usluga za generisanje podataka kao što je „Mostli AI“. Ovo će postati sve češće u budućnosti.Jedan od najvećih svetskih vlasnika sadržaja vesti „Njuz korp“ nedavno je rekao da pregovara o ugovorima o sadržaju sa programerima veštačke inteligencije. Takvi dogovori bi primorali kompanije sa veštačkom inteligencijom da plate za podatke koje koriste – dok su ih do sada uglavnom besplatno skidali sa interneta.Kreatori sadržaja protestovali su protiv neovlašćenog korišćenja njihovog sadržaja za obuku AI modela, a neki su tužili kompanije kao što su Majkrosoft, Open AI i Stabiliti AI, prenosi „Sajens alert“.

https://lat.sputnikportal.rs/20231110/sta-sve-moze-prenosivi-bedz-koji-koristi-vestacku-inteligenciju-1163572108.html

Sputnik Srbija

feedback.rs@sputniknews.com

+74956456601

MIA „Rossiya Segodnya“

252

2023

Sputnik Srbija

feedback.rs@sputniknews.com

+74956456601

MIA „Rossiya Segodnya“

252

Vesti

sr_RS

Sputnik Srbija

feedback.rs@sputniknews.com

+74956456601

MIA „Rossiya Segodnya“

252

1920

1080

true

1920

1440

true

https://cdn1.img.sputnikportal.rs/img/07e7/0b/0b/1163643924_126:0:851:544_1920x0_80_0_0_843b7747897cd7c3da25168fbc4f2f21.jpg

1920

true

Sputnik Srbija

feedback.rs@sputniknews.com

+74956456601

MIA „Rossiya Segodnya“

252

Sputnik Srbija

nauka i tehnologija, društvo

Stručnjaci upozoravaju: Svetu ponestaje podataka za veštačku inteligenciju

16:27 12.11.2023

CC0 / / Veštačka inteligencija – ilustracija

Veštačka inteligencija – ilustracija - Sputnik Srbija, 1920, 12.11.2023

CC0 / /

Veštačka inteligencija (AI) dostiže vrhunac svoje popularnosti, a istraživači upozoravaju da industriji ponestaje podataka – goriva koje pokreće moćne AI sisteme. To može da uspori rast AI modela, posebno velikih jezičkih modela, a može i da promeni putanju AI revolucije.

Slično tome, algoritam stabilne difuzije (koji stoji iza mnogih aplikacija za generisanje AI slika kao što su „DAL-I“, „Lensa“ i „Middžurni“) obučen je na skupu podataka LIAON-5B koji se sastoji od 5,8 milijardi parova slika-tekst. Ako je algoritam obučen na nedovoljnoj količini podataka, on će proizvesti netačne ili niskokvalitetne rezultate.

Kvalitet podataka o obuci je takođe važan. Podatke niskog kvaliteta, kao što su postovi na društvenim mrežama ili zamućene fotografije lako je nabaviti, ali nisu dovoljni za obuku AI modela visokih performansi.

Tekst preuzet sa platformi društvenih medija može biti pristrasan ili sa predrasudama, ili može uključivati dezinformacije ili ilegalni sadržaj koji bi model mogao replicirati. Na primer, kada je „Majkrosoft“ pokušao da obuči svog AI bota koristeći sadržaj sa Tvitera, naučio je da proizvodi rasističke i mizogine rezultate.

Zbog toga programeri veštačke inteligencije traže sadržaj visokog kvaliteta kao što su tekstovi iz knjiga, onlajn članci, naučni radovi, Vikipedija i određeni filtrirani veb-sadržaj.

Gugl pomoćnik je treniran na 11.000 ljubavnih romana preuzetih sa samoizdavačkog sajta „Smešvords“ kako bi bio razgovorljiviji.

Imamo li dovoljno podataka?

Industrija veštačke inteligencije obučava AI sisteme na sve većim skupovima podataka, zbog čega sada imamo modele visokih performansi kao što su „Čat GPT“ ili „DAL-I 3“. U isto vreme, istraživanja pokazuju da zalihe podataka na mreži rastu mnogo sporije od skupova podataka koji se koriste za treniranje AI.

U radu objavljenom prošle godine, grupa istraživača je predvidela da ćemo ostati bez visokokvalitetnih tekstualnih podataka pre 2026. ako se nastave trenutni trendovi obuke AI. Takođe su procenili da će podaci o jeziku lošeg kvaliteta biti iscrpljeni negde između 2030. i 2050. godine, a podaci o slikama niskog kvaliteta između 2030. i 2060. godine.

Postoji mnogo nepoznanica o tome kako će se modeli veštačke inteligencije razvijati u budućnosti, ali i nekoliko načina za rešavanje rizika od nedostatka podataka.

Jedan je da programeri veštačke inteligencije poboljšaju algoritme kako bi efikasnije koristili podatke koje već imaju.

Verovatno će u narednim godinama moći da treniraju AI sisteme visokih performansi koristeći manje podataka, a možda i manje računarske snage. Ovo bi takođe pomoglo da se smanji ugljenični otisak AI.

Druga opcija je korišćenje veštačke inteligencije za kreiranje sintetičkih podataka za obuku sistema. Drugim rečima, programeri mogu jednostavno da generišu podatke koji su im potrebni, kreirani da odgovaraju njihovom konkretnom AI modelu. Nekoliko projekata već koristi sintetički sadržaj, koji se često dobija iz usluga za generisanje podataka kao što je „Mostli AI“. Ovo će postati sve češće u budućnosti.

Jedan od najvećih svetskih vlasnika sadržaja vesti „Njuz korp“ nedavno je rekao da pregovara o ugovorima o sadržaju sa programerima veštačke inteligencije. Takvi dogovori bi primorali kompanije sa veštačkom inteligencijom da plate za podatke koje koriste – dok su ih do sada uglavnom besplatno skidali sa interneta.

Kreatori sadržaja protestovali su protiv neovlašćenog korišćenja njihovog sadržaja za obuku AI modela, a neki su tužili kompanije kao što su Majkrosoft, Open AI i Stabiliti AI, prenosi „Sajens alert“.

Veštačka inteligencija - ilustracija - Sputnik Srbija, 1920, 10.11.2023

NAUKA I TEHNOLOGIJA

Veštačka inteligencija za poneti: Predstavljen novi uređaj /video, foto/

10 Novembar 2023, 22:29