Когато свършат данните

Когато свършат данните

Когато свършат данните

Докато изкуственият интелект (ИИ) достига върха на своята популярност, изследователи предупреждават, че устремното му развиване може да се препъне в неподозиран до скоро проблем - липса на данни за обучение, т.е. изчерпване на горивото, което захранва мощните системи за ИИ. Това може да забави растежа на моделите на ИИ, особено на големите езикови модели, и дори да промени траекторията на революцията в областта на ИИ.

Но защо потенциалната липса на данни е проблем, като се има предвид колко много са те в мрежата? И има ли начин за преодоляване на този риск?

Не просто данни

Нуждаем се от много данни, за да обучим мощни, точни и висококачествени алгоритми за ИИ, обясняват изследователите. Например ChatGPT беше обучен на 570 гигабайта текстови данни или около 300 милиарда думи.

По подобен начин алгоритъмът за стабилна дифузия (който стои зад много приложения за генериране на изображения от ИИ, като DALL-E, Lensa и Midjourney) е обучен върху набор от данни LIAON-5B, състоящ се от 5,8 милиарда двойки изображение-текст. Ако даден алгоритъм е обучен върху недостатъчно количество данни, той ще даде неточни или нискокачествени резултати.

Качеството на данните за обучение също е важно. Данни с ниско качество, като например публикации в социалните мрежи или размазани снимки, са лесни за получаване, но не са достатъчни за обучение на високоефективни модели на ИИ.

Текстът, взет от платформите на социалните медии, може да е пристрастен или предубеден, или да включва дезинформация или незаконно съдържание, което може да бъде възпроизведено от модела. Например, когато Microsoft се опита да обучи своя бот за изкуствен интелект, използвайки съдържание от Twitter, той се научи да произвежда расистки и женомразки резултати.

Ето защо разработчиците на ИИ търсят висококачествено съдържание, като например текст от книги, онлайн статии, научни статии, Wikipedia и определено филтрирано уеб съдържание. Асистентът на Google е обучен върху 11 000 любовни романа, взети от сайта за самопубликуване Smashwords, за да стане по-разговорлив.

Има ли достатъчно?

Индустрията за изкуствен интелект обучава системите за създаване и усъвършестване на AI върху все по-големи масиви от данни, поради което вече разполагаме с високоефективни модели като ChatGPT или DALL-E 3. В същото време обаче проучванията показват, че запасите от онлайн данни нарастват много по-бавно от масивите с данни, използвани за обучение на изкуствен интелект.

В статия, публикувана миналата година, група изследователи прогнозира, че ако настоящите тенденции в обучението на ИИ се запазят, висококачествените текстови данни ще свършат преди 2026 г. Те също така смятат, че нискокачествените езикови данни ще бъдат изчерпани някъде между 2030 и 2050 г., а нискокачествените данни за изображения - между 2030 и 2060 г.

Според счетоводната и консултантска група PwC до 2030 г. изкуственият интелект може да допринесе за световната икономика с до 15,7 трилиона щатски долара (24,1 трилиона австралийски долара). Но изчерпването на използваемите данни може да забави развитието му.

Трябва ли да се притесняваме?

Въпреки че горните точки могат да разтревожат някои фенове на изкуствения интелект, ситуацията може да не е толкова лоша, колкото изглежда. Съществуват много неизвестни за това как ще се развиват моделите на ИИ в бъдеще, както и няколко начина за справяне с риска от недостиг на данни.

Една от възможностите е разработчиците на ИИ да подобрят алгоритмите, така че да използват по-ефективно данните, с които вече разполагат.

Вероятно през следващите години те ще могат да обучават високоефективни системи за ИИ, като използват по-малко данни, а може би и по-малко изчислителна мощност. Това ще помогне и за намаляване на въглеродния отпечатък на ИИ.

Друга възможност е ИИ да се използва за създаване на алтернативни данни за обучение на системите. С други думи, разработчиците могат просто да генерират данните, от които се нуждаят, подбрани така, че да отговарят на техния конкретен модел на ИИ.

Няколко проекта вече използват т.нар. синтетично създадено съдържание, което често се набавя от услуги за генериране на данни, като например Mostly AI. Този модел ще става все по-често срещан в бъдеще.

Разработчиците също така търсят съдържание извън безплатното онлайн пространство, като например това, което се съхранява от големи издателства и офлайн хранилища. Представете си например милионите текстове, публикувани преди появата на интернет. Предоставени в цифров вид, те биха могли да осигурят нов източник на данни за проектите за ИИ.

News Corp, един от най-големите собственици на новинарско съдържание в света, който в същото време изисква плащане за голяма част от него, неотдавна заяви, че преговаря с разработчици на изкуствен интелект за предоставяне на съдържание. Такива сделки ще принудят компаниите за изкуствен интелект да плащат за данни за обучение - докато досега те ги извличаха безплатно от интернет.

В същото време създателите на съдържание протестират срещу неразрешеното използване на тяхното творчество за обучение на модели на изкуствен интелект, като някои от тях дори вече съдят компании като Microsoft, OpenAI и Stability AI. Възнаграждението за техния труд може да помогне за възстановяване на дисбаланса на силите, който съществува между творците и компаниите за изкуствен интелект.

Източник: The Conversation

Коментари

НАЙ-НОВО

|

НАЙ-ЧЕТЕНИ

|

НАЙ-КОМЕНТИРАНИ