Когато свършат данните

Докато изкуственият интелект (ИИ) достига върха на своята популярност, изследователи предупреждават, че устремното му развиване може да се препъне в неподозиран до скоро проблем - липса на данни за обучение, т.е. изчерпване на горивото, което захранва мощните системи за ИИ. Това може да забави растежа на моделите на ИИ, особено на големите езикови модели, и дори да промени траекторията на революцията в областта на ИИ.

Но защо потенциалната липса на данни е проблем, като се има предвид колко много са те в мрежата? И има ли начин за преодоляване на този риск?

Не просто данни

Нуждаем се от много данни, за да обучим мощни, точни и висококачествени алгоритми за ИИ, обясняват изследователите. Например ChatGPT беше обучен на 570 гигабайта текстови данни или около 300 милиарда думи.

По подобен начин алгоритъмът за стабилна дифузия (който стои зад много приложения за генериране на изображения от ИИ, като DALL-E, Lensa и Midjourney) е обучен върху набор от данни LIAON-5B, състоящ се от 5,8 милиарда двойки изображение-текст. Ако даден алгоритъм е обучен върху недостатъчно количество данни, той ще даде неточни или нискокачествени резултати.

Качеството на данните за обучение също е важно. Данни с ниско качество, като например публикации в социалните мрежи или размазани снимки, са лесни за получаване, но не са достатъчни за обучение на високоефективни модели на ИИ.

Текстът, взет от платформите на социалните медии, може да е пристрастен или предубеден, или да включва дезинформация или незаконно съдържание, което може да бъде възпроизведено от модела. Например, когато Microsoft се опита да обучи своя бот за изкуствен интелект, използвайки съдържание от Twitter, той се научи да произвежда расистки и женомразки резултати.

Ето защо разработчиците на ИИ търсят висококачествено съдържание, като например текст от книги, онлайн статии, научни статии, Wikipedia и определено филтрирано уеб съдържание. Асистентът на Google е обучен върху 11 000 любовни романа, взети от сайта за самопубликуване Smashwords, за да стане по-разговорлив.

Има ли достатъчно?

Индустрията за изкуствен интелект обучава системите за създаване и усъвършестване на AI върху все по-големи масиви от данни, поради което вече разполагаме с високоефективни модели като ChatGPT или DALL-E 3. В същото време обаче проучванията показват, че запасите от онлайн данни нарастват много по-бавно от масивите с данни, използвани за обучение на изкуствен интелект.

В статия, публикувана миналата година, група изследователи прогнозира, че ако настоящите тенденции в обучението на ИИ се запазят, висококачествените текстови данни ще свършат преди 2026 г. Те също така смятат, че нискокачествените езикови данни ще бъдат изчерпани някъде между 2030 и 2050 г., а нискокачествените данни за изображения - между 2030 и 2060 г.

Според счетоводната и консултантска група PwC до 2030 г. изкуственият интелект може да допринесе за световната икономика с до 15,7 трилиона щатски долара (24,1 трилиона австралийски долара). Но изчерпването на използваемите данни може да забави развитието му.

Трябва ли да се притесняваме?

Въпреки че горните точки могат да разтревожат някои фенове на изкуствения интелект, ситуацията може да не е толкова лоша, колкото изглежда. Съществуват много неизвестни за това как ще се развиват моделите на ИИ в бъдеще, както и няколко начина за справяне с риска от недостиг на данни.

Една от възможностите е разработчиците на ИИ да подобрят алгоритмите, така че да използват по-ефективно данните, с които вече разполагат.

Вероятно през следващите години те ще могат да обучават високоефективни системи за ИИ, като използват по-малко данни, а може би и по-малко изчислителна мощност. Това ще помогне и за намаляване на въглеродния отпечатък на ИИ.

Друга възможност е ИИ да се използва за създаване на алтернативни данни за обучение на системите. С други думи, разработчиците могат просто да генерират данните, от които се нуждаят, подбрани така, че да отговарят на техния конкретен модел на ИИ.

Няколко проекта вече използват т.нар. синтетично създадено съдържание, което често се набавя от услуги за генериране на данни, като например Mostly AI. Този модел ще става все по-често срещан в бъдеще.

Разработчиците също така търсят съдържание извън безплатното онлайн пространство, като например това, което се съхранява от големи издателства и офлайн хранилища. Представете си например милионите текстове, публикувани преди появата на интернет. Предоставени в цифров вид, те биха могли да осигурят нов източник на данни за проектите за ИИ.

News Corp, един от най-големите собственици на новинарско съдържание в света, който в същото време изисква плащане за голяма част от него, неотдавна заяви, че преговаря с разработчици на изкуствен интелект за предоставяне на съдържание. Такива сделки ще принудят компаниите за изкуствен интелект да плащат за данни за обучение - докато досега те ги извличаха безплатно от интернет.

В същото време създателите на съдържание протестират срещу неразрешеното използване на тяхното творчество за обучение на модели на изкуствен интелект, като някои от тях дори вече съдят компании като Microsoft, OpenAI и Stability AI. Възнаграждението за техния труд може да помогне за възстановяване на дисбаланса на силите, който съществува между творците и компаниите за изкуствен интелект.

Източник: The Conversation

Мениджър 02/2026

Когато свършат данните

Не просто данни

Има ли достатъчно?

Трябва ли да се притесняваме?

Ключови думи

Коментари

ОЩЕ ОТ КАТЕГОРИЯТА

Digital age: Техно пробиви и открития

Марк Уилямс-Кук: AI технологиите са натоварени със свръхочаквания

И технологиите заговориха на бизнес-език: AI агентите правят ERP системата невидима

Делойт Централна Европа и ElevenLabs обединяват усилия за трансформация на клиентското изживяване с помощта на Agentic AI

Мрачна перспектива: Пазарът на смартфони се готви за рекорден спад през 2026 година

OpenAI сключи споразумение с Пентагона за използване на изкуствен интелект

Nvidia планира нов процесор за по-бързи и по-ефективни системи с изкуствен интелект

На 25 март 2026 г. стартира 12-ото издание на емблематичния училищен хакатон Hack TUES

Евакуация от Близкия изток: Още 180 българи се прибират от Дубай

Тръмп настоява за „безусловна капитулация“, докато войната с Иран навлиза във втората си седмица

Времето: Слънчево и топло, но следобед ще се заоблачи

Как да увеличите ефективно продажбите, класирането и отзивите си в Amazon

Цитат на деня

Какво се случва в Иран?

Компанията, която работи с Лейди Гага и Тейлър Суифт, се отказа от листване на борсата в САЩ

Тръмп настоява за „безусловна капитулация“, докато войната с Иран навлиза във втората си седмица

Компромисът рядко води до най-доброто решение

Времето: Слънчево и топло, но следобед ще се заоблачи

Как да увеличите ефективно продажбите, класирането и отзивите си в Amazon

Демографска криза: Скъпият живот в Лондон намали броя на децата със 100 000 за десет години

На днешната дата, 7 март. Рождениците днес

ADVERTORIAL

УниКредит Булбанк е сертифицирана за равнопоставеност на работното място

Близо 14 млрд. евро e добавената стойност на Kaufland за българската икономика

Жените в BILLA: нежната сила на компанията

3-ти годишен форум за транспорт, логистика и спедиция

Technovation 2026

Пиърс Броснан подкрепи сина си на поредната изложба

Вярата в себе си

Марс има кора, която е по-дебела от земната, както и радиоактивен източник на топлина

Елеазар Хараш за лъжата и истината

Greenovate: Hack the City

8-и годишен форум Производство и търговия

Пиърс Броснан подкрепи сина си на поредната изложба

Вярата в себе си

Марс има кора, която е по-дебела от земната, както и радиоактивен източник на топлина

Елеазар Хараш за лъжата и истината