Как AI замърсяването може да провали бъдещето на интернет?

Бързият възход на ChatGPT и последвалата лавина от конкурентни приложения с генеративен изкуствен интелект са замърсили интернет с толкова много безполезна "плява", че вече пречат на развитието на бъдещите AI модели, пише Futurism.
Тъй като генерираните от изкуствен интелект данни започват да размиват "човешкото" съдържание, от което тези модели толкова силно зависят, се появява реалната опасност AI да започне да имитира самия себе си. Ако този процес се повтаря достатъчно дълго, развитието на изкуствения интелект ще започне да прилича н игра на развален телефон, в която не само качеството на произвежданото съдържание намалява, приличайки все по-малко на това, което първоначално е трябвало да замести, но и в която участниците активно стават по-глупави. Индустрията описва този сценарий като "срив на AI модела".
Цената на "чистите" данни: Аналогията с нискофоновата стомана
Вследствие на това, ограниченото количество данни, предшестващи възхода на ChatGPT, става изключително ценно. В свой анализ The Register сравнява случващото се в света на AI с търсенето на т. нар. "нискофонова стомана" – такава, която е произведена преди детонацията на първите ядрени бомби през юли 1945 г. в рамките на теста "Тринити" в САЩ. Точно както експлозията на AI чатботовете необратимо замърсява интернет, така и детонацията на атомната бомба освобождава радионуклеиди и други частици, които са проникнали в почти цялата стомана, произведена след това. Това прави съвременните метали неподходящи за използване в някои високочувствителни научни и медицински съоръжения. И така, старото производство отново става ценно в ролята си на основен източник на нискофонова стомана.
Важен източник на този материал са бойните кораби от Първата и Втората световна война, включително и огромния военноморски флот, потопен от германския адмирал Лудвиг фон Ройтер през 1919 г. Той заповядва на екипажите на над 50 германски плавателни съда да ги потопят, за да не попаднат в ръцете на британците.
Морис Киодо, научен сътрудник в Центъра за изследване на екзистенциалния риск към Университета в Кеймбридж, нарича действията на адмирала "най-големия принос за ядрената медицина в света".
"Това ни позволява да имаме това почти безкрайно предлагане на нискофонова стомана. Ако не беше тя, щяхме да сме в безизходица", коментира той пред The Register. По думите му, същата аналогията работи и в сферата на AI, защото се нуждаете от нещо, случило се преди определена дата.
"Ако събирате данни преди 2022 г., сте доста сигурни, че те имат минимално, ако изобщо имат, замърсяване от генеративен AI. Всичко преди тази дата е 'безопасно, добро и чисто', а всичко след нея е 'мръсно'", обяснява експертът.
Преодоляване на колапса на модела и осигуряване на честна конкуренция
Киодо е съавтор на статия от 2024 година, в която се твърди, че е необходим източник на "чисти" данни не само за да се предотврати срив на модела, но и за да се осигури честна конкуренция между разработчиците на AI. В противен случай ранните пионери на технологиите, след като съсипят интернет за всички останали с "отпадъците" на своя AI, биха имали огромно предимство, тъй като ще са единствените, които са се възползвали от по-чисти източници на данни за обучение. Дали сривът на модела, особено в резултат на замърсени данни, е непосредствена заплаха, е въпрос на дебат. Но много изследователи бият тревога от години, включително Киодо.
"Сега не е ясно до каква степен сривът на модела ще бъде проблем, но ако е проблем и ние сме замърсили тази среда с данни, почистването ще бъде прекомерно скъпо, вероятно дори невъзможно", предупреждава той.
Една област, в която проблемът вече се е появил, е техниката, наречена генерация с разширено извличане (RAG), която AI моделите използват, за да допълнят остарелите си данни за обучение с информация, изтеглена от интернет в реално време. Но тези нови данни не са гарантирано свободни от AI манипулации и някои изследвания показват, че това кара чатботовете произвеждат много повече "небезопасни" отговори.
Пътят напред: Регулация или саморазрушение?
Дилемата отразява и по-широкия дебат около мащабирането или подобряването на AI моделите чрез добавяне на повече данни и изчислителна мощ. След като OpenAI и други разработчици отчетоха намаляваща възвръщаемост с най-новите си модели в края на 2024 г., някои експерти обявиха, че мащабирането е достигнало "стена". И ако тези данни са все по-наситени с "плява", въпросната стена ще стане още по-непробиваема.
Киодо предполага, че по-строги разпоредби, като например маркирането на AI съдържание, биха могли да помогнат за "почистването" на част от замърсяването, но реалното им прилагане би било трудно. В това отношение AI индустрията, която се оплаква от правителствената намеса, може да се окаже най-големият враг на самата себе си.
Ключови думи
ОЩЕ ОТ КАТЕГОРИЯТА
|
|
Коментари
Няма въведени кометари.