Digital Age: Гладът на ИИ за енергия - как да запазим и вълка сит, и агнето - цяло

Digital Age: Гладът на ИИ за енергия - как да запазим и вълка сит, и агнето - цяло

В началото на ноември 2024 г. Федералната комисия за енергийно регулиране на САЩ  отхвърли искането на Amazon за закупуване на допълнителни 180 мегавата мощност директно от атомната електроцентрала Susquehanna в щата Пенсилвания за център за данни, разположен наблизо. Отказът се дължи на аргумента, че купуването на енергия директно, вместо да се получава през мрежата, както всички останали, работи срещу интересите на другите потребители.

Търсенето на енергия в САЩ не се променя от почти 20 години, но сега виждаме, че прогнозите за натоварване се увеличават. В зависимост от това какви стойности приемаме, те или растат до небесата, или просто бързо нарастват.

Част от нарастването на търсенето идва от центровете за данни, а нарастващата им жажда за мощност идва отчасти от управлението на все по-сложни ИИ модели. Както при всички монументални разработки, това, което задвижи тази тенденция, беше визията - съвсем буквално.

През 2012 г. Алекс Крижевски, Иля Суцкевер и Джефри Хинтън, изследователи на ИИ в Университета на Торонто, започват работа върху т.нар. конволюционна невронна мрежа за ImageNet LSRVC - състезание за софтуерно разпознаване на изображения. Правилата на състезанието са сравнително прости: екипът трябваше да изгради ИИ система, която може да категоризира изображения, получени от база данни, включваща над милион етикетирани снимки. Същевременно обаче, задачата е изключително предизвикателна по онова време, така че екипът решава, че се нуждае от наистина голяма невронна мрежа - много по-голяма от всичко, което други изследователски екипи са опитвали. AlexNet, кръстен на водещия изследовател, има множество слоеве с над 60 милиона параметъра и 650 хиляди неврони. Проблемът с гигант като този е как да бъде обучен.

Това, което екипът има в лабораторията си, са няколко видеокарти Nvidia GTX 580, всяка с 3 GB памет. AlexNet обаче е твърде голям, за да се побере на който и да е графичен ускорител, който учените имат. Така те измислиха как да разделят тренировъчната фаза на AlexNet между два графични процесора, работещи паралелно – половината от невроните работеха на единия графичен процесор, а другата половина - на другия графичен процесор. AlexNet спечели състезанието през 2012 г. безусловно, но екипът постигна нещо много по-задълбочено. Размерът на ИИ моделите беше веднъж завинаги отделен от това, което е възможно да се направи на един процесори или видеокарта. Това е крачка, от която няма връщане назад.

Въпрос на балансиране

След AlexNet използването на множество графични процесори за обучение на ИИ стана стандарт. Все по-мощните ИИ модели използваха десетки графични процесори, след това стотици, хиляди и още. След известно време тази тенденция започна да се усеща в електропреносната мрежа. Според доклад на Института за изследване на електроенергията (EPRI), консумацията на енергия от центровете за данни е била сравнително стабилна между 2010 г. и 2020 г. Това не означава, че търсенето на услуги в центровете за данни е било същото, но подобренията в енергийната ефективност на центровете за данни са били достатъчни, за да компенсират факта, че ги използваме повече.

Два ключови фактора за тази ефективност бяха нарастващото приемане на изчисления, базирани на видеокарта, и подобренията в енергийната ефективност на тези ускорители. В периода 2010–2020 г. чиповете на центровете за данни на водещия производител на графични процесори Nvidia станаха приблизително 15 пъти по-ефективни, което беше достатъчно, за да поддържа потреблението на енергия в центъра за данни стабилно.

Всичко това се промени с възхода на огромни големи модели за преобразуване на езици, като се започне с ChatGPT през 2022 г. На пръв поглед Nvidia продължи да подобрява ефективността си с десетократно увеличение между 2020 г. и днес. Компанията също така продължи да подобрява чиповете, които вече бяха внедрени като до голяма степен тази ефективност идва от софтуерната оптимизация. Въпреки тези "печалби" в ефективността, въз основа на оценките на Националната лаборатория "Лорънс Бъркли", в САЩ консумацията на енергия в центъра за данни се е увеличила от около 76 TWh през 2018 г. до 176 TWh през 2023 г.

Жизненият цикъл на ИИ

LLM работят с десетки милиарди неврони, които се доближават до брой, който съперничи – и може би дори надминава – тези в човешкия мозък. Смята се, че GPT 4 работи с около 100 милиарда неврони, разпределени в 100 слоя и над 100 трилиона параметри, които определят силата на връзките между невроните. Тези параметри се задават по време на обучение, когато ИИ получава огромни количества данни и се учи чрез коригиране на тези стойности. Това е последвано от фазата на "разсъждения", където той е зает с обработката на заявки, идващи всеки ден от милиони потребители.

Фазата на обучение е огромно изчислително усилие – предполага се, че Open AI използва над 25 000 графични процесора Nvidia Ampere 100, работещи на всички цилиндри в продължение на 100 дни. Очакваната консумация на електроенергия е 50 GW-часа, което е достатъчно за захранване на средно голям град за една година. Според данни, публикувани от Google, обучението представлява 40 процента от общата консумация на енергия на ИИ модела през жизнения му цикъл. Останалите 60 процента са "разсъждения", където цифрите за консумация на енергия са по-малко впечатляващи, но се увеличават с времето.

ИИ модели на дигитална диета

Нарастващата консумация на енергия накара общността на компютърните науки да мисли как да поддържа ниски изисквания за памет и изчисления, без да жертва твърде много производителността. Един от начините да се справим с това е да намалим обема на изчисленията, а едно от първите неща, които изследователите опитаха, беше техника, наречена "подрязване", която имаше за цел да намали броя на параметрите. При нея се взима един обучен модел и се премахват някои от неговите параметри, обикновено насочвайки се към тези със стойност нула, които не добавят нищо към цялостната производителност. Така един голям модел се дестилира в по-малък модел с опит да се запази качеството.

Можете също така да направите останалите параметри по-икономични с трик, наречен "квантуване". Параметрите в невронните мрежи обикновено се представят като число с плаваща запетая с единична точност, което заема 32 бита в компютърната памет. Може обаче да промените формата на параметрите на по-малък, което намалява обема на необходимата памет и прави изчислението по-бързо. Свиването на отделен параметър има незначителен ефект, но когато има милиарди от тях става натрупване. Също така е възможно да се направи обучение с съзнание за квантуване, което извършва квантуване на етапа на обучение. Според Nvidia, която е внедрила обучение за квантуване в своя инструментариум за оптимизация на ИИ модели, това трябва да намали изискванията за памет с 29 до 51 процента.

"Подрязването" и "квантуването" принадлежат към категория техники за оптимизация, които разчитат на промяна на начина, по който ИИ моделите работят вътрешно – колко параметри използват и колко интензивно в паметта е тяхното съхранение. Тези техники са като настройка на двигател в кола, за да се движи по-бързо и да използва по-малко гориво. Има и друга категория техники, които се фокусират върху процесите, които компютрите използват, за да управляват тези ИИ модели, вместо върху самите модели – подобно на ускоряване на кола чрез оптимизация на преминаването през светофарите.

Освен оптимизирането на самите ИИ модели, бихме могли също да оптимизираме начина, по който центровете за данни ги управляват. Разделянето на работното натоварване във фазата на обучение равномерно между 25 000 графични процесора води до неефективност. Когато разделите модела на 100 000 графични процесора, вие в крайна сметка го нарязвате и нарязвате в множество размери и е много трудно да направите всяко парче точно с еднакъв размер.

Графичните процесори, на които са дадени значително по-големи натоварвания, имат повишена консумация на енергия, която не е непременно балансирана от тези с по-малки натоварвания. Ако GPU с по-малки натоварвания работят по-бавно, консумирайки много по-малко енергия, те ще завършат приблизително по същото време, когато GPU обработват по-големи натоварвания, работещи на пълна скорост. Трикът се крие в това да се настрои всеки графичен процесор по такъв начин, че целият куп да завърши по едно и също време.

Обратната страна на медала

Тъй като нарастващата консумация на енергия от центровете за данни стана очевидна, изследователите се опитват да определят количествено проблема. Екип на лаборатория "Лорънс Бъркли" изчисли, че годишното потребление на енергия на центровете за данни през 2028 г. ще бъде между 325 и 580 TWh в САЩ – това е между 6,7 и 12 процента от общото потребление на електроенергия в САЩ. Международната агенция по енергетика смята, че ще бъде около 6 процента до 2026 г. Изследванията на Goldman Sachs казват стойност от 8 процента до 2030 г., докато EPRI твърди, че тя ще бъде между 4,6 и 9,1 процента до 2030 г.

EPRI също предупреждава, че въздействието ще бъде още по-лошо, тъй като центровете за данни са склонни да бъдат концентрирани на места, които инвеститорите вече смятат за изгодни, и това води до струпване на мощности. Така например, американският щат Вирджиния вече изпраща 25 процента от електроенергията си към центровете за данни. В Ирландия центровете за данни се очаква да консумират една трета от електроенергията, произведена в цялата страна в близко бъдеще. И това е само началото.

Изпълнението на огромни ИИ модели като ChatGPT е едно от най-енергоемките неща, които центровете за данни правят, но то представлява приблизително 12 процента от техните операции. Очаква се това да се промени, ако компании като Google започнат да интегрират още повече разговорни LLM в своите най-популярни услуги. Докладът на EPRI изчислява, че едно търсене в Google днес използва около 0,3 вата енергия, докато една заявка за Chat GPT увеличава това до 2,9 вата. Въз основа на тези стойности докладът изчислява, че задвижвано от AI търсене в Google ще изисква Google да внедри 400 000 нови сървъра, които ще консумират 22,8 TWh годишно. Истината е, че не знаем нищо за това какво се случва в комерсиалните ИИ системи като ChatGPT или Gemini, тъй като OpenAI и Google никога не са публикували реални данни за консумация на енергия.

Всички доклади, които имаме днес, са изготвени от трети страни, които не са свързани с компаниите, изграждащи големи ИИ модели, и въпреки това достигат до странни конкретни числа. Те вземат цифри, които са само приблизителни, след това ги умножават по много други числа и излизат с изявления като „ИИ консумира повече енергия от Великобритания, или повече от Африка, или нещо подобно.“ Истината е, че тези стойности все още са обвити в мъгла, което прави бъдещето още по-обезпокоително. В резултат, за изследователската общност е много трудно да започне да предлага решения на проблемите с енергийната ефективност, когато дори не знаем с какво точно се сблъскваме като енергийна консумация от страна на GPT-4, Gemini или Grok.

Възможни решения

На хоризонта се задават и още по-революционни технологии. Идеята, която доведе компании като Nvidia до сегашния им пазарен статус, беше концепцията, че можете да прехвърлите определени задачи от процесора към специално създаден хардуер. Но сега дори графичните процесори вероятно ще използват свои собствени ускорители в бъдеще. Невронни мрежи и други паралелни изчислителни задачи могат да бъдат реализирани на фотонни чипове, които използват светлина вместо електрони за обработка на информация. Фотонните изчислителни устройства са с порядък по-енергийно ефективни от графичните процесори, които имаме днес, и могат да управляват невронни мрежи буквално със скоростта на светлината.

Друга иновация, която да очакваме с нетърпение, са 2D полупроводниците, които позволяват изграждането на невероятно малки транзистори и подреждането им вертикално, което значително подобрява възможната плътност на изчисленията в дадена област на чипа. Голямото предизвикателство обаче е как бъдат разгърнати в мащаб и как ще стане това, така че компаниите да не жертват приходите си, потребителите да не бъдат ощетени откъм производителност, а държавите и планетата ни да не губят повече ресурси, отколкото е необходимо.

Ключови думи

Коментари

НАЙ-НОВО

|

НАЙ-ЧЕТЕНИ

|

НАЙ-КОМЕНТИРАНИ