DeepSeek бърза да пусне нов модел на изкуствен интелект

DeepSeek бърза да пусне нов модел на изкуствен интелект

DeepSeek се стреми да  да се възползва от предимството си. Миналия месец китайският стартъп предизвика разпродажба на над 1 трилион долара на световните пазари на акции с евтин модел за разсъждение с изкуствен интелект, който надмина много западни конкуренти.

Сега базираната в Ханджоу фирма ускорява пускането на пазара на наследника на модела R1 от януари, според източници на Ройтерс. 

Deepseek е планирала да пусне R2 в началото на май, но сега иска да го лансира възможно най-рано, казаха двама от тях, без да предоставят подробности. Компанията твърди, че се надява новият модел да създава по-добри кодове и да може да разсъждава не само на английски език. Подробности за ускорените срокове за пускане на R2 не са съобщавани преди това.

Конкурентите все още усвояват последиците от R1, който е създаден с по-малко мощни чипове на Nvidia, но е конкурентен на тези, разработени с цената на стотици милиарди долари от американските технологични гиганти.

„Пускането на модела R2 на DeepSeek може да се окаже ключов момент в индустрията на изкуствения интелект“, казва Виджаясимха Алилугата, главен оперативен директор на индийския доставчик на технологични услуги Zensar. Успехът на DeepSeek в създаването на рентабилни модели на ИИ „вероятно ще подтикне компаниите по целия свят да ускорят собствените си усилия... и да разчупят задушаващото положение на няколкото доминиращи играчи в областта“, каза той.

R2 вероятно ще разтревожи правителството на САЩ, което определи ръководството на ИИ като национален приоритет. Пускането му може допълнително да развълнува китайските власти и компании, десетки от които твърдят, че са започнали да интегрират моделите на DeepSeek в своите продукти.

Малко се знае за DeepSeek, чийто основател Лян Уенфън стана милиардер благодарение на своя количествен хедж фонд High-Flyer. Лианг, който е описан от бивш работодател като „сдържан и интровертен“, не е говорил с никоя медия от юли 2024 г. насам.

Ройтерс е интервюирала дузина бивши служители, както и специалисти по количествени фондове, запознати с дейността на DeepSeek и компанията майка High-Flyer. Също така бяха прегледани статии в щатски медии, публикации в социалните мрежи на компаниите и изследователски документи от 2019 г.

Те разказаха историята на компания, която функционира по-скоро като изследователска лаборатория, отколкото като предприятие със стопанска цел, и не е обременена от йерархичните традиции на китайската технологична индустрия, в която се упражнява високо напрежение, дори когато е отговорна за това, което много инвеститори смятат за последния пробив в областта на изкуствения интелект.

Различен път

Лян е роден през 1985 г. в село в южната провинция Гуандун. По-късно получава диплома за инженер по комуникации в елитния университет в Джъдзян.
Една от първите му работи е да ръководи изследователски отдел във фирма за интелигентни изображения в Шанхай. Тогавашният му шеф Джоу Чаоен заяви пред държавните медии на 9 февруари, че Лян е наел награждавани инженери по алгоритми и е работил с „плосък стил на управление“.

В DeepSeek и High-Flyer Лян избягва практиките на китайските технологични гиганти, известни със строгото управление отгоре надолу, ниското заплащане на младите служители и „996“ - работа от 9 до 21 ч. шест дни в седмицата. Лианг открива офиса си в Пекин на пешеходно разстояние от университетите Цинхуа и Пекинския университет - двете най-престижни учебни заведения в Китай.

Според двама бивши служители той редовно се впускал в технически подробности и с удоволствие работел заедно със стажанти от поколението Z и наскоро завършили студенти, които съставлявали по-голямата част от работната му сила. Те описват също така, че обикновено работел по осем часа на ден в атмосфера на сътрудничество.

„Лян ни даваше контрол и се отнасяше към нас като към експерти. Той постоянно задаваше въпроси и се учеше заедно с нас“, казва 26-годишният изследовател Бенджамин Лиу, който напуска компанията през септември. 

Докато Baidu и други китайски технологични гиганти се състезаваха да създадат своите ориентирани към потребителите версии на ChatGPT през 2023 г. и да се възползват от глобалния бум на AI, Лян каза пред китайската медия Waves миналата година, че умишлено избягва да харчи много за разработка на приложения, фокусирайки се вместо това върху подобряването на качеството на AI модела.

И DeepSeek, и High-Flyer са известни с това, че плащат щедро, според трима души, запознати с техните практики за компенсиране. В High-Flyer не е необичайно старши учен по данни да прави 1,5 милиона юана годишно, докато конкурентите рядко плащат повече от 800 000 юана, каза  мениджър на конкурентни квантови фондове, който познава Лян.

Щедростта беше финансирана от High-Flyer, който се превърна в един от най-успешните количествени фондове в Китай и дори след правителствени репресии срещу сектора, все още управлява десетки милиарди юани, според източници от индустрията, цитирани от Ройтерс.

Властите решиха да не се намесват в ход, който щеше да се окаже решаващ за съдбата на DeepSeek: САЩ забраниха износа на A100 чипове за Китай през 2022 г., в който момент Fire-Flyer II вече беше в действие. Пекин сега празнува DeepSeek, но го инструктира да не се ангажира с медиите без одобрение, според човек, запознат с китайското официално мислене.

Властите са помолили Лян да не говори, защото са се притеснявали, че твърде много шум в медиите ще привлече ненужно внимание, каза източник на Ройтерс.

Като една от малкото компании с голям клъстер A100, High-Flyer и DeepSeek успяха да привлекат някои от най-добрите изследователски таланти в Китай, казаха двама бивши служители. „Основното предимство на огромните (изчислителни) ресурси е, че позволява широкомащабно експериментиране“, каза бившият служител на компания Лиу.

Някои западни AI предприемачи, като главния изпълнителен директор на Scale AI Александър Уанг, твърдят, че DeepSeek има до 50 000 Nvidia чипа от по-висок клас, които са забранени за износ в Китай. Той не е представил доказателства за обвинението, нито е отговорил на исканията на Ройтерс да предостави доказателства.

Двама бивши служители приписват успеха на компанията на фокуса на Лян върху по-рентабилната AI архитектура. Стартъпът е използвал техники като Mixture-of-Experts (MoE) и многоглаво латентно внимание (MLA), които водят до много по-ниски изчислителни разходи, показват неговите изследователски документи. Техниката на MoE разделя AI модел на различни области на експертиза и активира само тези, свързани със заявка, за разлика от по-често срещаните архитектури, които използват целия модел. Архитектурата на MLA позволява на модела да обработва различни аспекти на една част от информацията едновременно, като му помага да открива ключови детайли по-ефективно.

Докато конкуренти като френската Mistral са разработили модели, базирани на MoE, DeepSeek е първата фирма, която зависи силно от тази архитектура, като същевременно постига равенство с по-скъпите модели. Ценообразуването на DeepSeek е 20 до 40 пъти по-евтино от това, което OpenAI таксува за еквивалентни модели, изчислиха анализатори от брокерската компания Bernstein в началото на февруари.

Засега западните и китайските технологични гиганти сигнализираха, че планират да продължат тежките разходи за ИИ, но успехът на DeepSeek с R1 и неговия по-ранен V3 модел накара някои да променят стратегиите. OpenAI намали цените този месец, докато Gemini на Google въведе намалени нива на достъп. След пускането на R1, OpenAI пусна и модел O3-Mini, който разчита на по-малко изчислителна мощност.

Аднан Масуд от американския доставчик на технологични услуги UST каза пред Ройтерс, че неговата лаборатория е провела бенчмаркове, които са установили, че R1 често използва три пъти повече токени или единици данни, обработени от AI модела, за разсъждения в сравнение с намаления модел на OpenAI.

"Държавна прегръдка"

Още преди R1 да привлече световното внимание, имаше признаци, че DeepSeek е привлякъл благоволението на Пекин. През януари държавните медии съобщиха, че Лян е присъствал на среща с китайския премиер в Пекин като определен представител на сектора на ИИ, преди лидерите на по-известни фирми. Последвалите фанфари относно ценова конкурентоспособност на моделите му подкрепиха вярата на Пекин, че може да надмине иновациите в САЩ, като китайските компании и правителствени органи приемат моделите DeepSeek с темпове, които не са предлагани на други фирми. Най-малко 13 китайски градски управи и 10 държавни енергийни компании казват, че са внедрили DeepSeek в своите системи, докато технологичните гиганти Lenovo, Baidu и Tencent - собственик на най-голямото приложение за социални медии в Китай WeChat - са интегрирали моделите на DeepSeek в своите продукти. Китайският лидер Си Дзинпин и Ли "сигналираха, че подкрепят DeepSeek", каза Алфред Ву, експерт по създаване на китайска политика в училището за публична политика Лий Куан Ю в Сингапур.

„Сега всички просто го одобряват.“ "Китайската прегръдка" идва, когато правителствата от Южна Корея до Италия премахват DeepSeek от националните магазини за приложения, позовавайки се на опасения за поверителността. „Ако DeepSeek се превърне в модела на AI в китайските държавни организации, западните регулатори може да видят това като още една причина за ескалиране на ограниченията върху AI чипове или софтуерни сътрудничества“, каза Стивън Ву, експерт по AI и основател на хедж фонда Carthage Capital.

По-нататъшните ограничения върху усъвършенстваните AI чипове са предизвикателство, което Liang признава. „Нашият проблем никога не е бил финансирането“, каза той пред Waves през юли. „Това е ембаргото върху чипове от висок клас.“

Ключови думи

Коментари

НАЙ-НОВО

|

НАЙ-ЧЕТЕНИ

|

НАЙ-КОМЕНТИРАНИ