Digital Age: В Седмицата на изкуствения интелект OpenAI и Google качиха рязко оборотите с нови анонси

В началото на тази седмица компанията OpenAI представи най-новата версия на технологията, която е в основата на нейния чатбот с изкуствен интелект ChatGPT. Тя се нарича GPT-4o и ще бъде разпространена сред всички потребители на ChatGPT, включително и тези, които не са абонати.

Тя е по-бърза от предишните модели и е програмирана да звучи разговорно, а понякога дори флиртуващо в отговорите си на подкани. Новата версия може да чете и обсъжда изображения, да превежда езици и да идентифицира емоции по визуални изражения. Има и памет, за да може да си припомня предишни подкани. Чатботът може да бъде прекъсван и има по-лесен ритъм на разговор - няма забавяне между задаването на въпрос и получаването на отговор.

По време на демонстрация на живо, използваща гласовата версия на GPT-4o, тя предостави полезни предложения за това как да се реши просто уравнение, написано на лист хартия, вместо просто да се реши. Ботът анализира компютърен код, превеждайки между италиански и английски език, и интерпретира емоциите в селфи на усмихнат мъж. Използвайки топъл американски женски глас, програмата поздрави своите потребители, като ги попита как се справят. Когато му беше направен комплимент, той отговори: "Престани, караш ме да се изчервявам!".

Демонстрацията не беше съвършена - в един момент чатботът обърка усмихнатия мъж с дървена повърхност и започна да решава уравнение, което все още не му беше показано. Това неволно показа, че все още има какво да се направи, преди да бъдат изгладени грешките и халюцинациите, които правят чатботовете ненадеждни и потенциално опасни. Но това ни показва посоката на движение на OpenAI, която очевидно възнамерява GPT-4o да се превърне в следващото поколение цифров асистент с изкуствен интелект, нещо като суперверсия на Siri или Hey, Google, която помни какво е било казано в миналото и може да взаимодейства отвъд гласова или текстова команда.

Виждали сме чатботове като Grok на Илон Мъск и Pi на съоснователя на DeepMind Мустафа Сюлейман, които дават приоритет на "личността" на своите продукти, но начинът, по който GPT-4o безпроблемно се справя с комбинацията от текст, звук и изображения с незабавен отговор, изглежда извежда OpenAI пред конкуренцията.
Разбира се, в момента разполагаме само с думите на фирмата - това беше нейна демонстрация, внимателно подбрана и управлявана от зад кадър. Интересно е да се види как GPT-4o ще се справи в мащаба на милионите хора, които вече използват ChatGPT, когато се разгърне. Другото интересно нещо със сигурност ще бъде реакцията на останалите водещи имена в динамичния ИИ бизнес, начело с властелина на интернет информацията Google.

И тя не закъсня.

Във вторник, 14 май, гигантът проведе своето годишно събитие Google I/O и както се очакваше, изкуственият интелект застана категорично под светлините на прожекторите.

Project Astra, новият ИИ асистент на Google...

По време на основната презентация на Google I/O 2024 компанията разкри, че подразделението ѝ DeepMind работи по нов асистент с изкуствен интелект, който в момента се нарича "Project Astra". Този асистент с изкуствен интелект може да използва смартфон или дори комплект интелигентни очила, за да отговаря на въпроси на своя собственик чрез гласови команди.
Google описва проекта Astra като "универсален агент с изкуствен интелект, полезен в ежедневието". Компанията продължи да показа няколко примера за използване на Project Astra във връзка с визьор на камера.

При един от тези примери се вижда как жена насочва камерата си из офиса и моли чатбота с изкуствен интелект да ѝ каже, когато види нещо, което може да издава звуци. След това чатботът успя да идентифицира говорител. Потребителят задава въпроси като "Как се нарича тази част от говорителя?", а чатботът успява да отговори.
Потребителят успя също така да насочи камерата си към пастели на нечие бюро и да поиска "творчески прочит" за тях, да насочи камерата си към екран, показващ компютърен код, и да поиска повече подробности, както и да завърти камерата си към прозорец и да попита в кой квартал се намира. Жената също така успя да превключи в режим на интелигентни очила и след това да задава въпроси за нещата, които вижда (напр. да получи помощ за схема на бяла дъска).

Project Astra ще бъде демонстриран за всички, които присъстват на конференцията Google I/O тази седмица. Не се знае обаче кога той ще стане достъпен за широката публика. Изглежда, че може да мине известно време, преди този асистент с изкуствен интелект да бъде официално пуснат на пазара.

... а със сегашния Gemini вече може да създавате собствени мини чатботове

Гигантът разкри още, че скоро Gemini ще позволи на потребителите да създават персонализирани AI асистенти с различен характер. Google нарича тези чатботове "Gems" и те могат да бъдат настроени така, че да ви помагат при изпълнението на конкретни задачи. Можете да създадете Gem, който да ви помага при тренировките. Всичко, което e нужно, е да кажете на Gemini какво да прави и как искате да реагира. Например, можете да му кажете да бъде ваш треньор по вдигане на тежести и да ви предостави график за вдигане на тежести. След това Gemini ще създаде Gem, който да използвате. Всичко това звучи много подобно на персонализираните чатботове, които OpenAI позволява на потребителите да създават. Google казва, че Gems ще бъдат достъпни "скоро" за потребителите на Gemini Advanced.

Изкуствен интелект ще следи обажданията ви за телефонни измами

Google скоро ще въведе в Android нова функция с изкуствен интелект, която ще предупреждава потребителите за потенциални измамни обаждания. Позовавайки се на годишно проучване на Глобалния алианс за борба с измамите (GASA), Google посочва, че за 12 месеца между октомври 2022 г. и 2023 г. хората са загубили над 1 трилион долара от измами. Новата функция има за цел да предпазва от често срещани телефонни измами, които водят до такива финансови злоупотреби.

Предупрежденията за измамни обаждания в Android ще се захранват от Gemini Nano - модела на Google за изкуствен интелект в устройството, който понастоящем работи в Pixel 8 Pro и серията Galaxy S24. ИИ по същество ще слуша телефонните ви обаждания в реално време и ще предоставя предупреждения на екрана, ако открие нещо съмнително.
Така например, ще чуете сигнал по време на обаждането и ще получите предупреждение на екрана, ако представящ се за "представител на банка" поиска от вас спешно да прехвърлите средства, да извършите плащане с карта за подарък или да разкриете личната си информация, като например ПИН код на карта или парола, което е необичайно искане от страна на банката.
Google твърди, че обработката на обажданията в реално време ще се извършва на вашето устройство, така че разговорите ви няма да напускат слушалката. Това не е много по-различно от начина, по който в момента работи функцията Live Captioning по време на разговори. Това означава, че само вашето устройство ще има достъп до данните от разговорите ви, а не Google или трети страни.

Функцията за предупреждаване за измамнически обаждания няма да е задължителна, когато бъде пусната в действие. Google ще сподели повече подробности за нея по-късно тази година, вероятно когато пусне функцията. Предполагаме, че тя ще се разпространи първо в телефоните Pixel, които работят с Gemini Nano, преди да достигне до други устройства с Android.

Veo: ИИ генератор на видео е отговорът на Sora от OpenAI

Наред с други инструменти Google пусна Veo - най-способния генеративен видеомодел, който се конкурира с модели като Sora и RunwayAI на OpenAI. Google твърди, че Veo може да създава висококачествени клипове с разделителна способност 1 080p, които надхвърлят 60 секунди, като използва текст, изображение или видео подсказки.
Алгоритъмът може да се занимава и с различни кинематографични стилове, като фотореализъм, сюрреализъм и анимация. Той също така разбира естествения език, което позволява на модела да разбира кинематографични термини като "timelapse" и "въздушни снимки на пейзаж".

Видеоклиповете, генерирани чрез Veo, също са по-последователни и съгласувани, като изобразяват по-реалистично движение и непрекъснатост на кадрите. Друга отличителна способност на Google Veo е, че позволява лесно разширяване на генерирания видеоклип с едно щракване на бутон.

Освен това генерираните резултати от видеоклиповете могат да бъдат прецизирани с помощта на допълнителни подсказки. Google проучва и допълнителни функции, които позволяват на Veo да създава сторибордове и по-дълги сцени. Google Veo ще бъде достъпен за избрани създатели на съдържание по-късно тази година, а записванията в списъка на чакащите вече са отворени. Въпреки това записванията са ограничени до определени области. Google планира да добави някои от възможностите на Veo към YouTube Shorts в бъдеще, въпреки че все още не е ясно как ще се случи това.

Gemini: на една ръка разстояние в Gmail и Docs

Google добавя автоматизация с изкуствен интелект, базирана на Gemini, за повече задачи в Workspace. Компанията съобщи, че усъвършенстваният Gemini 1.5 Pro скоро ще бъде наличен в страничния панел на Workspace като "свързваща тъкан между множество приложения с работни процеси, задвижвани от ИИ", тъй като ИИ става все по-интелигентен, научава повече за вас и автоматизира повече от работния ви процес.

Задачата на Gemini в Workspace е да ви спести време и усилия да претърсвате файлове, имейли и други данни от множество приложения. "Работното пространство в ерата на Gemini ще продължи да разкрива нови начини за вършене на работа", заяви вицепрезидентът на Google Workspace Апарна Папу по време на събитието.
Обновеният страничен панел Google Workspace, който първо ще се появи в Gmail, Docs, Sheets, Slides и Drive, ще ви позволи да разговаряте с Gemini за съдържанието си. Неговият по-дълъг контекстуален прозорец (по същество паметта му) му позволява да организира, разбира и контекстуализира данните ви от различни приложения, без да напускате това, в което се намирате. Това включва неща като сравняване на прикачени файлове към разписки, обобщаване (и отговаряне на въпроси назад и напред) на дълги нишки от имейли или подчертаване на ключови точки от записи на срещи.

Едва ли някой е очаквал, че фокусът на Google I/O ще бъде другаде, но след откриването на форума е ясно, че интернет гигантът взима доста сериозно собственото си твърдение, направено от миналогодишната сцена на събитието, а именно че "Изкуственият интернет е бъдещето". Оттук насетне ни остава да наблюдаваме до каква степен новите функции ще бъдат плавно интегрирани в реална работна среда и да очакваме следващите ходове на ИИ шахматната дъска.