Счупеният часовник е прав 2 пъти на ден, а най-добрият ИИ модел: в 69 процента от случаите

Обновена 19:00ч., 14.12.2025

Технологии

Обновена 19:00ч., 14.12.2025

Снимка: Shutterstock

Току-що получихме отрезвяваща картина за това колко често моделите с изкуствен интелект прецизират фактите. Тази седмица Google DeepMind представи документа FACTS Benchmark Suite, който измерва колко надеждно моделите с изкуствен интелект дават фактически точни отговори.

Той тества модели в четири области: отговаряне на фактологични въпроси от вътрешни знания, ефективно използване на уеб търсене, обосноваване на отговорите в дълги документи и интерпретиране на изображения. Най-добрият модел, който се оказва Gemini 3 Pro на Google, достигна 69% точност, като другите водещи модели бяха доста под това ниво.

Като непряко сравнение, ако журналист напише материал, в който фактологията е само 69 процента вярна, това би следвало да бъде пагубно както за доверието в медията, така и за кариерата на човека.

Отвъд журналистиката, това число би трябвало да е от значение за бизнеса, залагащ на изкуствения интелект. Въпреки че моделите се отличават със скорост и плавност, тяхната фактическа надеждност все още изостава значително от човешките очаквания, особено в задачи, включващи нишови знания, сложни разсъждения или прецизно обосноваване на изходен материал. Дори малки фактически грешки могат да имат огромни последици в сектори като финанси, здравеопазване и право.

Сравнителният показател FACTS е предупреждение, но и пътна карта: чрез количествено определяне къде и как моделите се провалят, Google се надява да ускори напредъка. Но засега изводът е ясен: изкуственият интелект се подобрява, но все още греши в около една трета от случаите.

Коментари

Няма въведени кометари.

Мениджър 06/2026

Счупеният часовник е прав 2 пъти на ден, а най-добрият ИИ модел: в 69 процента от случаите

Свързани статии

„Билд“: Не се учудвайте, ако нови евромонети от България зазвънят в портфейла ви

Експерти откриха причината за огнището на птичи грип в Европа

Свързани статии

Ключови думи

Коментари

НОВ КОМЕНТАР

ОЩЕ ОТ КАТЕГОРИЯТА

От кариерни контакти до първа среща: LinkedIn се превръща в неочаквана платформа за запознанства

Китай изстрелва снаряд за унищожение на астероиди, които заплашват Земята

А1 предлага ново решение за наблюдение и сигурност на дома

Джейми Даймън: Дебатът за достъпа до AI модела Mythos предупредителен знак за бъдещето на изкуствения интелект

Нов срив във Facebook, хиляди потребители останаха без достъп до профилите си

Инвеститор предупреждава Европа да намали зависимостта си от американски технологии

Vivacom помага на бизнеса да отговори на изискванията на NIS2 чрез обучения по киберсигурност

AI е толкова добър, колкото е добър въпросът, който му задаваш

Почина актрисата Мая Драгоманска

Парламентът одобри разполагане на американски военни и техника в "Безмер"

CARIZON на Volkswagen и Horizon Robotics задълбочават партньорството си за автономно шофиране в Китай

Гърция забрани младежи под 17 години да управляват електрически скутери

Финалът на Световното по футбол счупи рекордите за гледане в историята на Съединените щати

Тръмп искал Джани Инфантино за генерален секретар на ООН

На днешната дата, 22 юли. Имен ден празнуват Магда, Магдалена, Мадлен

Рубио: САЩ са готови за диалог, но Иран не подхожда сериозно към преговорите

Радев: Категорично е изключено от българска територия да се водят бойни действия в Близкия изток

Времето: Обилни валежи в почти цялата страна, особено интензивни по морето

Бюджетната комисия одобри бюджета на второ четене след 12-часово заседание

Как да ръководим ефективно в един свят, в който времето никога не стига?

Парламентът реши: Пламен Тончев поема поста председател на ДАНС

Фейсбук се срина за 40 минути

LinkedIn и краят на илюзията за “професионална” социална мрежа

Китай проведе тестово изстрелване на многократно използваема суперкосмическа ракета

САЩ разследват твърдения за ирански дронове в Куба, Тръмп предупреди: „Ще се справим с това"

25 безполезни, но много любопитни факти

ADVERTORIAL

Постигаме повече заедно: cargo-partner и Nippon Express напредват с интеграцията в Словакия, Полша и Австрия

Euromoney: УниКредит Булбанк е най-добрата банка в България за 2026 г.

Fibank запазва без такса blink P2P преводите по мобилен номер до края на 2026 г.

3-ти годишен форум за транспорт, логистика и спедиция

Национален конкурс Technovators League

ОФИЦИАЛНИ ПРАВИЛА НА ИГРАТА „ЗАБРАНЕНИЯТ ПЛОД“

Марта Стюарт е една много горда баба

Виц: Романтична среща на язовира у Враца

Басня за пълната чаша

Modernity Yellow Party: Sunset & Chill

Калпазанска есен 2026

ОФИЦИАЛНИ ПРАВИЛА НА ИГРАТА „ЗАБРАНЕНИЯТ ПЛОД“

Марта Стюарт е една много горда баба

Виц: Романтична среща на язовира у Враца

Басня за пълната чаша