Счупеният часовник е прав 2 пъти на ден, а най-добрият ИИ модел: в 69 процента от случаите

Счупеният часовник е прав 2 пъти на ден, а най-добрият ИИ модел: в 69 процента от случаите

Току-що получихме отрезвяваща картина за това колко често моделите с изкуствен интелект прецизират фактите. Тази седмица Google DeepMind представи документа FACTS Benchmark Suite, който измерва колко надеждно моделите с изкуствен интелект дават фактически точни отговори.

Той тества модели в четири области: отговаряне на фактологични въпроси от вътрешни знания, ефективно използване на уеб търсене, обосноваване на отговорите в дълги документи и интерпретиране на изображения. Най-добрият модел, който се оказва Gemini 3 Pro на Google, достигна 69% точност, като другите водещи модели бяха доста под това ниво.

Като непряко сравнение, ако журналист напише материал, в който фактологията е само 69 процента вярна, това би следвало да бъде пагубно както за доверието в медията, така и за кариерата на човека.

Отвъд журналистиката, това число би трябвало да е от значение за бизнеса, залагащ на изкуствения интелект. Въпреки че моделите се отличават със скорост и плавност, тяхната фактическа надеждност все още изостава значително от човешките очаквания, особено в задачи, включващи нишови знания, сложни разсъждения или прецизно обосноваване на изходен материал. Дори малки фактически грешки могат да имат огромни последици в сектори като финанси, здравеопазване и право.

Сравнителният показател FACTS е предупреждение, но и пътна карта: чрез количествено определяне къде и как моделите се провалят, Google се надява да ускори напредъка. Но засега изводът е ясен: изкуственият интелект се подобрява, но все още греши в около една трета от случаите.

Ключови думи

Коментари

НАЙ-НОВО

|

НАЙ-ЧЕТЕНИ

|

НАЙ-КОМЕНТИРАНИ

На днешната дата, 14 декември. Имен ден празнуват Снежана, Снежа, Снежанка
Едни от първите щандове от инициативата "Магазин за хората" ще бъдат официално открити в Куклен утре
Кметът на „Люлин“ предлага да се намали с 25% таксата за битови отпадъци за жителите на квартала
КНСБ: Всякакъв бюджет е по-добър от никакъв
София в топ 5 на най-достъпните дестинации в Европа
Чакат се пак блокади по границата с Гърция заради протест на местните фермери
Германците искат руските активи в Европа да бъдат използвани за Украйна
Първите климатични мигранти пристигат в Австралия от потъващия Тувалу в Южния Пасифик