Счупеният часовник е прав 2 пъти на ден, а най-добрият ИИ модел: в 69 процента от случаите
Току-що получихме отрезвяваща картина за това колко често моделите с изкуствен интелект прецизират фактите. Тази седмица Google DeepMind представи документа FACTS Benchmark Suite, който измерва колко надеждно моделите с изкуствен интелект дават фактически точни отговори.
Той тества модели в четири области: отговаряне на фактологични въпроси от вътрешни знания, ефективно използване на уеб търсене, обосноваване на отговорите в дълги документи и интерпретиране на изображения. Най-добрият модел, който се оказва Gemini 3 Pro на Google, достигна 69% точност, като другите водещи модели бяха доста под това ниво.
Като непряко сравнение, ако журналист напише материал, в който фактологията е само 69 процента вярна, това би следвало да бъде пагубно както за доверието в медията, така и за кариерата на човека.
Отвъд журналистиката, това число би трябвало да е от значение за бизнеса, залагащ на изкуствения интелект. Въпреки че моделите се отличават със скорост и плавност, тяхната фактическа надеждност все още изостава значително от човешките очаквания, особено в задачи, включващи нишови знания, сложни разсъждения или прецизно обосноваване на изходен материал. Дори малки фактически грешки могат да имат огромни последици в сектори като финанси, здравеопазване и право.
Сравнителният показател FACTS е предупреждение, но и пътна карта: чрез количествено определяне къде и как моделите се провалят, Google се надява да ускори напредъка. Но засега изводът е ясен: изкуственият интелект се подобрява, но все още греши в около една трета от случаите.
Ключови думи
|
|
Коментари
Няма въведени кометари.