Счупеният часовник е прав 2 пъти на ден, а най-добрият ИИ модел: в 69 процента от случаите
Току-що получихме отрезвяваща картина за това колко често моделите с изкуствен интелект прецизират фактите. Тази седмица Google DeepMind представи документа FACTS Benchmark Suite, който измерва колко надеждно моделите с изкуствен интелект дават фактически точни отговори.
Той тества модели в четири области: отговаряне на фактологични въпроси от вътрешни знания, ефективно използване на уеб търсене, обосноваване на отговорите в дълги документи и интерпретиране на изображения. Най-добрият модел, който се оказва Gemini 3 Pro на Google, достигна 69% точност, като другите водещи модели бяха доста под това ниво.
Като непряко сравнение, ако журналист напише материал, в който фактологията е само 69 процента вярна, това би следвало да бъде пагубно както за доверието в медията, така и за кариерата на човека.
Отвъд журналистиката, това число би трябвало да е от значение за бизнеса, залагащ на изкуствения интелект. Въпреки че моделите се отличават със скорост и плавност, тяхната фактическа надеждност все още изостава значително от човешките очаквания, особено в задачи, включващи нишови знания, сложни разсъждения или прецизно обосноваване на изходен материал. Дори малки фактически грешки могат да имат огромни последици в сектори като финанси, здравеопазване и право.
Сравнителният показател FACTS е предупреждение, но и пътна карта: чрез количествено определяне къде и как моделите се провалят, Google се надява да ускори напредъка. Но засега изводът е ясен: изкуственият интелект се подобрява, но все още греши в около една трета от случаите.
Ключови думи
ОЩЕ ОТ КАТЕГОРИЯТА
|
|
Папа Лъв призова анголците да преодолеят дълбоките си разделения
Свят |Тръмп: Иран е нарушил сериозно примирието, но мирно споразумение все още е възможно
Свят |Активността към 16:00 ч.: 34,6% по данни на ЦИК, 39% според екзитпол
България |Служебният вътрешен министър: Масово машините за гласуване работят нормално, проблеми има при под 1%
Политика |Избирателната активност към 14:00 ч. достигна 34%
Политика |Избирателната активност към 14:00 ч. достигна 34%
Политика |Активността към 16:00 ч.: 34,6% по данни на ЦИК, 39% според екзитпол
България |Ето каква е избирателната активност към 12:00 часа
Политика |Учени съживиха животно, прекарало 24 000 години в замразено състояние
Наука и Здраве |Избирателната активност към 11:00 ч. достигна 12,12%
Политика |Служебният премиер Андрей Гюров: В парламента се влиза с идеи, а не с пачки в пояса
Политика |България избира 240 депутати за 52-рото Народно събрание
Политика |Рекордни цени на говеждото в САЩ заради намаляващите стада
Икономика |ADVERTORIAL
Програмата „Капка по капка“ спечели наградата „Инвеститор в околната среда“ в Годишните награди за отговорен бизнес
United Group разшири оптичната си мрежа в региона с напълно изградения подземен оптичен кабел между Атина и Солун
Коментари
Няма въведени кометари.