Счупеният часовник е прав 2 пъти на ден, а най-добрият ИИ модел: в 69 процента от случаите

Политика за бисквитки

Току-що получихме отрезвяваща картина за това колко често моделите с изкуствен интелект прецизират фактите. Тази седмица Google DeepMind представи документа FACTS Benchmark Suite, който измерва колко надеждно моделите с изкуствен интелект дават фактически точни отговори.

Той тества модели в четири области: отговаряне на фактологични въпроси от вътрешни знания, ефективно използване на уеб търсене, обосноваване на отговорите в дълги документи и интерпретиране на изображения. Най-добрият модел, който се оказва Gemini 3 Pro на Google, достигна 69% точност, като другите водещи модели бяха доста под това ниво.

Като непряко сравнение, ако журналист напише материал, в който фактологията е само 69 процента вярна, това би следвало да бъде пагубно както за доверието в медията, така и за кариерата на човека.

Отвъд журналистиката, това число би трябвало да е от значение за бизнеса, залагащ на изкуствения интелект. Въпреки че моделите се отличават със скорост и плавност, тяхната фактическа надеждност все още изостава значително от човешките очаквания, особено в задачи, включващи нишови знания, сложни разсъждения или прецизно обосноваване на изходен материал. Дори малки фактически грешки могат да имат огромни последици в сектори като финанси, здравеопазване и право.

Сравнителният показател FACTS е предупреждение, но и пътна карта: чрез количествено определяне къде и как моделите се провалят, Google се надява да ускори напредъка. Но засега изводът е ясен: изкуственият интелект се подобрява, но все още греши в около една трета от случаите.

Коментари

НОВ КОМЕНТАР

ОЩЕ ОТ КАТЕГОРИЯТА

НАЙ-НОВО

|

НАЙ-ЧЕТЕНИ

|

НАЙ-КОМЕНТИРАНИ

Знаменит фитнес треньор разкри 3-те най-прости правила за отслабване
БНБ: Депозитите на домакинствата у нас нарастват с 19% към края на май
Oreo си партнира с K-pop групата BTS за кампания в над 80 държави
Първи трейлър на филма „Часът на чудовището“
Легендарният 1200-годишен „Дъб на Робин Худ“ приключи живота си в Шеруудската гора
Христанов: Ще режем заплати на шефове на държавни горски предприятия
Маркет линкс: Доверието към правителството е 45%, а към парламента - 22%
Златните правила на Джон Дейвисън Рокфелер
2-ри годишен Форум за транспорт, логистика и спедиция: Под натиска на регулациите
Изненадващата причина другите постоянно да ви разочароват
ABSOLUT представя уникалната си арт колекция на изложба в София
Джеф Безос влиза в съревнование с Илон Мъск на два фронта