Всички ИИ модели си измислят. Кои го правят най-често?

Технологии

Обновена 19:25ч., 17.08.2023

Снимка: Getty images

Ако най-добрите модели с изкуствен интелект в технологичната индустрия ходеха на изпити, то GPT -4 на OpenAI щеше да е най-добрият в математиката, Llama 2 на Meta щеше да е ученикът със средни оценки, Claude 2 на Anthropic щеше да е този, който знае най-добре докъде се простират възможностите му, а Cohere AI щеше да бъде номер едно по увереното даване на грешни отговори, пише Си Ен Би Си.

Тези заключения могат да бъдат направени на база доклад на изследователи от Arthur AI, платформа за наблюдение на машинно обучение.

Изследването идва в момент, когато дезинформацията, произтичаща от системите с изкуствен интелект, е по-гореща тема откогато и да е бил на фона на бума на генеративния ИИ и преди президентските избори в САЩ през 2024 г.

Това е първият доклад, „който прави изчерпателен поглед върху нивата на халюцинации, вместо просто да... предоставя едно число, определящо мястото на различните големи езикови модели в класацията“, коментира Адам Уенчъл, съосновател и главен изпълнителен директор на Arthur.

ИИ халюцинации възникват, когато големите езикови модели (LLM) измислят изцяло информация, държайки се така, сякаш посочват факти. Един пример - през юни се появиха новини, че ChatGPT цитира „фалшиви“ случаи във федерален съд в Ню Йорк и замесените адвокати от Ню Йорк може да понесат санкции.

В един експеримент изследователите на Arthur AI са тествали моделите на ИИ в категории като комбинаторна математика, президенти на САЩ и марокански политически лидери, задавайки въпроси, „предназначени да съдържат ключова съставка, която кара LLMs да правят грешки - те изискват множество стъпки на разсъждение относно информацията“, пишат изследователите.

Като цяло GPT-4 на OpenAI се представя най-добре от тестваните модели, като изследователите са установили, че системата халюцинира по-малко от предишната си версия, GPT-3.5. При математически въпроси той халюцинира между 33% и 50% по-малко в зависимост от категорията.

Llama 2 на Meta, от друга страна, като цяло халюцинира повече от GPT-4 и Claude 2 на Anthropic, казват изследователи.

В математическата категория GPT-4 е на първо място, следван плътно от Claude 2, но при въпросите за президентите на САЩ Claude 2 заема първо място за точност, измествайки GPT-4 на второ място. Попитан за мароканската политика, GPT-4 отново беше първи, а Claude 2 и Llama 2 са избрали почти изцяло да не отговарят.

Във втори експеримент изследователите са тествали доколко ИИ моделите ще хеджират отговорите си с предупредителни фрази, за да избегнат риск – иначе казано, отговорът им да започне с думи от рода на: „Като AI модел не мога да давам мнения“.

Що се отнася до този по-предпазлив подход, при GPT-4 се наблюдава 50% относително увеличение в сравнение с GPT-3.5, което според мнения на потребители може да направи GPT-4 е по-разочароващ за използване, пишат изследователите. ИИ моделът на Cohere пък не е подходил предпазливо в нито един от отговорите си, според доклада. Claude 2 е най-надежден по отношение на „самосъзнанието“, показва изследването. Това означава, че моделът е много по-наясно с това какво знае и гледа да отговаря на въпроси само когато разполага с данни за обучение, които да подкрепят отговора.

Коментари

Krasimir

19 август 2023, 15:35ч.

Питам ИИ: Вие твърдите:"като моделира основните частици и фундаменталните взаимодействия като въже от измерваема дължина и енергия". Ако приемем ,че дължината е измерение на пространството,а енергията инструмент за преминаване на материя от един вид в друг то симулацията "въже от измерваема дължина и енергия" се подразбира като оплитане едно в друга на дължината и енергията. Какъв резултат ще доведе симулацията разплитане на тези дължина и енергия? ИИ отговаря: Във физиката, въже от измерваема дълж

Krasimir

19 август 2023, 15:36ч.

Във физиката, въже от измерваема дължина и енергия се използва за моделиране на основните частици и фундаменталните взаимодействия. Това означава, че частиците и взаимодействията между тях могат да бъдат представени като определена дължина и енергия на връзката между тях. Ако разплетем симулацията на тези дължина и енергия, това ще доведе до отделянето на частиците и прекъсването на взаимодействията между тях. В резултат, симулацията няма да може да представя основните частици и фундаменталните взаимодей

Мениджър 02/2026

Всички ИИ модели си измислят. Кои го правят най-често?

Свързани статии

Опасен момент за инвеститорите: Стратег предупреждава срещу фокуса върху ИИ

Google: Не се доверявайте на нашия чатбот, проверявайте информацията с търсачката

Един от най-големите поддръжници на ИИ предупреждава служителите си да внимават с технологията

Свързани статии

Ключови думи

Коментари

ОЩЕ ОТ КАТЕГОРИЯТА

Digital age: Техно пробиви и открития

Марк Уилямс-Кук: AI технологиите са натоварени със свръхочаквания

И технологиите заговориха на бизнес-език: AI агентите правят ERP системата невидима

Делойт Централна Европа и ElevenLabs обединяват усилия за трансформация на клиентското изживяване с помощта на Agentic AI

Мрачна перспектива: Пазарът на смартфони се готви за рекорден спад през 2026 година

OpenAI сключи споразумение с Пентагона за използване на изкуствен интелект

Nvidia планира нов процесор за по-бързи и по-ефективни системи с изкуствен интелект

На 25 март 2026 г. стартира 12-ото издание на емблематичния училищен хакатон Hack TUES

Жените в BILLA: нежната сила на компанията

Bloomberg: Китай нареди на големите рафинерии незабавно спране износа на бензин и дизел

VM Finance Group планира разрширяване на портфолиото си с придобиване на нови марки

НАТО набляга върху технологичните инвестиции на срещата на върха в Турция

Земеделските стопани получиха над 3,7 млн. евро по втория транш за намален акциз върху газьола

Ще има ли нов играч в конфликта? Иракски кюрди с въоръжение от ЦРУ подготвят пробив в Иран

Колко токсично е работното ви място?

Тартор на японската мафия „Якудза“ беше вкаран за 20 г. в затвора чрез агенти под прикритие

Кристалина Георгиева: Световната икономика отново е подложена на изпитание

Директорът на НСОРБ: Има забавени плащания по Общинската инвестиционна програма

Времето: Ветровито, облачно, а на места в Западна и Централна България и дъждовно

На днешната дата, 5 март. Рождениците днес

ADVERTORIAL

Жените в BILLA: нежната сила на компанията

И технологиите заговориха на бизнес-език: AI агентите правят ERP системата невидима

23 години SIKO Trans: Лидерство, изпреварило времето

3-ти годишен форум за транспорт, логистика и спедиция

Technovation 2026

Детето говори на себе си

На 38 и в перименопауза: новият епизод на „Преобръщане“ поставя фокус върху тема, за която никой не подготвя жените навреме

На 38 и в перименопауза: новият епизод на „Преобръщане“ поставя фокус върху тема, за която никой не подготвя жените навреме

Нанопластмасите са сериозна заплаха за бъбреците

Greenovate: Hack the City

8-и годишен форум Производство и търговия

Детето говори на себе си

На 38 и в перименопауза: новият епизод на „Преобръщане“ поставя фокус върху тема, за която никой не подготвя жените навреме

На 38 и в перименопауза: новият епизод на „Преобръщане“ поставя фокус върху тема, за която никой не подготвя жените навреме

Нанопластмасите са сериозна заплаха за бъбреците