Всички ИИ модели си измислят. Кои го правят най-често?
Ако най-добрите модели с изкуствен интелект в технологичната индустрия ходеха на изпити, то GPT -4 на OpenAI щеше да е най-добрият в математиката, Llama 2 на Meta щеше да е ученикът със средни оценки, Claude 2 на Anthropic щеше да е този, който знае най-добре докъде се простират възможностите му, а Cohere AI щеше да бъде номер едно по увереното даване на грешни отговори, пише Си Ен Би Си.
Тези заключения могат да бъдат направени на база доклад на изследователи от Arthur AI, платформа за наблюдение на машинно обучение.
Изследването идва в момент, когато дезинформацията, произтичаща от системите с изкуствен интелект, е по-гореща тема откогато и да е бил на фона на бума на генеративния ИИ и преди президентските избори в САЩ през 2024 г.
Това е първият доклад, „който прави изчерпателен поглед върху нивата на халюцинации, вместо просто да... предоставя едно число, определящо мястото на различните големи езикови модели в класацията“, коментира Адам Уенчъл, съосновател и главен изпълнителен директор на Arthur.
ИИ халюцинации възникват, когато големите езикови модели (LLM) измислят изцяло информация, държайки се така, сякаш посочват факти. Един пример - през юни се появиха новини, че ChatGPT цитира „фалшиви“ случаи във федерален съд в Ню Йорк и замесените адвокати от Ню Йорк може да понесат санкции.
В един експеримент изследователите на Arthur AI са тествали моделите на ИИ в категории като комбинаторна математика, президенти на САЩ и марокански политически лидери, задавайки въпроси, „предназначени да съдържат ключова съставка, която кара LLMs да правят грешки - те изискват множество стъпки на разсъждение относно информацията“, пишат изследователите.
Като цяло GPT-4 на OpenAI се представя най-добре от тестваните модели, като изследователите са установили, че системата халюцинира по-малко от предишната си версия, GPT-3.5. При математически въпроси той халюцинира между 33% и 50% по-малко в зависимост от категорията.
Llama 2 на Meta, от друга страна, като цяло халюцинира повече от GPT-4 и Claude 2 на Anthropic, казват изследователи.
В математическата категория GPT-4 е на първо място, следван плътно от Claude 2, но при въпросите за президентите на САЩ Claude 2 заема първо място за точност, измествайки GPT-4 на второ място. Попитан за мароканската политика, GPT-4 отново беше първи, а Claude 2 и Llama 2 са избрали почти изцяло да не отговарят.
Във втори експеримент изследователите са тествали доколко ИИ моделите ще хеджират отговорите си с предупредителни фрази, за да избегнат риск – иначе казано, отговорът им да започне с думи от рода на: „Като AI модел не мога да давам мнения“.
Що се отнася до този по-предпазлив подход, при GPT-4 се наблюдава 50% относително увеличение в сравнение с GPT-3.5, което според мнения на потребители може да направи GPT-4 е по-разочароващ за използване, пишат изследователите. ИИ моделът на Cohere пък не е подходил предпазливо в нито един от отговорите си, според доклада. Claude 2 е най-надежден по отношение на „самосъзнанието“, показва изследването. Това означава, че моделът е много по-наясно с това какво знае и гледа да отговаря на въпроси само когато разполага с данни за обучение, които да подкрепят отговора.
Ключови думи
ОЩЕ ОТ КАТЕГОРИЯТА
|
|
Министър Трайков: За България няма опасност от недостиг на керосин и дизел
България |Европейската комисия възлага договор за облачни услуги на стойност 180 млн. евро на четири европейски доставчика
Технологии |Закъснели, но необходими: Как данъчните облекчения за R&D ще променят българската икономика?
Икономика |Откриват нова автобусна линия №95 в София
Общество |Видеокаст „Context by Мениджър”, Епизод 1: Глобалните сътресения и ефектът върху България
Общество |Москва пое управлението на руските активи на енергийните гиганти Uniper и Fortum
Енергетика |Пет практични начина за изграждане на култура на казване на истината на работното място
Техники за успех |Въпреки оплакванията: Организаторите на Олимпийските игри през 2032 г. в Австралия не се отказват от състезания в река с крокодили
Спорт |На днешната дата, 17 април. Рождениците днес
На днешната дата |Времето: Значителна облачност над Южна България
България |Влезе в сила 10-дневното прекратяване на огъня между Израел и Ливан. Тръмп заяви, че през уикенда може да има среща САЩ-Иран
Свят |МАЕ: Европа разполага със самолетно гориво за около 6 седмици
ЕС |tbi bank обяви Армен Матевосян за директор „Данни, AI и монетизация“
Компании |ADVERTORIAL
Програмата „Капка по капка“ спечели наградата „Инвеститор в околната среда“ в Годишните награди за отговорен бизнес
United Group разшири оптичната си мрежа в региона с напълно изградения подземен оптичен кабел между Атина и Солун
Коментари
Krasimir
19 август 2023, 15:35ч.
Питам ИИ: Вие твърдите:"като моделира основните частици и фундаменталните взаимодействия като въже от измерваема дължина и енергия". Ако приемем ,че дължината е измерение на пространството,а енергията инструмент за преминаване на материя от един вид в друг то симулацията "въже от измерваема дължина и енергия" се подразбира като оплитане едно в друга на дължината и енергията. Какъв резултат ще доведе симулацията разплитане на тези дължина и енергия? ИИ отговаря: Във физиката, въже от измерваема дълж
Krasimir
19 август 2023, 15:36ч.
Във физиката, въже от измерваема дължина и енергия се използва за моделиране на основните частици и фундаменталните взаимодействия. Това означава, че частиците и взаимодействията между тях могат да бъдат представени като определена дължина и енергия на връзката между тях. Ако разплетем симулацията на тези дължина и енергия, това ще доведе до отделянето на частиците и прекъсването на взаимодействията между тях. В резултат, симулацията няма да може да представя основните частици и фундаменталните взаимодей