Тест от "крестного отца ИИ" раскрыл правду об уровне GPT-4: он в разы тупее человека

30.11.2023 07:15

Тест от 'крестного отца ИИ' раскрыл правду об уровне GPT-4: он в разы тупее человека

Команда исследователей из Meta – материнской компании Facebook – создала новый тест для оценки способностей ШИ-помощников, таких как большая языковая модель (LLM) OpenAI GPT-4. Оказалось, что по интеллектуальному уровню он значительно тупее людей.

Результаты исследования опубликованы на сайте препринтов arXiv. Работа ученых еще ожидает рецензирования от научного сообщества.

Команда исследователей, среди которых был главный научный сотрудник Meta Ян ЛеКун, которого называют "крестным отцом ИИ", разработала экзамен под названием GAIA. Он состоит из 466 вопросов, которые концептуально просты для человека, но сложны для большинства продвинутых ИИ.

Оказалось, что респонденты-люди смогли правильно ответить на 92% вопросов экзамена. В то же время GPT-4, даже оснащенный некоторыми подобранными вручную плагинами, набрал лишь 15%. Недавно выпущенный OpenAI GPT4 Turbo тоже показал себя далеко не самым лучшим образом, набрав менее 10%.

Стоит отметить, что по каким-то причинам исследователи не включили в свою работу конкурирующие LLM, такие как Llama 2 от той же Meta или Bard от Google.

Тем не менее, исследование показывает, что ИИ пока достаточно далек от того, чтобы достичь общего искусственного интеллекта (AGI) – состояния, в котором алгоритмы ИИ смогут превзойти человека в интеллектуальных задачах.

Как пишет The Byte, выводы исследователей также противоречат громким заявлениям, сделанным известными деятелями индустрии искусственного интеллекта.

"Эта заметная разница в производительности контрастирует с недавней тенденцией, когда LLM превосходили людей в выполнении задач, требовавших профессиональных навыков, например, в юриспруденции или химии", – отметили исследователи.

В документации GPT-4 OpenAI утверждает, что их модель "демонстрирует человеческий уровень производительности в различных профессиональных и академических тестах, включая сдачу имитированного экзамена на адвоката с результатом, находящимся в пределах первых десяти процентов участников тестирования".

Однако ученые все еще дискутируют о том, как на самом деле оценить интеллект LLM, если GPT-4, как и другие модели ИИ, все еще имеет много недостатков и порой не может отличить правду от вымысла.

ЛеКун и раньше критиковал хайп вокруг ИИ и отрицал данные о том, что он является экзистенциальной угрозой для людей.

По его словам, LLM, очевидно, "имеют определенное понимание того, что они читают и генерируют… но это понимание очень ограничено и поверхностно".

"Иначе они бы не путались так часто и не совершали ошибок, которые противоречат здравому смыслу", – подчеркнул ученый.

Ранее в OBOZ.UA рассказывал о том, что OpenAI, вероятно, работает над моделью следующего поколения Q*, которая может вывести уровень дедуктивных соображений ИИ на высоту человеческого интеллекта.

Подписывайтесь на каналы OBOZ.UA в Telegram и Viber, чтобы быть в курсе последних событий.