Тест від "хрещеного батька ШІ" викрив правду про рівень GPT-4: він в рази тупіший за людину
Віртуальний меморіал загиблих борців за українську незалежність: вшануйте Героїв хвилиною вашої уваги!
Команда дослідників із Meta – материнської компанії Facebook – створила новий тест для оцінки здібностей ШІ-помічників, таких як велика мовна модель (LLM) OpenAI GPT-4. Виявилося, що за інтелектуальним рівнем він значно тупіший за людей.
Результати дослідження опубліковані на сайті препринтів arXiv. Робота вчених ще очікує рецензування від наукової спільноти.
Команда дослідників, серед яких був головний науковий співробітник Meta Ян ЛеКун, якого називають "хрещеним батьком ШІ", розробила іспит під назвою GAIA. Він складається з 466 питань, які є концептуально простими для людини, але складними для більшості просунутих ШІ.
Виявилося, що респонденти-люди змогли правильно відповісти на 92% запитань іспиту. В той же час GPT-4, навіть оснащений деякими підібраними вручну плагінами, набрав лише 15%. Нещодавно випущений OpenAI GPT4 Turbo теж показав себе далеко не найкращим чином, набравши менше 10%.
Варто зазначити, що з якихось причини дослідники не включили в свою роботу конкуруючі LLM, такі як Llama 2 від тої ж Meta або Bard від Google.
Тим не менш, дослідження показує, що ШІ наразі досить далекий від того, аби досягнути загального штучного інтелекту (AGI) – стану, в якому алгоритми ШІ зможуть перевершити людину в інтелектуальних завданнях.
Як пише The Byte, висновки дослідників також суперечать гучним заявам, зробленим відомими діячами індустрії штучного інтелекту.
"Ця помітна різниця в продуктивності контрастує з нещодавньою тенденцією, коли LLM перевершували людей у виконанні завдань, що вимагали професійних навичок, наприклад, в юриспруденції або хімії", – зазначили дослідники.
У документації GPT-4 OpenAI стверджує, що їхня модель "демонструє людський рівень продуктивності в різних професійних і академічних тестах, включаючи складання імітованого іспиту на адвоката з результатом, що знаходиться в межах перших десяти відсотків учасників тестування".
Однак, вчені все ще дискутують про те, як насправді оцінити інтелект LLM, якщо GPT-4, як і інші моделі ШІ, все ще має багато недоліків і часом не може відрізнити правду від вигадки.
ЛеКун і раніше критикував хайп довкола ШІ та заперечував дані про те, що він є екзистенційною загрозою для людей.
За його словами, LLM, очевидно, "мають певне розуміння того, що вони читають і генерують … але це розуміння дуже обмежене і поверхневе".
"Інакше вони б не плуталися так часто і не робили помилок, які суперечать здоровому глузду", – підкреслив науковець.
Раніше в OBOZ.UA розповідав про те, що OpenAI, ймовірно, працює над моделлю наступного покоління під назвою Q*, яка може вивести рівень дедуктивних міркувань ШІ на висоту людського інтелекту.
Підписуйтесь на канали OBOZ.UA у Telegram і Viber, щоб бути в курсі останніх подій.