Шість суперсучасних моделей ШІ провалили тести з математики: найкращий результат склав всього 2%

Математики розробили нові задачі, щоб випробувати навички міркування шести передових моделей штучного інтелекту. Проте ШІ провалили майже всі тести.

Відео дня

Сучасним моделям штучного інтелекту важко розв’язувати математичні задачі дослідницького рівня. І навіть найдосконаліші системи ШІ здатні вирішити лише 2% із сотень проблем, з якими стикаються, пише LiveScience.

Згідно з даними дослідницького інституту Epoch AI, для розв'язання карколомних задач математикам, які мають ступінь доктора, зазвичай потрібні години або дні. А найдосконаліші моделі ШІ отримали правильні відповіді менше ніж на 2% з цих завдань.

За останнє десятиліття було розроблено низку тестів для ШІ. І у багатьох випадках моделі штучного інтелекту легко проходять ці тести, кажуть науковці. Наприклад, у стандартному тесті MMLU (Measuring Massive Multitask Language Understanding) сучасні моделі ШІ відповідають на 98% математичних задач правильно.

Більшість цих тестів спрямовані на перевірку здатності штучного інтелекту виконувати математику на рівні середньої школи та коледжу, пише Елліот Глейзер, математик з Epoch AI.

Проте новий набір тестів під назвою FrontierMath спрямований на вищий рівень міркувань. Epoch AI розробив запитання за допомогою професорів математики. За словами розробників, здачі охоплюють широкий спектр підгалузей – від теорії чисел до алгебраїчної геометрії.

Висновки науковців показують, що наразі моделі штучного інтелекту не мають математичних міркувань на дослідницькому рівні. Однак у міру розвитку ШІ ці порівняльні тести дадуть спосіб дізнатися, чи поглиблюються їхні здібності до міркування.

"Регулярно оцінюючи найсучасніші моделі та співпрацюючи з дослідницькою спільнотою штучного інтелекту, ми прагнемо поглибити наше розуміння можливостей і обмежень ШІ", – зазначила команда науковців.

OBOZ.UA раніше писав, що портрет, намальований одним із найдосконаліших ШІ-художників, продали з молотка за $1 мільйон.

Тільки перевірена інформація у нас у Telegram-каналі OBOZ.UA та Viber. Не ведіться на фейки!