Humanity’s Last Exam: Ни один ИИ не смог преодолеть этот барьер

В поисках границ ИИ: «Последний экзамен человечества» ставит под сомнение возможности AI

«Последний экзамен человечества» (Humanity’s Last Exam), новый бенчмарк от «Центра безопасности искусственного интеллекта» (CAIS) и компании Scale AI, демонстрирует, что даже передовые ИИ системы не способны решать сложные, междисциплинарные задачи, которые требуют глубокого аналитического мышления и понимания контекста, пишет PEPELAC.NEWS.

В тесте участвовали вопросы от более чем тысячи экспертов из пятидесяти стран, охватывая обширный спектр дисциплин, от математики до гуманитарных наук, что включало сложные задания с графиками и изображениями. Такая многогранность стала серьезным испытанием для ИИ.

Результаты теста показали, что точность ответов флагманских систем ИИ не превышает 10%, что является свидетельством их недостаточной подготовленности к комплексному восприятию и обработке информации на уровне глубокого понимания.

CAIS и Scale AI планируют предоставить этот бенчмарк исследовательской общественности для дальнейшего анализа и улучшения ИИ систем, что станет шагом к расширению границ возможностей искусственного интеллекта в ближайшем будущем.