Сложные вопросы по истории оказались непосильны для современных ИИ

Искусственный интеллект сдаёт экзамен по истории: результаты невысоки

Исследование, проведенное Австрийским институтом комплексных наук (CSH), выявило значительные проблемы с точностью ответов искусственного интеллекта на сложные исторические вопросы. Опубликованные на конференции NeurIPS результаты показали, что модель GPT-4 Turbo от OpenAI правильно отвечает только на 46% вопросов продвинутого уровня, пишет PEPELAC.NEWS.

В рамках исследования использовался инструмент оценки «Hist-LLM», основанный на глобальной базе данных Seshat, для тестирования способности моделей GPT-4, Llama и Gemini отвечать на сложные исторические вопросы. Искусственные интеллекты столкнулись с трудностями, особенно когда дело доходило до точной идентификации исторических технологий или военных аспектов древних цивилизаций.

Доктор Мария дель Рио-Чанона из Университетского колледжа Лондона подчеркнула, что, хотя ИИ имеет впечатляющие возможности для обработки данных, он всё ещё далёк от замещения человеческого эксперта в глубоком понимании и анализе исторических событий. Модели часто допускали ошибки в менее документированных или исследованных областях истории.

Результаты также указывают на недостаточное покрытие исторических данных стран южнее Сахары, что может свидетельствовать о существовании предвзятости в обучающих данных. Исследователи выражают уверенность в том, что дальнейшее улучшение ИИ может значительно обогатить исторические исследования, при этом они продолжают работу над улучшением алгоритмов для более точного анализа.