
Штучний інтелект провалив українське ЗНО, – дослідження

Найпопулярніші моделі штучного інтелекту, включно з ChatGPT, не змогли скласти українське ЗНО — жодна з них не подолала позначку у 70% правильних відповідей. Такі результати продемонструвало дослідження ZNOVision, яке стало першим багатоформатним тестом, що перевіряє здатність ШІ працювати з українською мовою, освітнім контентом і культурним контекстом.
Про це повідомляє dev.ua з посиланням на організаторів проєкту.
Тест охоплює понад 4300 завдань, розподілених на 13 категорій — від математики та фізики до історії, мови й літератури. Більше половини завдань містили візуальні елементи: діаграми, схеми, малюнки та карти. Саме візуально-текстові запитання стали найбільш проблемними для ШІ-моделей — вони не розпізнавали українські написи на зображеннях, плутали одиниці виміру та не враховували частини формулювань.
У тестуванні брали участь шість моделей:
- Gemini 1.5 Pro – 67,5% правильних відповідей
- Claude 3.5 Sonnet – 64,3%
- Qwen2VL72B – 51,2%
- GPT4o – 47%
- Paligemma3B і PaligemmaFT – результати не уточнені, але нижчі
Для порівняння, випадковий вибір дав би 22%. У наборі VQAUA (візуальні запитання українською) моделі показали ще слабші результати: GPT4o — 29%, Claude — 26,7%, Qwen2VL — 34,4%. Це суттєво поступається результатам аналогічних англомовних тестів, де показники сягають понад 60%.
Тестування проводили з використанням хмарної інфраструктури De Novo, яка надала доступ до сертифікованих GPU кластерів відповідно до державних вимог у сфері кібербезпеки (КСЗІ).
Попри низькі результати, інтерес до застосування ШІ в освіті зростає. Як раніше повідомляла директорка УЦОЯО Тетяна Вакуленко, у майбутньому штучний інтелект можуть залучати до перевірки Національного мультипредметного тесту як «третього екзаменатора».