15°

Штучний інтелект провалив українське ЗНО, – дослідження

Найпопулярніші моделі штучного інтелекту, включно з ChatGPT, не змогли скласти українське ЗНО — жодна з них не подолала позначку у 70% правильних відповідей. Такі результати продемонструвало дослідження ZNOVision, яке стало першим багатоформатним тестом, що перевіряє здатність ШІ працювати з українською мовою, освітнім контентом і культурним контекстом.

Про це повідомляє dev.ua з посиланням на організаторів проєкту.

Тест охоплює понад 4300 завдань, розподілених на 13 категорій — від математики та фізики до історії, мови й літератури. Більше половини завдань містили візуальні елементи: діаграми, схеми, малюнки та карти. Саме візуально-текстові запитання стали найбільш проблемними для ШІ-моделей — вони не розпізнавали українські написи на зображеннях, плутали одиниці виміру та не враховували частини формулювань.

У тестуванні брали участь шість моделей:

  • Gemini 1.5 Pro – 67,5% правильних відповідей
  • Claude 3.5 Sonnet – 64,3%
  • Qwen2VL72B – 51,2%
  • GPT4o – 47%
  • Paligemma3B і PaligemmaFT – результати не уточнені, але нижчі

Для порівняння, випадковий вибір дав би 22%. У наборі VQAUA (візуальні запитання українською) моделі показали ще слабші результати: GPT4o — 29%, Claude — 26,7%, Qwen2VL — 34,4%. Це суттєво поступається результатам аналогічних англомовних тестів, де показники сягають понад 60%.

Тестування проводили з використанням хмарної інфраструктури De Novo, яка надала доступ до сертифікованих GPU кластерів відповідно до державних вимог у сфері кібербезпеки (КСЗІ).

Попри низькі результати, інтерес до застосування ШІ в освіті зростає. Як раніше повідомляла директорка УЦОЯО Тетяна Вакуленко, у майбутньому штучний інтелект можуть залучати до перевірки Національного мультипредметного тесту як «третього екзаменатора».


Хочете отримувати головні новини в месенджер? Підписуйтесь на наш Telegram та Whatsapp