
Массив информации объемом 70 тысяч книг используют для тренировки национальной языковой модели. Это поможет ИИ лучше понимать украинский контекст.
Государственная архивная служба Украины передала 10 терабайтов данных для обучения ИИ Сяйво. Как сообщили в Минцифры, такой массив информации равен 70 тысячам книг, передает УНН.
- Представьте массив информации, равный 70 тысячам книг. Именно столько — 10 терабайтов уникальных исторических материалов, государственных документов и научных текстов — Государственная архивная служба Украины впервые передает для тренировки национальной языковой модели Сяйво - говорится в сообщении.
Как сообщили в Минцифры, большинство глобальных ИИ-помощников генерируют ответы на английском и переводят эти тексты на украинский, часто теряя контекст.
- Чтобы Сяйво стало надежным источником информации для людей и бизнеса, мы тренируем его на украинских данных. Для этого модель будет изучать исторические источники, рукописи, законы, судебные решения, медиаматериалы и словари - говорится в сообщении.
В ведомстве добавили, что создание большой языковой модели — важный шаг к построению ИИ-суверенитета.
- Сейчас мы собираем качественные данные для модели. Свои материалы предоставляют уже более 50 партнеров, среди которых медиа, университеты, библиотеки и т.д. Как только модель заработает, мы обнародуем полный перечень институций и людей, которые помогли создать национальный украинский ИИ - говорится в сообщении.
Врио министра цифровой трансформации Украины Александр Борняков отметил, что "для тренировки национальной языковой модели мы собираем данные, чтобы языковая модель была натренирована на уникальном массиве информации".
- Это государственные документы, научные статьи, медиаматериалы, словари, исторические материалы, законы, судебные решения и т.д.- добавил Борняков.
В Минцифры добавляют, что привлечение таких данных ускоряет создание качественной украинской модели, которая будет понимать нашу историю и контекст.
- Это уникальный случай, когда Укргосархив впервые предоставляет свои данные для развития цифровых сервисов в Украине. Мы имеем большой массив данных разных исторических эпох, печатных и рукописных, на украинском и других языках. До конца 2026 года количество цифровых копий госархивов увеличится со 150 млн до более 200 млн — это один из самых высоких в мире темпов оцифровки архивного наследия - добавил глава Укргосархива Анатолий Хромов.
![]() |
Gorod`ской дозор |
![]() |
Фоторепортажи и галереи |
![]() |
Видео |
![]() |
Интервью |
![]() |
Блоги |
| Новости компаний | |
| Сообщить новость! | |
![]() |
Погода |
| Архив новостей | |