В соседнем Казахстане объявили о технологическом прорыве, который может существенно изменить ландшафт цифровых услуг во всей Центральной Азии. Стартап Cybernet AI, базирующийся в Астане, официально презентовал первую масштабную систему автоматического распознавания речи (ASR), спроектированную специально для работы с группой тюркских языков. О запуске проекта сообщило Министерство искусственного интеллекта и цифрового развития РК.
Для нашего региона это событие имеет особое значение, так как новая архитектура не ограничивается только казахским языком. Алгоритмы модели глубоко проработаны для понимания узбекского, турецкого, кыргызского, азербайджанского и татарского языков. Более того, разработчикам удалось решить одну из самых сложных задач в обработке естественного языка на постсоветском пространстве - корректное распознавание смешанной речи, где говорящий в рамках одного предложения переключается между национальным языком и русским.
Проект, который уже называют крупнейшим в своем классе в Центральной Азии, получил стратегическую и ресурсную поддержку от технопарка Astana Hub.
Технический директор Cybernet AI Рашид Ismailov, комментируя релиз, подчеркнул принципиальное отличие их продукта от существующих решений. Команда инженеров сознательно отказалась от распространенной практики дообучения или адаптации англоязычных движков под местные нужды. Вместо этого была создана ASR-модель, которая изначально «заточена» под фонетику и грамматический строй тюркской языковой группы.
«Мы создали модель, которая понимает живые формы разговорного языка. Это делает разработку не просто очередным технологическим продуктом, а вкладом в формирование локальной экосистемы искусственного интеллекта и технологического суверенитета», - отметил Ismailov.
До недавнего времени как в Казахстане, так и в Узбекистане бизнес и государственные структуры были вынуждены интегрировать международные ASR-системы. Эти решения, ориентированные преимущественно на английский синтаксис и артикуляцию, часто демонстрировали низкую эффективность при работе с местными диалектами или специфическими акцентами. Главной проблемой оставалась неспособность глобальных моделей адекватно обрабатывать суржик или характерную для наших стран билингвальную речь, что приводило к ошибкам в транскрипции и недопониманию в автоматизированных диалогах.
Представленная разработка нацелена на корпоративный сектор и государственное управление, где критически важна скорость и точность обработки больших массивов голосовых данных. В первую очередь речь идет о банковской сфере, телекоммуникационных операторах и логистических хабах. Внедрение подобного ИИ в работу контакт-центров и служб поддержки позволит перевести обслуживание клиентов в круглосуточный режим, минимизируя человеческий фактор и снижая операционные расходы.
Согласно заявленным характеристикам, система демонстрирует высокую устойчивость к посторонним шумам и вариативности акцентов, что делает ее пригодной для использования не только в стерильных офисных условиях, но и в реальной городской среде. Для Узбекистана, где цифровизация госуслуг и банковского сектора идет полным ходом, появление инструмента, качественно распознающего узбекскую речь в смешанном потоке, открывает перспективы для импорта технологий или создания аналогичных решений на базе уже проверенных соседями методологий.
В Министерстве ИИ Казахстана отмечают, что данный проект является шагом к независимости региона от западных IT-гигантов в вопросах лингвистических моделей, позволяя сохранять данные и технологии обработки речи внутри стран Центральной Азии.
Тюркские языки относятся к агглютинативным языкам, где слова образуются путем «приклеивания» различных суффиксов к корню (например, в узбекском: kitob - книга, kitoblar - книги, kitoblarim - мои книги, kitoblarimda - в моих книгах). Для стандартных моделей ИИ, обученных на флективных языках (как английский или русский), это представляет огромную сложность, так как количество возможных словоформ стремится к бесконечности, и словарь модели разрастается до невероятных размеров. Именно поэтому специализированные «тюркские» модели работают значительно быстрее и точнее адаптированных западных аналогов.