Исследователи Института интеллектуальных систем и искусственного интеллекта (ISSAI) Nazarbayev University (NU) представили Главе государства Касым-Жомарту Токаеву большую языковую модель казахского языка ISSAI KAZ-LLM, разработанную на основе нейронной сети. Это основа казахского чата GPT.
Разработчики уверяют, что внедрение KAZ-LLM повсеместно решит многие проблемы, в том числе и переводами с казахского языка, с генерацией контента и с обработкой объемных текстов.
ISSAI KAZ-LLM адаптирована к уникальному многоязычному и мультикультурному контексту страны, разработана для казахского, русского и английского языков с дополнительной поддержкой турецкого, что позволяет устранить языковые пробелы и продвинуть генеративный искусственный интеллект для языков с ограниченными ресурсами, к которым и относится казахский язык.
Команда ISSAI собрала, обработала, синтезировала и перевела более 150 миллиардов токенов, а уровень обучения ISSAI KAZ-LLM уже доказал, что может конкурировать по результатам на казахском, русском и английском языках на уровне мировых лидеров в области искусственного интеллекта.
Помимо этого ISSAI KAZ-LLM предоставил практический опыт местным IT талантам, укрепив возможности национального искусственного интеллекта. Проект способствовал не только созданию передового инструмента искусственного интеллекта, но и росту числа казахстанских специалистов в этой области. Казахстанские исследователи участвовали во всех этапах процесса - от подготовки данных до внедрения моделей, создавая основу для устойчивых инноваций. Сотрудничество с ведущими казахстанскими институтами позволило создать инструменты сравнительного анализа и наборы данных, адаптированные для казахского языка с помощью лингвистов и передовых методов машинного перевода.
Работа над проектом началась в апреле, тренировка модели длилась около 5 месяцев. Все данные были собраны только из общедоступных источников, включая казахские веб-сайты, новостные статьи и онлайн-библиотеки. Также были использованы данные, предоставленные различными организациями.
«Эта модель отражает стремление Казахстана к инновациям, самостоятельности и росту своей технологической экосистемы. Наша команда подготовила две версии ISSAI KAZ-LLM с 8 миллиардами и 70 миллиардами параметров, построенные на архитектуре Meta Llama и оптимизированные для высокопроизводительных систем и сред с ограниченными ресурсами. Модели, выпущены по лицензии CC-BY-NC, которые доступны для некоммерческого использования на сайте Hugging Face, способствуя глобальному академическому и исследовательскому сотрудничеству. Таким образом разработчики смогут скачать и запустить нашу модель как на сложных серверах так и на ноутбуках », - рассказал Директор ISSAI профессор NU Хусейн Атакан Варол.
ISSAI рассматривает разработку систем искусственного интеллекта следующего поколения, включая модели языкового видения, и расширить эти модели для поддержки дополнительных тюркских и региональных языков. Эти усилия могут быть направлены на укрепление региональных связей, содействие языковой интеграции и содействие значительному экономическому и технологическому влиянию в Казахстане и за его пределами.
Проект ISSAI KAZ-LLM стал возможен благодаря поддержке Фонда развития NU и NIS, а также Astana Hub и QazCode (Beeline), а разработка велась независимо от государственного финансирования.