Как отмечают разработчики своего, то есть отечественного, мировые IT-гиганты имеют крайне скудное представление о Казахстане, поэтому всем привычные сервисы ИИ часто выдают ложную информацию о нашей стране, не могут нарисовать правильный портрет казаха, и даже представляют угрозу национальной безопасности. Поэтому в качестве альтернативы глобальному продукту создается целый ряд казахстанских приложений. Ulysmedia.kz разбирался, чем чужое хуже нашего.
Искусственный интеллект для многих уже стал продолжением естественного, а для некоторых, к сожалению, даже его заменой.
Согласно исследованиям некоммерческой организации Internet Matters, подростки все чаще заменяют живое общение беседами с искусственным интеллектом.
В исследовании приняли участие 1000 детей в возрасте от 9 до 17 лет. 67% из них признались, что регулярно пользуются чат-ботами с ИИ. При этом 35% из этой подгруппы заявили, что общение с ботом очень похоже на дружеское. А 12% поделились, что они общаются с ИИ, потому что им больше не с кем поговорить.
И тут крайне важно - какие ценности пропагандирует ИИ, с которым общаются казахстанцы? Уважает ли он казахстанские законы и менталитет?
Как отмечает менеджер IT-продукта Института умных систем и искусственного интеллекта (ISSAI) Назарбаев Университета Амина Байкенова, одна из проблем мировых нейросетей - слабая интеграция в казахстанский контекст.
Поэтому в институте разработали целую линейку продуктов, которые говорят на казахском и думают, как казахстанцы.
Среди разработок - умный ассистент Oylan 2.5, который понимает казахский, русский и английский языки, причем казахский понимает и кириллицей, и латиницей, отвечает также на том языке, который удобен пользователю.
- Переход казахского языка на латиницу – это не просто смена графики, это этап модернизации мышления. В связи с этим мы работаем над тем, чтобы латиница могла быть доступна на наших продуктах. И также, мы получаем отзывы от нашего юного поколения, что они чаще пользуются латиницей, а не кириллицей, - объясняет Амина Байкенова.
Следующий проект – MangiSoz 2.0. Эта система распознаёт речь и переводит её на другие языки в текстовом и аудио формате. Работает с пятью языками: казахским, русским, английским, турецким и китайским. Можно выбрать мужской или женский голос.
Также специалисты Назарбаев университета рассказали о TilSync - сервисе автоматических субтитров.
- В основном это приложение можно использовать для перевода онлайн-лекций, образовательных курсов, конференций, - говорит Байкенова.
Еще одна нейросеть - Beynele генерирует изображения.
- Beynele генерирует реалистичные художественные изображения. Он понимает, как универсальные, так и специфические для Казахстана понятия, так как обучен полностью на данных из Казахстана. Он также отражает местную культуру, фольклор, пейзаж и современную жизнь, - утверждает менеджер IT-продукта.
Отечественные нейросети, как отмечают разработчики, решают еще один важный момент.
- Используя тот же чат GPT или Google Translate, мы отправляем данные в чье-то облако, где это облако находится, что происходит с этими данными - сохраняются они, не сохраняются, и как они в дальнейшем будут использоваться - мы, как конечные пользователи, не знаем, - подчеркивает Амина Байкенова.
То есть, стоит вопрос о национальной безопасности, особенно если учесть, что нейросетями могут пользоваться не только подростки, но и вполне себе взрослые дяди и тети на высоких государственных должностях.
Именно поэтому в некоторых организациях запрещен не только ИИ, но даже просто - Интернет.
- Мы собрали наш собственный сервер Mangitas с быстрой памятью и оптимизированной архитектурой. Ноу-хау этого сервера состоит в том, что нашей командой был выведен способ, как правильно разложить модель, которая должна храниться на больших серверах и вместить ее в относительно небольшую коробку, тем самым предоставить возможность компаниям работать в закрытом контуре и обеспечивать надежную защиту данных.
Как уверяют сотрудники Назарбаев Университета, абсолютно безопасны с точки зрения конфиденциальности данных и остальные их разработки.
- Все данные, которые обрабатываются на наших серверах, находятся здесь, локально - в Назарбаев университете, в нашем дата-центре. Это не облачное решение, это физический сервер, который находится здесь, и данные, они не сохраняются, они проходят через сервер, обрабатываются и отправляются конечному пользователю. Мы не видим, что вы делаете, переводите или обрабатываете, - объясняет Амина Байкенова.
Но тогда возникает новый вопрос - а как же учатся казахстанские нейросети? Основной принцип их развития - аккумуляция полученных от пользователей сведений, их обработка и вычленение основных закономерностей которые ИИ в будущем считает истиной.
И чем меньше данных он “проглотил”, тем больше ошибок будет выдавать.
Исполнительный директор ISSAI Ербол Абсалямов не стал отрицать, что такая проблема сейчас действительно есть.
- Единственные данные, которые мы получаем, это ответы пользователей. Например, если вам не нравится перевод, вы можете поставить дизлайк и предложить правильную версию. После этого мы тренируем сеть с дополнительными данными. И это одна из причин, почему мы размещаем наши нейросети в открытом доступе. Таким образом, мы с одной стороны облегчаем жизнь казахстанцам, с другой получаем реальный ответ. Наша работа не только академическая, но и реальная задача создания полезных продуктов и услуг для людей, - говорит он.
Пользование казахстанским ИИ, как сразу предупредили разработчики, будет платным.
- Пробный бесплатный период не имеет какого-то определенного времени, он считается от количества символов. Если говорить о Mangisoz, то при регистрации мы предоставляем бесплатно 250 тысяч символов, это примерно 500 - 600 страниц 12 шрифтом. Если говорить о сервисе Oilan, то это 50 тысяч токенов, которых хватит примерно на полгода пользования. Следующие токены и символы вам надо будет докупать, но цена будет символической - около 4 тысяч тенге за миллион токенов, - говорит Амина Байкенова.
В то же время казахстанцы, работающие в IT, признают - за нейросети уже приходится платить, эти подписки стали для многих обязательными.
Но зачем платить иностранному “дяде”, если появляются свои, отечественные разработки?
Ответ на этот вопрос, на самом деле, банален: люди хотят платить за качество.
Могут ли его дать отечественные разработки - вопрос пока открытый.
Журналисты Ulysmedia попросили сервис Mangisoz перевести несколько цитат из репортажа нашей казахской редакции на русский. С заданием отечественная нейросеть справилась на “троечку”.
К примеру, фразу “САРАПТАМАДА КӨРСЕТІЛГЕН СӨЗДЕР МЕНІКІ ЕМЕС” казахстанский сервис перевел как “СЛОВА, УКАЗАННЫЕ В ЭКСПЕРТИЗЕ, НЕ НАНЕСЕНЫ”.
Не получилось создать хотя бы немного приближенную к реальности картинку по промпту “казахстанцы читают Улысмедиа” и у сервиса Beynele. Мало того, что читают казахстанцы как-то странно, так еще и, как выяснилось, исключительно газеты, а на фоне не современный город, а юрты.
Так что, конечно же, учиться казахстанским нейросетям еще надо многому.
Но, с другой стороны, и всезнающий чат GPT, согласно исследованиям, выдает неверные ответы на 67% запросов. А Grok 3, платная версия которого стоит 40 долларов в месяц, и вовсе “врет” в 94% случаев.
Однако с каждым годом нейросети становятся все “умнее”, и хочется верить, что казахстанские разработчики успеют не только нагнать, но и перегнать иностранных коллег.