Раскрыт потенциал русскоязычных данных для обучения ИИ

художественное изображение нейросети
Источник: Freepik

Модели искусственного интеллекта, работающие с русскоязычными данными, пока не испытывают нехватки данных для обучения, в отличие от аналогичных систем, использующих английский язык. Об этом ТАСС сообщил Александр Кугаевских, доцент факультета программной инженерии и компьютерной техники ИТМО.

Ранее Илон Маск выразил мнение, что к началу 2025 года все знания и информация, используемые для тренировки ИИ, были полностью исчерпаны. По мнению американского бизнесмена, дальнейший прогресс в этой области возможен лишь при использовании сведений, синтезированных самими моделями ИИ, что позволит системам самообучаться.

«Если мы говорим про отечественные разработки, то потенциал наших данных еще не исчерпан. О потолке доступных [англоязычных] данных для обучения LLM (англ. large language model — «больших языковых моделей») эксперты говорили весь прошлый год. И они правы, доступные оцифрованные и качественные данные действительно закончились», — комментирует Кугаевских.

искусственный интеллект по версии нейросети
Источник: Unsplash

Эксперт также добавил, что для успешного использования данных в обучении ИИ они должны соответствовать ряду критериев: быть доступными, свободными от противоречий и ошибок, а также не нарушать авторских прав.

По словам российского специалиста, эксперименты с обучением LLM на основе текстов, созданных самой моделью, даже после проверки и корректировки человеком, показали снижение качества результатов. Сейчас наиболее перспективным направлением считается развитие механизмов рассуждения (chain of thought) и методов поиска дополнительной информации RAG (retrieval augmented generation), позволяющих ИИ обращаться к внешним источникам.

Ранее Hi-Tech Mail рассказал о новой полезной функции ChatGPT, которая позволяет ставить напоминания и заниматься составлением планов.

©  HI-TECH@Mail.Ru