ОПК объединила более 30 российских вузов и компаний для работ над искусственным интеллектом28.05.2015 10:33

«Объединенная приборостроительная корпорация» (ОПК), входящая в госкорпорацию «Ростех», объявила о старте масштабного исследовательского проекта в области искусственного интеллекта и семантического анализа данных с участием более 30 российских компаний, образовательных и научных организаций. В его рамках участники получили бесплатный доступ к недавно анонсированному лингвистическому процессору Ontosminer, с помощью которого исследователи будут развивать технологии интеллектуального анализа текстов в самых различных сферах — от мониторинга СМИ до обработки научных данных и бизнес-аналитики, сообщили CNews в ОПК.

Наряду с корпорацией, организатором проекта выступает российская компания- разработчик интеллектуального программного обеспечения «Авикомп Сервисез», о планах по приобретению которой ОПК стало известно в апреле текущего года. Проект реализуется при поддержке компании «Т-Платформы», которая предоставила для размещения лингвистического процессора высокопроизводительный сервер, позволяющий работать с большими объемами информации.

«Создание искусственного интеллекта является одним из основных трендов развития ИТ во всем мире. Неоднократно высказывалось мнение, что технологии искусственного интеллекта гораздо опаснее, чем существующие виды вооружений, — отметил директор департамента инновационного развития «Объединенной приборостроительной корпорации» Александр Калинин. — Главные конкуренты России в этой области на государственном уровне — США и Китай, на корпоративном — Google, Facebook, Apple и Baidu, осуществляющие масштабное инвестирование подобных проектов. В США это направление финансируются из бюджетов DARPA, IARPA, In-Q-Tel и еще около двадцати специализированных венчурных фондов. В нашей стране эти технологии только начинают развиваться, процесс их создания набирает обороты».

По информации ОПК, российская система семантического анализа данных базируется на последних достижениях в области машинного обучения и технологий больших данных (Big Data). Обрабатывая массивы данных, компьютер учится понимать морфологию, синтаксис языка, семантику слов и целых текстов. На основе этих «знаний» вычислительная машина осуществляет поиск необходимых пользователю новостей, статей, документов, справок и т.д. в интернет-источниках и различных информационных хранилищах. В отличие от традиционных поисковых систем Ontosminer находит нужные сведения не по отдельным тегам (ключевым словам), а по смыслу целого документа, заданного в качестве запроса. Изучив весь объем данных и сформировав необходимую подборку, лингвистический процессор способен автоматически составить краткий аналитический отчет с описанием сути вопроса или события.

«Это умная система, способная без участия человека решать самые серьезные аналитические и прикладные задачи в разных сферах деятельности — в бизнесе, госуправлении, силовых ведомствах, здравоохранении, образовании, науке и т.д., — продолжил Александр Калинин. — Например, лингвистический процессор позволяет вести мониторинг новостей СМИ и социальных сетей, систематизировать документооборот в крупных организациях, на его основе возможна интеграция разноформатных баз данных. С помощью этого продукта можно анализировать большие объемы юридической, медицинской, технической информации. Специализация системы варьируется путем целенаправленного обучения вычислительной машины определенным «знаниям».

Среди участников проекта — Высшая школа экономики, Вычислительный центр РАН, Научно-исследовательский и испытательный центр биометрической техники МГТУ им. Баумана, Научно-техническое общество нефтяников и газовиков им. И.М. Губкина, Тихоокеанский госуниверситет, Ярославский государственный университет, Волгоградский государственный технический университет, Центральный НИИ экономики, информатики и систем управления, редакции нескольких федеральных СМИ, ряд других организаций, государственных и частных компаний, работающих в сфере информационных услуг, разработки ПО, энергетики, юриспруденции.

«За подобными технологиями — будущее, — убежден Александр Калинин. — На их основе, например, можно строить робототехнику или автоматизированные системы типа «умный дом», где вычислительная машина сама анализирует данные с различных устройств и принимает нужные решения. Развитие собственных семантических технологий в России только набирает обороты, и мы пытаемся сконцентрировать усилия различных исследовательских команд, энтузиастов, желающих работать в этом направлении». По его словам, на сегодняшний день через лингвистический процессор пропущены десятки миллионов документов — в основном, публикаций СМИ. Цифра выглядит внушительно, но пока это достаточно скромная база «знаний». Этот показатель должен постоянно и кратно расти за счет ввода в систему новых данных из различных областей, что позволит дальше наращивать и оптимизировать ее аналитические способности. «Именно эту задачу призван решить наш проект при участии многочисленных партнеров, которым открыт доступ к нашей системе. Этот опыт, на наш взгляд, может дать бесценный результат с точки зрения апробации и развития отечественных платформ анализа больших данных», — заключил Калинин.