В соревновании компьютера с человеком задействованы разработки Apache

Организация Apache Software Foundation (ASF) объявила о том, что проекты Apache UIMA и Apache Hadoop играют ключевую роль в формировании способности взаимодействия с информацией и обеспечении аналитических способностей суперкомпьютера Watson, созданного компанией IBM. Суперкомпьютер Watson будет играть против победителей телевизионной игры-викторины "Jeopardy!", известной в России под именем "Своя игра".

Watson совершает 80 биллионов операций (терафлопов) в секунду, и во время игры будет иметь доступ к 200 миллионам страниц контента и 6 миллионам логических правил, для того чтобы "понимать" нюансы, значения и шаблоны разговорной человеческой речи. Сотни аннотаторов системы анализа неструктурированных данных Apache UIMA и тысячи алгоритмов помогают супер-компьютеру Watson подключаться к грандиозным базам данных для того, чтобы одновременно и понимать смысл вопроса и формулировать ответ, анализируя 500 Гб предварительно обработанной информации в поисках возможного значения вопроса и возможного ответа на него.

Фреймворк Apache UIMA создан для организации инфраструктуры анализа и аннотирования массива неструктурированного контента (например, текста, видео и аудио). В системе Watson проект Apache UIMA задействован для анализа контента в реальном времени и обработки естественного (не машинного) языка, понимания вопросов на нём, нахождения возможных ответов, сбора подтверждающих данных, оценки каждого из ответов, просчёта степени достоверности каждого из ответов, и улучшения понимания контекста (компьютерное обучение). На разбор каждого вопроса тратится менее 3 секунд.

Apache Hadoop является свободной платформой для организации распределенной обработки больших объемов данных (петабайты) с использованием парадигмы map/reduce, при которой задача делится на множество более мелких обособленных фрагментов, каждый из которых может быть запущен на отдельном узле кластера. Apache Hadoop даёт супер-компьютеру возможность доступа, сортировки и обработки данных в супер-параллельной системе (кластер, включающий в себя 2880 процессорных ядер, 16 ТБ памяти и 4ТБ дискового пространства).

Watson использует UIMA в качестве основной инфраструктуры для компонентного взаимодействия и экстенсивно использует возможности масштабирования UIMA-AS, способные использовать современные, высокопараллельные аппаратные архитектуры. UIMA берёт на себя всю работу и управляет всеми коммуникациями между процессами, разбросанными по кластеру. Apache Hadoop берёт на себя задачу обработки неисчислимых источников информации супер-компьютера, используя цепочки процессов UIMA как механизмы отображения Hadoop, запускающие аналитику UIMA.

Телевикторина проводится с 14 по 16 февраля, Watson играет против людей-чемпионов за гран-при в 1 миллион долларов. В случае выигрыша супер-компьютера весь гонорар поступит на благотворительность. Первый день соревнований закончился вничью, компьютер и Брэд Раттер набрали по 5000 очков, третий игрок, Кен Дженнингс, набрал 2000. Одно время Watson лидировал, но в процессе игры всплыло несколько проблем, которые привели к серии неправильных ответов. В частности, компьютер несколько раз повторил уже прозвучавшие неправильные гипотезы и один раз неверно сформулировал предложение с ответом.

©  OpenNet