IBM Labs: энергетически эффективный и рекордный по быстродействию метод анализа качества данных03.03.2010 14:51

Исследовательская организация корпорации IBM сегодня сообщила о разработке революционного метода, основанного на математическом алгоритме, который уменьшает на два порядка вычислительную сложность, расходы и потребление электроэнергии при анализе качества больших объемов данных. Новый метод очень поможет предприятиям быстрее и эффективнее извлекать и использовать данные для создания более точных и лучше прогнозирующих моделей.

Доктор Костас Бекас и доктор Алессандро Куриони
В этом эксперименте, бьющем предыдущие рекорды, исследователи IBM использовали суперкомпьютер, занимающий четвертую позицию в рейтинге самых мощных вычислительных систем в мире - Blue Gene/P, развернутый в научно-исследовательском центре города Юлих, Германия (Forschungszentrum Julich) - для проверки достоверности девяти терабайт данных (или девяти с двенадцатью нулями байт данных). Этот суперкомпьютер справился с этой задачей менее чем за 20 минут, причем без ущерба качеству. Для сравнения: на решение подобной задачи при использовании существующей типовой методики на этой же системе уйдет более одного дня. Кроме того, в рекордном эксперименте расход электроэнергии составил всего один процент от обычного уровня энергопотребления этого вычислительного процесса. Суперкомпьютер JuGene, развернутый в научно-исследовательском центре города Юлих, Германия (Forschungszentrum Julich), потребляет 52800 КВт/ч электроэнергии при работе в режиме полной мощности. Демонстрация нового метода IBM потребовала, как и ожидалось, 700 КВт/ч.

BlueGene/P

Фрагмент революционного алгоритма, созданного учеными IBM
Новое революционное достижение ученых IBM было представлено на конференции Общества промышленной и прикладной математики (Society for Industrial and Applied Mathematics, SIAM), проходящей в Сиэтле, штат Вашингтон.

«В мире, где на каждого человека приходится один миллиард транзисторов, и цифра эта продолжает увеличиваться с каждым днем, объемы данных растут беспрецедентными темпами, - отметил доктор Алессандро Куриони (Alessandro Curioni), руководитель группы вычислительных систем исследовательской лаборатории IBM в Цюрихе (IBM Research - Zurich). - Анализ таких громадных массивов постоянно накапливающихся данных является сложнейшей задачей, которую приходится решать в целом ряде прикладных областей науки, техники и бизнеса. Это выдающееся достижение значительно расширяет способность анализировать качество крупных массивов данных с высокими скоростями».

BlueGene/P

Доктор Костас Бекас записывает фрагмент разработанного алгоритма
Одним из наиболее критичных и требующих большого объема вычислений факторов в аналитике считается измерение качества данных, показывающее, насколько надежными (или достоверными) являются данные, которые используются при анализе и, также, генерируются аналитической моделью. Во многих прикладных областях, от организации дорожного движения и ведения финансовых операций до управления водными ресурсами, новый метод, разработанный учеными IBM, может проложить путь к созданию более мощных, комплексных и точных моделей с расширенными возможностями прогнозирования.

Примерами использования нового метода анализа качества данных могут быть, например, такие аналитические задачи:

Службы, ответственные за управление водными ресурсами, смогут анализировать поступающую в реальном времени картографическую информацию и обработанные геофизические данные для разработки прогнозирующих моделей, которые предсказывают потенциальные проблемы прежде, чем они могут возникнуть. Модели учитывают состояние всех компонентов постоянно расширяющейся инфраструктуры «водного хозяйства» - водопроводных труб, клапанов, вентилей и другой гидротехнической арматуры, пожарных гидрантов, водосборников, счетчиков расхода воды и т.д. Подобное прогнозирование требует анализа огромных объемов данных и выявления закономерностей, связанных с погодными условиями, потреблением воды и сотнями других переменных параметров.
Цепочки поставок сталкиваются с множеством проблем, связанных с логистикой, таких как высокая интенсивность движения и пробки на дорогах, дорожные работы и неблагоприятные дорожные условия. Эти проблемы часто приводят к срывам сроков поставки товаров. Многообразие поставщиков и конечных получателей товара, наряду с разнообразными транспортными схемами и способами перевозок, и самыми разными сроками поставок, делают число проблем и переменных факторов практически бесконечным. Используя данные глобальной системы навигации (GPS) и дорожных датчиков, информацию из баз данных поставщиков и прогнозы потребительского спроса, аналитика может помочь в принятии более взвешенных оперативных решений в случаях, когда возникают непредвиденные затруднения.

Доктор Алессандро Куриони
Объемы цифровых данных увеличиваются в гигантских размерах - вследствие, в числе прочего, огромного количества используемых датчиков, этикеток радиочастотной идентификации (RFID-меток), управляющих механизмов и GPS-устройств. Эти миниатюрные компьютеры фиксируют, оценивают, сравнивают и подсчитывают всё - от степени загрязнения морской воды до схем движения транспорта и цепочек поставок продуктов питания.

Со всеми этими данными приходят и новые проблемы, поскольку организации сегодня стремятся не только извлекать из данных ценную для себя информацию, но также быть всегда уверенными в достоверности данных, которыми они оперируют. Ученые IBM продолжают свои передовые исследования в этой области и активно включаются в проекты клиентов, чтобы помочь в расширении способности аналитики прогнозировать результаты и содействовать повышению оперативности и качества принимаемых бизнес-решений.

«Определение, насколько типичными или статистически релевантными являются данные, помогает нам оценивать общее качество анализа и указывает на недостатки аналитической модели или скрытые взаимосвязи в данных, - пояснил доктор Костас Бекас (Costas Bekas) из IBM Research - Zurich. - Эффективный анализ огромных массивов данных требует разработки нового поколения математических методик, которые направлены на уменьшение вычислительной сложности и, в то же время, могут быть развернуты на современных высокопроизводительных вычислительных платформах с массовым параллелизмом».

Новый метод, продемонстрированный учеными IBM, уменьшает вычислительную сложность и обладает очень хорошими характеристиками масштабируемости, которые позволяет использовать его «на полную мощность» суперкомпьютера JuGene в научно-исследовательском центре города Юлих, с его 72 аппаратными стойками системы IBM Blue Gene/P, 294912 процессорами и пиковой производительностью в один петафлоп.

«В ближайшие годы вычисления на суперкомпьютерах будут снабжать нас уникальными знаниями и предоставлять дополнительные преимущества вместе с новыми технологиями, - подчеркнул профессор, доктор Томас Липперт (Thomas Lippert), руководитель центра высокопроизводительных вычислений в Юлихе (Julich Supercomputing Centre), - Краеугольным камнем будущего станут инновационные инструменты и алгоритмы, помогающие нам анализировать громадные объемы данных, которые получены в результате моделирования различных прикладных процессов на самых мощных компьютерах».

IBM намерена сделать эти возможности доступными для клиентов.

Редакция THG ранее сообщала, что корпорация IBM анонсировала новую исследовательскую инициативу, которая направлена на разработку персонализированных маршрутных систем для жителей пригородных зон с целью избежать перегруженности транспортных магистралей. Исследователи IBM используют передовые аналитические средства для создания адаптивных транспортных систем, которые смогут интуитивно изучать типовые схемы поведения участников движения, чтобы предоставлять им более оперативные данные о безопасных поездках и более точную маршрутную информацию, чем это возможно в настоящее время.