IBM разработала новый энергоэффективный метод анализа качества данных
IBM Research, исследовательская организация корпорации IBM, сообщила о разработке революционного метода, основанного на математическом алгоритме, который позволяет уменьшить на два порядка вычислительную сложность, расходы и потребление электроэнергии при анализе качества больших объемов данных. Новый метод призван помочь предприятиям эффективнее извлекать и использовать данные для создания более точных и лучше прогнозирующих моделей, говорится в сообщении IBM.
Для демонстрации нового метода исследователи IBM использовали суперкомпьютер, занимающий четвертую позицию в рейтинге самых мощных вычислительных систем в мире — Blue Gene/P, развернутый в научно-исследовательском центре города Юлих, Германия (Forschungszentrum Julich) — для проверки достоверности 9 ТБ данных. Суперкомпьютер JuGene, потребляющий 52800 КВт/ч электроэнергии при работе в режиме полной мощности, справился с этой задачей менее чем за 20 минут, при этом демонстрация нового метода IBM потребовала, как и ожидалось, 700 КВт/ч.
Одним из наиболее критичных и требующих большого объема вычислений факторов в аналитике считается измерение качества данных, показывающее, насколько надежными (или достоверными) являются данные, которые используются при анализе и генерируются аналитической моделью. Во многих прикладных областях, от организации дорожного движения и ведения финансовых операций до управления водными ресурсами, новый метод, разработанный учеными IBM, может проложить путь к созданию более мощных, комплексных и точных моделей с расширенными возможностями прогнозирования, уверены в компании.
Объемы цифровых данных увеличиваются в гигантских размерах, в том числе вследствие огромного количества используемых датчиков, этикеток радиочастотной идентификации (RFID-меток), управляющих механизмов и GPS-устройств. Эти миниатюрные компьютеры фиксируют, оценивают, сравнивают и подсчитывают всё – от степени загрязнения морской воды до схем движения транспорта и цепочек поставок продуктов питания. Однако со всеми этими данными приходят и новые проблемы, поскольку организации сегодня стремятся не только извлекать из данных ценную для себя информацию, но также быть всегда уверенными в достоверности данных, которыми они оперируют, отметили в IBM. Ученые IBM продолжают свои передовые исследования в этой области, чтобы помочь клиентам в расширении способности аналитики прогнозировать результаты и содействовать повышению оперативности и качества принимаемых бизнес-решений.
«Определение, насколько типичными или статистически релевантными являются данные, помогает нам оценивать общее качество анализа и указывает на недостатки аналитической модели или скрытые взаимосвязи в данных, — пояснил доктор Костас Бекас (Costas Bekas) из IBM Research – Zurich. — Эффективный анализ огромных массивов данных требует разработки нового поколения математических методик, которые направлены на уменьшение вычислительной сложности и, в то же время, могут быть развернуты на современных высокопроизводительных вычислительных платформах с массовым параллелизмом».
Продемонстрированный учеными IBM новый метод, помимо уменьшения вычислительной сложности, обладает хорошими характеристиками масштабируемости, которые позволили использовать его «на полную мощность» суперкомпьютера JuGene в научно-исследовательском центре города Юлих, с его 72 аппаратными стойками системы IBM Blue Gene/P, 294912 процессорами и пиковой производительностью в один петафлоп.
«В ближайшие годы вычисления на суперкомпьютерах будут снабжать нас уникальными знаниями и предоставлять дополнительные преимущества вместе с новыми технологиями, — считает профессор, доктор Томас Липперт (Thomas Lippert), руководитель центра высокопроизводительных вычислений в Юлихе (Julich Supercomputing Centre). — Краеугольным камнем будущего станут инновационные инструменты и алгоритмы, помогающие нам анализировать громадные объемы данных, которые получены в результате моделирования различных прикладных процессов на самых мощных компьютерах».
© CNews