Сериал: Big Data — как мечта. 4-я серия. Революция мозгов
В предыдущих сериях: Big Data — это не просто много данных. Big Data — процесс с положительной обратной связью. «Кнопка Обамы» как воплощение rtBD&A.В мире есть множество самых великих книг, которые пережили столетия и даже тысячелетия. Заложенные в этих книгах знания — универсальны. Китайские военные стратегмы, Библия, индийская Махабхарата содержат в том числе шаблоны и каноны, которые могут быть применимы к взаимоотношениям людей и в I, и в XI, и в XXI с XXXI веках. Но промышленной революции XIX-XXI веков (паровозы-космос-компьютеры-интернет) нужна была своя философия.Уже свыше 100 лет мы используем законы Диалектического материализма (гениальная троица Маркс-Энгельс-Ленин не только обсуждали свержение монархий, но и были самыми великими мыслителями конца II тысячелетия). Законы отрицания отрицания, борьбы и единства противоречий, перехода количества в качество, цикличность развития — это все и про Big Data тоже.
На рубеже тысячелетий (пафосно, правда? можно проще — в конце 90-х) поисковые машины были простыми — один сервер. Если совсем было денег некуда девать, то два сервера. Раз в полгода-год, с ростом Интернета (тогда было принято писать с заглавной) поисковая машина переносилась на более новую (с 64 Мб памяти и 128Гб дисков на 128/256). Аппорт и Яндекс размещались в нескольких юнитах на Красноказарменной и Смоленке, а самый крутой мировой поисковик Altavista представлял из себя настоящего монстра — 2 сервера от DEC, изделия которых, собственно, и рекламировал поисковик.
Через несколько лет наступил технологический кризис: количество данных уже не помещалось на 1–2 сервера — закономерно сработал «Закон перехода количества в качество» и (очень-очень упрощенно до примитивизма) voila! — на смену старой парадигмы «надо новый крутой сервер (желательно от DEC или Sun)» пришел Google с идеей «много дешевых железок».
Данная парадигма существует и хорошо живет, данных становится все больше, подсистемы становятся системами, но данных еще и еще больше! Закон перехода количества в качество полакомившись «железом» (hard) отрастил новые клыки и вонзил зубки в «мягкое» (soft). Возникали модные OS и языки, новые операционки Гугла или переписанный Яндексом FreeBSD уже не помогали решать новые задачи обработки Big Data, — на лицо очередная революционная ситуация, разродившаяся «детским слоном» Hadoop: много дешевых «железок» дополнились распределенным по всем железкам «мозгами».
Мечта технократа — максимальная децентрализация! Больше данных — просто будет больше «узлов» решетки. Еще больше данных? — Добавим еще железа с «мозгами». Смена задачи для других данных? Просто зальем новые «мысли» в железные мозги. Поскольку каждый узел решетки решает простейшие задачи, то новые «мысли» из стандартных элементов-нейронов сделать быстро и просто.
Уверен, что вы уже продолжили дальше цепочку диалектических законов мироздания. Но в сериале приходится ориентироваться на всех читателей, а не только на Шерлоках Холмсах, так что зафиксируем: материя — это единство пространства и времени, даже термин такой есть — пространство-время. А чтобы человечеству было жить не скучно, то есть ограничение — скорость света. Чем больше данных в решетке Hadoop, тем больше точат зубы Законы диамата.
Самый юморной диалектический закон — Закон отрицания отрицания. Только очередная молодая научная поросль победила прежних стариков-супостатов и отрастила бороды, как приходят внуки и громят отцов — причем, в чем и заложен юмор, под лозунгами дедов!
Hadoop-денцентрализатор не справляется с временнЫм-измерением материи пространства-времени для задач rtBD&A (real-time Big Data & Analytics), в которых появляется такая сущность («гнусность») данных, как временнАя ценность: последние данные имеют важность значительно большую, чем предыдущих.
Следуя цикличности развития появилось централизованное решение — технология IMC (In-Memory Computing): один дорогущий компьютер, в котором, фактически, есть только быстрая память — формально дисковые накопители (самые медленные узлы в цепочке потоков данных) присутствуют, но на 30-х ролях. Все последние (самые важные) данные присутствуют в быстрой памяти, аналитические мозги работают с данными «со скоростью света».
В качестве примера реальной полезности IMC разработки на базе SAP HANA по популярной теме последних лет — интеллектуальные электроэнергетические системы. Основная задача — оптимизация генерации и потребления, и, как следствие — сокращение затрат на электроэнергию. А также оперативный мониторинг и прогнозирование. Каждый дом оснащен «умным счетчиком». Замеры показаний ведутся каждые несколько минут и обрабатываются аналитической системой больших данных, интегрированную с ГИС. В системе можно увидеть общую картину энергопотребления и получить подробную информацию по каждому району и дому: как меняется энергопотребление в зависимости от погодных условий, времени года и суток. И на основе этих реальных и точных данных можно планировать энергоснабжение одного из самых оживленных и энергоемких районов.
Нужен калькулятор с большим количеством нулей, чтобы посчитать выгоду в таких масштабных проектах размером с Манхэтен или Бразилиа. Но текущая стоимость IMC решений (сотни тысяч $) отсекает 99% желающих, значит пока это не массовое решение и поиск продолжается.
Куда пойдем дальше? Ждет ли нас «помесь» Hadoop-IMC, или динамические «гибридные облака» с наборно-изменяемыми «узлами», или переход на молекулярно-химические компьютеры (не зря же природа выбрала такой подход)? Жизнь покажет.
Вот как проходил процесс разработки Платформы rtBD в нашем случае:1. Первые 3–4 месяца (весна-лето 2012) — облако, подбирались оптимальные наборы «ядра-память». Стоимость размещения данных в облаке на тот период была очень высокая (первый ТБ), а финансов — как у всех всегда, то есть мало.2. Следующий год (2013) — разовая закупка разнокалиберных серверов (HP) для основных подсистем по результатам облачных экспериментов. Ужимались по дискам, брали немного быстрых, но основные массивы — медленные SATA (10 ТБ).3. В 2014 году ускорялись и масштабировались — покупка дешевых (по сравнению с HP) серверов с быстрыми дисками. С нашими партнерами апробировали в параллель с основной веткой и ветку на SAP HANA — выигрыш был по скорости до 5 раз, но клиентам был достаточен наш SaaS или более дешевые, чем HANA, облака.4. 2014–15 год — гибридная распределенная схема, включая клиентский «одна система — один сервер» в распределенной сети потоков данных.5. Отрицание-отрицания (к п.1): теперь десятки ТБ архивных данных хранятся в супер-дешевых облаках :-)
В следующих сериях поговорим о более насущных для сегодняшнего дня вещах, но в продолжение сказанного: NoSQL или колоночные СУБД, куда плывет «Голубой гигант», откуда растут ноги у слуха, что «данные кончаются».
UPD для Хабра: Данный «сериал» публикуется на Мегамозге, вокруг сложилась группа «сочувствующих», теперь хочется снова «пощупать», насколько данная тематика интересна для читателей Хабра: возможно кто-то присматривает работу в области rtBD или есть задумки, решения, готовые модули — у нас есть вакансии, мы любим партнество и не любим изобретать велосипед.
Big Data — как мечта. 1-я серия2-я серия: Big Data негатива или позитива?3-я серия: «Кнопка Обамы»