Big Data дайджест №1
Редакция Нетологии собрала и кратко законспектировала самые интересные статьи по Big Data за январь.
«На каком железе анализировать огромный вал информации», habr.сom
Авторы блога компании МТС рассказали, какие технологии позволяют им хранить и обрабатывать большие данные без огромных вложений и чтобы хватало ресурсов для аналитики.
Источники данных:
- базовые станции с абонентской базой более 78 миллионов клиентов;
- исторические данные, на которых обучаются Data Science модели;
- данные из классического хранилища по различным событиям — пользовательским и сетевым.
Задача. Хранить данные с тысячи серверов из регионов и получить возможности аналитики. Для этого нужно оборудование с достаточным ресурсом, количеством ядер CPU и объемом свободной оперативной памяти на узлах.
Тесты оборудования:
2016 год — накопитель Intel DC P3700
Исходные данные теста в 2016 году
Результаты теста в 2016 году
2017 год — серверные Intel Optane SSD на базе памяти 3D XPoint
Исходные данные теста в 2017 году
Результаты теста в 2017 году
Вывод. Результаты тестирования Intel DC P3700 не удовлетворили потребности компании. Оборудование Intel Optane SSD на базе памяти 3D XPoint с увеличенной производительностью подошло для решения поставленных задач. Чем больше данных анализировали в компании, тем эффективнее работало оборудование.
«SAP HANA: где и как эффективно использовать big data и машинное обучение», habr.сom
Автор блога компании SAP проанализировали несколько кейсов с конференций SAP HANA Digital Fest и SAP Data Halloween и рассказали, где SAP HANA поможет работать с большими данными.
В местах массового скопления людей, например, в аэропортах. SAP HANA может прогнозировать пиковые нагрузки, быстро принимать и обрабатывать большой поток данных, пересчитывать нужное количество сотрудников и оборудования онлайн. За счет этого можно избежать сбоев в системах аэропорта из-за чрезмерной нагрузки и таких ситуаций, когда:
- происходят сбои на информационных табло;
- из-за сбоев в системах регистрации на стойках собираются очереди;
- на подъезде к аэропорту образуются пробки;
- из-за неправильных расчетов смен сотрудников и поломок турникетов, рамок и другого оборудования скапливаются очереди на досмотр и паспортный контроль.
Обучение в онлайн-университете: курс «Аналитик данных»
В ритейле. Система помогает ритейлерам собирать и анализировать информацию о клиентах, чтобы:
- делать им персональные предложения, например, скидки и бонусы, и стимулировать к покупке;
- повышать лояльность к компании;
- нагонять трафик;
- поднимать маржу;
- избавляться от неликвида.
SAP HANA собирает статистику о покупателях, прогнозируют их покупки и реакции. Когда клиент приходит в магазин, срабатывает система распознавания лиц. Информация попадает в приложения, которые вычисляют, что нужно предложить покупателю, и передают информацию менеджменту и маркетингу.
На промышленных предприятиях, где нужно предотвращать ЧП. При помощи камер, датчиков и системы предупреждения SAP HANA выполняет задачи виртуального охранника:
- контролирует, как одет сотрудник на входе на объект;
- открывает турникет, только если у работника есть вся нужная экипировка;
- следит за движениями сотрудников на объектах, сигнализирует о падениях и других травмах;
- проверяет допуски к опасным и секретным установкам.
В благотворительности. Система может взаимодействовать с блокчейном и защищать транзакции-пожертвования. Благодаря ей денежные потоки распределяются прозрачно, а меценаты могут проследить, на что потратили их деньги.
«История больших данных — часть 1», соmputerra.ru
Пользователь Владимир Хазов NetApp рассказал, как развивались Big Data.
Древний мир. Первобытные люди записывали информацию на костях, предположительно, чтобы вести торговую активность. В Вавилоне, Александрии и других древних государствах хранили информацию в книгах в библиотеках.
XVII век. Джо Грант описал теорию, в которой использование аналитики позволяет предупреждать об эпидемии бубонной чумы.
XIX век. Ричард Миллер Девинс создал термин Business Intelligence и рассказал, как ему помогло структурирование и анализ информации о деловой активности. Герман Холлерит создал табулятор — устройство с перфокартами, которое помогло ускорить перепись населения Америки и провести ее за 3 месяца вместо 10 лет.
Вторая мировая война. Британские ученые создали машину анализа данных Colossus, чтобы расшифровывать сообщения противника.
Конец XX — начало XXI века. Математики выделили три направления, на которых нужно сосредоточиться для управления данными: Volume, Velocity и Variety. Позже они стали основой для описательной модели Big Data 3V.
Расшифровка концепции 3V
Сегодня. Сформировалось понимание и задачи Big Data:
- не всегда большой объем данных говорит о системе;
- чтобы поддерживать актуальность и ценность данных, нужно быстро обрабатывать их;
- нужно находить связь между любыми данными, вне зависимости от их структурированности;
- система должна быть хорошо масштабируемой, чтобы обрабатывать весь поступающий поток информации.
Читать еще: «Как повысить продажи в три раза с помощью Big Data и машинного обучения»
Мнение автора и редакции может не совпадать. Хотите написать колонку для «Нетологии»? Читайте наши условия публикации. Чтобы быть в курсе всех новостей и читать новые статьи, присоединяйтесь к Телеграм-каналу Нетологии.
Полный текст статьи читайте на Нетология