Небольшой тест производительности Hadoop/Mapreduce

Давным давно задался себе вопросом «На сколько эфективно работает MapReduce?» Появилась такая возможность и на кластере состоящим из 4 нодов в такой вот конфигурации я решил потестить:  — 3 ноды: Intel® Xeon® CPU W3530 @ 2.80GHz 12GB RAM  — 1 нода: Intel® Xeon® CPU X5450 @ 3.00GHz. 8GB RAM Операционка debian, hadoop 1.2 (с офф.сайта), java 7 (От ORACLE). Исходные данные:  — ХМЛ файл: dumps.wikimedia.org/enwiki/20130904/enwiki-20130904-stub-meta-current.xml.gz  — в распакованом состоянии файл занимает 18ГБ места.  — 31М записей о страничках в вики.  — Bzip2 сжимает этот файл в 2ГБ  — 593.045.627 строк в файлеЧитать дальше →

© Habrahabr.ru