Небольшой тест производительности Hadoop/Mapreduce
Давным давно задался себе вопросом «На сколько эфективно работает MapReduce?» Появилась такая возможность и на кластере состоящим из 4 нодов в такой вот конфигурации я решил потестить: — 3 ноды: Intel® Xeon® CPU W3530 @ 2.80GHz 12GB RAM — 1 нода: Intel® Xeon® CPU X5450 @ 3.00GHz. 8GB RAM Операционка debian, hadoop 1.2 (с офф.сайта), java 7 (От ORACLE). Исходные данные: — ХМЛ файл: dumps.wikimedia.org/enwiki/20130904/enwiki-20130904-stub-meta-current.xml.gz — в распакованом состоянии файл занимает 18ГБ места. — 31М записей о страничках в вики. — Bzip2 сжимает этот файл в 2ГБ — 593.045.627 строк в файлеЧитать дальше →