Зачем изучать Spark?
Комментарии 3
-
+2
Чтобы прочувствовать как работает спарк нужны источники в несколько терабайт, желательно на разных компьютерах. Всё, что помещается на один — лучше, зачастую, быстрее обрабатывать другими средствами. А scala — язык, более выразительный, чем java. Даже без спарка следует ознакомиться с ним… Да, для spark можно писать и на python, но там есть свои ограничения — например, коллегии столкнулись с тем, что для DataFrame нет метода map — только для rdd.-
0
Чтобы прочувствовать, да, так и есть, можно даже петабайты взять, хотя вы самостоятельно можете себе урезать выч.ресурсы и все будет почти тоже самое (например взять кластер из 8 ядерных машинок по 16GB). Особо большого выигрыша от уборки хипа в десятки GB тут и нет.А чтобы освоить Spark API на базовом уровне, до того как тебя подпустят к терабайтам и петабайтам — вполне хватит самостоятельной работы с опорой на источнике.
Согласитесь, подпускать к драгоценным терабайтам бойца, который не знает что такое Parquet и пытается сам оптимизировать руками набор операций над DataFrame-ом — не стоит, пусть подучит матчасть.
Про Python — не знал про ограничения API, впрочем обычная ситуация, когда Scala API уехало вперед.
-
0
Для чтения, то почему бы не подпустить сразу? Чтобы не было иллюзий о том что сервер будет намного мощнее…
-
-
Только полноправные пользователи могут оставлять комментарии. Войдите, пожалуйста.