Зачем изучать Spark?

Комментарии 3

  • 19c67d32929b0dc53ba5a882027a0ce3_small.j

    21 августа 2017 в 19:30

    +2

    Чтобы прочувствовать как работает спарк нужны источники в несколько терабайт, желательно на разных компьютерах. Всё, что помещается на один — лучше, зачастую, быстрее обрабатывать другими средствами. А scala — язык, более выразительный, чем java. Даже без спарка следует ознакомиться с ним… Да, для spark можно писать и на python, но там есть свои ограничения — например, коллегии столкнулись с тем, что для DataFrame нет метода map — только для rdd.
    • 186bb2a11a9666fb1ebc47f3c5c19050_small.j

      21 августа 2017 в 21:00

      0

      Чтобы прочувствовать, да, так и есть, можно даже петабайты взять, хотя вы самостоятельно можете себе урезать выч.ресурсы и все будет почти тоже самое (например взять кластер из 8 ядерных машинок по 16GB). Особо большого выигрыша от уборки хипа в десятки GB тут и нет.

      А чтобы освоить Spark API на базовом уровне, до того как тебя подпустят к терабайтам и петабайтам — вполне хватит самостоятельной работы с опорой на источнике.

      Согласитесь, подпускать к драгоценным терабайтам бойца, который не знает что такое Parquet и пытается сам оптимизировать руками набор операций над DataFrame-ом — не стоит, пусть подучит матчасть.

      Про Python — не знал про ограничения API, впрочем обычная ситуация, когда Scala API уехало вперед.

      • 19c67d32929b0dc53ba5a882027a0ce3_small.j

        21 августа 2017 в 22:15

        0

        Для чтения, то почему бы не подпустить сразу? Чтобы не было иллюзий о том что сервер будет намного мощнее…

Только полноправные пользователи могут оставлять комментарии. Войдите, пожалуйста.

© Habrahabr.ru