Spark (1) 썸네일형 리스트형 RDD VS DataFrame VS Dataset 뭐가 다를까? 데이터 처리를 할 때 왜 스파크를 써야하는지, 왜 빠른지에 대해 공부하며 빅데이터-스칼라, 스파크로 시작하기 의 도움을 많이 받았습니다. 주력언어가 Python인 만큼 Pyspark를 썼으면 하는 바램이 컸지만, Scala에서의 퍼포먼스가 더 좋다는데 왜일까? 왜 Pyspark에서는 Dataset을 지원하지않지? 라는 궁금증들이 생겨 여러 블로그를 뒤져가며 나름 정리 해 봤는데요, 다른 분들께도 도움이 됐으면 좋겠습니다. RDD Java, Scala의 객체를 처리하는 방식 함수를 1) Transformation 2) Action으로 나눠 Action에 해당하는 함수를 호출할 때 실행된다. transformation의 결과는 RDD로 생성 내부에 데이터 타입이 명시 쿼리 최적화등을 지원하지 않았음(카탈리스.. 이전 1 다음