1. sparkApache Spark는 빅데이터 워크로드에 주로 사용되는 오픈소스 분산 쿼리 및 처리 엔진이다. 빠른 속도로 데이터를 변환할 수 있으며, 데이터가 메모리에 있는 경우 하둡보다 100배, 디스크에 있는 경우 10배 빠르다. 데이터 양이 많고, 다양한 형태의 데이터를 분석해야 할 경우 적합하다.하둡과 연동하여 사용할 수 있도록 설치해보자! 2. spark standalone & spark yarn cluster / clientspark는 standalone 모드와 yarn cluster, yarn client모드가 있다. 이 차이점을 살펴보자. standalone : 다른 클러스터 매니저를 사용하지 않고, spark만으로 클러스터를 구성하는 모드yarn cluster : 드라이버 프로세스가 ..