Spark 5

Spark 성능 튜닝

1. Spark Executor 는 몇개나?instance는 개수, core 수가 중요예를 들어, executor.instance가 10개, executor.core 수가 2 라면,10개의 instance에 각각 core가 2개가 실행되므로, 총 20개.거기에 executor.memory를 1G로 설정한다면 core당 memory가 할당되어 총 20G가 할당된다. - Kafka 를 소스로 한다면, Kafka 파티션 수를 보자. 파티션 당 core가 할당되는 것이 좋다.1 task, 1 core- 하나의 task를 1개의 core에서 처리하는데, 한번에 128MB 안으로 읽을 수 있도록 설정하는 것이 좋다.기본이 128MB이기 때문. 넘어가면 그 만큼 나눠서 읽어야 하기 때문에 성능이 떨어진다. 파티션의 ..

Spark 2024.11.10

Spark scala - 컬럼 타입 변경과, ArrayType 컬럼의 element 타입 변경

코드로 보자import org.apache.spark.sql.functions._import org.apache.spark.sql.types._// 예시 DataFrame 생성val data = Seq( (1, Array(Row("1", "A"), Row("2", "B"), Row("3", "C"))), (2, Array(Row("4", "D"), Row("5", "E"), Row("6", "F"))))val schema = StructType(Seq( StructField("id", IntegerType, true), StructField("items", ArrayType(StructType(Seq( StructField("number", StringType, true), Struct..

Spark 2024.07.01

IntelliJ Spark Scala 환경 세팅하기! + Scala class가 보이지 않는 경우 해결 방법!

Spark 스터디를 하기로 마음 먹었습니다! 스터디를 시작하기 전에 환경을 구축해봅시다! 1. Scala Plugin 설치 IntelliJ - [File] - [Settings] - [Plugins] scala를 검색하고 설치해줍니다. 설치 이후 인텔리제이를 재시작합니다. 2. 프로젝트 생성 IntelliJ - [File] - [New] - [Project] 저는 스칼라 버전 2.12로 선택하였습니다. 3. Scala Class 생성 [프로젝트] - [src] - [main] - scala 에서 오른쪽 버튼을 클릭하고 Scala Class를 선택하여 생성한다. *Scala Class가 보이지 않는 경우는 아래 방법을 참고한다. Object를 생성한다. 나는 Hello라는 Object를 하나 생성하였다. ..

Spark 2021.06.24

Spark On Yarn 설치하기!

1. sparkApache Spark는 빅데이터 워크로드에 주로 사용되는 오픈소스 분산 쿼리 및 처리 엔진이다. 빠른 속도로 데이터를 변환할 수 있으며, 데이터가 메모리에 있는 경우 하둡보다 100배, 디스크에 있는 경우 10배 빠르다. 데이터 양이 많고, 다양한 형태의 데이터를 분석해야 할 경우 적합하다.하둡과 연동하여 사용할 수 있도록 설치해보자! 2. spark standalone & spark yarn cluster / clientspark는 standalone 모드와 yarn cluster, yarn client모드가 있다. 이 차이점을 살펴보자. standalone : 다른 클러스터 매니저를 사용하지 않고, spark만으로 클러스터를 구성하는 모드yarn cluster : 드라이버 프로세스가 ..

Spark 2020.12.08