IT 잡동사니

Zeppelin spark interpreter 연동

케키키케 2024. 7. 1. 23:49

1. Zeppelin Interpreter - Spark 설정

 

아래 3개의 설정 지정

 

  1. SPAKR_HOME 지정.
  2. spark.master = yarn
  3. spark.submit.deployMode = client
  4. 그리고 spark.executor.cores, spark.driver.cores 등 메모리도.. 기본적으로 실행할 자원 설정
    1. 근데 노트북 내에서 아래와 같이 따로 설정도 가능함
    2.  
%spark.conf
spark.app.name test-app-name
spark.executor.instances 10
spark.executor.core 10
spark.yarn.queue queue.test

 

2. 필요 라이브러리 설정

cd ${ZEPPELIN_HOME}/interpreter/spark/

ls -al  //이렇게 보면 ._spark-interpreter-0.11.1.jar 파일이 껍데기만 있는 것을 볼 수 있다.

cp spark-interpreter-0.11.1.jar ._spark-interpreter-0.11.1.jar // 정상 파일로 복사해준다.

 

scala-2.12 버전도 사용해야 해서 똑같이 해준다.

cd ${ZEPPELIN_HOME}/interpreter/spark/scala-2.12 

cp spark-scala-2.12-0.11.1.jar ._ spark-scala-2.12-0.11.1.jar

 

 

 

3.Spark interpreter - Hive 연동

그리고 추가로 spark 세션 생성해서 hive 접속 시에 기존 spark-shell로는 hive 잘만 접속하는데,

mysql.org 어쩌고 나온다. 커넥터가 없다고 한다.

${ZEPPELIN_HOME}/lib에 mysql-connector-java-8.0.23.jar 를 추가해준다.

 

 

4. 추가 라이브러리 설정

spark.jars에 설정합니다.

hdfs://test-nn/test/delta-spark_2.12-3.1.0.jar,hdfs://test-nn/test/delta-hive-assembly_2.12-3.1.0.jar

 

5. 자원 설정

Note당 독립 자원 할당을 위해 Per Note, Isolated 로 설정함

 

 

6. Python 언어 설정

설치한 python path 입력

PYSPARK_PYTHON /usr/bin/python3

PYSPARK_DRIVER_PYTHON /usr/bin/python3