Spark scala - 컬럼 타입 변경과, ArrayType 컬럼의 element 타입 변경

Spark

Spark scala - 컬럼 타입 변경과, ArrayType 컬럼의 element 타입 변경

케키키케 2024. 7. 1. 23:54

코드로 보자

import org.apache.spark.sql.functions._
import org.apache.spark.sql.types._

// 예시 DataFrame 생성
val data = Seq(
  (1, Array(Row("1", "A"), Row("2", "B"), Row("3", "C"))),
  (2, Array(Row("4", "D"), Row("5", "E"), Row("6", "F")))
)
val schema = StructType(Seq(
  StructField("id", IntegerType, true),
  StructField("items", ArrayType(StructType(Seq(
    StructField("number", StringType, true),
    StructField("letter", StringType, true)
  )), true), true)
))
val df = spark.createDataFrame(data).toDF("id", "items")

// 1. 컬럼 타입 변경 : id의 타입을 IntegerType -> StringType으로 변경
val modifiedDF1 = df.withColumn("id", col("id").cast(StringType))

modifiedDF.printSchema()

// 2. ArrayType 컬럼의 element의 타입 변경 : items 배열의 number 필드를 IntegerType으로 변경
val modifiedDF2 = df.withColumn("items", expr("transform(items, x -> struct(CAST(x.number AS INT) AS number, x.letter AS letter))"))

modifiedDF.printSchema()

저작자표시 (새창열림)

'Spark' 카테고리의 다른 글

Spark 성능 튜닝 (0)	2024.11.10
Iceberg 시작하기 - 설치/SparkStreaming/Hive연동 (0)	2024.07.01
IntelliJ Spark Scala 환경 세팅하기! + Scala class가 보이지 않는 경우 해결 방법! (0)	2021.06.24
Spark On Yarn 설치하기! (2)	2020.12.08

현재글Spark scala - 컬럼 타입 변경과, ArrayType 컬럼의 element 타입 변경

메모장

나의 메모장

zeppelin spark, Kafka 시작하기, 프로그래머스 자바, 카프카 자바, vue.js게시판, 카프카 컨슈머, git remote, sqoop mysql, zeppelin spark interpreter, nvm설치, kafka 설치, vue게시판, IntelliJ UTF-8, sqoop hive, kafka, GitHub, 자바 큐, 게시판만들기, npm설치, mariadb 설치,

Today :
Yesterday :

일	월	화	수	목	금	토
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30	31

메모장

Spark scala - 컬럼 타입 변경과, ArrayType 컬럼의 element 타입 변경

'Spark' 카테고리의 다른 글

'Spark'의 다른글

티스토리툴바

Spark scala - 컬럼 타입 변경과, ArrayType 컬럼의 element 타입 변경

'Spark' 카테고리의 다른 글

'Spark'의 다른글

관련글

티스토리툴바