Hadoop

parquet-tool을 이용하여 parquet 파일 즉시 읽기/스키마 확인

케키키케 2024. 5. 20. 22:04

가끔 parquet 파일의 스키마를 확인하거나 일부 데이터만 간단하게 확인해야 할 때가 있다.

이럴 때 parquet-tool을 유용하게 사용할 수 있다.

 

내가 사용한 버전은 parquet-tools-1.9.0.jar 이다.

hadoop이 설치된 환경이라 가정한다.

 

 

도움말 보기

hadoop jar parquet-tools-1.9.0.jar --help

 

스키마 확인하기

hadoop jar parquet-tools-1.9.0.jar schema 데이터경로

ex) hadoop jar parquet-tools-1.9.0.jar --schema /user/test/trip/region=usa/part-m-00000.snappy.parquet

 

데이터 확인하기

1.cat

hadoop jar parquet-tools-1.9.0.jar cat 데이터경로

 

2.head

아무 옵션도 주지 않으면 딱히 제한이 없는 것 같으니 데이터가 많은 경우 head를 사용하자.

hadoop jar parquet-tools-1.9.0.jar head 데이터경로

 

'Hadoop' 카테고리의 다른 글

Hadoop3를 설치해보자! 윈도우 위에!  (0) 2021.06.07