가끔 parquet 파일의 스키마를 확인하거나 일부 데이터만 간단하게 확인해야 할 때가 있다.
이럴 때 parquet-tool을 유용하게 사용할 수 있다.
내가 사용한 버전은 parquet-tools-1.9.0.jar 이다.
hadoop이 설치된 환경이라 가정한다.
도움말 보기
hadoop jar parquet-tools-1.9.0.jar --help
스키마 확인하기
hadoop jar parquet-tools-1.9.0.jar schema 데이터경로
ex) hadoop jar parquet-tools-1.9.0.jar --schema /user/test/trip/region=usa/part-m-00000.snappy.parquet
데이터 확인하기
1.cat
hadoop jar parquet-tools-1.9.0.jar cat 데이터경로
2.head
아무 옵션도 주지 않으면 딱히 제한이 없는 것 같으니 데이터가 많은 경우 head를 사용하자.
hadoop jar parquet-tools-1.9.0.jar head 데이터경로
'Hadoop' 카테고리의 다른 글
Hadoop3를 설치해보자! 윈도우 위에! (0) | 2021.06.07 |
---|