전체 글 60

Spark scala Java UDF 등록하기

참고 자료 아래 링크에 동영상도 나와있습니다. https://www.learningjournal.guru/courses/spark/spark-foundation-training/create-spark-udf-in-scala-and-python/ 1. 아래 코드를 빌드하여 jar파일을 생성합니다. 하나의 argument를 사용하기 때문에 UDF1을 implments합니다. 다른 유형의 UDF는 아래 링크에서 확인할 수 있습니다. https://spark.apache.org/docs/1.4.0/api/java/org/apache/spark/sql/api/java/package-summary.html org.apache.spark.sql.api.java (Spark 1.4.0 JavaDoc) Interface..

카테고리 없음 2021.05.30

SpringBoot 프로젝트를 생성해보자!

공식 가이드는 여기 있다. spring.io/quickstart Spring Quickstart GuideYou will build a classic “Hello World!” endpoint which any browser can connect to. You can even tell it your name, and it will respond in a more friendly way.spring.io SpringBoot 프로젝트를 생성하는데 뭐가 뭔지 잘 모르겠다~싶으면이 글을 따라서 해보자~  1. 프로젝트 생성 링크start.spring.io/위 링크로 가서 프로젝트를 생성해본다.  2. 프로젝트 생성SpringBoot 프로젝트를 생성하는데 뭐가 뭔지 잘 모르겠다~싶으면 이 글을 따라서 해보자~ o..

SpringBoot 2021.04.28

Sqoop을 이용하여 MySQL의 데이터를 HIVE로 조회해보자!

사전작업SQOOP 설치bachong.tistory.com/50 Sqoop(1.4.7)를 설치해보자! MySQL5 to Hadoop3Sqoop 다운로드 archive.apache.org/dist/sqoop/ $ tar -zxvf sqoop-1.4.7.bin__hadoop-2.6.0.tar.gz $ cp -r sqoop-1.4.7.bin__hadoop-2.6.0 /usr/local/sqoop $ sudo chown -R user명:그룹명 /usr/local/sqoop S..bachong.tistory.com MySQL 설치 및 샘플데이터 세팅bachong.tistory.com/48 MySQL을 설치해보자! (Ubuntu 18.04) + 샘플 데이터 불러오기!MySQL 설치 $ sudo apt-get upda..

Hive 2020.12.15

Sqoop(1.4.7)를 설치해보자! MySQL5 to Hadoop3

Sqoop 다운로드 archive.apache.org/dist/sqoop/ $ tar -zxvf sqoop-1.4.7.bin__hadoop-2.6.0.tar.gz $ cp -r sqoop-1.4.7.bin__hadoop-2.6.0 /usr/local/sqoop $ sudo chown -R user명:그룹명 /usr/local/sqoop Sqoop 환경변수 설정 ~/.bashrc 를 열어 SQOOP_HOME를 추가하고, PATH를 추가한다. $ cat ~/.bashrc | grep SQOOP export SQOOP_HOME=/usr/local/sqoop export PATH=$PATH:$JAVA_HOME/bin:$HADOOP_HOME/sbin:$SPARK_HOME/bin:$SQOOP_HOME/bin:$HI..

카테고리 없음 2020.12.14

MySQL을 설치해보자! (Ubuntu 18.04) + 샘플 데이터 불러오기!

MySQL 설치$ sudo apt-get update$ sudo apt-get intsall mysql-server설치 후 usr/bin 경로 아래 mysql 관련 파일들이 생긴 것을 확인할 수 있다.$ ls /usr/bin | grep mysqlmysqlmysql_config_editormysql_embeddedmysql_install_dbmysql_pluginmysql_secure_installationmysql_ssl_rsa_setupmysql_tzinfo_to_sqlmysql_upgrademysqladminmysqlanalyzemysqlbinlogmysqlcheckmysqld_multimysqld_safemysqldumpmysqldumpslowmysqlimportmysqloptimizemysqlp..

MySQL. MariaDB 2020.12.13

Spark On Yarn 설치하기!

1. sparkApache Spark는 빅데이터 워크로드에 주로 사용되는 오픈소스 분산 쿼리 및 처리 엔진이다. 빠른 속도로 데이터를 변환할 수 있으며, 데이터가 메모리에 있는 경우 하둡보다 100배, 디스크에 있는 경우 10배 빠르다. 데이터 양이 많고, 다양한 형태의 데이터를 분석해야 할 경우 적합하다.하둡과 연동하여 사용할 수 있도록 설치해보자! 2. spark standalone & spark yarn cluster / clientspark는 standalone 모드와 yarn cluster, yarn client모드가 있다. 이 차이점을 살펴보자. standalone : 다른 클러스터 매니저를 사용하지 않고, spark만으로 클러스터를 구성하는 모드yarn cluster : 드라이버 프로세스가 ..

Spark 2020.12.08

리눅스 디렉토리를 살펴보자~~~! + 임시파일(tmp)이란? + 로그 관리

리눅스에는 많은 디렉토리들이 있다.수많은 디렉토리에 어떤 것들이 들어있고는지 살펴보자. ls 또는 tree를 통해 디렉토리/파일과 구조를 볼 수 있다.  디렉토리 설명1. bin :  리눅스 실행 파일들이 저장된 디렉토리.2. sbin : 관리자(root)가 사용할 수 있는 명령어를 저장한 디렉토리.3. boot : 리눅스 부탕 관련 파일들과, 커널이 저장된 디렉토리.4. dev : 장치(프린터, 마우스 등)를 저장하는 공간이며, 커널을 통해 하드웨어에 접근하고 자원을 할당받음.5. etc : 리눅스 내 주요 설정파일들이 저장된 디렉토리.6. home : 사용자 디렉토리로 사용자간 작업이 충돌되는 것을 방지.7. lib : 공유 라이브러리가 저장된 디렉토리.8. mnt : mount 명령을 사용하여, 마..

Linux 2020.11.27

systemd & systemctl은 무엇인가? sshd.service파일을 파헤쳐보자!

Linux는 운영체제로, 부팅되는 과정에 시스템을 초기화하고 필요한 서비스들을 위한 환경을 조성한다.systemd 등장 이전에는 init이 작업을 수행하고, 복잡하게 짜여진 쉘스크립트들로 관리되어 왔다.systemd는 .service와 .conf파일로 더 단순하게 관리하고 있으며 더 많은 일을 수행하게 되었다.systemd는 시스템 부팅, 서비스 관리, 프로세스 자원관리 등 다양한 일을 한다. systemd사용자 공간을 부트스트래핑하고, 최종적으로 모든 프로세스들을 관리하는 init시스템. pid 1번으로, 1번 프로세스가 가장 먼저 실행되어 OS에 필요한 각종 데몬을 실행시킨다.쉘스크립트가 아닌 .service라는 systemd만의 unit을 통해 관리된다.systemd는 /etc/systemd 아래 ..

Linux 2020.11.25