docker(도커) ubuntu16.04 환경에 Spark(스파크) 설치

docker ubuntu16.04 환경에 Spark 설치

이전 작업은 https://hy2on.tistory.com/122?category=733455를 참고한다.

1. Spark 설치

# docker run -it --name [container 이름 지정] [image name]

이전에 생성해놨던 java, hadoop이 설치된 이미지를 이용하여 컨테이너를 생성한다.

먼저 Apache Spark를 다운받을 링크를 복사한다.

http://apache.mirror.cdnetworks.com/spark/spark-2.2.3/spark-2.2.3-bin-hadoop2.7.tgz

이후에 설치할 zeppelin과의 호환성을 위해 최신 버전이 아닌 2.2.3 버전으로 설치한다.

# wget http://apache.mirror.cdnetworks.com/spark/spark-2.2.3/spark-2.2.3-bin-hadoop2.7.tgz

# tar xvfz spark-2.2.3-bin-hadoop2.7.tgz

이전에 생성해놨던 /download/ 디렉토리로 가서 스파크를 설치 후 압축을 해제한다.

# mv spark-2.2.3-bin-hadoop2.7 ~

# ln -s spark-2.2.3-bin-hadoop2.7/ spark

java, hadoop과 마찬가지로 심볼릭 링크를 걸어준다.

2. spark와 pyspark 연동

# spark/bin/spark-shell 명령어를 통해 실행이 되는지 확인한다.

정상적으로 실행이 되면 scala > 로 접속이 된다.

다시 나올 때는 :q 를 입력하면 된다.

Apache spark에 pyspark를 연동해볼 것이다.

현재 # spark/bin/pyspark 명령어가 먹히지 않는다.

먼저 Python3.6 을 설치하기 위해 ppa 저장소를 추가한다.

# add-apt-repository ppa:jonathonf/python-3.6

만약 add-apt-repository 명령어가 정상적으로 실행되지 않는다면

# apt-get install -y software-properties-common 를 먼저 설치해준다.

# apt-get update

ppa를 추가/삭제하면 추가 또는 삭제를 했다는 변경사항을 적용시켜야 한다.

# apt-get install python3.6

python3.6을 설치한다.

# ll /usr/bin/pytho*

설치가 완료된 후 /usr/bin/ 디렉토리를 확인해보면 python3.6이 설치된 것을 볼 수 있다.

이제 .bashrc에서 환경변수 설정을 해준다.

설정을 완료했다면 source .bashrc 로 적용시킨다.

# spark/bin/pyspark

다시 pyspark를 실행시키면 python3.6 버전으로 실행이 되는 것을 볼 수 있다.

테스트를 위해 print("a")를 입력하면 a가 잘 출력된다.

3. spark 설정

# cp spark/conf/spark-env.sh.template spark/conf/spark-env.sh

# vi spark/conf/spark-env.sh

4. 실행 테스트

설정을 완료했다면 실행시켜 테스트한다.

먼저 ssh 서비스가 실행중이어야 한다.

# service ssh start

# start-master.sh

# start-slaves.sh

# jps 명령어를 사용하여 잘 동작하는지 확인한다.

Master 노드와 Worker 노드가 동작하고 있다면 정상 작동하는 것이다.

# docker commit [container name] [설정할 image name]

컨테이너를 이미지로 저장한다.

'BigData 공부기록' 카테고리의 다른 글

Docker Hub(도커 허브)에 내 이미지 배포하기 (0)	2019.01.31
docker(도커) ubuntu16.04 환경에 zeppelin(제플린) 설치_(4) (0)	2019.01.31
docker(도커) ubuntu16.04 환경에 hadoop(하둡) 설치_(2) (0)	2019.01.30
docker(도커) ubuntu16.04 환경에 java 설치_(1) (0)	2019.01.30
Docker(도커) 기본 명령어 (0)	2019.01.30

블로그의 정보

현생이네

현생사는갓생지망생

docker(도커) ubuntu16.04 환경에 Spark(스파크) 설치_(3)

'BigData 공부기록' 카테고리의 다른 글

블로그의 정보

활동하기

티스토리툴바

'BigData 공부기록' 카테고리의 다른 글

블로그의 정보

활동하기

공유하기

다른 글

티스토리툴바