끄적끄적 아무기록

docker(도커) ubuntu16.04 환경에 Spark(스파크) 설치_(3)

by 현생사는갓생지망생
반응형

docker ubuntu16.04 환경에 Spark 설치


이전 작업은 https://hy2on.tistory.com/122?category=733455를 참고한다.


1. Spark 설치



# docker run -it --name [container 이름 지정] [image name]

이전에 생성해놨던 java, hadoop이 설치된 이미지를 이용하여 컨테이너를 생성한다.






먼저 Apache Spark를 다운받을 링크를 복사한다.

http://apache.mirror.cdnetworks.com/spark/spark-2.2.3/spark-2.2.3-bin-hadoop2.7.tgz

이후에 설치할 zeppelin과의 호환성을 위해 최신 버전이 아닌 2.2.3 버전으로 설치한다.






# wget http://apache.mirror.cdnetworks.com/spark/spark-2.2.3/spark-2.2.3-bin-hadoop2.7.tgz

# tar xvfz spark-2.2.3-bin-hadoop2.7.tgz

이전에 생성해놨던 /download/ 디렉토리로 가서 스파크를 설치 후 압축을 해제한다.






# mv spark-2.2.3-bin-hadoop2.7 ~






# ln -s spark-2.2.3-bin-hadoop2.7/ spark

java, hadoop과 마찬가지로 심볼릭 링크를 걸어준다.



2. spark와 pyspark 연동




# spark/bin/spark-shell 명령어를 통해 실행이 되는지 확인한다.

정상적으로 실행이 되면 scala > 로 접속이 된다.

다시 나올 때는 :q 를 입력하면 된다.






Apache spark에 pyspark를 연동해볼 것이다.

현재 # spark/bin/pyspark 명령어가 먹히지 않는다.






먼저 Python3.6 을 설치하기 위해 ppa 저장소를 추가한다.

# add-apt-repository ppa:jonathonf/python-3.6



만약 add-apt-repository 명령어가 정상적으로 실행되지 않는다면

# apt-get install -y software-properties-common 를 먼저 설치해준다.






# apt-get update

ppa를 추가/삭제하면 추가 또는 삭제를 했다는 변경사항을 적용시켜야 한다.






# apt-get install python3.6

python3.6을 설치한다.






# ll /usr/bin/pytho*

설치가 완료된 후 /usr/bin/ 디렉토리를 확인해보면 python3.6이 설치된 것을 볼 수 있다.






이제 .bashrc에서 환경변수 설정을 해준다.

설정을 완료했다면 source .bashrc 로 적용시킨다.






# spark/bin/pyspark

다시 pyspark를 실행시키면 python3.6 버전으로 실행이 되는 것을 볼 수 있다.





테스트를 위해 print("a")를 입력하면 a가 잘 출력된다.



3. spark 설정




# cp spark/conf/spark-env.sh.template spark/conf/spark-env.sh

# vi spark/conf/spark-env.sh



4. 실행 테스트




설정을 완료했다면 실행시켜 테스트한다.

먼저 ssh 서비스가 실행중이어야 한다.

# service ssh start

# start-master.sh

# start-slaves.sh





# jps 명령어를 사용하여 잘 동작하는지 확인한다.

Master 노드와 Worker 노드가 동작하고 있다면 정상 작동하는 것이다.





# docker commit [container name] [설정할 image name]

컨테이너를 이미지로 저장한다.



반응형

블로그의 정보

현생이네

현생사는갓생지망생

활동하기