[AWS] EC2 서버에 Spark 설치하기

1. Spark 설치

1. Spark 설치 파일 다운로드

wget https://archive.apache.org/dist/spark/spark-3.2.4/spark-3.2.4-bin-hadoop3.2.tgz

 

 

2. Spark 설치 파일 압축풀기

tar xvfz spark-3.2.4-bin-hadoop3.2.tgz

 

 

3. 폴더명 수정하기

mv spark-3.2.4-bin-hadoop3.2/ spark-3.2.4/

 

2. Spark 환경 변수 편집하기

vim ~/.bashrc 명령어로 bashrc 파일을 연다.

 

다음과 같이 스파크 환경 변수를 설정한다.

# SPARK
export SPARK_HOME=/path/to/spark-3.2.4
export PATH=$PATH:$SPARK_HOME/bin

 

3. Spark 실행하기

Spark는 Hadoop없이도 작동이 가능하기 때문에 spark-shell 또는 pyspark 명령어를 이용하여 스파크 쉘이 잘 뜨는지 확인하면 된다. Spark는 스칼라라는 언어로 개발되어 있다.

참고로 spark-shell 은 스칼라 언어로, pyspark 는 파이썬 언어로 드라이버 프로그램을 만들 때 사용할 수 있다.

빠져 나오기는 ctrl + d

 

4. pyspark 설치하기

spark를 파이썬으로 사용할 수 있는 pyspark를 설치한다.

기존에 설치한 spark 버전이 spark-3.2.4이므로 호환하는데 문제가 발생하지 않게

스파크 버전에 맞춰 pyspark도 3.2.4버전으로 설치해야 한다.

pip install pyspark==3.2.4

 

pyspark 명령어로 pyspark를 실행할 수 있다.

 

5. Spark Web UI 주소 변경하기

Spark Web UI도 어디서든 접속 가능하게 하기 위해 우선 spark-defaults.conf.template 파일을 복사한다.

cp $SPARK_HOME/conf/spark-defaults.conf.template $SPARK_HOME/conf/spark-defaults.conf

 

복사한 파일을 열고 다음과 같이 입력한다.

vim $SPARK_HOME/conf/spark-defaults.conf
spark.driver.host 0.0.0.0

 

6. 파이썬 경로 수정하기

사용 중인 가상환경(spark-env)의 파이썬 경로를 복사한다.

 

spark-env.sh를 열어 사용 중인 가상환경의 파이썬으로 경로를 수정한다.

 

7. Spark 사용하기