스파크 공부중 노트

By | September 12, 2015

소소하게 스파크 설치 체험중 (MacOS, JDK1.8)

작업 목표

  • 스파크로 문서 내의 단어 세기
  • 포스트그레스큐엘 접속하기

 

환경 변수

 

스칼라 설치

http://www.scala-lang.org/download/2.10.5.html 에서 2.10.5 다운로드.

  • 2.11은 안됨, brew는 기본이 2.11임
  • 압축을 풀어서 /usr/local/scala 에 넣어두자.

http://www.scala-sbt.org/release/tutorial/Manual-Installation.html 에서

  • jar 파일 다운로드후
  • /usr/local/scala/bin 에 넣음.

 

스파크 설치

http://spark.apache.org/ 에서 spark 1.5 다운로드 & 압축 풀기

 

프로젝트 생성 (프로젝트이름은 hanal)

 

소스 작업

SBT 설정 (build.sbt)

메인 소스 (src/main/scala/asense/Anal.scala)

컴파일

* 꽤 많은 jar 파일들이 ~/.m2 에 자동으로 쌓인다.

 

감상

  • 스칼라 2.11은 이전 버전과 호환되지 않음
    • 스파크 1.5.0 은 스칼라 2.10 이 필요함 (2.11을 쓰려면 소스 컴파일 필요)
    • 스칼라를 이버전 저버전 깔아서 테스트하다보면 요상한 에러가 발생
  • 플레이(playframework) 도 테스트해봤는데,
    • 맥북프로에 팬이 있다는 걸 기억나게 해준다.
    • 이건 자바 1.8이 필요

 

이후에 탐사할 곳들

  • https://github.com/twitter/twitter-korean-text 한글 분석기
  • http://spark.apache.org/docs/latest/mllib-feature-extraction.html  (이게 내가 하고 싶은 것…)

 

최종 목표는

  • 백만건의 문서를 내가 원하는 백개 정도의 키워드 관련도로 소팅.

Leave a Reply