Spark- 머신러닝

SparK - 스파크를 활용한 머신러닝

훈련기간 : 주말 2018년 10월 06일 / 주중 2018년 10월 08일 
훈련일수 : 주말 토토토토(4일) / 주중 월 ~ 금 (11일)
훈련시간 : 주말:오전 09시30분~18시30분 / 주중 월~ 금(11일) 
훈련정원 : 20명 (모집 중)
훈련문의 : 02-837-9922



과정소개
- 본 과정은 머신러닝의 개념과 알고리즘을 학습하고, Spark를 활용한 빅데이터 처리와 기술을 학습하는 과정입니다.
Spark는 기존 빅데이터 처리 기술의 단점을 극복하기 위한 대안으로 제시되고 있으며, 많은 연구기관에서 차세대 빅데이터 기술로 예측하고 있는 Spark를 활용한 빅데이터 처리 기술을 본 과정에서 실습 중심으로 학습 하실 수 있습니다.

과정의 특장점
- 변화하고 있는 빅데이터 분석 환경을 반영한 교육내용 구성 최근 빅데이터 분석 환경이 배치와 실시간 분석을 동시에 요구하는 환경으로 변화하고 있으며, Spark는 그러한 환경변화에 가장 적합한 빅데이터 분석 플랫폼이라고 할 수 있습니다.

- Spark를 이용한 실시간 머신러닝 학습 쉽고, 빠르고 범용적인 Spark를 이용하여 실시간 머신러닝을 학습해 보는 과정입니다.

훈련목표
- 머신러닝의 개념을 이해합니다.
- 상황별 사용할 수 있는 머신러닝 알고리즘을 이해합니다.
- 대용량의 데이터를 처리하기 위한 Spark 클러스터에서 머신러닝을 수행합니다.

학습대상
- 기업 내 정보화 및 IT혁신사업 담당자
- 기업의 전산시스템 및 데이터 관리 담당자
- 기타 빅데이터에 관심 있는 재직자

Apache Spark?
오픈 소스 클러스터 컴퓨팅 프레임워크이다. 원래 캘리포니아 대학교 버클리의 AMPLab에서 개발된 스파크의 코드베이스는 나중에 아파치 소프트웨어 재단에 기부되었으며 그 이후로 계속 유지 보수를 해오고 있다. 스파크는 암시적 데이터 병렬성과 장애 허용과 더불어 완전한 클러스터를 프로그래밍하기 위한 인터페이스를 제공합니다.

1일차/(8시간)
스파크 데이터 모델
- Introduction
-  스파크 소개
- 스파크 설치
- 개발 환경 구축
RDD
- RDD 소개
- 트랜스포메이션
- 액션

2일차/(8시간)
클러스트 환경
- 클러스터 환경 개요
- 클러스터 매니저
- 스파크 설정
스파크 SQL
- 스파크 세션
- 데이터프레임, 로우, 컬럼과 주요 API
- 데이터셋과 주요 API

3일차 / (8시간)
스파크 스트리밍
- 개념 및 주요 용어
- 데이터 읽기
- 데이터 다루기
- 데이터 저장
- CheckPoint와 캐시
스트럭처 스트리밍
- 데이터프레임과 데이터셋 생성
- 스트리밍 연산

4일차 / (8시간)
스파크 머신러닝 Mlib
- 데이터 분석 기초
- 벡터와 LabelPoint
- 파이프라인
- 알고리즘
- 회귀와 분류
- 클러스터링
 

이미지 없음