분석
목차
프로비저닝: 사용자의 요구에 맞게 시스템 자원을 할당, 배치, 배포해두었다가 필요 시 시스템을 즉시 사용할 수 있는 상태로 미리 준비해 두는 것
EMR
막대한 양의 데이터를 간편하게, 비용 효율적으로 처리할 수 있는 웹 서비스
하둡 프레임워크 사용
EC2와 S3 웹 규모 인프라에서 실행
:heavy_check_mark: POINT
- 웹 인덱싱, 데이터 마이닝, 로그 파일 분석, 시스템 학습, 재무 분석, 과학 시뮬레이션 등
- 데이터 집약적 작업 수행 시 필요한 적당한 용량을 즉시 프로비저닝
- 대용량 데이터의 바르고 효율적인 처리가 필요한 작업
- 처리 워크플로 구축, 실행 중인 클러스터의 진행 상태를 모니터링
- 설치 및 관리 복잡성 감소
- 대규모 하둡 클러스터를 신속하게 가동
- 신속수행
Apache 하둡
대규모 데이터 세트(기가~페타바이트)를 효율적으로 저장 및 처리하는 데 사용되는 오픈 소스 자바 프레임워크
- 여러 컴퓨터를 함께 클러스터링하여 대량의 데이터 세트 병렬 분석
- MapRedues
- 여러 개의 작은 작업 조각으로 나뉘며 각 조각은 클러스터의 어떤 노드에서도 실행
Apache Spark
빅 데이터 워크로드에 사용되는 오픈소스 분산 처리 시스템
- 인 메모리 캐시 및 최적화된 쿼리 실행 활용
- 모든 크기의 데이터에 대해 빠른 분석 쿼리 실행
Presto
모든 크기의 데이터에 대해 빠른 분석 쿼리 실행하기 위해 처음부터 모두 설계된 오픈 소스 분산 SQL 쿼리 엔진
- 노드 프로비저닝, 클러스터 설정, Presto 구성 또는 클러스터 튜닝을 수행하지 않아도 단 몇 분만에 Presto 클러스터 시작
Amamzo EMR 클러스터
- 하나의 클러스터 단계
- 사용자가 정의한 처리 단위로 데이터를 처리하는 하나의 알고리즘에 매핑
- Java, Ruby, Perl, Python, PHP, R, C++로 작성된 스트리밍 프로그램
- Java jar로 구현된 하둡 MapReduce 앱
EMR Notebooks
Jupyter Notebook에 기반한 관리 환경
EMR 클러스터를 사용하여 데이터를 준비하고 시각화, 협업, 앱 구축, 인터랙티브 분석 수행
Apache Hive
하둡에서 실행되는 오픈소스 데이터웨어하우스 및 분석 패키지
- SQL 기반 언어
- S3에 저장된 데이터 소스를 구축, 요약, 쿼리 :o:
- 복잡하고 확장가능한 데이터 유형(Json, Thrift)에 최고의 지원 제공
- EMR에서 사용할 수 있는 SQL언어와 상요하기 쉬운 도구롤 정교한 데이터 처리 앱 구현
- 안정적인 데이터웨어하우스로 바꾸어 데이터 분석, 모니터링, 비즈니스 인텔리전스 작업 수행
- 분할된 테이블 제공 :point_right: 실행 중인 쿼리에 적합한 일부 테이블 검색
- 막대한 양의 데이터 처리
Apache Hudi
증분 데이터 처리 및 데이터 파이프라인 개발 간소화하는 데 사용되는 오픈소스 데이터 관리 프레임워크
- S3의 레코드 수준에서 데이터 관리
- CDC 및 스트리밍 데이터 수집 간소화
- 레코드 수준 업데이트 및 삭제가 필요한 데이터 프라이버시 사용 사례 처리
- S3에 저장
- 익숙한 도구에서 업데이트된 데이터에 거의 실시간 액세스
Impala
SQL 구문을 사용하는 대화형 임시 쿼리를 위한 하둡 에코시스템의 오픈 소스 두고
- MPP(대량 병렬 처리) 엔진 사용
- HDFS, Hbase 테이블의 데이터를 아주 빠르게 쿼리
- 스키마 제공, 다양한 데이터 유형 처리하는 하둡 기능 활용
- 지연 시간이 짧은 대화형 분석
- 입력 데이터에 대한 정보 보관
- SQL 구문을 통해 정교한 데이터 처리 앱 구현
- 특정 사용 사례의 경우 더 빠른 성능 제공하도록 구축
- 장기 실행 중인 클러스터
- 일시적인 EMR 클러스터에서 배치 ETL 작업
- 타사 비즈니스 인텔리전스 도구와 함께 사용
- 데이터 분석, 모니터링, 비즈니스 인텔리전스 등의 작업을 안정적인 데이터 웨어하우스로 사용
Apache Pig
하둡에서 실행되는 오픈 소스 분석 패키치
- 유사 SQL 언어 작동
- S3에 저장된 데이터 소스 구축, 요약, 쿼리
- map/reduce 함수와 복잡한 데이터 유형에 최고의 지원 제공
- 텍스트 문서, 로그 파일과 같은 비정형 데이터 소스 처리
- 사용자가 Java로 작성
- S3 스토리지를 통해 배포된 사용자 정의 함수 사용하여 확장
- 사용하기 쉬운 도구로 정교한 데이터 처리 앱 구현
- 안정적인 데이터웨어하우스로 변경
EMR 전용 Pig 새로운 기능
- 여러 파일 시스템 액세스
- S3에 리소스 로딩
- 문자열과 날짜 처리 시간 처리
Apache HBase
비관계형 분산 오픈소스 데이터베이스
- 하둡 분산 파일 시스템(HDFS)에 실행되어 하둡에 BigTalbe 기능 제공
- 열 기반 압축 및 스토리지 사용
- 다량의 스파스 데이터 저장 :point_right: 효율적, 내결함성
- 메모리 안에 저장 :point_right: 데이터를 빠르게 조회
- 순차 쓰기 작업 최적화
- 배치 처리 삽입, 업데이트, 삭제에 유용
- 파일 스시템 공유하고 하둡 작어베 직접 입력 및 출력하는 역할
- JDBC 지원
Kinesis 커넥터
EMR에서 Kinesis 스트림의 데이터를 직접 읽고 쿼리할 수 있또록 지원
- 사용자가 개별 스트림 처리 앱 작성, 배포, 유지, 관리를 간단하게 읽고 분석 가능
Kinesis
실시간 스트리밍 데이터를 손쉽게 수집, 처리, 분석
- 적시에 통찰력 확보
- 새로운 정보에 신속하게 대응
- 모든 규모의 스트리밍 데이터를 비용 효율적으로 처리할 수 있는 핵심 기능
- 유연성: 애플레킹션 요구 사항에 가장 적합한 도구 선택
- 기계 학습, 분석 및 기타 앱, 비디오, 오디오, 앱 로그, 웹 사이트 클릭 스트림, IoT 데이터
- 실시간 데이터 수집
- 데이터가 수신되는 대로 처리 및 분석 :point_right: 즉시 대응
:heavy_check_mark: POINT
- 실시간
- 완전관리형
- 확장성
Elasticsearch
텍스트, 숫자, 위치 기반 정보, 정형 및 비정형 데이터 등 모든 유형의 데이터를 위한 분산형 오픈 소스 검색 및 분석 엔진
- 속도, 확장성, 많은 종류의 콘텐츠 색인
- 루씬 라이브러리 단독 사용
- 방대한 양의 데이터를 신속하게, 실시간으로 저장, 검색, 분석
Elasticsearch Service
Elasticsearch 클러스터를 배포, 운영, 확장할 수 있게 지원하는 관리형 서비스
- 자동 수행 관리 작업
- 네트워크 환경에 인프라 용량 프로비저닝
- Elasticsearch 소프트웨어 설치
- 도메인 설정과 관련된 작업 관리
- 백업 수행, 인스턴스 모니터링, 소프트웨어 패치
- CloudWatch와 통합 :point_right: 도메인 상태에 대한 정보 제공 지표 생성
- 인스턴스와 스토리지 설정 변경 옵션 제공
:heavy_check_mark: POINT
- 간편한 배포 및 관리
- 뛰어난 확장성 및 가용성
- 뛰어난 보안
- 비용 효율성
Elasticsearch Service 도메인
Elasticsearch 클러스터
- 지정한 컴퓨팅 및 스토리지 리소스를 갖춘 클라우드의 Dlasticsearch 클러스터
- 도메인 생성, 삭제, 인프라 속성 정의, 액세스 보안 제어
UltraWarm
Elasticsearch Service를 위한 저가의 완전 관리형 웜 스토리지 티어
- Elasticsearch Service에서 분석하려는 데이터를 비용 효율적으로 확장, 삭제, 아카이브 데이터 통찰력
- 많은 데이터를 경제적으로 보관
- 언제든 필요할 때 대화형으로 분석
Open Distro for Elasticsearch
모든 사용자아게 사용 가능한 혁신적인 Ealsticsearch의 100% 오픈 소스 배포 제공 약속
클러스터 간 검색
연결된 두 클러스터 간에 쿼리 및 집계를 수행할 수 있는 Elasticearch 기능
QuickSight
조직 내 모든 구성원에게 Sight를 손쉽게 제공할 수 있도록 지원하는 빠른 클라우드 기반 비즈니스 인텔리전스 서비스
- 완전 관리형
- ML Insights가 포함된 대화형 대시보드를 손쉽게 생성 및 게시
- 어떤 디바이스에서든 액세스
- 애플리케이션, 포털, 웹 사이트에 임베딩
:heavy_check_mark: POINT
- 사용한 만큼만 비용 지불
- 모든 사용자에게 맞게 조정
- 앱에 포함된 분석
- 엔드 투 엔드 BI 솔루션 구축
Data Pipeline
AWS 클라우드에서 정기적인 데이터 이동 및 데이터 처리 활동을 손쉽게 계획할 수 있게 지원하는 웹 서비스
- 온프레미스 및 클라우드 기반 스토리지 시스템 통합
- 필요할 때 원하는 위치에서 필요한 형식으로 데이터 사용
- 데이터 소스의 종속 체인, 대상 파이프라인(비즈니스 로직 실행하는 데 필요한 미리 정의된 데이터 처리 활동) 정의
- 파이프라인은 정기적으로 S3, RDS 대상에 대해 분산 데이터 복사, SQL 변환, MapReduce 앱, 사용자 정의 스크립트 처리 등 활동 수행
- 확장성이 높은 완전관리형 서비스인 워크플로에 대해 일정 예약, 재시도, 실패 논리 실행
- 가용성이 높은 사용자 파이프라인 확보
- 데이터 중심 워크플로의 공통적인 특정 단계 지원
:heavy_check_mark: POINT
- 안정성
- 사용 편의성
- 유연성
- 확장성
- 저렴한 비용
- 투명성
데이터 노드
비즈니스 데이터
- S3 경로를 참조