[AWS] 분석

18 Nov 2021

분석

EMR

막대한 양의 데이터를 간편하게, 비용 효율적으로 처리할 수 있는 웹 서비스

하둡 프레임워크 사용

EC2와 S3 웹 규모 인프라에서 실행

:heavy_check_mark: POINT

웹 인덱싱, 데이터 마이닝, 로그 파일 분석, 시스템 학습, 재무 분석, 과학 시뮬레이션 등
데이터 집약적 작업 수행 시 필요한 적당한 용량을 즉시 프로비저닝
대용량 데이터의 바르고 효율적인 처리가 필요한 작업
처리 워크플로 구축, 실행 중인 클러스터의 진행 상태를 모니터링
설치 및 관리 복잡성 감소
대규모 하둡 클러스터를 신속하게 가동
신속수행

Apache 하둡

대규모 데이터 세트(기가~페타바이트)를 효율적으로 저장 및 처리하는 데 사용되는 오픈 소스 자바 프레임워크

여러 컴퓨터를 함께 클러스터링하여 대량의 데이터 세트 병렬 분석
MapRedues
- 여러 개의 작은 작업 조각으로 나뉘며 각 조각은 클러스터의 어떤 노드에서도 실행

Apache Spark

빅 데이터 워크로드에 사용되는 오픈소스 분산 처리 시스템

인 메모리 캐시 및 최적화된 쿼리 실행 활용
- 모든 크기의 데이터에 대해 빠른 분석 쿼리 실행

Presto

모든 크기의 데이터에 대해 빠른 분석 쿼리 실행하기 위해 처음부터 모두 설계된 오픈 소스 분산 SQL 쿼리 엔진

노드 프로비저닝, 클러스터 설정, Presto 구성 또는 클러스터 튜닝을 수행하지 않아도 단 몇 분만에 Presto 클러스터 시작

Amamzo EMR 클러스터

하나의 클러스터 단계
- 사용자가 정의한 처리 단위로 데이터를 처리하는 하나의 알고리즘에 매핑
- Java, Ruby, Perl, Python, PHP, R, C++로 작성된 스트리밍 프로그램
- Java jar로 구현된 하둡 MapReduce 앱

EMR Notebooks

Jupyter Notebook에 기반한 관리 환경

EMR 클러스터를 사용하여 데이터를 준비하고 시각화, 협업, 앱 구축, 인터랙티브 분석 수행

Apache Hive

하둡에서 실행되는 오픈소스 데이터웨어하우스 및 분석 패키지

SQL 기반 언어
S3에 저장된 데이터 소스를 구축, 요약, 쿼리 :o:
복잡하고 확장가능한 데이터 유형(Json, Thrift)에 최고의 지원 제공
EMR에서 사용할 수 있는 SQL언어와 상요하기 쉬운 도구롤 정교한 데이터 처리 앱 구현
안정적인 데이터웨어하우스로 바꾸어 데이터 분석, 모니터링, 비즈니스 인텔리전스 작업 수행
분할된 테이블 제공 :point_right: 실행 중인 쿼리에 적합한 일부 테이블 검색
- 막대한 양의 데이터 처리

Apache Hudi

증분 데이터 처리 및 데이터 파이프라인 개발 간소화하는 데 사용되는 오픈소스 데이터 관리 프레임워크

S3의 레코드 수준에서 데이터 관리
CDC 및 스트리밍 데이터 수집 간소화
레코드 수준 업데이트 및 삭제가 필요한 데이터 프라이버시 사용 사례 처리
S3에 저장
익숙한 도구에서 업데이트된 데이터에 거의 실시간 액세스

Impala

SQL 구문을 사용하는 대화형 임시 쿼리를 위한 하둡 에코시스템의 오픈 소스 두고

MPP(대량 병렬 처리) 엔진 사용
HDFS, Hbase 테이블의 데이터를 아주 빠르게 쿼리
스키마 제공, 다양한 데이터 유형 처리하는 하둡 기능 활용
지연 시간이 짧은 대화형 분석
입력 데이터에 대한 정보 보관
SQL 구문을 통해 정교한 데이터 처리 앱 구현
특정 사용 사례의 경우 더 빠른 성능 제공하도록 구축
- 장기 실행 중인 클러스터
- 일시적인 EMR 클러스터에서 배치 ETL 작업
- 타사 비즈니스 인텔리전스 도구와 함께 사용
데이터 분석, 모니터링, 비즈니스 인텔리전스 등의 작업을 안정적인 데이터 웨어하우스로 사용

Apache Pig

하둡에서 실행되는 오픈 소스 분석 패키치

유사 SQL 언어 작동
S3에 저장된 데이터 소스 구축, 요약, 쿼리
map/reduce 함수와 복잡한 데이터 유형에 최고의 지원 제공
- 텍스트 문서, 로그 파일과 같은 비정형 데이터 소스 처리
사용자가 Java로 작성
S3 스토리지를 통해 배포된 사용자 정의 함수 사용하여 확장
사용하기 쉬운 도구로 정교한 데이터 처리 앱 구현
안정적인 데이터웨어하우스로 변경

EMR 전용 Pig 새로운 기능

여러 파일 시스템 액세스
S3에 리소스 로딩
문자열과 날짜 처리 시간 처리

Apache HBase

비관계형 분산 오픈소스 데이터베이스

하둡 분산 파일 시스템(HDFS)에 실행되어 하둡에 BigTalbe 기능 제공
열 기반 압축 및 스토리지 사용
다량의 스파스 데이터 저장 :point_right: 효율적, 내결함성
메모리 안에 저장 :point_right: 데이터를 빠르게 조회
순차 쓰기 작업 최적화
배치 처리 삽입, 업데이트, 삭제에 유용
파일 스시템 공유하고 하둡 작어베 직접 입력 및 출력하는 역할
JDBC 지원

Kinesis 커넥터

EMR에서 Kinesis 스트림의 데이터를 직접 읽고 쿼리할 수 있또록 지원

사용자가 개별 스트림 처리 앱 작성, 배포, 유지, 관리를 간단하게 읽고 분석 가능

Kinesis

실시간 스트리밍 데이터를 손쉽게 수집, 처리, 분석

적시에 통찰력 확보
새로운 정보에 신속하게 대응
모든 규모의 스트리밍 데이터를 비용 효율적으로 처리할 수 있는 핵심 기능
유연성: 애플레킹션 요구 사항에 가장 적합한 도구 선택
기계 학습, 분석 및 기타 앱, 비디오, 오디오, 앱 로그, 웹 사이트 클릭 스트림, IoT 데이터
- 실시간 데이터 수집
데이터가 수신되는 대로 처리 및 분석 :point_right: 즉시 대응

:heavy_check_mark: POINT

실시간
완전관리형
확장성

Elasticsearch

텍스트, 숫자, 위치 기반 정보, 정형 및 비정형 데이터 등 모든 유형의 데이터를 위한 분산형 오픈 소스 검색 및 분석 엔진

속도, 확장성, 많은 종류의 콘텐츠 색인
루씬 라이브러리 단독 사용
방대한 양의 데이터를 신속하게, 실시간으로 저장, 검색, 분석

Elasticsearch Service

Elasticsearch 클러스터를 배포, 운영, 확장할 수 있게 지원하는 관리형 서비스

자동 수행 관리 작업
- 네트워크 환경에 인프라 용량 프로비저닝
- Elasticsearch 소프트웨어 설치
- 도메인 설정과 관련된 작업 관리
- 백업 수행, 인스턴스 모니터링, 소프트웨어 패치
- CloudWatch와 통합 :point_right: 도메인 상태에 대한 정보 제공 지표 생성
- 인스턴스와 스토리지 설정 변경 옵션 제공

:heavy_check_mark: POINT

간편한 배포 및 관리
뛰어난 확장성 및 가용성
뛰어난 보안
비용 효율성

Elasticsearch Service 도메인

Elasticsearch 클러스터

지정한 컴퓨팅 및 스토리지 리소스를 갖춘 클라우드의 Dlasticsearch 클러스터
도메인 생성, 삭제, 인프라 속성 정의, 액세스 보안 제어

UltraWarm

Elasticsearch Service를 위한 저가의 완전 관리형 웜 스토리지 티어

Elasticsearch Service에서 분석하려는 데이터를 비용 효율적으로 확장, 삭제, 아카이브 데이터 통찰력
많은 데이터를 경제적으로 보관
언제든 필요할 때 대화형으로 분석

Open Distro for Elasticsearch

모든 사용자아게 사용 가능한 혁신적인 Ealsticsearch의 100% 오픈 소스 배포 제공 약속

클러스터 간 검색

연결된 두 클러스터 간에 쿼리 및 집계를 수행할 수 있는 Elasticearch 기능

QuickSight

조직 내 모든 구성원에게 Sight를 손쉽게 제공할 수 있도록 지원하는 빠른 클라우드 기반 비즈니스 인텔리전스 서비스

완전 관리형
ML Insights가 포함된 대화형 대시보드를 손쉽게 생성 및 게시
어떤 디바이스에서든 액세스
애플리케이션, 포털, 웹 사이트에 임베딩

:heavy_check_mark: POINT

사용한 만큼만 비용 지불
모든 사용자에게 맞게 조정
앱에 포함된 분석
엔드 투 엔드 BI 솔루션 구축

Data Pipeline

AWS 클라우드에서 정기적인 데이터 이동 및 데이터 처리 활동을 손쉽게 계획할 수 있게 지원하는 웹 서비스

온프레미스 및 클라우드 기반 스토리지 시스템 통합
필요할 때 원하는 위치에서 필요한 형식으로 데이터 사용
데이터 소스의 종속 체인, 대상 파이프라인(비즈니스 로직 실행하는 데 필요한 미리 정의된 데이터 처리 활동) 정의
파이프라인은 정기적으로 S3, RDS 대상에 대해 분산 데이터 복사, SQL 변환, MapReduce 앱, 사용자 정의 스크립트 처리 등 활동 수행
확장성이 높은 완전관리형 서비스인 워크플로에 대해 일정 예약, 재시도, 실패 논리 실행
- 가용성이 높은 사용자 파이프라인 확보
데이터 중심 워크플로의 공통적인 특정 단계 지원

:heavy_check_mark: POINT

안정성
사용 편의성
유연성
확장성
저렴한 비용
투명성

데이터 노드

비즈니스 데이터

S3 경로를 참조

분석

목차

EMR

:heavy_check_mark: POINT

Apache 하둡

Apache Spark

Presto

Amamzo EMR 클러스터

EMR Notebooks

Apache Hive

Apache Hudi

Impala

Apache Pig

Apache HBase

Kinesis 커넥터

Kinesis

:heavy_check_mark: POINT

Elasticsearch

Elasticsearch Service

:heavy_check_mark: POINT

Elasticsearch Service 도메인

UltraWarm

Open Distro for Elasticsearch

클러스터 간 검색

QuickSight

:heavy_check_mark: POINT

Data Pipeline

:heavy_check_mark: POINT

데이터 노드