[AWS] 분석

분석

목차

EMR

Kinesis

Elasticsearch

QuickSight

Data Pipeline

프로비저닝: 사용자의 요구에 맞게 시스템 자원을 할당, 배치, 배포해두었다가 필요 시 시스템을 즉시 사용할 수 있는 상태로 미리 준비해 두는 것

EMR

막대한 양의 데이터를 간편하게, 비용 효율적으로 처리할 수 있는 웹 서비스

하둡 프레임워크 사용

EC2와 S3 웹 규모 인프라에서 실행

:heavy_check_mark: POINT

Apache 하둡

대규모 데이터 세트(기가~페타바이트)를 효율적으로 저장 및 처리하는 데 사용되는 오픈 소스 자바 프레임워크

Apache Spark

빅 데이터 워크로드에 사용되는 오픈소스 분산 처리 시스템

Presto

모든 크기의 데이터에 대해 빠른 분석 쿼리 실행하기 위해 처음부터 모두 설계된 오픈 소스 분산 SQL 쿼리 엔진

Amamzo EMR 클러스터

EMR Notebooks

Jupyter Notebook에 기반한 관리 환경

EMR 클러스터를 사용하여 데이터를 준비하고 시각화, 협업, 앱 구축, 인터랙티브 분석 수행

Apache Hive

하둡에서 실행되는 오픈소스 데이터웨어하우스 및 분석 패키지

Apache Hudi

증분 데이터 처리 및 데이터 파이프라인 개발 간소화하는 데 사용되는 오픈소스 데이터 관리 프레임워크

Impala

SQL 구문을 사용하는 대화형 임시 쿼리를 위한 하둡 에코시스템의 오픈 소스 두고

Apache Pig

하둡에서 실행되는 오픈 소스 분석 패키치

EMR 전용 Pig 새로운 기능

Apache HBase

비관계형 분산 오픈소스 데이터베이스

Kinesis 커넥터

EMR에서 Kinesis 스트림의 데이터를 직접 읽고 쿼리할 수 있또록 지원

Kinesis

실시간 스트리밍 데이터를 손쉽게 수집, 처리, 분석

:heavy_check_mark: POINT

Elasticsearch

텍스트, 숫자, 위치 기반 정보, 정형 및 비정형 데이터 등 모든 유형의 데이터를 위한 분산형 오픈 소스 검색 및 분석 엔진

Elasticsearch Service

Elasticsearch 클러스터를 배포, 운영, 확장할 수 있게 지원하는 관리형 서비스

:heavy_check_mark: POINT

Elasticsearch Service 도메인

Elasticsearch 클러스터

UltraWarm

Elasticsearch Service를 위한 저가의 완전 관리형 웜 스토리지 티어

Open Distro for Elasticsearch

모든 사용자아게 사용 가능한 혁신적인 Ealsticsearch의 100% 오픈 소스 배포 제공 약속

클러스터 간 검색

연결된 두 클러스터 간에 쿼리 및 집계를 수행할 수 있는 Elasticearch 기능

QuickSight

조직 내 모든 구성원에게 Sight를 손쉽게 제공할 수 있도록 지원하는 빠른 클라우드 기반 비즈니스 인텔리전스 서비스

:heavy_check_mark: POINT

Data Pipeline

AWS 클라우드에서 정기적인 데이터 이동 및 데이터 처리 활동을 손쉽게 계획할 수 있게 지원하는 웹 서비스

:heavy_check_mark: POINT

데이터 노드

비즈니스 데이터