[MigOps] AWS Glue
AWS Glue
완전 관리형 ETL 서비스
-
개발자 친화적, Apache Spark 환경, Python과 Scala 코드 지원
-
데이터 분석(Glue 구성요소)
-
데이터 카탈로그
데이터에 대한 하나의 단일된 뷰
데이터 찾기, 관리
- 테이블 상세 정보 포함
- 자동적으로 파티션 구조 파악
- 스키마 변경 탐지 및 버전 관리
- 빠르게 필요한 데이터에 대한 검색
- ETL 작업의 데이터 소스로 즉시 활용 가능
-
ETL, Job 스케줄링
데이터의 이동과 변환 작업
ETL
- 성능
- 많은 수의 작은 파일 처리
- 작은 수의 큰 파일 처리
- 병렬 처리 최적화
- JDBC 파티션
- Scheduler
- Python Shell
- Glue vs EMR
Job 스크립트 작성과 실행을 쉽게 도움
-
콘솔에서 코드 생성
-
Job 북마크
지속적으로 추가되는 데이터에 대한 중복 작업 관리
-
Job 스케줄링과 모니터링
이벤트 기반 Job을 실행 가능하며, 여러 job 사이에 의존성 설정
-
Job 실행 (서버리스)
자동적으로 인프라 생성, 사용한 만큼만 과금
- 서버리스 데이터 변환 작업
- apache spark 기반
- 클릭 몇번으로 생성되는 ETL code
- PySpark과 Scala 코드
- 성능
- 반복 일정과 이벤트에 따른Job 스케줄링
- 익숙한 환경 :o:
단계
- Crawler를 통해 데이터 카탈로그 생성
- 코드 생성
- 코드 수정 및 테스트
- 실제 운영 환경에서 Job 스케줄링 및 실행
- Job 실행
-