문제
회사에서 최근 마케팅 캠페인의 효과를 측정하려고 합니다. 이 회사는 판매 데이터의 csv 파일에 대해 일괄 처리를 수행하고 그 결과를 1시간에 한 번씩 Amazon S3 버킷에 저장합니다. S3 2페타바이트의 객체. 이 회사는 Amazon Athena에서 일회성 쿼리를 실행하여 특정 지역에서 특정 날짜에 가장 인기 있는 제품을 확인합니다. 쿼리가 완료되는 데 예상보다 오래 걸리거나 실패하는 경우가 있습니다.
솔루션 설계자는 쿼리 성능과 안정성을 개선하기 위해 어떤 조치를 취해야 합니까? (2개를 선택하세요.)
A. S3 객체 크기를 126MB 미만으로 줄입니다.
B. Amazon S3에서 데이터를 날짜 및 지역별로 분할
C. 파일을 Amazon S3에 큰 단일 객체로 저장합니다.
D. Amazon Kinosis Data Analytics를 사용하여 일괄 처리 작업의 팬으로 쿼리 실행
E. AWS 듀오 추출, 변환 및 로드(ETL) 프로세스를 사용하여 csv 파일을 Apache Parquet 형식으로 변환합니다.
정답
B, E
풀이
Amazon Athena 성능 향상을 위해 데이터를 구조화할 수 있다.
- 데이터 분할
- 데이터 버킷
- 압축 사용
- 파일 크기 최적화
- 열 형식 데이터 저장소 생성 최적화
B = 데이터 분할
E = 열 형식 데이터 저장소 생성 최적화
AWS duo ETL 프로세스는 AWS Glue 또는 AWS Data Pipeline과 같은 서비스를 사용하여 아래 작업을 수행할 수 있다.
- S3에서 데이터를 추출 > Apache Parquet 같은 효율적인 형식으로 변환 > S3에 다시 로드
Apache Parquet
- 열(column) 기반 데이터 저장소
- 열 단위 압축, 다양한 인코딩, 데이터 유형 기반 압축 및 조건자 푸시다운을 사용하여 데이터를 효율적으로 저장한다. → Amazon S3에서 더 적은 바이트를 읽어 쿼리 성능이 향상되고 쿼리 실행 비용이 절감된다
Amazon Athena 표준 SQL을 사용해서 Amazon S3에 저장된 데이터를 쉽게 분석할 수 있는 대화형 쿼리 서비스
- 서버리스
- 실행하는 쿼리에 대해서만 비용을 지불
- Amazon S3의 데이터를 가리키고, 스키마를 정의한 다음, 표준 SQL을 사용하여 쿼리를 시작하면 된다 > 사용하기 쉬움
'CS > AWS' 카테고리의 다른 글
[SAA-C03] 덤프 문제 풀이 - Amazon RDS Proxy (0) | 2023.06.21 |
---|---|
[SAA-C03] 덤프 문제 풀이 - 여러 리전에 자격 증명 및 비밀을 복제 (0) | 2023.06.20 |
[SAA-C03] 덤프 문제 풀이 - 프라이빗 서브넷의 EC2 인스턴스에 SSH 연결 (0) | 2023.06.20 |
[생활코딩] AWS EC2 (2) (0) | 2023.05.03 |
[생활코딩] AWS EC2 (1) (0) | 2023.04.25 |