MapReduce 2

📘 ADP 2과목 2장 2절 데이터 처리 기술: 분산 컴퓨팅 기술 – 데이터를 나누고 동시에 처리하는 지능

데이터를 저장하는 것만으로는 부족합니다. 정말 중요한 건 어떻게 빠르게 처리하느냐입니다. ADP 자격증의 ‘데이터 처리 기술의 이해’ 과목에서는 이와 관련된 핵심 개념인 분산 컴퓨팅 기술을 다룹니다. 이번 글에서는 분산 컴퓨팅의 개념부터 MapReduce, Spark, Flink, 병렬 쿼리 시스템과 Impala까지 완벽하게 정리합니다. 1. 분산 컴퓨팅이란?분산 컴퓨팅(Distributed Computing)은 하나의 데이터를 여러 노드(서버)에 나누어 동시에 처리하는 기술입니다.📌 목적: 고속 연산, 확장성, 장애 대응📌 구성Master Node: 작업 분배/스케줄링Worker Node: 실제 연산 수행저장소: HDFS, S3 등 분산 스토리지[Client] → [Master] → [Worker1..

📘 ADP 2과목 1장 5절 데이터처리 프로세스: 대용량 비정형 데이터 처리 방법 – 텍스트, 이미지, 로그를 다루는 기술

현대 사회의 데이터는 더 이상 정형 데이터에만 머무르지 않습니다. 텍스트, 이미지, 영상, 음성, 로그와 같은 비정형 데이터는 전체 데이터의 80% 이상을 차지하며, 이는 단순 저장이 아닌 고성능 수집 및 처리 기술, 분산 환경, 실시간 대응력을 요구합니다. 본 절에서는 비정형 데이터의 정의, 저장 방식, 로그 및 대용량 수집 시스템, 하둡 기반 분산 병렬 처리, 그리고 SQL on Hadoop까지 빅데이터 처리의 핵심 개념과 기술을 포괄적으로 학습합니다. 1. 비정형 데이터의 정의 구분 설명 예시 정형 데이터행/열 구조의 고정 스키마엑셀, RDB반정형 데이터구조는 있으나 고정 스키마는 없음JSON, XML비정형 데이터구조 없이 자유로운 형태텍스트, 이미지, 영상, 음성, 로그 2. 비정형 데이터 저..