데이터사이언스(2)
-
하둡(Hadoop)_맵리듀스(MapReduce)
Hadoop (High-Availability Distributed Object-Oriented Platform) 분산 환경에서 빅데이터를 저장하고 처리할 수 있는 자바 기반의 오픈 소스 프레임 워크 단일 서버에 수천대의 머신으로 확장할 수 있도록 설계되었다. 1. 맵리듀스(MapReduce) 대용량의 데이터 처리를 위한 분산 프로그래밍 모델, 소프트웨어 프레임워크 맵 리듀스 프레임워크를 이용하면 대규모 분산 컴퓨팅 환경에서 대량의 데이터를 병렬로 분석 가능 프로그래머가 직접 작성하는 맵과 리듀스라는 두개의 메소드로 구성 흩어져있는 데이터를 수직화하여, 그 데이터를 각각의 종류별로 모으고(Map) 필터링과 sorting을 거쳐 데이터를 뽑아내는(Reduce) 분산처리 기술과 관련 프레임워크 맵(Map) ..
2021.11.04 -
하둡(Hadoop)_HDFS
Hadoop (High-Availability Distributed Object-Oriented Platform) 분산 환경에서 빅데이터를 저장하고 처리할 수 있는 자바 기반의 오픈 소스 프레임 워크 단일 서버에 수천대의 머신으로 확장할 수 있도록 설계되었다. 1. 하둡 분산형 파일 시스템 (Hadoop Distributed File System, HDFS) 하둡 네트워크에 연결된 기기에 데이터를 저장하는 분산형 파일 시스템 HDSF : 하둡 프레임워크를 위해 자바 언어로 작성된 분산 확장 파일 시스템 HDFS는 여러 기계에 대용량 파일을 나눠서 저장, 데이터들을 여러 서버에 중복저장하여 데이터 안정성을 얻음 (1)특징 HDFS는 데이터를 저장하면, 다수의 노드에 복제 데이터도 함께 저장해서 데이터 유실..
2021.11.04