일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | |||||
3 | 4 | 5 | 6 | 7 | 8 | 9 |
10 | 11 | 12 | 13 | 14 | 15 | 16 |
17 | 18 | 19 | 20 | 21 | 22 | 23 |
24 | 25 | 26 | 27 | 28 | 29 | 30 |
31 |
- 시뮬레이션
- MVC
- hdfs
- datanode
- SQL
- ACID
- priorityqueue
- Parquet
- JPA
- BFS
- spark
- greedy
- 구현
- wrapper class
- Transaction
- Algorithm
- EventScheduler
- procedure
- ES6
- MySQL
- BIT연산
- database
- boto3
- namenode
- 프로그래머스
- bigdata
- S3
- Spring
- 우선순위큐
- 백준
- Today
- Total
목록hdfs (3)
IT 개발일지

HDFS 설치1. Pre-requirement포스트 작성 기준 사용하고 있는 환경입니다. 1. Java 1.8(OpenJDK)2. Ubuntu 20.04 - 기타 Linux, MacOS도 가능3. Naver Cloud Platform(s2-g2-s50(vCPU 2EA, Memory 8GB, [SSD]Disk 50GB)) - 최소 요구사항 : 1Core 2GB Memory(AWS EC2 Free-Tier 가능) Operation Modes 1. Pseudo-distributed operation mode (우리가 할 모드)- 여러 클러스터를 모두 만들고 흉내내볼 수 없으니, 우선 single-node가지고 disributed node를 흉내내보는 모드다. 2. Standalone Operation- 기..

Namenode & Datanode구조- 하둡은 마스터-워커(master-worker) 패턴으로 동작한 네임노드와, 데이터노드로 구성되어 있음. 1. 네임노드(NameNode)- 파일 시스템의 네임스페이스(namespace)를 관리(파일시스템의 트리와 해당 트리의 모든 파일, 디렉토리의 메타데이터를 관리)- 파일을 저장, 읽기작업 관리하며 메타데이터를 유지하며 어떤 파일이 어떤 블록에 있고, 어떤 데이터노드에 저장되는지 파악- 즉, 어떤 파일들이 어떤 블록에 속해있고, 블록들이 어떤 데이터노드에 관리되어 있는지 등 메타정보를 저장하면서 파일 시스템을 관리하는 주체라고 보면 된다. * FsImage : 파일의 매핑된 블럭 등을 포함한 전체 네임스페이스 정보를 저장한다.* EditLog : FsImage정보..

HDFS (Hadoop Distributed File System)등장 배경1. 다수 개의 디스크에 저장의 한계- 하나의 Drive에 모든 데이터를 저장하는 것은 많은 시간이 걸린다- 그렇다면 여러 개의 디스크에 데이터를 나누어서 저장하면, 더 효율적이지 않을까?- 예상 문제 a. Hardware Failure에 취약(디스크에 문제가 생겨 데이터 유실 등) => replication으로 해결 b. 흩어져 있는 데이터를 combine하는 데 리소스 및 문제 발생 가능성 2. 분산 파일 시스템의 필요성 부각- 하나의 디스크보다 훨씬 많은 데이터를 저장하기에 separate machines에 partition하는 작업이 필요- 네트워크 베이스로 여러 개의 머신을 관리하는 분산 파일 시스템(distrib..