Notice
Recent Posts
Recent Comments
Link
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | 6 | |
7 | 8 | 9 | 10 | 11 | 12 | 13 |
14 | 15 | 16 | 17 | 18 | 19 | 20 |
21 | 22 | 23 | 24 | 25 | 26 | 27 |
28 | 29 | 30 |
Tags
- Transaction
- wrapper class
- 프로그래머스
- Spring
- 우선순위큐
- ES6
- S3
- MVC
- MySQL
- SQL
- procedure
- spark
- namenode
- Parquet
- BIT연산
- boto3
- 시뮬레이션
- JPA
- BFS
- greedy
- 백준
- datanode
- EventScheduler
- priorityqueue
- hdfs
- bigdata
- ACID
- 구현
- database
- Algorithm
Archives
- Today
- Total
목록spark (1)
IT 개발일지

1. Limitation of MapReduce- 여러 job을 만들고 실행하기 위해서는 복잡한 과정을 거쳐야 해서 multi-pass 분석에서는 원활하지 않음- interactive, ad-hoc query에서는 불리함- 실시간(real-time) 처리에서는 불리함 => 주로 batch 작업에 용이- HDFS => intermediate data : file disi IO + reduce 에서 불러오려면 disk io + outputdata를 hdfs에 씌우려면 output => replication이 disk-io에 의해 느림! 2. Apache Spark1. Spark 특징 - 클러스터 환경에서 데이터를 병렬로 처리하는 오픈소스 엔진- python, Java, 스칼라, R 등의 언어를 지원- 인 메..
카테고리 없음
2024. 8. 22. 11:56