Notice
                              
                          
                        
                          
                          
                            Recent Posts
                            
                        
                          
                          
                            Recent Comments
                            
                        
                          
                          
                            Link
                            
                        
                    | 일 | 월 | 화 | 수 | 목 | 금 | 토 | 
|---|---|---|---|---|---|---|
| 1 | ||||||
| 2 | 3 | 4 | 5 | 6 | 7 | 8 | 
| 9 | 10 | 11 | 12 | 13 | 14 | 15 | 
| 16 | 17 | 18 | 19 | 20 | 21 | 22 | 
| 23 | 24 | 25 | 26 | 27 | 28 | 29 | 
| 30 | 
                            Tags
                            
                        
                          
                          - 구현
- greedy
- Transaction
- Parquet
- database
- spark
- procedure
- boto3
- namenode
- bigdata
- hdfs
- SQL
- MySQL
- 시뮬레이션
- Algorithm
- 우선순위큐
- 백준
- BFS
- MVC
- Spring
- ES6
- S3
- BIT연산
- priorityqueue
- ACID
- datanode
- JPA
- EventScheduler
- wrapper class
- 프로그래머스
                            Archives
                            
                        
                          
                          - Today
- Total
목록spark (1)
IT 개발일지
 [빅데이터 파이프라인 마스터] Week8 - Spark and RDD
      
      
        [빅데이터 파이프라인 마스터] Week8 - Spark and RDD
        1. Limitation of MapReduce- 여러 job을 만들고 실행하기 위해서는 복잡한 과정을 거쳐야 해서 multi-pass 분석에서는 원활하지 않음- interactive, ad-hoc query에서는 불리함- 실시간(real-time) 처리에서는 불리함 => 주로 batch 작업에 용이- HDFS => intermediate data : file disi IO + reduce 에서 불러오려면 disk io + outputdata를 hdfs에 씌우려면 output => replication이 disk-io에 의해 느림! 2. Apache Spark1. Spark 특징 - 클러스터 환경에서 데이터를 병렬로 처리하는 오픈소스 엔진- python, Java, 스칼라, R 등의 언어를 지원- 인 메..
        카테고리 없음
        
        2024. 8. 22. 11:56
      
    