'spark' 태그의 글 목록

Notice

Recent Posts

Recent Comments

Link

« 2026/02 »
일	월	화	수	목	금	토
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28

Tags more

Archives

Today

Total

관리 메뉴

글쓰기
방명록
RSS
관리

목록spark (1)

IT 개발일지

[빅데이터 파이프라인 마스터] Week8 - Spark and RDD

1. Limitation of MapReduce- 여러 job을 만들고 실행하기 위해서는 복잡한 과정을 거쳐야 해서 multi-pass 분석에서는 원활하지 않음- interactive, ad-hoc query에서는 불리함- 실시간(real-time) 처리에서는 불리함 => 주로 batch 작업에 용이- HDFS => intermediate data : file disi IO + reduce 에서 불러오려면 disk io + outputdata를 hdfs에 씌우려면 output => replication이 disk-io에 의해 느림! 2. Apache Spark1. Spark 특징 - 클러스터 환경에서 데이터를 병렬로 처리하는 오픈소스 엔진- python, Java, 스칼라, R 등의 언어를 지원- 인 메..

카테고리 없음 2024. 8. 22. 11:56

이전 Prev 1 Next 다음

목록spark (1)

IT 개발일지

티스토리툴바