λ³Έλ¬Έ λ°”λ‘œκ°€κΈ°
개인 곡뢀

[TIL] ν•˜λ‘‘μ— λŒ€ν•΄μ„œ κ°„λ‹¨νžˆ 정리

by syLim___ 2024. 11. 22.
728x90

였늘 ν•˜λ‘‘μ— λŒ€ν•œ μ „λ°˜μ μΈ μ„€λͺ…을 λ“€μ–΄μ„œ

ν•˜λ‘‘μ΄ 무엇인가에 λŒ€ν•œ λ‚΄μš©μ„ μ•„μ£Ό κ°„λ‹¨ν•˜κ²Œ 정리해두렀고 ν•œλ‹€.

 

βœ… ν•˜λ‘‘μ΄λž€?

ν•˜λ‘‘μ΄λž€ Apache μž¬λ‹¨μ—μ„œ κ΄€λ¦¬ν•˜λŠ” μ˜€ν”ˆμ†ŒμŠ€ λΆ„μ‚° 처리 ν”Œλž«νΌμ΄λ‹€.

ν•˜λ‘‘μ˜ 핡심 기술인 HDFS(Highly Scalable Distributed File System)κ³Ό MapReduceλŠ”,

κ΅¬κΈ€μ—μ„œ 2003~2004년에 λ°œν‘œν•œ File Systemκ³Ό MapReduce κ΄€λ ¨ 논문을 μ°Έκ³ ν•˜μ—¬ Java둜 κ΅¬ν˜„ν•œ 것이라고 ν•œλ‹€.

 

βœ… ν•˜λ‘‘μ€ μ•„μ£Ό 큰 νŒŒμΌμ„ μ—¬λŸ¬ 개의 block으둜 μͺΌκ°œμ–΄ 데이터 λ…Έλ“œμ— μ €μž₯ν•œλ‹€.

- ν•˜λ‚˜μ˜ νŒŒμΌμ€ μ—¬λŸ¬ 개의 데이터 λ…Έλ“œμ— λΆ„μ‚°λ˜μ–΄ μ €μž₯λœλ‹€.

- μ΄λ•Œ ν•˜λ‚˜μ˜ νŒŒμΌμ€ μ—¬λŸ¬ 개의 μ„œλ‘œ λ‹€λ₯Έ λ…Έλ“œμ— λ³΅μ œλ˜μ–΄ μ €μž₯λ˜λ―€λ‘œ, 데이터 μœ μ‹€ ν™•λ₯ λ„ 적닀.

- 데이터 λ…Έλ“œλŠ” λͺ‡ 개의 λ…Έλ“œμ—μ„œ 수천 개의 λ…Έλ“œλ‘œ ν™•μž₯될 수 μžˆλ‹€.

 

βœ… ν•˜λ‘‘μ—λŠ” μ–΄λ–€ 데이터가 μ €μž₯λ˜λ‚˜?

- ν•˜λ‘‘μ€ ν•œλ§ˆλ””λ‘œ λΉ„κ΄€κ³„ν˜• 파일 λ˜λŠ” 반ꡬ쑰적 데이터듀이 μ €μž₯λ˜λŠ” λŒ€κ·œλͺ¨ 파일 μ‹œμŠ€ν…œμ΄λ‹€.

- 예λ₯Ό λ“€λ©΄ clickstream, μ„Όμ„œ 데이터, μ„œλ²„ 둜그 등이 μ €μž₯될 수 μžˆλ‹€.

 

 

βœ… ν•˜λ‘‘μ˜ 핡심 μ„œλΉ„μŠ€

- ν•˜λ‘‘μ€ μ—¬λŸ¬ ν”„λ‘œμ νŠΈλ‘œ κ΅¬μ„±λœ ν”Œλž«νΌμ΄λ‹€.

- ν•˜λ‘‘μ˜ 핡심 μ„œλΉ„μŠ€λŠ” 크게 μ•„λž˜μ˜ 세가지이닀.

 

πŸ“Œ 1. HDFS

- 데이터λ₯Ό λΈ”λ‘μœΌλ‘œ λ‚˜λˆ  λΆ„μ‚° μ €μž₯ν•˜λŠ” 파일 μ‹œμŠ€ν…œμ΄λ‹€.

πŸ“Œ  2. MapReduce

- 데이터λ₯Ό λ³‘λ ¬λ‘œ μ²˜λ¦¬ν•˜λŠ” λΆ„μ‚° μ»΄ν“¨νŒ… λͺ¨λΈμ΄λ‹€.

- 데이터λ₯Ό μ—°μ‚°(Map)ν•˜κ³ , ν•„μš”ν•œ 결과만 μš”μ•½(Reduce)ν•œλ‹€.

πŸ“Œ  3. YARN(Yet Another Resource Negotiator)

- μœ„ 두 개 μ„œλΉ„μŠ€λ³΄λ‹€ λ‚˜μ€‘μ— μΆ”κ°€λœ μ„œλΉ„μŠ€μ΄λ‹€.

- ν•˜λ‘‘ ν΄λŸ¬μŠ€ν„°μ˜ λ¦¬μ†ŒμŠ€ 관리와 μž‘μ—… μŠ€μΌ€μ€„λ§μ„ λ‹΄λ‹Ήν•˜λŠ” 역할을 λ§‘λŠ”λ‹€.

 

πŸ“Œ  κ·Έ 외에도 μ•„λž˜ μ„œλΉ„μŠ€λ“€μ΄ μžˆλ‹€.

데이터λ₯Ό μ‘°μž‘ν•˜κ³  이동할 수 μžˆλ„λ‘ ν•˜λŠ” 데이터 μ„œλΉ„μŠ€: Hive, Hbase, Pig, Flume, Sqoop

ν΄λŸ¬μŠ€ν„°λ₯Ό 관리할 수 μžˆλŠ” 운영 μ„œλΉ„μŠ€: Ambari, Falcon, Oozie

 

728x90