구글의 MapReduce의 간략한 이해

정보검색 2008. 4. 29. 22:56 Posted by 지민아빠

구글에게 MapReduce가 없었다면 현재의 구글은 없었을 찌도 모릅니다. 구글이 대단한 것은 세계에서 가장 많다고 자부할 수 있는 그 방대한 데이터를 유지하고 있는 능력 인 것 같습니다. 이 대단한 능력을 가능하게 하는 것은 바로 구글의 MapReduce가 있기 때문이죠.

구글의 MapReduce는 대용량 병렬처리를 가능하게 합니다. 엄청난 크기의 데이터를 짧은 시간안에 슈퍼컴퓨터가 없어도 처리가 가능 합니다. 하지만 MapReduce도 만능은 아니라서 여기에는 몇가지 조건이 붙습니다.

대표적으로 MapReduce는 key/value pair로 표시할 수 있는 데이터를 병렬처리 할 수 있습니다. key를 표시할 수 없는 데이터는 병렬처리로 나눌수 있는 기준이 없기 때문에 안됩니다. 그리고 batch 형태의 작업만 처리가 가능 합니다. 즉 하나의 작업에 시작과 끝이 존재하여야 나누어서 처리 할 수 있습니다.

MapReduce를 간단히 이해하여 보면 key 형식으로 표현될 수 있는 많은 양의 data 집합을 MapReduce Application이 정한 적당한 기준으로 key를 나누어서 처리한 다음 역시 MapReduce Application이 정한 적당한 기준으로 결과값을 나누어서 모으는 처리방법이 되겠습니다.

구글의 MapReduce를 실제로 사용해 볼 수는 없습니다. 하지만 고맙게도 구글의 논문을 통해서 MapReduce와 같은 동작을 할 수 있는 Hadoop이 오픈소스로 만들어 졌습니다. 현재는 Yahoo의 지원을 받으며 Apache Project로 안정적으로 진행되고 있습니다. Hadoop을 이용하면 구글의 MapReduce를 사용할 수 있습니다.

참고자료

invalid-file

'정보검색' 카테고리의 다른 글

이 바닥에 발들이던 그때 그시절 (6)	2008.11.03
페타바이트의 데이터를 보내는 방법 (4)	2008.01.29
구글이 처리하는 웹페이지 갯수는 얼마나 될까? (2)	2008.01.10

지민아빠의 해처리