질문이 있고 그 답이 담긴 글이 웹상의 어딘가에 공개되어 있다면, 그 글을 가장 정확히 찾아주는 것은 아마 구글일 것 입니다. 그 만큼 구글검색(정확히는 웹검색)의 정확도는 여타 검색 서비스 보다 뛰어 납니다. 그리고 다른 경쟁 서비스가 똑같이 따라하고 싶어도 따라할 수 없을 만큼 뛰어납니다. 이런 구글검색의 뛰어남은 어디서 오는 걸까요? 구글검색의 힘은 무엇일까요?
얼마전에 이런 질문의 답에 대한 힌트를 옅볼수 있는 글을 읽은적이 있습니다. 컨퍼런스에서 발표된 "The Ureasonable Effectiveness of Data"라는 글 인데요. 이 글은 구글에서 근무하는 3명(Alon Halevy, Peter Norvig, Fernando Pereira)의 아티클 입니다. 구글에서 일하는 사람들이 생각하는 지향점을 보면서, 구글검색의 뛰어난 점 (구글검색의 힘)에 대해 생각해 볼 수 있는 글 이었습니다.
결론적으로 말하자면 이 글에서 이야기 하고 있는 내용은 굉장히 많은 문서(데이터)를 가지고 분석하면, 다른데서 찾을 수 없었던 의미있는 데이터를 찾을 수 있다는 자랑 정도 되겠습니다.
For many tasks, words and word combinations provide all the representational machinery we need to learn from text. Because of a huge shared cognitive and cultural context, linguistic expression can be highly ambiguous and still often be understood correctly. The same meaning can be expressed in many different ways, and the same expression can express many different meanings. Choose a representation that can use unsupervised learning on unlabeled data, which is so much more plentiful than labeled data. - The Ureasonable Effectiveness of Data
좀 더 살펴보면, 위의 내용은 글에서 이야기 하고 있는 가장 큰 문단 입니다. 대충 인간의 언어는 매우 다양한 의미를 나타내기 때문에, 대량의 택스트에서 뜻을 알아내는 것은 매우 유용하다는 말이 되겠습니다. 이 이야기를 좀 더 발전시켜서, 글에서는 작은 데이터에서 복잡한 방법으로 해석한 결과보다 많은 데이터에서 간단한 방법으로 해석한 결과가 더 좋다고 이야기 합니다.
세계에서 가장 많은 웹문서(택스트 데이터)를 가지고 있는 곳이 바로 구글 입니다. 이런 이야기라면 세계에서 가장 많은 웹문서를 가지고 있는 구글은 남들보다 간단한 방법으로 해석해서 더 정확한 결과를 만들 수 있습니다.
가장 많은 웹문서를 가지고 있다는 것은 단순히 많이 모았다는 뜻이 아닙니다. 거대한 데이터를 모을 수 있고, 갱신할 수 있고, 분석할 수 있고, 저장할 수 있고, 보여줄 수 있다는 뜻 입니다. 어떤 웹문서의 내용을 가장 잘 아는 사람은 그 문서를 만든 사람이고, 그 다음은 구글 이라는 소리가 있습니다.
구글은 데이터를 분석하고 거기서 2차적인 정보를 얻어내는 것에 관심이 많습니다. 관련연구 결과가 많이 나오는 것을 보면 알 수 있죠. 이와 비슷한 의미로, 구글은 중국,일본,한국의 형태소 분석에 동일한 알고리즘을 사용한다고 들었습니다. 기계학습에 사용되는 데이터는 다르지만 학습방법은 동일하다고 합니다. 구글은 데이터의 힘을 믿는 것 같습니다. 데이터를 가장 잘 모을 줄 알고, 가장 많이 모을 줄 알고, 가장 잘 분석할 줄 알고, 그 결과를 믿는 다는 것이죠.
댓글을 달아 주세요
힘에 세죠. 구글 -0 -;;;
2009/05/06 13:15저도 세지고 싶어요... -0 -;;;
온타운 홧팅입니다요~!!!!!
2009/05/06 13:32말만 이러고 또자님 전화도 제대로 못받는 1인....ㅠ_ㅠ
네. 일단 많이 드시고 운동 하셔야죠. ㅎㅎ
2009/05/06 13:42음..네이버에 힘은.......돈...? -_-;;;;
2009/05/06 13:32네이버가 아무리 돈이 많아도 알짜배기 SKT 보다 낳으려고요. 남들이 아무리 우습게 봐도 네이버의 기술력은 국내 최고 입니다. ㅎㅎ
2009/05/06 13:41구글은 일하는 사람들에게 자부심을 느끼게 해준다죠...
2009/05/06 15:09대단한 사람들이 아니라 대단한 사람으로 만들어 주는곳..
어떤이의 말로는 가만히 있어도 자부심을 느낄만한 사람만 들어 간다고 하더라고요. ㅎㅎ
2009/05/06 16:07사람으로 치면 구글은 몽상가보다는 수집광에 가까운 것 같습니다. 어찌되었던 당분간 세상은 구글로 인해서 스토리지가 지배할 것 같아요. 다음 글 기대하겠습니다. ^^
2009/05/15 14:34아 기대까지 해 주신다니 몸둘바를 모르겠군요. ^^
2009/05/15 22:32구글로 인해서 세상이 변화할 정도면 정말 대단한 것 같습니다.
제가 개인적으로 느끼는 구글의 검색엔진은 정보와 데이터를 엄청난 규모로 확보하고 있으며
2009/05/23 23:42다양한 알고리즘에 의해서 적절하게 분류하여 검색의 형태(키워드,단어,문장,문맥)들에 대해
적절하게 결과를 주는 것이 가장 큰 장점이라 생각하고 있습니다.^^
저도 같은 생각 입니다. 그리고 아무나 따라할 수 없는 능력이라고 생각 합니다. ^^
2009/05/24 18:10