이 글은 본의 아니게 시작된 시리즈글의 첫번째 글 입니다.

질문이 있고 그 답이 담긴 글이 웹상의 어딘가에 공개되어 있다면, 그 글을 가장 정확히 찾아주는 것은 아마 구글일 것 입니다. 그 만큼 구글검색(정확히는 웹검색)의 정확도는 여타 검색 서비스 보다 뛰어 납니다. 그리고 다른 경쟁 서비스가 똑같이 따라하고 싶어도 따라할 수 없을 만큼 뛰어납니다. 이런 구글검색의 뛰어남은 어디서 오는 걸까요? 구글검색의 힘은 무엇일까요?

출처: http://www.flickr.com/photos/jeffmcneill/3243431754/ 본문내용과 관계없음


얼마전에 이런 질문의 답에 대한 힌트를 옅볼수 있는 글을 읽은적이 있습니다. 컨퍼런스에서 발표된 "The Ureasonable Effectiveness of Data"라는 글 인데요. 이 글은 구글에서 근무하는 3명(Alon Halevy, Peter Norvig, Fernando Pereira)의 아티클 입니다. 구글에서 일하는 사람들이 생각하는 지향점을 보면서, 구글검색의 뛰어난 점 (구글검색의 힘)에 대해 생각해 볼 수 있는 글 이었습니다.

결론적으로 말하자면 이 글에서 이야기 하고 있는 내용은 굉장히 많은 문서(데이터)를 가지고 분석하면, 다른데서 찾을 수 없었던 의미있는 데이터를 찾을 수 있다는 자랑 정도 되겠습니다.

For many tasks, words and word combinations provide all the representational machinery we need to learn from text. Because of a huge shared cognitive and cultural context, linguistic expression can be highly ambiguous and still often be understood correctly. The same meaning can be expressed in many different ways, and the same expression can express many different meanings. Choose a representation that can use unsupervised learning on unlabeled data, which is so much more plentiful than labeled data. - The Ureasonable Effectiveness of Data

좀 더 살펴보면, 위의 내용은 글에서 이야기 하고 있는 가장 큰 문단 입니다. 대충 인간의 언어는 매우 다양한 의미를 나타내기 때문에, 대량의 택스트에서 뜻을 알아내는 것은 매우 유용하다는 말이 되겠습니다. 이 이야기를 좀 더 발전시켜서, 글에서는 작은 데이터에서 복잡한 방법으로 해석한 결과보다 많은 데이터에서 간단한 방법으로 해석한 결과가 더 좋다고 이야기 합니다.

세계에서 가장 많은 웹문서(택스트 데이터)를 가지고 있는 곳이 바로 구글 입니다. 이런 이야기라면 세계에서 가장 많은 웹문서를 가지고 있는 구글은 남들보다 간단한 방법으로 해석해서 더 정확한 결과를 만들 수 있습니다.

가장 많은 웹문서를 가지고 있다는 것은 단순히 많이 모았다는 뜻이 아닙니다. 거대한 데이터를 모을 수 있고, 갱신할 수 있고, 분석할 수 있고, 저장할 수 있고, 보여줄 수 있다는 뜻 입니다. 어떤 웹문서의 내용을 가장 잘 아는 사람은 그 문서를 만든 사람이고, 그 다음은 구글 이라는 소리가 있습니다.

구글은 데이터를 분석하고 거기서 2차적인 정보를 얻어내는 것에 관심이 많습니다. 관련연구 결과가 많이 나오는 것을 보면 알 수 있죠. 이와 비슷한 의미로, 구글은 중국,일본,한국의 형태소 분석에 동일한 알고리즘을 사용한다고 들었습니다. 기계학습에 사용되는 데이터는 다르지만 학습방법은 동일하다고 합니다. 구글은 데이터의 힘을 믿는 것 같습니다. 데이터를 가장 잘 모을 줄 알고, 가장 많이 모을 줄 알고, 가장 잘 분석할 줄 알고, 그 결과를 믿는 다는 것이죠.

이런게 바로 구글의 힘 이라고 생각 합니다.

남은 이야기:
네이버 검색의 힘은 어디서 오는 걸까요?
구글의 희망, 네이버의 고민 - 블로그
저작자 표시 비영리 변경 금지
또는 Add to Google로 구독하시면 편리합니다. ^^

TRACKBACK :: http://ypshin.com/trackback/2690696 관련글 쓰기

댓글을 달아 주세요

  1. 또자쿨쿨  수정/삭제  댓글쓰기

    힘에 세죠. 구글 -0 -;;;
    저도 세지고 싶어요... -0 -;;;

    2009/05/06 13:15
    • 명이  수정/삭제

      온타운 홧팅입니다요~!!!!!
      말만 이러고 또자님 전화도 제대로 못받는 1인....ㅠ_ㅠ

      2009/05/06 13:32
    • 지민아빠  수정/삭제

      네. 일단 많이 드시고 운동 하셔야죠. ㅎㅎ

      2009/05/06 13:42
  2. 명이  수정/삭제  댓글쓰기

    음..네이버에 힘은.......돈...? -_-;;;;

    2009/05/06 13:32
    • 지민아빠  수정/삭제

      네이버가 아무리 돈이 많아도 알짜배기 SKT 보다 낳으려고요. 남들이 아무리 우습게 봐도 네이버의 기술력은 국내 최고 입니다. ㅎㅎ

      2009/05/06 13:41
  3. 까칠이  수정/삭제  댓글쓰기

    구글은 일하는 사람들에게 자부심을 느끼게 해준다죠...
    대단한 사람들이 아니라 대단한 사람으로 만들어 주는곳..

    2009/05/06 15:09
    • 지민아빠  수정/삭제

      어떤이의 말로는 가만히 있어도 자부심을 느낄만한 사람만 들어 간다고 하더라고요. ㅎㅎ

      2009/05/06 16:07
  4. egoing  수정/삭제  댓글쓰기

    사람으로 치면 구글은 몽상가보다는 수집광에 가까운 것 같습니다. 어찌되었던 당분간 세상은 구글로 인해서 스토리지가 지배할 것 같아요. 다음 글 기대하겠습니다. ^^

    2009/05/15 14:34
    • 지민아빠  수정/삭제

      아 기대까지 해 주신다니 몸둘바를 모르겠군요. ^^
      구글로 인해서 세상이 변화할 정도면 정말 대단한 것 같습니다.

      2009/05/15 22:32
  5. 실리콘벨리(임상범학생)  수정/삭제  댓글쓰기

    제가 개인적으로 느끼는 구글의 검색엔진은 정보와 데이터를 엄청난 규모로 확보하고 있으며
    다양한 알고리즘에 의해서 적절하게 분류하여 검색의 형태(키워드,단어,문장,문맥)들에 대해
    적절하게 결과를 주는 것이 가장 큰 장점이라 생각하고 있습니다.^^

    2009/05/23 23:42
    • 지민아빠  수정/삭제

      저도 같은 생각 입니다. 그리고 아무나 따라할 수 없는 능력이라고 생각 합니다. ^^

      2009/05/24 18:10

◀ Prev 1  ... 99 100 101 102 103 104 105 106 107  ... 783  Next ▶
BLOG main image
지민아빠의 해처리

카테고리

분류 전체보기 (783)
소식-웹서비스 (3)
소식-인수합병 (2)
소개-이벤트 (2)
소개-휴대폰 (2)
IT소식-웹서비스 (247)
IT소식-통신전자 (203)
친절리뷰 (24)
우주전쟁 (29)
욍알욍알 (218)
산책노트 (53)

지민아빠의 해처리

지민아빠's Blog is powered by Tattertools / Supported by Tatter & Media
Copyright by 지민아빠 [ http://www.ringblog.com ]. All rights reserved.

Tattertools Tatter & Media DesignMyself!
지민아빠's Blog is powered by Textcube. Designed by Qwer999. Supported by Tatter & Media.