이 글은 본의 아니게 시작된 시리즈글의 첫번째 글 입니다.

질문이 있고 그 답이 담긴 글이 웹상의 어딘가에 공개되어 있다면, 그 글을 가장 정확히 찾아주는 것은 아마 구글일 것 입니다. 그 만큼 구글검색(정확히는 웹검색)의 정확도는 여타 검색 서비스 보다 뛰어 납니다. 그리고 다른 경쟁 서비스가 똑같이 따라하고 싶어도 따라할 수 없을 만큼 뛰어납니다. 이런 구글검색의 뛰어남은 어디서 오는 걸까요? 구글검색의 힘은 무엇일까요?

출처: http://www.flickr.com/photos/jeffmcneill/3243431754/ 본문내용과 관계없음


얼마전에 이런 질문의 답에 대한 힌트를 옅볼수 있는 글을 읽은적이 있습니다. 컨퍼런스에서 발표된 "The Ureasonable Effectiveness of Data"라는 글 인데요. 이 글은 구글에서 근무하는 3명(Alon Halevy, Peter Norvig, Fernando Pereira)의 아티클 입니다. 구글에서 일하는 사람들이 생각하는 지향점을 보면서, 구글검색의 뛰어난 점 (구글검색의 힘)에 대해 생각해 볼 수 있는 글 이었습니다.

결론적으로 말하자면 이 글에서 이야기 하고 있는 내용은 굉장히 많은 문서(데이터)를 가지고 분석하면, 다른데서 찾을 수 없었던 의미있는 데이터를 찾을 수 있다는 자랑 정도 되겠습니다.

For many tasks, words and word combinations provide all the representational machinery we need to learn from text. Because of a huge shared cognitive and cultural context, linguistic expression can be highly ambiguous and still often be understood correctly. The same meaning can be expressed in many different ways, and the same expression can express many different meanings. Choose a representation that can use unsupervised learning on unlabeled data, which is so much more plentiful than labeled data. - The Ureasonable Effectiveness of Data

좀 더 살펴보면, 위의 내용은 글에서 이야기 하고 있는 가장 큰 문단 입니다. 대충 인간의 언어는 매우 다양한 의미를 나타내기 때문에, 대량의 택스트에서 뜻을 알아내는 것은 매우 유용하다는 말이 되겠습니다. 이야기를 좀 더 발전시켜서, 글에서는 작은 데이터에서 복잡한 방법으로 해석한 결과보다 많은 데이터에서 간단한 방법으로 해석한 결과가 더 좋다고 이야기 합니다.

세계에서 가장 많은 웹문서(택스트 데이터)를 가지고 있는 곳이 바로 구글 입니다. 이런 이야기라면 세계에서 가장 많은 웹문서를 가지고 있는 구글은 남들보다 간단한 방법으로 해석해서 더 정확한 결과를 만들 수 있습니다.

가장 많은 웹문서를 가지고 있다는 것은 단순히 많이 모았다는 뜻이 아닙니다. 거대한 데이터를 모을 수 있고, 갱신할 수 있고, 분석할 수 있고, 저장할 있고, 보여줄 수 있다는 뜻 입니다. 어떤 웹문서의 내용을 가장 아는 사람은 그 문서를 만든 사람이고, 그 다음은 구글 이라는 소리가 있습니다.

구글은 데이터를 분석하고 거기서 2차적인 정보를 얻어내는 것에 관심이 많습니다. 관련연구 결과가 많이 나오는 것을 보면 알 수 있죠. 이와 비슷한 의미로, 구글은 중국,일본,한국의 형태소 분석에 동일한 알고리즘을 사용한다고 들었습니다. 기계학습에 사용되는 데이터는 다르지만 학습방법은 동일하다고 합니다. 구글은 데이터의 힘을 믿는 같습니다. 데이터를 가장 잘 모을 줄 알고, 가장 많이 모을 줄 알고, 가장 잘 분석할 줄 알고, 그 결과를 믿는 다는이죠.

이런게 바로 구글의 힘 이라고 생각 합니다.

남은 이야기:
네이버 검색의 힘은 어디서 오는 걸까요?
구글의 희망, 네이버의 고민 - 블로그

빠른소식을 원하신다면 또는 Add to Google로 구독하시면 편리합니다. ^^

안내
이글에는 다른분에게 권리가 있는 컨텐츠가 포함되어 있을 수 있으며, 이를 무단으로 사용하시면 안됩니다. 자세한 내용은 컨텐츠 사용시 주의사항을 읽어봐 주시기 바랍니다.

Creative Commons License
제가 직접 작성한 부분에 한하여 크리에이티브 커먼즈 코리아 저작자표시-비영리-변경금지 2.0 대한민국 라이선스에 따라 이용하실 수 있습니다.
  1. 또자쿨쿨 2009/05/06 13:15 답글수정삭제

    힘에 세죠. 구글 -0 -;;;
    저도 세지고 싶어요... -0 -;;;

  2. 명이 2009/05/06 13:32 답글수정삭제

    음..네이버에 힘은.......돈...? -_-;;;;

    • 지민아빠 2009/05/06 13:41 수정삭제

      네이버가 아무리 돈이 많아도 알짜배기 SKT 보다 낳으려고요. 남들이 아무리 우습게 봐도 네이버의 기술력은 국내 최고 입니다. ㅎㅎ

  3. 까칠이 2009/05/06 15:09 답글수정삭제

    구글은 일하는 사람들에게 자부심을 느끼게 해준다죠...
    대단한 사람들이 아니라 대단한 사람으로 만들어 주는곳..

  4. egoing 2009/05/15 14:34 답글수정삭제

    사람으로 치면 구글은 몽상가보다는 수집광에 가까운 것 같습니다. 어찌되었던 당분간 세상은 구글로 인해서 스토리지가 지배할 것 같아요. 다음 글 기대하겠습니다. ^^

  5. 실리콘벨리(임상범학생) 2009/05/23 23:42 답글수정삭제

    제가 개인적으로 느끼는 구글의 검색엔진은 정보와 데이터를 엄청난 규모로 확보하고 있으며
    다양한 알고리즘에 의해서 적절하게 분류하여 검색의 형태(키워드,단어,문장,문맥)들에 대해
    적절하게 결과를 주는 것이 가장 큰 장점이라 생각하고 있습니다.^^

  6. MS의 새 검색 '빙(bing)'에 대한 딴지

    Tracked from 하츠의 꿈 2009/06/02 13:09

    MS의 빙(bing)이오픈 되었다는 기사가 있길레 www.bing.com에 들어가서 보니까 정말로 오픈이 되어 있더군... 불과 하루전에 빙(bing)에 대한 글을 썻는데...(흐이구~~) 그 기사는 빙(bing)에 대해 우호적인 내용이 많았다. 처음 들어가면 대한민국으로 설정되어 있었고, 첫화면의 느낌은 파워포인트 템플릿 막 불러온 것 처럼 횡하니 괜찮더군^^;; [www.bing.com : 대한민국] 아직 한글 버전이 다 완성되지 않은 듯 하다...

  7. Google Squared - google lab의 새로운 검색제안

    Tracked from 즐거워하지 않으면 군자가 아니다. 2009/06/06 10:26

    구글이라고 해놓고 웬 기상청 사이트냐구요? 아닙니다. 구글에서 새로운 검색을 제안하였습니다. Google Squared라는 기능입니다. 검색대상과 관련된 여러 항목들을 종목별로 보여주는 검색방법입니다. 사실, 저는 지메일, 구글 캘린더, 구글리더를 사용하고, 더군다나 블로그도 구글에 대한 집착(?)때문에 여기 Textcube로 옮겨왔습니다. 그런데도 막상 구글의 본령이라고 할 수 있는 검색에 있어서는 먼저 네이버에게 물어보고, 그래도 해결이 안될때..

트랙백 주소 :: http://ypshin.com/2690696/trackback/
옵션
댓글 달기
블로그 이미지
Blog Image
지민아빠의 해처리

by 지민아빠
프로필 버튼
프로필 상세보기
블로그롤 정보




구글 우수 블로거

카테고리



지민아빠의 해처리

지민아빠's Blog is powered by Tattertools / Supported by Tatter & Media
Copyright by 지민아빠 [ http://www.ringblog.com ]. All rights reserved.

Tattertools Tatter & Media DesignMyself!
지민아빠's Blog is powered by Textcube. Designed by Qwer999. Supported by Tatter & Media.