본문 바로가기

IT

구글의 page rank

 구글은 정확도 높은 검색 결과를 제공하기 위해 link structure를 이용하고 있다. 학술논문의 인용관계처럼 web page의 link는 page간의 밀접한 관계가 있음을 나타내는 중요한 정보이다. 이 link관계를 고려하여 각각의 page에 rank를 부여한다. 즉 link 구조를 통해 page의 질에 대한 측정을 하는 것이다. Link가 된 정보를 그대로 검색 결과로 나타내지 않고 구글에서 고안한 알고리즘을 통해 각 페이지에 부여된 rank 순으로 검색 결과를 보여준다. 예를 들면 많은 page에서 링크를 한 page의 rank를 높게 측정한다. 또 다른 예로 권위있는 학술지, 논문 등에서 인용한 논문을 높이 평가하는 것처럼 기존에 rank가 높게 측정된 page에서 link를 한 page는 높은 rank를 부여게 된다. 

 구글은 link에 사용되는 anchor text를 검색 시스템에서 이용하고 있다. Anchor text는 해당 page의 핵심을 요약적으로 보여주므로 검색 시스템에 유용한 정보로 사용될 수 있다. Page가 Text 형태가 아닌 그림, 동영상의 경우 text를 기준으로 분류하는 작업이나 검색어와 web page의 text단어들을 맞춰서 검색결과를 내놓는 시스템에서 이를 다루기가 어렵다. 하지만 Anchor text를 이용하면 text 형태가 아닌 자료들도 취급이 수월하며 검색결과에 포함할 수 있는 장점이 있다.

 구글의 시스템은 crawler와 indexer 그리고 sorter의 활동을 주축으로 업무를 수행한다. 우선 crawler들이 URL sever에서 web crawling을 하여 URL list를 가져온다. 이것은 store sever에 web page형태로 보내지며 다시 간략하게 정리하여 repository에 저장된다. Indexer들은 다양한 indexing function을 통해 압축된 문서들을 해석하며 문서들을 몇몇 핵심어로 표현하는 hits로 변환하여 barrels에 저장한다. Indexer들은 anchors file을 URL resolver에게 보내어 URL resolver가 anchor text로 변환 작업을 하게끔 한다. Sorter는 barrels에 있는 자료들을 docID, wordID에 따라 정돈하는 역할을 수행한다. 구글의 데이터 구조는 최적화되어 있어 적은 비용으로 이 같은 업무를 수행할 수 있다.


반응형

'IT' 카테고리의 다른 글

전문 도서관의 Library 2.0 서비스  (0) 2016.03.10
구글 검색엔진과 현재의 web 환경  (0) 2016.02.03