본문 바로가기

IT

구글 검색엔진과 현재의 web 환경

 최근 web은 많은 변화를 겪었으며 지속적으로 변화하고 있다. 양적인 면에서 web의 크기는 기하급수적으로 커지고 있다. 과거에 비해 더 많은 사용자들이 web을 접하며 더 많은 정보가 web으로 유입되고 있다. 이로 인해 web에 있는 자료와 정보 등을 검색하는 시스템에도 변화가 요구되고 있다. 과거 디렉토리 방식으로 사람이 직접 자료들을 index하는 방식은 규모가 작은 web환경에서는 효과적이었지만 현 web환경에서는 너무 많은 자료가 web에 존재하여 이 자료들을 소화할 능력이 부족하며 앞으로 새로운 자료들의 유입속도에 발맞추기 버거울 것이다. 또한 단순히 키워드를 매칭하는 자동검색엔진의 경우 검색 결과의 질이 현저히 낮은 단점이 있다.

 양적 측면의 문제점을 해결하기 위해 빠른 속도로 늘어나는 web자료를 수집할 수 있는 더욱 빠른 crawling기술이 필요다. 또한 수집한 자료들을 효율적으로 저장할 수 있는 저장 매체와 대용량의 저장공간이 필요하며 효율적인 분류업무를 하는 기술이 필요하다. 다행히도 하드웨어 측면에서의 기술발달이 이를 가능하게 도와주었으며 현존하는 web 검색엔진들은 양적인 증가에 대응하고 있다. 그들은 더 많은 문서를 분류하고 있으며 늘어난 사용자들의 질의에 응답해 주고 있다. 하지만 앞으로 web규모와 사용자 증가 속도는 더욱 빨라질 것이며 이 속도를 따라가지 못할 경우 많은 문제점을 야기시킬 것 이다. 이 점을 고려하여 구글은 큰 규모의 data set을 다루는데 탁월하게 설계되었다.

 구글이 주력하는 부분은 질적 측면의 향상이다. 높은 질의 검색결과를 제공하는 것은 구글의 중심적인 목표이기도 하다. 자료의 양이 크게 늘고 있기 때문에 어느 질의에 대한 검색결과 역시 크게 늘어나고 있다. 하지만 이 많은 양의 검색 결과를 모두 보는, 혹은 모두 볼 수 있는 이용자는 없으며 이용자들은 주로 앞쪽에 배치된 몇몇 자료만 살펴본 뒤 나머지 검색결과에 대해서는 훑어 보거나 보려는 시도조차 하지 않을 것이다. 따라서 현 web 환경에서는 많은 양의 검색 결과를 주는 것보다 필터링을 통해 검색 이용자에게 필요한 정보만을 뽑아내어 제공하는 측면이 중요하다. 이외에도 구글은 spacelap-like 환경 구축, 많은 이용자가 사용할 수 있는 시스템 구축 그리고 상업적 측면에 주력하는 타 검색엔진과 달리 학술 분야 검색의 발전 등 다양한 목표를 삼고 있다.


반응형

'IT' 카테고리의 다른 글

구글의 page rank  (0) 2016.03.15
전문 도서관의 Library 2.0 서비스  (0) 2016.03.10