웹 크롤러란 무엇이며 어떻게 작동합니까?

0
318

1과 0으로 이루어진 거미.
엔조조 / 셔터스톡

Google에서 무언가를 검색하고 “어디를 봐야 하는지 어떻게 알까요?”라고 궁금해 한 적이 있습니까? 답은 “웹 크롤러”입니다. 웹을 검색하고 색인을 생성하여 온라인에서 쉽게 찾을 수 있도록 합니다. 설명드리겠습니다.

검색 엔진 및 크롤러

Google이나 Bing과 같은 검색 엔진에서 키워드를 사용하여 검색하면 사이트는 수조 페이지를 선별하여 해당 용어와 관련된 결과 목록을 생성합니다. 이 검색 엔진은 파일에 이 모든 페이지를 정확히 어떻게 가지고 있고, 찾는 방법을 알고, 몇 초 안에 이러한 결과를 생성합니까?

정답은 스파이더라고도 하는 웹 크롤러입니다. 이들은 검색 엔진에 추가될 수 있도록 웹을 “크롤링”하거나 탐색하는 자동화된 프로그램(종종 “로봇” 또는 “봇”이라고 함)입니다. 이 로봇은 웹사이트의 색인을 생성하여 결국 검색 결과에 표시되는 페이지 목록을 생성합니다.

크롤러는 또한 이러한 페이지의 복사본을 만들어 엔진의 데이터베이스에 저장하므로 거의 즉시 검색할 수 있습니다. 검색 엔진이 종종 데이터베이스에 캐시된 버전의 사이트를 포함하는 이유이기도 합니다.

관련된: 다운되었을 때 웹 페이지에 액세스하는 방법

사이트 맵 및 선택

순서도 앞에 있는 남자의 그림입니다.
그리보에도프 / Shutterstock

그렇다면 크롤러는 크롤링할 웹사이트를 어떻게 선택할까요? 가장 일반적인 시나리오는 웹사이트 소유자가 검색 엔진이 사이트를 크롤링하기를 바라는 것입니다. Google, Bing, Yahoo 또는 다른 검색 엔진에 페이지 색인을 생성하도록 요청하여 이를 달성할 수 있습니다. 이 프로세스는 엔진마다 다릅니다. 또한 검색 엔진은 URL이 다른 공개 사이트에 링크된 횟수를 추적하여 크롤링할 인기 있고 잘 링크된 웹 사이트를 자주 선택합니다.

웹사이트 소유자는 특정 프로세스를 사용하여 검색 엔진이 다음과 같은 웹사이트를 색인화할 수 있도록 할 수 있습니다.
사이트 맵 업로드. 이것은 웹사이트의 일부인 모든 링크와 페이지를 포함하는 파일입니다. 일반적으로 색인을 생성할 페이지를 나타내는 데 사용됩니다.

광고

검색 엔진이 이미 웹사이트를 한 번 크롤링하면 자동으로 해당 사이트를 다시 크롤링합니다. 빈도는 다른 측정항목 중에서 웹사이트의 인기도에 따라 달라집니다. 따라서 사이트 소유자는 엔진이 색인을 생성할 새 웹사이트를 알 수 있도록 자주 업데이트된 사이트 맵을 유지합니다.

로봇과 공손함 요인

Devenorr / Shutterstock

만약 웹사이트가 하지 않는다 일부 또는 전체 페이지가 검색 엔진에 표시되기를 원하십니까? 예를 들어 사람들이 회원 전용 페이지를 검색하거나 404 오류 페이지가 표시되는 것을 원하지 않을 수 있습니다. 여기에서 robots.txt라고도 하는 크롤링 제외 목록이 작동합니다. 이것은 인덱싱에서 제외할 웹 페이지를 크롤러에 지시하는 간단한 텍스트 파일입니다.

robots.txt가 중요한 또 다른 이유는 웹 크롤러가 사이트 성능에 상당한 영향을 미칠 수 있기 때문입니다. 크롤러는 기본적으로 웹사이트의 모든 페이지를 다운로드하기 때문에 리소스를 소비하고 속도가 느려질 수 있습니다. 그들은 예측할 수 없는 시간에 승인 없이 도착합니다. 페이지의 색인을 반복적으로 생성할 필요가 없는 경우 크롤러를 중지하면 웹사이트 로드를 줄이는 데 도움이 될 수 있습니다. 다행히 대부분의 크롤러는 사이트 소유자의 규칙에 따라 특정 페이지 크롤링을 중지합니다.

메타데이터 매직

Google 검색 HowToGeek

Google의 모든 검색 결과의 URL과 제목 아래에 페이지에 대한 간단한 설명이 있습니다. 이러한 설명을 스니펫이라고 합니다. Google의 페이지 스니펫이 웹사이트의 실제 콘텐츠와 항상 일치하지 않는다는 것을 알 수 있습니다. 이는 많은 웹 사이트에 사이트 소유자가 페이지에 추가하는 사용자 정의 설명인 “메타 태그”라는 것이 있기 때문입니다.

사이트 소유자는 종종 웹사이트를 클릭하고 싶게 만드는 매력적인 메타데이터 설명을 제시합니다. Google은 또한 가격 및 재고 가용성과 같은 기타 메타 정보를 나열합니다. 이것은 전자 상거래 웹사이트를 운영하는 사람들에게 특히 유용합니다.

귀하의 검색

웹 검색은 인터넷 사용의 필수적인 부분입니다. 웹 검색은 새로운 웹사이트, 상점, 커뮤니티 및 관심사를 발견하는 좋은 방법입니다. 매일 웹 크롤러는 수백만 페이지를 방문하여 검색 엔진에 추가합니다. 크롤러에는 사이트 리소스를 차지하는 것과 같은 몇 가지 단점이 있지만 사이트 소유자와 방문자 모두에게 매우 중요합니다.

관련된: Google 검색 기록의 마지막 15분을 삭제하는 방법