본문 바로가기

Google Search Console 크롤링 범위 정리

Google Search Console 크롤링 범위 정리

1. 문제 상황

웹페이지 SEO 분석을 위해 Google Search Console이 HTML의 어떤 데이터를 수집하는지 확인할 필요가 있었다.
특히 다음 두 가지에 대한 궁금증이 있었다.

  • Google이 <meta> 태그만 수집하는지
  • 아니면 <body> 태그의 실제 콘텐츠까지 크롤링하는지

2. Google 검색 크롤링 구조

(1) <head> 영역에서 수집하는 정보

Google은 페이지의 메타데이터와 검색 결과에 직접 영향을 주는 정보를 수집한다.

대표적인 메타 태그:

<meta name="description" content="페이지 설명">
<meta name="robots" content="index, follow">
<meta property="og:title" content="페이지 제목">
 

주요 수집 데이터

  • title : 검색 결과 제목
  • description : 검색 결과 설명
  • robots : 색인 여부
  • charset, viewport : 페이지 설정 정보

즉, 검색 결과에 표시될 메타정보는 대부분 <head>에서 가져온다.


(2) <body> 영역에서 수집하는 정보

Google은 실제 검색 결과를 만들기 위해 본문 콘텐츠도 함께 크롤링한다.

수집 대상

  • h1 ~ h6 : 문서 구조 분석
  • p : 본문 텍스트
  • a : 내부 / 외부 링크
  • img alt : 이미지 설명
  • 일부 JavaScript 렌더링 콘텐츠

예시

<body>
	<h1>Java Backend 개발 블로그</h1>
	<p>Spring Boot와 Java 기반 서버 개발 정리</p>
</body>

 

이 텍스트는 검색 키워드 매칭에 사용된다.


3. 크롤링이 제한되는 경우

다음 설정이 있을 경우 Google이 데이터를 수집하지 않을 수 있다.

robots 차단

<meta name="robots" content="noindex">

또는

robots.txt 내에서  Disallow 설정
Disallow: /admin
 

접근 제한 페이지

  • 로그인 필요 페이지
  • 인증이 필요한 API 데이터

숨겨진 콘텐츠

display:none
visibility:hidden
 

검색엔진이 의도적으로 숨겨진 콘텐츠로 판단하면 무시될 수 있다.


4. Search Console에서 확인 가능한 데이터

Search Console에서 확인 가능한 주요 정보

기능설명
URL 검사 페이지 색인 상태 확인
검색 성과 클릭수 / 노출수 / CTR
페이지 보고서 색인된 페이지 확인
사이트맵 크롤링 대상 URL 관리

특히 URL 검사 도구를 사용하면

  • Google이 본 렌더링 HTML
  • 마지막 크롤링 시간
  • 색인 여부

를 확인할 수 있다.


5. 정리 (핵심)

Google 검색 크롤링 특징

1️⃣ <meta> 태그만 수집하는 것이 아니다
2️⃣ <body>의 본문 콘텐츠도 함께 분석한다
3️⃣ 실제 검색 키워드는 본문 텍스트 기반으로 분석된다
4️⃣ robots, noindex, 로그인 페이지는 크롤링 제한된다


한줄 요약

Google Search Console 분석을 통해 검색엔진이 <meta> 정보뿐 아니라 <body>의 실제 콘텐츠(텍스트, 링크, 이미지 alt)를 함께 크롤링하여 검색 색인을 생성한다는 구조를 이해하고 SEO 동작 원리를 정리하였다.