Google Search Console 크롤링 범위 정리
1. 문제 상황
웹페이지 SEO 분석을 위해 Google Search Console이 HTML의 어떤 데이터를 수집하는지 확인할 필요가 있었다.
특히 다음 두 가지에 대한 궁금증이 있었다.
- Google이 <meta> 태그만 수집하는지
- 아니면 <body> 태그의 실제 콘텐츠까지 크롤링하는지
2. Google 검색 크롤링 구조
(1) <head> 영역에서 수집하는 정보
Google은 페이지의 메타데이터와 검색 결과에 직접 영향을 주는 정보를 수집한다.
대표적인 메타 태그:
<meta name="description" content="페이지 설명">
<meta name="robots" content="index, follow">
<meta property="og:title" content="페이지 제목">
주요 수집 데이터
- title : 검색 결과 제목
- description : 검색 결과 설명
- robots : 색인 여부
- charset, viewport : 페이지 설정 정보
즉, 검색 결과에 표시될 메타정보는 대부분 <head>에서 가져온다.
(2) <body> 영역에서 수집하는 정보
Google은 실제 검색 결과를 만들기 위해 본문 콘텐츠도 함께 크롤링한다.
수집 대상
- h1 ~ h6 : 문서 구조 분석
- p : 본문 텍스트
- a : 내부 / 외부 링크
- img alt : 이미지 설명
- 일부 JavaScript 렌더링 콘텐츠
예시
<body>
<h1>Java Backend 개발 블로그</h1>
<p>Spring Boot와 Java 기반 서버 개발 정리</p>
</body>
이 텍스트는 검색 키워드 매칭에 사용된다.
3. 크롤링이 제한되는 경우
다음 설정이 있을 경우 Google이 데이터를 수집하지 않을 수 있다.
robots 차단
<meta name="robots" content="noindex">
또는
robots.txt 내에서 Disallow 설정
Disallow: /admin
접근 제한 페이지
- 로그인 필요 페이지
- 인증이 필요한 API 데이터
숨겨진 콘텐츠
display:none
visibility:hidden
검색엔진이 의도적으로 숨겨진 콘텐츠로 판단하면 무시될 수 있다.
4. Search Console에서 확인 가능한 데이터
Search Console에서 확인 가능한 주요 정보
기능설명
| URL 검사 | 페이지 색인 상태 확인 |
| 검색 성과 | 클릭수 / 노출수 / CTR |
| 페이지 보고서 | 색인된 페이지 확인 |
| 사이트맵 | 크롤링 대상 URL 관리 |
특히 URL 검사 도구를 사용하면
- Google이 본 렌더링 HTML
- 마지막 크롤링 시간
- 색인 여부
를 확인할 수 있다.
5. 정리 (핵심)
Google 검색 크롤링 특징
1️⃣ <meta> 태그만 수집하는 것이 아니다
2️⃣ <body>의 본문 콘텐츠도 함께 분석한다
3️⃣ 실제 검색 키워드는 본문 텍스트 기반으로 분석된다
4️⃣ robots, noindex, 로그인 페이지는 크롤링 제한된다
한줄 요약
Google Search Console 분석을 통해 검색엔진이 <meta> 정보뿐 아니라 <body>의 실제 콘텐츠(텍스트, 링크, 이미지 alt)를 함께 크롤링하여 검색 색인을 생성한다는 구조를 이해하고 SEO 동작 원리를 정리하였다.