지난 시간엔 구글서치콘솔에서 색인을 빠르게 할 수 있도록 도와주며 실제 구글이 크롤링한 데이터를 확인하여 문제를 파악할 수 있게 도와주는 구글서치콘솔 URL 검사에 대해 알아봤습니다.
오늘은 색인이 되었는지에 대한 유무를 알 수 있게 해주는 페이지 색인생성과 동영상 색인생성에 대해 알아보고자 합니다.
이 색인은 단순히 갯수가 늘어난다고 해서 좋은 것도 아니고 반대로 줄어든다고 해서 나쁜 것이 아니기 때문에 각각의 원인에 대해 파악하면서 정의를 내리는 것이 중요합니다. 사실 이 카테고리를 정말 많은 사람들이 간과하고 있는 영역인 만큼 오늘 내용을 통해 색인 생성 카테고리에 대해 잘 알아가시기 바랍니다.
1. 색인생성 화면 주요 기능
처음 구글서치콘솔을 개설하신 분들은 색인생성 카테고리에 ‘페이지’는 확인이 되지만 ‘동영상 페이지 수’는 확인이 되지 않을 겁니다. 왜 나는 동영상 색인이 안뜰까 고민하시는 분들이라면 가장 쉽게 고려해볼 부분은 내 웹사이트에 색인이 가능한 동영상이 업로드 되어 있는지 파악하는 것이 먼저 필요합니다.
다시 본론으로 돌아와 페이지와 동영상은 사실 종류의 차이로 카테고리가 나눠져 있을 뿐 색인이 된 것과 되지 않은 것을 확인한다는 점에서 서로 다를 것이 없습니다. 각각 몇 개의 페이지가 색인 되었는지? 몇 개의 동영상이 색인 되지 않았는지? 확인하면서 개선해야 할 부분이 있는지 확인하는 것이 필요하죠.
하지만 이 색인 데이터를 잘 보지 않거나 혹은 단순히 많아지면 좋다고 생각하고 줄어들면 웹사이트에 이상이 있다고 판단하는 컨설턴트도 적잖게 있습니다. 지금부터 그 오해에 대해 기능적인 부분을 근거로 하여 해소시키고자 합니다.
2. 색인에 대한 잘못된 판단
1) 색인 수가 늘어나면 좋다.
이론적으로만 접근하면 이 정의는 틀리지 않습니다. 색인 개수가 늘어나면 페이지가 검색결과페이지에 노출이 된다는 의미인 만큼 장기적으로 늘어나는 건 SEO를 함에 있어서 좋은 신호이죠. 그렇기 때문에 제품, 카테고리, 정보성 콘텐츠 등 다양한 콘텐츠를 쌓으면 쌓을수록 SEO의 효과가 좋은 이유는 색인 개수의 영향이 있습니다.
하지만 좀 더 면밀하게 살펴보면 올바르게 색인이 되었는가? 색인 되어야 하지 말아야할 콘텐츠가 색인이 되었는가? 로 접근할 수 있습니다.
그럼 어떨 때 색인을 올바르게 판단할 수 있을까요? 다음 질문을 확인해가며 내 콘텐츠 URL을 판단해보세요.
[1] 중복 콘텐츠로 색인에서 제외되어야 하는 콘텐츠인가?
많은 사람들이 캐노니컬 태그를 지정하는 작업을 빠뜨리곤 합니다. 왜냐하면 보통 중복 콘텐츠를 걱정할 필요가 없는 CMS에서 운영하신 분들이라면 캐노니컬 태그 지정이라는 걸 하지 않아도 CMS가 알아서 잡아주거나 공백으로 놓아도 구글에서 알아서 표준 URL로 잡아주기 때문이죠.
단, 기업 사이트를 만드시는 분들도 이 부분을 간과하다 보니 가장 좋지 않은 케이스는 중복콘텐츠 인식으로 인해 순위가 떨어지는 점입니다. 하지만 색인에서 제외되지 않은 중복 콘텐츠는 색인 개수 +1인 만큼 증가량으로 만 따졌을 땐 좋은 것처럼 보이는 거죠.
[2] 콘텐츠나 동영상 외에 다른 파일이 색인되어 었는가?
우리가 평상 시 보는 이미지나 영상, 텍스트는 모두 코드 베이스로 이루어져 있습니다. 그리고 그 코드를 바탕으로 평상 시 보는 인터페이스가 구성이 되어있는 건데 그 중, 이미지와 영상은 CDN이라는 저장 장소에서 본인들 만의 폴더 경로에 있기 때문에 URL이 존재합니다. 그리고 이 URL을 색인으로 지정해줄 경우 콘텐츠가 아니라 단순히 로고만 하나 나와있는 URL이 색인에 노출되곤 하죠.
이 부분에 대해 일부 고객들은 어쨌든 노출이 더 늘어나는 거 아닌가? 생각하실 수도 있는데 SEO가 직접적으로 건드릴 수 있는 부분은 노출과 유입 단이지만 매출을 내야 하는 클라이언트는 결국 매출로 직결이 되어야하는 만큼 필요 없는 데이터를 크롤링하고 계속 색인할 시간에 필요한 URL만 골라 색인 할 수 있는 편이 장기적으로 훨씬 좋다고 생각합니다.
2) 색인 수가 줄어들면 좋지 않다.
[1] 색인 되면 안되는 콘텐츠가 색인되어 있는가?
방금 위에 와 반대되는 상황이 될 경우 보통은 문제가 있는 것처럼 여기곤 합니다.
하지만 여러 콘텐츠를 만드는 과정에서 미처 알지 못하는 URL이 생기는 경우가 많은데 이 때 로봇이 noindex를 통해 색인에서 제외 처리를 해주는 작업을 해줍니다. 그래서 처음 콘텐츠를 발행했을 땐 양이 많은 경우가 있는데 최적화가 되면 될수록 줄어드는 원인은 이와 같은 이유 때문이죠.
[2] 색인 되어야 할 콘텐츠가 제외 처리되었는가?
이 부분은 명확하게 색인 수가 줄어들면 좋지 않다로 직결됩니다. 이런 경우는 보통 Robot meta 태그를 잘 못 써서 noindex 혹은 nofollow로 하여 빠진 경우나 혹은 캐노니컬 태그를 잘못 삽입해 로봇이 제외 처리를 하는 경우 발생하는 편입니다. (캐노니컬 태그는 무조건 제외 처리를 하는건 아닌 점 참고하시기 바랍니다.)
여기까지 색인에 대한 잘못된 판단이었으며 앞으로 이 부분을 줄이기 위해 위의 각각 2개 질문과 함께 색인되지 않는 원인을 한번 알아보고자 합니다.
3. 색인이 되지 않은 이유 10가지
1) 적절한 표준 태그가 포함된 대체 페이지
캐노니컬 태그를 걸어주어 제외 처리된 대체(중복) 페이지입니다.
2) 사용자가 선택한 표준이 없는 중복 페이지
캐노니컬 태그를 걸어주지 않았으나 구글에서 중복 페이지라 인식하여 제외 처리된 페이지입니다.
3) 찾을 수 없음 (404)
많이 보신 적 있는 404 에러 페이지입니다. 구글은 기본적으로 404 코드는 색인하지 않습니다.
4) 리디렉션이 포함된 페이지
리디렉션의 경우 A페이지에서 B페이지로 이동하는 링크를 눌렀으나 C페이지로 넘어가 B페이지를 아예 볼 수 없는 상황이 있는데 저희가 겪은 것과 마찬가지로 크롤러 또한 B페이지를 볼 수 없기 때문에 B페이지를 색인에서 제외 처리를 하는 개념이죠.
5) Robots.txt에 의해 차단됨
Robots.txt에는 Disallow라는 용어가 있는데 특정 URL 주소의 서브폴더 혹은 정규식으로 구성할 경우 해당 조건과 일치하는 URL은 차단이 되기 때문에 색인이 되지 않습니다. 그리고 이 부분은 색인 이전에 크롤링 부터 차단당한거랍니다.
6) 서버 오류(5xx)
서버 오류는 5XX로 뜨는 경우인데 이 때 어떤 URL이 서버에서 오류인지 확인하는 것이 필요합니다.
7) 발견됨 – 현재 색인이 생성되지 않음
페이지의 존재 여부를 발견했으나 아직 크롤링도 되지 않아 그 다음 단계인 색인 생성도 되지않았다는 의미입니다.
8) 크롤링됨 – 현재 색인이 생성되지 않음
페이지 데이터 크롤링까지 완료했으나 색인 단계가 이뤄지지 않았다는 의미입니다.
9) 중복 페이지, Google에서 사용자와 다른 표준을 선택함
저는 A콘텐츠에 대해 B콘텐츠로 캐노니컬 태그를 걸었는데 구글 로봇은 그 콘텐츠보다 자신 만의 알고리즘을 통해 다른 URL을 캐노니컬 태그로 지정했다는 의미입니다.
10) Soft 404
404 오류와 조금 다른 개념인데 이 경우 총 4가지 경우가 있습니다.
- 서버 측 포함 파일이 누락되었다.
- 데이터베이스 연결이 끊어졌다.
- 내부 검색결과 페이지가 비어있다.
- 로드가 취소되거나 자바스크립트 파일이 누락되었다.
이렇게 총 10가지에 대해 알아보았습니다.
사실 10가지 이외에도 다양한 이유가 있지만 먼저 위의 주요 이슈에 대해 학습한다면자연스레 다른 이유도 이해가 될 예정이니 참고하시면 정말 도움 된다고 생각하기 때문에 주요 원인을 파악하는 것과 이상한 속설에 빠지지 않으시길 바랍니다.
오늘은 구글서치콘솔에서 색인과 관련된 주요 이슈와 기능 그리고 원인에 대해 알아보았습니다.
이번 기회를 통해 색인에 대한 이해를 열심히 높이고 원인도 파악하실 수 있는 시간이 되셨길 바라며 다음 GSC 가이드로 돌아오도록 하겠습니다.