• robots.txt 파일에 대해 자세히 보기 :: 마이구미
    웹 관련 2016. 7. 17. 21:54
    반응형

    자아아 이번 글은 robots.txt 파일에 대해 알아보자!

    뭔지 모르는 사람도 많을 거라 생각한다.

    혹시 검색에 대해 궁금증을 가져본 적이 있는가?

    "어떤 원리를 통해 우리가 원하는 검색이 나올까?" 생각해본 적이 있는가?

    이것에 대해 쪼끔 다뤄볼 예정이다.


    구글이나 네이버 등 이러한 검색사이트들은 자체적으로 검색 로봇들을 가지고 있다.

    검색 로봇이 크롤러라고 생각하면 된다.

    검색 로봇은 사용자처럼 웹 페이지들을 수집하여 색인을 생성하게 된다. 

    이러한 색인들을 통해 빠른 검색이 이루어지게 된다.


    자신이 지금 사이트를 운영하거나 블로그를 운영하는 경우, 사용자 분석을 해봤을 것이다.

    그 때 해외에서도 들어왔다면 좋아하지말고 로봇일 가능성이 크다.


    그렇다면 도대체 이 글의 주제인 robots.txt 요놈은 무엇인가?

    자 보자보자.

    검색 로봇은 나의 페이지를 수집하여 널리널리 알려주어 유입량을 늘릴 수 있게 해준다.

    하지만 단점도 존재한다.

    예를 들면 구글 검색에 보면 왠만하면 누군가의 신상을 쉽게 찾을 수 있다. 즉 원하지 않는 정보도 수집하여 간다는 것이다.

    또한 호스팅 이용 시 트래픽 증가로 인한 여러가지 측면에서 비용이 증가될 수 도 있다.


    그래서 존재하는 것이 robots.txt 요녀석이다.

    요녀석을 통해 크롤링의 트래픽을 제어할 수 있다.

    티스토리 블로그의 robots.txt 파일의 구조를 보자. (http://mygumi.tistory.com/robots.txt)


    User-agent: * Disallow: /owner Disallow: /admin Disallow: /search Disallow: /tag Disallow: /m/search Disallow: /m/admin Allow: /


    위와 같이 이렇게 되어있다.

    Disallow는 수집을 거부한다는 설정이고, Allow는 수집을 허용한다는 설정이다.

    User-agent는 검색 로봇 이름이다. *로 설정함으로써 모든 검색 로봇이 지켜야 할 수칙이다.

    이해가 가기 쉽게 하나 더 말하자면 /tag를 Disallow로 설정해놓았다.

    이 말은 tag에 대해 수집을 거부한다는 것이다. 티스토리는 제목이나 내용을 통해 검색이 더 잘 된다는 거라고 볼 수 있다.


    맞다! robots.txt 파일은 도메인 루트에 접근할 수 있는 권한이 있어야한다.

    즉 쉽게 말하면 사이트의 운영자가 아니면 만들 수 없다.

    티스토리는 티스토리 측에서 설정할 수 있다.

    티스토리 블로그나 네이버 블로그 등은 robots.txt에 대해 설정할 수 없다.

    웹 호스팅을 이용하는 경우는 도메인 루트에 접근 권한을 확인한 후 이용 가능하다.

    robots.txt 파일 사용법은 간단히 검색으로 찾을 수 있다. 위와 같은 구조로 어려울 것이 없다.


    네이버 블로그가 구글 검색에 노출이 안되는 이유 또한 robots.txt 파일에 대한 설정 때문이다. 

    아래 링크를 참고하자. 재밌는 내용이다.


    구글 robots.txt 설명

    https://support.google.com/webmasters/answer/6062596?hl=ko&ref_topic=6061961


    구글에 네이버 블로그 검색이 안되는 이유

    http://seosem.kr/%EB%84%A4%EC%9D%B4%EB%B2%84-%EB%B8%94%EB%A1%9C%EA%B7%B8%EA%B0%80-%EA%B5%AC%EA%B8%80-%EA%B2%80%EC%83%89%EC%9D%B4-%EC%95%88%EB%90%98%EB%8A%94-%EC%9D%B4%EC%9C%A0%EB%8A%94/




    반응형

    댓글

Designed by Tistory.