티스토리 뷰

검색엔진에 의해 웹사이트 해킹에 필요한 정보(시스템 정보, 개인정보 등) 검색되어 해킹의 빌미가 제공되는 취약점

 

이런 중요한 정보가 웹사이트에 올라가 있는게 문제임

로봇배제표준은 검색로봇에 대한 웹사이트의 디렉터리 및 파일들에 대한 검색조건을 명시해놓은 국제규약으로 접근제제한에 대한 설정을 robots.txt 파일(ASCII 또는 UTF-8 텍스트)에 기술한다.

 

일반적으로 검색로봇은 사이트 방문시 가장 먼저 웹사이트의 로봇배제표준 설정파일(robots.txt)을 확인하고 이를 준수하여 컨텐츠를 수집한다. 

ㄱrobots.txt 설정방법

User-agent: 로봇의 이름을 적는 부분 

Allow: /

Disallow: 

# /하나 있는건 전체에 대한 접근(크롤링)을 차단한다는 것 

Disallow:가 비어있으면 모두 허용

URL의 접근허용 여부를 적는 부분(Allow/Disallow)으로 구분된다.

 

robots.txt 파일은 반드시 웹사이트의 최상위 주소(루트디렉터리)에 저장해야한다. 

http://www.hello.com웹사이트에 검색엔지 접근을 제어하려면 robots.txt 파일이 http://www.hello.com/robots.txt에 위치해야함.

http://www.google.com/robots.txt

 

 

 

공지사항
최근에 올라온 글
최근에 달린 댓글
Total
Today
Yesterday
링크
«   2024/10   »
1 2 3 4 5
6 7 8 9 10 11 12
13 14 15 16 17 18 19
20 21 22 23 24 25 26
27 28 29 30 31
글 보관함