검색엔진 정보 노출 취약점(robots.txt)

3.어플리케이션보안

222b 2019. 10. 31. 15:09

검색엔진에 의해 웹사이트 해킹에 필요한 정보(시스템 정보, 개인정보 등) 검색되어 해킹의 빌미가 제공되는 취약점

이런 중요한 정보가 웹사이트에 올라가 있는게 문제임

로봇배제표준은 검색로봇에 대한 웹사이트의 디렉터리 및 파일들에 대한 검색조건을 명시해놓은 국제규약으로 접근제제한에 대한 설정을 robots.txt 파일(ASCII 또는 UTF-8 텍스트)에 기술한다.

일반적으로 검색로봇은 사이트 방문시 가장 먼저 웹사이트의 로봇배제표준 설정파일(robots.txt)을 확인하고 이를 준수하여 컨텐츠를 수집한다.

ㄱ

ㄱrobots.txt 설정방법

User-agent: 로봇의 이름을 적는 부분

Allow: /

Disallow:

# /하나 있는건 전체에 대한 접근(크롤링)을 차단한다는 것

Disallow:가 비어있으면 모두 허용

URL의 접근허용 여부를 적는 부분(Allow/Disallow)으로 구분된다.

robots.txt 파일은 반드시 웹사이트의 최상위 주소(루트디렉터리)에 저장해야한다.

http://www.hello.com웹사이트에 검색엔지 접근을 제어하려면 robots.txt 파일이 http://www.hello.com/robots.txt에 위치해야함.

http://www.google.com/robots.txt