3.어플리케이션보안
검색엔진 정보 노출 취약점(robots.txt)
222b
2019. 10. 31. 15:09
검색엔진에 의해 웹사이트 해킹에 필요한 정보(시스템 정보, 개인정보 등) 검색되어 해킹의 빌미가 제공되는 취약점
이런 중요한 정보가 웹사이트에 올라가 있는게 문제임
로봇배제표준은 검색로봇에 대한 웹사이트의 디렉터리 및 파일들에 대한 검색조건을 명시해놓은 국제규약으로 접근제제한에 대한 설정을 robots.txt 파일(ASCII 또는 UTF-8 텍스트)에 기술한다.
일반적으로 검색로봇은 사이트 방문시 가장 먼저 웹사이트의 로봇배제표준 설정파일(robots.txt)을 확인하고 이를 준수하여 컨텐츠를 수집한다.
ㄱ
ㄱrobots.txt 설정방법
User-agent: 로봇의 이름을 적는 부분
Allow: /
Disallow:
# /하나 있는건 전체에 대한 접근(크롤링)을 차단한다는 것
Disallow:가 비어있으면 모두 허용
URL의 접근허용 여부를 적는 부분(Allow/Disallow)으로 구분된다.
robots.txt 파일은 반드시 웹사이트의 최상위 주소(루트디렉터리)에 저장해야한다.
http://www.hello.com웹사이트에 검색엔지 접근을 제어하려면 robots.txt 파일이 http://www.hello.com/robots.txt에 위치해야함.
http://www.google.com/robots.txt