'robots.txt' 태그의 글 목록

robots.txt

2022. 8. 30. 22:36

- 로봇배제표준(robots exclusion protocol)

- 웹 사이트에 웹 크롤러와 같은 로봇들의 접근을 제어하기 위한 규약으로, 루트디렉토리에 위치

- 크롤러란 조직적, 자동화된 방법으로 웹을 탐색하는 컴퓨터 프로그램

- 해당 파일은 [캡쳐 1]에서도 볼 수 있듯이 User-agent, Disallow, Allow로 이루어져 있음.

User-agent : robots.txt 파일의 규칙을 적용할 로봇의 이름
Disallow : 차단할 URL 경로
Allow : 허용할 URL 경로

- Disallow, Allow 항목을 적절히 잘 조합하여 사용.

User-agent: *
Disallow:

User-agent: *
Disallow: /

- 민감한 정보를 저장하고 있는 페이지에 대해 웹 크롤러가 접근하지 못하도록 Disallow에 해당 URL 설정

- robots.txt에 접근한 해커들은 Disallow에 설정된 URL에 민감정보가 저장되어 있을 것이라 추측 및 관련된 공격 시도 가능

- 해커들이 해당 파일을 통해 정보를 획득할 수 있으므로 일부 취약점 스캐너에 포함되어 있는 경우도 있음

- 누구나 접근할 수 있으므로, 적절한 접근제어 조치를 취하여야 함

Deface Attack_중국 샤오치잉 해킹 그룹 (0)	2023.04.10
IFS(Internal Field Separator) String (0)	2023.02.01
DNS Zone Transfer (0)	2022.12.07
Brute Force Attack (0)	2022.11.16
TLS OpenSSL HeartBleed Vulnerability(CVE-2014-0160) (0)	2022.09.29