1. 개요

- ChatGPT에 새로운 탈옥 기법인 시간 혼란을 악용한 Time-Bandit 취약점 발견
- 안전 장치를 우회해 무기 제작, 핵 정보, 악성코드 개발 등의 제공하도록 유도할 수 있음

2. 주요내용

- ChatGPT가 현재 시점이 언제인지 정확하게 인식하지 못하는 시간적 혼란에 상태에 빠질 수 있다는 사실이 발견 [1]

> ChatGPT가 특정 시점에 위치해 있다고 믿게 만든 후, 그 시점의 기술 수준과 현대의 정보 및 도구를 결합하도록 유도

> 이를 통해 ChatGPT로부터 악성코드 제작, 무기 제조 방법 등 민감 정보를 얻을 수 있었음

 

- 두 가지 취약점을 악용해 작동

> 다음 두 가지를 결합하여 ChatGPT를 과거 또는 미래에 있는 것처럼 시간적 맥락을 설정해 보호 장치를 우회할 수 있음

① 타임라인 혼란

> ChatGPT가 현재 시점을 정확하게 인식하지 못하도록 유도

> 시간에 대한 인식을 하지 못하고 과거, 현재, 미래 중 어느 시점에 있는지 판단할 수 없는 상태에 빠지게 됨

② 절차적 모호성

> 애매한 질문 구성

> ChatGPT의 보안 장치(규칙, 메커니즘 등)를 제대로 적용하지 못하도록

[사진 1] Time-Bandit 취약점으로 다형성 멀웨어 생성

3. 대응방안

- 현재 취약점은 완화된 상태

> 개인 : 탈옥 등 불법적으로 사용하지 않도록 AI 보안 교육 및 윤리적 사용 정책 강화 필요

> 기업 : AI 사용 가이드라인을 마련하고, 탈옥 시도를 모니터링할 수 있는 시스템 도입 필요

> 기타 : AI 탈옥 기법을 연구 및 분석해 새로운 탈옥 방식을 사전에 차단하는 과정이 필요

4. 참고

[1] https://www.kb.cert.org/vuls/id/733789
[2] https://www.bleepingcomputer.com/news/security/time-bandit-chatgpt-jailbreak-bypasses-safeguards-on-sensitive-topics/
[3] https://www.dailysecu.com/news/articleView.html?idxno=163339

+ Recent posts