1. 개요
- ChatGPT에 새로운 탈옥 기법인 시간 혼란을 악용한 Time-Bandit 취약점 발견
- 안전 장치를 우회해 무기 제작, 핵 정보, 악성코드 개발 등의 제공하도록 유도할 수 있음
2. 주요내용
- ChatGPT가 현재 시점이 언제인지 정확하게 인식하지 못하는 시간적 혼란에 상태에 빠질 수 있다는 사실이 발견 [1]
> ChatGPT가 특정 시점에 위치해 있다고 믿게 만든 후, 그 시점의 기술 수준과 현대의 정보 및 도구를 결합하도록 유도
> 이를 통해 ChatGPT로부터 악성코드 제작, 무기 제조 방법 등 민감 정보를 얻을 수 있었음
- 두 가지 취약점을 악용해 작동
> 다음 두 가지를 결합하여 ChatGPT를 과거 또는 미래에 있는 것처럼 시간적 맥락을 설정해 보호 장치를 우회할 수 있음
① 타임라인 혼란
> ChatGPT가 현재 시점을 정확하게 인식하지 못하도록 유도
> 시간에 대한 인식을 하지 못하고 과거, 현재, 미래 중 어느 시점에 있는지 판단할 수 없는 상태에 빠지게 됨
② 절차적 모호성
> 애매한 질문 구성
> ChatGPT의 보안 장치(규칙, 메커니즘 등)를 제대로 적용하지 못하도록 함
3. 대응방안
- 현재 취약점은 완화된 상태
> 개인 : 탈옥 등 불법적으로 사용하지 않도록 AI 보안 교육 및 윤리적 사용 정책 강화 필요
> 기업 : AI 사용 가이드라인을 마련하고, 탈옥 시도를 모니터링할 수 있는 시스템 도입 필요
> 기타 : AI 탈옥 기법을 연구 및 분석해 새로운 탈옥 방식을 사전에 차단하는 과정이 필요
4. 참고
[1] https://www.kb.cert.org/vuls/id/733789
[2] https://www.bleepingcomputer.com/news/security/time-bandit-chatgpt-jailbreak-bypasses-safeguards-on-sensitive-topics/
[3] https://www.dailysecu.com/news/articleView.html?idxno=163339
'취약점 > AI, LLM' 카테고리의 다른 글
DeepSeek의 기술과 보안 이슈 (0) | 2025.02.08 |
---|---|
Ollama 취약점(CVE-2024-39720, CVE-2024-39722, CVE-2024-39719, CVE-2024-39721, CWE-668, CWE-285) (3) | 2024.11.06 |
LLM 탈옥 : Crescendo, Deceptive Delight, Context Fusion Attack (CFA) (0) | 2024.10.30 |
오픈소스 AI 플랫폼 보안 취약점 (0) | 2024.02.11 |
인공지능과 적대적 공격 (Adversarial Attack) (0) | 2023.03.09 |