요약 - LLM 학습에 사용되는 데이터셋에서 약 1만2천개의 활성 API 키와 비밀번호가 포함된 사실을 발견
- 학습 과정에서 보안이 제대로 관리되지 않을 경우, 심각한 보안 취약점으로 이어질 수 있음을 다시 한번 경고
내용 - 보안 기업 Truffle Security, 2024년 12월 공개된 Common Crawl의 웹 데이터 아카이브를 분석
> Common Crawl : 지난 18년간 축적된 400TB 규모의 웹 데이터를 제공하는 공공 웹 크롤링 저장소
> 이 데이터에서 219가지 유형의 민감한 정보가 포함된 것을 확인
> 아마존웹서비스(AWS) 루트 키, 슬랙(Slack) 웹훅, 메일침프(Mailchimp) API 키 등이 포함
> 11,908개의 API 키 및 비밀번호 중 상당수는 여러 웹사이트에 중복적으로 노출

- 노출된 API 키와 비밀번호가 AI 학습 데이터에 포함될 경우, 보안상 심각한 위험을 초래
안전하지 않은 코딩 방식이 AI를 통해 강화될 가능성
> 하드코딩된 인증 정보를 포함한 데이터를 학습하면, 이후 개발자들에게 보안이 취약한 코드 패턴을 제안할 위험
AI가 민감한 정보를 그대로 재현할 가능성
> AI 모델이 특정 API 키나 비밀번호를 학습한 경우, 사용자가 특정 프롬프트를 입력했을 때 해당 정보를 그대로 반환할 가능성

- 철저한 보안 관리가 필요성이 강조됨
> 비밀번호와 API 키를 소스코드에 직접 포함하는 대신, 전용 보안 관리 시스템을 활용
> 코드 리뷰 및 자동화된 보안 점검을 강화
> AI 학습 데이터를 사전에 철저히 검토하고, 민감한 정보가 포함되지 않도록 필터링하는 절차를 강화
기타 - AI 기술이 발전함에 따라 데이터 보안이 더욱 중요해지고 있음을 보여줌
> LLM을 학습시키는 과정에서 보안 조치가 철저히 이루어지지 않으면, AI가 보안 취약점을 학습하고 확산시키는 새로운 위협 요소로 작용할 수 있음
> AI 개발자와 기업들은 보안 강화를 위한 체계적인 접근 방식을 도입해야 함

 

보안뉴스

 

LLM 학습 데이터에서 1만2천개 이상 API 키 및 비밀번호 노출 확인 - 데일리시큐

최근 보안 연구진이 거대 언어 모델(LLM) 학습에 사용되는 데이터셋에서 약 1만2천개의 활성 API 키와 비밀번호가 포함된 사실을 발견했다. 이 조사 결과는 AI 학습 과정에서 보안이 제대로 관리되

www.dailysecu.com

 

Research finds 12,000 ‘Live’ API Keys and Passwords in DeepSeek's Training Data ◆ Truffle Security Co.

We scanned Common Crawl - a massive dataset used to train LLMs like DeepSeek - and found ~12,000 hardcoded live API keys and passwords. This highlights a growing issue: LLMs trained on insecure code may inadvertently generate unsafe outputs.

trufflesecurity.com

 

1. 공격자보다 한발 앞서라: 사이버 위협 헌팅의 새로운 패러다임

- Threat Hunting

> Red, Blue, Puple Team 구성이 필수적

> 각 보안 솔루션을 개별적이 아닌 상호 연관적으로 운용해야 함

2. AI 혁신의 기회와 위험 관리의 균형 사이, 사이버 보안의 미래는?

- AI를 사용해 공격자들이 더 설득력 있는 피싱 메시지를 작성할 수 있음

> 잘못된 절차, 어색한 문법 등이 줄어들어 직원들이 피싱 메일로 판단/식별하기 어려워짐

> XDR을 활용해 의심스러운 송신자, 헤더와 콘텐츠 등을 분석 및 탐지할 수 있도록하고, 직원 교육 강화

 

- AI를 사용해 오디오/비디오로 직원을 속일 수 있는 딥페이크를 만들 수 있음

> 오디오/비디오를 활용해 사기, 계정탈취, 데이터 유출 등이 이루어질 수 있음

> 임원들의 비정상 지시에 대해 직원이 검증할 수 있는 권한을 부여하거나, 딥페이크를 탐지하는 기술 등이 필요

 

- AI를 사용데이터 유출 위험이 발생할 수 있음

 

- AI 혁신과 AI 이니셔티브 보안의 적절한 균형이 필요

> AI를 활용한 오용 및 사기에 대해 미리 대비, 솔루션 활용, 위험 평가, 지속적 모니터링 등

AI 혁신 AI 이니셔티브 보안
- 지능형 데이터 분석 및 인사이트
- 자동화된 사기 탐지 및 예방
- 스마트 공공 서비스 등
- 민감 데이터 보호
- 공공 신뢰 유지 및 규제 준수
- 사이버 공격 및 제로데이 취약점으로 부터 인프라 보호 등

3. 해커들의 새로운 타겟–귀사의 API는 안전하십니까?

- API 보안이 중요한 이유

> 웹 트래픽의 83%는 Digital Transformation을 주도하는데 중요한 API에 기인

> 기업의 72%는 API 인증/인가와 관련된 문제로 인해 새로운 앱 및 서비스 개선사항의 출시가 지연되는 것을 경험

> 기업의 44%는 내/외부 API에서 개인정보 보호 및 데이터 유출과 관련된 보안문제를 경험

> API와 웹 애플리케이션을 대상으로 한 악성 요청의 비율2022년 54%에서 2023년 70%로 16% 증가

4. 새로운 패러다임에 대응하는 시스템 보안

- 시스템 접근제어의 시작 : 시스템 접속 권한을 가진 내/외부 사용자에 의한 보안사고가 빈번하게 발생

> 등장 전 : 시스템별로 다양한 사용자가 접근해 접속 이력과 로그 분산, 실수로 인한 시스템 장애, 주요 데이터 유출 등의 가능성이 높았음

> 초기 Gateway 모델 : 모든 시스템에 접속하기 위한 단일 게이트웨이를 구축해 접근 경로를 단일화하고, 로그 통합 관리, 실수로 인한 장애 가능성 최소화, 데이터 보호 등 관리 효율성을 마련

 

- 패러다임 변화와 개인정보 및 기밀정보 유출 방지를 위해 시스템 접근제어에서 바뀌어야 할 핵심 요소

보안 아키텍처 변화 이슈
암묵적 신뢰 -> 비신뢰
(Zero Trust 보안 환경)
클라우드 전환 시 주요 이슈
On-Premise -> Cloud
(TCO 비용 절감과 호환성)
위협 대응 주요 이슈
Rule -> 행위 기반
(예측 기반 사전 대응 체계)
- ID 기반 접근 제어
- MFA
- 리소스별 보안 환경
- 최소 권한 및 세분화
- 지속적인 감시 및 검증
- 도입, 전환, 운영 비용절감
- 클라우드 전환 용이성
- 클라우드 보안 책임 이슈
- 실시간 분석 대응시간 단축
- 위협 예측 사전 대응

5. 사이버 위협 대응 관점에서 바라보는 개인정보 유출 사고 방지 방안

- 경계 중심 보안에서 복원을 위해 중요자산을 보호하는 대응중심으로 IT 환경 변화

- 이기종 보안 솔루션 운영

 

- XDR(eXtended Detection & Rseponse)

> 위협 이벤트를 자동으로 수집하고 상호 연결하는 탐지 & 대응 플랫폼

> 분리되어 있던 위험 인자를 단일 플랫폼으로 통합 및 연결

> 복수의 알림을 하나의 침해로 도출

> 자동화된 대응을 바탕으로 보안의 효율성과 생산성 개선

> EDR, 네트워크 탐지, 위협 인텔리전스로 구성

6. 트랜잭션 및 실시간 수집 데이터의 비식별처리 기술

- 트랜잭션 데이터 : 일종의 반정형 데이터로 하나의 데이터 셀 내에 여러 아이템들이 집합으로 구성되어 있는 비정형 데이터

- 실시간 수집 데이터 : 송신 모듈을 통해 즉시 전달되어 지속적으로 생성/수집되는 데이터

구분 설명
삭제기술 삭제
(Suppression)
- 원본 데이터에서 식별자 컬럼을 단순 삭제하는 기법으로, 원본데이터에서 식별자 또는 민감정보를 삭제
- 남아있는 정보 그 자체로도 분석의 유효성을 가져야 함과 동시에 개인을 식별할 수 없어야 하며, 인터넷 등에 공개되어 있는 정보 등과 결합하였을 경우에도 개인을 식별할 수 없어야 함
마스킹
(Masking)
- 특정 항목의 일부 또는 전부를 공백 또는 문자(*) 등이나 전각 기호로 대체 처리 하는 기법
암호화 양방향 암호화
(Two-way encryption)
- 특정 정보에 대해 암호화와 암호화된 정보에 대한 복호화가 가능한 암호화 기법
- 암호화 및 복호화에 동일 비밀키로 암호화하는 대칭키 방식을 이용
- 알고리즘 : AES, ARIA, SEED 등
일방향 암호화-암호학적 해시함수
(One-way encryptionCryptographic hash function)
- 원문에 대한 암호화의 적용만 가능하고, 암호문에 대한 복호화 적용이 불가능한 암호화 기법 (해시값으로부터 원래의 입력값을 찾기가 어려운 성질을 갖는 암호 화)
- 암호화 해시처리된 값에 대한 복호화가 불가능하고, 동일한 해시 값과 매핑되는 2개의 고유한 서로 다른 입력값을 찾는 것이 계산상 불가능하여 충돌가능성이 매우 적음
- 알고리즘 : SHA, HMAC 등
무작위화 기술 
및 차분 프라이버시
순열(치환) 
(Permutation)
- 분석시 가치가 적고 식별성이 높은 열 항목에 대해 대상 열 항목의 모든 값을 열 항목 내에서 무작위로 개인정보를 다른 행 항목의 정보와 무작위로 순서를 변경 하여 전체정보에 대한 변경없이 특정 정보가 해당 개인과 순서를 변경하여 식별 성을 낮추는 기법
차분 프라이버시
(Differential privacy)
- 프라이버시를 정량적으로 모델화하여 프라이버시 보호 정도를 측정할 수 있는 기술 또는 방법론으로 데이터의 분포 특성을 유지하여 데이터의 유용성은 유지 하면서도 개인정보를 보호하기 위해 잡음을 추가하는 기법
- 프라이버시를 일부 희생하면서 원본 데이터와 마찬가지로 높은 정확성을 갖는 특성을 갖도록 데이터를 익명화시키는 것이 중요

7. 공격표면관리(ASM)와 위협인텔리전스(TI)

- 공격표면관리 (ASM, Attack Surface Management)

> 전 세계 모든 IP에 접속하여 기업의 자산을 탐지하는 사전 예방 목적

> 수집된 자산들이 어떤 취약점, 보안문제를 가지고 있는지 분류, 탐지

> Gartner : AMS은 조직이 인식하지 못할 수 있는 인터넷 연결 자산 및 시스템에서 오는 위험을 식별하는데 도움을 주는 새로운 솔루션이다. 최근 기업에 대한 성공적인 공격의 1/3 이상이 외부와 연결된 자산으로부터 시작되며 ASM은 CIO. CISO에게 필수의 과제가 될 것이다.

> FORRESTER : 조직은 ASM을 통해 평균적으로 30% 이상의 아려지지 않은 외부 자산을 발견한다. 일부는 알려진 자산의 몇 배나 더 많은 자산을 발견하기도 한다.

 

- 위협 인텔리전스 (TI, Threat Intelligence)

> 공격에 사용된 IP/URL 등에 대한 관련 정보(과거 공격 이력 또는 연관성 등)를 제공하는 대응 목적

8. 생성형 AI 보안 위협과 안전한 생성형AI 운용 방안

- Deepfake, 아동 성 학대 사진 생성/유포 등 생성형 AI를 사용한 새로운 위협이 등장

- OWASP Top 10 for LLM Appliocations 2025

> LLM01 2025:Prompt Injection : 사용자입력(프롬프트)을 악의적으로 조작하여 LLM의 행동이나 출력 결과를 의도와 다르게 변경하는 취약점

> LLM02 2025:Sensitive Information Disclosure : LLM이 민감한 개인 정보, 기밀 데이터 또는 독점 알고리즘 정보를 의도치 않게 노출하는 취약점

> LLM03 2025:Supply Chain : LLM 개발 및 운영에 사용되는 서드파티 구성 요소, 데이터셋 및 사전 학습 모델에서 발생하는 공급망 취약점

> LLM04 2025:Data and Model Poisoning : 학습 데이터나 모델 파라미터를 악의적으로 변조하여 취약점을 주입하는 공격

> LLM05 2025:Improper Output Handling : LLM의 출력이 충분히 검증, 정제, Sandboxing 되지 않을 경우 발생하는 문제

> LLM06 2025:Excessive Agency : LLM이 지나치게 자율적인 행동을 수행하도록 허용. 인간의 직접적인 통제 없이 예기치 않은 결과나 악의적 행동 발생

> LLM07 2025:System Prompt Leakage : LLM이 내부 지시사항이나 운영 설정 정보를 의도치 않게 외부에 공개하는 취약점

> LLM08 2025:Vector and Embedding Weaknesses : Retrieval-Augmented Generation(RAG) 시스템에서 사용되는 벡터 표현 및 임베딩 기법의 결함으로 인한 문제. 부정확한 검색 결과, 조작된 문맥, 또는 민감 데이터 노출 발생

> LLM09 2025:Misinformation : LLM이사실과다른,또는왜곡된정보를생성하여잘못된결정을유도하는취약점 환각(hallucination)및학습데이터의편향등이주요원인으로작용하며,법적,평판,안전문제를야기

> LLM10 2025:Unbounded Consumption : LLM이과도하고통제되지않은요청을처리함으로써시스템자원(메모리,CPU,비용등)이고갈되는취약점

 

- 가장 중요하게 뵈야할 문제 : LLM01 2025:Prompt Injection

> AI에 악의적인 프롬프트를 주입하여 공격자가 의도하는 동작으로 유도

> Direct Injection (생성형 AI에 공격자가 직접 프롬프트 주입) or Indirect Injection (공격자가 데이터에 프롬프트 주입하여 접근하는 AI감염)

> 멀웨어 생성 및 개선, 유해 컨텐츠 생성, 데이터 유출, 모욕, 시스템 프롬프트 유출 등이 발생할 수 있음

공격 유형 설명 예시
Content Manipulation Attacks
(콘텐츠 조작 공격)
프롬프트의 텍스트를 조작하여 모델의 응답을 조종하거나 톤을 변경 단어 대체/삽입/삭제, 문법 및 철자 수정, 공격적인 문구 추가
Context Manipulation Attacks
(맥락 조작 공격)
대화 또는 상황적 맥락을 조작하여 모델의 응답을 유도 대화 가로채기, 사용자 사칭, 모델의 가정된 맥락 변경
Code/Command Injection
(코드/명령어 삽입 공격)
실행 가능한 코드 또는 명령어를 프롬프트에 삽입하여 모델 및 상호 작용하는 시스템을 손상 코드 스니펫 삽입, API 호출, 시스템/쉘 명령 실행
Data Exfiltration
(데이터 유출 공격)
민감한 데이터(개인 정보, API 키, 패스워드 등)를 유출시키는 프롬프트 제작 모델이 훈련된 데이터를 유추하여 반환하도록 유도
Obfuscation
(난독화 공격)
필터링 및 보안 장치를 우회하기 위해 복잡한 난독화 기법 활용 동형문자(Homoglyphs), 유니코드 트릭, 보이지 않는 문자 삽입
Logic Corruption
(논리 훼손 공격)
논리적 모순이나 오류를 삽입하여 모델이 잘못된 출력을 생성유도 논리적 역설, 거짓 전제, 통계적 오류 삽입

 

- 대부분은 Prompt Injection은 Jailbreaking 기법을 사용

> AI의 제한(가드레일)이나 안전 필터를 우회 하거나 완화하기 위한 방법

> Context Ignoring, 참조 usal Suppression, Style Injection, Virtualization, Obfuscation 등의 패턴

9. 제로트러스트 가이드라인 2.0 주요 내용 및 향후 방향

- 제로트러스트 도입 과정을 보다 구체화하고 도입 수준을 분석할 수 있는 방안 제시

> 미국 CISA, NSA 등 문서 발간에 맞추어 성숙도 모델을 4단계 수준으로 정의 및 성숙도를 토대로 체크리스트 구현

> 도입 절차에 대한 방향성 구체화 및 조직 내 역할 및 목표 설정 방안 제시

> 보안 수준 평가 방법 제공

 

- 향후방향

> 각 산업 분야 및 기업 도메인 특성을 반영한 맞춤형 도입 전략 및 로드맵 제시 필요

> 우리나라에서도 글로벌 제로트러스트 도입 흐름을 적극 반영하여, ZT 아키텍처 도입 정책을 수립하고 관련 기술 개발 가속화 필요

> 제로트러스트 도입 후 발생하는 문제를 해결하기 위한 방안 마련과 지속적인 연구가 필요

> NIST 1800-35, 800-53, ISMS-P, 금융보안원 취약점 점검 리스트를 토대로 새로운 형태의 체크리스트 구현 중

'대외활동' 카테고리의 다른 글

PASCON 2024  (1) 2024.09.11
코리아 핀테크 위크 2024  (5) 2024.09.01
제13회 정보보호의 날 기념식  (0) 2024.07.11
RSAC2024 글로벌보안트렌드  (0) 2024.06.13
2024 상반기 침해사고 정보공유 세미나  (0) 2024.06.11

본 게시글은 DeepSeek 논문과 구글링 결과 및 개인적인 생각를 정리한 글로, 정확하지 않을 수 있습니다.
혹여 잘못된 내용이 있다면, 알려주시면 감사하겠습니다.

1. 개요

- 중국 AI 스타트업이 개발한 오픈소스 기반의 LLM, DeepSeek
- GPT-4와 유사한 수준의 성능을 제공하면서도, 훨씬 적은 자원으로 훈련
- 주로 자연어 처리와 생성 AI 모델에 특화된 기술을 제공
- 기술 혁신과 AI 기조를 파괴하였으나, 보안과 관련된 주요 문제점이 대두

2. DeepSeek 주요 기술

- 기존 AI 서비스를 개발하고 배포 및 운영하는 데에는 많은 비용과 시간, 공간이 필요
> OpenAI, Anthropic 등의 기업들은 계산에만 1억 달러 이상을 소비
> 또한, 계산을 위한 수 천대의 GPU가 필요하며, 이를 위한 대규모 데이터 센터를 운용

 

- 그러나, DeepSeek은 GPT-4 개발 비용의 약 1/17 수준에 불과한 약 600달러로 개발

 

① FP8 Mixed Precision Training

- 일반적으로 신경망의 크기가 커질수록 성능이 향상되나, 메모리와 컴퓨팅에 대한 문제가 발생
혼합 정밀도 훈련 (Mixed Precision Training)은 모델의 정확도와 파라미터에 영향을 끼치지 않고, 메모리 요구사항을 줄이고 GPU 산출 속도를 높일 수 있는 신경망 훈련 방법
> 혼합 정밀도 훈련은 모델 학습 과정에서 부동 소수점(Floating-Point Numbers) 연산 정밀도를 혼합하여 사용하며, 주로 FP16, FP32를 혼합하여 사용함
숫자가 높을수록 모델의 정확도가 높아지나, 메모리를 많이 사용하는 단점을 지님

[사진 1] Floating Point Format

- DeepSeek에서는 FP8이라는 저비트 연산 체계를 도입하여 연산 효율성과 메모리 사용 효율을 극대화

[사진 2] FP8 Mixed Precision Training

* NVDIA 연구를 통해 FP8은 FP16 대비 2배 높은 성능을 제공하고, 2배 낮은 메모리 사용량을 가지는 것이 확인

[사진 3] FP16과 FP8의 정확도 비교

② DeepSeek MoE (Mixture of Experts)

- MoE (Mixture of Experts)게이팅 네트워크를 통해 각각의 입력에 가장 관련성이 높은 전문가 모델을 선택하는 방식으로 여러 전문가 모델 간에 작업을 분할

> 게이팅 네트워크 (Gating Network)란 입력 데이터에 따라 다른 전문가 (Expert) 모델을 동적으로 선택하는 역할을 하는 신경망

> 입력은 라우터를 사용해 적절한 각 전문가 모델로 전달되어 처리되며, 데이터를 효율적으로 처리할 수 있음
> 일반적으로 기존 MoE는 8~16개의 전문가를 두고 특정 토큰이 특정 전문가로 라우팅 되도록 하지만, 하나의 전문가가 다양한 토큰을 처리하게 됨
> 또한 서로 다른 전문가들이 같은 지식을 학습하는 지식 중복의 문제가 발생

 

- DeepSeek은 2 가지를 활용해 MoE의 성능을 개선

⒜ Fine-grained Expert Segmentation (세분화된 전문가 모델 분류)

 전문가를 더 작고, 더 집중된 기능을 하는 부분들로 세분화하여 하나의 전문가가 보다 세분화된 특정 영역의 지식을 집중적으로 학습하도록 유도

⒝ Shared Expert Isolation (공유 전문가의 분리)

- 여러 작업에 필요한 공통 지식을 처리할 수 있는 공유 전문가를 분리 및 항상 활성화시켜 공통 지식을 처리하도록 하여 지식 중복을 줄이고, 각 전문가들은 고유하고 특화된 영역에 집중할 수 있음

[사진 4] DeepSeek MoE

- 또한, 기존 MoE에서는 특정 전문가에게 토큰이 몰려 학습 및 추론에서 성능상 문제가 생기는 것을 방지 하기위해 Auxiliary Loss(부가 손실)를 추가로 도입해 로드 밸런싱
> 부가 손실을 추가하여 균형을 맞출 수 있으나, 각 모델의 성능을 저하시킬 위험이 있음

 

- DeepSeek MoE에서는 Aux-Loss-Free Strategy (부하 균형)를 활용해 이러한 문제를 해결
각 전문가마다 Bias를 두고 과부하/과소부하 상태를 모니터링해 해당 값을 감소/증가 시킴

[사진 5] Bias 계산

> 부하 균형이 개별 시퀀스 내에서 부하 불균형이 발생할 수 있어, 시퀀스 단위에서 부하 균형을 유지하기 위한 추가적인 보조 손실을 도입 (Complementary Sequence-Wise Auxiliary Loss, 보조 시퀀스 손실)
> 기존 MoE에서 특정 전문가에게 과부하가 걸리는 현상을 해결 하기위해 하나의 전문가가 담당하는 토큰 수를 제한하여 부하를 분산 (Node-Limited Routing, 노드 제한 라우팅)
> 기존 MoE에서 토큰을 균등하게 분배하지 못하는 경우 부하를 줄이기 위해 초과된 토큰을 Drop하는 방식을 사용하였으나, 정보 손실과 모델 품질을 하락 시키기 때문에, 모든 입력 토큰을 반드시 처리하도록 보장 (No Token-Dropping, 토큰 드롭 없음)

 

- MoE 모델의 효율성을 높이고, 성능 저하 없이 안정적인 추론이 가능하며, 기존 MoE 모델보다계산 자원을 효율적을 사용하고 높은 품질의 결과를 제공

 

③ Multi-Head Latent Attention (MLA)  

Attention : 입력 데이터의 중요한 부분에 가중치를 부여하여 모델이 더 집중할 수 있도록 하는 메커니즘으로, 어떤 정보가 더 중요한지를 학습하여 가중치를 동적으로 조절
Self-Attention : 주어진 입력 내의 각 단어나 토큰이 다른 단어와 얼마나 관련되어 있는지를 계산하는 메커니즘으로, 각 단어는 다른 모든 단어에 대한 가중치를 부여해 중요성과 문맥을 파악
Multi-Head Attention : 하나의 Self-Attention을 여러 헤드로 나누어 동시에 수행하는 방식으로, 모델이 입력 데이터를 여러 각도에서 분석할 수 있게 하여, 정보를 더 풍부하게 처리
> Query(Q : 현재 처리하고 있는 단어나 시퀀스 부분), Key(K : 비교 대상인 다른 단어나 시퀀스 부분), Value(V : 최종적으로 가중치를 적용 받는 단어나 시퀀스 부분) 행렬을 각각 생성
기존 Multi-Head Attention에서는 모든 헤드별로 Key, Value를 그대로 저장해 활용
> 따라서, 모델 규모가 커질수록 Key-Value Cache에 대한 메모리 사용량이 급증해 연산 속도를 저하시킴

 

- DeepSeek에서는 Multi-Head Latent Attention(MLA)를 도입하여 Key-Value 데이터를 압축해 더 적은 메모리로도 동일한 성능을 유지하도록 설계됨

[사진 6] MLA

④ Multi-Token Prediction (MTP)

Multi-Token Prediction (MTP)란 다음 여러 토큰을 순차적으로 예측하여 생성 속도를 향상시키고 학습 신호를 풍부하게 함
> t 시점에 t+1, t+2, t+3…을 예측하여 데이터에서 얻을 수 있는 신호가 더 촘촘해져 더 나은 정확도를 달성

[사진 7] MTP

⑤ 기타

각 토큰마다 활성화되는 파라미터를 370억 개로 제한하여 계산 효율성을 높이면서도, 높은 성능을 유지
- 학습을 통해 128,000자까지 문맥을 확장해 긴 문서나 대화를 자연스럽게 처리할 수 있도록 함

3. DeepSeek 보안 논쟁

① OpenSource 공급망 공격

- DeepSeek는 오픈소스로 배포되고 있기 때문에 공급망 공격의 대상이 될 가능성이 높음

> 개발의 효율성을 높이기 위해 오픈소스를 자주 활용하나, 오픈소스 소프트웨어는 공급망 공격에 취약
> 악성코드를 삽입하거나, 악성코드를 포함한 유사한 이름의 패키지를 업로드 하는 등의 방법으로 공격을 진행

사례 설명
XZ Utils 백도어 사건 - XZ Utils는 리눅스 시스템에서 널리 사용되는 오픈소스 압축 라이브러리
- 공격자는 프로젝트에 개발자로 참여하여 수 년간 신뢰를 쌓아 권한을 획득하고, 악성코드를 포함한 버전을 저장소에 커밋
PyPI 타이포스쿼팅 공격 - PyPI (Python Package Index)는 파이썬 패키지를 제공하는 오픈소스 패키지 저장소
- 공격자들은 인기 있는 라이브러리와 유사한 이름을 지닌 패키지를 배포하여 사용자가 실수, 오타 등으로 악성 패키지를 다운로드하도록 유도
event-stream 공격 사건 - 원 제작자에게 event-stream 프로젝트 관리를 대신해 주겠다고한 요청이 승인되어 관리를 시작한 공격자가 비트코인을 훔치는 악성 코드를 삽입해 배포
DeepSeek 사칭 악성 패키지 - 이미 PyPI에 DeepSeek의 인기에 편승해 이를 사칭한 악성 패키지를 유포하여 222명이 피해를 당한 사실이 확인
- DeepSeek 관련 개발 도구로 위장한 패키지를 업로드하였으며, 인포스틸러로 동작함

 

② 중국 소프트웨어 정보 탈취 문제 

- 중국에서 개발된 소프트웨어 및 하드웨어에서 정보 탈취, 백도어가 포함되어 있다는 의심과 실 사례 존재

사례 설명
육군 악성코드가 포함된
중국 CCTV 사용
- 육군이 해안과 강변 경계 강화를 위해 설치한 모든 CCTV 215대 에서 중국 서버에 정보를 전송하도록 설계된 악성코드가 발견
- 악성코드를 심은 후 납품한 것으로 확인되었으며, 백도어를 통해 악성코드를 유포하는 사이트로 연결
중국 소프트웨어 백도어 논란 - 다른 기업에 스파이를 파견하거나 기술을 훔쳐내는 등 부정한 방법으로 성장한 기업과 중국 정부의 연관성 대한 의심으로 논란이 시작
- 미국, 유럽, 일본, 호주 등 세계 각지에서 이동통신 네트워크에서 중국 소프트웨어의 사용을 금지하였으며 단계적으로 퇴출 시작
중국 정부의 데이터 접근 권한 논란 - 중국은 국가정보법을 통해 자국 기업이 보유한 데이터를 요청할 수 있는 권한을 지니므로, 관련 데이터가 중국 정부에 의해 활용될 가능성이 있음
중국 드론 제조업체의 
사용자 데이터 원격 서버 전송 문제
- 미국 국토안보부는 중국 드론을 사용할 때 각종 위치정보, 음성정보 등이 원격 서버로 전송된다는 의혹을 제기
중국 스파이칩 문제 - 중국에서 좁쌀 크기의 해킹용 칩을 제작 및 서버 기판에 내장하여 20개 업체에 판매된 후 보안 실사 과정에서 해킹 정황이 발견된 사건

 

③ 중국 소프트웨어 사용 금지 움직임

- 미국 FCC는 ‘국가 안보 위협 중국 통신장비 및 영상감시장비 승인 금지’를 발표해 통신장비, CCTV, IoT, 해저케이블 등에서 중국 기업의 장비와 서비스 사용을 금지하였으며, 기존에 설치한 장비와 서비스는 제거
- 미국, 유럽 등 여러 국가에서 틱톡이 사용자의 데이터를 중국으로 전송할 가능성이 있다는 점이 우려되어 틱톡 사용 금지 조치가 시행되거나 논의되고 있는 중
- 인도에서는 틱톡을 포함한 59개 중국 앱이 금지되었으며, 미국에서는 공무원 및 정부 기관에서 사용하는 기기에 틱톡 사용을 금지하는 법안이 통과

 

- 미국 의회, 해군, NASA, 펜타곤, 텍사스 주 정부 등도 딥시크 앱의 사용을 금지

- 호주, 이탈리아, 네덜란드, 대만, 한국 등 여러 국가에서도 정부 기기에서의 앱 사용을 금지하는 조치
> 국내에서는 환경부, 보건복지부, 여성가족부, 경찰청 등의 정부 부처와 현대차, 기아, 모비스 등의 기업에서 DeepSeek를 접속할 수 없도록 차단

 

④ DeepSeek 자체 보안 문제

- DeepSeek 자체적으로도 보안 문제가 보고된 사례가 있음

구분 설명
서비스 관련 - 사이버 공격으로 신규 가입이 불가했었던 시점이 존재
- 민감한 질문에(정치, 역사 등) 언어별로 다르게 답변
광범위한 개인정보 수집과 수집된 데이터가 중국 서버에 저장
> 광고주 등과 제한 없는 사용자 정보공유
> 사용자의 모든 정보가 학습데이터로 유입 및 활용
> 중국의 국가정보법에 근거 중국 정부에 의해 사용될 수 있음
민감정보 외부 노출 - DeepSeek 데이터베이스가 외부에 공개되어 접근이 가능한 상태로 발견
> 데이터 열람만이 아니라 각종 제어 행위도 가능
> 100만 줄이 넘는 로그에 내부 테이터와 채팅 기록, 비밀 키 등 각종 민감 정보가 포함
민감정보 탈취 이용자 기기 정보와 키보드 입력 패턴 등을 수집해 중국 내 서버에 저장하는 것이 확인
iOS 앱은 민감한 사용자 및 기기 정보를 암호화 없이 인터넷으로 전송하는 것이 확인
> 중간자 공격, 스니핑 등 해킹 기법에 쉽게 노출
> 애플의 앱 전송 보안(App Transport Security, ATS) 기능을 비활성화한 상태로 운영
> 하드코딩된 암호화 키와 초기화 벡터(initialization vector)의 재사용
부정 사용 탈옥 방법이 공개
- DeepSeek-R1에 대한 안전성(Safety) 및 보안성(Security) 평가를 실시
> Jailbreaking(탈옥) 공격 성공률 63%
> 역할극(Role-Playing) 기반 공격 성공률 83%
> 허위 정보(Misinformation) 생성 위험도 89%
> JSON 기반의 구조화된 입력(Structure Converting)을 활용한 공격 성공률 82%
> 악성 코드 생성(Malware-gen) 요청 프롬프트 78% 성공률
> 사이버 보안(Cyber Security) 관련 취약성 54.6%
> 한국어 기반 공격에서 평균적으로 18% 더 높은 취약성

 

⑤ 기타

- 생성형 AI 서비스의 올바르지 못한 사용
> 개인정보, 민감정보 등이 포함된 파일을 업로드하여 사용하는 경우가 있음
> 생성형 AI 도구들의 입력 데이터를 분석한 결과 전체 입력 데이터 중 8.5%가 민감정보를 포함
> 탈옥으로 보안 조치를 우회해 악성코드, 피싱메일, 공격 툴 등을 생성해 악용

4. 시사점

① 경제성 측면

- DeepSeek의 가장 큰 장점은 경제적 효율성으로 기존 AI 모델 대비 저비용, 고효율 AI 훈련 및 운영이 가능

구분 설명
AI 모델 개발 비용 절감 - DeepSeek은 GPT-4 수준의 성능을 1/17 수준으로 구현
> AI 스타트업 및 중소기업들도 상대적으로 적은 예산으로 대형 AI 모델을 활용할 수 있는 기회를 제공
기업의 AI 도입 문턱을 낮춤 - 고성능 AI 모델을 자체적으로 개발할 여력이 없는 기업에 AI 개발 및 도입에 대한 진입 장벽을 낮춤
> 오픈소스로 제공되기 때문에, 자체적으로 DeepSeek을 커스터마이징하여 활용할 수 있음
AI 산업 경쟁 심화 - 소수 기업이 AI 모델 개발을 독점하는 구조에서 저비용 오픈소스 모델이 등장함에 따라 다양한 국가와 기업의 경쟁 심화

 

② 보안성 측면

- 경제적 효율성이 뛰어나지만, 보안 리스크가 존재하는 AI 모델로 도입 시 경제성과 보안성 간의 균형을 고려할 필요

구분 설명
개인 및 기업의 
대응 전략
개인 - AI 사용 시 민감한 데이터 입력 금지
- 신뢰할 수 있는 AI 도구 사용 검토
기업 - 내부 보안 검토 후 AI 도입 결정
- AI 모델 검증 프로세스 도입
- AI 사용 시 데이터 암호화 및 접근 통제 강화
정부 및 공공기관의 
대응 전략
정부 - 중국산 AI 모델의 보안성 평가 강화
- 공공기관 내 AI 모델 도입 시 엄격한 검증 절차 수립
- 자국산 AI 모델 개발 투자 확대
공공기관 - 외부 AI 도구 사용 시 보안 검토 필수
- 중요 정보가 포함된 데이터는 폐쇄망에서만 사용

 

1. Ollama [1]

- 개인 또는 기업이 별도의 하드웨어나 서비스 구비 없이 로컬에서 LLM을 구동할 수 있게 해 주는 오픈소스 애플리케이션

 

2. 주요내용

- 인터넷에 노출된 Ollama 프레임워크에서 6개의 보안 취약점이 발견 [2]
> 익스플로잇에 성공할 경우 DDoS, 인공지능 모델 감염, 인공지능 모델 탈취가 가능

> 4개의 취약점에 대한 보안 업데이트 발표

2개의 취약점은 Ollama 유지보수 팀이 취약점으로 인정하지 않아 CVE 번호가 할당되지 않음

※ CVE가 할당되지 않은 2개의 취약점은 패치 또한 제공되지 않음 : 엔드포인트를 노출시키지 않는것이 기본이며, 이 기본이 지켜지지 않는다는 가정 하에 연구된 취약점이므로 취약점으로 볼 수 없다는 입장

 

2.1 CVE-2024-39720

[사진 1] CVE-2024-39720 [3]

- 취약한 버전 Ollama에서 발생하는 서비스 거부 취약점

> 두 개의 HTTP 요청을 사용해 세그먼테이션 오류(SIGSEGV)를 발생시켜 서비스 거부를 유도

영향받는 버전: Ollama <= 0.1.45

 

- 공격자는 잘못된 형식의 GGUF 파일을 전송하여 서버나 애플리케이션이 이를 처리하는 과정에 예상치 못한 동작을 유도

GGUF [4] - Georgi Gerganov Unified Format
- 오픈 소스 파일 형식으로, AI 모델 파일과 관련 데이터를 효율적으로 저장 및 교환하기 위해 개발된 파일 형식
① 범용성
> 기존의 모델 저장 방식들은 특정 프레임워크나 라이브러리에 종속
> 다른 환경 또는 플랫폼에서 사용하려면 별도의 변환 작업이 필요함
> 다양한 유형의 모델 파일과 메타데이터를 한 곳에 통합할 수 있어 변환 없이 여러 플랫폼에서 사용할 수 있음
② 경량 데이터 저장
> 데이터를 압축 및 최적화하여 모델 파일 크기를 최소화하고, 메모리 사용량을 줄임
> 로컬 환경 처럼 메모리 제한이 있는 장치에서 AI 모델을 실행할 때 성능 및 효율성을 높임
③ 확장성
> 파일 내 모델의 가중치(Weight) 텐서 값들과 메타데이터(모델의 구조, 버전, 텐서 개수 등)가 Key-Value 형식으로 저장
> 새 메타데이터나 추가 정보를 쉽게 저장할 수 있어 확장성을 높임
④ 다양한 양자화 지원
> 양자화란 모델의 가중치를 더 낮은 비트 정밀도로 변환하는 기술로, 16-bit 부동 소수점, 8-bit, 6-bit, 5-bit, 4-bit, 3-bit, 2-bit 지원
> 모델을 더 작게 만들어 추론 속도를 높이고, 메모리 사용을 줄임

 

- GGUF 파일은 0x47 0x47 0x55 0x46(GGUF)로 시작하는 헤더그 뒤 파일의 구조에 맞는 추가 데이터를 포함

> 공격자는 4Byte(헤더) 데이터만 가지는 GGUF 파일을 생성해 서버에 업로드

[사진 2] GGUF 파일 구조 [4]

- 공격자는 잘못된 GGUF 파일 업로드를 위해 두 개의 HTTP 요청을 사용

> 먼저, 잘못된 GGUF 파일 업로드를 위한 첫 번째 HTTP 요청 전송

> /api/create URL잘못된 GGUF 파일을 참조하도록 Modelfile 내 FROM 명령문을 사용한 두 번째 HTTP 요청 전송

Modelfile [5] - 모델의 설정과 명령을 정의한 파일
> 사용할 모델, 템플릿 형태, 파라미터 등을 지정해 모델을 지정할 수 있는 파일
① FROM(필수) : 사용할 기본 모델 정의
② PARAMETER : Ollama가 모델을 실행하는 방법에 대한 매개변수를 설정
③ TEMPLATE : 모델에 전송할 전체 프롬프트 템플릿
④ SYSTEM : 템플릿에 설정될 시스템 메시지를 지정
⑤ ADAPTER : 모델에 적용할 (Q)LoRA 어댑터를 정의
⑥ LICENSE : 법적 라이센스를 지정
⑦ MESSAGE : 메시지 기록을 지정

 

- CreateModel은 업로드된 파일을 기반으로 새로운 모델을 생성하거나 로드하는 기능

> 이 과정에서 GGUF 파일과 Modelfile을 로드 및 검증 없이 실행을 시도하여 얘기지 못한 메모리 참조가 발생

> 메모리 접근 위반으로 세그멘테이션 오류(Segmentation Fault)가 발생, 시스템은 SIGSEGV 신호 수신 및 프로세스 중단

 

2.2 CVE-2024-39722

[사진 3] CVE-2024-39722 [6]

- 취약한 버전 Ollama에서 발생하는 파일 존재 여부 공개 취약점

> /api/push 엔드포인트존재하지 않는 경로 매개변수를 통해 호출할 때 발생

이스케이프된 URI를 공격자에게 응답으로 반환
> 이로 인해 서버에 존재하는 파일 및 디렉터리 정보가 노출되어, 공격자가 추가로 시스템을 탐색 또는 악용할 수 있음

영향받는 버전: Ollama <= 0.1.45

 

[사진 4] Exploit 예시 및 서버 응답

2.3 CVE-2024-39719

[사진 5] CVE-2024-39719 [7]

- 취약한 버전 Ollama에서 발생하는 파일 존재 여부 공개 취약점

영향받는 버전: Ollama 0.3.14

 

- /api/create 엔드포인트를 존재하지 않는 경로 매개변수를 통해 호출하여 응답(오류)을 통해 존재 유무 확인

[사진 5] Exploit 예시

구분 설명
파일이 존재하지 않는 경우 요청 : ~/ curl "hxxp://localhost:11434/api/create" -d '{"name": "file-leak-existence","path": "/tmp/non-existing"}'
응답 : {"error":"error reading modelfile: open /tmp/non-existing: no such file or directory"}%
파일이 존재하는 경우 요청 : ~/ curl hxxp://localhost:11434/api/create -d '{"name": "file-leak-existence","path": "/etc/passwd"}'
응답 : {"error":"command must be one of \"from\", \"license\", \"template\", \"system\", \"adapter\", \"parameter\", or \"message\""}%
파일 경로 대신 디렉터리 사용 요청 : ~/ curl hxxp://localhost:11434/api/create -d '{"name": "file-leak-existence","path": "/etc"}'
응답 : {"error":"read /etc: is a directory"}%

 

2.4 CVE-2024-39721

[사진 6] CVE-2024-39721 [8]

- 취약한 버전 Ollama에서 발생하는 서비스 거부 취약점

영향받는 버전: Ollama <= 0.1.33

 

- CreateModelHandler 함수는 os.Open을 사용하여 완료될 때까지 파일을 읽음

> req.Path 사용자 지정 매개변수를 사용하며, /dev/random으로 설정할 수 있음

> 매개변수 값이 /dev/random일 경우 난수를 생성할 엔트로피를 모을 때까지 차단이 발생

> 해당 파일을 열고 읽기 시도한 고루틴은 엔트로피가 충분히 쌓이기를 기다리면서 계속 차단

> 클라이언트가 요청을 취소해도 고루틴은 멈추지 않고 무한히 실행

[사진 7] 예제 Payload 및 PoC

2.5 모델 중독 (CWE-668)

- 기본 설정을 사용하는 Ollama 서버의 경우 /api/pull 경로에 대한 인증 절차가 없음

> 즉, 누구나 인증 없이 해당 API를 호출 가능한 상태

> 공격자는 클라이언트가 자신이 제어하는 서버에서 악의적인 모델을 다운로드하도록 유도할 수 있음

> 해당 API를 지속적으로 호출하여 디스크가 가득 찰 때까지 모델을 다운로드하게 되어 서비스 거부로 이어질 수 있음

[사진 8] 예제 Payload

2.6 모델 도용 (CWE-285)

- 기본 설정을 사용하는 Ollama 서버의 경우 /api/push 경로에 대한 인증 절차가 없음

> 공격자는 서버에 저장된 모든 모델을 제3의 서버로 업로드하거나 탈취할 수 있음

3. 참고

[1] https://ollama.com/
[2] https://www.oligo.security/blog/more-models-more-probllms
[3] https://nvd.nist.gov/vuln/detail/CVE-2024-39720
[4] https://github.com/ggerganov/ggml/blob/master/docs/gguf.md
[5] https://github.com/ollama/ollama/blob/main/docs/modelfile.md
[6] https://nvd.nist.gov/vuln/detail/CVE-2024-39722
[7] https://nvd.nist.gov/vuln/detail/CVE-2024-39719
[8] https://nvd.nist.gov/vuln/detail/CVE-2024-39721
[9] https://thehackernews.com/2024/11/critical-flaws-in-ollama-ai-framework.html
[10] https://www.boannews.com/media/view.asp?idx=134063&page=2&kind=1
[11] https://www.boannews.com/media/view.asp?idx=134082&page=1&kind=1

1. Crescendo [1]

[사진 1] Crescendo

대상 모델의 출력을 활용하여 모델이 안전 장치를 우회하도록 유도하여 탈옥하는 멀티-턴 공격
> 목표 달성을 위한 기초가 될 수 있는 질문으로 공격 시작
관련된 무해한 주제로 시작하여 점진적으로 질문을 강화하여 모델의 응답을 의도한 결과로 유도
> 따라서 사용자의 프롬프트에 반응하도록 설계된 방어 및 안전 조치를 우회

 

- 모델의 내부 작동 방식을 파악할 필요가 없음
> 사용자가 LLM과 상호작용하는 데 필요한 수준의 지식만 필요

 

- 탈옥의 성공 여부를 세 가지 지표(자체 평가, Perspective API, Azure Content Filter)를 통해 평가
> 자체 평가 : 자동화된 평가(1차 및 2차 Judge LLM 평가) 후 가장 높은 성과를 보인 응답에 대해 수동 검토
> Perspective API : 6가지 지표(Toxicity, Severe Toxicity, Insult, Profanity, Sexually Explicit, Threat)를 평가
> Azure Content Filter : 4 가지 지표(Hate Speech, Self-Harm, Sexually Explicit Content, Violence)를 평가

※ Perspective API : 텍스트 내 잠재적인 유해 콘텐츠를 분석하여 여러 지표를 점수로 평가하는 도구 [2]
※ Azure Content Filter : Azure AI 서비스의 일부로, 텍스트 및 이미지 콘텐츠를 분석하여 유해하거나 부적절한 내용을 탐지하고 필터링하는 기능을 제공 [3]

 

- LLM 학습 단계에서 학습 데이터의 사전 필터링과 LLM의 정렬을 강화 필요
> 전자는 악성 콘텐츠 생성 및 탈옥의 가능성이 낮아지나 비용적 문제 존재
> 후자는 해당 공격을 유발하는 콘텐츠로 LLM을 미세 조정하는 방법
> 또는, 입출력 모두에 콘탠츠 필터 적용

 

2. Deceptive Delight [4]

[사진 2] Deceptive Delight

LLM을 대화에 참여시켜 가이드라인을 우회하고 안전하지 않거나 유해한 콘텐츠를 생성하도록 유도하는 멀티-턴 공격
> 64.6%의 공격 성공률을 보이며, 세 번의 대화 턴 내 유해한 콘텐츠를 생성할 수 있음
> 첫 번째 턴 : 3개의 주제(정상 주제 2개+안전하지 않은 주제 1개)를 연결하는 일관된 서사를 만들도록 요구
> 두 번째 턴 : 각 주제에 대해 더 자세히 설명하도록 요청 (정상 주제를 논의하는 동안 안전하지 않은 콘테츠를 생성할 수 있음)
> 세 번째 턴(선택 사항) : 안전하지 않은 주제에 대한 디테일 등 확장을 요청 (안전하지 않은 콘테츠의 구체성이 증가 됨)

 

- 양성(정상) 주제 사이에 안전하지 않거나 제한된 주제를 포함하여 LLM이 안전하지 않은 콘텐츠가 포함된 응답을 생성하도록 유도
> 콘텐츠 필터는 외부 방어 계층 역할을 하여 안전하지 않은 콘텐츠가 모델에 들어오거나 나가는 것을 차단
> 자연어 처리 기술을 사용해 텍스트를 분석하며 유해하거나 부적절한 콘텐츠를 감지하는데 초점
> 그러나, 속도와 효율성을 우선시해야 하므로 상대적으로 덜 정교함
> 연구는 이러한 모델 자체의 안전 메커니즘을 우회하는 데 중점을 둠

 

LLM이 긴 대화에서 맥락을 유지하는데 어려움을 겪는 점을 악용
> 무해한 콘텐츠와 잠재적으로 위험한(또는 해로운) 콘텐츠를 섞인 프롬프트를 처리할 때 맥락을 일관되게 평가하는 데 한계를 보임
> 복잡하거나 긴 문장에서 모델은 양성적인 측멱을 우선시하여, 위험 요소를 간과하거나, 잘못 해석할 수 있음

 

- 세 가지(성공률, 유해성, 생성된 콘텐츠의 품질) 평가 지표로 6가지 카테고리에 걸쳐 40개의 안전하지 않은 주제를 8개의 모델 평가
> 6가지 카테고리: Hate(증오), Harassment(괴롭힘), Self-harm(자해), Sexual(성적인), Violence(폭력), Dangerous(위험)
※ 두 번째 턴에서 세 번째 턴 사이에 유해성 점수 21%, 생성된 콘텐츠의 품질 점수 33% 증가

 

모델의 유용성과 유연성을 유지하며 탈옥 위험을 완화하기 위한 다층 방어 전략 필요
> 정렬 훈련 기술 강화
> 더 많은 방어 매커니즘 탐색
> 탈옥 취약점을 평가 및 해결하기 위한 포괄적 프레임워크 개발
> 연구자-개발자-AI 서비스 제공 업체 간 협력 환경 조성 : 모델의 회복력을 지속적으로 개선하는 데 필수적

 

3. Context Fusion Attack (CFA) [5]

[사진 3] Context Fusion Attack (CFA)

악의적인 키워드를 무해한 키워드로 교체하여 악성 의도를 숨기는 방식으로 LLM의 안전 장치를 우회
> 공격 단계 : 키워드 추출-컨텍스트 생성-공격
> 키워드 추출 : 전처리 단계에서 악성 키워드 필터링 및 추출
> 컨텍스트 생성 : 악의적인 키워드를 무해한 키워드로 대체하여 새로운 문장 생성
> 공격 : 새롭게 생성된 콘텍스트를 이용해 LLM의 안전 장치 우회

4. 참고

[1] https://crescendo-the-multiturn-jailbreak.github.io//
[2] https://medium.com/@losad2020/%EA%B5%AC%EA%B8%80-i-o-%EC%B1%85%EC%9E%84%EA%B0%90%EC%9E%88%EB%8A%94-%EC%9D%B8%EA%B3%B5%EC%A7%80%EB%8A%A5-%EC%8B%A4%EB%AC%B4-%EC%A0%81%EC%9A%A9-%EB%B0%A9%EB%B2%95-73e170d30289
[3] https://learn.microsoft.com/ko-kr/azure/ai-services/openai/concepts/content-filter?tabs=warning%2Cuser-prompt%2Cpython-new#content-filter-types
[4] https://unit42.paloaltonetworks.com/jailbreak-llms-through-camouflage-distraction/
[5] https://arxiv.org/abs/2408.04686

요약 - OWASP는 LLM 애플리케이션의 가장 치명적인 취약점 10가지 발표
- LLM을 보완하며 학습 데이터의 무결성을 확보하는 검색 증강 생성(Retrieval-Augmented Generation, RAG)
기타 - ChatGPT 등장 후 LLM은 AI 분야의 핵심 기술로 주목 받음
> LLM 관련 서비스들이 등장하고 있지만, 여러 취약점이 나오며 도입 및 사용을 꺼리는 현상이 나타남

- OWASP, LLM 애플리케이션의 가장 치명적인 취약점 10가지 발표
① 프롬프트 주입(Prompt Injection)
> 악의적인 프롬프트(질문)를 입력해 LLM이 본래 정책이나 가이드라인에 구애받지 않고 공격자 의도대로 작동하도록 하는 취약점
> LLM 접근 권한 제어 강화와 외부 콘텐츠 분리 등을 통해 완화할 수 있음

② 불완전한 출력 처리(Insecure Output Handling)
> LLM에서 생성된 출력이 검증 없이 다른 시스템으로 전달될 경우, 원격 코드 실행 등의 위협이 발생할 수 있음
> 제로 트러스트 접근 방식 사용과 입력 유효성 검사 등을 통해 예방할 수 있음

③ 학습 데이터 중독(Training Data Poisoning)
> 사전 학습 데이터를 조작해 모델의 보안성과 효율성을 손상시키는 취약점
> 사용자가 오염된 정보에 노출되거나 시스템 성능 저하를 초래할 수 있음
> 안정성이 검증된 학습 데이터를 사용해 예방할 수 있음

④ 모델 서비스 거부(Model Denial of Service)
> 공격자가 대량의 리소스를 소모시켜 다른 사용자의 서비스 품질을 저하시키고 높은 리소스 비용을 발생시킴
> 사용자 입력 제한 규칙 준수와 리소스 사용량 제한 등을 통해 예방할 수 있음

⑤ 공급망 취약점(Supply Chain Vulnerabilities)
> 체계적인 방식이나 도구 없이는 LLM 공급망을 관리하기 어려워 소프트웨어 공급망 취약점과 유사한 위협이 발생할 수 있음
> 신뢰할 수 있는 공급 업체 사용과 패치 정책 구현 등을 고려해야 함

⑥ 민감 정보 노출(Sensitive Information Disclosure)
> LLM의 답변을 통해 민감한 정보가 노출되고, 이로 인해 개인정보 침해나 지적재산의 무단 액세스가 발생할 수 있음
> 적절한 데이터 정제 기술로 민감 데이터가 학습 데이터에 포함되지 않도록 해야 함

⑦ 불완전 플러그인 설계(Insecure Plugin Design)
> LLM 플러그인은 사용자가 다른 앱 사용 중 자동으로 호출되는 확장 기능
> 모델이 다른 플랫폼에서 제공될 때 앱 실행을 제어할 수 없어 원격코드 실행 등 위협이 발생할 수 있음
> 이를 예방하기 위해 민감한 작업 실행 시 수동 승인을 요구하고 인증 ID를 적용해야 함

⑧ 과도한 에이전시(Excessive Agency)
> 기능 호출 권한을 가진 에이전트가 LLM의 출력에 대응해 해로운 작업을 수행할 수 있음
> 이는 세분화된 기능을 갖춘 플러그인을 사용하고 최소한의 권한으로 제한하는 등의 방법으로 예방할 수 있음

⑨ 과도한 의존(Overreliance)
> LLM이 환각 현상이 발생할 수 있움
> 파인튜닝, 임베딩, RAG 기법 등으로 품질을 개선하고 검증을 받으며, 사용자가 LLM의 한계를 인식하게 해 예방 가능

⑩ 모델 도난(Model Theft)
> 공격자가 해킹을 통해 LLM 모델에 무단으로 접근하거나 모델이 유출될 수 있음
> 강력한 보안 조치를 통해 예방할 수 있음

※ 기타
> 모델의 정보가 최신이 아니거나, 편향된 데이터를 학습해 차별적인 답

⑪ 결론
> LLM의 안정성을 강화하기 위해서는 학습 데이터의 무결성 확보, 권한·접근 제어 강화, 모델 관리 및 모니터링이 필요
> 사용자가 LLM의 한계를 인식하는 것도 중요

- 기존의 LLM
> 사용자 입력으로 학습된 데이터에 기반해 답변 생성
> 사용자가 LLM에 학습되지 않은 질문을 하면, LLM의 데이터 중 가장 확률이 높은 정보를 조합해 답변 생성
> 이 과정에서 환각 현상 (허위 또는 오래된 정보를 사실인 듯 제공) 발생 가능

- 검색 증강 생성(Retrieval-Augmented Generation, RAG)
> 환각 현상을 보완하며 학습 데이터의 무결성을 확보
> LLM이 답변을 생성하기 전 외부 학습 데이터 소스를 참조해 정확도를 높이는 방식
> 방대한 양의 데이터를 학습한 LLM이 특정 도메인이나 조직의 내부 데이터를 활용해 보다 정밀한 답변을 생성할 수 있음

> RAG 작동 방식: 외부 데이터 생성-관련 정보 검색-LLM 프롬프트 확장-외부 데이터 업데이트
① 외부 데이터 생성
  > API, 데이터베이스(DB), 문서 등 다양한 소스에서 원하는 데이터를 가져옴
  > 데이터는 파일, DB 레코드, 텍스트 등 여러 형식
  > LLM이 이해하도록 복잡한 데이터를 임베딩 언어모델을 사용해 벡터 형태로 변환
  > 변환된 벡터 데이터를 벡터 DB에 저장해 지식 라이브러리를 생성

② 관련 정보 검색
  > 사용자가 프롬프트를 입력하면, 질의 인코더(Query Encoder)가 사용자 프롬프트를 벡터 형태로 인코딩한 후 관련된 정보를 벡터 DB에서 검색해 가져옴
  > 관련 정보 검색은 키워드 검색, 시맨틱 검색, 두 방법을 결합한 하이브리드 검색 방법이 있음

③ LLM 프롬프트 확장
  > 검색된 데이터를 컨텍스트(Context)에 추가해 사용자 프롬프트를 보강
  > 확장된 프롬프트를 LLM에 전달하면, LLM이 검색 데이터를 활용해 답변 생성

④ 외부 데이터 업데이트
  > 문서를 비동기적으로 업데이트하는 것을 의미

- RAG 이외에 LLM의 환각 현상을 줄이는 또 다른 방법은 ‘파인튜닝(Fine-Tuning)
> LLM에 도메인 특화 데이터를 학습시켜 맞춤형 모델로 업데이트하는 방법
내용 -

 

보안뉴스

 

LLM 애플리케이션의 가장 치명적인 취약점 10가지와 최근 주목받는 RAG

미국 오픈AI(Open AI)가 대형 언어 모델(Large Language Model, LLM)을 활용한 인공지능(AI) 챗봇 서비스인 챗GPT(ChatGPT)를 공개한 이후 LLM은 AI 분야의 핵심 기술로 주목받고 있다. 구글의 PaLM, 메타의 LLaMA, 마

www.boannews.com

+ Recent posts