1. 인공지능
- 인간의 학습능력, 추론능력, 지각능력을 인공적으로 구현하려는 컴퓨터 과학
- 인간의 지능을 기계 등에 인공적으로 시연(구현)한 것
- 인공지능 ⊃ 머신러닝 ⊃ 딥러닝
머신러닝 (Machine Learning) | 비교 | 딥러닝 (Deep Learning) |
기존 통계 기법 기반 | 기반 기술 | 인공 신경만 이용 |
미리 정의된 특징 추출 및 이를 기반으로 학습 | 학습 | 자동으로 특징 추출 및 이를 기반으로 학습 |
비교적 간단한 데이터 | 필요 데이터 | 대량 데이터 |
간단한 모델에서도 높은 예측 성공 | 예측 성능 | 복잡한 모델에서 높은 예측 성공 |
다양 분야 활용 | 활용 분야 | 이미지, 음성, 자연어 처리 분야에서 뛰어난 성능 |
전문적 지식 필요 없음 | 모델 설계 필요 지식 | 전문 지식 필요 |
빠른 학습 시간 | 학습 시간 | 오랜 학습 시간 |
복잡한 계산식 불필요 | 계산식 | 복잡한 계산식 필요 |
2. 보안 취약점
- 챗GPT의 등장으로 인공지능 기술에 대한 관심은 더욱 높아짐
- 이미 챗GPT을 이용해 악성 앱을 만들어 사이버 공격에 활용하는 사례가 확인됨
① 사례1: PuTTY SSH와 텔넷 클라이언트를 다운로드 받는 자바 코드 생성
② 사례2: 완전 자동화 된 다크웹 시장 플랫폼 구축
③ 사례3: 데이터 암복호화에 사용가능한 파이썬 스크립트 블로피시(Blowfish)와 투피시(Twofish) 개발
2.1 적대적 공격 (Adversarial Attack)
- 적대적 공격: 딥 러닝의 심층 신경망을 이용한 모델에 적대적 교란(Adversarial Pertubation)을 적용하여 오분류를 유발하고 신뢰도 감소를 야기하는 머신러닝 공격 기법
- 공격 목적
- 신뢰도 감소: 모델에 대한 예측 신뢰도를 감소
- 오분류: 집단 A를 B, C, D, E 등 다른 집단으로 오분류 ex. STOP 표지판을 GO 또는 SLOW 등으로 오분류
- 출력 오분류: 집단 B, C, D, E 등을 하나의 집단 A로 오분류 ex. STOP 또는 SLOW 표지판을 GO로 오분류
- 입력 및 출력 오분류: 집단 A를 집단 B로 오분류 ex. STOP 표지판을 GO로 분류
① Poisoning attack (중독 공격, 오염 공격)
> 데이터셋에 악성 데이터를 삽입하는 것과 같이 의도적으로 악의적인 학습 데이터를 주입해 시스템 자체를 손상시키는 공격
> 모델 자체를 공격해서 모델에게 영향을 줌
> 예시: MS 인공지능 채팅봇 테이(Tay)
- 2016년 MS는 인공지능 채팅봇 테이(Tay) 공개
- 악의적인 발언을 하도록 훈련시켜 차별적 발언을 남발
- 16시간 만에 서비스 중지
② Evasion attack (회피 공격)
> 입력 데이터에 최소한의 변조를 가해 머신러닝을 속이는 기법
> 인간의 눈으로 식별하기 어려운 노이즈 데이터를 삽입하여 변조
> 예시: 2016년 테슬라 원격 주행 자동차가 해킹
- 2016년 테슬라 원격 주행 자동차가 해킹으로 원격조종 영상 공개
- 2017년 워싱턴대학의 연구팀의 증명
- 도로 교통 표지판에 스티커 부착만으로 자율주행차의 표지판 인식 모듈이 ‘정지’ 표시를 ‘속도제한’ 표시로 오인식
③ Inversion attack (전도 공격, 학습 데이터 추출 공격)
> 데이터 분류를 위한 머신러닝은 주어진 입력에 대한 분류 결과와 신뢰도를 함께 출력
> 주어진 입력에 대해 출력되는 분류 결과와 신뢰도(Confidence)를 분석하여 역으로 데이터를 추출
> 예시: 2021년 6월 애플, 구글, 하버드대학, 스탠포드대학 등의 공동 논문
- 인공지능 모델을 훈련시키는 데이터를 추출하여 개인 식별 정보 등 민감 정보를 빼내는 데 성공
- 당시 실험에 사용되던 모델은 GPT2로 챗GPT보다 한 단계 전의 모델
④ Model extraction attack (모델 추출 공격)
> 공개된 API가 있는 학습 모델의 정보를 추출하는 공격 기법
> 기존 모델이 어떻게 이루어져 있는지 알 수 없지만 API를 통해 얻어진 정보로 기능적으로 비슷한 모델을 구현
> 예시: 2016년 Florian Tramèr의 Stealing Machine Learning Models via Prediction APIs
- 70초 동안 650번 쿼리만으로도 아마존 머신러닝 모델과 유사한 모델을 만들어 내는 것이 가능하다는 연구결과
2.2 이 외 문제
① 스팸 필터를 속이는 스팸 메일
> 스팸 방지 필터는 스팸 지수와 같은 차단한 근거를 생성 > 지속적으로 메일을 보내 스팸 필터 모델의 작동 기준 재구성
② 정교해진 피싱 메일
> 해커 포럼에 머신러닝을 활용한 메일 자동 생성 서비스가 판매 되는 중
③ 패스워드 해킹
> 대입 공격에 사용되는 데이터셋의 질 향상과 탈취한 패스워드의 해시를 해독하는데 머신러닝 활용
④ 딥 페이크
> 실제 사람과 분간하기 어려운 비디오나 오디오를 생성
⑤ 보안 도구 우회
> 보안 장비의 탐지를 우회하고 공격 도구를 보호하는데 머신러닝 활용
⑥ 공격 대상 정찰
> 머신러닝 기반의 스캔 도구 개발 가능성
⑦ 자동화 멀웨어
> C2 접근 등이 차단된 경우에도 공격을 지속할 수 있는 지능적인 멀웨어 등장 가능성
3. 대응방안
① 최소극대화(Minimax)
> 적대적 생성 신경망(Generative Adversarial Network, GAN): 생성 모델과 식별 모델이 서로 경쟁하여 손실이 최소화된 데이터를 생성하는 모델
② 적대적 예제 학습
> 학습 과정에 적대적 예제를 추가 학습데이터로 활용
> Defense-GAN: 생성 이미지와 적대적 예제의 차이를 최소화하는 새로운 생성 데이터(z')을 만들어 기존 GAN 학습
③ 결과값으로부터 역추론을 할 수 없도록 결과값을 숨기거나 변환
4. 참고
[1] https://www.kisec.com/rsrh_rpt_det.do?id=221
[2] https://www.kisec.com/rsrh_rpt_det.do?id=241
[3] https://itwiki.kr/w/%EC%A0%81%EB%8C%80%EC%A0%81_%EA%B3%B5%EA%B2%A9
[4] https://www.ciokorea.com/news/240019
[5] https://www.boannews.com/media/view.asp?idx=114975&page=1&kind=1
'취약점 > AI, LLM' 카테고리의 다른 글
Ollama 취약점(CVE-2024-39720, CVE-2024-39722, CVE-2024-39719, CVE-2024-39721, CWE-668, CWE-285) (3) | 2024.11.06 |
---|---|
LLM 탈옥 : Crescendo, Deceptive Delight, Context Fusion Attack (CFA) (0) | 2024.10.30 |
오픈소스 AI 플랫폼 보안 취약점 (0) | 2024.02.11 |