요약 - LLM 학습에 사용되는 데이터셋에서 약 1만2천개의 활성 API 키와 비밀번호가 포함된 사실을 발견
- 학습 과정에서 보안이 제대로 관리되지 않을 경우, 심각한 보안 취약점으로 이어질 수 있음을 다시 한번 경고
내용 - 보안 기업 Truffle Security, 2024년 12월 공개된 Common Crawl의 웹 데이터 아카이브를 분석
> Common Crawl : 지난 18년간 축적된 400TB 규모의 웹 데이터를 제공하는 공공 웹 크롤링 저장소
> 이 데이터에서 219가지 유형의 민감한 정보가 포함된 것을 확인
> 아마존웹서비스(AWS) 루트 키, 슬랙(Slack) 웹훅, 메일침프(Mailchimp) API 키 등이 포함
> 11,908개의 API 키 및 비밀번호 중 상당수는 여러 웹사이트에 중복적으로 노출

- 노출된 API 키와 비밀번호가 AI 학습 데이터에 포함될 경우, 보안상 심각한 위험을 초래
안전하지 않은 코딩 방식이 AI를 통해 강화될 가능성
> 하드코딩된 인증 정보를 포함한 데이터를 학습하면, 이후 개발자들에게 보안이 취약한 코드 패턴을 제안할 위험
AI가 민감한 정보를 그대로 재현할 가능성
> AI 모델이 특정 API 키나 비밀번호를 학습한 경우, 사용자가 특정 프롬프트를 입력했을 때 해당 정보를 그대로 반환할 가능성

- 철저한 보안 관리가 필요성이 강조됨
> 비밀번호와 API 키를 소스코드에 직접 포함하는 대신, 전용 보안 관리 시스템을 활용
> 코드 리뷰 및 자동화된 보안 점검을 강화
> AI 학습 데이터를 사전에 철저히 검토하고, 민감한 정보가 포함되지 않도록 필터링하는 절차를 강화
기타 - AI 기술이 발전함에 따라 데이터 보안이 더욱 중요해지고 있음을 보여줌
> LLM을 학습시키는 과정에서 보안 조치가 철저히 이루어지지 않으면, AI가 보안 취약점을 학습하고 확산시키는 새로운 위협 요소로 작용할 수 있음
> AI 개발자와 기업들은 보안 강화를 위한 체계적인 접근 방식을 도입해야 함

 

보안뉴스

 

LLM 학습 데이터에서 1만2천개 이상 API 키 및 비밀번호 노출 확인 - 데일리시큐

최근 보안 연구진이 거대 언어 모델(LLM) 학습에 사용되는 데이터셋에서 약 1만2천개의 활성 API 키와 비밀번호가 포함된 사실을 발견했다. 이 조사 결과는 AI 학습 과정에서 보안이 제대로 관리되

www.dailysecu.com

 

Research finds 12,000 ‘Live’ API Keys and Passwords in DeepSeek's Training Data ◆ Truffle Security Co.

We scanned Common Crawl - a massive dataset used to train LLMs like DeepSeek - and found ~12,000 hardcoded live API keys and passwords. This highlights a growing issue: LLMs trained on insecure code may inadvertently generate unsafe outputs.

trufflesecurity.com

 

+ Recent posts