요약 | - LLM 학습에 사용되는 데이터셋에서 약 1만2천개의 활성 API 키와 비밀번호가 포함된 사실을 발견 - 학습 과정에서 보안이 제대로 관리되지 않을 경우, 심각한 보안 취약점으로 이어질 수 있음을 다시 한번 경고 |
내용 | - 보안 기업 Truffle Security, 2024년 12월 공개된 Common Crawl의 웹 데이터 아카이브를 분석 > Common Crawl : 지난 18년간 축적된 400TB 규모의 웹 데이터를 제공하는 공공 웹 크롤링 저장소 > 이 데이터에서 219가지 유형의 민감한 정보가 포함된 것을 확인 > 아마존웹서비스(AWS) 루트 키, 슬랙(Slack) 웹훅, 메일침프(Mailchimp) API 키 등이 포함 > 11,908개의 API 키 및 비밀번호 중 상당수는 여러 웹사이트에 중복적으로 노출 - 노출된 API 키와 비밀번호가 AI 학습 데이터에 포함될 경우, 보안상 심각한 위험을 초래 ① 안전하지 않은 코딩 방식이 AI를 통해 강화될 가능성 > 하드코딩된 인증 정보를 포함한 데이터를 학습하면, 이후 개발자들에게 보안이 취약한 코드 패턴을 제안할 위험 ② AI가 민감한 정보를 그대로 재현할 가능성 > AI 모델이 특정 API 키나 비밀번호를 학습한 경우, 사용자가 특정 프롬프트를 입력했을 때 해당 정보를 그대로 반환할 가능성 - 철저한 보안 관리가 필요성이 강조됨 > 비밀번호와 API 키를 소스코드에 직접 포함하는 대신, 전용 보안 관리 시스템을 활용 > 코드 리뷰 및 자동화된 보안 점검을 강화 > AI 학습 데이터를 사전에 철저히 검토하고, 민감한 정보가 포함되지 않도록 필터링하는 절차를 강화 |
기타 | - AI 기술이 발전함에 따라 데이터 보안이 더욱 중요해지고 있음을 보여줌 > LLM을 학습시키는 과정에서 보안 조치가 철저히 이루어지지 않으면, AI가 보안 취약점을 학습하고 확산시키는 새로운 위협 요소로 작용할 수 있음 > AI 개발자와 기업들은 보안 강화를 위한 체계적인 접근 방식을 도입해야 함 |
보안뉴스
LLM 학습 데이터에서 1만2천개 이상 API 키 및 비밀번호 노출 확인 - 데일리시큐
최근 보안 연구진이 거대 언어 모델(LLM) 학습에 사용되는 데이터셋에서 약 1만2천개의 활성 API 키와 비밀번호가 포함된 사실을 발견했다. 이 조사 결과는 AI 학습 과정에서 보안이 제대로 관리되
www.dailysecu.com
Research finds 12,000 ‘Live’ API Keys and Passwords in DeepSeek's Training Data ◆ Truffle Security Co.
We scanned Common Crawl - a massive dataset used to train LLMs like DeepSeek - and found ~12,000 hardcoded live API keys and passwords. This highlights a growing issue: LLMs trained on insecure code may inadvertently generate unsafe outputs.
trufflesecurity.com
'보안뉴스' 카테고리의 다른 글
국정원, 소프트웨어 공급망 보안 취약점 노린 북한 해킹 경고 (0) | 2025.03.09 |
---|---|
4만9천개 이상 보안 취약한 건물 출입 관리 시스템 온라인에 노출...심각한 위협 (0) | 2025.03.01 |
280만 개 IP 주소 활용해 전 세계 VPN 장비 노린 대규모 공격 발생 (0) | 2025.02.13 |
[긴급] 포티게이트 방화벽 설정파일 1만5000개 유출, IP 주소 확인 필요 (0) | 2025.01.22 |
오래됐지만 여전히 사랑받는 NTLM, 이제 정말 없애야 할 때 (0) | 2025.01.22 |