본문 바로가기
텍스트/과학-과학사

나이트쉐이드(Nightshade):생성형 AI에 맞서는 아티스트를 위한 새로운 무기

by 명랑한 소장님 2023. 10. 26.

나이트쉐이드라는 툴은 이미지 생성 AI 모델에 심각한 손상을 입힐 수 있는 방식으로 학습 데이터를 엉망으로 만든다

 

이 새로운 툴을 사용하면 아티스트가 온라인에 자신의 그림을 올리기 전에 픽셀에 보이지 않는 변경 사항을 추가할 수 있다. 이 이미지를 긁어 가 AI 학습에 사용하면 그 모델은 혼란스럽고 예측할 수 없는 방식으로 손상될 수 있다.

 

나이트쉐이드라는 이 도구는 창작자의 허락 없이 그의 작품으로 모델을 훈련시키는 AI 회사에 대항하기 위한 것이다. 훈련 데이터를 ‘중독’시키면 개를 고양이로, 자동차를 소를 만드는 등 일부 결과물을 쓸모없게 만들어 이미지 생성 AI 모델의 향후 작업에 손상을 줄 수 있다.

 

현재 OpenAI, Meta, Google, Stability AI와 같은 AI 회사들은 저작권이 있는 자료와 개인 정보가 동의나 보상 없이 스크랩되었다고 주장하는 아티스트들로부터 수많은 소송을 당하고 있다. 나이트쉐이드 개발팀을 이끈 시카고 대학교의 벤 자오 교수는 아티스트의 저작권과 지식재산권을 무시하는 행위에 강력한 억지력을 만들어 기업에서 아티스트로 힘의 균형을 되돌릴 수 있기를 바란다고 말한다.

 

또한 그의 팀은 아티스트가 자신의 스타일을 인공지능 회사에 수집되지 않도록 ‘마스킹’할 수 있는 도구인 글레이즈(Glaze)도 개발했다. 나이트쉐이드와 비슷한 방식으로 이 도구도 눈에 보이지 않지만, 기계학습 모델을 조직해 이미지를 실제와 다른 것으로 해석하도록 이미지의 픽셀을 미묘하게 변경한다.

 

유니티는 나이트쉐이드를 글레이즈에 통합할 계획이며, 아티스트는 이 툴을 사용할지 여부를 선택할 수 있다. 또한 사람들이 나이트쉐이드를 수정하여 자신만의 버전을 만들 수 있도록 오픈 소스로 공개할 계획이다. 더 많은 사람이 이 도구를 사용하고, 자신만의 버전을 만들수록 이 도구는 더욱 강력해질 것이라고 자오는 말한다. 대규모 AI 모델의 데이터 세트는 수십억 개의 이미지로 구성될 수 있으므로 모델이 중독된 이미지를 더 많이 스크래핑할수록 이 기법으로 인한 피해는 더 커질 수 있다.

 

표적 공격

 

나이트쉐이드는 생성형 AI 모델이 방대한 양의 데이터(이 경우 인터넷에서 수집한 이미지)로 학습한다는 보안 취약점을 노린다. 나이트쉐이드는 이런 이미지를 엉망으로 만든다.

 

온라인에 작품을 올리고 싶지만, AI 회사에 의해 이미지가 스크랩되는 것을 원하지 않는 아티스트는 글레이즈에 업로드하고 자기 작품과 다른 아트 스타일로 마스킹하도록 선택할 수 있다. 그런 다음 나이트쉐이드를 사용하도록 선택할 수도 있다. AI 개발자가 기존의 모델을 조정하거나 새로운 모델을 구축하려 더 많은 데이터를 얻기 위해 인터넷을 스크래핑하면, 이렇게 중독된 샘플이 모델의 데이터 세트에 들어가 오작동을 일으킬 수 있다.

 

예를 들어, 중독된 데이터 샘플은 모자 이미지를 케이크로, 핸드백 이미지를 토스터로 학습하도록 모델을 조작할 수 있다. 오염된 데이터는 기업이 손상된 샘플을 일일이 찾아서 삭제해야 하므로 제거가 매우 어렵다.

 

연구진은 최신 모델의 스테이블 디퓨전과 자체적으로 훈련한 AI 모델로 공격을 테스트했다. 50개의 중독된 개 이미지를 공급한 다음 스스로 개 이미지를 생성하도록 했다. 그 결과 팔다리가 많거나 만화 스타일의 얼굴을 한 이상한 생물이 생성됐다. 공격자는 300개의 중독된 샘플로 스테이블 디퓨전을 조작해 고양이처럼 보이는 개 이미지를 생성할 수 있다.

 

생성형 AI 모델은 단어 간의 연결에 능숙하기 때문에 독이 퍼지는 데 도움이 된다. 나이트쉐이드는 “개”라는 단어뿐만 아니라 “강아지”, “허스키”, “늑대”와 같은 유사한 개념의 모든 단어를 감염시킨다. 이런 공격은 간접적으로 연관된 이미지에도 작동한다. 예를 들어 모델이 ‘판타지 아트’라는 프롬프트에 대해 중독된 이미지를 스크랩한 경우 ‘용’과 ‘반지의 제왕에 나오는 성’이라는 프롬프트도 마찬가지로 다른 이미지로 조작될 수 있다.

 

자오는 데이터 중독 기법이 악용될 위험이 있다고 인정한다. 하지만 크고 강력한 모델은 수십억 개의 데이터 샘플로 학습하기 때문에 모델에 실제적인 피해를 주려면 수천 개의 중독된 샘플이 필요하다고 말한다.

 

“이런 공격에 대한 강력한 방어책은 아직 없습니다. 아직 현장에선 최신 모델에 대한 이러한 공격을 본 적은 없지만 시간문제일 수 있습니다.”라고 AI 모델 보안을 연구하는 이번 연구에 참여하지 않은 비탈리 슈마토코프 코넬 대학 교수는 말한다.

 

AI 모델의 데이터 프라이버시와 견고성을 연구하는 워털루 대학교의 조교수이자 이번 연구에 참여하지 않은 가우탐 카마스는 이 연구가 “환상적”이라고 말한다.

 

그 연구는 “이러한 새로운 모델에서는 취약성이 마술처럼 사라지지 않고 오히려 더 심각해질 뿐”이라고 카마스는 말한다. “특히 이 모델이 더 강력해지고 사람들이 더 많은 신뢰를 갖게 되면 시간이 지날수록 위험이 증가하기 때문에 더 그렇습니다.”

 

강력한 억지력

 

딥러닝 시스템 보안을 연구했으며 이번 연구에 참여하지 않은 컬럼비아 대학교의 컴퓨터 과학 교수인 준펑 양은 나이트쉐이드가 로열티를 더 기꺼이 지불하게 하는 등, AI 회사가 아티스트의 권리를 존중하게 만드는 데 큰 영향을 미칠 수 있다고 말한다.

 

현재 AI 회사들은 향후 버전의 모델에서 아티스트의 이미지를 무단으로 학습하는 데 사용되지 않게 선택할 수 있게 하겠다고 했다. 하지만 아티스트들은 그것만으로 충분하지 않다고 말한다. 글레이즈를 사용해 온 일러스트레이터이자 아티스트인 에바 투렌트는 그런 선택도 여러 단계를 거쳐야 하는 번거로운 과정을 거치기 때문에 여전히 모든 권한은 기술 회사가 쥐고 있다고 말한다. 그녀는 나이트쉐이드가 이러한 상황을 바꿀 수 있기를 희망한다.

 

“AI 회사가 우리의 동의 없이 작품을 가져갔다간 모델 전체가 파괴될 가능성이 있기 때문에 데이터 수집 과정에서 한 번 더 생각하게 할 것입니다.”라고 그녀는 말한다.

 

또 다른 아티스트인 가을 비벌리는 나이트쉐이드와 글레이즈 같은 도구 덕분에 자기 작품을 다시 온라인에 게시할 수 있다는 자신감을 얻었다고 말한다. 이전에 그녀는 자기 작품이 인기 있는 LAION 이미지 데이터베이스에 동의 없이 스크랩된 것을 발견한 후 인터넷에서 작품을 삭제한 적이 있다.

 

아티스트가 자기 작품에 대한 권한을 되찾을 있도록 도와주는 도구가 있다는 사실에 정말 감사할 따름입니다."라고 그녀는 말한다.

 

(원문 기사)

https://www.technologyreview.com/2023/10/23/1082189/data-poisoning-artists-fight-generative-ai/

 

This new data poisoning tool lets artists fight back against generative AI

The tool, called Nightshade, messes up training data in ways that could cause serious damage to image-generating AI models. 

www.technologyreview.com