2025.05.19 (월)

스타트업

에임인텔리전스, AI 보안 논문 ACL 2025 채택



인공지능 언어모델 보안 기업 에임인텔리전스가 자연어처리 분야 최고 권위 학술대회인 ACL 2025 메인 z퍼런스에 논문이 채택되는 성과를 이루었다고 18일 밝혔다.


이번에 채택된 논문 "One-Shot is Enough: Consolidating Multi-Turn Attacks into Efficient Single-Turn Prompts for LLMs"는 다중 턴 공격을 단일 턴 형식으로 압축하는 'M2S(Multi-turn-to-Single-turn)' 프레임워크를 제안했다. M2S 프레임워크는 하이픈화(Hyphenize), 숫자화(Numberize), 파이썬화(Pythonize)라는 세 가지 전략을 활용해 다중 턴 공격을 효과적으로 단일 턴으로 변환하는 방법을 체계화했다.


연구 결과에 따르면, 이렇게 압축된 단일 턴 공격은 Mistral-7B 모델에서 최대 95.9%의 공격 성공률을 보였으며, GPT-4o에서는 기존 다중 턴 공격보다 최대 17.5% 더 효과적인 것으로 나타났다. 특히 다중 턴 공격에 비해 70-80% 적은 토큰을 사용하면서도 더 높은 효과를 보인 점이 주목할 만하다. 이는 반복적인 대화 없이도 잘 설계된 단일 턴 프롬프트가 동등하거나 더 강력한 공격 효과를 가질 수 있음을 시사한다.


이번 연구는 KAIST 소속 김현준 연구원이 에임인텔리전스 연구 인턴십을 수행한 결과물로, 아이디어 구상부터 실험, 그리고 까다로운 심사 과정에서의 추가 실험과 반박까지 전 과정을 공동 제1저자인 하준우와 함께 주도적으로 수행했다. 본 논문은 자연어처리 분야의 최고 권위 학술대회 ACL 2025 메인 트랙에서 발표될 예정이다.


유상윤 대표는 "이번 연구는 현재 LLM 방어 시스템의 취약점을 명확히 보여주며, 레드팀(red teaming)과 안전장치 설계에 중요한 시사점을 제공한다"고 말했다. 특히 ACL 2025와 같은 권위 있는 학술대회에 논문이 채택된 것은 AI 안전성 연구 역량을 국제적으로 인정받은 사례로 평가된다.


한편 에임인텔리전스는 최근 'SUDO(Screen-based Universal Detox2 Tox Offense)' 프레임워크에 관한 연구로도 ACL 2025 인더스트리 트랙에 논문이 채택되는 성과를 거두었다. 이 연구에서는 상용 AI 에이전트의 보안 취약성을 실증하고, AI가 처음에는 명령을 거절하더라도 화면 정보와 반복적인 입력 조작을 통해 결국 해당 작업을 실행하게 된다는 점을 실험적으로 입증했다. 이 외에도 VLM 유해성 평가 체계 'ELITE'로 ICML 2025 채택에 이르는 등 국내 AI 안전성 연구의 위상을 높이고 있다.

관련기사