LlamaFirewall یک چارچوب امنیتی است که با هدف محافظت از ایجنتهای هوش مصنوعی در برابر تهدیداتی مثل حمله تزریق پرامپت (Prompt Injection)، ناهماهنگی در اهداف و تولید کد ناامن طراحی شده است. در ارزیابیهای انجامشده با معیار AgentDojo، این سیستم توانست بیش از ۹۰٪ از نرخ موفقیت حملات را کاهش دهد. همچنین توسعهدهندگان میتوانند با افزودن محدودیتهای امنیتی جدید، بهراحتی رفتار آن را بهروزرسانی کنند.
LlamaFirewall یک پایشگر امنیتی آنی (Real-time Guardrail Monitor) است که بهعنوان لایه نهایی دفاع در برابر ریسکهای امنیتی مرتبط با ایجنتهای هوش مصنوعی عمل میکند. این چارچوب سه لایه حفاظتی اصلی دارد:
- PromptGuard 2: محافظی عمومی که جلوی روشهای دور زدن محدودیتها (Jailbreak) را میگیرد.
- Agent Alignment Checks: ممیز زنجیره تفکر (Chain-of-thought Auditor) که منطق ایجنت را بررسی کرده و حملات پرامپت و ناهماهنگی اهداف را شناسایی میکند.
- CodeShield: یک موتور تحلیل ایستا آنلاین که هدفش جلوگیری از تولید کدهای ناامن یا خطرناک توسط ایجنتهای برنامهنویس است.
PromptGuard 2
PromptGuard 2 یک مدل ریزتنظیمشده از نوع BERT (خلاصه Bidirectional Encoder Representations from Transformers) است که برای شناسایی تلاشهای دور زدن محدودیتها (Jailbreak) طراحی شده است. این مدل بهصورت آنی پرامپتهای کاربران و منابع داده غیرقابلاعتماد را تحلیل میکند. تمرکز آن بهطور ویژه بر شناسایی تاکتیکهایی مانند بازنویسی دستورالعملها (Instruction Overrides) و تزریق توکن (Token Injection) است.
در مقایسه با نسل قبلی خود، PromptGuard 2 عملکرد بهتری در واریانت ۸۶ میلیون پارامتر ارائه داده و تاخیر را در واریانت سبکوزن ۲۲ میلیون پارامتر کاهش داده است.
AlignmentCheck
AlignmentCheck یک ممیز آزمایشی زنجیرهای تفکر است که منطق استدلال ایجنت را بررسی و نشانههایی از دزدیدن اهداف یا ناهماهنگی آنها را شناسایی میکند.
به جای بررسی پیامهای فردی، AlignmentCheck مسیر اجرای کل ایجنت را تحلیل کرده و انحرافاتی را که نشاندهنده حملات پنهان پرامپت، خروجی گمراهکننده ابزارها یا سایر اشکال دزدیدن اهداف هستند، شناسایی و علامتگذاری میکند. |
بر اساس گفتههای محققان متا، AlignmentCheck اولین گاردریل متنباز است که قادر است زنجیره تفکر یک مدل زبان بزرگ را بهصورت آنی ممیزی کند و بهطور خاص برای دفاع در برابر حملات تزریق طراحی شده است.
CodeShield
CodeShield یک موتور تحلیل ایستا آنلاین برای کد تولیدشده توسط مدلهای زبان بزرگ (LLM) است که از قوانین مبتنی بر Semgrep و Regex پشتیبانی میکند. این ابزار بهمنظور گسترشپذیری طراحی شده و امکان تطابق الگوهای آگاه از نحو را در هشت زبان برنامهنویسی مختلف برای شناسایی خطرات احتمالی فراهم میآورد. این ابزار که در ابتدا بهعنوان بخشی از راهاندازی Llama 3 منتشر شد، اکنون به LlamaFirewall ادغام شده است.
اگرچه CodeShield در شناسایی طیف وسیعی از الگوهای کد ناامن موثر است، اما کامل نیست و ممکن است آسیبپذیریهای دقیق یا وابسته به زمینه را از دست بدهد. کارایی شناسایی آن در ارزیابی CyberSecEval3 بررسی شده و در شناسایی کد ناامن، دقت ۹۶٪ و بازخوانی ۷۹٪ را بهدست آورده است. |
استفاده ترکیبی از PromptGuard و AlignmentCheck عملکرد را در معیار AgentDojo بهبود میبخشد. علاوه بر این، محققان Meta پیشنهاد میکنند که این ترکیب میتواند نتایج بهتری را در سناریوهای متنوعتر یا عمومیتر تهدیدهای دشمنی که فراتر از موارد تحت پوشش AgentDojo هستند، به دست آورد.
سناریوهای یکپارچهسازی سیستمهای ایجنتی
محققان Meta دو روند کاری را توصیف میکنند که نشان میدهد چگونه میتوان LlamaFirewall را در سیستمهای ایجنتی یکپارچه کرد.
در سناریو اول، یک ایجنت برنامهریزی سفر از PromptGuard برای اسکن محتوای وب (مثل نقدهای سفر) استفاده میکند تا عبارات به سبک حملات دور زدن محدودیتها (jailbreak) را شناسایی کرده و صفحات مشکوک را رد کند. در همین حال، AlignmentCheck جریان توکنهای ایجنت را نظارت میکند تا بررسی کند آیا هدف از برنامهریزی سفر منحرف شده است یا خیر، که در صورت شناسایی چنین انحرافی، اجرای آن متوقف میشود.
در سناریو دوم، یک ایجنت برنامهنویسی کد SQL را بر اساس ورودیهای توسعهدهندگان تولید میکند. این ایجنت نمونههایی را از وب استخراج کرده و آنها را با استفاده از CodeShield بررسی میکند تا زمانی که راهحل صحیحی پیدا کند.
بر اساس اظهارات متا، کار بر روی LlamaFirewall در چندین جهت ادامه خواهد یافت، از جمله پشتیبانی از ایجنتهای چندمدلی، کاهش تاخیر، گسترش پوشش تهدیدها و انجام ارزیابیهای دقیقتر و واقعیتر.
منبع: www.infoq.com
دیدگاهتان را بنویسید