Meta از انتشار متن‌باز LlamaFirewall برای ایجنت‌های هوش مصنوعی خبر داد

نویسنده:

دریا بهرامی

انتشار:

اردیبهشت ۲۸, ۱۴۰۴

به‌روزرسانی:

تعداد نظرات: 0

LlamaFirewall یک چارچوب امنیتی است که با هدف محافظت از ایجنت‌های هوش مصنوعی در برابر تهدیداتی مثل حمله تزریق پرامپت (Prompt Injection)، ناهماهنگی در اهداف و تولید کد ناامن طراحی شده است. در ارزیابی‌های انجام‌شده با معیار AgentDojo، این سیستم توانست بیش از ۹۰٪ از نرخ موفقیت حملات را کاهش دهد. همچنین توسعه‌دهندگان می‌توانند با افزودن محدودیت‌های امنیتی جدید، به‌راحتی رفتار آن را به‌روزرسانی کنند.

LlamaFirewall یک پایشگر امنیتی آنی (Real-time Guardrail Monitor) است که به‌عنوان لایه نهایی دفاع در برابر ریسک‌های امنیتی مرتبط با ایجنت‌های هوش مصنوعی عمل می‌کند. این چارچوب سه لایه حفاظتی اصلی دارد:

PromptGuard 2: محافظی عمومی که جلوی روش‌های دور زدن محدودیت‌ها (Jailbreak) را می‌گیرد.
Agent Alignment Checks: ممیز زنجیره تفکر (Chain-of-thought Auditor) که منطق ایجنت را بررسی کرده و حملات پرامپت و ناهماهنگی اهداف را شناسایی می‌کند.
CodeShield: یک موتور تحلیل ایستا آنلاین که هدفش جلوگیری از تولید کدهای ناامن یا خطرناک توسط ایجنت‌های برنامه‌نویس است.

PromptGuard 2

PromptGuard 2 یک مدل ریزتنظیم‌شده از نوع BERT (خلاصه‌ Bidirectional Encoder Representations from Transformers) است که برای شناسایی تلاش‌های دور زدن محدودیت‌ها (Jailbreak) طراحی شده است. این مدل به‌صورت آنی پرامپت‌های کاربران و منابع داده غیرقابل‌اعتماد را تحلیل می‌کند. تمرکز آن به‌طور ویژه بر شناسایی تاکتیک‌هایی مانند بازنویسی دستورالعمل‌ها (Instruction Overrides) و تزریق توکن (Token Injection) است.

در مقایسه با نسل قبلی خود، PromptGuard 2 عملکرد بهتری در واریانت ۸۶ میلیون پارامتر ارائه داده و تاخیر را در واریانت سبک‌وزن ۲۲ میلیون پارامتر کاهش داده است.

AlignmentCheck

AlignmentCheck یک ممیز آزمایشی زنجیره‌ای تفکر است که منطق استدلال ایجنت را بررسی و نشانه‌هایی از دزدیدن اهداف یا ناهماهنگی آن‌ها را شناسایی می‌‌کند.

به جای بررسی پیام‌های فردی، AlignmentCheck مسیر اجرای کل ایجنت را تحلیل کرده و انحرافاتی را که نشان‌دهنده حملات پنهان پرامپت، خروجی گمراه‌کننده ابزارها یا سایر اشکال دزدیدن اهداف هستند، شناسایی و علامت‌گذاری می‌کند.

بر اساس گفته‌های محققان متا، AlignmentCheck اولین گاردریل متن‌باز است که قادر است زنجیره تفکر یک مدل زبان بزرگ را به‌صورت آنی ممیزی کند و به‌طور خاص برای دفاع در برابر حملات تزریق طراحی شده است.

CodeShield

CodeShield یک موتور تحلیل ایستا آنلاین برای کد تولیدشده توسط مدل‌های زبان بزرگ (LLM) است که از قوانین مبتنی بر Semgrep و Regex پشتیبانی می‌کند. این ابزار به‌منظور گسترش‌پذیری طراحی شده و امکان تطابق الگوهای آگاه از نحو را در هشت زبان برنامه‌نویسی مختلف برای شناسایی خطرات احتمالی فراهم می‌آورد. این ابزار که در ابتدا به‌عنوان بخشی از راه‌اندازی Llama 3 منتشر شد، اکنون به LlamaFirewall ادغام شده است.

اگرچه CodeShield در شناسایی طیف وسیعی از الگوهای کد ناامن موثر است، اما کامل نیست و ممکن است آسیب‌پذیری‌های دقیق یا وابسته به زمینه را از دست بدهد. کارایی شناسایی آن در ارزیابی CyberSecEval3 بررسی شده و در شناسایی کد ناامن، دقت ۹۶٪ و بازخوانی ۷۹٪ را به‌دست آورده است.

استفاده ترکیبی از PromptGuard و AlignmentCheck عملکرد را در معیار AgentDojo بهبود می‌بخشد. علاوه بر این، محققان Meta پیشنهاد می‌کنند که این ترکیب می‌تواند نتایج بهتری را در سناریوهای متنوع‌تر یا عمومی‌تر تهدیدهای دشمنی که فراتر از موارد تحت پوشش AgentDojo هستند، به دست آورد.

سناریوهای یکپارچه‌سازی سیستم‌های ایجنتی

محققان Meta دو روند کاری را توصیف می‌کنند که نشان می‌دهد چگونه می‌توان LlamaFirewall را در سیستم‌های ایجنتی یکپارچه کرد.

در سناریو اول، یک ایجنت برنامه‌ریزی سفر از PromptGuard برای اسکن محتوای وب (مثل نقدهای سفر) استفاده می‌کند تا عبارات به سبک حملات دور زدن محدودیت‌ها (jailbreak) را شناسایی کرده و صفحات مشکوک را رد کند. در همین حال، AlignmentCheck جریان توکن‌های ایجنت را نظارت می‌کند تا بررسی کند آیا هدف از برنامه‌ریزی سفر منحرف شده است یا خیر، که در صورت شناسایی چنین انحرافی، اجرای آن متوقف می‌شود.

در سناریو دوم، یک ایجنت برنامه‌نویسی کد SQL را بر اساس ورودی‌های توسعه‌دهندگان تولید می‌کند. این ایجنت نمونه‌هایی را از وب استخراج کرده و آن‌ها را با استفاده از CodeShield بررسی می‌کند تا زمانی که راه‌حل صحیحی پیدا کند.

بر اساس اظهارات متا، کار بر روی LlamaFirewall در چندین جهت ادامه خواهد یافت، از جمله پشتیبانی از ایجنت‌های چندمدلی، کاهش تاخیر، گسترش پوشش تهدیدها و انجام ارزیابی‌های دقیق‌تر و واقعی‌تر.

منبع: www.infoq.com

فرصت‌های شغلی

ایجاد محیطی با ارزش های انسانی، توسعه محصولات مالی کارامد برای میلیون ها کاربر و استفاده از فناوری های به روز از مواردی هستند که در آسا به آن ها می بالیم. اگر هم مسیرمان هستید، رزومه تان را برایمان ارسال کنید.

همکاری با آسا