مفهوم يادگيری ماشين خصمانه یا Adversarial

زمان مطالعه: 8 دقیقه

تصور کنید با ماشین خودران به محل کار می‌روید. وقتی به تابلوی ایست نزدیک می‌شوید، خودرو به جای توقف سرعت خود را افزایش می‌دهد و از علامت توقف عبور می‌کند؛ زیرا علامت توقف را به‌عنوان علامت محدودیت سرعت تشخیص می‌دهد. حتی با وجود اینکه سیستم یادگیری ماشینی (ML) برای تشخیص علائم توقف آموزش دیده است، اما چطور این اتفاق می‌افتد؟

احتمالا شخصی برچسب‌هایی را به علامت توقف اضافه کرده تا ماشین را فریب دهد و تصور کند که علامت محدودیت سرعت 60 کیلومتر در ساعت است. این عمل ساده‌ی قرار دادن برچسب‌ها روی علامت توقف، نمونه‌ای از حمله خصمانه به سیستم‌های یادگیری ماشین و هوش مصنوعی (Adversarial Machine Learning) است. این تنها یک مثال کوچک بود و برای درک بهتر این موضوع، در این مقاله از بلاگ آسا به قصد داریم به بررسی مقابله با یادگیری ماشین متخاصم بپردازیم.

یادگیری ماشین خصمانه چیست؟

ماشین لرنینگ متخاصم

یادگیری ماشین خصمانه یا هوش مصنوعی متخاصم (Adversary AI)، زیرشاخه‌ای از تحقیقات در زمینه هوش مصنوعی و یادگیری ماشین است که حملات خصمانه علیه ماشین‌ها و مدل‌های هوش مصنوعی را بررسی می‌کند. حملات خصمانه هوش مصنوعی به حملات سایبری گفته می‌شود که هدف آن گمراه‌ کردن یا از کار انداختن یک مدل یادگیری ماشین از راه‌های مختلف است.

حملات به سیستم‌های یادگیری ماشینی می‌تواند در مراحل مختلف توسعه مدل رخ دهد؛ از دستکاری داده‌های آموزشی یا مسموم کردن مدل‌های ML با معرفی اطلاعات اشتباه یا سوگیری‌ها گرفته تا ارائه ورودی‌های فریبنده برای تولید خروجی‌های نادرست!
هوش مصنوعی متخاصم اخیرا نشان داده که می‌تواند پتانسیل قابل توجهی در ایجاد آسیب‌ها و نگرانی‌ها داشته باشد. به‌عنوان مثال، مهاجمان می‌توانند از هوش مصنوعی متخاصم برای دستکاری وسایل نقلیه خودران، سیستم‌های تشخیص پزشکی، سیستم‌های تشخیص چهره و سایر برنامه‌های کاربردی مبتنی بر هوش مصنوعی استفاده کنند که منجر به نتایج فاجعه‌آمیزی می‌شود.

مثال یادگیری ماشین خصمانه

حمله متخاصم

یکی از معروف‌ترین مثال‌های هوش مصنوعی متخاصم، حمله‌ای است که روی مدل‌های تشخیص تصویر صورت می‌گیرد.

حمله متخاصم Google Inception

حمله متخاصم به شبکه عصبی Google Inception یکی از همین نمونه‌هاست که در آن تصویری از یک پاندا که توسط مدل‌های تشخیص تصویر به درستی به‌عنوان «پاندا» شناسایی شده، انتخاب می‌شود. سپس یک نویز بسیار کوچک و دقیق (Adversarial Noise) به تصویر اضافه می‌شود. این نویز برای چشم انسان تقریبا نامرئی است و ما همچنان تصویر را به شکل «پاندا» می‌بینیم. اما مدل هوش مصنوعی، تصویر دستکاری‌شده را بررسی می‌کند و آن را به ‌اشتباه به‌‌عنوان یک حیوان کاملا متفاوت، یعنی یک میمون تشخیص می‌دهد. در این مثال، تغییرات اعمال‌شده به‌قدری جزئی هستند که برای انسان قابل شناسایی نیستند، اما می‌توانند مدل هوش مصنوعی را فریب دهند.

حملات خودروهای خودران

مثال معروف دیگر حملات متخاصم به خودروهای خودران است که در این نوع حملات، با دستکاری کوچک علائم راهنمایی رانندگی (مانند تغییرات جزئی در شکل یا رنگ علامت) می‌توان سیستم تشخیص خودرو را فریب داد. مثلا علامتی که به‌صورت معمول باید به عنوان «توقف» (Stop) شناسایی شود، ممکن است پس از حمله به اشتباه به‌عنوان «محدودیت سرعت» (Speed Limit) شناخته شود. چنین حملاتی می‌توانند خطراتی جدی‌ برای امنیت خودروهای خودران ایجاد کنند.
این نمونه‌ها نشان می‌دهند که حتی تغییرات بسیار کوچک و غیرمحسوس هم می‌توانند پیامدهای بزرگی در دنیای واقعی به همراه داشته باشند.

حملات هوش مصنوعی متخاصم چگونه کار می‌کنند؟

حملات هوش مصنوعی متخاصم چگونه کار می کنند؟

حملات خصمانه از آسیب‌پذیری‌ها و محدودیت‌های ذاتی مدل‌های یادگیری ماشین، به ویژه شبکه‌های عصبی عمیق (DNN)، سو استفاده می‌کنند. این حملات داده‌های ورودی یا خود مدل را دستکاری می‌کنند تا سیستم هوش مصنوعی نتایج نادرست یا نامطلوب تولید کند. حملات AI و ML متخاصم معمولا از یک الگوی چهار مرحله‌ای پیروی می‌کنند که شامل درک، دستکاری و بهره‌برداری از سیستم هدف است.

مرحله ۱: شناخت سیستم هدف

مجرمان سایبری که می‌خواهند یک حمله هوش مصنوعی خصمانه را انجام دهند باید بدانند که سیستم هوش مصنوعی هدف چگونه کار می‌کند. آن‌ها این کار را با تجزیه و تحلیل الگوریتم‌های سیستم، روش‌های پردازش داده‌ها و الگوهای تصمیم‌گیری انجام می‌دهند. برای رسیدن به این هدف، آن‌ها از تکنیک‌هایی مانند مهندسی معکوس برای شکستن مدل AI استفاده می‌کنند و به‌دنبال نقاط ضعف یا شکاف در آن می‌گردند.

مرحله ۲: ایجاد ورودی‌های مخالف

هنگامی که مهاجمان درک کنند که یک سیستم AI چگونه کار می‌کند، می‌توانند نمونه‌های متخاصم ایجاد کنند. نمونه‌های متخاصم ورودی‌هایی با طراحی و ویژگی‌های خاص هستند که سیستم را دچار خطا می‌کنند. برای مثال، مهاجمان می‌توانند با تغییر جزئی یک تصویر، سیستم تشخیص تصویر را فریب دهند یا با دستکاری داده‌های ورودی به یک مدل پردازش زبان طبیعی (NLP)، آن را وادار به طبقه‌بندی نادرست کنند.

مرحله ۳: بهره‌برداری

سپس، مهاجمان ورودی‌های متخاصم را علیه AI هدف اعمال می‌کنند. هدف این است که سیستم، رفتاری غیرقابل پیش‌بینی یا نادرست داشته باشد. این می‌تواند از پیش‌بینی‌ها یا طبقه‌بند‌های نادرست تا دور زدن پروتکل‌های امنیتی متغیر باشد. حملات خصمانه از ضعف‌ها و حساسیت‌های مدل‌های یادگیری ماشین سوءاستفاده می‌کند تا آن‌ها را به پیش‌بینی‌ها یا تصمیم‌گیری‌های نادرست وادار کنند. تغییرات در داده‌های ورودی می‌تواند به‌طور قابل توجهی بر خروجی مدل تاثیر بگذارد.

مرحله ۴: اقدامات پس از حمله

یادگیری ماشین Adversarial می‌توانند پیامدهای مختلفی داشته باشند، از طبقه‌بندی اشتباه تصاویر یا متن گرفته تا خطرهای جدی و تهدید‌کننده زندگی مانند اشتباه در مراقبت‌های بهداشتی یا وسایل نقلیه خودران! دفاع در برابر این حملات مستلزم معماری‌های مدل قوی، آزمایش‌های گسترده در برابر نمونه‌های متخاصم و تحقیقات مداوم در مورد تکنیک‌های آموزش متخاصم برای انعطاف‌پذیری بیشتر سیستم‌های هوش مصنوعی است. در ادامه، روش‌های مقابله با هوش مصنوعی متخاصم را بیشتر بررسی می‌کنیم.

انواع حملات خصمانه

حملات خصمانه را می‌توان به دو دسته کلی‌تر حملات جعبه سفید (White Box) و جعبه سیاه (Black Box) تقسیم کرد. مهاجمان جعبه سفید دانش کاملی از معماری مدل هوش مصنوعی دارند، در حالی که مهاجمان جعبه سیاه اطلاعات محدودی دارند. سطح دانش به‌طور قابل توجهی بر موفقیت حمله تاثیر می‌گذارد. حملات متخاصم را می‌توان از لحاظ نحوه حمله و عملکرد آن بر مدل‌ها به دسته‌های زیر تقسیم کرد.

۱. حملات فرار (Evasion Attacks)

حملات فرار زمانی رخ می‌دهند که داده‌های ورودی برای فرار مدل‌های هوش مصنوعی دستکاری می‌شوند. به‌عنوان مثال، اضافه کردن تغییرات نامحسوس به یک تصویر می‌تواند باعث شود که سیستم هوش مصنوعی آن را به اشتباه شناسایی کند. این حملات می‌توانند به‌طور جدی بر تشخیص تصویر و سیستم‌های امنیتی تاثیر بگذارند، به‌خصوص زمانی که پیش‌بینی‌های دقیق ضروری است. حملات فرار معمولا به دو نوع زیر دسته‌بندی می‌شوند:

حملات غیرهدفمند: در حملات فرار غیرهدفمند، هدف این است که مدل هوش مصنوعی، فارغ از هر نتیجه‌ای؛ خروجی نادرستی تولید کند. به‌عنوان مثال، یک مهاجم ممکن است تصویر علامت توقف را دستکاری کند تا سیستم هوش مصنوعی آن را به‌عنوان علامت توقف تشخیص ندهد و منجر به موقعیت‌های خطرناک جاده‌ای شود.
حملات هدفمند: در حملات فرار هدفمند، مهاجم قصد دارد مدل هوش مصنوعی را مجبور به تولید یک خروجی خاص، ازپیش‌تعریف‌شده و نادرست کند. به‌عنوان مثال، آن‌ها ممکن است بخواهند که این مدل، یک تومور خوش‌خیم را به‌عنوان یک مورد بدخیم طبقه‌بندی کند، که منجر به هشدارهای نادرست می‌شود.

تشخیص و مقابله با حملات فرار می‌توانند بسیار دشوار باشند؛ زیرا مهاجمان از ویژگی‌ها یا الگوهای خاصی که یک مدل هوش مصنوعی در طول آموزش انتخاب کرده، برای نفوذ به آن استفاده می‌کنند. این حملات معمولا از تکنیک‌های بهینه‌سازی برای گمراه کردن مدل‌ها استفاده می‌کنند و به همین دلیل ممکن است توسط ناظران انسانی قابل شناسایی نباشند.

۲. حملات مسمومیت (Poisoning Attacks)

حملات مسمومیت، شکل پیچیده‌تر و ظریف‌تر از هوش مصنوعی متخاصم را نشان می‌دهد. در این حملات، عوامل مخرب مستقیما مدل یادگیری ماشین را هدف قرار نمی‌دهند، بلکه داده‌های آموزشی مورد استفاده برای ایجاد مدل را دستکاری می‌کنند. ایده پشت حملات مسمومیت، تزریق داده‌های آلوده به مجموعه داده‌های آموزشی است، به طوری که درک مدل از الگوهای زیربنایی در داده‌ها را مخدوش کند.

۳. حملات انتقالی (Transfer Attacks)

حملات انتقال یک چالش منحصربه‌فرد در حوزه یادگیری ماشین Adversarial است. برخلاف سایر حملات که به‌طور خاص یک سیستم هوش مصنوعی را هدف قرار می‌دهند، حملات انتقال شامل ایجاد مدل‌های متخاصم برای یک سیستم و انطباق آن‌ها برای حمله به سایر مدل‌های هوش مصنوعی است. هنگامی که یک سیستم در معرض خطر قرار می گیرد، حملات خصمانه می‌توانند چندین سیستم هوش مصنوعی با عملکردهای مشابه را تحت کنترل خود درآورند. این امر سازگاری و تطبیق‌پذیری این تکنیک‌ها را نشان می‌دهد.
اما چطور می‌توانیم از مدل‌های یادگیری ماشین و هوش مصنوعی در برابر این حملات دفاع کنیم؟

نحوه دفاع در برابر هوش مصنوعی Adversary

ماهیت پیچیده تهدیدات هوش مصنوعی و یادگیری ماشین Adversarial مستلزم یک رویکرد امنیت سایبری چند وجهی، چندلایه و فعال است که راه‌حل‌های تکنولوژیکی را با استراتژی‌های سازمانی و آموزشی ترکیب می‌کند. هدف، ایجاد یک چارچوب محکم و انعطاف‌پذیر است که قادر به شناسایی و جلوگیری از حملات باشد و به تیم‌ها این امکان را بدهد که در صورت وقوع حمله، سریع و موثر پاسخ دهند.

پیشگیری و تشخیص

اولین و شاید مهم‌ترین اقدام علیه حملات هوش مصنوعی متخاصم، پیشگیری و شناسایی است. پیشگیری شامل اجرای اقدامات امنیتی پیشرفته هوش مصنوعی است که می‌تواند ورودی‌های متخاصم را قبل از اینکه بر سیستم تاثیر بگذارد، شناسایی و خنثی کند. تکنیک‌های مهم عبارتند از مدل‌های یادگیری ماشین انعطاف‌پذیر، که حساسیت کمتری نسبت به دستکاری دشمنان دارند و سیستم‌های تشخیص ناهنجاری که می‌توانند الگوها یا ورودی‌های غیرعادی را شناسایی کنند.

آموزش خصمانه

آموزش خصمانه (Adversarial training) اصلی‌ترین روش مقابله با این حملات است که بر داده‌های مورد استفاده در آموزش مدل‌ها تمرکز می‌کند. این نوع آموزش شامل تقویت مجموعه داده‌های آموزشی با مثال‌های متخاصم است تا مدل‌ها در برابر حملات مشابه آماده باشند. به کمک آموزش خصمانه، مدل‌ها می‌توانند ورودی‌های مخرب را بشناسند و به‌عنوان تهدیدکننده برچسب‌گذاری کنند. ایده اصلی این است که مدل‌ها در مرحله آموزش، تحت حملات خصمانه قرار بگیرند و با شناسایی آن‌ها بتوانند عملکرد صحیحی در دنیای واقعی داشته باشند.

تقطیر دفاعی

تقطیر دفاعی (Defensive Distillation) یکی دیگر از تکنیک‌های اصلی مقابله با حملات متخاصم در یادگیری ماشین است که با هدف مقاوم‌سازی مدل‌ها در برابر این حملات توسعه داده شده است. در این روش، ابتدا یک مدل اصلی (Teacher Model) آموزش داده می‌شود و سپس از خروجی‌های نرم (Soft Labels) این مدل برای آموزش یک مدل جدید و فشرده‌تر (Student Model) استفاده می‌شود. ایده اصلی این است که خروجی‌های نرم، اطلاعات بیشتری نسبت به برچسب‌های سخت (Hard Labels) فراهم می‌کنند و این باعث می‌شود مدل دوم به نویزهای کوچک و تغییرات جزئی که در حملات متخاصم اعمال می‌شوند، کمتر حساس باشد. به این ترتیب، مدل نهایی می‌تواند در مواجهه با حملات متخاصم مقاوم‌تر عمل کند.

نظارت مستمر

نظارت مستمر سیستم‌های هوش مصنوعی برای بررسی رفتارها یا خروجی‌های غیرمنتظره می‌تواند به تشخیص زودهنگام حملات دشمن کمک کند. تیم‌های سایبری می‌توانند از رمزگذاری و دسترسی ایمن به مدل‌ها و مجموعه داده‌های هوش مصنوعی برای جلوگیری از دستکاری یا استخراج غیرمجاز استفاده کنند.

آموزش افراد

آموزش شامل برنامه‌های آموزشی خاص و هدفمند برای تیم‌های امنیت سایبری، توسعه‌دهندگان هوش مصنوعی و همه کارکنان سازمان است. آموزش تخصصی باید بر درک ماهیت حملات خصمانه، شناسایی آسیب‌پذیری‌های احتمالی در سیستم‌های هوش مصنوعی و یادگیری آخرین تکنیک‌ها برای ساخت مدل‌های قوی ML متمرکز شود. تیم‌های سایبری با حصول اطمینان از اینکه تمام سطوح سازمان به خوبی آگاه و هوشیار هستند، می‌توانند دفاع جامع‌تری در برابر هوش مصنوعی و ML خصمانه ایجاد کنند و نفوذ این حملات پیچیده به زیرساخت‌های دیجیتال سازمان را سخت‌تر کنند.

خود ارزیابی آسیب‌پذیری

ارزیابی آسیب‌پذیری (Vulnerability Assessment) احتمالی یک مدل برای درک و تقویت سیستم دفاعی سازمان در برابر حملات AI بسیار مهم است. فرایند ارزیابی شامل آزمایش منظم سیستم‌های هوش مصنوعی برای شناسایی آسیب‌پذیری‌هایی است که حملات متخاصم می‌توانند از آن‌ها سوءاستفاده کنند.

تیم‌های سایبری می‌توانند از ابزارها و روش‌هایی مانند تست نفوذ و ارزیابی‌های مبتنی بر سناریو برای شبیه‌سازی حملات خصمانه و ارزیابی انعطاف‌پذیری سیستم‌های هوش مصنوعی استفاده کنند. این ارزیابی‌ها باید یکپارچگی داده‌ها، استحکام مدل و پاسخ سیستم به ورودی‌های متخاصم را پوشش دهد. بینش به‌دست‌آمده از این ارزیابی‌ها باید اصلاح و تقویت مداوم استراتژی‌های امنیتی هوش مصنوعی را هدایت کند.

سخن پایانی

همانطور که دیدید، یادگیری ماشین Adversarial یک چالش مهم و روبه‌رشد در حوزه یادگیری ماشین و هوش مصنوعی است. هر چقدر که هوش مصنوعی به تکامل خود ادامه می‌دهد، تاکتیک‌های مورد استفاده کسانی که به‌دنبال بهره‌برداری از آن برای مقاصد شوم هستند نیز افزایش می‌یابد. به همین دلیل، توسعه‌دهندگان مدل‌ها باید ماهیت این حملات، پیامدهای واقعی آن‌ها و نحوه دفاع در برابر آن‌ها را درک کنند.

منابع

www.openai.com | www.techtarget.com | www.coursera.org

سوالات متداول

ابزارهایی مانند Foolbox، CleverHans، و Adversarial Robustness Toolbox (ART) برای طراحی و اجرای این حملات استفاده می‌شوند.

– استفاده از تکنیک Adversarial Training
– افزودن نویز تصادفی به داده‌های آموزشی
– بهینه‌سازی معماری مدل برای کاهش حساسیت به تغییرات جزئی

حملات فعال: شامل تغییر مستقیم در داده‌ها برای فریب مدل است.
حملات غیرفعال: شامل بهره‌برداری از مدل بدون تغییر مستقیم در داده‌هاست.

مفهوم يادگيری ماشين خصمانه یا Adversarial