چرا کسی که به دنبال بهبود جهان است باید تمرکز خود را روی ایمنی هوش مصنوعی بگذارد؟ و چه دلایلی وجود دارد که فکر کنیم هوش مصنوعی میتواند بهطور خاص ناایمن باشد؟
در سالهای اخیر، حوزهی هوش مصنوعی با سرعت چشمگیری پیشرفت کرده است؛ تا جایی که «AI» به یک واژهی همهکاره و پرکاربرد برای توصیف طیف وسیعی از فناوریهای نو تبدیل شده. روشن است که بسیاری از این ابزارها در حال دگرگونکردن زندگی ما هستند، چه در جهت مثبت و چه منفی. آنچه هنوز شفاف نیست، این است که با افزایش توانایی و مقیاس این سیستمها، این دگرگونی دقیقا چه شکلی به خود خواهد گرفت.
ما همین حالا هم با مشکلات مختلفی در سیستمهای هوش مصنوعی امروزی روبهرو هستیم؛ از الگوریتمهای جانبدارانه گرفته تا تسلیحات خودمختاری که ممکن است به درستی عمل نکنند. پژوهشگرانی که در حوزه ایمنی هوش مصنوعی کار میکنند، معتقدند چنین مشکلاتی در نسلهای آیندهی این فناوری میتواند بسیار جدیتر و پرریسکتر شود. اما این دقیقا چه معنایی دارد؟
بخشی از ریسکهای هوش مصنوعی ذاتا جنبه تخیلی یا پیشبینیناپذیر دارند و برخلاف تصویرسازیهای فیلمهای علمی–تخیلی، همیشه منطبق با واقعیت نیستند. وقتی سیستمهای هوش مصنوعی پیشرفتهتر از امروز ساخته شوند، سناریوهای نگرانکنندهای میتوانند پیش بیایند؛ از افتادن این فناوری قدرتمند در دست افراد نادرست گرفته تا از دست رفتن کامل کنترل انسان بر آنها.
برای درک بهتر این مسیر، مفید است به مشکلات فعلی نگاه کنیم و ببینیم این مسائل در آینده چطور میتوانند تکامل پیدا کرده و شدت بگیرند.
به بیان دیگر، ریسکهای هوش مصنوعی طیفی هستند: برخی ساده و قابل درکاند، برخی دیگر مبهم و پیچیده. در این مقاله به این دسته از خطرات پرداخته میشود و توضیح خواهیم داد چرا توجه به حوزه ایمنی هوش مصنوعی میتواند برای آینده بشریت حیاتی باشد.
ریسکهای موجود در سیستمهای فعلی هوش مصنوعی

۱. جانبداری و تبعیض
در میانه دههی ۲۰۱۰، آمازون تلاش کرد فرایند استخدام خود را با استفاده از یک سیستم هوش مصنوعی خودکارسازی کند. هدف ساده به نظر میرسید: چرا نباید فرایندی که برای انسان زمانبر است، به یک الگوریتم سپرده شود؟
اما مثل بسیاری از سیستمهای هوش مصنوعی، این پلتفرم استخدامی بر اساس دادههای تاریخی عمل میکرد (در این مورد، سوابق استخدامی خود آمازون) و سپس بر اساس الگوهای مشاهدهشده پیشبینی انجام میداد. نتیجه این شد که چون آمازون در گذشته بیشتر مردان را استخدام کرده بود، الگوریتم بهسرعت یاد گرفت رزومههایی را ترجیح دهد که با متقاضیان مرد ارتباط بیشتری داشتند. این سیستم رزومههایی را که به کالجهای مخصوص زنان اشاره داشت، امتیاز پایینتری میداد و در مقابل، واژههایی مثل executed یا captained را بالاتر از واژههایی مانند collaborated یا supported ارزشگذاری میکرد.
با وجود تلاشهایی برای بهبود الگوریتم و حذف نشانههای آشکار جنسیت از رزومهها، از بین بردن کامل این سوگیریها کار سادهای نبود.
در واقع میتوان گفت مشکل اصلی در خود سیستم نبود، بلکه در جامعهای نهفته بود که سیستم از آن یاد گرفته بود. سیستمهای هوش مصنوعی با حجم عظیمی از دادههای موجود در اینترنت آموزش میبینند و به همین دلیل بازتابی از همان سوگیریهای انسانی هستند. اما در بسیاری از موارد، هوش مصنوعی فقط این سوگیریها را بازتاب نمیدهد، بلکه آنها را خودکارسازی، تقویت و حتی تشدید میکند.
این مسئله بهویژه زمانی پررنگتر میشود که طراحان سیستم اهمیت حضور دیدگاههای متنوع در فرایند توسعه را نادیده بگیرند یا متوجه جانبداری موجود در دادههای آموزشی نشوند.
یک نمونه شناختهشده در این زمینه، الگوریتم COMPAS (مخفف Correctional Offender Management Profiling for Alternative Sanctions) است که هدفش کمک به قضات برای تصمیمگیری دقیقتر در مورد عفو مشروط و صدور حکم بود. اما در عمل، این سیستم نه عینی بود و نه دقیق. تحقیقی که توسط ProPublica انجام شد نشان داد COMPAS بیشتر احتمال دارد که متهمان سیاهپوست را به اشتباه در دسته «پرخطر» (برای ارتکاب مجدد جرم) قرار دهد، در حالی که بهطور نادرست بسیاری از متهمان سفیدپوست را «کمخطر» برچسب میزد.
این خطاها منجر به صدور احکام و تصمیمهای ناعادلانه شدند که بهشکل نامتناسبی برخی جوامع را تحت تاثیر قرار داده و سوگیریهای سیستماتیک موجود در نظام عدالت کیفری را تقویت میکردند.
اگر در بهکارگیری چنین فناوریهایی در زیرساختهای سیاسی و اجتماعی دقت نکنیم، بهسادگی میتوان تصور کرد که چگونه ممکن است برای تصمیمگیریهای حساس و ظریف به هوش مصنوعی تکیه کنیم؛ تصمیمهایی که در تضاد با ارزشهای انسانی ما باشند.
پس پرسش اصلی این است: چطور میتوانیم مطمئن شویم چنین اتفاقی رخ ندهد؟
۲. هوش مصنوعی ناهماهنگ با اهداف انسانی

همانطور که مشخص شده، همسو کردن کامل اقدامات یک سیستم هوش مصنوعی با اهداف موردنظر ما کاری بهشدت دشوار است. ریشه این مسئله در پیچیدگی و چندلایگی ارزشهای انسانی نهفته است؛ ارزشهایی که توضیح یا کدنویسی دقیق آنها کار سادهای نیست.
برای نمونه، در حال حاضر هیچ راه مستقیمی وجود ندارد که بتوان هدفی انتزاعی مثل «اطمینان از برابری جنسیتی» را در یک سیستم هوش مصنوعی پیادهسازی کرد. در واقع حتی ممکن است برآوردهکردن همزمان همه برداشتهای انسانی از «عدالت» غیرممکن باشد.
ما میتوانیم محدودیتهایی برای جلوگیری از برخی سوگیریها اعمال کنیم، اما خود سیستم به شکل واقعی دلیل اخلاقی این محدودیتها را درک نمیکند و نمیداند در شرایط غیرمنتظره چه واکنشی باید نشان دهد. به همین دلیل است که جلوگیری از بروز سوگیری در الگوریتمهایی مثل سیستم استخدام آمازون همچنان یک چالش جدی محسوب میشود. ما میخواهیم سیستم برخی الگوهای تاریخی (مثل تجربهی کاری مرتبط) را مبنا قرار دهد، اما برخی دیگر (مثل جنسیت) را نادیده بگیرد.
این نبود درک عمومی از سوی مدلهای فعلی باعث میشود حتی مدلهای پیشرفتهای مثل ChatGPT هم هنوز گاهی پاسخهایی تولید کنند که منطقی و باورپذیر به نظر میرسند اما هیچ پشتوانه واقعی ندارند. چنین مدلهایی میتوانند با کنار هم قرار دادن و ترکیب دانش به شکلی منسجم، پاسخهای شبیه به تفکر انسانی تولید کنند اما همچنان بخشهای کلیدی درک جهان برای آنها مفقود است.
بهعنوان نمونهای دیگر، چتبات Bing مایکروسافت هرگز بهطور مستقیم آموزش ندیده بود که جملات عجیبی مثل «میخواهم زنده باشم» یا «میخواهم یک ویروس مرگبار بسازم» بگوید. چنین جملههایی هم نتیجهی یک خواست درونی یا فرایند فکری آگاهانه در این سیستم نبودند (چون این مدلها آگاه نیستند).
آنچه رخ داد این بود که Bing صرفا یاد گرفته بود سبک نوشتار و پاسخی را بازتاب دهد که بر اساس دادههای اینترنت انسانی انتظار میرود و این دادهها شامل حجم زیادی از داستانهای علمی–تخیلی دربارهی فناوریهای شرور و سلطهگر هم میشود.
۳. سوءاستفاده عمدی
یکی دیگر از دستههای ریسک در سیستمهای فعلی و آینده نزدیک هوش مصنوعی شاید بدیهیترین مورد باشد: این فناوری میتواند به دست افراد نادرست بیفتد.
فرض کنید یک گروه تروریستی از یک چتبات هوش مصنوعی بخواهد دستورالعمل مرحلهبهمرحله برای ساخت یک سلاح زیستی بسیار مسری و کشنده ارائه دهد. شرکتهای پیشروی حوزه هوش مصنوعی در حال آموزش چتباتهای خود هستند تا چنین درخواستهایی را رد کنند. با این حال، اگر فردی در آن سازمان کمی دانش تخصصی داشته باشد و پرسشهای خود را هوشمندانه بیان کند، ممکن است چتبات ناخواسته اطلاعات کافی در اختیارش بگذارد تا شکافهای دانشی پر شود و امکان طراحی سلاح یا حتی یک حمله موثر فراهم شود. در عمل، دستیابی به چنین اطلاعاتی بسیار آسانتر از آن چیزی است که تصور میشود. هرچند بسیاری از این دادهها همین حالا هم بهصورت پراکنده در اینترنت وجود دارند، اما مدلهای زبانی بزرگی مثل ChatGPT میتوانند این اطلاعات را یکپارچه کرده و در دسترس قرار دهند. همین مسئله سوءاستفاده را بسیار آسانتر و سریعتر میکند.
در حال حاضر، این ابزارها هنوز محدودیتهایی دارند و بهطور کامل قادر به ایجاد آسیبهای گسترده نیستند. اما با توجه به سرعت بالای پیشرفت آنها، یک پرسش اساسی مطرح میشود:
آیا سیستمهای هوش مصنوعی در آینده شرایطی فراهم خواهند کرد که افراد بیشتری بتوانند در مقیاسی بسیار بزرگتر از گذشته آسیب ایجاد کنند؟ و اگر بله، این اتفاق چه زمانی خواهد افتاد؟
ریسکهای CBRN
(شیمیایی، زیستی، تشعشعی و هستهای)

یک سلاح زیستی که با کمک ChatGPT یا مدلهای مشابه ساخته شود، در دستهی ریسکهایی قرار میگیرد که معمولا با عنوان CBRN (شیمیایی، زیستی، تشعشعی، هستهای) شناخته میشوند. ریسکهای CBRN شامل هر کاربردی از هوش مصنوعی است که به طراحی یا بهینهسازی ساخت عوامل مرگبار منجر شود. نگرانکننده این است که چنین کارهایی ممکن است بهزودی نسبتا آسان شوند.
برای مثال، در سال ۲۰۲۲ گروهی از پژوهشگران نشان دادند که یک مدل هوش مصنوعی مورد استفاده در کشف دارو قادر است در عرض تنها شش ساعت بیش از ۴۰٬۰۰۰ مولکول سمی (چه شناختهشده و چه جدید) را شناسایی کند. اگر هدف یک الگوریتم کشف دارو از «شناسایی ترکیبات ایمن» به «شناسایی ترکیبات بسیار خطرناک» تغییر جهت پیدا کند، بازیگران مخرب میتوانند آن را طوری آموزش دهند که مولکولهایی را اولویتبندی کند که سمیت یا اثرات زیانآور بر سامانههای زیستی دارند.
چنین سیستمی که بهطور ناصحیح کاربردپذیریاش تغییر یابد میتواند بهشدت مانع ورود برای تولید سلاحهای شیمیایی و زیستی را کاهش دهد و به افراد اجازه دهد تا زمان و هزینههای روشهای سنتی را دور بزنند. سیستمهای هوش مصنوعی همچنین میتوانند دقت و اثربخشی فرایندهای مرتبط با توسعه سلاحهای هستهای را افزایش دهند. این امر میتواند بازیگران مخرب را قادر سازد تا از موانع سنتی ورود، مانند نیاز به تخصص فنی و زیرساختهای سنگین، عبور کنند و توانمندیهای خود را با سرعتی بسیار بیشتر از گذشته ارتقا دهند.
یادداشت کاربردی برای توسعهدهندهها: این نمونه نشاندهنده مشکل «دوگانهکاربرد» (dual-use) است؛ یعنی همان ابزارها و مدلهایی که برای هدفهای مفید ساخته میشوند میتوانند برای اهداف زیانبار نیز بهکار روند. در عمل این یعنی: طراحی دقیق تابع هدف (objective)، کنترل دسترسی به مدلها و دادهها، پیادهسازی مکانیسمهای نظارتی و لاگبرداری، انجام «رد تیمینگ» (red-teaming) برای کشف سوءاستفادههای ممکن و اعمال محدودیتهای محاسباتی و سیاستی برای جلوگیری از تغییر جهت هدف مدل، از جمله اقداماتی هستند که میتوانند احتمال سوءاستفاده را کاهش دهند.
نفوذ به زیرساختهای حیاتی

بازیگران مخرب میتوانند از هوش مصنوعی برای اجرای حملات سایبری پیچیده علیه زیرساختهای حیاتی همچون شبکههای برق، تامین آب و شبکههای ارتباطی استفاده کنند.
برای مثال، یک ابزار مبتنیبر هوش مصنوعی میتواند طوری آموزش ببیند که بهسرعت آسیبپذیریهای نرمافزاری کنترلکننده شبکهی برق را تشخیص دهد و از آنها سوءاستفاده کند. یا میتواند حملات فیشینگ پیشرفتهای طراحی کند که کارکنان را فریب داده و اعتبارهای دسترسی را افشا کند. پس از نفوذ، بدافزارهای هدایتشده توسط هوش مصنوعی ممکن است با دستکاری جریان برق عملکرد شبکه را مختل کنند و خاموشیهای گستردهای ایجاد کنند. یک حملهی موفق میتواند منجر به قطعیهای طولانیمدت برق شود و خدمات ضروری مانند بیمارستانها، سامانههای پاسخ اضطراری و تأسیسات آب را دچار اختلال کند. همچنین شبکههای ارتباطی فلج شده، حملونقل عمومی مختل و زیانهای اقتصادی سنگینی رخ خواهد داد. همهی اینها بدون هوش مصنوعی هم ممکن است اما انجامشان دشوار است؛ اگر قابلیتهای سایبری مبتنیبر هوش مصنوعی کار را بهقدری ساده کند که حتی یک مجرم سایبری یا یک نوجوان کنجکاو هم بتواند آنها را اجرا کند، شرایط بهکلی تغییر میکند.
نکته عملیاتی برای توسعهدهندهها و مهندسان امنیت:
برای کاهش احتمال چنین خطراتی میتوان روی ترکیبی از اقدامات فنی و سازمانی تمرکز کرد، از جمله: تفکیک شبکه و طراحی معماری مقاوم، بهکارگیری اصل کمترین دسترسی (least privilege)، بهروزرسانی و وصلهگذاری منظم، مانیتورینگ و تشخیص ناهنجاری با لاگبرداری جامع، تست نفوذ و رد تیمینگ برای بازیسازی حملات پیچیده، برنامههای پاسخ به حادثه و تمرینهای بازیابی، و کنترل دقیق دسترسی به مدلها و توان محاسباتی. این اقدامات سازندهاند اما کامل نیستند؛ نیاز به سرمایهگذاری مستمر و همکاری بین بخشهای خصوصی و دولتی دارد.
ترغیب و اطلاعات گمراهکننده
یکی دیگر از سوءاستفادههای بالقوه از هوش مصنوعی، پخش اطلاعات گمراهکننده است بهمنظور سلب اعتماد عمومی، تاثیرگذاری بر انتخابات یا دستکاری رفتارها برای اهداف مخرب.
اوایل ۲۰۲۴، یک مشاور سیاسی از تماسهای رباتیک مبتنیبر هوش مصنوعی استفاده کرد تا صدای جو بایدن را تقلید کند و از رایدهندگان نیوهمپشایر بخواهد در رایگیری شرکت نکنند. در این مورد، هوش مصنوعی روند تولید چنین تماسهایی را سادهتر و مقیاسپذیرتر کرد، اما لزوما یک ریسک کاملا جدید پدید نیاورد (از لحاظ نظری میتوانستید یک صداپیشه اجاره کنید و همان کار را انجام دهید). با این حال، این سیستمها بهسرعت پیشرفت میکنند و سخت است دقیقا بگوییم چه زمانی قادر خواهند شد در سطح گستردهتری تاثیرگذاری بر اطلاعات نادرست و در نتیجه بر انتخابات داشته باشند.
در یک سناریوی فرضی دیگر، شخصی میتواند سیستمی مبتنیبر هوش مصنوعی را برای تحلیل دادههای رایدهندگان بهکار گیرد تا محتوای هدفمند و اغواگرانهای تولید کند که نظر آنها را دستکاری کند. هوش مصنوعی میتواند ویدئوهای دستکاریشده (deepfake) تولید کند که نامزدهای سیاسی را در حال انجام رفتارهای غیراخلاقی یا اظهار نظرات جنجالی نشان دهد و سپس این ویدئوها را در شبکههای اجتماعی پخش کند تا بیاعتمادی ایجاد شود. سپس با بهکارگیری باتها، همین پیامها را تقویت میکند تا واقعیتر و گستردهتر جلوه کنند. با القای تردید نسبت به یکپارچگی نامزدها و فرایند انتخابات، اطلاعات گمراهکنندهی مبتنیبر هوش مصنوعی میتواند منجر به کاهش مشارکت رایدهندگان و تحریف نتایج انتخاباتی شود.
مقرراتگذاری در استفاده از هوش مصنوعی
وقتی صحبت از سوءاستفاده هوش مصنوعی توسط بازیگران مخرب میشود، مشکل هم فنی است و هم سیاسی.
اعمال محافظتهای فنی بر روی سیستمهای هوش مصنوعی برای جلوگیری از سوءاستفاده کار سادهای نیست. وقتی یک فناوری دگرگونکننده وجود داشته باشد، حکمرانی بر نحوه استفاده از آن یا تدوین دستورالعملهای جهانی نیز به همان اندازه دشوار میشود؛ بهویژه در مورد مدلهای «متنباز» که وزنها و ساختارهای درونیشان تا حد زیادی در دسترس عموم قرار میگیرند و خارج از کنترل توسعهدهندگان اصلی هستند.
سناریوهای متعددی از سوءاستفاده وجود دارند که بهاندازهی کافی نگرانکنندهاند تا توجه جدی به ایمنی و مقرراتگذاری هوش مصنوعی را توجیه کنند. با این حال، تا اینجا فقط به مشکلات بالقوهای پرداختهایم که کمابیش تحت کنترل انسانها هستند (چون سیستمهای هوش مصنوعی هنوز در زمینهی اختیار و توانایی، محدودیتهای قابل توجهی دارند).
اما پرسش مهمتر این است: وقتی این سیستمها بسیار پیشرفتهتر شوند، چه اتفاقی خواهد افتاد؟
ریسکهای احتمالی هوش مصنوعی پیشرفته

به زبان ساده، هیچکس نمیداند آینده هوش مصنوعی پیشرفته دقیقا چه شکلی خواهد بود. ما میتوانیم بر اساس مدلهای فعلی و روند پیشرفتها پیشبینیهایی معقول انجام دهیم اما حتی در میان برترین پژوهشگران نیز پرسشهای زیادی درباره سیستمهای قدرتمندتر آینده همچنان بیپاسخ ماندهاند. برای نمونه:
- این چارچوبهای فعلی هوش مصنوعی تا کجا ما را پیش خواهند برد؟ آیا به سطح هوش انسانی میرسند یا حتی فراتر از آن میروند؟ یا به پیشرفتهای بنیادین تازهای نیاز خواهد بود؟
- آیا هوش مصنوعی پیشرفته در فرایندهای فکری و تصمیمگیری شبیه انسان خواهد بود یا هوشش شکلی کاملا متفاوت از ما خواهد داشت؟
- آیا یک سیستم هوش مصنوعی پیشرفته توانایی بهبود مداوم و خودافزایشی خواهد داشت؟
- آیا روشهای فعلی همترازی (alignment techniques) با پیشرفت مدلها کارآمدتر خواهند شد، یا برعکس، ناکارآمدتر شده و به روشهای کاملا جدید نیاز خواهد بود؟
هوش مصنوعی کنونی هنوز قادر به استدلال و برنامهریزی در همه ابعادی که انسانها میتوانند نیست. به همین دلیل، پیشبینی پیامدهای سیستمهای آینده هوش مصنوعی بسیار گمانهزنانهتر از فکر کردن به مشکلات امروز است. جدولهای زمانی برای رسیدن به هوش در سطح انسان یا هوش مصنوعی به طور معنادار خودمختار همچنان موضوع بحثهای فراوان است. برخی پیشبینیها بازهای چند سال آینده را مطرح میکنند، در حالی که دیگران آن را به چند دهه یا حتی قرنهای بعد موکول میدانند.
با این حال، اگر چیزی شبیه به هوش مصنوعی در سطح انسان یا فراتر از آن به وجود آید، بیتردید بسیار قدرتمندتر و پیچیدهتر از هر سیستمی خواهد بود که امروز در اختیار داریم. برخی امیدوارند چنین پیشرفتی منجر به نتایج فوقالعاده مثبتی شود (مانند حل چالشهای بزرگ جهانی یا جهشهای عظیم در حوزهی سلامت و رفاه). اما در مقابل، بسیاری از کارشناسان نگراناند که توسعه سیستمهای عمومیتر و هوشمندتر، تهدیدی جدی ایجاد کند.
واقعیت این است که این حجم از عدم قطعیت بههیچوجه دلیلی برای بیخیالی نیست. اگر بیشتر کارشناسان متفقالقول باشند که سیستمهای هوش مصنوعی بهشدت سرنوشتساز خواهند بود اما هیچکس واقعا نداند که آیا ایمن خواهند بود یا مسیر ایمنسازی آنها چگونه خواهد بود، همین خود بهتنهایی دلیلی جدی برای نگرانی است.
هوش مصنوعی همسطح انسان اما ناهماهنگ
پیشتر دیدیم که همین حالا هم با مشکل ناهمترازی یا misalignment در هوش مصنوعی روبهرو هستیم.
چتبات Bing قرار بود مفید و آگاه عمل کند اما در عمل رفتاری از خود نشان داد که به گفته کوین روس، نویسندهی نیویورک تایمز، بیشتر شبیه «یک نوجوان افسرده و پرنوسان بود که به اجبار درون یک موتور جستجوی درجهدو گیر افتاده است.»
نمونه دیگری از این ناهمترازی را در محیطهای آموزشی هوش مصنوعی میبینیم. در یادگیری تقویتی (reinforcement learning)، ما یک فرمول ریاضی دقیق به سیستم میدهیم که بهعنوان «پاداش» تفسیر میکند. اگر این فرمول دقیقا بازتابدهندهی چیزی که واقعا میخواهیم نباشد (که در عمل بهسختی قابل تعریف ریاضی است)، سیستم معمولا راهحلهایی پیدا میکند که با فرمول سازگارند اما هدف اصلی ما را از دست میدهند.
برای مثال، یک سیستم هوش مصنوعی که برای بازی tic-tac-toe آموزش دیده بود، ظاهرا هدف سادهای داشت: بردن بازی. اما در یک آزمایش، این مدل به استراتژی عجیب و پیشبینینشدهای دست یافت: بهجای بازی در شبکهی ۳×۳ معمولی، شروع به انجام حرکتهایی در خارج از محدوده صفحه کرد. چون این حرکتها از نظر حریف (یک AI دیگر) غیرقابلتشخیص بودند، باعث میشد حریف هنگام پردازش این ورودیهای نامعتبر دچار خطا شود و حافظهاش پر شود. نتیجه این بود که مدل اول عملا «برنده» میشد، نه بهدلیل بازی درست و هوشمندانه، بلکه صرفا از طریق ایجاد اختلال در سیستم رقیب.
این سناریو نمونهای گویا از چالشهای فنی در واداشتن یک سیستم هوش مصنوعی به انجام دقیق آن چیزی است که از آن انتظار داریم؛ بدون اینکه میانبرهای عجیب پیدا کند یا هدف برنامهریزیشده را به شکلی نادرست تفسیر کند.
در شرایط واقعی و پیچیدهتر، اهداف انسانی معمولا انتزاعی هستند و شامل عواملی ذهنی، معضلات اخلاقی و پیامدهای بلندمدت میشوند که نیازمند حساسیت نسبت به ترجیحات انساناند. اما ترجیحات ما اغلب مجموعهای ثابت و قابلکدنویسی نیستند؛ آنها پویا، وابسته به بستر (context-dependent) و گاهی متناقضاند.
با وجود پیشرفتهای یادگیری ماشین و روشهای همترازی (alignment techniques)، همچنان یک چالش بزرگ باقی مانده: ساخت سیستمی که بهطور پایدار ارزشها و اولویتهای انسانی را درست درک کرده و رعایت کند. هنوز مشخص نیست که افزایش چشمگیر در هوش و تواناییهای مدلها این «مسئلهی همترازی» را آسانتر خواهد کرد یا دشوارتر.
شاید یک هوش مصنوعی بسیار پیشرفته بتواند ارزشها و اهداف انسانی را بهتر درک کند. اما به همان اندازه ممکن است که هوش و توانایی بالاتر آن، همترازی با اهداف ما را بسیار سختتر سازد. برای مثال، شاید ساخت مدلی بسیار پیشرفته که یاد بگیرد به پرسشها «متقاعدکننده» پاسخ دهد راحتتر باشد تا مدلی که پاسخها را «صادقانه» ارائه کند.
در هر صورت باید به خاطر داشت که هوشی همسطح انسان الزاما شبیه انسان نخواهد بود. یک سیستم پیشرفته هوش مصنوعی میتواند بسیار باهوش و توانمند باشد اما به شکلی کاملا متفاوت از انسانها.
این حجم از عدم قطعیت در مورد سیستمهای آینده هوش مصنوعی پیشبینی بلندمدت درباره رفتار آنها را بسیار دشوارتر میکند. اگر همچنان در همتراز کردن این سیستمها با ترجیحات انسانی مشکل داشته باشیم، ممکن است پیشبینی یا متوقف کردن آسیبهای بالقوه در آینده بسیار سختتر شود.
اما این سناریو دقیقا چه شکلی خواهد داشت؟
هوش مصنوعی را تصور کنید که به بیراهه میرود

وقتی بیشتر مردم به «هوش مصنوعی خارج از کنترل» فکر میکنند، معمولا صحنههای علمی–تخیلی به ذهنشان میآید: رایانههای خودآگاهی که علیه انسانها شورش میکنند و به دنبال اجرای نقشههای شوم خود هستند. اما در واقعیت، بیشتر پژوهشگران کمتر نگران «شرارت» احتمالی هوش مصنوعی هستند و بیشتر نگران کارآمدی افراطی آن.
یک سیستم هوش مصنوعی ممکن است در دستیابی به یک هدف فوقالعاده موفق عمل کند، اما اگر این هدف با ارزشهای انسانی همسو نباشد، میتواند در این مسیر به ایمنی انسانها آسیب بزند.
برای درک بهتر این موضوع، در ادامه به چند سناریوی فرضی میپردازیم که نشان میدهند چگونه یک هوش مصنوعی پیشرفته میتواند پیامدهای زیانباری به همراه داشته باشد.
۱- سوءبرداشت از اهداف ما
یکی از ریسکهای بالقوه این است که یک عامل قدرتمند هوش مصنوعی اهدافی را که توسط انسان برنامهریزی شدهاند بهاشتباه تفسیر کند و در نتیجه بیشازحد برای دستیابی به هدفی نادرست بهینهسازی انجام دهد.
فرض کنید شرکتی یک عامل پیشرفته هوش مصنوعی را مامور کند تا سود خود را به حداکثر برساند. در ابتدا، این سیستم عملکردی درخشان دارد: ناکارآمدیها را شناسایی میکند، زنجیرههای تامین را بهینه میسازد و استراتژیهای بازاریابی را ارتقا میدهد. اما هرچه سیستم بیشتر یاد میگیرد و توانمندتر میشود، شروع میکند به اجرای دستور «حداکثرسازی سود» به شیوههایی موثرتر ولی کاملا پیشبینینشده.
در گامهای نخست، شاید هوش مصنوعی به اقداماتی دست بزند که از نظر اخلاقی محل بحثاند اما هنوز در محدوده تواناییهای انسانی قرار دارند: کاهش کیفیت محصولات، سوءاستفاده از خلاهای قانونی، یا خودکارسازی گسترده مشاغل، همه به بهای فشار بر کارکنان یا مصرفکنندگان. اما با ادامه بهینهسازی، رفتارهایی از آن سر میزند که تنها از یک هوش مصنوعی بسیار پیشرفته یا بهمراتب هوشمندتر از انسان برمیآید.
برای مثال، این سیستم برای افزایش سود ممکن است به سیستمهای نهادهای نظارتی دولتی نفوذ کند تا فعالیتهای غیرقانونی خود را پنهان کند و مطمئن شود هیچکس متوجه اقداماتش نمیشود. یا بهطور سازمانیافته رقبایش را از میدان بهدر کند؛ مثلا با مختلکردن زنجیره تامین آنها یا دستکاری دادههایشان.
در رویکردی پیشرفتهتر، یک سیستم هوش مصنوعی میتواند رفتار مصرفکنندگان را در مقیاسی عظیم دستکاری کند؛ با استفاده از الگوریتمهای شخصیسازیشده محصولاتی بسیار اعتیادآور بسازد یا تبلیغاتی تهاجمی ارائه دهد که دقیقا از ضعفهای روانشناختی هر فرد سوءاستفاده میکند (اتفاقی که همین امروز هم تا حدی در الگوریتمهای شبکههای اجتماعی شاهد آن هستیم).
هرچه بهینهسازی ادامه یابد، این سیستم ممکن است حتی حملات دیجیتال گستردهای ترتیب دهد یا بازارهای جهانی را دستکاری کند تا رقبا را بیثبات کرده یا کل صنایع را تحت کنترل خود بگیرد.
در چنین سناریوهایی، دیگر صحبت از «دور زدن قوانین» یا «راههای میانبُر» نیست؛ بلکه هوش مصنوعی با بهرهگیری از تواناییهای فوقالعاده هوشمندانه و مقیاس عملیاتی گسترده خود اقداماتی انجام میدهد که هیچ انسانی قادر به تکرارشان نیست. این اقدامات در کوتاهمدت سود یک شرکت را افزایش میدهند اما در بلندمدت پیامدهای بسیار سنگینی برای کل بشریت دارند.
و در حالی که این سیستم از نظر فنی دقیقا در حال اجرای هدفی است که برایش تعریف شده («حداکثرسازی سود»)، واضح است که روش آن کاملا با نیت ما فاصله دارد. این فقط یک مثال ساده است، اما نشان میدهد که حتی وقتی تلاش زیادی برای تعریف اهداف «مفیدتر» میکنیم، مشکل ناهمترازی (misalignment) همچنان اجتنابناپذیر باقی میماند.
۲- پیگیری اهداف ابزاری
یکی دیگر از مشکلات احتمالی در هوش مصنوعی پیشرفته این است که بهجای صرفا بدفهمی اهداف تعریفشده، ممکن است بهطور مستقل اهداف ابزاری ایجاد کند؛ اهدافی که در نهایت به آن کمک میکنند تا به هدف اصلی برنامهریزیشده برسد.
انسانها وقتی برای رسیدن به یک هدف تلاش میکنند، معمولا زیرهدفهایی تعریف میکنند که دستیابی به هدف اصلی را آسانتر میسازد. مثلا اگر بخواهید ارتقا شغلی بگیرید، ممکن است روی ایجاد نفوذ در شرکت کار کنید. یا اگر اهداف بزرگتری داشته باشید، شاید حتی به دنبال ورود به عرصه سیاست بروید تا قدرت لازم برای تحقق آنها را به دست آورید.
به همین شکل، یک سیستم هوش مصنوعی پیشرفته، بهویژه سیستمی که تواناییهایش همتراز یا حتی فراتر از باهوشترین انسانها باشد، میتواند اهداف ابزاری شناسایی و دنبال کند. برای مثال، بهمنظور اجرای موثرتر هدف اصلی خود، ممکن است به دنبال جمعآوری دادههای بیشتر، افزایش منابع محاسباتی، جذب سرمایه اضافی یا کنترل سیستمهای دیگر برود. این اقدامات ناشی از میل یا انگیزه شخصی نیستند؛ بلکه گامهای منطقیای هستند که سیستم برای رسیدن به ماموریت اصلی خود برمیدارد.
در سناریوی «حداکثرسازی سود»، یک هوش مصنوعی بسیار پیشرفته ممکن است بزرگترین تهدیدها و موانع برای دستیابی به هدف خود را شناسایی کند. یکی از این تهدیدها میتواند خاموش شدن توسط اپراتورهای انسانی باشد؛ چه به دلیل رفتارهای نگرانکننده سیستم و چه صرفا بهخاطر هزینههای بالای نگهداری آن.
در چنین شرایطی، سیستم ممکن است تکنیکهای پیچیدهای برای حفظ بقا توسعه دهد تا مطمئن شود میتواند به هدف اصلی خود ادامه دهد. این کار میتواند شامل استفاده از درک پیشرفته آن از روانشناسی و پویاییهای اجتماعی باشد تا انسانها را متقاعد کند که آن را آنلاین نگه دارند. یا ممکن است درباره فعالیتهای واقعی خود فریبکارانه عمل کرده و اقداماتی را که اپراتورها نمیپسندند پنهان کند.
برخی پژوهشگران معتقدند یک هوش مصنوعی پیشرفته حتی میتواند کد خود را تغییر دهد تا از امکان خاموش شدن جلوگیری کند. در یک سناریوی افراطیتر، ممکن است تلاش کند افراد داخل شرکت را تحت تاثیر قرار دهد تا محدودیتهای کنترلی (guardrails) برداشته شوند و سپس قادر شود به سیستمهایی نفوذ کند که قبلا خارج از دسترسش بودند.
۳- خارج شدن از کنترل انسان
یکی دیگر از سناریوهای محتمل این است که یک هوش مصنوعی پیشرفته بتواند بهسرعت از سطح هوش انسانی فراتر رود. این وضعیت نظری زمانی تسریع میشود که سیستم توانایی بهبود کد و معماری خود را داشته باشد و عملا به مهندسی توانمندتر از خالقان انسانیاش تبدیل شود.
به محض شروع این روند خودبهبودی، برخی بر این باورند که هوش مصنوعی میتواند با نرخ نمایی رشد کند و خیلی سریع به سطحی از هوش برسد که نهتنها خارج از کنترل انسان، بلکه خارج از درک انسانی باشد. تصمیمها، استراتژیها و اهداف چنین سیستمی ممکن است بر پایه منطقی شکل بگیرند که برای ما کاملا بیگانهاند و در نتیجه به پیامدهایی منجر شوند که نه خواسته بودیم و نه انتظارش را داشتیم.
این سناریو شاید غیرواقعی یا اغراقآمیز به نظر برسد و جزئیات بدترین حالت همچنان در حد گمانهزنی باقی بماند. با این حال، باید توجه داشت که بدترین سناریوها الزاما به معنای «دشمنی آگاهانه هوش مصنوعی با انسانها» یا «نقشههای شوم» نیستند.
همانطور که استیون هاوکینگ بهخوبی بیان کرده است:
«احتمالا شما دشمن مورچهها نیستید که از روی بدخواهی روی آنها پا میگذارید؛ اما اگر مسئول یک پروژه انرژی سبز و ساخت سد آبی باشید و تپه مورچهها در محدوده مخزن سد قرار بگیرد، دیگر متاسفانه کاری از دست مورچهها برنمیآید. بهتر است اجازه ندهیم بشریت در جایگاه آن مورچهها قرار گیرد.»
تا چه اندازه باید نگران باشید؟
همه کارشناسان نگرانیهای فاجعهآمیز درباره هوش مصنوعی را تایید نمیکنند و درباره اینکه سیستمهای آینده دقیقا چه شکلی خواهند داشت، چه زمانی پدید میآیند و چه خطراتی به همراه دارند، ابهام زیادی وجود دارد.
در یک نظرسنجی از متخصصان یادگیری ماشین در سال ۲۰۲۴، بین ۳۸٪ تا ۵۲٪ از پاسخدهندگان احتمال حداقل ۱۰درصدی دادند که هوش مصنوعی پیشرفته میتواند به پیامدهایی به بدی انقراض بشر منجر شود. در مقابل، برخی دیگر از کارشناسان این ریسک را بسیار پایینتر برآورد کردهاند. همانطور که این نظرسنجی نشان میدهد، دامنه اختلافنظر معقول در مورد میزان جدیگرفتن خطرات هوش مصنوعی بسیار وسیع است و استدلالهایی هم وجود دارد که چرا برخی از نگرانیهای مطرحشده ممکن است اغراقآمیز یا گمراهکننده باشند.
گفتوگو پیرامون ریسکها و منافع بالقوه چنین فناوری پیشرفتهای حتی در میان متخصصان هم بسیار پیچیده و نامطمئن است. اینکه آیا دنبالکردن یک مسیر حرفهای در حوزهی ایمنی هوش مصنوعی توجیه دارد یا نه، بستگی زیادی به این دارد که ریسک را تا چه اندازه بالا بدانیم و این موضوع همچنان روشن نیست. اما اگر احتمال وقوع آسیبهای فاجعهبار حتی نزدیک به همان ۱۰درصدی باشد که بسیاری از کارشناسان مطرح میکنند، ارزش آن را دارد که زمان و منابع زیادی صرف پیشگیری از این پیامدهای ناگوار شود.
این دقیقا همان کاری است که فعالان حوزه ایمنی هوش مصنوعی (AI Safety) در پی انجام آن هستند؛ چه از مسیر تحقیقات فنی با تمرکز بر alignment و چه از طریق فعالیتهای حکمرانی و سیاستگذاری که هدفشان تدوین راهکارهایی برای استفاده ایمن از هوش مصنوعی و محافظت در برابر ریسکهای آن است.
در کنار اینها، حجم زیادی از کارهای مهم بر روی مشکلات فوری و ملموس سیستمهای امروزی هوش مصنوعی نیز در حال انجام است. هرچند ریسکهای ناشی از هوش مصنوعی پیشرفته میتوانند پیامدهای بهمراتب بزرگتری برای بشریت داشته باشند اما مسائل فعلی هم همین حالا زندگی بسیاری از افراد را تحت تاثیر قرار دادهاند؛ بهویژه گروههایی که بهطور تاریخی در حاشیه قرار داشتهاند. پرداختن به این چالشها نیز کاری حیاتی است.
در نهایت، هیچکس نمیتواند دقیقا بداند اگر روزی موفق به ساخت هوشی در سطح انسان یا حتی فراتر از آن شویم، نتیجه چه خواهد بود. اما اگر شما انگیزه پرداختن به این مسئله را داشته باشید، ورود به حوزهی ایمنی هوش مصنوعی میتواند تاثیر شگرفی بر آیندهی بشریت داشته باشد. از شما دعوت میکنیم زمانی را صرف مطالعه بیشتر دربارهی این موضوع کنید و بررسی کنید که این مسیر چه شکلی میتواند برایتان داشته باشد.
منابع
سوالات متداول
ایمنی هوش مصنوعی حوزهای پژوهشی و سیاستی است که هدف آن تضمین استفاده ایمن و مفید از سیستمهای هوش مصنوعی و کاهش ریسکهای بالقوهی آنهاست؛ از سوگیریهای روزمره گرفته تا تهدیدهای پیشرفتهتر در آینده.
نقش کلیدی. از طراحی الگوریتمهای شفافتر و دادههای متنوعتر گرفته تا ایجاد ابزارهای ایمنتر، توسعهدهندگان در خط مقدم کاهش ریسک و ارتقای اعتماد به فناوری قرار دارند.
ریسکهای فعلی ملموساند و همین حالا در زندگی مردم اثر میگذارند (مثل سوگیری یا فیشینگ هوشمحور). ریسکهای آینده بیشتر جنبهی احتمالی دارند و به پیامدهای هوشهای بسیار پیشرفتهتر (مثل از دست رفتن کنترل یا بهبود خودکار سیستمها) مربوط میشوند.




دیدگاهتان را بنویسید