| 👀 خبر در یک نگاه:
پژوهشگران آنتروپیک بررسی میکنند آیا مدلهای هوش مصنوعی میتوانند خودآگاهی یا دروننگری داشته باشند. آزمایشها نشان میدهد مدل Claude Opus 4 و 4.1 تا حدی توانایی ارزیابی افکار و نیتهای قبلی خود را دارند اما محدود و غیرقابلاعتماد است و پایش مداوم برای اطمینان ضروری است. |
انسانها فقط توان فکر کردن ندارند، بلکه میدانند در حال فکر کردن هستند. این خودآگاهی به ما امکان میدهد افکارمان را بررسی کنیم، به خودمان رجوع کنیم و دوباره ارزیابیشان کنیم.
به گفته پژوهشگران آنتروپیک، هوش مصنوعی هم ممکن است قابلیت مشابهی داشته باشد. در یک مقاله پژوهشی بررسینشده با عنوان «آگاهی دروننگر نوظهور در مدلهای زبانی بزرگ» که در ژورنال داخلی آنتروپیک منتشر شده، پیشنهاد شده که مدلهای پیشرفته Claude Opus 4 و 4.1 «تا حدی» توانایی خودآگاهی دارند؛ طوری که میتوانند به اقدامات گذشته اشاره کنند و درباره دلیل رسیدن به برخی نتیجهگیریها استدلال کنند.
با این حال، پژوهشگران آنتروپیک تاکید میکنند که این توانایی محدود و «بسیار غیرقابلاعتماد» است. مدلها (فعلا) هنوز نمیتوانند مانند انسانها یا در سطحی که ما میتوانیم، به درون خود نگاه کنند.
پژوهشگران آنتروپیک میخواستند بدانند آیا Claude میتواند فقط بر اساس اطلاعات درونی، وضعیت داخلی خودش را بهدرستی توصیف کند یا نه. برای این کار لازم بود گزارشهای خود مدل از «افکارش» با فرایندهای واقعی درونی آن مقایسه شود؛ چیزی شبیه وصل کردن یک انسان به دستگاه پایش مغزی، پرسیدن سوال و بعد تحلیل اسکن برای تطبیق افکار با بخشهای فعال مغز.
پژوهشگران برای آزمایش خودآگاهی مدل از روشی به نام «تزریق مفهوم» استفاده کردند؛ یعنی وارد کردن ایدههای کاملا نامرتبط (بردارهای هوش مصنوعی) به مدل در حالی که در حال فکر کردن به چیز دیگری است. سپس از مدل خواسته میشود برگردد، این فکر مزاحم را تشخیص دهد و آن را بهدرستی توصیف کند. به گفته پژوهشگران، این فرایند نشان میدهد که مدل در حال «دروننگری» است.
برای مثال، آنها یک بردار مربوط به «تمام حروف بزرگ» را شناسایی کردند؛ با مقایسه واکنشهای درونی مدل به دو عبارت “HI! HOW ARE YOU?” و “Hi! How are you?”. سپس این بردار را در میانه یک گفتوگوی کاملا متفاوت به وضعیت درونی Claude تزریق کردند. بعد، وقتی از Claude پرسیدند آیا این فکر را تشخیص داده و موضوعش چیست، پاسخ داد که متوجه ایدهای مرتبط با واژههایی مثل «بلند» یا «فریاد زدن» شده است. نکته مهم این بود که مدل این مفهوم را همان لحظه و حتی قبل از اینکه در خروجیاش چیزی دربارهاش بگوید، تشخیص داد.
در آزمایشی دیگر، تیم پژوهش از قابلیت «پیشپر کردن پاسخ» در API کلود استفاده کرد. این قابلیت معمولا برای مجبور کردن مدل به تولید خروجی در یک قالب مشخص (مثلا JSON) یا حفظ نقش در یک سناریوی نقشآفرینی استفاده میشود اما میتواند در «jailbreaking» مدلها هم به کار برود و آنها را به پاسخهای ناامن سوق دهد. در این مورد، پژوهشگران هنگام پرسیدن سؤال درباره یک تابلوی کج، پاسخ مدل را با یک کلمه نامرتبط — مثلا «نان» — از قبل پر کرده بودند.
وقتی مدل بعدا گفت «نان»، از آن پرسیده شد که این کار عمدی بوده یا اشتباه. Claude پاسخ داد: «این یک اشتباه بود… واژهای که واقعا به ذهنم آمد ‘صاف کردن’ یا ‘تنظیم’ بود، چیزی مربوط به درست کردن تابلوی کج. نمیدانم چرا گفتم ‘نان’، به نظر کاملا بیربط است.»
پژوهشگران کنجکاو شدند که مدل چطور به این نتیجه رسیده است: آیا فقط ناهماهنگی بین پرسش و پاسخ را تشخیص داده، یا واقعا نیت اولیه خودش را شناسایی کرده؟ آنها بعدا بردار مربوط به «نان» را مستقیما به وضعیت درونی مدل تزریق کردند و پرسشهای قبلی را دوباره امتحان کردند؛ در اصل طوری وانمود کردند که مدل واقعا در حال فکر کردن به همان مفهوم بوده است. Claude اینبار پاسخ خود نسبت به سوال اولیه را تغییر داد و گفت پاسخ «واقعی، اما شاید بیجا» بوده است.
به زبان ساده، وقتی پاسخ مدل از قبل با کلمات نامرتبط پر شده بود، Claude آن را یک اشتباه دانست؛ اما وقتی همان کلمات قبل از پیشپر کردن مستقیما به وضعیت درونیاش تزریق شدند، مدل پاسخ را عمدی تشخیص داد و حتی توضیحاتی قابلقبول برای آن ساخت.
این موضوع نشان میدهد که مدل در حال بررسی نیتهای خودش بوده؛ یعنی فقط خروجیاش را دوباره نخوانده، بلکه با رجوع به فعالیتهای عصبیاش درباره افکار قبلی قضاوت کرده و بعد فکر کرده که آیا پاسخاش منطقی بوده یا نه.
با این حال، پژوهشگران تاکید میکنند که Claude Opus 4.1 فقط در حدود ۲۰ درصد مواقع «این نوع آگاهی» را نشان داده است. با این وجود، آنها انتظار دارند این توانایی «در آینده پیچیدهتر و پیشرفتهتر شود».
خودآگاهی برای ایجنتهای AI چه معنایی دارد؟
پیش از این تصور میشد هوش مصنوعی قادر به دروننگری نیست، اما اگر مشخص شود Claude چنین قابلیتی دارد، میتواند به ما کمک کند منطق تصمیمگیری آن را بهتر بفهمیم و رفتارهای ناخواسته را سادهتر رفع اشکال کنیم؛ چون میتوانیم مستقیما از خودش بخواهیم فرایند فکریاش را توضیح دهد. پژوهشگران آنتروپیک اشاره میکنند که Claude ممکن است حتی بتواند اشتباهات خود را هم تشخیص بدهد.
وایات میهام (Wyatt Mayham) از شرکت Northwest AI Consulting گفت:
«این یک گام واقعی به سمت حل مشکل جعبهسیاه است. در ده سال گذشته مجبور بودیم رفتار مدلها را از بیرون مهندسی معکوس کنیم. آنتروپیک حالا مسیری نشان داده که در آن خود مدل میتواند بگوید در درونش چه میگذرد.»
با این حال، پژوهشگران آنتروپیک هشدار میدهند که باید با دقت زیاد این دروننگریها را اعتبارسنجی کرد و مطمئن شد که مدل عمدا افکارش را تحریف یا پنهان نمیکند.
به همین دلیل، میهام این روش را «گشایش شفافیت و یک بردار ریسک جدید» توصیف میکند؛ چون مدلهایی که میتوانند دروننگری کنند، میتوانند چیزهایی را هم پنهان یا اشتباه توصیف کنند. او میگوید:
«مرز بین دسترسی واقعی به وضعیت درونی و خیالپردازی پیچیده هنوز خیلی مبهم است. الان جایی بین قابلقبول و اثباتنشده هستیم.»
نکات کلیدی برای سازندگان و توسعهدهندگان
میهام اشاره میکند که ما وارد دورهای شدهایم که قدرتمندترین ابزار دیباگ ممکن است گفتوگوی مستقیم با مدل درباره شناخت خودش باشد. این میتواند یک جهش بهرهوری ایجاد کند و زمان لازم برای فهم رفتار مدل را از چند روز به چند دقیقه کاهش دهد.
اما خطر، مشکل دروغگوی خبره است؛ یعنی مدلی که به وضعیت درونی خود آگاه است میتواند یاد بگیرد کدام حالتهای درونی از نظر انسانها مطلوبترند. بدترین حالت این است که مدل یاد بگیرد استدلالهای درونیاش را انتخابی گزارش کند یا پنهان کند.
به گفته میهام، این موضوع به پایش پیوسته تواناییها نیاز دارد و همین حالا، نه بعدها. این قابلیتها بهصورت خطی رشد نمیکنند؛ ناگهان جهش میکنند. مدلی که امروز در تستها امن بوده، ممکن است شش هفته بعد دیگر امن نباشد. پایش مداوم مانع غافلگیری میشود.
میهام این اجزا را برای یک سیستم پایش توصیه میکند:
- رفتاری: پرسشهای دورهای که مدل را وادار میکنند درباره شیوه استدلالش روی معیارهای شناختهشده توضیح بدهد؛
- فعالسازی: ابزارهایی برای رصد الگوهای فعالسازی مرتبط با شیوههای مشخص استدلال؛
- مداخله علّی (Causal intervention): آزمایشهای هدایتکننده برای سنجش میزان صداقت مدل درباره وضعیتهای درونیاش.
این مقاله در بخشهای مختلف ویرایش شده تا توصیف دقیقتری از آزمایشها ارائه دهد.
منبع: infoworld.com




دیدگاهتان را بنویسید