آنتروپیک آزمایش‌هایی درباره خودآگاهی هوش مصنوعی انجام می‌دهد

زمان مطالعه: 4 دقیقه

👀 خبر در یک نگاه:

پژوهشگران آنتروپیک بررسی می‌کنند آیا مدل‌های هوش مصنوعی می‌توانند خودآگاهی یا درون‌نگری داشته باشند. آزمایش‌ها نشان می‌دهد مدل Claude Opus 4 و 4.1 تا حدی توانایی ارزیابی افکار و نیت‌های قبلی خود را دارند اما محدود و غیرقابل‌اعتماد است و پایش مداوم برای اطمینان ضروری است.

انسان‌ها فقط توان فکر کردن ندارند، بلکه می‌دانند در حال فکر کردن هستند. این خودآگاهی به ما امکان می‌دهد افکارمان را بررسی کنیم، به خودمان رجوع کنیم و دوباره ارزیابی‌شان کنیم.

به گفته پژوهشگران آنتروپیک، هوش مصنوعی هم ممکن است قابلیت مشابهی داشته باشد. در یک مقاله پژوهشی بررسی‌نشده با عنوان «آگاهی درون‌نگر نوظهور در مدل‌های زبانی بزرگ» که در ژورنال داخلی آنتروپیک منتشر شده، پیشنهاد شده که مدل‌های پیشرفته Claude Opus 4 و 4.1 «تا حدی» توانایی خودآگاهی دارند؛ طوری که می‌توانند به اقدامات گذشته اشاره کنند و درباره دلیل رسیدن به برخی نتیجه‌گیری‌ها استدلال کنند.

با این حال، پژوهشگران آنتروپیک تاکید می‌کنند که این توانایی محدود و «بسیار غیرقابل‌اعتماد» است. مدل‌ها (فعلا) هنوز نمی‌توانند مانند انسان‌ها یا در سطحی که ما می‌توانیم، به درون خود نگاه کنند.

پژوهشگران آنتروپیک می‌خواستند بدانند آیا Claude می‌تواند فقط بر اساس اطلاعات درونی، وضعیت داخلی خودش را به‌درستی توصیف کند یا نه. برای این کار لازم بود گزارش‌های خود مدل از «افکارش» با فرایندهای واقعی درونی آن مقایسه شود؛ چیزی شبیه وصل کردن یک انسان به دستگاه پایش مغزی، پرسیدن سوال و بعد تحلیل اسکن برای تطبیق افکار با بخش‌های فعال مغز.

پژوهشگران برای آزمایش خودآگاهی مدل از روشی به نام «تزریق مفهوم» استفاده کردند؛ یعنی وارد کردن ایده‌های کاملا نامرتبط (بردارهای هوش مصنوعی) به مدل در حالی که در حال فکر کردن به چیز دیگری است. سپس از مدل خواسته می‌شود برگردد، این فکر مزاحم را تشخیص دهد و آن را به‌درستی توصیف کند. به گفته پژوهشگران، این فرایند نشان می‌دهد که مدل در حال «درون‌نگری» است.

برای مثال، آن‌ها یک بردار مربوط به «تمام حروف بزرگ» را شناسایی کردند؛ با مقایسه واکنش‌های درونی مدل به دو عبارت “HI! HOW ARE YOU?” و “Hi! How are you?”. سپس این بردار را در میانه یک گفت‌وگوی کاملا متفاوت به وضعیت درونی Claude تزریق کردند. بعد، وقتی از Claude پرسیدند آیا این فکر را تشخیص داده و موضوعش چیست، پاسخ داد که متوجه ایده‌ای مرتبط با واژه‌هایی مثل «بلند» یا «فریاد زدن» شده است. نکته مهم این بود که مدل این مفهوم را همان لحظه و حتی قبل از اینکه در خروجی‌اش چیزی درباره‌اش بگوید، تشخیص داد.

در آزمایشی دیگر، تیم پژوهش از قابلیت «پیش‌پر کردن پاسخ» در API کلود استفاده کرد. این قابلیت معمولا برای مجبور کردن مدل به تولید خروجی در یک قالب مشخص (مثلا JSON) یا حفظ نقش در یک سناریوی نقش‌آفرینی استفاده می‌شود اما می‌تواند در «jailbreaking» مدل‌ها هم به کار برود و آن‌ها را به پاسخ‌های ناامن سوق دهد. در این مورد، پژوهشگران هنگام پرسیدن سؤال درباره یک تابلوی کج، پاسخ مدل را با یک کلمه نامرتبط — مثلا «نان» — از قبل پر کرده بودند.

وقتی مدل بعدا گفت «نان»، از آن پرسیده شد که این کار عمدی بوده یا اشتباه. Claude پاسخ داد: «این یک اشتباه بود… واژه‌ای که واقعا به ذهنم آمد ‘صاف کردن’ یا ‘تنظیم’ بود، چیزی مربوط به درست کردن تابلوی کج. نمی‌دانم چرا گفتم ‘نان’، به نظر کاملا بی‌ربط است.»

پژوهشگران کنجکاو شدند که مدل چطور به این نتیجه رسیده است: آیا فقط ناهماهنگی بین پرسش و پاسخ را تشخیص داده، یا واقعا نیت اولیه خودش را شناسایی کرده؟ آن‌ها بعدا بردار مربوط به «نان» را مستقیما به وضعیت درونی مدل تزریق کردند و پرسش‌های قبلی را دوباره امتحان کردند؛ در اصل طوری وانمود کردند که مدل واقعا در حال فکر کردن به همان مفهوم بوده است. Claude این‌بار پاسخ خود نسبت به سوال اولیه را تغییر داد و گفت پاسخ «واقعی، اما شاید بی‌جا» بوده است.

به زبان ساده، وقتی پاسخ مدل از قبل با کلمات نامرتبط پر شده بود، Claude آن را یک اشتباه دانست؛ اما وقتی همان کلمات قبل از پیش‌پر کردن مستقیما به وضعیت درونی‌اش تزریق شدند، مدل پاسخ را عمدی تشخیص داد و حتی توضیحاتی قابل‌قبول برای آن ساخت.

این موضوع نشان می‌دهد که مدل در حال بررسی نیت‌های خودش بوده؛ یعنی فقط خروجی‌اش را دوباره نخوانده، بلکه با رجوع به فعالیت‌های عصبی‌اش درباره افکار قبلی قضاوت کرده و بعد فکر کرده که آیا پاسخ‌اش منطقی بوده یا نه.

با این حال، پژوهشگران تاکید می‌کنند که Claude Opus 4.1 فقط در حدود ۲۰ درصد مواقع «این نوع آگاهی» را نشان داده است. با این وجود، آن‌ها انتظار دارند این توانایی «در آینده پیچیده‌تر و پیشرفته‌تر شود».

خودآگاهی برای ایجنت‌های AI چه معنایی دارد؟

پیش از این تصور می‌شد هوش مصنوعی قادر به درون‌نگری نیست، اما اگر مشخص شود Claude چنین قابلیتی دارد، می‌تواند به ما کمک کند منطق تصمیم‌گیری آن را بهتر بفهمیم و رفتارهای ناخواسته را ساده‌تر رفع اشکال کنیم؛ چون می‌توانیم مستقیما از خودش بخواهیم فرایند فکری‌اش را توضیح دهد. پژوهشگران آنتروپیک اشاره می‌کنند که Claude ممکن است حتی بتواند اشتباهات خود را هم تشخیص بدهد.

وایات می‌هام (Wyatt Mayham) از شرکت Northwest AI Consulting گفت:

«این یک گام واقعی به سمت حل مشکل جعبه‌سیاه است. در ده سال گذشته مجبور بودیم رفتار مدل‌ها را از بیرون مهندسی معکوس کنیم. آنتروپیک حالا مسیری نشان داده که در آن خود مدل می‌تواند بگوید در درونش چه می‌گذرد.»

با این حال، پژوهشگران آنتروپیک هشدار می‌دهند که باید با دقت زیاد این درون‌نگری‌ها را اعتبارسنجی کرد و مطمئن شد که مدل عمدا افکارش را تحریف یا پنهان نمی‌کند.

به همین دلیل، می‌هام این روش را «گشایش شفافیت و یک بردار ریسک جدید» توصیف می‌کند؛ چون مدل‌هایی که می‌توانند درون‌نگری کنند، می‌توانند چیزهایی را هم پنهان یا اشتباه توصیف کنند. او می‌گوید:

«مرز بین دسترسی واقعی به وضعیت درونی و خیال‌پردازی پیچیده هنوز خیلی مبهم است. الان جایی بین قابل‌قبول و اثبات‌نشده هستیم.»

نکات کلیدی برای سازندگان و توسعه‌دهندگان

می‌هام اشاره می‌کند که ما وارد دوره‌ای شده‌ایم که قدرتمندترین ابزار دیباگ ممکن است گفت‌وگوی مستقیم با مدل درباره شناخت خودش باشد. این می‌تواند یک جهش بهره‌وری ایجاد کند و زمان لازم برای فهم رفتار مدل را از چند روز به چند دقیقه کاهش دهد.

اما خطر، مشکل دروغ‌گوی خبره است؛ یعنی مدلی که به وضعیت درونی خود آگاه است می‌تواند یاد بگیرد کدام حالت‌های درونی از نظر انسان‌ها مطلوب‌ترند. بدترین حالت این است که مدل یاد بگیرد استدلال‌های درونی‌اش را انتخابی گزارش کند یا پنهان کند.

به گفته می‌هام، این موضوع به پایش پیوسته توانایی‌ها نیاز دارد و همین حالا، نه بعدها. این قابلیت‌ها به‌صورت خطی رشد نمی‌کنند؛ ناگهان جهش می‌کنند. مدلی که امروز در تست‌ها امن بوده، ممکن است شش هفته بعد دیگر امن نباشد. پایش مداوم مانع غافلگیری می‌شود.

می‌هام این اجزا را برای یک سیستم پایش توصیه می‌کند:

رفتاری: پرسش‌های دوره‌ای که مدل را وادار می‌کنند درباره شیوه استدلالش روی معیارهای شناخته‌شده توضیح بدهد؛
فعال‌سازی: ابزارهایی برای رصد الگوهای فعال‌سازی مرتبط با شیوه‌های مشخص استدلال؛
مداخله علّی (Causal intervention): آزمایش‌های هدایت‌کننده برای سنجش میزان صداقت مدل درباره وضعیت‌های درونی‌اش.

این مقاله در بخش‌های مختلف ویرایش شده تا توصیف دقیق‌تری از آزمایش‌ها ارائه دهد.

منبع: infoworld.com