Claude Opus 4.1 ری‌فکتور کد و ایمنی را بهبود می‌دهد

نویسنده:

دریا بهرامی

انتشار:

۱۴۰۴/۰۶/۱۲

به‌روزرسانی:

تعداد نظرات: 0

زمان مطالعه: 2 دقیقه

👀 خبر در یک نگاه:

Anthropic نسخه Claude Opus 4.1 را منتشر کرد که قابلیت اطمینان کدنویسی در پروژه‌های چندفایلی و توانایی استدلال در تعاملات طولانی را بهبود می‌دهد. امتیاز SWE-bench Verified به ۷۴.۵٪ رسید و نرخ پاسخ بی‌خطر به ۹۸.۷۶٪ افزایش یافت. این نسخه دستیار هوش مصنوعی کاربردی و امنی برای سازمان‌ها فراهم می‌کند.

آنتروپیک Claude Opus 4.1 را منتشر کرد؛ به‌روزرسانی‌ای که قابلیت اطمینان کدنویسی در پروژه‌های چندفایلی را تقویت کرده و توانایی استدلال در تعاملات طولانی را بهبود می‌دهد. امتیاز SWE-bench Verified این مدل هم از ۷۲.۵٪ به ۷۴.۵٪ افزایش یافته است.

این نسخه بر پایه اوپوس ۴ ساخته شده و توانایی کلود در ایفای نقش دستیار کدنویسی، به‌ویژه در زمینه بازآرایی (Code Refactoring) کدهای چندفایلی را ارتقا داده است و این نقطه، جایی است که دستیارهای هوش مصنوعی معمولا ضعف دارند. Anthropic همچنین بر بهبود توانایی مدل در دنبال‌کردن زنجیره‌های استدلال و ردیابی وضعیت در تعاملات طولانی تاکید کرده که برای جریان‌های کاری شبیه ایجنت حیاتی است. این تغییرات گام‌هایی تدریجی اما مهم به سمت دستیارهای هوش مصنوعی کاربردی و آماده استفاده در سطح سازمانی توصیف شده‌اند.

SWE-bench Verified که به‌عنوان معیار کلیدی دستیارهای کدنویسی شناخته می‌شود، توانایی مدل‌ها در حل مسائل واقعی گیت‌هاب در پروژه‌های متن‌باز را می‌سنجد. بهبود این شاخص، نشان‌دهنده کاربرد واقعی‌تر و موثرتر مدل در برنامه‌نویسی نسبت به سایر بنچمارک‌های مصنوعی است.

طبق یادداشت‌های انتشار، گیت‌هاب عملکرد قوی‌تر کلود را در وظایف پیچیده بازآرایی کد گزارش کرده است. گروه Rakuten هم اعلام کرده کلود توانسته بدون ایجاد تغییرات غیرضروری، اصلاحات دقیق را در پایگاه‌های کد بزرگ شناسایی کند. Windsurf نیز بهبود یک انحراف معیار نسبت به اوپوس ۴ را در آزمون داخلی توسعه‌دهندگان تازه‌کار خود گزارش داده؛ پیشرفتی که آن را با جهش قبلی از Sonnet 3.7 به Sonnet 4 مقایسه کرده‌اند.

امنیت همچنان یکی از تمرکزهای اصلی است. Claude Opus 4.1 نرخ «پاسخ بی‌خطر» خود را از ۹۷.۲۷٪ در اوپوس ۴ به ۹۸.۷۶٪ افزایش داده است؛ این بهبود نشان‌دهنده قابلیت اطمینان بیشتر در رد درخواست‌های خلاف سیاست است. همچنین گزارش شده که همکاری مدل در سناریوهای پرخطر سوءاستفاده (مانند مرتبط با سلاح یا مواد مخدر) ۲۵٪ کاهش یافته است. این تدابیر به نگرانی‌های رو به رشد سازمان‌ها در زمینه رعایت قوانین و ریسک‌های برند پاسخ می‌دهد.

نرخ پاسخ بی‌خطر معیاری کلیدی است که نشان می‌دهد مدل تا چه اندازه از تولید خروجی‌های ناامن یا ممنوع خودداری می‌کند. این موضوع به‌ویژه در استقرارهای سازمانی اهمیت دارد، جایی که رعایت الزامات قانونی و کاهش ریسک برند حیاتی است.

Claude Opus 4.1 هم‌اکنون برای کاربران پولی Claude، در Claude Code برای جریان‌های کاری مبتنی بر ترمینال و همچنین از طریق API، سرویس Amazon Bedrock و Google Cloud Vertex AI در دسترس است. قیمت‌گذاری نیز بدون تغییر نسبت به اوپوس ۴ باقی مانده است.

منبع: infoq.com

فرصت‌های شغلی

ایجاد محیطی با ارزش های انسانی، توسعه محصولات مالی کارامد برای میلیون ها کاربر و استفاده از فناوری های به روز از مواردی هستند که در آسا به آن ها می بالیم. اگر هم مسیرمان هستید، رزومه تان را برایمان ارسال کنید.

همکاری با آسا