👀 خبر در یک نگاه:
Anthropic نسخه Claude Opus 4.1 را منتشر کرد که قابلیت اطمینان کدنویسی در پروژههای چندفایلی و توانایی استدلال در تعاملات طولانی را بهبود میدهد. امتیاز SWE-bench Verified به ۷۴.۵٪ رسید و نرخ پاسخ بیخطر به ۹۸.۷۶٪ افزایش یافت. این نسخه دستیار هوش مصنوعی کاربردی و امنی برای سازمانها فراهم میکند. |
آنتروپیک Claude Opus 4.1 را منتشر کرد؛ بهروزرسانیای که قابلیت اطمینان کدنویسی در پروژههای چندفایلی را تقویت کرده و توانایی استدلال در تعاملات طولانی را بهبود میدهد. امتیاز SWE-bench Verified این مدل هم از ۷۲.۵٪ به ۷۴.۵٪ افزایش یافته است.
این نسخه بر پایه اوپوس ۴ ساخته شده و توانایی کلود در ایفای نقش دستیار کدنویسی، بهویژه در زمینه بازآرایی (Code Refactoring) کدهای چندفایلی را ارتقا داده است و این نقطه، جایی است که دستیارهای هوش مصنوعی معمولا ضعف دارند. Anthropic همچنین بر بهبود توانایی مدل در دنبالکردن زنجیرههای استدلال و ردیابی وضعیت در تعاملات طولانی تاکید کرده که برای جریانهای کاری شبیه ایجنت حیاتی است. این تغییرات گامهایی تدریجی اما مهم به سمت دستیارهای هوش مصنوعی کاربردی و آماده استفاده در سطح سازمانی توصیف شدهاند.
SWE-bench Verified که بهعنوان معیار کلیدی دستیارهای کدنویسی شناخته میشود، توانایی مدلها در حل مسائل واقعی گیتهاب در پروژههای متنباز را میسنجد. بهبود این شاخص، نشاندهنده کاربرد واقعیتر و موثرتر مدل در برنامهنویسی نسبت به سایر بنچمارکهای مصنوعی است.
طبق یادداشتهای انتشار، گیتهاب عملکرد قویتر کلود را در وظایف پیچیده بازآرایی کد گزارش کرده است. گروه Rakuten هم اعلام کرده کلود توانسته بدون ایجاد تغییرات غیرضروری، اصلاحات دقیق را در پایگاههای کد بزرگ شناسایی کند. Windsurf نیز بهبود یک انحراف معیار نسبت به اوپوس ۴ را در آزمون داخلی توسعهدهندگان تازهکار خود گزارش داده؛ پیشرفتی که آن را با جهش قبلی از Sonnet 3.7 به Sonnet 4 مقایسه کردهاند.
امنیت همچنان یکی از تمرکزهای اصلی است. Claude Opus 4.1 نرخ «پاسخ بیخطر» خود را از ۹۷.۲۷٪ در اوپوس ۴ به ۹۸.۷۶٪ افزایش داده است؛ این بهبود نشاندهنده قابلیت اطمینان بیشتر در رد درخواستهای خلاف سیاست است. همچنین گزارش شده که همکاری مدل در سناریوهای پرخطر سوءاستفاده (مانند مرتبط با سلاح یا مواد مخدر) ۲۵٪ کاهش یافته است. این تدابیر به نگرانیهای رو به رشد سازمانها در زمینه رعایت قوانین و ریسکهای برند پاسخ میدهد.
نرخ پاسخ بیخطر معیاری کلیدی است که نشان میدهد مدل تا چه اندازه از تولید خروجیهای ناامن یا ممنوع خودداری میکند. این موضوع بهویژه در استقرارهای سازمانی اهمیت دارد، جایی که رعایت الزامات قانونی و کاهش ریسک برند حیاتی است.
Claude Opus 4.1 هماکنون برای کاربران پولی Claude، در Claude Code برای جریانهای کاری مبتنی بر ترمینال و همچنین از طریق API، سرویس Amazon Bedrock و Google Cloud Vertex AI در دسترس است. قیمتگذاری نیز بدون تغییر نسبت به اوپوس ۴ باقی مانده است.
منبع: infoq.com
دیدگاهتان را بنویسید