👀 خبر در یک نگاه:
مدل هوش مصنوعی Claude Sonnet 4.5 با موفقیت ۶۱.۴ درصد در بنچمارک OSWorld، پیشرفتهترین مدل کد نویسی و اجرای وظایف رایانهای است.مدل هوش مصنوعی Claude Sonnet 4.5 با موفقیت ۶۱.۴ درصد در بنچمارک OSWorld، پیشرفتهترین مدل کدنویسی و اجرای وظایف رایانهای است. |
شرکت Anthropic نسخه جدید مدل اصلی کدنویسی خود به نام Claude Sonnet 4.5 را معرفی کرده است. مدلهای زبانی بزرگ Anthropic یعنی Claude Sonnet و Opus مدتهاست که در میان توسعهدهندگان محبوباند و اکنون این شرکت نسخه جدید Sonnet 4.5 را عرضه کرده است؛ مدلی که بر اساس گفته Anthropic، پیشرفتهترین مدل برای برنامهنویسی به شمار میرود.
Sonnet 4.5
مدل Sonnet 4.5 طبق گفته Anthropic، توانایی بیشتری در پیروی از دستورها و ریفکتور کدهای موجود دارد. در بنچمارک SWE-Bench Verified که عملکرد مدلها را در مواجهه با درخواستهای واقعی GitHub میسنجد، Sonnet 4.5 امتیاز ۷۷.۲ درصد کسب کرده است و با پردازش موازی در زمان آزمایش، این عدد به ۸۲ درصد میرسد.
در برخی زمینهها، از جمله مسائل مرتبط با صنعت خدمات مالی، Sonnet 4.5 از مدل پرچمدار شرکت یعنی Opus 4.1 نیز فراتر رفته است.
بنچمارک OSWorld
مدل Sonnet 4.5 در بنچمارک OSWorld بالاترین امتیاز (۶۱.۴٪) را کسب کرده است. این بنچمارک ارزیابی میکند که مدلهای هوش مصنوعی تا چه اندازه میتوانند وظایف واقعی رایانهای را انجام دهند. این امتیاز نسبت به امتیاز Sonnet 4 (با نرخ موفقیت ۴۳.۹ درصد) دستاورد بزرگی محسوب میشود و حتی از Opus 4.1 که حدود ۴۴ درصد امتیاز داشت نیز بهتر عمل کرده است.
عملکرد مستقل
مدل جدید اکنون میتواند وظایف پیچیده و طولانی را تا ۳۰ ساعت بهطور مستقل انجام دهد، در حالیکه این عدد برای Opus 4 تنها ۷ ساعت بود. Anthropic میگوید Sonnet 4.5 میتواند این پایداری را با «حفظ تمرکز و عملکرد در تمام مدت» ادامه دهد، هرچند صحت این ادعا باید در شرایط واقعی آزمایش شود.
نقاط قابل بهبود
در بیشتر بنچمارکهای کدنویسی، Sonnet 4.5 از رقبایی مانند GPT-5 (از OpenAI) و Gemini 2.5 Pro بهتر عمل میکند اما در آزمونهای استدلال بصری هنوز فاصلهای باقی مانده است.
قابلیتها
یکی از پیشرفتهای مهمتر این نسخه، دسترسی مدل به قابلیتهایی است که عامل کدنویسی Claude Code نیز از آنها برخوردار است، مانند دسترسی به ماشین مجازی (VM)، حافظه اختصاصی، مدیریت بهتر زمینه (context) و پشتیبانی از چند عامل بهصورت همزمان.
به گفته Anthropic، Sonnet 4.5 اولین مدلی است که توانسته اپلیکیشن وب Claude.ai را از ابتدا بازسازی کند. این فرایند ۵.۵ ساعت طول کشیده و شامل بیش از ۳۰۰۰ بار استفاده از ابزارها بوده است.
مدیرعامل Cursor، مایکل تروئل (Michael Truell)، در این باره گفته:
«ما در Claude Sonnet 4.5 شاهد عملکرد کدنویسی در سطح جهانی هستیم که پیشرفت قابلتوجهی در وظایف بلندمدت ارائه داده است. این نکته تاییدی است بر این که چرا بسیاری از توسعهدهندگان از Claude برای حل پیچیدهترین مسائل خود استفاده میکنند.»
➕ قیمت مدل جدید بدون تغییر مانده: ۳ دلار برای ورودی و ۱۵ دلار برای خروجی به ازای هر میلیون توکن، همانند نسخه قبلی.
چه چیزهای جدیدی در Claude Code وجود دارد؟
نسخه جدید Claude Code نیز به Sonnet 4.5 مجهز شده و امکانات تازهای دریافت کرده است.
Anthropic اعلام کرده که درآمد سالانه Claude Code از مرز ۵۰۰ میلیون دلار گذشته و استفاده از آن طی سه ماه گذشته بیش از ۱۰ برابر رشد کرده است.
افزونه VS Code
این نسخه اکنون دارای افزونه بومی Visual Studio Code است که امکان مشاهده تغییرات در لحظه و diff درونخطی (inline diffs) را فراهم میکند.
Prompt History
در محیط ترمینال نیز Claude Code اکنون نمایش وضعیت بهبودیافته و تاریخچه جستوجوپذیر دستورات (Prompt History) دارد. این ویژگی برای زمانی که کاربر بخواهد درخواستهای قبلی را مجددا استفاده کند، مفید است.
Checkpoints
قابلیت جدید دیگر Checkpoints است که به توسعهدهندگان امکان میدهد در صورت خطا یا انحراف مدل از مسیر، کد را به نسخه قبلی بازگردانند؛ قابلیتی که پیشتر تنها با نسخهگذاری دستی یا پشتیبانگیری محلی ممکن بود.
SDK جدید برای ایجاد عاملها
برای توسعهدهندگانی که میخواهند عاملهایی مشابه Claude Code بسازند، Anthropic نسخه جدید Claude Agent SDK را عرضه کرده است.
این SDK از همان زیرساخت مورد استفاده Claude Code بهره میبرد و امکاناتی مانند هماهنگی عاملها (Agent Orchestration)، مدیریت حافظه و زمینه (Context)، استفاده از ابزارها و کنترل دسترسی را در اختیار کاربران قرار میدهد.
در سطح API نیز ویژگی Memory Tool معرفی شده تا عاملها بتوانند در وظایف بلندمدت، زمینه کاری خود را حفظ کنند. یک سیستم خودکار مدیریت Context نیز اضافه شده که اطلاعات قدیمی را بهطور پویا حذف و جایگزین میکند.
ساخت نرمافزار زنده: Imagine with Claude
ویژگی Imagine with Claude یک آزمایش جدید Anthropic است که به کاربران اجازه میدهد نرمافزار و رابط کاربری را بهصورت زنده و در لحظه ایجاد کنند.
آنتروپیک در یک اطلاعیه رسمی گفته:
«هیچ عملکردی از پیش تعیین نشده و هیچ کدی از قبل نوشته نشده است. آنچه میبینید، فرایند خلق در لحظه توسط Claude است که بهطور پویا به درخواستهای شما پاسخ میدهد.»
با اینکه جزئیات فنی این قابلیت هنوز بهطور کامل منتشر نشده، این ایده توجه زیادی را در میان کارشناسان هوش مصنوعی جلب کرده است؛ استفاده از هوش مصنوعی برای ساخت هر نرمافزاری که در لحظه نیاز دارید. گرچه ابزارهایی مانند Lovable تا حدودی به این هدف نزدیک شدهاند اما هنوز تجربهای به روانی و پویایی چیزی که Anthropic وعده میدهد، ارائه نمیدهند.
در حال حاضر، این ویژگی تنها یک آزمایش محدود برای نمایش تواناییهای Sonnet 4.5 است و فقط کاربران Claude Max میتوانند برای پنج روز آینده از آن استفاده کنند. با این حال، جهتگیری آینده صنعت نرمافزار را بهروشنی نشان میدهد.
منبع: thenewstack.io
دیدگاهتان را بنویسید