| 👀 خبر در یک نگاه:
Anthropic جدیدترین مدل خود، Opus 4.5، را معرفی کرد؛ مدلی هوشمند و قدرتمند در برنامهنویسی که دقت ۸۰٫۹٪ در SWE-Bench Verified دارد و مقرونبهصرفه است. قابلیتهای جدید شامل پارامتر «تلاش»، بهبود در استدلال بصری و ریاضی، و ارتقای پلتفرم Claude برای دسکتاپ و برنامهریزی دقیق است. |
Anthropic امروز جدیدترین نسخه از مدل پرچمدار Opus خود را با نام Opus 4.5 عرضه کرد.
این شرکت از Opus 4.5 بهعنوان هوشمندترین مدل خود تا امروز یاد میکند و میگوید این مدل بهویژه در حل مسائل برنامهنویسی بسیار قدرتمند است و با ثبت دقت ۸۰٫۹ درصدی در بنچمارک SWE-Bench Verified، تاج برتری را از GPT-5.1-Codex-Max اوپنایآی (OpenAI) و مدل یکهفتهای Gemini 3 گوگل پس گرفته است.
Anthropic همچنین استفاده از Opus 4.5 را بهطور قابل توجهی مقرونبهصرفهتر کرده است؛ بهطوری که قیمت API به ۵ دلار برای هر یک میلیون توکن ورودی و ۲۵ دلار برای هر یک میلیون توکن خروجی کاهش یافته است. این در حالی است که قیمت قبلی ۱۵ دلار برای ورودی و ۷۵ دلار برای خروجی بود.
کاربرانی که از پلنهای اشتراکی Anthropic استفاده میکنند نیز از این پس فضای بیشتری برای استفاده از Opus 4.5 در اختیار خواهند داشت.
بنچمارکها و عملکرد
با عرضه GPT-5.1 و 5.1-Codex-Max از سوی اوپنایآی (OpenAI) و Gemini 3 گوگل، بههمراه مدل تصویری پرسروصدای Nano Banana Pro، ماه نوامبر برای سازندگان مدلهای بزرگ زبانی بسیار پرتحرک بوده است. Gemini 3 بهطور خاص بازخوردهای بسیار مثبتی دریافت کرد.
برخلاف گوگل، Anthropic هرگز تمرکز خود را بر ویرایش تصویر یا تولید ویدیو نگذاشته و کاملا بر نقطه قوتش، یعنی کاربردهای برنامهنویسی و بهرهوری، متمرکز مانده است. جدیدترین نسخه Opus نیز از این قاعده مستثنی نیست و Anthropic تاکید میکند که این مدل اکنون میتواند اسناد، صفحهگستردهها و ارائهها را «با انسجام، پرداخت حرفهای و درک حوزه تخصصی» تولید کند.
اما طبق معمول، نقطه درخشش اصلی مدلهای Claude در برنامهنویسی است. این موضوع در نتایج بنچمارکها هم دیده میشود؛ جایی که Opus 4.5 در تمام شاخصها از رقبا پیشی میگیرد، هرچند بنچمارکها همیشه بازتاب دقیقی از کاربردهای دنیای واقعی نیستند.
آزمون بنچمارک
برای این انتشار، Anthropic همان آزمونی را که برای داوطلبان مهندسی عملکرد (Performance Engineering) استفاده میکند، روی Opus 4.5 هم اجرا کرده است. این آزمون که صرفا بر تواناییهای فنی تمرکز دارد، محدودیت زمانی دو ساعته دارد و Opus 4.5 امتیازی بالاتر از تمام داوطلبان شغلی Anthropic در تمام دورهها کسب کرده است.
الکس آلبرت (Alex Albert)، مدیر روابط توسعهدهندگان در Anthropic گفت که این حس را دارد که «مدل واقعا موضوع را میفهمد». او توضیح داد که مدلهای قبلی معمولا در جمعآوری داده از کانالهای مختلف مثل اسلک (Slack) و ایمیل خوب عمل میکردند اما در ترکیب و یکپارچهسازی موثر این اطلاعات با مشکل مواجه بودند.
او گفت:
«احساس من این است که در این مدل دیگر چنین مشکلی وجود ندارد. واقعا میتوانم به آن اعتماد کنم که مستقیم از پیامهای اسلک به یک خروجی خوب برسد و بعد با خودم بگویم: واو، انگار واقعا میتوانست همین را ارسال کند. هنوز هم بازبینیاش میکنم و این چیزها را در نظر میگیرم اما عملا میتوانستم کاملا دستم را کنار بکشم و کاری نکنم.»
سطوح تلاش: کم، متوسط، زیاد (Low, Medium, High Effort)
یکی از قابلیتهای جدید Opus 4.5 اضافهشدن پارامتر «تلاش» (effort) در سه سطح کم، متوسط و زیاد است؛ قابلیتی مشابه برخی مدلهای رقیب که به توسعهدهندگان اجازه میدهد کنترل کنند مدل برای حل یک مساله چهقدر زمان و چه تعداد توکن مصرف کند.
در حالت «متوسط»، عملکرد مدل در بنچمارک SWE-bench Verified همسطح Sonnet 4.5 است، اما ۷۶ درصد توکن کمتری مصرف میکند. حتی در حالت «زیاد» که Opus 4.5 از Sonnet 4.5 هم بهتر عمل میکند، مصرف توکن آن فقط حدود نصف مدل Sonnet است.
این روندی است که مدتی است دیده میشود و روی همین بهرهوری بود که OpenAI هم هفته گذشته هنگام معرفی جدیدترین مدل Codex-Max خود تاکید ویژهای داشت.
در مجموع، Opus 4.5 در حوزههای دیگر هم نسبت به سایر اعضای خانواده Opus (از جمله Opus 4.1) بهبود داشته است؛ از جمله در استدلال بصری (Visual Reasoning) و ریاضیات.
Opus 4.5 برای استفاده از کامپیوتر (Computer Use)
به گفته آنتروپیک، Opus 4.5 تا امروز بهترین مدل این شرکت برای سناریوهای استفاده از کامپیوتر است. برای آزمودن این ادعا، Anthropic اکنون افزونه کروم خود را در اختیار همه مشترکان Claude Max قرار داده است؛ کاربرانی که ماهانه ۱۰۰ دلار یا بیشتر پرداخت میکنند.
استفاده از کامپیوتر و مرورگر هنوز در مراحل ابتدایی خود قرار دارد و اغلب کند و مستعد خطاست اما Anthropic در اینجا سطح فناوری را یک پله بالاتر برده و امتیازهایی بهمراتب بهتر از مدلهای قبلی خود ثبت کرده است.
Anthropic اخیرا در موقعیت جالبی قرار داشت؛ جایی که نسخه جدید مدل میانرده Sonnet در بسیاری از موارد از مدل قدیمیتر Opus 4.1 بهتر عمل میکرد و عملا دلیل چندانی برای استفاده روزمره از مدل گرانتر باقی نمیگذاشت. با این حال، ایده اصلی همیشه داشتن یک ساختار سهسطحی از مدلها بود و Opus 4.5 این تعادل را دوباره برقرار میکند.
الکس آلبرت (Alex Albert) میگوید:
«چیزی که در این انتشار برای من جالب است این است که لزوما به این معنا نیست که همه باید به Opus مهاجرت کنند، اما یک سطح کاملا جدید از امکانها را فعال میکند. حالا وارد فضایی شدهایم که واقعا سه مدل داریم که هرکدام برای نیاز متفاوتی در این طیف مناسب هستند: مدل Haiku که حدود یک ماه پیش منتشر کردیم، Sonnet 4.5 که حدود یک ماه و نیم قبل عرضه شد و حالا این مجموعه کامل میشود.»
بهروزرسانیهای پلتفرم توسعهدهندگان Claude
علاوه بر مدل جدید، Anthropic همزمان با انتشار Opus 4.5 از دو بهروزرسانی در پلتفرم توسعهدهندگان Claude رونمایی کرده است:
۱- ارتقای حالت برنامهریزی (plan mode) در Claude Code
۲- اضافهشدن پشتیبانی از Claude Code در اپلیکیشن دسکتاپ.
به گفته Anthropic، حالت برنامهریزی جدید اکنون برای حل یک مساله یا افزودن یک قابلیت تازه، برنامههایی دقیقتر تولید میکند و با پایبندی مستقیمتری آنها را اجرا میکند.
همچنین اگر از اپلیکیشن دسکتاپ Claude استفاده میکنید، حالا میتوانید وظایف برنامهنویسی را با Claude Code هم روی دسکتاپ و هم در محیط ابری آغاز کنید. این قابلیت امکان اجرای همزمان چند نشست محلی و راهدور Claude Code را فراهم میکند.
منبع: thenewstack.io




دیدگاهتان را بنویسید