Claude Opus 4.5 تاج پادشاهی برنامه‌نویسی را پس گرفت

زمان مطالعه: 4 دقیقه

👀 خبر در یک نگاه:

Anthropic جدیدترین مدل خود، Opus 4.5، را معرفی کرد؛ مدلی هوشمند و قدرتمند در برنامه‌نویسی که دقت ۸۰٫۹٪ در SWE-Bench Verified دارد و مقرون‌به‌صرفه است. قابلیت‌های جدید شامل پارامتر «تلاش»، بهبود در استدلال بصری و ریاضی، و ارتقای پلتفرم Claude برای دسکتاپ و برنامه‌ریزی دقیق است.

Anthropic امروز جدیدترین نسخه از مدل پرچم‌دار Opus خود را با نام Opus 4.5 عرضه کرد.
این شرکت از Opus 4.5 به‌عنوان هوشمندترین مدل خود تا امروز یاد می‌کند و می‌گوید این مدل به‌ویژه در حل مسائل برنامه‌نویسی بسیار قدرتمند است و با ثبت دقت ۸۰٫۹ درصدی در بنچمارک SWE-Bench Verified، تاج برتری را از GPT-5.1-Codex-Max اوپن‌ای‌آی (OpenAI) و مدل یک‌هفته‌ای Gemini 3 گوگل پس گرفته است.

Anthropic همچنین استفاده از Opus 4.5 را به‌طور قابل توجهی مقرون‌به‌صرفه‌تر کرده است؛ به‌طوری که قیمت API به ۵ دلار برای هر یک میلیون توکن ورودی و ۲۵ دلار برای هر یک میلیون توکن خروجی کاهش یافته است. این در حالی است که قیمت قبلی ۱۵ دلار برای ورودی و ۷۵ دلار برای خروجی بود.

کاربرانی که از پلن‌های اشتراکی Anthropic استفاده می‌کنند نیز از این پس فضای بیشتری برای استفاده از Opus 4.5 در اختیار خواهند داشت.

بنچمارک‌ها و عملکرد

با عرضه GPT-5.1 و 5.1-Codex-Max از سوی اوپن‌ای‌آی (OpenAI) و Gemini 3 گوگل، به‌همراه مدل تصویری پرسر‌وصدای Nano Banana Pro، ماه نوامبر برای سازندگان مدل‌های بزرگ زبانی بسیار پرتحرک بوده است. Gemini 3 به‌طور خاص بازخوردهای بسیار مثبتی دریافت کرد.

برخلاف گوگل، Anthropic هرگز تمرکز خود را بر ویرایش تصویر یا تولید ویدیو نگذاشته و کاملا بر نقطه قوتش، یعنی کاربردهای برنامه‌نویسی و بهره‌وری، متمرکز مانده است. جدیدترین نسخه Opus نیز از این قاعده مستثنی نیست و Anthropic تاکید می‌کند که این مدل اکنون می‌تواند اسناد، صفحه‌گسترده‌ها و ارائه‌ها را «با انسجام، پرداخت حرفه‌ای و درک حوزه تخصصی» تولید کند.

اما طبق معمول، نقطه درخشش اصلی مدل‌های Claude در برنامه‌نویسی است. این موضوع در نتایج بنچمارک‌ها هم دیده می‌شود؛ جایی که Opus 4.5 در تمام شاخص‌ها از رقبا پیشی می‌گیرد، هرچند بنچمارک‌ها همیشه بازتاب دقیقی از کاربردهای دنیای واقعی نیستند.

آزمون بنچ‌مارک

برای این انتشار، Anthropic همان آزمونی را که برای داوطلبان مهندسی عملکرد (Performance Engineering) استفاده می‌کند، روی Opus 4.5 هم اجرا کرده است. این آزمون که صرفا بر توانایی‌های فنی تمرکز دارد، محدودیت زمانی دو ساعته دارد و Opus 4.5 امتیازی بالاتر از تمام داوطلبان شغلی Anthropic در تمام دوره‌ها کسب کرده است.

الکس آلبرت (Alex Albert)، مدیر روابط توسعه‌دهندگان در Anthropic گفت که این حس را دارد که «مدل واقعا موضوع را می‌فهمد». او توضیح داد که مدل‌های قبلی معمولا در جمع‌آوری داده از کانال‌های مختلف مثل اسلک (Slack) و ایمیل خوب عمل می‌کردند اما در ترکیب و یکپارچه‌سازی موثر این اطلاعات با مشکل مواجه بودند.

او گفت:

«احساس من این است که در این مدل دیگر چنین مشکلی وجود ندارد. واقعا می‌توانم به آن اعتماد کنم که مستقیم از پیام‌های اسلک به یک خروجی خوب برسد و بعد با خودم بگویم: واو، انگار واقعا می‌توانست همین را ارسال کند. هنوز هم بازبینی‌اش می‌کنم و این چیزها را در نظر می‌گیرم اما عملا می‌توانستم کاملا دستم را کنار بکشم و کاری نکنم.»

سطوح تلاش: کم، متوسط، زیاد (Low, Medium, High Effort)

یکی از قابلیت‌های جدید Opus 4.5 اضافه‌شدن پارامتر «تلاش» (effort) در سه سطح کم، متوسط و زیاد است؛ قابلیتی مشابه برخی مدل‌های رقیب که به توسعه‌دهندگان اجازه می‌دهد کنترل کنند مدل برای حل یک مساله چه‌قدر زمان و چه تعداد توکن مصرف کند.

در حالت «متوسط»، عملکرد مدل در بنچمارک SWE-bench Verified هم‌سطح Sonnet 4.5 است، اما ۷۶ درصد توکن کمتری مصرف می‌کند. حتی در حالت «زیاد» که Opus 4.5 از Sonnet 4.5 هم بهتر عمل می‌کند، مصرف توکن آن فقط حدود نصف مدل Sonnet است.

این روندی است که مدتی است دیده می‌شود و روی همین بهره‌وری بود که OpenAI هم هفته گذشته هنگام معرفی جدیدترین مدل Codex-Max خود تاکید ویژه‌ای داشت.

در مجموع، Opus 4.5 در حوزه‌های دیگر هم نسبت به سایر اعضای خانواده Opus (از جمله Opus 4.1) بهبود داشته است؛ از جمله در استدلال بصری (Visual Reasoning) و ریاضیات.

Opus 4.5 برای استفاده از کامپیوتر (Computer Use)

به گفته آنتروپیک، Opus 4.5 تا امروز بهترین مدل این شرکت برای سناریوهای استفاده از کامپیوتر است. برای آزمودن این ادعا، Anthropic اکنون افزونه کروم خود را در اختیار همه مشترکان Claude Max قرار داده است؛ کاربرانی که ماهانه ۱۰۰ دلار یا بیشتر پرداخت می‌کنند.

استفاده از کامپیوتر و مرورگر هنوز در مراحل ابتدایی خود قرار دارد و اغلب کند و مستعد خطاست اما Anthropic در اینجا سطح فناوری را یک پله بالاتر برده و امتیازهایی به‌مراتب بهتر از مدل‌های قبلی خود ثبت کرده است.

Anthropic اخیرا در موقعیت جالبی قرار داشت؛ جایی که نسخه جدید مدل میان‌رده Sonnet در بسیاری از موارد از مدل قدیمی‌تر Opus 4.1 بهتر عمل می‌کرد و عملا دلیل چندانی برای استفاده روزمره از مدل گران‌تر باقی نمی‌گذاشت. با این حال، ایده اصلی همیشه داشتن یک ساختار سه‌سطحی از مدل‌ها بود و Opus 4.5 این تعادل را دوباره برقرار می‌کند.

الکس آلبرت (Alex Albert) می‌گوید:

«چیزی که در این انتشار برای من جالب است این است که لزوما به این معنا نیست که همه باید به Opus مهاجرت کنند، اما یک سطح کاملا جدید از امکان‌ها را فعال می‌کند. حالا وارد فضایی شده‌ایم که واقعا سه مدل داریم که هرکدام برای نیاز متفاوتی در این طیف مناسب هستند: مدل Haiku که حدود یک ماه پیش منتشر کردیم، Sonnet 4.5 که حدود یک ماه و نیم قبل عرضه شد و حالا این مجموعه کامل می‌شود.»

به‌روزرسانی‌های پلتفرم توسعه‌دهندگان Claude

علاوه بر مدل جدید، Anthropic هم‌زمان با انتشار Opus 4.5 از دو به‌روزرسانی در پلتفرم توسعه‌دهندگان Claude رونمایی کرده است:

۱- ارتقای حالت برنامه‌ریزی (plan mode) در Claude Code

۲- اضافه‌شدن پشتیبانی از Claude Code در اپلیکیشن دسکتاپ.

به گفته Anthropic، حالت برنامه‌ریزی جدید اکنون برای حل یک مساله یا افزودن یک قابلیت تازه، برنامه‌هایی دقیق‌تر تولید می‌کند و با پایبندی مستقیم‌تری آن‌ها را اجرا می‌کند.

همچنین اگر از اپلیکیشن دسکتاپ Claude استفاده می‌کنید، حالا می‌توانید وظایف برنامه‌نویسی را با Claude Code هم روی دسکتاپ و هم در محیط ابری آغاز کنید. این قابلیت امکان اجرای هم‌زمان چند نشست محلی و راه‌دور Claude Code را فراهم می‌کند.

منبع: thenewstack.io

🏷️ برچسب‌ها: ابزار هوش مصنوعی, هوش مصنوعی مولد