Devstral 2: یک مدل جدید کدنویسی مبتنی بر هوش مصنوعی

زمان مطالعه: 3 دقیقه

👀 خبر در یک نگاه:

میسترال با انتشار Devstral 2، یک مدل کدنویسی متن‌باز ۱۲۳ میلیارد پارامتری، و ابزار CLI جدید Mistral Vibe وارد رقابت جدی با مدل‌های مالکیتی شده است. این مدل با عملکرد بالا در SWE-bench، پشتیبانی از وایب کدینگ و تمرکز بر پروژه‌های واقعی نرم‌افزاری معرفی شده است.

استارتاپ هوش مصنوعی فرانسوی Mistral AI از Devstral 2 رونمایی کرد؛ یک مدل کدنویسی با وزن‌های باز و ۱۲۳ میلیارد پارامتر که برای کار به‌عنوان بخشی از یک عامل خودکار مهندسی نرم‌افزار طراحی شده است.

این مدل در بنچمارک SWE-bench Verified امتیاز ۷۲٫۲ درصد را کسب کرده؛ معیاری که تلاش می‌کند توانایی سیستم‌های هوش مصنوعی را در حل مسائل واقعی گیت‌هاب بسنجد و Devstral 2 را در میان برترین مدل‌های متن‌باز از نظر عملکرد قرار می‌دهد.

Mistral Vibe

نکته مهم‌تر این است که Mistral فقط یک مدل هوش مصنوعی منتشر نکرده، بلکه یک ابزار توسعه جدید به نام Mistral Vibe را هم معرفی کرده است. این ابزار یک رابط خط فرمان (CLI) شبیه به Claude Code، OpenAI Codex و Gemini CLI است که به توسعه‌دهندگان اجازه می‌دهد مستقیما در ترمینال با مدل‌های Devstral کار کنند.

کاربردها

این ابزار می‌تواند ساختار فایل‌ها و وضعیت Git را اسکن کند تا در سطح کل پروژه کانتکست را حفظ کند، تغییرات را در چندین فایل اعمال کند و به‌صورت خودکار دستورات شل را اجرا کند. Mistral این CLI را تحت مجوز Apache 2.0 منتشر کرده است.

اهمیت امتیاز SWE-bench Verified

همیشه باید بنچمارک‌های هوش مصنوعی را با احتیاط و کمی بدبینی در نظر گرفت، اما طبق گفته کارکنان شرکت‌های بزرگ حوزه هوش مصنوعی، آن‌ها توجه بسیار زیادی به عملکرد مدل‌ها در SWE-bench Verified دارند.

این بنچمارک، مدل‌های هوش مصنوعی را با ۵۰۰ مسئله واقعی مهندسی نرم‌افزار که از ایشوهای گیت‌هاب در مخازن محبوب پایتون استخراج شده‌اند، به چالش می‌کشد.

مدل باید توضیح مسئله را بخواند، در کدبیس حرکت کند و یک پچ عملیاتی تولید کند که تست‌های واحد را با موفقیت پشت سر بگذارد. هرچند برخی پژوهشگران هوش مصنوعی اشاره کرده‌اند که حدود ۹۰ درصد تسک‌های این بنچمارک شامل رفع باگ‌های نسبتا ساده‌ای است که مهندسان باتجربه می‌توانند آن‌ها را در کمتر از یک ساعت انجام دهند، اما همچنان یکی از معدود روش‌های استاندارد برای مقایسه مدل‌های کدنویسی به شمار می‌رود.

مدل Devstral Small 2

هم‌زمان با معرفی مدل بزرگ‌تر کدنویسی، Mistral نسخه دیگری به نام Devstral Small 2 را هم منتشر کرده است؛ مدلی با ۲۴ میلیارد پارامتر که در همان بنچمارک امتیاز ۶۸ درصد را کسب می‌کند و می‌تواند به‌صورت محلی روی سخت‌افزارهای مصرفی مثل لپ‌تاپ اجرا شود، بدون اینکه به اتصال اینترنت نیاز داشته باشد.

هر دو مدل از پنجره کانتکست ۲۵۶ هزار توکنی پشتیبانی می‌کنند و امکان پردازش کدبیس‌های نسبتا بزرگ را فراهم می‌کنند (البته بزرگ یا کوچک بودن آن کاملا به پیچیدگی کلی پروژه بستگی دارد).

➕ این شرکت Devstral 2 را تحت مجوز MIT اصلاح‌شده و Devstral Small 2 را تحت مجوز بازتر Apache 2.0 منتشر کرده است.

دسترسی و قیمت‌گذاری

در حال حاضر استفاده از Devstral 2 از طریق API میسترال رایگان است. پس از پایان دوره رایگان، قیمت آن ۰٫۴۰ دلار به ازای هر یک میلیون توکن ورودی و ۲٫۰۰ دلار به ازای هر یک میلیون توکن خروجی خواهد بود.

هزینه Devstral Small 2 برابر با ۰٫۱۰ دلار برای هر یک میلیون توکن ورودی و ۰٫۳۰ دلار برای هر یک میلیون توکن خروجی اعلام شده است. به گفته میسترال، این مدل‌ها در تسک‌های دنیای واقعی حدود «۷ برابر به‌صرفه‌تر از Claude Sonnet» هستند.

در مقابل، هزینه استفاده از Sonnet 4.5 شرکت Anthropic از طریق API برابر با ۳ دلار برای هر یک میلیون توکن ورودی و ۱۵ دلار برای هر یک میلیون توکن خروجی است که با افزایش تعداد کل توکن‌های مصرفی، این قیمت‌ها بیشتر هم می‌شود.

ارتباط با وایب کدینگ

💡 در این رویکرد می‌توان کاملا تسلیم وایب‌ها شد، رشدهای نمایی را پذیرفت و حتی وجود خود کد را فراموش کرد

نام «Mistral Vibe» به «وایب کدینگ» اشاره دارد؛ اصطلاحی که پژوهشگر هوش مصنوعی، آندری کارپاتی (Andrej Karpathy)، برای توصیف سبکی از برنامه‌نویسی مطرح کرد که در آن توسعه‌دهندگان خواسته‌های خود را به زبان طبیعی بیان می‌کنند و کد تولیدشده توسط هوش مصنوعی را بدون بررسی دقیق می‌پذیرند.

به گفته کارپاتی، در این رویکرد می‌توان «کاملا تسلیم وایب‌ها شد، رشدهای نمایی را پذیرفت و حتی وجود خود کد را فراموش کرد». فرهنگ لغت کالینز این اصطلاح را به‌عنوان کلمه سال ۲۰۲۵ انتخاب کرده است.

رویکرد وایب کدینگ هم با استقبال روبه‌رو شده و هم نگرانی‌هایی را برانگیخته است. سایمون ویلیسون (Simon Willison)، توسعه‌دهنده نرم‌افزار، در مصاحبه‌ای گفت:

«من واقعا از وایب کدینگ لذت می‌برم. راه سرگرم‌کننده‌ای است برای امتحان کردن یک ایده و سنجیدن اینکه آیا می‌تواند کار کند یا نه. رسیدن به یک کدبیس تولیدی صرفا با وایب کدینگ قطعا پرریسک است. بخش عمده کاری که ما به‌عنوان مهندسان نرم‌افزار انجام می‌دهیم، توسعه و تکامل سیستم‌های موجود است؛ جایی که کیفیت و قابل‌فهم‌بودن کد پایه اهمیت حیاتی دارد.»

جمع‌بندی

میسترال روی این شرط‌بندی کرده که Devstral 2 بتواند انسجام را در سراسر پروژه‌های کامل حفظ کند، خطاها را تشخیص دهد و با اعمال اصلاحات دوباره تلاش کند؛ قابلیت‌هایی که به‌گفته شرکت، آن را برای کارهای جدی‌تر از نمونه‌های اولیه ساده و ابزارهای داخلی مناسب می‌کند.

میسترال می‌گوید این مدل می‌تواند وابستگی‌های فریم‌ورک‌ها را دنبال کند و وظایفی مثل رفع باگ و نوسازی سیستم‌های قدیمی را در مقیاس یک ریپازیتوری انجام دهد.

منبع: arstechnica.com

Devstral 2: یک مدل جدید کدنویسی مبتنی بر هوش مصنوعی

Mistral Vibe

کاربردها

اهمیت امتیاز SWE-bench Verified

مدل Devstral Small 2

دسترسی و قیمت‌گذاری

ارتباط با وایب کدینگ

جمع‌بندی

دیدگاه‌ها

دیدگاهتان را بنویسید لغو پاسخ

Devstral 2: یک مدل جدید کدنویسی مبتنی بر هوش مصنوعی

Mistral Vibe

کاربردها

اهمیت امتیاز SWE-bench Verified

مدل Devstral Small 2

دسترسی و قیمت‌گذاری

ارتباط با وایب کدینگ

جمع‌بندی

مطالب مرتبط

دیدگاه‌ها

دیدگاهتان را بنویسید لغو پاسخ