| 👀 خبر در یک نگاه:
میسترال با انتشار Devstral 2، یک مدل کدنویسی متنباز ۱۲۳ میلیارد پارامتری، و ابزار CLI جدید Mistral Vibe وارد رقابت جدی با مدلهای مالکیتی شده است. این مدل با عملکرد بالا در SWE-bench، پشتیبانی از وایب کدینگ و تمرکز بر پروژههای واقعی نرمافزاری معرفی شده است. |
استارتاپ هوش مصنوعی فرانسوی Mistral AI از Devstral 2 رونمایی کرد؛ یک مدل کدنویسی با وزنهای باز و ۱۲۳ میلیارد پارامتر که برای کار بهعنوان بخشی از یک عامل خودکار مهندسی نرمافزار طراحی شده است.
این مدل در بنچمارک SWE-bench Verified امتیاز ۷۲٫۲ درصد را کسب کرده؛ معیاری که تلاش میکند توانایی سیستمهای هوش مصنوعی را در حل مسائل واقعی گیتهاب بسنجد و Devstral 2 را در میان برترین مدلهای متنباز از نظر عملکرد قرار میدهد.
Mistral Vibe
نکته مهمتر این است که Mistral فقط یک مدل هوش مصنوعی منتشر نکرده، بلکه یک ابزار توسعه جدید به نام Mistral Vibe را هم معرفی کرده است. این ابزار یک رابط خط فرمان (CLI) شبیه به Claude Code، OpenAI Codex و Gemini CLI است که به توسعهدهندگان اجازه میدهد مستقیما در ترمینال با مدلهای Devstral کار کنند.
کاربردها
این ابزار میتواند ساختار فایلها و وضعیت Git را اسکن کند تا در سطح کل پروژه کانتکست را حفظ کند، تغییرات را در چندین فایل اعمال کند و بهصورت خودکار دستورات شل را اجرا کند. Mistral این CLI را تحت مجوز Apache 2.0 منتشر کرده است.
اهمیت امتیاز SWE-bench Verified
همیشه باید بنچمارکهای هوش مصنوعی را با احتیاط و کمی بدبینی در نظر گرفت، اما طبق گفته کارکنان شرکتهای بزرگ حوزه هوش مصنوعی، آنها توجه بسیار زیادی به عملکرد مدلها در SWE-bench Verified دارند.
این بنچمارک، مدلهای هوش مصنوعی را با ۵۰۰ مسئله واقعی مهندسی نرمافزار که از ایشوهای گیتهاب در مخازن محبوب پایتون استخراج شدهاند، به چالش میکشد.
مدل باید توضیح مسئله را بخواند، در کدبیس حرکت کند و یک پچ عملیاتی تولید کند که تستهای واحد را با موفقیت پشت سر بگذارد. هرچند برخی پژوهشگران هوش مصنوعی اشاره کردهاند که حدود ۹۰ درصد تسکهای این بنچمارک شامل رفع باگهای نسبتا سادهای است که مهندسان باتجربه میتوانند آنها را در کمتر از یک ساعت انجام دهند، اما همچنان یکی از معدود روشهای استاندارد برای مقایسه مدلهای کدنویسی به شمار میرود.
مدل Devstral Small 2
همزمان با معرفی مدل بزرگتر کدنویسی، Mistral نسخه دیگری به نام Devstral Small 2 را هم منتشر کرده است؛ مدلی با ۲۴ میلیارد پارامتر که در همان بنچمارک امتیاز ۶۸ درصد را کسب میکند و میتواند بهصورت محلی روی سختافزارهای مصرفی مثل لپتاپ اجرا شود، بدون اینکه به اتصال اینترنت نیاز داشته باشد.
هر دو مدل از پنجره کانتکست ۲۵۶ هزار توکنی پشتیبانی میکنند و امکان پردازش کدبیسهای نسبتا بزرگ را فراهم میکنند (البته بزرگ یا کوچک بودن آن کاملا به پیچیدگی کلی پروژه بستگی دارد).
➕ این شرکت Devstral 2 را تحت مجوز MIT اصلاحشده و Devstral Small 2 را تحت مجوز بازتر Apache 2.0 منتشر کرده است.
دسترسی و قیمتگذاری
در حال حاضر استفاده از Devstral 2 از طریق API میسترال رایگان است. پس از پایان دوره رایگان، قیمت آن ۰٫۴۰ دلار به ازای هر یک میلیون توکن ورودی و ۲٫۰۰ دلار به ازای هر یک میلیون توکن خروجی خواهد بود.
هزینه Devstral Small 2 برابر با ۰٫۱۰ دلار برای هر یک میلیون توکن ورودی و ۰٫۳۰ دلار برای هر یک میلیون توکن خروجی اعلام شده است. به گفته میسترال، این مدلها در تسکهای دنیای واقعی حدود «۷ برابر بهصرفهتر از Claude Sonnet» هستند.
در مقابل، هزینه استفاده از Sonnet 4.5 شرکت Anthropic از طریق API برابر با ۳ دلار برای هر یک میلیون توکن ورودی و ۱۵ دلار برای هر یک میلیون توکن خروجی است که با افزایش تعداد کل توکنهای مصرفی، این قیمتها بیشتر هم میشود.
ارتباط با وایب کدینگ
| 💡 در این رویکرد میتوان کاملا تسلیم وایبها شد، رشدهای نمایی را پذیرفت و حتی وجود خود کد را فراموش کرد |
نام «Mistral Vibe» به «وایب کدینگ» اشاره دارد؛ اصطلاحی که پژوهشگر هوش مصنوعی، آندری کارپاتی (Andrej Karpathy)، برای توصیف سبکی از برنامهنویسی مطرح کرد که در آن توسعهدهندگان خواستههای خود را به زبان طبیعی بیان میکنند و کد تولیدشده توسط هوش مصنوعی را بدون بررسی دقیق میپذیرند.
به گفته کارپاتی، در این رویکرد میتوان «کاملا تسلیم وایبها شد، رشدهای نمایی را پذیرفت و حتی وجود خود کد را فراموش کرد». فرهنگ لغت کالینز این اصطلاح را بهعنوان کلمه سال ۲۰۲۵ انتخاب کرده است.
رویکرد وایب کدینگ هم با استقبال روبهرو شده و هم نگرانیهایی را برانگیخته است. سایمون ویلیسون (Simon Willison)، توسعهدهنده نرمافزار، در مصاحبهای گفت:
«من واقعا از وایب کدینگ لذت میبرم. راه سرگرمکنندهای است برای امتحان کردن یک ایده و سنجیدن اینکه آیا میتواند کار کند یا نه. رسیدن به یک کدبیس تولیدی صرفا با وایب کدینگ قطعا پرریسک است. بخش عمده کاری که ما بهعنوان مهندسان نرمافزار انجام میدهیم، توسعه و تکامل سیستمهای موجود است؛ جایی که کیفیت و قابلفهمبودن کد پایه اهمیت حیاتی دارد.»
جمعبندی
میسترال روی این شرطبندی کرده که Devstral 2 بتواند انسجام را در سراسر پروژههای کامل حفظ کند، خطاها را تشخیص دهد و با اعمال اصلاحات دوباره تلاش کند؛ قابلیتهایی که بهگفته شرکت، آن را برای کارهای جدیتر از نمونههای اولیه ساده و ابزارهای داخلی مناسب میکند.
میسترال میگوید این مدل میتواند وابستگیهای فریمورکها را دنبال کند و وظایفی مثل رفع باگ و نوسازی سیستمهای قدیمی را در مقیاس یک ریپازیتوری انجام دهد.
منبع: arstechnica.com




دیدگاهتان را بنویسید