Windsurf از Arena برای مقایسه مدل‌های AI در حین توسعه رونمایی کرد

نویسنده:

دریا بهرامی

انتشار:

به‌روزرسانی:

تعداد نظرات: 0

زمان مطالعه: 2 دقیقه

👀 خبر در یک نگاه:

ویندسرف حالت Arena را معرفی کرده تا توسعه‌دهنده‌ها مدل‌های زبان بزرگ را کنار هم مقایسه کنند. این ابزار امکان ارزیابی واقعی مدل‌ها، ثبت نتایج و تولید برنامه‌های ساختاریافته توسط عامل‌های Cascade را فراهم می‌کنند.

Windsurf حالت Arena را در محیط توسعه یکپارچه (IDE) خود اضافه کرده است تا توسعه‌دهنده‌ها بتوانند مدل‌های زبانی بزرگ (LLM) را کنار هم و همزمان با انجام وظایف واقعی کدنویسی مقایسه کنند. این قابلیت به کاربران اجازه می‌دهد مدل‌ها را مستقیما در بافت توسعه فعلی خود ارزیابی کنند، به جای اتکا به بنچمارک‌های عمومی یا وب‌سایت‌های ارزیابی خارجی.

حالت Arena چطور عمل می‌کند؟

حالت Arena دو عامل Cascade را به‌طور هم‌زمان روی یک درخواست (Prompt) اجرا می‌کند و هویت مدل‌های پشت پرده در طول سشن مخفی می‌ماند. توسعه‌دهنده‌ها با استفاده از جریان کاری معمول خود با هر دو عامل تعامل دارند، شامل دسترسی به کدبیس، ابزارها و زمینه کاری.

پس از بررسی خروجی‌ها، کاربران می‌توانند بهتر بودن پاسخ‌ها را انتخاب کنند و این رای‌ها برای محاسبه رتبه‌بندی مدل‌ها استفاده می‌شوند. نتایج هم در رتبه‌بندی شخصی بر اساس رای‌های فرد و هم در رتبه‌بندی جهانی که از کل کاربران Windsurf جمع‌آوری می‌شود، لحاظ می‌شود.

اهمیت و مزایای این مود

به گفته Windsurf، این رویکرد برای رفع محدودیت‌های سیستم‌های مقایسه مدل موجود طراحی شده است، مانند آزمون بدون زمینه واقعی پروژه، حساسیت به سبک سطحی خروجی و ناتوانی در بازتاب تفاوت‌ها بین وظایف، زبان‌ها یا جریان‌های کاری. هدف Windsurf این است که ارزیابی‌هایی ثبت شود که بیشتر شبیه به کار روزمره توسعه باشد، شامل رفع اشکال، توسعه قابلیت‌ها و درک کد.

حالت Arena امکان آزمون مدل‌های مشخص یا انتخاب از گروه‌های از پیش تعریف‌شده، مانند مدل‌های سریع‌تر در مقابل مدل‌های با قابلیت بالاتر، را فراهم می‌کند. توسعه‌دهنده‌ها می‌توانند پرسش‌های بعدی را بین عامل‌ها همگام‌سازی کنند یا گفت‌وگوها را به‌طور مستقل شاخه‌بندی کنند. وقتی خروجی موردنظر مشخص شد، جلسه می‌تواند نهایی شده و برای رتبه‌بندی ثبت شود.

دسترسی

حالت Arena برای مدتی محدود دسترسی رایگان به همه گروه‌های Battle ارائه می‌دهد و پس از آن، نتایج منتشر شده و مدل‌های اضافی به مرور زمان اضافه می‌شوند. Windsurf همچنین برنامه دارد سیستم را با رتبه‌بندی‌های دقیق‌تر بر اساس نوع وظیفه، زبان برنامه‌نویسی و احتمالا ارزیابی‌های تیمی برای سازمان‌های بزرگ‌تر گسترش دهد.

نظرات جامعه

اعلام حالت Arena واکنش‌های متفاوتی در جامعه ایجاد کرده است، شامل هیجان، تحسین و کمی تردید. کاربران در X از رویکرد بنچمارک‌گیری در دنیای واقعی استقبال کرده‌اند، اما نگرانی‌هایی درباره مصرف توکن‌ها و عملی بودن آن مطرح کرده‌اند.

لید شرکت DevRel، با یوزرنیم @nnennahacks نوشت:

«کدبیس شما همان بنچمارک است. جالب!»

در همین حال، کاربر @BigWum گفت:

«چه روش فوق‌العاده‌ای برای مصرف بیشتر توکن‌ها.»

سخن نهایی

چندین ابزار دیگر در حوزه هوش مصنوعی برای توسعه‌دهنده‌ها ایده‌های مشابهی را بررسی می‌کنند، هرچند با سطوح متفاوت از یکپارچگی و تمرکز. پلتفرم‌های ارزیابی عمومی مانند Dpaia Arena به کاربران امکان می‌دهند خروجی مدل‌ها را کنار هم مقایسه کنند، اما معمولا روی پرسش‌های کوتاه و بدون زمینه و خارج از محیط واقعی توسعه کار می‌کنند. برخی دستیارهای یکپارچه با IDE، شامل GitHub Copilot و Cursor، امکان سوئیچ بین مدل‌ها یا اجرای ارزیابی پس‌زمینه را فراهم می‌کنند، اما در حال حاضر بر مقایسه مستقیم و هدایت‌شده توسط کاربر به‌عنوان بخشی از جریان کاری تمرکز ندارند. سایر عامل‌های کدنویسی نوظهور بر مسیر‌یابی چندمدلی یا انتخاب خودکار مدل بر اساس نوع وظیفه تاکید دارند، به جای اینکه مقایسه مستقیم را در اختیار توسعه‌دهنده‌ها قرار دهند.

منبع: infoq.com

فرصت‌های شغلی

ایجاد محیطی با ارزش های انسانی، توسعه محصولات مالی کارامد برای میلیون ها کاربر و استفاده از فناوری های به روز از مواردی هستند که در آسا به آن ها می بالیم. اگر هم مسیرمان هستید، رزومه تان را برایمان ارسال کنید.

همکاری با آسا

دریا بهرامی

Windsurf از Arena برای مقایسه مدل‌های AI در حین توسعه رونمایی کرد

حالت Arena چطور عمل می‌کند؟

اهمیت و مزایای این مود

دسترسی

نظرات جامعه

سخن نهایی

دیدگاه‌ها

دیدگاهتان را بنویسید لغو پاسخ

Windsurf از Arena برای مقایسه مدل‌های AI در حین توسعه رونمایی کرد

حالت Arena چطور عمل می‌کند؟

اهمیت و مزایای این مود

دسترسی

نظرات جامعه

سخن نهایی

مطالب مرتبط

دیدگاه‌ها

دیدگاهتان را بنویسید لغو پاسخ