Evalite: ابزار تست TypeScript برای اپلیکیشن‌های مجهز به هوش مصنوعی

نویسنده:

دریا بهرامی

انتشار:

به‌روزرسانی:

تعداد نظرات: 0

زمان مطالعه: 3 دقیقه

👀 خبر در یک نگاه:

Evalite یک ابزار ارزیابی بومی TypeScript برای اپلیکیشن‌های هوش‌مصنوعی است که ارزیابی‌های قابل‌تکرار، با رهگیری دقیق، امتیازدهی سفارشی و اجرای محلی را فراهم می‌کند. متن‌باز، بدون وابستگی اجباری به فروشنده و مناسب برای جریان‌های کاری واقعی است. نسخه بتای v1 آن با استقبال گسترده جامعه توسعه‌دهندگان روبه‌رو شده است.

Evalite ابزار ارزیابی بومی TypeScript از مت پوکاک (Matt Pocock)، یک چهارچوب تست اختصاصی برای اپلیکیشن‌های مجهز به هوش مصنوعی ارائه می‌دهد که به توسعه‌دهندگان امکان می‌دهد ارزیابی‌های قابل‌تکرار بنویسند، ردپاها را ثبت کنند و به‌صورت محلی با یک رابط وب تکرار کنند. این پروژه به نسخه بتای v1 رسیده و خود را معادل Vitest یا Jest برای اپلیکیشن‌های وابسته به مدل‌های زبانی معرفی می‌کند، با ابزارهایی مخصوص امتیازدهی، رهگیری و تکرار هزینه‌محور.

مدل Evalite

مدل Evalite یک ارزیابی را مانند یک مجموعه تست در نظر می‌گیرد اما با خروجی‌های غنی‌تر. به‌جای نتایج ساده موفق یا ناموفق، Evalite فایل‌های .eval.ts را اجرا می‌کند که در آن هر داده یک مورد امتیازدهی‌شده می‌شود و ابزارهای امتیازدهی و ثبت ردپا در سطح اول ارائه می‌دهد تا تیم‌ها بتوانند خروجی مدل، زنجیره فراخوانی‌ها و رفتار را به‌صورت برنامه‌نویسی‌شده بررسی کنند. این ابزار یک سرور توسعه محلی با بارگذاری مجدد زنده و یک رابط تعاملی برای بررسی ردپاها اجرا می‌کند و چون بر پایه Vitest ساخته شده، می‌توانید از الگوهای آشنای تست مثل mockها و lifecycle hookها استفاده کنید.

نسخه اول

نسخه بتای v1 بر ارگونومی توسعه‌دهنده و سرعت تکرار تمرکز دارد. دستورالعمل شروع سریع نشان می‌دهد چگونه Evalite را نصب کنید، یک اسکریپت eval:dev به npm اضافه کنید و یک ارزیابی ساده با یک امتیازدهنده آماده مثل autoevals بسازید. Evalite همچنین می‌تواند به‌صورت برنامه‌نویسی‌شده اجرا شود، حالت‌های مختلف اجرا مثل watch و run-once ارائه کند و نتایج را در مخازن ذخیره‌سازی سفارشی نگه دارد تا تیم‌ها بتوانند روند ارزیابی‌ها را در طول زمان دنبال کنند.

قابلیت‌های Evalite

در پس‌زمینه، Evalite قابلیت‌هایی ارائه می‌دهد که برای جریان‌های کاری تولید در نظر گرفته شده‌اند. امتیازدهنده‌های داخلی و پشتیبانی از امتیازدهنده‌های سفارشی به تیم‌ها اجازه می‌دهد معیارهای موفقیت ویژه دامنه کاری خود را تعریف کنند. سیستم رهگیری Evalite ورودی‌ها، فراخوانی‌های مدل زبانی و وضعیت‌های میانی را ثبت می‌کند تا رفع اشکال و تحلیل ریشه‌ای مشکلات قابل‌اتکاتر شوند. اخیرا اعلام شد که Evalite می‌تواند مدل‌های AI SDK را کش کند؛ قابلیتی که واکنش مثبت کاربران را به‌دنبال داشت و یکی از کاربران آن را یک تغییر بازی برای سرعت و تکرارپذیری توصیف کرد.

واکنش کاربران

واکنش جامعه بسیار مثبت بوده است. مخزن گیت‌هاب پروژه بیش از هزار ستاره گرفته و چرخه انتشار فعالی دارد. اعلام نسخه بتای v1 توسط نویسنده در X نیز به‌سرعت توجه پذیرندگان اولیه را جلب کرد و یکی از کاربران گفت که از فردا آن را در یک پروژه واقعی استفاده خواهد کرد. کاربر دیگری توضیح می‌دهد که چرا به‌نظرش چنین پروژه‌ای وجود دارد:

«ارزیاب‌های زیادی وجود دارند… اما Evalite متفاوت است. این ابزار فقط به‌صورت محلی اجرا می‌شود، روی همان دستگاه شما کار می‌کند و کنترل کامل داده‌ها را در اختیار شما می‌گذارد.»

مشکلات و موانع

از آنجا که پروژه هنوز در حال توسعه است، بروز مشکلات اولیه طبیعی است و برخی نیز شناسایی شده‌اند؛ برای مثال اخیرا مسئله‌ای مربوط به اعلان وابستگی‌ها مطرح شد. این مشکل اکنون برطرف شده و نویسنده اعلام کرده که به‌طور فعال در حال رفع باگ‌های گزارش‌شده توسط کاربران اولیه است.

جمع‌بندی

Evalite متن‌باز و تحت مجوز MIT است و عمدا از وابستگی اجباری به فروشنده (Vendor Lock) جلوگیری می‌کند؛ هم با پشتیبانی از هر مدل زبانی و هم با ارائه سیستم ذخیره‌سازی و امتیازدهنده‌های قابل‌اتصال.

با رشد قابلیت‌های عامل‌محور و مبتنی بر مدل‌های زبانی در سازمان‌ها، هدف Evalite این است که ارزیابی را قابل‌تکرار، ایمن از نظر نوع‌دهی (Type Safe) و به‌ اندازه کافی سریع کند تا بخشی از جریان روزمره توسعه باشد. کاربران اولیه باید انتظار تکرار سریع داشته باشند، اما همین حالا هم این ابزار یک مسیر قدرتمند و مبتنی بر TypeScript برای تست اپلیکیشن‌های مجهز به هوش‌مصنوعی ارائه می‌دهد.

منبع: infoq.com

فرصت‌های شغلی

ایجاد محیطی با ارزش های انسانی، توسعه محصولات مالی کارامد برای میلیون ها کاربر و استفاده از فناوری های به روز از مواردی هستند که در آسا به آن ها می بالیم. اگر هم مسیرمان هستید، رزومه تان را برایمان ارسال کنید.

همکاری با آسا

دریا بهرامی

Evalite: ابزار تست TypeScript برای اپلیکیشن‌های مجهز به هوش مصنوعی

مدل Evalite

نسخه اول

قابلیت‌های Evalite

واکنش کاربران

مشکلات و موانع

جمع‌بندی

دیدگاه‌ها

دیدگاهتان را بنویسید لغو پاسخ

Evalite: ابزار تست TypeScript برای اپلیکیشن‌های مجهز به هوش مصنوعی

مدل Evalite

نسخه اول

قابلیت‌های Evalite

واکنش کاربران

مشکلات و موانع

جمع‌بندی

مطالب مرتبط

دیدگاه‌ها

دیدگاهتان را بنویسید لغو پاسخ