خانه / اخبار تکنولوژی / ابزار LangExtract گوگل، استخراج داده‌های ساخت‌یافته را متحول می‌کند

ابزار LangExtract گوگل، استخراج داده‌های ساخت‌یافته را متحول می‌کند

ابزار LangExtract گوگل، استخراج داده‌های ساخت‌یافته را متحول می‌کند

نویسنده:

انتشار:

به‌روزرسانی:

تعداد نظرات: 0

زمان مطالعه: 2 دقیقه
👀 خبر در یک نگاه:

گوگل کتابخانه متن‌باز LangExtract را معرفی کرد؛ ابزاری پایتونی که با مدل‌های زبان بزرگ مثل Gemini، متن‌های بدون ساختار را به داده‌های ساخت‌یافته تبدیل می‌کند. این کتابخانه ساده، دقیق و قابل‌اطمینان، کاربردی در حوزه‌های مختلف از جمله سلامت و حقوقی دارد.

گوگل LangExtract را معرفی کرده است؛ یک کتابخانه متن‌باز پایتون که برای کمک به توسعه‌دهندگان در استخراج اطلاعات ساخت‌یافته (Structured Information) از متن‌های بدون ساختار طراحی شده و از مدل‌های زبانی بزرگ مثل خانواده Gemini پشتیبانی می‌کند.

LangExtract چطور کار می‌کند؟

این کتابخانه فرایند تبدیل متن Free-Form به داده ساخت‌یافته را ساده می‌کند؛ مانند یادداشت‌های بالینی، متون حقوقی و بازخورد مشتریان. توسعه‌دهندگان می‌توانند با استفاده از دستورهای زبان طبیعی و ارائه نمونه داده، وظایف استخراج را تعریف کنند و به این ترتیب، پردازش و سازمان‌دهی اطلاعات از انواع محتوای بدون ساختار را آسان‌تر سازند.

تولید کنترل‌شده

یکی از قابلیت‌های برجسته LangExtract استفاده از تکنیک‌های «تولید کنترل‌شده» است. این رویکرد تضمین می‌کند که اطلاعات استخراج‌شده به‌صورت یکنواخت قالب‌بندی شده و به‌طور دقیق به منبع اصلی خود در متن پیوند داده شوند.

این کتابخانه بخش‌های مرتبط از متن را هایلایت می‌کند و قابلیت ردیابی فراهم می‌آورد تا هر موجودیت استخراج‌شده دقیقا به محل خود در سند اصلی متصل باشد. این ویژگی شفافیت و قابلیت اطمینان بیشتری را در فرایند استخراج اطلاعات تضمین می‌کند.

بخش‌بندی متن

برای پردازش اسناد طولانی و پیچیده، LangExtract از استراتژی‌های پیشرفته‌ای مانند بخش‌بندی متن (Text Chunking)، پردازش موازی و چندین مرحله استخراج استفاده می‌کند.

این تکنیک‌ها باعث بهبود دقت و جامعیت استخراج شده و تضمین می‌کنند که کتابخانه بتواند اطلاعات را از متون حجیم با کیفیت بالا استخراج کند. به همین دلیل، LangExtract برای کاربردهای متنوعی از حوزه سلامت گرفته تا اسناد حقوقی، بدون نیاز به تنظیمات گسترده روی مدل‌های زیربنایی، مناسب است.

یکپارچه‌سازی با LLMها

LangExtract قابلیت یکپارچه‌سازی با مدل‌های زبانی بزرگ (LLM) مختلف را دارد، از جمله مدل‌های ابری مانند Gemini و مدل‌های محلی از طریق پلتفرم‌هایی مثل Ollama. این انعطاف‌پذیری آن را به ابزاری همه‌کاره برای توسعه‌دهندگانی تبدیل می‌کند که با مدل‌های مختلف کار می‌کنند.

به کمک این ابزار، کاربران می‌توانند وظایف استخراج داده را برای دامنه گسترده‌ای از کاربردها تعریف کنند، بدون اینکه نیاز به تخصص عمیق در یادگیری ماشین داشته باشند.

 

انتشار LangExtract با استقبال پرشور جامعه توسعه‌دهندگان روبه‌رو شده است. اکشای گویل (Akshay Goel)، یکی از مشارکت‌کنندگان اصلی این پروژه، هیجان خود را از این انتشار ابراز کرده و مشتاق است تا شاهد کاربردهای نوآورانه‌ای از سوی کاربران باشد؛ بازتابی از روحیه همکاری و مشارکت که پشت این پروژه قرار دارد:

«خوشحالم که امروز همراه تیم، LangExtract را منتشر می‌کنیم و مشتاقم ببینم جامعه توسعه‌دهندگان با آن چه ابتکاراتی خلق می‌کنند!»

نسخه‌های LangExtract

کایل براون (Kyle Brown)، توسعه‌دهنده، این ابزار را گامی بزرگ به سمت شفافیت در هوش مصنوعی توصیف کرد که متن‌های بدون ساختار را به داده‌های ساخت‌یافته و قابل‌فهم تبدیل می‌کند. همچنین، نسخه TypeScript از LangExtract منتشر شده که سازگاری آن را گسترش داده و از مدل‌های OpenAI و Gemini گوگل پشتیبانی می‌کند، نشان‌دهنده مشارکت فعال جامعه توسعه‌دهندگان است.

 

این کتابخانه تحت مجوز Apache 2.0 عرضه شده و به‌راحتی از طریق pip قابل نصب است. ابزاری قدرتمند و در دسترس برای توسعه‌دهندگانی است که می‌خواهند قابلیت استخراج اطلاعات را به برنامه‌های خود اضافه کنند.

منبع: infoq.com

سوالات متداول

فرصت‌های شغلی

ایجاد محیطی با ارزش های انسانی، توسعه محصولات مالی کارامد برای میلیون ها کاربر و استفاده از فناوری های به روز از مواردی هستند که در آسا به آن ها می بالیم. اگر هم مسیرمان هستید، رزومه تان را برایمان ارسال کنید.

دیدگاه‌ها

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *