خانه / هوش مصنوعی (AI) / چطور یک موتور جستجوی برداری را از صفر بسازیم؟ (آموزش عملی با NumPy)

چطور یک موتور جستجوی برداری را از صفر بسازیم؟ (آموزش عملی با NumPy)

چطور یک موتور جستجوی برداری را از صفر بسازیم؟ (آموزش عملی با NumPy)

نویسنده:

انتشار:

به‌روزرسانی:

تعداد نظرات: 0

زمان مطالعه: 7 دقیقه

«جست‌وجو» یکی از مفاهیم بنیادی در علوم کامپیوتر است؛ از پیدا کردن یک فایل در سیستم شخصی گرفته تا جست‌وجو در گوگل، همه به نوعی از موتورهای جست‌وجو استفاده می‌کنند. در گذشته، این سیستم‌ها بر اساس تطبیق مستقیم کلیدواژه‌ها کار می‌کردند اما با پیچیده‌تر شدن زبان، این روش‌ها محدودیت‌های خود را نشان دادند چون فقط شباهت ظاهری واژه‌ها را می‌فهمیدند، نه معنای پشت آن‌ها. اما در جستجوی برداری، به جای تطبیق دقیق کلمات، مفاهیم و معانی با استفاده از بردارهای عددی در فضای چندبعدی مقایسه می‌شوند تا نتایجی مرتبط‌تر و هوشمندانه‌تر به دست آید.

در این مقاله، با وکتور سرچ آشنا می‌شویم؛ روشی که به جای تطبیق کلمات، معنا را مقایسه می‌کند. قدم‌به‌قدم خواهیم دید که این فرایند چگونه کار می‌کند و چطور می‌توان یک نمونه‌ ساده از آن را در پایتون ساخت؛ از ایجاد بردارهای کلمه گرفته تا محاسبه‌ شباهت و تجسم نتایج در فضا. با ما همراه باشید.

درک مفهوم Vector Search در یک نگاه

مشکل اصلی جست‌وجوی کلیدواژه‌ای این بود که تنها بر پایه‌ تطبیق دقیق واژه‌ها کار می‌کرد. در نتیجه، اگر کاربر عبارتی مانند «automobile repair» را جست‌وجو می‌کرد، سیستمی که در متنش «car maintenance» آمده بود، نادیده گرفته می‌شد؛ چون معنا را نمی‌فهمید.

برای حل این محدودیت، جستجوی برداری (Vector Search) معرفی شد؛ روشی که به‌جای تکیه بر تطبیق ظاهری کلمات، مفاهیم را به‌صورت بردارهای عددی چندبعدی نمایش می‌دهد. در این مدل، هم اسناد و هم پرس‌وجو به بردارهایی در یک فضای معنایی تبدیل می‌شوند و سیستم نزدیک‌ترین بردارها به پرس‌وجو را پیدا می‌کند. نتیجه، جست‌وجویی است که بر پایه‌ی درک معنا و زمینه کار می‌کند، نه صرفا تکرار واژه‌ها.

جستجوی برداری چگونه کار می‌کند؟

جستجوی برداری چگونه کار میکند؟

در هسته‌ اصلی، وکتور سرچ سه مرحله دارد:

  • نمایش برداری (Vector Representation): داده‌ها (مثل متن یا تصویر) به بردارهای عددی تبدیل می‌شوند. این کار معمولا با تکنیک‌هایی مثل word embeddings یا شبکه‌های عصبی انجام می‌شود. هر بردار، داده را در یک فضای چندبعدی نمایش می‌دهد.
  • محاسبه شباهت (Similarity Calculation): سیستم بررسی می‌کند که بردار پرس‌وجو چقدر به سایر بردارهای موجود در دیتاست نزدیک است. این اندازه‌گیری معمولا با معیارهایی مثل شباهت کسینوسی یا فاصله اقلیدسی انجام می‌شود. هرچه بردارها نزدیک‌تر باشند، میزان شباهت بیشتر است.
  • بازیابی (Retrieval): بر اساس نمره‌های شباهت، k نتیجه‌ برتر که بیشترین ارتباط را دارند بازگردانده می‌شوند.

برای مثال، اگر به دنبال اسنادی درباره‌ی «یادگیری ماشین» باشید، ابتدا عبارت «machine learning» به یک بردار تبدیل می‌شود و سیستم اسنادی را پیدا می‌کند که بردارهایشان به این پرس‌وجو نزدیک‌تر است، حتی اگر در متن آن‌ها عباراتی مثل «هوش مصنوعی» یا «یادگیری عمیق» آمده باشد.

حالا بیایید یک سیستم جستجوی برداری ساده را از صفر با پایتون بسازیم. ما از یک دیتاست کوچک شامل چند جمله استفاده می‌کنیم، آن‌ها را به بردار تبدیل می‌کنیم (با استفاده از میانگین بردارهای کلمات برای ساده‌سازی)، سپس یک تابع جستجو پیاده‌سازی می‌کنیم. در نهایت، با تجسم (Visualization) نشان می‌دهیم که این بردارها در فضا چطور خوشه‌بندی می‌شوند.

مرحله ۱: راه‌اندازی محیط

برای ساده نگه داشتن کار، از NumPy برای عملیات برداری و از Matplotlib برای تجسم داده‌ها استفاده می‌کنیم. عمدا از کتابخانه‌هایی مثل FAISS یا spaCy صرف‌نظر می‌کنیم تا تمرکز روی پیاده‌سازی «از صفر» باقی بماند.

برای نمایش برداری کلمات هم به‌جای مدل‌های واقعی، از یک دیکشنری کوچک و از پیش تعریف‌شده استفاده می‌کنیم تا فرایند شبیه‌سازی شود. البته در عمل، شما معمولا از مدل‌هایی مثل Word2Vec، GloVe یا BERT استفاده خواهید کرد.

حالا بیایید بسته‌های لازم را (در صورت نیاز) نصب کنیم و ایمپورت‌ها را تنظیم کنیم:

ما از NumPy برای محاسبات برداری، Matplotlib برای رسم نمودارها و پایتون ساده برای پردازش متن استفاده می‌کنیم. همچنین ماژول re به ما کمک می‌کند تا متن را توکنایز (شکستن جملات به کلمات) کنیم.

مرحله ۲: ساخت دیتاست نمونه و امبدینگ‌های کلمه

در این مرحله، با یک دیتاست کوچک از جمله‌هایی درباره‌ فناوری کار می‌کنیم. برای نمایش کلمات به‌صورت بردار، یک دیکشنری ساده از word embedding‌ها می‌سازیم که در آن هر کلمه به یک بردار دوبعدی نگاشت می‌شود (تا بتوان آن را به‌سادگی تصویرسازی کرد).

بردارها به‌صورت دلخواه تعریف می‌شوند اما طوری طراحی شده‌اند که کلمات مرتبط در فضا به‌هم نزدیک باشند (مثلا «machine» و «neural» در نزدیکی هم قرار می‌گیرند).

در کاربردهای واقعی معمولا از مدل‌های ازپیش‌ آموزش‌دیده برای embedding استفاده می‌شود اما در این آموزش هدف ما این است که پیاده‌سازی ساده و مستقل از منابع بیرونی باشد.

مرحله ۳: تبدیل جمله‌ها به بردار

برای جست‌وجو در میان متون، باید هر جمله را به یک بردار واحد تبدیل کنیم.

یک روش ساده برای این کار، میانگین‌گیری از بردارهای کلمات موجود در جمله است (بعد از توکن‌سازی و حذف کلمات توقف یا stopwords). این کار باعث می‌شود مفهوم کلی یا «میانگین معنایی» جمله در قالب یک بردار نمایش داده شود.

اگر کلمه‌ای در دیکشنری word_embeddings وجود نداشته باشد، از بردار صفر برای آن استفاده می‌کنیم؛ هرچند در پروژه‌های واقعی معمولا برای کلمات ناشناخته روش‌های دقیق‌تری به‌کار می‌رود.

مرحله ۴: پیاده‌سازی شباهت کسینوسی (Cosine Similarity)

شباهت کسینوسی یکی از متداول‌ترین معیارها برای جستجوی برداری است، چون زاویه‌ بین دو بردار را اندازه‌گیری می‌کند و بزرگی (magnitude) آن‌ها را نادیده می‌گیرد. به همین دلیل، گزینه‌ای عالی برای مقایسه‌ شباهت معنایی در embeddingهای متنی محسوب می‌شود.

فرمول آن به این شکل است: حاصل‌ضرب نقطه‌ای (dot product) دو بردار تقسیم بر حاصل‌ضرب اندازه‌ی آن‌ها (norms).

اگر یکی از بردارها صفر باشد (مثلا جمله هیچ کلمه‌ معتبری نداشته باشد)، مقدار خروجی را صفر در نظر می‌گیریم تا از تقسیم بر صفر جلوگیری شود.

این تابع در نهایت برای مقایسه‌ بردار عبارت جست‌وجو با بردارهای جملات (یا اسناد) استفاده می‌شود.

گام ۵: ساخت تابع جست‌وجوی برداری

حالا هسته‌ جست‌وجو را می‌سازیم: تابعی که یک query دریافت می‌کند، آن را به بردار تبدیل می‌کند، شباهت کسینوسی را با هر بردار سند محاسبه می‌کند و در نهایت top-k سند برتر را همراه با امتیاز شباهت برمی‌گرداند. برای رتبه‌بندی از np.argsort استفاده می‌کنیم و نتایج با امتیاز صفر را (برای پرس‌وجوهای بی‌اعتبار) کنار می‌گذاریم.

همان‌طور که می‌بینید، این تابع به‌خوبی مرتبط‌ترین جملات از نظر معنایی را نسبت به پرس‌وجو بازیابی می‌کند.

با اینکه هیچ‌کدام از آن‌ها عبارت دقیق «machine learning technology» را در خود ندارند اما از نظر مفهومی بسیار نزدیک‌اند و این دقیقا همان قدرت جست‌وجوی مبتنی بر بردار است.

مرحله ۶: بصری‌سازی بردارها

برای درک بهترشوه‌ی کار وکتور سرچ، بردارهای اسناد و بردار پرس‌وجو را در فضای دوبعدی ترسیم می‌کنیم. این کار نشان می‌دهد آیتم‌های معناییِ مشابه چگونه در کنار هم خوشه‌بندی می‌شوند و فاصله‌ زاویه‌ای‌شان (مبنای شباهت کسینوسی) چه الگوی بصری‌ای ایجاد می‌کند.

1

نقاط آبی نشان‌دهنده‌ بردارهای اسناد هستند و ستاره‌ قرمز، بردار پرس‌وجو را نمایش می‌دهد. برچسب‌ها (annotationها) شامل ۲۰ نویسه‌ اول هر جمله و پرس‌وجو هستند.

همان‌طور که مشاهده می‌کنید، اسنادی که به بردار پرس‌وجو نزدیک‌ترند، از نظر معنایی نیز شباهت بیشتری دارند و این به‌صورت بصری تایید می‌کند که جست‌وجوی برداری چگونه عمل می‌کند.

چرا این موضوع برای RAG اهمیت دارد

در معماری RAG، جست‌وجوی برداری ستون فقرات مرحله‌ی بازیابی (Retrieval) است. با تبدیل اسناد و پرس‌وجوها به بردار، RAG می‌تواند اطلاعات مرتبط از نظر زمینه و مفهوم را حتی در پرس‌وجوهای پیچیده پیدا کند.

پیاده‌سازی ساده‌ای که در این آموزش دیدیم، همین فرایند را شبیه‌سازی می‌کند: بردار پرس‌وجو، اسنادی را بازیابی می‌کند که از نظر معنایی به آن نزدیک‌تر هستند و سپس مدل زبانی می‌تواند از این اسناد برای تولید پاسخ استفاده کند.در کاربردهای واقعی، این فرایند با embeddingهای پُربعدتر و الگوریتم‌های جست‌وجوی بهینه‌تر (مثل HNSW یا IVF) مقیاس‌پذیر می‌شود اما ایده‌ اصلی همان است.

جمع‌بندی

در این آموزش، جست‌وجوی برداری را از صفر با پایتون پیاده‌سازی کردیم. می‌توانید این پیاده‌سازی را گسترش دهید؛ مثلا با استفاده از embeddingهای واقعی (مانند مدل‌های موجود در کتابخانه‌ Transformers از Hugging Face) یا با به‌کارگیری روش‌های جست‌وجوی تقریبی نزدیک‌ترین همسایه‌ها (Approximate Nearest Neighbor).

پیشنهاد می‌کنیم با پرس‌وجوها یا دیتاست‌های مختلف آزمایش کنید تا درک عمیق‌تری ازشوه‌ی کار جست‌وجوی برداری و نقش آن در سیستم‌های هوشمند امروزی به دست آورید.

 

منابع

machinelearningmastery.com

سوالات متداول

در جست‌وجوی کلیدواژه‌ای، سیستم فقط به‌دنبال تطابق دقیق واژه‌ها می‌گردد، در حالی‌که جست‌وجوی برداری بر پایه‌ معناست. در روش برداری، پرس‌وجو و اسناد به بردارهایی در فضای عددی تبدیل می‌شوند و سیستم مواردی را پیدا می‌کند که از نظر معنایی نزدیک‌ترند، حتی اگر از کلمات متفاوتی استفاده شده باشد.

در معماری RAG، هدف این است که مدل زبانی بتواند پاسخ‌هایی بر پایه‌ داده‌های مرتبط و واقعی تولید کند. جست‌وجوی برداری به RAG کمک می‌کند تا اسنادی را بازیابی کند که از نظر مفهومی به پرس‌وجو نزدیک‌اند، نه فقط از نظر ظاهری و همین دقت پاسخ‌ها را به‌طور چشمگیری افزایش می‌دهد.

بله، همان‌طور که در این مقاله دیدیم، می‌توان منطق پایه‌ جست‌وجوی برداری را با چند خط کد پایتون و استفاده از NumPy پیاده‌سازی کرد. البته برای مقیاس‌های بزرگ یا داده‌های واقعی، باید از embeddingهای چندبعدی‌تر و کتابخانه‌هایی مثل FAISS، Annoy یا HNSWlib استفاده کرد تا کارایی و سرعت افزایش پیدا کند.

فرصت‌های شغلی

ایجاد محیطی با ارزش های انسانی، توسعه محصولات مالی کارامد برای میلیون ها کاربر و استفاده از فناوری های به روز از مواردی هستند که در آسا به آن ها می بالیم. اگر هم مسیرمان هستید، رزومه تان را برایمان ارسال کنید.

دیدگاه‌ها

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *