تغییرات اخیر

در اینجا اطلاعیه‌ها، نسخه‌ها و تغییرات جدید لیارا فهرست می‌شوند.

معماری‌های RAG بدون استفاده از امبدینگ و پایگاه‌های داده برداری


۱۲ آبان ۱۴۰۴

تولید تقویت شده با بازیابی (RAG) روش اصلی برای ارائه اطلاعات به مدل‌های زبانی بزرگ است. در معماری سنتی، اسناد به بخش‌های کوچک تقسیم و به بردارهای عددی تبدیل می‌شوند و در پایگاه داده برداری ذخیره می‌شوند. مدل‌ها با جست‌وجوی نزدیک‌ترین بردارها، بخش‌های مرتب را بازیابی و برای تولید پاسخ استفاده می‌کنند. این روش معنای متن را درک می‌کند اما هزینه و پیچیدگی بالایی دارد.

به همین دلیل، معماری‌های RAG بدون امبدینگ در حال ظهور هستند. رویکردهایی مانند جست‌وجوی مبتنی بر کلیدواژه، گراف دانش و روش‌های هدایت‌شده با مدل‌های زبانی، محدودیت‌های معماری سنتی را برطرف می‌کنند و می‌توانند سریع‌تر، کم‌هزینه‌تر و قابل تفسیرتر باشند. این مقاله به برسی RAG بدون امبدینگ و مقایسه آن با معماری‌های برداری می‌پردازد.

در ادامه خواهید خواند:

  • RAG سنتی و پایگاه‌های داده برداری
  • محدودیت‌های امبدینگ‌ها و جستجوی برداری
  • RAG بدون امبدینگ چیست؟
  • بازیابی مبتنی بر پرامپت (RAG بدون امبدینگ با پرامپت)
  • مزایای RAG بدون امبدینگ
  • موارد کاربرد و مقایسه‌ها
  • آینده معماری‌های RAG
  • سوالات متداول
  • جمع بندی
RAG بدون استفاده از امبدینگ و پایگاه‌های داده برداری

RAG سنتی و پایگاه‌های داده برداری

در معماری سنتی RAG، سیستم ترکیبی امبدینگ + جست‌وجوی برداری بخش مرکزی فرآیند «بازیابی» را تشکیل می‌دهد. در مرحله آفلاین ایندکس‌گذاری، اسناد منبع به بخش‌های کوچک تقسیم می‌شوند و هر بخش با استفاده از مدل امبدینگ به یک بردار تبدیل می‌شود تا نمایه‌ای برای ایندکس ایجاد شود. هر یک از این بردارها سپس در یک پایگاه داده برداری ذخیره می‌شوند که برای جست‌وجوی سریع نزدیک‌ترین بردارها بهینه شده است.

در مرحله آنلاین و هنگام دریافت یک پرسش، پرسش ورودی نیز به همان فضای برداری منتقل می‌شود و سیستم از پایگاه داده برداری برای بازیابی k بردار نزدیک‌ترین بخش‌ها استفاده می‌کند. بخش‌های متنی بازیابی شده (بردارهایی که بیشترین شباهت معنایی به پرسش دارند) به‌عنوان زمینه همراه با پرسش به مدل زبانی بزرگ (LLM) ارائه می‌شوند تا در تولید پاسخ کمک کنند.

مزیت اصلی این خط لوله این است که امبدینگ‌ها شباهت معنایی متن‌ها را درک می‌کنند. این روش قادر است یک پرسش را به بخش‌هایی از متن با واژگان متفاوت بیان شده‌اند اما معنا مشابهی دارند، وصل کند. همچنین، پایگاه‌های داده برداری امکان جست‌وجوی شباهت در فضای با ابعاد بالا را فراهم می‌کنند و زمان بازیابی را حتی وقتی حجم اسناد به میلیون‌ها بخش می‌رسند، قابل مدیریت می‌کنند.

با سرویس هوش مصنوعی لیارا، مدل‌های AI خودت رو بدون دغدغه اجرا و مدیریت کن.
✅ پشتیبانی از GPU ✅ مناسب مدل‌های متن‌باز ✅ اجرای سریع و پایدار
خرید و راه‌اندازی سرویس هوش مصنوعی

محدودیت‌های امبدینگ‌ها و جستجوی برداری

با وجود محبوبیت بالا، رویکرد RAG مبتنی بر بردار دارای محدودیت‌های قابل توجهی است. بیایید برخی از آن‌ها را بررسی کنیم.

فاصله‌های معنایی

فاصله‌های معنایی در امبدینگ‌ها و جست‌وجوی برداری رایج هستند. دلیل آن این است که شباهت برداری فشرده ممکن است صرفا به ارتباط موضوعی اشاره کند، نه لزوما به مرتبط بودن با پاسخ واقعی. این روش‌ها می‌توانند بخش‌هایی از متن را بازگردانند که از نظر معنایی مشابه‌اند اما پاسخ‌ پرسش را ندارند، زمانی که دقت پاسخ (اعداد، تاریخ‌ها یا نفی‌ها) اهمیت داشته باشد. همچنین امبدینگ‌ها ممکن است با اصطلاحات تخصصی، موجودیت‌های نادر یا پرسش‌های چندمرحله‌ای از چند سند را به هم وصل می‌کنند، مشکل داشته باشند.

دقت بازیابی

مسائل فوق می‌توانند باعث کاهش دقت بازیابی در کاربردهای واقعی RAG شوند. وقتی مدل امبدینگ متواند رابطه بین پرسش و پاسخ را درک کند، بالاترین بردارهای مشابه ممکن است پاسخ را شامل نشوند. برخی گزارش‌ها نشان می‌دهند که خط لوله‌های RAG حتی از بهینه‌سازی «تقسیم‌بندی + امبدینگ + پایگاه داده برداری»، دقت بازیابی بخش‌های صحیح معمولا کمتر از 60% است. در نتیجه، سیستم‌های RAG ممکن است پاسخ‌های ناقص یا نادرست ارائه دهند، زیرا زمینه بازیابی شده نامرتبط است.

کمبود شفافیت و کنترل

با استفاده از امبدینگ‌های برداری، تشخیص دلیل عدم بازیابی پاسخ یا انتخاب بخش اشتباه دشوار است، زیرا نمی‌توان به‌راحتی گفت بردارها «چه فکر می‌کنند». فرآیند بازیابی مانند یک جعبه سیاه است و تغییر رفتار بازیابی (مثلا تاکید روی کلیدواژه‌ها یا فیلدهای خاص) در امبدینگ‌های صرفا یادگرفته‌شده چالش برانگیز است.

پیچیدگی زیرساخت و هزینه‌ها

هزینه‌های آفلاین شامل زمان و محاسبات لازم برای تولید امبدینگ هزاران سند است(اغلب از GPU استفاده می‌شود) و هزینه‌های آنلاین شامل اجرای سرویس پایگاه داده برداری است که مصرف حافظه بالایی دارد. برای تیم‌هایی بدون زیرساخت تخصصی، این هزینه‌ها بسیار بالا خواهد بود. علاوه بر است، نگهداری ایندکس و تولید مجدد امبدینگ‌ها هنگام به‌روزرسانی داده‌ها نیز هزینه‌بر است.

معماری‌های سنتی RAG مبتنی بر پایگاه داده برداری مسیر طولانی‌ای برای تقویت جست‌وجوی معنایی مدل‌های زبانی طی کرده‌اند، اما همین محدودیت‌ها محققان را به بررسی جایگزین‌های جدید برای بازیابی اطلاعات بدون استفاده از بردارها ترغیب کرده است.

مقایسه Agentic RAG و RAG؛ کدام برای پروژه‌های AI بهتر است؟
مقایسه Agentic RAG و RAG

RAG بدون امبدینگ چیست؟

RAG بدون امبدینگ به معماری‌هایی گفته می‌شود که برای بازیابی اطلاعات مرتبط از بردارهای امبدینگ استفاده نمی‌کنند. در این سیستم‌ها دیگر مرحله مرسوم «امبدینگ پرسش و اسناد و جست‌وجوی نزدیک‌ترین بردار» انجام نمی‌شود و روش‌های جایگزین برای بازیابی متن به کار گرفته می‌شوند.

1. بازیابی بر اساس کلیدواژه و واژگان

یکی از ساده‌‌ترین و رایج‌ترین روش‌های RAG بدون امبدینگ، جست‌وجوی کلیدواژه‌ای است. به جای مقایسه بردارهای پیوسته، سیستم به دنبال واژگان یا توکن‌های مشترک بین پرسش‌ و اسناد می‌گردد (با الگوریتم‌هایی مانند BM25).این روش ساده اما قدرتمند، در بسیاری از موارد عملکردی مشابه یا حتی نزدیک به امبدینگ‌های پیشرفته دارد، بدون نیاز به سربار نگهداری پایگاه داده برداری یا محاسبه بردارها.

با کمک این روش می‌توان یک پرسش بهینه تولید کرد (حتی با کمک LLM برای استخراج واژگان مهم) و آن را روی موتور جست‌وجوی تمام متن مانند Elasticsearch یا SQL full-text اجرا کرد. سپس مدل زبانی بزرگ می‌تواند روی متن‌های بازیابی شده کار کند و پاسخ دقیق‌تر و مرتبط‌ترین ارائه دهد.

2. جست‌وجوی تکراری مبتنی بر LLM (استدلال به‌عنوان بازیابی)

روش دیگر استفاده مستقیم از توانایی استدلال و تحلیل مدل زبانی بزرگ برای بازیابی است. به جای رتبه‌بندی بردارها، مدل تصمیم می‌گیرد کدام بخش از متن بیشترین احتمال پاسخ‌دهی را دارد. برای مثال، یک عامل LLM می‌تواند فهرستی از عناوین یا خلاصه اسناد را دریافت کند و تشخیص دهد کدام سند احتمالا پاسخ را دارد و سپس آن را بازیابی کند.

چارچوب‌هایی مانند ELITE به مدل اجازه می‌دهند به‌صورت تکراری و مرحله‌به‌مرحله روی متن متمرکز شود، بخش‌های مهم را تشخیص دهد و بهترین پاسخ را استخراج کند.

3. بازیابی ساختاریافته و مبتنی بر گراف دانش

یک روش پیشرفته‌تر، استفاده از گراف دانش است. در این روش، موجودیت‌ها (افزاد، مکان‌ها، مفاهیم) به‌عنوان گره‌ها و روابط بین آن‌ها به‌عنوان یال‌ها مدل می‌شوند. هنگام پرسش کاربر، سیستم گره‌های مرتبط را پیدا می‌کند و مسیرهای ارتباطی بین‌ آن‌ها را دنبال می‌کند تا مجموعه‌ای از اطلاعات مرتبط جمع‌آوری شود و سپس به مدل زبانی داده شود.

نمونه‌ای از این روش GraphRAG است توسط مایکروسافت ارائه شده است. در GraphRAG، به‌ جای بازگرداندن صرفا بخش‌هایی که شبیه پرسش‌ هستند، زیرگرافی از موجودیت‌ها و روابط مرتبط ارائه می‌شود. این کار مدل را قادر می‌سازد تا حقایق را به‌صورت ساختار یافته و قابل استدلال درک کند، مخصوصا برای پرسش‌های پیچیده که نیاز به تحلیل چندمرحله‌ای یا ارتباط میان داده‌ها دارند.

چطور RAG و گراف‌های دانش جلوی توهمات هوش مصنوعی را می‌گیرند؟
 توهمات هوش مصنوعی

بازیابی مبتنی بر پرامپت (RAG بدون امبدینگ با پرامپت)

یکی از رویکردهای تحقیقاتی جدید، بررسی امکان استفاده از توانایی پرامپت‌دهی مدل‌های زبانی بزرگ (LLM) برای بازیابی متن بدون نیاز به بردارهای امبدینگ است. در این روش، به جای ایجاد ایندکس برداری، یک فهرست ساختاریافته از اسناد تهیه می‌شود.

مدل زبانی بزرگ با پرامپت‌دهی هدایت می‌شود تا بخش‌های مرتبط با پرسش کاربر را شناسایی کند. سپس محتویات موجود در این بخش‌ها به‌عنوان زمینه (context) برای مدل ارائه می‌شود تا پاسخ دقیق تولید می‌شود. این فرآیند نیازی به بردارهای امبدینگ ندارد و تمامی تصمیم‌های بازیابی بر اساس تحلیل مستقیم و ساختار سند توسط LLM صورت می‌گیرد.

نتایج این روش نشان داده است در حوزه‌های تخصصی، Prompt-RAG حتی بهتر از RAG مبتنی بر امبدینگ عمل می‌کند. این موضوع نشان می‌دهد که بازیابی هدایت‌شده با پرامپت می‌تواند جایگزین مناسبی برای امبدینگ‌ها باشد، در مواقعی که امبدینگ‌ها قادر به درک دقیق معنای تخصصی نیستند. به‌صورت کلی، RAG بدون امبدینگ مرحله جست‌وجوی برداری را با روش‌های کلاسیک بازیابی اطلاعات یا منطق مبتنی بر LLM جایگزین می‌کند؛ رویکردی که به نوعی بازگشتی به استفاده از متن و نمادها برای بازیابی اطلاعات، اما با قدرت استدلال بالای مدل‌های زبانی بزرگ است.

مزایای RAG بدون امبدینگ

چرا باید به استفاده از RAG بدون امبدینگ فکر کنیم؟ این روش‌ها مزایای قابل توجهی دارند و می‌توانند بسیاری از محدودیت‌های روش‌های مبتنی بر بردار را برطرف کنند:

مزیتتوضیح
افزایش دقت بازیابیاز آنجا که این روش‌ها تنها به شباهت برداری وابسته نیستند، می‌توانند اطلاعاتی را بازیابی کنند که ممکن است با امبدینگ‌ها از دست برود. این کار می‌تواند از طریق مطابقت دقیق کلمات کلیدی یا استدلال مدل زبانی بزرگ (LLM) انجام شود تا پاسخ‌هایی که با عبارت متفاوتی بیان شده‌اند نیز پیدا شوند.
کاهش تاخیر و هزینه‌های ایندکسینگدیگر نیازی به محاسبه یا ذخیره ایندکس‌های برداری حجیم و انجام جست‌وجوی پیچیده در فضای برداری نیست. این موضوع باعث بازیابی سریع‌تر و ساده‌تر می‌شود.
کاهش فضای ذخیره‌سازی و هزینه‌هابا حذف یا کاهش استفاده از پایگاه‌های داده برداری، مصرف حافظه و هزینه‌های زیرساخت کاهش می‌یابد و امکان استفاده از مدل‌های پرداخت به ازای مصرف (pay-per-use) فراهم می‌شود.
تفسیرپذیری و انعطاف‌پذیری بیشترروش‌هایی مانند مطابقت کلمات کلیدی، پیمایش گراف دانش یا انتخاب‌های عامل (agent) شفاف‌تر و قابل تنظیم‌تر از شباهت‌های برداری غیرشفاف هستند.
تخصص در حوزه‌های خاصدر شرایطی که داده‌ها محدود هستند یا حوزه تخصصی است، این روش‌ها می‌توانند با استفاده از ساختار سند (TOC)، آنتولوژی‌ها یا گراف دانش عملکرد بهتری نسبت به امبدینگ‌ها ارائه دهند.

شایان ذکر است که این مزایا بدون هزینه نیستند. رویکردهای جایگزین ممکن است چالش‌هایی مانند هزینه‌ محاسباتی اجرای چندین درخواست LLM یا پیچیدگی مهندسی گراف دانش داشته باشند. با این حال، حذف و وابستگی به پایگاه داده برداری می‌تواند بسیاری از مشکلات سیستم‌های RAG فعلی را کاهش دهد و راهکار ساده‌تر و قابل اعتمادتری ارائه کند.

RAG یا Fine-tuning؟ انتخاب مناسب برای مدل‌ های هوش مصنوعی
RAG یا Fine-tuning

کاربردها و مقایسه‌ها

چه زمانی می‌توان از معماری RAG بدون امبدینگ به جای روش کلاسیک پایگاه داده برداری استفاده کرد؟ پاسخ به این سوال به نوع کار، داده‌ها، محدودیت‌ها و شرایط شما بستگی دارد. در این برخی سناریوها و مقایسه هر روش آورده شده است:

سناریومشکل روش فقط برداریچرا روش بدون امبدینگ کمک می‌کندراهکار پیشنهادی
سؤالات پیچیده چندمرحله‌ای مثلا “ارتباط بین X و Y چیست؟”سیستم بخش‌های X و Y را جدا پیدا می‌کند، اما نمی‌داند باید این‌ها را به هم وصل کند؛ ممکن است پاسخ اشتباه تولید شود.گراف‌ها مسیر دقیق بین اطلاعات را نشان می‌دهند و مدل می‌تواند به صورت منطقی پاسخ دهد.استفاده از GraphRAG یا عامل بازیابی‌کننده برای برنامه‌ریزی جست‌وجوی چندمرحله‌ای
نیاز به دقت بالا و رعایت قوانین(حقوقی، مالی، پزشکی)حتی اشتباه کوچک معنایی قابل قبول نیست؛ ممکن است اطلاعات مهم به دلیل تفاوت در بیان از دست برود.جست‌وجوی دقیق با کلمات کلیدی یا گراف‌های تخصصی امکان پیدا کردن پاسخ درست و ردیابی علت بازیابی را می‌دهد.فیلتر کلمات کلیدی/BM25: رتبه‌بندی مجدد توسط LLM؛ یا استفاده از گراف‌های حوزه‌ای
حوزه‌های تخصصی یا داده کم بیومدیکال، حقوقی، فنیامبدینگ‌های عمومی با اصطلاحات تخصصی مشکل دارند و ممکن است بخش‌های مهم را از دست بدهند.استفاده از ساختار سند (سرفصل‌ها)، آنتولوژی و گراف‌های تخصصی به مدل کمک می‌کند بخش‌های مهم را پیدا کند.بازیابی با پرامپت، پرس‌وجو گراف/آنتولوژی، یا رتبه‌بندی مجدد توسط LLM
حجم پایین پرس‌وجو، مجموعه داده عظیم آرشیوها، مخازن پژوهشینگهداری ایندکس برداری بزرگ پرهزینه است و به‌روزرسانی آن زمان‌بر است.بازیابی آنی و عامل‌محور هزینه زیرساخت را کاهش می‌دهد و فقط هنگام نیاز اجرا می‌شود.بازیابی عامل‌محور از کاتالوگ/متادیتا + مطالعه هدفمند؛ استفاده اختیاری از ایندکس کوچک لغوی

نکته: بسیاری از تیم‌ها از روش هیبریدی استفاده می‌کنند: ابتدا فیلتر لغوی سریع، سپس جست‌وجوی برداری، و در نهایت رتبه‌بندی توسط LLM؛ برای پرس‌وجوهای پیچیده، چندمرحله‌ای یا حوزه‌های حساس، به گراف یا بازیابی عامل باز می‌گردند.

آینده معماری‌های RAG

روند / Trendنکات کلیدی / Key Insightsکجا عملکرد خوبی دارد و کجا برداری بهتر است
خط لوله هیبریدی و تطبیقی(Hybrid & Adaptive Pipelines)سیستم‌های آینده فقط یک روش را انتخاب نمی‌کنند. ترکیبی از روش‌ها استفاده می‌کنند: ابتدا جست‌وجوی سریع برداری برای پرس‌وجوهای معمول، سپس در صورت نیاز به استدلال، استفاده از گراف یا عامل بازیابی.روش بدون امبدینگ برای پرس‌وجوهای چندمرحله‌ای یا نیازمند استدلال عالی است. برداری برای یافتن شباهت معنایی سریع در داده‌های حجیم مناسب است.
RAG مبتنی بر گراف دانش(Knowledge Graph RAG)پروژه‌هایی مانند GraphRAG و Neo4j متنی بدون ساختار را به گراف تبدیل می‌کنند. گراف‌ها می‌توانند با امبدینگ ترکیب شوند یا مستقل عمل کنند.روش بدون امبدینگ در حوزه‌های ساختاریافته و رابطه‌ای (بیومدیکال، امنیت، مالی) عملکرد خوبی دارد. برداری برای پوشش گسترده وقتی ساختار مشخصی وجود ندارد مناسب است.
پنجره‌های متن بزرگتر(Larger Context Windows)مدل‌های بزرگ با توانایی پردازش 100k+ توکن، امکان بارگذاری کل اسناد بدون شکستن آن‌ها را فراهم می‌کنند. روش‌های خواندن تکراری (مثل ELITE) قدرتمندتر می‌شوند.روش بدون امبدینگ وقتی مدل‌ها بتوانند مستقیماً در متن طولانی «خوانده و استدلال کنند» خوب عمل می‌کند. برداری همچنان برای کاهش هزینه و تمرکز روی بخش‌های مهم مفید است.
ارزیابی و بنچمارک‌ها(Evaluations & Benchmarks)بنچمارک‌های کنار هم بیشتر شده‌اند: ELITE، Prompt-RAG، RAPTOR نشان‌دهنده بهبود کارایی هستند. وظایف: پاسخ به پرسش‌های بلند، چندمرحله‌ای، تخصصی. توضیح‌پذیری (مسیرهای گراف، ارجاعات) اعتماد کاربر را افزایش می‌دهد.روش بدون امبدینگ وقتی شفافیت و کارایی اهمیت دارد مناسب است. برداری برای سرعت و پوشش کامل داده‌های بسیار بزرگ مناسب است.

سوالات متداول

RAG چیست؟

RAG مخفف Retrieval-Augmented Generation است و به روشی گفته می‌شود که مدل‌های زبانی بزرگ (LLM) با استفاده از منابع خارجی، اطلاعات دقیق‌تر و واقعی‌تر تولید می‌کنند.

امبدینگ چیست؟

امبدینگ (Embedding) نمایشی عددی و برداری از متن است که شباهت معنایی بین جملات یا اسناد را به مدل نشان می‌دهد.

چرا از RAG بدون امبدینگ استفاده می‌کنیم؟

برای کاهش هزینه، ساده‌تر کردن زیرساخت و افزایش دقت در پرسش‌های چندمرحله‌ای یا حوزه‌های تخصصی.

روش‌های بدون امبدینگ شامل چه چیزهایی هستند؟

جست‌وجوی کلمات کلیدی، گراف دانش، استفاده از LLM برای استدلال و انتخاب بخش‌های مرتبط از متن (Prompt-RAG).

مزیت اصلی RAG بدون امبدینگ چیست؟

بهبود دقت بازیابی اطلاعات، کاهش هزینه و فضای ذخیره، و قابل تفسیرتر بودن نسبت به روش‌های برداری.

مقایسه RAG، عامل های هوش مصنوعی و Agentic RAG؛ بهترین انتخاب برای پروژه‌های AI
مقایسه RAG

جمع بندی

RAG بدون امبدینگ به‌عنوان جایگزینی جدی برای روش‌های برداری مطرح شده است. بردارها در مقیاس بزرگ برای جست‌وجوی معنایی سریع مناسب‌اند، اما در حوزه‌های خاص و پرسش‌های پیچیده دقت و شافیت کافی ندارند. در مقابل، بسیاری از موارد دقیق‌تر عمل می‌کنند. ترکیب این دو رویکرد در قالب سیستم‌های هیربدی می‌تواند بهترین نتیجه را با دقت بالا، هزینه کمتر و اعتماد بیشتر به همراه داشته باشد.