تغییرات اخیر

در اینجا اطلاعیه‌ها، نسخه‌ها و تغییرات جدید لیارا فهرست می‌شوند.

چطور RAG و گراف‌های دانش جلوی توهمات هوش مصنوعی را می‌گیرند؟


۷ شهریور ۱۴۰۴

هوش مصنوعی با خودکار سازی وظایف، تحلیل داده‌های بزرگ و کمک به ارتباطات زبان طبیعی، صنعت را دگرگون کرده است. با این حال، با وجود پیشرفت روزافزون سیستم‌های هوش‌ مصنوعی، پدیده توهمات هوش مصنوعی (AI Hallucination) همچنان یک چالش پایدار به شمار می‌رود.

این موضوع در حوزه‌هایی که نیاز به اطمینان بالا دارند مانند بهداشت و درمان، حقوق و بانکداری اهمیت زیادی دارد. ترکیب RAG و گراف‌های دانش راهکاری امیدوارکننده برای کاهش این توهمات است، چرا که سیستم‌های هوش مصنوعی را بر اساس اطلاعات ساختاریافته و قابل تایید قرار می‌دهد.

این مقاله به بررسی توهمات هوش مصنوعی، مزایا و چالش‌های سیستم‌های RAG و همچنین امکان ادغام آن‌ها با گراف‌های دانش برای کاهش توهمات می‌پردازد.

در ادامه خواهید خواند:

  • پیش نیاز
  • توهمات هوش مصنوعی چیست؟
  • دلایل بروز توهمات در هوش مصنوعی
  • تولید تقویت‌شده با بازیابی (Retrieval-Augmented Generation – RAG)
  • مزایای RAG
  • چالش‌های RAG
  • گراف‌های دانش به‌عنوان یک راهکار
  • یکپارچه‌سازی گراف‌های دانش
  • کاربرد گراف‌های دانش موجود
  • ایجاد گراف دانش اختصاصی
  • جمع بندی
توهمات هوش مصنوعی

پیش نیاز

برای دنبال کردن این مقاله، بهتر است دانش پایه‌ای درباره هوش مصنوعی و مدل‌های مولد (Generative Models) داشته باشید. همچنین آشنایی با فرآیند‌های RAG و گراف‌های دانش لازم است.

داشتن درک ابتدایی از پایگاه‌های داده گرافی مانند Neo4j نیز مفید خواهد بود. علاوه بر این، آشنایی با چالش‌های خاص صنعت، در حوزه‌هایی مانند بهداشت و درمان و مالی، به درک بهتر این مطالب کمک می‌کند.

توانایی تصویرسازی داده‌ها با استفاده از ابزارهایی مانند NetworkX برای نمایش گراف‌های دانش نیز توصیه می‌شود تا بتوانید روابط و ساختار اطلاعات را بهتر درک کنید.

توهمات هوش مصنوعی چیست؟

توهمات هوش مصنوعی به پدیده‌ای گفته می‌شود که در آن مدل‌های هوش مصنوعی پاسخ‌هایی تولید می‌کنند که نادرست، غیرمنطقی یا ساخته‌شده هستند. این خروجی‌ها ممکن است در نگاه اول منطقی و قابل قبول به نظر برسند، اما در واقع با واقعیت همخوانی ندارند.

به عبارت ساده‌تر، گاهی AI چیزی می‌گوید که شبیه حقیقت یا منطقی به نظر می‌رسد، ولی درواقع ساختگی یا اشتباه است. این پدیده می‌تواند باعث گمراهی کاربر و تصمیم‌گیری اشتباه شود، در حوزه‌هایی که صحت اطلاعات حیاتی است، مانند پزشکی، حقوق یا امور مالی.

برای مثال، اگر از یک AI بپرسید «برج ایفل در کدام شهر است؟» و پاسخ دهد «برلین»، این یک توهم هوش مصنوعی است. پاسخ به نظر درست و قابل اعتمادت می‌آید، اما کاملا اشتباه است. یا وقتی در پاسخ به سوال در باره علائم بیماری، اطلاعاتی ارائه می‌دهد که مرتبط با سوال نیست، باز هم نوعی توهم هوش مصنوعی رخ داده است.

با سرویس هوش مصنوعی لیارا، مدل‌های AI خودت رو بدون دغدغه اجرا و مدیریت کن.
✅ پشتیبانی از GPU و CPU✅ مناسب مدل‌های متن‌باز✅ اجرای پایدار و سریع
خرید و راه‌اندازی سرویس هوش مصنوعی

انواع توهمات هوش مصنوعی

توهمات هوش مصنوعی می‌توانند شکل‌های مختلفی داشته باشند و هر کدام به نحوی بر یکپارچگی سیستم هوش مصنوعی تاثیر می‌گذارند. شناخت این انواع برای شناسایی و کاهش آن‌ها در کاربردهای واقعی بسیار مهم است.

توهمات واقعی (Factual Hallucinations)

این نوع توهم زمانی رخ می‌دهد که سیستم هوش مصنوعی خروجی تولید کند که با واقعیت‌های درست در تضاد باشد. معمولا این اشتباه‌ها به دلیل داده‌های آموزشی نادرست یا ناقص و یا نقص در مکانیزم بازیابی اطلاعات ایجاد می‌شود. مثال: اگر یک AI «برج ایفل در برلین است»، این کاملا نادرست است.

این خطاها در حوزه‌های مثل بهداشت و درمان، خدمات حقوقی و آموزش بسیار مضر هستند، زیرا اطلاعات غلط می‌توانند باعث تصمیم‌گیری اشتباه و کاهش اعتماد کاربران شوند. علل رایج شامل داده‌های قدیمی یا جانبدارانه و اطلاعات نادرست موجود در مستندات استخراج شده است.

توهمات معنایی (Semantic Hallucinations)

توهمات معنایی زمانی رخ می‌دهند که سیستم، پاسخ‌هایی گرامری درست ولی بی‌ربط یا نامفهوم با متن سوال ارائه دهد. مثال: اگر از AI بپرسید «علائم دیابت چیست؟»، ممکن است پاسخ دهد:«اولین اشاره به علائم دیابت در کتیبه ابرس پیدا شده است.» این پاسخ به لحاظ تاریخی درست است، اما نیاز اصلی سوال را پاسخ نمی‌دهد.

این نوع توهم، کارایی AI را در وظایف متنی و پشتیبانی مشتری یا فنی کاهش می‌دهد و باعث سردرگمی و بی‌اعتمادی کاربران می‌شود. معمولا این مشکل ناشی از عدم هم‌راستایی بین پیش‌بینی احتمالی مدل و هدف سوال و یا کمبود درک معنایی و زمینه‌ای است.

توهمات استدلالی (Reasoning Hallucinations)

توهمات استدلالی زمانی رخ می‌دهند که AI نتیجه‌گیری‌های منطقی اشتباه تولید کند. این مشکل معمولا به دلیل سوبرداشت از روابط بین مفاهیم یا موجودیت‌ها است. مثال: اگر گفته شود «همه سیب‌ها میوه هستند» و «پرتقال‌ها میوه هستند»، AI ممکن است اشتباه نتیجه بگیرد: «همه سیب‌ها پرتقال هستند.»

این نوع خطاها به‌خصوص در کارهای علمی، حقوقی یا فنی که دقت منطقی اهمیت دارد، آسیب‌زننده هستند. علت آن نبود نمایش روابط منطقی در داده‌های آموزشی و کمبود مکانیزم استدلال روشن در مدل‌های مولد است.

اهمیت شناخت این انواع

شناخت این انواع توهم برای توسعه موثر هوش مصنوعی ضروری است.

  • توهمات واقعی معمولاً با استفاده از تکنیک‌هایی مثل تولید تقویت‌شده با بازیابی (RAG) و بررسی خروجی‌ها بر اساس منابع معتبر کاهش می‌یابند.
  • توهمات معنایی با اصلاح پرسش‌ها و ادغام زمینه از طریق گراف‌های دانش قابل پیشگیری هستند.
  • توهمات استدلالی نیازمند استدلال نمادین یا ماژول‌های منطقی مستقیم برای حفظ انسجام منطقی هستند.

پرداختن به این نوع توهمات باعث می‌شود AI خروجی‌های دقیق‌تر، قابل اعتماد و با ارزش واقعی تولید کند و اعتماد کاربران را جلب نماید.

شفافیت در هوش مصنوعی (AI Transparency): چرا برای انتخاب مهم است؟
AI Transparency

دلایل بروز توهمات در هوش مصنوعی

توهمات هوش مصنوعی معمولا به دلیل محدودیت‌های داده‌ها، ساختار مدل و پیچیدگی‌های درک زمینه و زمینه‌سازی ایجاد می‌شود. در ادامه؛ مهم‌ترین دلایل آن‌‌ها ارائه شده است.

  • محدودیت‌های داده‌های آموزشی: مدل‌های زبانی بزرگ (LLM) اغلب با داده‌های وسیع اما غیرقابل اعتماد یا اطلاعات قدیمی آموزش داده می‌شوند. این موضوع باعث نمایش نادرست دانش می‌شود و مدل ممکن است هنگام مواجهه با سوال‌های نامعلوم یا مبهم، جزئیات ساخته‌شده تولید کند.
  • کلی‌انگاری بیش از حد (Overgeneralization): مدل‌های هوش مصنوعی خروجی‌های خود را بر اساس پیش‌بینی‌های احتمالی تولید می‌کنند. این ویژگی انعطاف‌پذیری ایجاد می‌کند اما گاهی باعث بیان جملات نادرست با اعتماد به نفس بالا می‌شود، وقتی مدل فاقد دانش تخصصی حوزه باشد یا با موارد خاص و غیرمعمول مواجه شود.
  • نبود آگاهی زمینه‌ای (Contextual Awareness): مدل‌هایی که به اطلاعات به‌روز و تایید شده دسترسی ندارند، نمی‌توانند خروجی‌های دقیق و مرتبط با زمینه ارائه دهند. این مشکل به‌خصوص در حوزه‌های سرعت بالا و حساس مانند بهداشت و درمان و مالی مشهود است، جایی که دانش تخصصی و به‌روز اهمیت بالایی دارد.
  • نبود استدلال صریح (Lack of Explicit Reasoning): سیستم‌های مولد اغلب استدلال روشن درباره روابط بین موجودیت‌ها یا واقعیت‌ها ندارند. این موضوع باعث ایجاد نتیجه‌گیری‌های نادرست یا پاسخ‌های بی‌معنی می‌شود.

این علل نشان می‌دهند که استفاده از داده‌های دقیق و به‌روز و همچنین پیاده‌سازی روش‌هایی مانند RAG و گراف‌های دانش برای کاهش توهمات هوش مصنوعی ضروری است. پرداختن به این دلایل اصلی باعث می‌شود سیستم‌های AI خروجی‌های دقیق‌تر، مرتبط با زمینه و قابل اعتمادتر تولید کنند.

تولید تقویت‌شده با بازیابی (Retrieval-Augmented Generation – RAG)

RAG یا Retrieval-Augmented Generation یک معماری هوش مصنوعی است که مدل‌های زبانی مولد را با یک موتور بازیابی اطلاعات ترکیب می‌کند. به جای اینکه مدل تنها به وزن‌های پیش‌آموزش داده شده تکیه کند، RAG به دنبال اسناد خارجی می‌گردد تا پاسخ‌های مدل را بر اساس اطلاعات به‌روز و معتبر زمینه‌دار کند.

نحوه کار RAG

فرآیند RAG با تحلیل پرسش کاربر شروع می‌شود و آن را به فرمت مناسب برای بازیابی اطلاعات تبدیل می‌کند. در مرحله بازیابی اسناد، یک مکانیزم جستجو (مثلا جستجوی وکتوری) اسناد مرتبط را از منابع خارجی پیدا می‌کند. سپس مدل، اسناد بازیابی شده را به عنوان زمینه استفاده می‌کند تا خروجی‌ها را با دقیق‌ترین و مرتبط‌ترین اطلاعات تولید کند.

فرآیند RAG با تحلیل پرسش کاربر شروع می‌شود و آن را به فرمت مناسب برای بازیابی اطلاعات تبدیل می‌کند. در مرحله بازیابی اسناد، یک مکانیزم جستجو (مثلاً جستجوی وکتوری) اسناد مرتبط را از منابع خارجی پیدا می‌کند.

گام‌های اصلی فرآیند RAG:

  • پرسش کاربر (User Query): این مرحله با پرسشی که کاربر وارد می‌کند آغاز می‌شود، مثلا: «علائم دیابت چیست؟» این پریش ورودی اصلی است که مدل برای تولید پاسخ از آن استفاده می‌کند.
  • درک پرسش: جاسازی پرسش (Query Embedding): در این مرحله، پرسش کاربر به یک وکتور عددی در فضای چندبعدی تبدیل می‌شود. این وکتور امکان مقایسه پرسش با سایر داده‌ها را فراهم می‌کند.
  • بازیابی اسناد (Document Retrieval):برای یافتن مرتبط‌ترین اسناد، وکتور پرسش(vq) با وکتور اسناد موجود در پایگاه دانش (vd1,vd2,dvd3 … vdi) مقایسه می‌شود. سپس با استفاده از تابع شباهت مثل Cosine Similarity اسناد بر اساس ارتباطشان رتبه‌بندی می‌شوند.
  • فضای وکتور: نمایش بهترین تطابق‌ها (Vector Space: Top Matches): در این مرحله، میزان شباهت پرسش با اسناد مختلف به تصویر کشیده می‌شود و تنها مرتبط‌ترین اسناد برای پردازش انتخاب می‌شوند.
  • ادغام زمینه (Context Fusion): وکتور پرسش (vq) و وکتورهای بهترین اسناد بازیابی شده با هم ادغام می‌شوند تا یک وکتور زمینه‌ای غنی ایجاد شود. این وکتور زمینه‌‌، اطلاعات لازم برای تولید پاسخ دقیق را به مدل مولد می‌دهد.
  • تولید پاسخ (Response Generation): مدل بر اساس وکتور زمینه، پاسخی منسجم و مرتبط با پرسش ارائه می‌دهد. مثال پاسخ: «علائم رایج دیابت شامل تشنگی زیاد، تکرر ادرار و خستگی است.» این پاسخ هم دقیق است و هم با اسناد بازیابی شده همخوانی دارد.
  • پایگاه دانش (Knowledge Base): پایگاه دانش شامل مجموعه‌ای گسترده از اسناد است که مدل برای یافتن اطلاعات مرتبط از آن استفاده می‌کند. این اسناد تضمین می‌کنند که پاسخ تولید شده بر اساس اطلاعات دقیق و قابل اعتماد است.
چرا چت‌بات‌ها نیت ما را نمی‌فهمند؟ از تولید زبان تا گفت‌وگوی با LLM ها
 گفت‌وگو با LLM

مزایای RAG

یکی از مهم‌ترین مزایای RAG کاهش توهمات واقعیتی (Factual Hallucinations) است. با استفاده از دانش خارجی که از طریق بازیابی اسناد به دست می‌آید، RAG پاسخ‌های خود را بر پایه منابع واقعی تولید می‌کند و صرفاً به پیش‌بینی‌های داخلی مدل تکیه ندارد. برای مثال، اگر کاربر درباره آخرین روش‌های درمان یک بیماری پرس‌وجو کند، RAG می‌تواند مقالات علمی یا دستورالعمل‌های معتبر پزشکی را از پایگاه‌های داده مرتبط بازیابی کند و پاسخی مستند و دقیق ارائه دهد. این ویژگی در حوزه‌هایی مانند سلامت، حقوق و مالی اهمیت بالایی دارد؛ جایی که دقت واقعیت‌ها حیاتی است.

مزیت دیگر RAG انعطاف‌پذیری و سازگاری آن است. بر خلاف مدل‌های مولد ایستا که برای به‌روزرسانی دانش نیازمند بازآموزی هستند، RAG می‌تواند به صورت پویا اطلاعات جدید و خاص را از طریق سیستم بازیابی خود وارد کند. این قابلیت در صنایع پرسرعت مانند خبر، تحقیقات علمی و فناوری ارزشمند است؛ جایی که دسترسی به اطلاعات به‌روز و دقیق اهمیت ویژه‌ای دارد. علاوه بر این، شرکت‌ها می‌توانند سیستم بازیابی را متناسب با پایگاه دانش اختصاصی خود شخصی‌سازی کنند تا بدون تغییر مدل اصلی، تخصص دامنه‌ای بیشتری به دست آورند.

در نهایت، RAG به شفافیت و قابلیت توضیح‌پذیری سیستم‌های هوش مصنوعی کمک می‌کند. از آن‌جا که پاسخ‌ها بر اساس اسناد بازیابی‌شده تولید می‌شوند، کاربران قادر خواهند بود منبع اطلاعات ارائه‌شده را ردیابی کنند. این موضوع اعتماد به سیستم را افزایش می‌دهد و به کاربران امکان می‌دهد صحت داده‌ها را به طور مستقل بررسی کنند.

چالش‌های RAG

اگرچه RAG باعث افزایش مقیاس‌پذیری و دقت سیستم‌های هوش مصنوعی مولد می‌شود، اما در پیاده‌سازی آن نیز چالش‌هایی وجود دارد که باید برطرف شوند.

وابستگی به کیفیت بازیابی (Retrieval Quality)

عملکرد RAG به شدت به کیفیت و دقت اسناد بازیابی شده بستگی دارد. اگر مدارکی که سیستم پیدا می‌کند ناقص، قدیمی یا بی‌کیفیت باشند، پاسخ تولیدی هم به همان اندازه غلط یا گمراه‌کننده خواهد بود. این موضوع زمانی بحرانی‌تر می‌شود که الگوریتم جستجو دقت کافی نداشته باشد یا پایگاه داده دانش شامل اطلاعات ناقص و مغرضانه باشد.

اطلاعات ناقص یا مفقود (Incomplete or Missing Information)

RAG تنها می‌تواند بر پایه ‌داده‌هایی عمل کند که در پایگاه دانش موجود هستند. بنابراین اگر موضوعی به‌طور کامل پوشش داده نشده باشد یا داده‌‌ها به‌روز نباشند، پاسخ نهایی فاقد زمینه کافی خواهد بود. در چنین شرایطی، مدل ممکن است برای پر کردن خلاها، اطلاعات ساختگی یا توهمی تولید کند.

وابستگی بیش‌ازحد به محتوای بازیابی‌شده (Over-Reliance on Retrieved Context)

هرچند اسناد بازیابی‌شده به واقعی‌تر شدن خروجی کمک می‌کنند، اما اگر مدل بدون تحلیل انتقادی فقط به همان اسناد تکیه کند، احتمال بروز خطا یا تناقض وجود دارد. برای مثال، اگر اطلاعات متناقض یا مبهمی در منابع وجود داشته باشد، خروجی مدل هم می‌تواند نادرست یا ناسازگار باشد.

انتشار سوگیری‌ها (Bias Propagation)

اگر پایگاه دانش یا الگوریتم بازیابی سوگیری داشته باشد، این سوگیری مستقیما به پاسخ‌های تولیدی منتقل می‌شود. در نتیجه ممکن است مدل نتایج مغرضانه یا حتی ناعادلانه ارائه کند و اعتبار کل سیستم زیر سؤال برود.

آگاهی از بستر و زمینه کاربر (Contextual Awareness)

RAG دقت داده‌ها را افزایش می‌دهد اما همیشه نمی‌تواند شرایط و نیاز خاص کاربر را به‌درستی درک کند. همین موضوع گاهی باعث می‌شود پاسخ‌ها با هدف کاربر سازگار نباشند.

محدودیت در استدلال درونی مدل (Internal Reasoning Limitations)

هرچند RAG مشکل “واقعی‌سازی داده‌ها” را تا حد زیادی حل می‌کند، اما به خودی خود قابلیت استدلال منطقی عمیق ندارد. همین محدودیت می‌تواند باعث تولید پاسخ‌های ناسازگار یا غیرمنطقی شود.

مدل هوش مصنوعی چیست؟ کاربرد و انواع AI به زبان ساده
مدل هوش مصنوعی 

گراف‌های دانش به‌عنوان یک راهکار

یکی از راه‌های مهم برای کاهش توهمات (Hallucinations) در سیستم‌های هوش مصنوعی، استفاده از گراف‌های دانشی (Knowledge Graphs – KGs) است. این گراف‌ها یک مدل از واقعیت و روابط بین داده‌ها ارائه می‌کنند که باعث می‌شود دقت سیستم بیشتر شده و خروجی‌های اشتباه کاهش پیدا کنند.

گراف دانشی چیست؟

گراف دانشی در واقع نوعی ساختار داده است که موجودیت‌ها (Entities) و روابط بین آن‌‎ها (Relationships) را نشان می‌دهد. در این مدل، موجودیت‌ها به شکل گره‌ها (Nodes) و روابط بین آن‌ها به شکل یال‌ها (Edges) نمایش داده می‌شوند.

مثال: تصور کنید یک گراف دانشی در حوزه پزشکی داریم:

  • دیابت: با انسولین درمان می‌شود.
  • دیابت: دارای علائم است.
  • علائم: شامل خستگی می‌شود.

به این ترتیب، سیستم می‌تواند درک کند که دیابت به خستگی مرتبط است و این ارتباط را به شکل منطقی و ساختاریافته نشان دهد. همین موضوع باعث می‌شود ماشین‌ها بتوانند مشابه انسان‌ها، روابط بین داده‌ها را تحلیل و پردازش کنند.

انواع گراف‌های دانشی

  • گراف‌های دانشی باز (Open Knowledge Graphs)
    • به‌صورت عمومی در دسترس هستند و معمولاً توسط جامعه کاربری ساخته می‌شوند.
    • مثال: DBpedia (ساخته‌شده از محتوای ویکی‌پدیا) و Wikidata.
    • کاربرد: پردازش زبان طبیعی، بازیابی اطلاعات، پروژه‌های عمومی هوش مصنوعی.
  • گراف‌های دانشی دامنه‌ای (Domain-Specific KGs)
    • مخصوص یک صنعت یا حوزه خاص طراحی می‌شوند.
    • مثال: حوزه سلامت، تجارت الکترونیک یا بانکداری.
    • کاربرد: ارائه اطلاعات دقیق و تخصصی برای همان حوزه.
  • گراف‌های دانشی سازمانی (Enterprise KGs)
    • توسط شرکت‌ها ساخته می‌شوند و داده‌های اختصاصی سازمان را ترکیب می‌کنند.
    • مثال: گراف دانشی گوگل که نتایج جستجو را غنی‌تر می‌کند.
    • کاربرد: تصمیم‌گیری بهتر، اتوماسیون و افزایش بهره‌وری.
  • گراف‌های دانشی شخصی (Personal KGs)
    • مخصوص افراد طراحی می‌شوند و داده‌های شخصی کاربر را مدیریت می‌کنند.
    • مثال: دستیارهای شخصی (مانند Google Assistant یا Siri) که اطلاعاتی مثل «کاربر، جلسه دارد، جمعه ساعت 8 صبح» را ذخیره می‌کنند.
    • کاربرد: شخصی‌سازی خدمات، پیشنهاد محتوا یا مدیریت زمان.
تفاوت هوش مصنوعی و هوش مصنوعی مولد چیست؟
هوش مصنوعی و هوش مصنوعی مولد

یکپارچه‌سازی گراف‌های دانش

یکی از چالش‌های اساس در سامانه‌های هوش مصنوعی، در مدل‌هایی مانند RAG، پدیده‌ای به نام هالوسینیشن است؛ وضعیتی که در آن مدل اطلاعات نادرست یا ساختگی تولید می‌کند. برای کاهش این مشکل، استفاده از روش‌های پیشرفته‌ای همچون یکپارچه‌سازی گراف‌های دانش، تکنیک‌های بهبود یافته در بازیابی اطلاعات و به‌روزرسانی پویا گراف دانش مطرح می‌شود.

یکپارچه‌سازی گراف دانش با RAG

گراف‌های دانش داده‌ها را به صورت موجودیت‌ها و روابط میان آن‌ها سازمان‌دهی می‌کنند. ترکیب این گراف‌ها با RAG موجب می‌شود مدل علاوه بر اسناد متنی، به ساختارهای دقیق‌تر و ارتباطات منطقی نیز دسترسی داشته باشد. این امر دقت پاسخ‌ها را افزایش داده و احتمال بروز خطا را به میزان قابل‌توجهی کاهش می‌دهد.

تکنیک‌های پیشرفته بازیابی اطلاعات

دقت پاسخ‌های RAG وابستگی مستقیم به کیفیت بازیابی داده‌ها دارد. به‌کارگیری روش‌های جستجوی نوین، مانند جستجوی برداری یا ترکیبی، کمک می‌کند تا اسناد مرتبط‌تر و به‌روزتری انتخاب شوند. در نتیجه، محتوای تولیدشده معتبرتر و قابل‌اعتمادتر خواهد بود.

به‌روزرسانی پویا گراف دانش

یکی از چالش‌های رایج در حوزه داده، کهنگی و عدم به‌روزرسانی به‌موقع پایگاه‌های دانش است. زمانی که گراف‌های دانش به‌صورت پویا و خودکار به‌روز شوند و اطلاعات جدید از منابع معتبر در آن‌ها ثبت گردد، مدل همواره قادر خواهد بود پاسخ‌هایی مبتنی بر جدیدترین و دقیق‌ترین داده‌ها ارائه کند.

کاربرد گراف‌های دانش موجود

گراف‌های دانش یکی از رویکردهای استاندارد و معتبر برای افزایش دقت و قابلیت اعتماد در کاربردهای هوش مصنوعی هستند. در حوزه سلامت، این گراف‌ها امکان اعتبارسنجی و زمینه‌سازی خروجی‌های هوش مصنوعی با تکیه بر داده‌های مرجع و معتبر را فراهم می‌کنند. شرکت‌ها می‌توانند از گراف‌های دانش شناخته‌شده‌ای مانند SNOMED CT و UMLS استفاده کنند که شامل حجم گسترده‌ای از مفاهیم پزشکی، ارتباطات میان آن‌ها و دستورالعمل‌های تشخیصی است.

به عنوان نمونه، یک دستیار سلامت هوشمند می‌تواند از SNOMED CT بخواهد تایید کند که «HbA1c بالاتر از 6.5٪» به عنوان معیار تشخیصی دیابت نوع 2 شناخته می‌شود. گراف دانش با ایجاد پیوندی معتبر میان «HbA1c > 6.5%» و تشخیص دیابت تضمین می‌کند که نتیجه ارائه شده صحیح است و مدل دچار خطا یا نتیجه‌گیری نادرست نمی‌شود.

علاوه بر اعتبار سنجی آستانه‌های تشخیصی، گراف‌های دانش در شناسایی عوامل خطر بیماری‌ها نیز نقش کلیدی دارند. به‌طور مثال، یک گراف مبتنی بر شواهد علمی می‌تواند ارتباط میان دیابت و عوارضی مانند رتینوپاتی دیابتی، نفروپاتی و زخم پای دیابتی را نمایش دهد. حتی می‌توان این ارتباطات را با معیارهایی مانند نسبت شانس یا ریسک نسبی اندازه‌گیری کرد. چنین داده‌هایی ابزار مهمی برای تحلیل ریسک، طراحی درمان‌‌های فردی و همچنین ارزیابی سلامت جمعیت به‌شمار می‌روند.

ترکیب گراف‌های دانش با مدل‌های RAG نیز کارایی این سیستم‌ها را به‌طور چشمگیری افزایش می‌دهد. در این رویکرد، مدل ابتدا اسناد غیرساختاریافته مرتبط با پرسش کاربر را بازیابی می‌کند و سپس داده‌های استخراج شده را با گراف دانش تطبیق می‌دهد تا هم‌راستایی منطقی و صحت اطلاعات تضمین شود. برای نمونه، هنگام جست‌وجوی اطلاعات مرتبط با دیابت، سیستم RAG داده‌های بالینی یا مقالات پژوهشی را بازیابی می‌کند و گراف دانش آن‌ها را بر اساس استانداردهای پزشکی معتبر تایید می‌نماید. این هم‌افزایی میان غنای محتوای اسناد و قابلیت اعتبارستجی گراف‌‌های دانش، خروجی‌هایی دقیق، شفاف و قابل اتکا در اختیار کاربران قرار می‌دهد.

Claude چیست؟ ساخت ابزارهای هوشمند با API هوش مصنوعی
Claude 

ایجاد گراف دانش اختصاصی

اگر برای کاربرد شما گراف دانش از پیش تعریف شده‌ای وجود ندارد، گام بعدی ایجاد یک گراف دانش اختصاصی است که متناسب با حوزه کاری شما باشد. این گراف‌های اختصاصی در بازارهای تخصصی مانند سلامت، تجارت الکترونیک و امور مالی کاربرد دارند، جایی که داده‌ها مختص یک شرکت یا صنعت خاص هستند. با ساخت گراف دانش اختصاصی، می‌توان داده‌های غیر ساختاریافته را به فرمت قابل خوانش برای ماشین تبدیل کرد تا تحلیل شوند و تصمیمات بهتری اتخاذ شود.

گام اول: جمع‌آوری و آماده‌سازی داده‌ها

هر گراف دانش حول داده‌های با کیفیت و مرتبط ساخته می‌شود. ابتدا باید داده‌ها از منابع معتبر مانند توصیه‌های بالینی، مقالات علمی، بسته‌بندی محصولات یا پایگاه داده‌های شرکت‌ها جمع‌آوری شوند. برای مثال در حوزه سلامت، ممکن است داده‌هایی درباره تشخیص، درمان، عوامل خطر و غیره از منابعی مانند مقالات بررسی شده و دستورالعمل‌هایی مانند انجمن دیابت آمریکا جمع‌آوری شود. برای ایجاد گرافی معتبر، اطمینان حاصل کنید که داده‌ها صحیح، کامل و مختص صنعت شما باشند.

گام دوم: استخراج موجودیت‌ها و روابط

از داده‌های جمع‌آوری‌شده می‌توان موجودیت‌ها و روابط بین آن‌ها را استخراج کرد. این کار می‌تواند به‌صورت خودکار با ابزارهایی مانند LLMGraphTransformer از LangChain یا GPT-4 انجام شود. این ابزارها متن‌های غیرساختاریافته را پردازش می‌کنند تا موجودیت‌ها (مثلاً «دیابت نوع 2»، «HbA1c > 6.5٪») و ارتباطات آن‌ها («مرتبط با»، «تشخیصی») شناسایی شوند.

ابزارهای دیگری نیز وجود دارند که می‌توانند موجودیت‌ها و روابط را از متن غیرساختاریافته استخراج کنند. به‌عنوان مثال، Diffbot’s Natural Language API از متن برای شناسایی موجودیت‌ها و روابط استفاده می‌کند و داده‌های غیرساختاریافته را به فرمت‌های ساختاریافته تبدیل می‌کند. همچنین، REBEL (Relation Extraction By End-to-end Language generation) یک مدل مبتنی بر BART است که استخراج روابط را به‌صورت End-to-End برای بیش از 200 نوع رابطه مختلف انجام می‌دهد.

گام سوم: ذخیره‌سازی گراف دانش

پس از استخراج موجودیت‌ها و روابط، می‌توان داده‌ها را در پایگاه داده گرافی ذخیره کرد تا به‌صورت موثر پرس‌وجو و به‌روزرسانی شوندو AstraDB یا Neo4j گزینه‌های مناسبی برای این منظور هستند. این پایگاه‌ها امکان انجام پرس‌وجوهای پیشرفته و تصویرسازی گراف را فراهم می‌کنند.

گام چهارم: تصویرسازی و بهینه‌سازی گراف دانش

تصویرسازی به اعتبارسنجی گراف دانش و شناسایی الگوها کمک می‌کند. می‌توانید از ابزارهایی مانند NetworkX و Matplotlib برای نمایش گراف استفاده کنید. تصویرسازی و بهینه‌سازی مداوم گراف، دقت و کاربردپذیری آن را حفظ می‌کند. ساخت گراف دانش اختصاصی به کاهش توهمات هوش مصنوعی کمک می‌کند، زیرا منبعی شفاف و قابل اعتبار برای تولید پاسخ‌ها فراهم می‌آورد.

هوش مصنوعی سازمانی چیست؟ مزایا، کاربردها و نمونه‌های واقعی استفاده در کسب‌وکارها
هوش مصنوعی سازمانی

جمع بندی

این مقاله بررسی کرد که چگونه RAG و گراف‌های دانش می‌توانند با ایجاد مدل‌های تولیدی مبتنی بر داده‌های ساختاریافته و معتبر، به کاهش توهمات هوش مصنوعی کمک کنند. این رویکرد ترکیبی موجب بهبود دقت واقعی، انسجام معنایی و سازگاری منطقی در نتایج هوش مصنوعی می‌شود، در حوزه‌های حساس مانند سلامت و امور مالی.

با بهره‌گیری از به‌روزرسانی‌های پویا، روش‌های پیشرفته بازیابی اطلاعات و محدودیت‌های معنایی، RAG و گراف‌های دانش ضعف‌های مدل‌های تولیدی سنتی را جبران می‌کنند و امکان ایجاد سیستم‌های هوش مصنوعی دقیق، قابل اعتماد و مورد اعتماد کاربران را فراهم می‌سازند.

به اشتراک بگذارید