آنچه در این مقاله میخوانید
هذیان گویی یا Hallucinations در هوش مصنوعی چیست؟
۲۷ شهریور ۱۴۰۴
هوش مصنوعی در سالهای اخیر نحوه عملکرد صنایع مختلف را تغییر داده است. از خودکارسازی فرآیندهای تکراری گرفته تا پردازش حجم انبوهی از دادهها و توسعه ابزارهای زبانی. اما در میان همه این پیشرفتها، یک مشکل همچنان پابرجاست: توهم هوش مصنوعی.
این مشکل در حوزههایی مثل پزشکی، حقوق و بانکداری، که خطای اطلاعاتی میتواند پیامدهای جدی داشته باشد، به یک نگرانی واقعی تبدیل شده است. یکی از رویکردهایی که برای مقابله با این چالش مطرح شده، ترکیب سیستمهای بازیابی افزوده (RAG) با گرافهای دانش است؛ رویکردی که مدل را به جای تکیه بر حافظه آموزشی، به منابع اطلاعاتی ساختاریافته و قابل تایید متصل میکند.
در این مطلب از بلاگ لیارا، نگاهی دقیقتر به ماهیت توهم در سیستمهای هوش مصنوعی خواهیم داشت، سیستمهای RAG را از زوایای مختلف بررسی میکنیم و میبینیم که ادغام آنها با گرافهای دانش تا چه حد میتواند این مشکل را کاهش دهد.
آنچه در ادامه خواهید خواند:
- پیش نیازهای این مطلب
- هذیان گویی (Hallucinations) در هوش مصنوعی چیست؟
- انواع هذیان گویی هوش مصنوعی
- انواع هذیان گویی هوش مصنوعی چه اهمیتی دارد؟
- سوالات متداول
- جمع نید
پیش نیازهای این مطلب
برای اینکه بتوانید به صورت صحیح این مقاله را دنبال کنید، به دانش پایهای در زمینه هوش مصنوعی و مدلهای مولد خواهید داشت، اگر نگران هستید که این مطالب را نمیدانید، به شما خواهیم گفت که هیچ نگرانی نداشته باشید برای رفع این چالش تنها کافی است تا مطلب هوش مصنوعی مولد (Generative AI) را با دقت مطالعه کنید و بعد از آن ادامه این مقاله را مطالعه کنید. در این مطلب باید با فرآیندهای RAG و گرافهای دانش آشنایی نسبی داشته باشید.
هذیان گویی (Hallucinations) در هوش مصنوعی چیست؟
هذیان گویی در هوش مصنوعی به پدیده ای گفته میشود که در ان مدلهای هوش مصنوعی خروجیهای نادرست، غیر منطقی یا ساختگی را به صورت خودکار تولید میکنند. شاید در نگاه اول این خروجیها منطقی و یک جواب معقول به نظر برسد، اما در اصل تمامی این جوابها ناقص و به اصطلاح فاسد هستند که بهره وری صحیحی نخواهند داشت.
انواع هذیان گویی هوش مصنوعی
هذیان هوش مصنوعی میتوانند در اشکالهای مختلفی ظاهر شوند و هرکدام از آنها به شیوههای ختلفی بر یکپارچگی سیستم هوش مصنوعی تاثیرات خود را بگذارند. شناخت انواع آن برای شناسایی و کاهش شیوع آنها در کاربردهای واقعی به کمک شما خواهند آمد.

هذیان گویی factual
هذیان گویی factual زمانی اتفاق میافتد که سیستم هوش مصنوعی خروجیهایی را تولید میکند که با واقعیتهای شناخته شده تناقضهایی را داشته باشد، معمولا به دلیل نادرستیها یا حذفها در دادههای آموزشی یا مکانیسمهای بازایابی اتفاق میافتد.
بیایید با شرح یک مثال بهتر این موضوع را بشناسیم: هوش مصنوعی ممکن است به اشتباه به کاربر خود بگوید: برج ایفل در برلین قرار دارد. درحالی که این یک دروغ و اشتباه است.
بروز این خطابه خصوص در زمینه های مراقبتهای بهداشتی، خدمات حقوقی و آموزش اتفاقی بسیار زیان آور و منفی خواهد بود. اگر در این حوزههای نام برده شده اطلاعات غلط ارائه شود، قطعا منجر به نتایج بسیار نا مطلوب خواهد شد و در نتیجه اعتماد کاربران را از دست خواهید داد.
به چه دلیل هذیان گویی factual اتفاق می افتد؟
دلایل رخ دادن این هذیان گویی شامل دادههای آموزشی قدیمی یا اطلاعات نادرست وارد شده در اسناد استخراج شده خواهد بود.
هذیان گویی semantic
هذیان گویی semantic زمانی رخ میدهد که سیستم هوش مصنوعی پاسخهای گرامی درست اما نا مرتبط را با زمینه یا نا همانگ را به کاربر خود ارائه دهد.
بیایید با شرح یک مثال بهتر این موضوع را بشناسیم: اگر از آن بپرسید که علائدم دیابت چیست؟ هوش مصنوعی ابتدا تصور میکند که پاسخ صحیح این است: اولین اشاره به علائم دیابت در پاپیروس ابرس مشاهده میشود. این پاسخ اساسا درست است اما به نیت اصلی پرسش پاسخ صحیح را نمیدهد.
هذیان گویی semantic کارایی هوش مصنوعی را در وظایف contextual مانند پشتیابنی مشتری یا فنی کاش میدهند و کاربران را نا امید و بی اعتماد خواهد کرد. این مشکل معمولا ناشی از عدم تطابق بین پیش بینیهای احتمالی مدل و قصد پرسش هستند. همچنین میتواند به دلیل کمبود در grounding معنایی یا درک contextual اتفاق بیافتد.
هذیان گویی reasoning
هذیان گویی reasoning در زمانی مشاهده میشود که سیستم هوش مصنوعی خورجیهایی را تولید کند که نتیجه گیریهای منطقی آن نادرست باشد. این فرآیند به دلیل عدم درک روابط بین موجودیتها یا مفاهیم خواهد بود.
بیایید با شرح یک مثال بهتر این موضوع را بشناسیم: اگر بگویید تمامی میوه ها سیب هستند و پرتقال ها میوه هستند هوش مصنوعی ممکن است که به اشتباه نتیجه بگیرد که تمامی سیب ها پرتقال هستند. همین اندازه بی معنی و بی ربط.
این خطا به خصوص در وظایف علمی، حقوق یا فنی بسیار آسیب رسان خواهد بود. به این دلیل که consistency منطقی بسیار حائز اهمیت خواهد بود. دلایل اصلی آن شامل عدم نمایش روابط منطقی در دادههای آموزشی و نبود مکانیسمهای reasoning واضح در مدلهای مولد است.
هذیان گویی هوش مصنوعی چه اهمیتی دارد؟
درک این انواع هذیان گویی برای توسعه موثر هوش مصنوعی بسیار مهم خواهد بود. هذیان گویی factual به تکنیکهایی مانند بازیابی افزوده شدن (RAG) نیاز خواهند داشت تا بتوانند خروجیها را در برابر منابع خارجی تایید کنند.
اصلاح پرسش و ادغام زمینه از طریق گرافهای دانش میتواند از هذیان گویی semantic جلوگیری کند. در مقابل، هذیان گویی reasoning، نیاز به reasoning نمادین یا ماژول های منطقی مستقیم دارند تا consistency را تضمین کنند. حال اگر این سیستمهای هوش مصنوعی بتوانند تمامی این هذیان گوییها را بر طرف کنند، نتیجه کار آن خروجیهای دقیقتر خواهد بود.
علت اصلی هذیان گویی هوش مصنوعی
توهمات یا هذیان گویی هوش مصنوعی از محدودیتهای داده، معماری مدل و پیچیدگیهای درک زمینه به وجود میآیند. در ادامه به علتهای اصلی خواهیم پرداخت با دقت مطالعه کنید.
محدودیتهای داده آموزشی: مدلهای زبانی بزرگ در اغلب موارد بر روی مجموعه داده بزرگ اما غیرقابل اعتماد یا قدیمی آموزشهای لازم را میبینند و این عمل آن را منجر به misrepresentation دانش میشود و مدلها احتمالا در زمانی که با سوالات مبهم رو به رو میشوند جزئیات ساختگی از خود تولید میکنند.
Overgeneralization: مدلهای هوش مصنوعی خروجیها را بر اساس پیشبینیهای احتمالی تولید میکنند و در این زمان انعطافپذیری را فراهم میکند اما اگر مدل فاقد دانش خاص حوزه یا با موارد edge مواجه شود میتواند منجر به اظهارات confident اما نادرست شود.
عدم آگاهی contextual: مدلهای آموزشی بدون دسترسی به اطلاعات واقعی زمان تایید شده نمیتوانند هروجیهای مرتبط و دقیق contextual را حفظ کند. این کمبود grounding آن هم در صنایع مانند مراقبتهای بهداشتی و مالی بیشتر به چشم میآید. در این حوزهها دانش تخصصی و جاری بسیار مهم است و باید تمامی اطلاعات صحت داشته باشند.
عدم reasoning صریح: سیتمهای مولد اغلب فاقد reasoning صحیح در مورد روابط بین محدودیتها یا واقعیتها نخواهند هستند. این مورد منجر به نتیجهگیری نادرست یا پاسخهای بی معنی میشود.
تمامی علتها بر اهمیت استفاده از دادهای دقیق زمان برای مدلهای هوش مصنوعی و پیاده سازی روشهایی مانند RAG و گرافهای دانش برای جلوگیری از هذیان گویی تاکید میشود. به زبان ساده به ریشه اجازه میدهد سیستمهای هوش مصنوعی نتایج دقیق تر و آگاه از زمینه را تولید کنند.
بازیابی افزودهشده (RAG)
RAG یک معماری هوش مصنوعی است که مدلهای زبانی مولد را با یک موتور بازیابی تکمیل میکند. به جای تکیه بر وزنهای پیشآموزشدیده، اسناد خارجی را جستجو میکند تا پاسخهای مدل را contextual کند.
RAG ها چگونه کار میکنند؟
فرآیند با تحلیل پرسش و تبدیل آن به فرمت مناسب برای بازیابی شروع میشود. در مرحله بازیابی اسناد، جستجوی vector اسناد مناسب را از منبع دانش خارجی استخراج میکند. در تولید پاسخ، مدل از اسناد بازیابی شده بهعنوان زمینه استفاده میکند تا خروجی هایی را بر اساس داده های به روز و مرتبط تولید کند.
ترکیب RAG با گرافهای دانش
RAG به تنهایی یک قدم رو به جلوست، اما یک محدودیت اساسی دارد؛ اسناد بازیابیشده معمولاً متن خام هستند و روابط بین مفاهیم را نمایش نمیدهند. اینجاست که گرافهای دانش وارد میشوند.
گرافهای دانش اطلاعات را به شکل شبکهای از موجودیتها و روابط بین آنها ذخیره میکنند. به جای اینکه مدل یک سند متنی درباره دیابت بازیابی کند، میتواند مستقیماً به رابطه بین «دیابت نوع ۲»، «مقاومت به انسولین» و «رژیم غذایی» دسترسی داشته باشد. این تفاوت کوچکی نیست، یعنی مدل نهفقط اطلاعات، بلکه ساختار و زمینه آن را هم دریافت میکند.
در این معماری ترکیبی، فرآیند به این شکل پیش میرود: پرسش کاربر هم در پایگاه اسناد و هم در گراف دانش جستجو میشود. نتایج هر دو منبع با هم ادغام میشوند و به مدل داده میشوند. مدل با تکیه بر این زمینه ساختاریافته، پاسخی تولید میکند که هم از نظر واقعی تأیید شده و هم از نظر منطقی منسجم است.
نتیجه عملی این ترکیب کاهش هر سه نوع توهمی است که پیشتر بررسی کردیم، هم خطاهای واقعی، هم ناهماهنگی معنایی و هم نتیجهگیریهای منطقی نادرست.
جمعبندی
توهم در سیستمهای هوش مصنوعی یک باگ ساده نیست که با یک آپدیت برطرف شود، ریشه در نحوه یادگیری و تولید خروجی این مدلها دارد. اما ترکیب RAG با گرافهای دانش نشان داده که میتوان این مشکل را به شکل قابل توجهی کاهش داد؛ نه با تغییر معماری مدل، بلکه با تغییر نحوه دسترسی آن به اطلاعات.
اگر در حال توسعه یا استقرار سیستمهای هوش مصنوعی هستید، پیادهسازی این رویکرد میتواند تفاوت معناداری در قابلیت اطمینان خروجیها ایجاد کند. لیارا امکانات لازم برای استقرار و مدیریت چنین سیستمهایی را فراهم کرده است. برای شروع، مستندات مربوطه را مطالعه کنید.

