تغییرات اخیر

در اینجا اطلاعیه‌ها، نسخه‌ها و تغییرات جدید لیارا فهرست می‌شوند.

چرا چت‌بات‌ها نیت ما را نمی‌فهمند؟ از تولید زبان تا گفت‌وگوی با LLM ها


۱۳ تیر ۱۴۰۴

چت‌بات‌های مبتنی بر مدل‌های زبانی بزرگ (LLM) هر ماه قدرتمندتر می‌شوند و در آزمون‌هایی مثل MMLU, HumanEval و MATH رکوردهای تازه‌ای ثبت می‌کنند. مدل‌هایی مانند GPT-4o و Sonnet 3.5 نمونه‌هایی از این روند رو به رشد هستند. اما با نزدیک شدن به سقف عملکرد در این بنچمارک‌ها، یک پرسش کلیدی مطرح می‌شود: آیا تجربه واقعی کاربران هم به همان اندازه بهبود یافته است؟

در آینده‌ای که هوش مصنوعی نه جایگزین انسان بلکه همراه و همکار اوست، ارزیابی مدل‌ها تنها با آزمون‌های ایستا و تک‌مرحله‌ای کافی نیست. چرا که این معیارها نمی‌توانند توانایی چت‌بات‌ها در تعامل‌های چندمرحله‌ای، هدف‌محور و تطبیق‌پذیر را به‌درستی نشان دهند.

در ادامه خواهید خواند:

  • چرا گفت‌وگوی هدفمند اهمیت دارد؟
  • فرآیند ساخت سیستم‌های گفت‌وگویی در گذشته و حال چگونه بوده است؟
  • سیستم‌های گفت‌وگومحور فعلی چقدر پایدار هستند؟
  • چه عواملی در سیستم‌های گفت‌وگو هنوز حل نشده‌اند؟
  • سیستم گفت‌وگوی هدفمند
  • سوالات متداول
  • جمع بندی

چرا گفت‌ و گوی هدفمند اهمیت دارد؟

گفت‌وگوی هدفمند یعنی چت‌بات و کاربر چند مرحله با هم تعامل می‌کنند تا به یک هدف مشخص برسند؛ مثل برنامه‌ریزی سفر یا حل یک مشکل فنی. این نوع مکالمه طبیعی‌تر، دقیق‌تر و موثرتر از پاسخ‌های تک مرحله‌ای است.

مثلا تصور کنید می‌خواهید سفر گروهی برنامه‌ریزی کنید. گفت‌وگوی چندمرحله‌ای باعث می‌شود چت‌بات سلیقه همه را در نظر بگیرد و پیشنهاد بهتری بدهد. یا وقتی می‌خواهید با کمک چت‌بات کدی بنویسید، این تعامل چندمرحله‌ای مانند برنامه‌نویسی دونفره عمل می‌کند و احتمال خطار را کم می‌کند.

اگر چت‌بات بتواند تعامل را ادامه دهد، اطلاعات شما را به خاطر بسپارد و پاسخ‌هایش را با نیازهای شما تنظیم کند، تجربه بسیار بهتری خواهید داشت. اینجا است که تفاوت یک چت‌بات ساده با یک همکار هوشمند مشخص می‌شود.

فرآیند ساخت سیستم‌ های گفت‌ و گو در گذشته و حال چگونه بوده است؟

بیایید به دهه 1970 بازگردیم، زمانی که راجر شانک (Roger Schank) «اسکریپت رستوران» را به عنوان نوعی سیستم گفت‌وگو معرفی کرد . این اسکریپت تجربه معمول یک رستوران را به مراحل مختلفی مثل ورود، سفارش غذا، غذا خوردن و پرداخت تقسیم می‌کند که برای هر مرحله جملات و پاسخ‌های از پیش نوشته شده وجود دارد. در آن زمان، هر بخش از گفت‌وگو در این سناریوها با دقت برنامه‌ریزی شده بود تا سیستم‌های هوش مصنوعی بتوانند مکالمات واقعی را تقلید کنند. سیستم‌هایی مثل ELIZA که یک شبیه‌ساز روان‌درمانگر به سبک راجرین بود، و PARRY که فردی پارانوئید را تقلید می‌کرد، نمونه‌های اولیه دیگری از سیستم‌های گفت‌وگو پیش از عصر یادگیری ماشین بودند.

با سرویس هوش مصنوعی لیارا، مدل‌های AI خود را به‌سادگی اجرا و مقیاس‌دهی کنید.
✅ پشتیبانی از GPU ✅ استقرار سریع ✅ منابع منعطف
استفاده از سرویس هوش مصنوعی

اگر این روش را با سیستم‌های گفت‌وگوی مبتنی بر مدل‌های زبانی بزرگ (LLM) امروز مقایسه کنیم، ممکن است عجیب به نظر برسد که مدل‌هایی که صرفاً برای پیش‌بینی توکن بعدی آموزش دیده‌اند، چگونه می‌توانند مکالمه انجام دهند. بنابراین، بیایید نگاهی دقیق‌تر به نحوه ساخت سیستم‌های گفت‌وگو بیندازیم و ببینیم در قالب‌بندی گفت‌وگو چه نقشی دارد:

پیش‌آموزش (Pretraining)

یک مدل ترتیبی (sequence model) برای پیش‌بینی توکن بعدی روی مجموعه عظیمی از متون اینترنتی آموزش داده می‌شود. این مجموعه شامل ترکیبی از اخبار، کتاب‌ها، کدهای گیت‌هاب و همچنین داده‌هایی از فروم‌هایی مانند ردیت و استک‌اکسچنج است که ممکن است شامل داده‌های گفت‌وگومحور هم باشد.

دیتاستدرصد نمونه‌گیریتعداد ایپاکحجم داده‌ها
CommonCrawl67٪1.103.3 ترابایت
C415٪1.06783 گیگابایت
GitHub4.5٪0.64328 گیگابایت
Wikipedia4.5٪2.4583 گیگابایت
کتاب‌ها (Books)4.5٪2.2385 گیگابایت
مقالات آکادمیک (ArXiv)2.5٪1.0692 گیگابایت
StackExchange1.0378 گیگابایت

معرفی قالب‌بندی گفت‌وگو (Dialogue formatting)

چون مدل فقط رشته‌های متنی را پردازش می‌کند و تاریخچه گفت‌وگو به صورت ساختاریافته شامل پرامپت‌های سیستم و تبادل‌های قبلی بهتر نمایان می‌شود، لازم است قالب خاصی برای تبدیل داده‌ها به متن وارد شود. برخی توکنایزرهای کتابخانه Huggingface این قابلیت را دارند که با تابعی مانند tokenizer.apply_chat_template این قالب‌بندی را برای کاربران ساده کنند. هر مدل ممکن است قالب‌بندی متفاوتی داشته باشد، اما معمولاً پرامپت‌های سیستم با تگ‌هایی مثل <system> یا <INST> مشخص می‌شوند تا مدل در هنگام پردازش توجه بیشتری به آنها کند. پرامپت سیستم نقش مهمی در تطبیق مدل زبانی با کاربردهای مختلف و تضمین رفتار امن آن دارد (در بخش بعدی بیشتر توضیح داده خواهد شد). قابل ذکر است که انتخاب قالب‌بندی در این مرحله دلخواه است و در داده‌های پیش‌آموزش چنین قالب‌بندی وجود ندارد.

تنظیم دقیق با بازخورد انسانی (RLHF)

در این مرحله، چت‌بات برای تولید پاسخ‌های مطلوب یا نامطلوب به صورت مستقیم پاداش یا تنبیه می‌شود. این اولین بار است که قالب‌بندی گفت‌وگو در داده‌های آموزش دیده شده ظاهر می‌شود. RLHF یک مرحله تنظیم دقیق است که به دلیل حجم داده بسیار کمتر نسبت به پیش‌آموزش و همچنین استفاده از مجازات KL و تنظیم وزن‌های هدفمند (مثل LoRA)، اهمیت زیادی دارد. به گفته Yann LeCun، اگر پیش‌آموزش را مثل پختن یک کیک بدانیم، RLHF فقط همان گیلاس کوچکی است که روی کیک گذاشته می‌شود.

مهندسی پرامپت Prompt Engineering چیست؟
مهندسی پرامپت

سیستم‌ های گفت‌ و گو محور فعلی چقدر پایدار هستند؟

وقتی چت‌باتی را در نقش خاصی قرار می‌دهیم (مثلا مشاور سفر یا استاد دانشگاه)، انتظار داریم این نقش را تا پایان گفت‌وگو حفظ کند. اما آیا مدل‌های امروزی واقعا چنین کاری را انجام می‌دهند؟

چرا این موضوع مهم است؟

  • اگر مدل نقش خود را فراموش کند، دچار خطاهای محتوایی و رفتار غیرقابل پیش‌بینی می‌شود.
  • ممکن است از چارچوب‌های ایمنی که برایش تعریف شده نیر عبور کند(مثلا پاسخ‌های خطرناک یا اشتباه تولید کند).

چه مشکلی مشاهده شده است؟

پژوهشگران متوجه شده‌اند که:

  • مدل‌ها در ابتدای گفت‌وگو عملکرد خوبی دارند.
  • اما بعد از چند نوبت، دیگر به «System Prompt» پایبند نیستند.
  • مدل‌هایی مثل GPT-3.5 و LLaMA2 حتی با وجود توان پردازش بالا، بعد از حدود 1600 توکن دچار افت تمرکز می‌شوند.

چرا این اتفاق می‌افتد؟

چون مدل‌ها هدف‌محور نیستند؛ فقط زبان را پیش‌بینی می‌کنند

انسان‌هامدل‌های زبانی
تعاملشان بر پایه نیت استبر پایه پیش‌بینی توکن بعدی است
هدف را در ذهن نگه می‌دارندنقش را فراموش می‌کنند چون بخشی از متن است

راهکار پیشنهادی پژوهشگران

  • استفاده از تکنیکی به‌نام Split-Softmax.
  • این روش کمک می‌کند تا مدل بتواند تمرکز خود را روی نقش تعریف‌شده حفظ کند.
  • هنوز در مراحل آزمایشی است، اما نتایج امیدوارکننده بوده‌اند.

پایداری در حفظ نقش، یک چالش جدی برای چت‌بات‌ها است. اگرچه از نظر تئوری توان پردازش بالایی دارند، در عمل در حفظ انسجام و هدف گفت‌وگو ضعیف ظاهر می‌شوند. برای حل این مشکل، نیاز به طراحی هدف‌محور و راهکارهای جدید وجود دارد.

چه عواملی در سیستم‌ های گفت‌ و گو هنوز حل نشده‌ اند؟

مدل‌های زبانی پیشرفته مانند GPT یا LLaMA در بسیاری از وظایف زبانی، عملکرد چشمگیری از خود نشان داده‌اند. با این حال، در تعاملات هدف‌محور و چندمرحله‌ای، هنوز با محدودیت‌هایی اساسی مواجه هستند. بررسی دقیق‌تر روند آموزش این مدل‌ها، نشان می‌دهد که ریشه‌ی این چالش‌ها را می‌توان در دو مرحله‌ی کلیدی یافت: پیش‌آموزش (Pretraining) و تنظیم دقیق با بازخورد انسانی (RLHF).

RAG یا Fine-tuning؟ انتخاب مناسب برای مدل‌ های هوش مصنوعی
RAG یا Fine-tuning

1. آیا مرحله پیش‌پردازش (Pretraining) کافی است؟

در مرحله‌ی پیش‌آموزش، مدل با مجموعه‌ای عظیم از داده‌های متنی عمومی آموزش می‌بیند تا بتواند ساختار زبان را فرا گیرد و الگوهای نوشتاری مختلف را تقلید کند. این آموزش گسترده، مدل را قادر می‌سازد تا طیف وسیعی از «شخصیت‌های اینترنتی» را بازسازی کند. اما زمانی که مدل در موقعیت مشخصی مانند «مشاور حقوقی» یا «مربی ورزشی» قرار می‌گیرد، معمولاً توانایی حفظ یکپارچگی رفتاری و ایفای پیوسته‌ی همان نقش را ندارد. دلیل این امر آن است که مدل، بدون درک عمیق از نیت و هدف تعامل، صرفاً به تطبیق آماری با داده‌هایی می‌پردازد که در گذشته دیده است.

2. آیا RLHF (پاداش انسانی) کافی است؟

مرحله‌ی تنظیم دقیق با بازخورد انسانی (RLHF)، نقش مهمی در تبدیل یک مدل زبانی خام به یک چت‌بات قابل‌استفاده ایفا می‌کند. با این حال، بیشتر الگوریتم‌های RLHF موجود برای سنجش پاسخ‌های منفرد طراحی شده‌اند و به پایداری یا انسجام رفتاری در گفت‌وگوهای چندمرحله‌ای توجهی ندارند. در نتیجه، مدل‌ ممکن است صرفاً ظاهر تعامل انسانی را بازسازی کند، بی‌آنکه به هدف بلندمدت تعامل توجهی داشته باشد.

3. آیا اضافه کردن داده‌ی گفت‌وگوی بیشتر در RLHF موثر است؟

افزودن داده‌های گفت‌وگومحور بیشتر در مرحله‌ی RLHF می‌تواند تا حدی مفید باشد، اما مسأله‌ی اصلی یعنی نبود درک هدف، همچنان پابرجا است. همان‌طور که پژوهشگر شناخته‌شده‌ی حوزه‌ی یادگیری تقویتی، سرگی لوین، بیان می‌کند:

«تفاوت اساسی میان یادگیری ترجیحات و درک نیت کاربران، همان تفاوت میان تقلید از رفتار دلخواه و پیگیری هدف واقعی آن‌هاست.»

به همین دلیل، برای دستیابی به چت‌بات‌هایی که واقعاً بتوانند تعاملاتی هدف‌محور و سازگار با نیازهای کاربر ارائه دهند، لازم است فراتر از رویکردهای فعلی در پیش‌آموزش و تنظیم دقیق بیندیشیم.

سیستم گفت‌ و گوی هدفمند

در ظاهر، اینکه یک مدل زبانی بزرگ (LLM) بتواند در طول یک گفت‌وگو تمرکز خود را حفظ کند، ویژگی مثبتی به نظر می‌رسد. اما واقعیت این است که حفظ تمرکز، تنها بخشی از مسیر تعامل هوشمند است. یک چت‌بات یا دستیار دیجیتال، صرفاً با باقی‌ماندن روی موضوع، به هدف نهایی گفت‌وگو نمی‌رسد. آنچه اهمیت دارد، توانایی پیش‌برد هدف کاربر در یک تعامل چندمرحله‌ای و معنادار است.

موارد استفاده و کاربردهای عوامل هوش مصنوعی در صنایع مختلف
هوش مصنوعی در صنایع مختلف

نیاز به برنامه‌ریزی بلندمدت در مدل‌های زبانی

یکی از مهم‌ترین چالش‌هایی که امروز در طراحی و ارزیابی مدل‌های زبانی مطرح است، موضوع برنامه‌ریزی بلندمدت است. برخلاف گفت‌وگوهای ساده که در چند جمله به پایان می‌رسند، بسیاری از تعاملات کاربردی در دنیای واقعی نیازمند تبادل اطلاعات، تصمیم‌گیری مشترک و سازگاری با شرایط متغیر هستند.

برای مثال:

  • در وظیفه‌ای به‌نام گفت‌وگوی مبتنی بر تصمیم‌گیری (Decision-Oriented Dialogue)، مدل باید با کاربر همکاری کند تا درباره موضوعی پیچیده مثل برنامه‌ریزی سفر، انتخاب مسیر شغلی یا هماهنگی بین چند فرد تصمیم‌گیری کند.

چرا این سنجش‌ها مهم‌اند؟

ایجاد چنین بنچمارک‌هایی نه‌تنها راهی برای اندازه‌گیری پیشرفت مدل‌ها فراهم می‌کند، بلکه می‌توانند به‌عنوان سیگنال پاداش برای آموزش مدل‌های جدید مورد استفاده قرار بگیرند. به‌ویژه در یادگیری تقویتی (Reinforcement Learning)، چنین بازخوردهایی نقش حیاتی در بهینه‌سازی رفتار مدل ایفا می‌کنند.

البته، تعریف این پاداش‌ها در عمل بسیار دشوار است. باید مشخص شود «موفقیت» در یک گفت‌وگوی هدف‌محور چگونه ارزیابی می‌شود، که این موضوع به زمینه‌ی کاربردی، هدف کاربر و حتی ترجیحات فردی بستگی دارد. از طرف دیگر، جمع‌آوری داده برای چنین بنچمارک‌هایی زمان‌بر و پرهزینه است.

چالش کنترل رفتار مدل‌ها در مسیر گفت‌وگو

حتی اگر مدل بتواند هدف گفت‌وگو را در ابتدا درک کند، تداوم در مسیر و تطابق با هدف در طول چندین مرحله تعامل مسئله‌ای جداگانه است. به‌بیان دیگر، بسیاری از مدل‌ها ممکن است شروع خوبی داشته باشند، اما در میانه مسیر دچار انحراف شوند، هدف را فراموش کنند یا دقت پاسخ‌هایشان افت کند.

در حال حاضر، ابزارها و تکنیک‌های موجود برای کنترل مداوم و دقیق رفتار مدل‌ها در چنین شرایطی هنوز در مراحل اولیه هستند. این نشان می‌دهد که برای ساخت چت‌بات‌هایی واقعاً هوشمند و هدف‌محور، به راهکارهایی نیاز داریم که بتوانند:

  • هدف را در هر مرحله به مدل یادآوری کنند
  • رفتار مدل را در راستای آن هدف هدایت کنند
  • و در عین حال، انعطاف لازم برای مواجهه با تنوع گفت‌وگوها را حفظ نمایند

سوالات متداول

در ادامه، به مجموعه‌ای از پرسش‌هایی پرداخته‌ایم که ممکن است هنگام مطالعه این مطلب برایتان مطرح شده باشد. این سؤالات به‌همراه پاسخ‌هایی روشن و کاربردی ارائه شده‌اند تا درک بهتر و کامل‌تری از موضوع فراهم شود.

LLM چیست و چه کاربردی دارد؟

مدل زبانی بزرگ یا Large Language Model (LLM) یک نوع مدل هوش مصنوعی است که با استفاده از داده‌های متنی بسیار زیاد، یاد می‌گیرد چگونه جملات انسانی تولید کند. از LLM‌ها در چت‌بات‌ها، تولید محتوا، ترجمه، کدنویسی و پاسخ‌گویی خودکار استفاده می‌شود.

پرامپت (Prompt) چیست؟

پرامپت همان ورودی‌ای است که شما به مدل هوش مصنوعی می‌دهید تا پاسخی دریافت کنید. مثلاً وقتی از چت‌بات می‌پرسید «برای سفر به شیراز چه پیشنهادی داری؟»، این پرسش یک پرامپت است. در مدل‌های زبانی، پرامپت نقش مهمی در جهت‌دهی به پاسخ‌ها دارد.

سیستم پرامپت یا System Prompt چیست؟

System Prompt بخشی از ورودی اولیه‌ای است که شخصیت، نقش یا رفتار مدل را تعیین می‌کند. مثلاً می‌گوید «تو یک مشاور سفر هستی، پاسخ‌های مودبانه و دقیق بده». این بخش معمولاً برای کاربران پنهان است و توسط توسعه‌دهنده تنظیم می‌شود.

گفت‌وگوی هدف‌محور یعنی چه؟

گفت‌وگوی هدف‌محور نوعی تعامل چندمرحله‌ای بین انسان و چت‌بات است که حول یک هدف مشخص شکل می‌گیرد؛ مانند برنامه‌ریزی سفر، حل یک مسئله فنی یا خرید یک محصول. در این نوع تعامل، هر مرحله از گفت‌وگو در مسیر رسیدن به آن هدف پیش می‌رود.

بنچمارک در هوش مصنوعی به چه معناست؟

بنچمارک (Benchmark) مجموعه‌ای از آزمون‌ها و معیارهاست که برای ارزیابی کیفیت و عملکرد مدل‌های هوش مصنوعی استفاده می‌شود. برای مدل‌های زبانی، بنچمارک‌هایی مثل MMLU, HumanEval و Alpaca-Eval کاربرد دارند تا توانایی مدل در پاسخ‌گویی، استدلال یا برنامه‌نویسی سنجیده شود.

RLHF چیست و چرا مهم است؟

RLHF مخفف Reinforcement Learning from Human Feedback است. این روش به مدل کمک می‌کند تا با یادگیری از بازخورد انسان‌ها، پاسخ‌های بهتری تولید کند. نقش مهمی در تربیت چت‌بات‌هایی مثل ChatGPT دارد تا «مفید، مودب و بی‌خطر» باشند.

چرا مدل‌ها در گفت‌وگوهای طولانی دچار انحراف می‌شوند؟

مدل‌های زبانی معمولاً در پاسخ‌گویی‌های کوتاه خوب عمل می‌کنند، اما در گفت‌وگوهای چندمرحله‌ای ممکن است هدف را فراموش کنند یا پاسخ‌های بی‌ربط بدهند. یکی از دلایل آن محدودیت در حافظه متنی مدل و ضعف در برنامه‌ریزی بلندمدت است.

آیا می‌توان مدل‌های زبانی را در مسیر هدف کنترل کرد؟

بله، ولی هنوز روش‌های موثر کمی برای کنترل کامل رفتار مدل در گفت‌وگوهای چندمرحله‌ای وجود دارد. یکی از راهکارهای جدید، استفاده از الگوریتم‌هایی مانند Dialogue Action Tokens (DAT) است که کمک می‌کند مدل در مسیر هدف باقی بماند.

گفت‌وگوی مبتنی بر تصمیم‌گیری چه تفاوتی با چت معمولی دارد؟

در گفت‌وگوی معمولی هدف مشخصی وجود ندارد و تعامل‌ها پراکنده‌اند. اما در گفت‌وگوی مبتنی بر تصمیم‌گیری، مدل باید با کاربر همکاری کند تا به نتیجه‌ای مشخص برسند، مثلاً انتخاب یک مقصد سفر یا حل یک مشکل فنی.

شفافیت در هوش مصنوعی (AI Transparency): چرا برای انتخاب مهم است؟
شفافیت در هوش مصنوعی

جمع بندی

با وجود پیشرفت سریع مدل‌های زبانی، چالش‌ گفت‌وگوهای چندمرحله‌ای و هدف‌محور همچنان پابرجاست. مدل‌ها در تعاملات ساده خوب عمل می‌کنند، اما در مسیر رسیدن به اهداف واقعی کاربران، اغلب دچار انحراف یا افت عملکرد می‌شوند.

برای عبور از این محدودیت، نیاز به الگوریتم‌ها و ساختارهایی داریم که تمرکز مدل را در طول مکالمه حفظ کنند و آن را به همکاری موثر با انسان‌ها نزدیک‌تر کنند. آینده‌ موفق چت‌بات‌ها، نه در پیش‌بینی بهتر واژه‌ها، بلکه در درک نیت و همراهی هدفمند با کاربران رقم خواهد خورد.

به اشتراک بگذارید