آنچه در این مقاله میخوانید
چرا چتباتها نیت ما را نمیفهمند؟ از تولید زبان تا گفتوگوی با LLM ها
۱۳ تیر ۱۴۰۴
چتباتهای مبتنی بر مدلهای زبانی بزرگ (LLM) هر ماه قدرتمندتر میشوند و در آزمونهایی مثل MMLU, HumanEval و MATH رکوردهای تازهای ثبت میکنند. مدلهایی مانند GPT-4o و Sonnet 3.5 نمونههایی از این روند رو به رشد هستند. اما با نزدیک شدن به سقف عملکرد در این بنچمارکها، یک پرسش کلیدی مطرح میشود: آیا تجربه واقعی کاربران هم به همان اندازه بهبود یافته است؟
در آیندهای که هوش مصنوعی نه جایگزین انسان بلکه همراه و همکار اوست، ارزیابی مدلها تنها با آزمونهای ایستا و تکمرحلهای کافی نیست. چرا که این معیارها نمیتوانند توانایی چتباتها در تعاملهای چندمرحلهای، هدفمحور و تطبیقپذیر را بهدرستی نشان دهند.
در ادامه خواهید خواند:
- چرا گفتوگوی هدفمند اهمیت دارد؟
- فرآیند ساخت سیستمهای گفتوگویی در گذشته و حال چگونه بوده است؟
- سیستمهای گفتوگومحور فعلی چقدر پایدار هستند؟
- چه عواملی در سیستمهای گفتوگو هنوز حل نشدهاند؟
- سیستم گفتوگوی هدفمند
- سوالات متداول
- جمع بندی

چرا گفت و گوی هدفمند اهمیت دارد؟
گفتوگوی هدفمند یعنی چتبات و کاربر چند مرحله با هم تعامل میکنند تا به یک هدف مشخص برسند؛ مثل برنامهریزی سفر یا حل یک مشکل فنی. این نوع مکالمه طبیعیتر، دقیقتر و موثرتر از پاسخهای تک مرحلهای است.
مثلا تصور کنید میخواهید سفر گروهی برنامهریزی کنید. گفتوگوی چندمرحلهای باعث میشود چتبات سلیقه همه را در نظر بگیرد و پیشنهاد بهتری بدهد. یا وقتی میخواهید با کمک چتبات کدی بنویسید، این تعامل چندمرحلهای مانند برنامهنویسی دونفره عمل میکند و احتمال خطار را کم میکند.
اگر چتبات بتواند تعامل را ادامه دهد، اطلاعات شما را به خاطر بسپارد و پاسخهایش را با نیازهای شما تنظیم کند، تجربه بسیار بهتری خواهید داشت. اینجا است که تفاوت یک چتبات ساده با یک همکار هوشمند مشخص میشود.
فرآیند ساخت سیستم های گفت و گو در گذشته و حال چگونه بوده است؟
بیایید به دهه 1970 بازگردیم، زمانی که راجر شانک (Roger Schank) «اسکریپت رستوران» را به عنوان نوعی سیستم گفتوگو معرفی کرد . این اسکریپت تجربه معمول یک رستوران را به مراحل مختلفی مثل ورود، سفارش غذا، غذا خوردن و پرداخت تقسیم میکند که برای هر مرحله جملات و پاسخهای از پیش نوشته شده وجود دارد. در آن زمان، هر بخش از گفتوگو در این سناریوها با دقت برنامهریزی شده بود تا سیستمهای هوش مصنوعی بتوانند مکالمات واقعی را تقلید کنند. سیستمهایی مثل ELIZA که یک شبیهساز رواندرمانگر به سبک راجرین بود، و PARRY که فردی پارانوئید را تقلید میکرد، نمونههای اولیه دیگری از سیستمهای گفتوگو پیش از عصر یادگیری ماشین بودند.
با سرویس هوش مصنوعی لیارا، مدلهای AI خود را بهسادگی اجرا و مقیاسدهی کنید.
✅ پشتیبانی از GPU ✅ استقرار سریع ✅ منابع منعطف
استفاده از سرویس هوش مصنوعی
اگر این روش را با سیستمهای گفتوگوی مبتنی بر مدلهای زبانی بزرگ (LLM) امروز مقایسه کنیم، ممکن است عجیب به نظر برسد که مدلهایی که صرفاً برای پیشبینی توکن بعدی آموزش دیدهاند، چگونه میتوانند مکالمه انجام دهند. بنابراین، بیایید نگاهی دقیقتر به نحوه ساخت سیستمهای گفتوگو بیندازیم و ببینیم در قالببندی گفتوگو چه نقشی دارد:
پیشآموزش (Pretraining)
یک مدل ترتیبی (sequence model) برای پیشبینی توکن بعدی روی مجموعه عظیمی از متون اینترنتی آموزش داده میشود. این مجموعه شامل ترکیبی از اخبار، کتابها، کدهای گیتهاب و همچنین دادههایی از فرومهایی مانند ردیت و استکاکسچنج است که ممکن است شامل دادههای گفتوگومحور هم باشد.
دیتاست | درصد نمونهگیری | تعداد ایپاک | حجم دادهها |
---|---|---|---|
CommonCrawl | 67٪ | 1.10 | 3.3 ترابایت |
C4 | 15٪ | 1.06 | 783 گیگابایت |
GitHub | 4.5٪ | 0.64 | 328 گیگابایت |
Wikipedia | 4.5٪ | 2.45 | 83 گیگابایت |
کتابها (Books) | 4.5٪ | 2.23 | 85 گیگابایت |
مقالات آکادمیک (ArXiv) | 2.5٪ | 1.06 | 92 گیگابایت |
StackExchange | 2٪ | 1.03 | 78 گیگابایت |
معرفی قالببندی گفتوگو (Dialogue formatting)
چون مدل فقط رشتههای متنی را پردازش میکند و تاریخچه گفتوگو به صورت ساختاریافته شامل پرامپتهای سیستم و تبادلهای قبلی بهتر نمایان میشود، لازم است قالب خاصی برای تبدیل دادهها به متن وارد شود. برخی توکنایزرهای کتابخانه Huggingface این قابلیت را دارند که با تابعی مانند tokenizer.apply_chat_template
این قالببندی را برای کاربران ساده کنند. هر مدل ممکن است قالببندی متفاوتی داشته باشد، اما معمولاً پرامپتهای سیستم با تگهایی مثل <system>
یا <INST>
مشخص میشوند تا مدل در هنگام پردازش توجه بیشتری به آنها کند. پرامپت سیستم نقش مهمی در تطبیق مدل زبانی با کاربردهای مختلف و تضمین رفتار امن آن دارد (در بخش بعدی بیشتر توضیح داده خواهد شد). قابل ذکر است که انتخاب قالببندی در این مرحله دلخواه است و در دادههای پیشآموزش چنین قالببندی وجود ندارد.
تنظیم دقیق با بازخورد انسانی (RLHF)
در این مرحله، چتبات برای تولید پاسخهای مطلوب یا نامطلوب به صورت مستقیم پاداش یا تنبیه میشود. این اولین بار است که قالببندی گفتوگو در دادههای آموزش دیده شده ظاهر میشود. RLHF یک مرحله تنظیم دقیق است که به دلیل حجم داده بسیار کمتر نسبت به پیشآموزش و همچنین استفاده از مجازات KL و تنظیم وزنهای هدفمند (مثل LoRA)، اهمیت زیادی دارد. به گفته Yann LeCun، اگر پیشآموزش را مثل پختن یک کیک بدانیم، RLHF فقط همان گیلاس کوچکی است که روی کیک گذاشته میشود.
مهندسی پرامپت Prompt Engineering چیست؟
مهندسی پرامپت
سیستم های گفت و گو محور فعلی چقدر پایدار هستند؟
وقتی چتباتی را در نقش خاصی قرار میدهیم (مثلا مشاور سفر یا استاد دانشگاه)، انتظار داریم این نقش را تا پایان گفتوگو حفظ کند. اما آیا مدلهای امروزی واقعا چنین کاری را انجام میدهند؟
چرا این موضوع مهم است؟
- اگر مدل نقش خود را فراموش کند، دچار خطاهای محتوایی و رفتار غیرقابل پیشبینی میشود.
- ممکن است از چارچوبهای ایمنی که برایش تعریف شده نیر عبور کند(مثلا پاسخهای خطرناک یا اشتباه تولید کند).
چه مشکلی مشاهده شده است؟
پژوهشگران متوجه شدهاند که:
- مدلها در ابتدای گفتوگو عملکرد خوبی دارند.
- اما بعد از چند نوبت، دیگر به «System Prompt» پایبند نیستند.
- مدلهایی مثل GPT-3.5 و LLaMA2 حتی با وجود توان پردازش بالا، بعد از حدود 1600 توکن دچار افت تمرکز میشوند.
چرا این اتفاق میافتد؟
چون مدلها هدفمحور نیستند؛ فقط زبان را پیشبینی میکنند
انسانها | مدلهای زبانی |
---|---|
تعاملشان بر پایه نیت است | بر پایه پیشبینی توکن بعدی است |
هدف را در ذهن نگه میدارند | نقش را فراموش میکنند چون بخشی از متن است |
راهکار پیشنهادی پژوهشگران
- استفاده از تکنیکی بهنام Split-Softmax.
- این روش کمک میکند تا مدل بتواند تمرکز خود را روی نقش تعریفشده حفظ کند.
- هنوز در مراحل آزمایشی است، اما نتایج امیدوارکننده بودهاند.
پایداری در حفظ نقش، یک چالش جدی برای چتباتها است. اگرچه از نظر تئوری توان پردازش بالایی دارند، در عمل در حفظ انسجام و هدف گفتوگو ضعیف ظاهر میشوند. برای حل این مشکل، نیاز به طراحی هدفمحور و راهکارهای جدید وجود دارد.
چه عواملی در سیستم های گفت و گو هنوز حل نشده اند؟
مدلهای زبانی پیشرفته مانند GPT یا LLaMA در بسیاری از وظایف زبانی، عملکرد چشمگیری از خود نشان دادهاند. با این حال، در تعاملات هدفمحور و چندمرحلهای، هنوز با محدودیتهایی اساسی مواجه هستند. بررسی دقیقتر روند آموزش این مدلها، نشان میدهد که ریشهی این چالشها را میتوان در دو مرحلهی کلیدی یافت: پیشآموزش (Pretraining) و تنظیم دقیق با بازخورد انسانی (RLHF).
RAG یا Fine-tuning؟ انتخاب مناسب برای مدل های هوش مصنوعی
RAG یا Fine-tuning
1. آیا مرحله پیشپردازش (Pretraining) کافی است؟
در مرحلهی پیشآموزش، مدل با مجموعهای عظیم از دادههای متنی عمومی آموزش میبیند تا بتواند ساختار زبان را فرا گیرد و الگوهای نوشتاری مختلف را تقلید کند. این آموزش گسترده، مدل را قادر میسازد تا طیف وسیعی از «شخصیتهای اینترنتی» را بازسازی کند. اما زمانی که مدل در موقعیت مشخصی مانند «مشاور حقوقی» یا «مربی ورزشی» قرار میگیرد، معمولاً توانایی حفظ یکپارچگی رفتاری و ایفای پیوستهی همان نقش را ندارد. دلیل این امر آن است که مدل، بدون درک عمیق از نیت و هدف تعامل، صرفاً به تطبیق آماری با دادههایی میپردازد که در گذشته دیده است.
2. آیا RLHF (پاداش انسانی) کافی است؟
مرحلهی تنظیم دقیق با بازخورد انسانی (RLHF)، نقش مهمی در تبدیل یک مدل زبانی خام به یک چتبات قابلاستفاده ایفا میکند. با این حال، بیشتر الگوریتمهای RLHF موجود برای سنجش پاسخهای منفرد طراحی شدهاند و به پایداری یا انسجام رفتاری در گفتوگوهای چندمرحلهای توجهی ندارند. در نتیجه، مدل ممکن است صرفاً ظاهر تعامل انسانی را بازسازی کند، بیآنکه به هدف بلندمدت تعامل توجهی داشته باشد.
3. آیا اضافه کردن دادهی گفتوگوی بیشتر در RLHF موثر است؟
افزودن دادههای گفتوگومحور بیشتر در مرحلهی RLHF میتواند تا حدی مفید باشد، اما مسألهی اصلی یعنی نبود درک هدف، همچنان پابرجا است. همانطور که پژوهشگر شناختهشدهی حوزهی یادگیری تقویتی، سرگی لوین، بیان میکند:
«تفاوت اساسی میان یادگیری ترجیحات و درک نیت کاربران، همان تفاوت میان تقلید از رفتار دلخواه و پیگیری هدف واقعی آنهاست.»
به همین دلیل، برای دستیابی به چتباتهایی که واقعاً بتوانند تعاملاتی هدفمحور و سازگار با نیازهای کاربر ارائه دهند، لازم است فراتر از رویکردهای فعلی در پیشآموزش و تنظیم دقیق بیندیشیم.
سیستم گفت و گوی هدفمند
در ظاهر، اینکه یک مدل زبانی بزرگ (LLM) بتواند در طول یک گفتوگو تمرکز خود را حفظ کند، ویژگی مثبتی به نظر میرسد. اما واقعیت این است که حفظ تمرکز، تنها بخشی از مسیر تعامل هوشمند است. یک چتبات یا دستیار دیجیتال، صرفاً با باقیماندن روی موضوع، به هدف نهایی گفتوگو نمیرسد. آنچه اهمیت دارد، توانایی پیشبرد هدف کاربر در یک تعامل چندمرحلهای و معنادار است.
موارد استفاده و کاربردهای عوامل هوش مصنوعی در صنایع مختلف
هوش مصنوعی در صنایع مختلف
نیاز به برنامهریزی بلندمدت در مدلهای زبانی
یکی از مهمترین چالشهایی که امروز در طراحی و ارزیابی مدلهای زبانی مطرح است، موضوع برنامهریزی بلندمدت است. برخلاف گفتوگوهای ساده که در چند جمله به پایان میرسند، بسیاری از تعاملات کاربردی در دنیای واقعی نیازمند تبادل اطلاعات، تصمیمگیری مشترک و سازگاری با شرایط متغیر هستند.
برای مثال:
- در وظیفهای بهنام گفتوگوی مبتنی بر تصمیمگیری (Decision-Oriented Dialogue)، مدل باید با کاربر همکاری کند تا درباره موضوعی پیچیده مثل برنامهریزی سفر، انتخاب مسیر شغلی یا هماهنگی بین چند فرد تصمیمگیری کند.
چرا این سنجشها مهماند؟
ایجاد چنین بنچمارکهایی نهتنها راهی برای اندازهگیری پیشرفت مدلها فراهم میکند، بلکه میتوانند بهعنوان سیگنال پاداش برای آموزش مدلهای جدید مورد استفاده قرار بگیرند. بهویژه در یادگیری تقویتی (Reinforcement Learning)، چنین بازخوردهایی نقش حیاتی در بهینهسازی رفتار مدل ایفا میکنند.
البته، تعریف این پاداشها در عمل بسیار دشوار است. باید مشخص شود «موفقیت» در یک گفتوگوی هدفمحور چگونه ارزیابی میشود، که این موضوع به زمینهی کاربردی، هدف کاربر و حتی ترجیحات فردی بستگی دارد. از طرف دیگر، جمعآوری داده برای چنین بنچمارکهایی زمانبر و پرهزینه است.
چالش کنترل رفتار مدلها در مسیر گفتوگو
حتی اگر مدل بتواند هدف گفتوگو را در ابتدا درک کند، تداوم در مسیر و تطابق با هدف در طول چندین مرحله تعامل مسئلهای جداگانه است. بهبیان دیگر، بسیاری از مدلها ممکن است شروع خوبی داشته باشند، اما در میانه مسیر دچار انحراف شوند، هدف را فراموش کنند یا دقت پاسخهایشان افت کند.
در حال حاضر، ابزارها و تکنیکهای موجود برای کنترل مداوم و دقیق رفتار مدلها در چنین شرایطی هنوز در مراحل اولیه هستند. این نشان میدهد که برای ساخت چتباتهایی واقعاً هوشمند و هدفمحور، به راهکارهایی نیاز داریم که بتوانند:
- هدف را در هر مرحله به مدل یادآوری کنند
- رفتار مدل را در راستای آن هدف هدایت کنند
- و در عین حال، انعطاف لازم برای مواجهه با تنوع گفتوگوها را حفظ نمایند

سوالات متداول
در ادامه، به مجموعهای از پرسشهایی پرداختهایم که ممکن است هنگام مطالعه این مطلب برایتان مطرح شده باشد. این سؤالات بههمراه پاسخهایی روشن و کاربردی ارائه شدهاند تا درک بهتر و کاملتری از موضوع فراهم شود.
LLM چیست و چه کاربردی دارد؟
مدل زبانی بزرگ یا Large Language Model (LLM) یک نوع مدل هوش مصنوعی است که با استفاده از دادههای متنی بسیار زیاد، یاد میگیرد چگونه جملات انسانی تولید کند. از LLMها در چتباتها، تولید محتوا، ترجمه، کدنویسی و پاسخگویی خودکار استفاده میشود.
پرامپت (Prompt) چیست؟
پرامپت همان ورودیای است که شما به مدل هوش مصنوعی میدهید تا پاسخی دریافت کنید. مثلاً وقتی از چتبات میپرسید «برای سفر به شیراز چه پیشنهادی داری؟»، این پرسش یک پرامپت است. در مدلهای زبانی، پرامپت نقش مهمی در جهتدهی به پاسخها دارد.
سیستم پرامپت یا System Prompt چیست؟
System Prompt بخشی از ورودی اولیهای است که شخصیت، نقش یا رفتار مدل را تعیین میکند. مثلاً میگوید «تو یک مشاور سفر هستی، پاسخهای مودبانه و دقیق بده». این بخش معمولاً برای کاربران پنهان است و توسط توسعهدهنده تنظیم میشود.
گفتوگوی هدفمحور یعنی چه؟
گفتوگوی هدفمحور نوعی تعامل چندمرحلهای بین انسان و چتبات است که حول یک هدف مشخص شکل میگیرد؛ مانند برنامهریزی سفر، حل یک مسئله فنی یا خرید یک محصول. در این نوع تعامل، هر مرحله از گفتوگو در مسیر رسیدن به آن هدف پیش میرود.
بنچمارک در هوش مصنوعی به چه معناست؟
بنچمارک (Benchmark) مجموعهای از آزمونها و معیارهاست که برای ارزیابی کیفیت و عملکرد مدلهای هوش مصنوعی استفاده میشود. برای مدلهای زبانی، بنچمارکهایی مثل MMLU, HumanEval و Alpaca-Eval کاربرد دارند تا توانایی مدل در پاسخگویی، استدلال یا برنامهنویسی سنجیده شود.
RLHF چیست و چرا مهم است؟
RLHF مخفف Reinforcement Learning from Human Feedback است. این روش به مدل کمک میکند تا با یادگیری از بازخورد انسانها، پاسخهای بهتری تولید کند. نقش مهمی در تربیت چتباتهایی مثل ChatGPT دارد تا «مفید، مودب و بیخطر» باشند.
چرا مدلها در گفتوگوهای طولانی دچار انحراف میشوند؟
مدلهای زبانی معمولاً در پاسخگوییهای کوتاه خوب عمل میکنند، اما در گفتوگوهای چندمرحلهای ممکن است هدف را فراموش کنند یا پاسخهای بیربط بدهند. یکی از دلایل آن محدودیت در حافظه متنی مدل و ضعف در برنامهریزی بلندمدت است.
آیا میتوان مدلهای زبانی را در مسیر هدف کنترل کرد؟
بله، ولی هنوز روشهای موثر کمی برای کنترل کامل رفتار مدل در گفتوگوهای چندمرحلهای وجود دارد. یکی از راهکارهای جدید، استفاده از الگوریتمهایی مانند Dialogue Action Tokens (DAT) است که کمک میکند مدل در مسیر هدف باقی بماند.
گفتوگوی مبتنی بر تصمیمگیری چه تفاوتی با چت معمولی دارد؟
در گفتوگوی معمولی هدف مشخصی وجود ندارد و تعاملها پراکندهاند. اما در گفتوگوی مبتنی بر تصمیمگیری، مدل باید با کاربر همکاری کند تا به نتیجهای مشخص برسند، مثلاً انتخاب یک مقصد سفر یا حل یک مشکل فنی.
شفافیت در هوش مصنوعی (AI Transparency): چرا برای انتخاب مهم است؟
شفافیت در هوش مصنوعی
جمع بندی
با وجود پیشرفت سریع مدلهای زبانی، چالش گفتوگوهای چندمرحلهای و هدفمحور همچنان پابرجاست. مدلها در تعاملات ساده خوب عمل میکنند، اما در مسیر رسیدن به اهداف واقعی کاربران، اغلب دچار انحراف یا افت عملکرد میشوند.
برای عبور از این محدودیت، نیاز به الگوریتمها و ساختارهایی داریم که تمرکز مدل را در طول مکالمه حفظ کنند و آن را به همکاری موثر با انسانها نزدیکتر کنند. آینده موفق چتباتها، نه در پیشبینی بهتر واژهها، بلکه در درک نیت و همراهی هدفمند با کاربران رقم خواهد خورد.