آنچه در این مقاله میخوانید
- مدل هوش مصنوعی چیست؟
- مدلهای AI چطور کار میکنند؟
- تفاوت مدل و الگوریتم در هوش مصنوعی
- انواع مدل های هوش مصنوعی
- مدل های هوش مصنوعی و یادگیری ماشین
- تفاوت مدل مولد و تشخیصی (Generative vs. Discriminative)
- تفاوت مدل های طبقهبندی و رگرسیون
- چگونه مدل مناسب را انتخاب کنیم؟
- کاربرد مدل های هوش مصنوعی
- آموزش مدل های هوش مصنوعی
- مدل های پایه (Foundation Models)
- ارزیابی و تست مدل های هوش مصنوعی
- استقرار مدل های هوش مصنوعی
- جمعبندی
- سوالات متداول
مدل هوش مصنوعی چیست؟ کاربرد و انواع AI به زبان ساده
۱۰ خرداد ۱۴۰۴
مدلهای هوش مصنوعی، هستهی مرکزی بسیاری از سیستمهای هوشمند امروزی هستند. اما این اصطلاح دقیقا به چه معناست؟ یک مدل هوش مصنوعی در اصل برنامهای است که با یادگیری از دادههای گذشته، قادر است بهصورت خودکار تصمیم بگیرد یا پیشبینی کند؛ بدون اینکه نیاز به دخالت مداوم انسان داشته باشد. این مدلها با استفاده از الگوریتمهای ریاضی و آماری، الگوهایی را در دادهها شناسایی میکنند تا بتوانند به خروجی مورد انتظار برسند. در این مقاله از لیارا، نگاهی میاندازیم به چیستی مدلهای هوش مصنوعی، اگر شما هم مثل ما مجذوب قدرت و پیچیدگی این مدلها شدهاید، تا پایان مقاله همراه ما باشید تا لایههای عمیقتری از این دنیای هوشمند را کشف کنیم:)
آنچه در این مقاله میخوانید:
- مدل هوش مصنوعی چیست؟
- مدلهای AI چطور کار میکنند؟
- تفاوت مدل و الگوریتم در هوش مصنوعی
- انواع مدلهای هوش مصنوعی
- مدلهای هوش مصنوعی و یادگیری ماشین
- تفاوت مدل مولد و تشخیصی (Generative vs. Discriminative)
- تفاوت مدلهای طبقهبندی و رگرسیون
- چگونه مدل مناسب را انتخاب کنیم؟
- کاربرد مدلهای هوش مصنوعی
- آموزش مدلهای هوش مصنوعی
- مدلهای پایه (Foundation Models)
- آزمایش و استقرار مدلهای هوش مصنوعی
- جمعبندی
- سوالات متداول

مدل هوش مصنوعی چیست؟
مدل هوش مصنوعی(Artificial Intelligence) AI، سیستمی است که سعی میکند از روی دادهها، قواعد یا الگوهایی را کشف کند تا بتواند با کمک آنها، درباره دادههای جدید تصمیم بگیرد یا پیشبینی کند. در واقع مدل AI، هستهی تصمیمگیریه سیستم هوشمندی است که میتواند در موقعیتهای جدید، براساس آنچه در گذشته دیده، واکنش نشان دهد، و این دقیقا همان چیزی است که این مدلها را هوشمند میسازد.
یکی از اولین نمونههای موفق مدلهای هوش مصنوعی، برنامههای شطرنج و چکرز در دهه ۱۹۵۰ بودند. نکته جالب اینجاست که این مدلها قادر بودند در لحظه، به حرکات حریف انسانی خود پاسخ دهند؛ و نه اینکه صرفا مجموعهای از حرکات از پیش تعیین شده را دنبال کنند.
در عمل، مدلها بسته به نوع مساله، عملکردهای متفاوتی دارند. برخی برای دستهبندی اطلاعات مناسباند، برخی برای پیشبینی مقادیر عددی بهتر عمل میکنند و بعضی دیگر برای تولید محتوا بهترین کاربرد را دارند. همچنین در مسائل پیچیدهتر، معمولا از چند مدل به صورت همزمان استفاده میشود تا خروجی دقیقتری به دست آید. روشی که در یادگیری، تجمعی یا Ensemble Learning شناخته شده است.
کسب و کار خود را با دسترسی به API هوش مصنوعی ارتقاء دهید.
✅ ارائه توکن رایگان ✅سازگاری با OpenAI SDK ✅ دسترسی به ۲۰ مدل زبانی بزرگ
خرید سرویس هوش مصنوعی
مدلهای AI چطور کار میکنند؟
برای اینکه بدانیم مدل هوش مصنوعی چطور کار میکند، بهتر است ملموستر به ماجرا نگاه کنیم. در سادهترین حالت، مدل AI با تحلیل دادههای قبلی، یک نگاشت (Mapping) از ورودیها به خروجیها میسازد. اما آنچه این فرایند را قدرتمند و منحصربهفرد میکند، نحوهی یادگیری این نگاشت از دل دادهها است، که اینکار نه از قواعد خطی و صریح بلکه از طریق الگوریتمهای یادگیری انجام میشود.

مدلهای AI با توجه به نوع الگوریتمی که بر پایهی آن ساخته شدهاند، ممکن است ساختارهای متفاوتی داشته باشند. برای مثال، در مدلهای مبتنی بر یادگیری عمیق (Deep Learning)، فرایند یادگیری از طریق شبکهای از لایههای متصل بههم انجام میشود. هر لایه در این شبکه وظیفه دارد یک سطح مشخص از ویژگیهای داده را استخراج کند؛ از ویژگیهای ساده در لایههای اولیه گرفته تا مفاهیم پیچیدهتر لایههای عمیقتر. به زبان سادهتر، در اینجا، مدل سعی میکند دادههای خام را گامبهگام به نمایشهای قابل فهمتری تبدیل کند؛ طوری که در نهایت بتواند تصمیمگیری دقیقی بر اساس آن انجام دهد.
فرایند آموزش معمولا بهصورت زیر انجام میشود:
- ایجاد تابع پیشبینی
- مقایسه پیشبینی با واقعیت
- محاسبه خطای پیشبینی و بهروزرسانی پارامترها
- تکرار فرایند یادگیری
چرخه بالا تا زمانی ادامه پیدا میکند که مدل، به سطح مطلوبی از دقت برسد و یا در اصطلاح همگرا شود. در عمل، یعنی مدل هوش مصنوعی بعد از آموزش، میتواند دادههای جدید را مشاهده کند، الگوهایی که قبلا یاد گرفته را روی آنها اعمال کند و تصمیمی بگیرد یا پیشبینیای بدون نیاز به دخالت انسان انجام دهد.
نکته مهم در عملکرد مدلهای AI، قابلیت تعمیم (Generalization) آنها است. مدلی موفق است که نهتنها روی دادههای آموزشی خوب عمل کند، بلکه در مواجهه با دادههای جدید نیز عملکرد خود را حفظ کرده و بهترین نتایج را ارائه دهد.
بهترین کتابخانههای پایتون برای هوش مصنوعی را در مقاله زیر مشاهده کنید.
کتابخانههای پایتون برای هوش مصنوعی
تفاوت مدل و الگوریتم در هوش مصنوعی
اگر به تازگی وارد دنیای هوش مصنوعی و یادگیری ماشین شدهاید، احتمالا واژههای مدل و الگوریتم را زیاد شنیدهاید، و شاید آنها را جای هم استفاده کردهاید. اما واقعیت این است که این دو مفهوم، نقشهای کاملا متفاوتی در ساختار یک سیستم هوشمند دارند.
الگوریتم، مسیر یادگیری مدل است
الگوریتمها در واقع روشی برای یادگیری هستند که مشخص میکنند چطور مدل باید از روی دادهها، الگوها را کشف کند. بطوریکه الگوریتم، خود به تنهایی هیچکاری انجام نمیدهد؛ فقط دستورالعملی برای یادگیری است.
مدل، نتیجه یادگیری است
از سوی دیگر، مدل خروجی نهایی الگوریتم یادگیری است. در واقع همان چیزی که بعد از آموزش روی دادهها، ایجاد میشود و میتواند تصمیم بگیرد. به بیان ساده، مدل حاصل اجرای الگوریتم روی دادهها میباشد.
انواع مدل های هوش مصنوعی
مدلهای هوش مصنوعی بر اساس نوع وظیفهای که انجام میدهند و همچنین روشی که برای یادگیری استفاده میکنند، به دستههای مختلفی تقسیم میشوند. در ادامه با مهمترین و شناختهشدهترین انواع مدلهای AI آشنا میشویم.
مدلهای طبقهبندی (Classification Models)
مدلهای طبقهبندی برای حل مسائلی طراحی شدهاند که هدف در آنها، تخصیص ورودیها به یک یا چند کلاس مشخص و از پیشتعریف شده است. به بیان ساده، این مدلها یاد میگیرند که بر اساس ویژگیهای ورودی، پیشبینی کنند که این نمونه به کدام کلاس تعلق دارد.

برخی از کاربردیترین مدلهای طبقهبندی:
- رگرسیون لجستیک (Logistic Regression)
- ماشین بردار پشتیبان (Support vector machines)
- جنگل تصادفی (Random Forest)
- k نزدیکترین همسایه (K-Nearest Neighbors)
مدلهای رگرسیون (Regression Models)
این نوع مدلها، خروجیهای پیوسته و عددی مانند پیشبینی قیمت سهام، دما یا زمان تولید میکنند. مهمترین آنها عبارتاست از:

- رگرسیون خطی(Linear Regression)
- Gradient Boosting Regressor
- Deep Neural Networks برای مسائل رگرسیونی
مدلهای مولد (Generative Models)
مدلهای مولد، هدف اصلیشان یادگیری توزیع دادهها و تولید نمونههای جدید بر اساس آن است. برخلاف مدلهای تشخیصی که صرفا تصمیم میگیرند داده به کدام کلاس تعلق دارد، مدلهای مولد تلاش میکنند فرایند تولید داده را بازسازی کنند و در نتیجه میتوانند دادههایی بسازند که از لحاظ آماری شبیه دادههای واقعی باشند. این مدلها میتوانند دادههایی از انواع مختلف تولید کنند:
- تصویر (مانند ساخت چهرههای جعلی)
- متن (مانند تولید مقاله یا گفتوگوی منطقی)
- صدا یا موسیقی
- کد برنامهنویسی
- یا حتی ترکیبهایی از موارد بالا (مثلاً تبدیل متن به تصویر)

مدلهای مولد معمولاً بر پایه روشهای احتمالاتی یا شبکههای عصبی عمیق طراحی میشوند. دو نوع رایج در این حوزه شامل مدلهای تولید صریح (Explicit Generative Models) مانند Variational Autoencoders و مدلهای تولید ضمنی (Implicit Generative Models) مانند GANها هستند. انواع مهم مدلهای مولد عبارت است از:
- شبکههای متخاصم مولد (GANs)
- ترنسفورمر مولدِ از پیشآموزشدیده (GPT)
- اتوانکدر متغیر (VAE)
- شبکههای بیزی (Bayesian networks)
- ماشینهای محدود بولتزمن (RBMs)
- زنجیره مارکوف (Markov chains)
مدلهای تشخیصی (Discriminative Models)
هدف اصلی مدلهای تشخیصی، تفکیک بین کلاسها است. این مدلها یاد میگیرند که چگونه بر اساس ویژگیهای ورودی، احتمال تعلق آن داده به هر کلاس را محاسبه کنند. در اصطلاح آماری، این مدلها تابع احتمال P(y | x) را یاد میگیرند؛ یعنی احتمال اینکه نمونهی ورودی x به برچسب y تعلق داشته باشد.
برخلاف مدلهای مولد (Generative) که سعی میکنند هم توزیع دادهها را مدل کنند و هم کلاسبندی انجام دهند، مدلهای تشخیصی فقط روی مرزبندی و تصمیمگیری بین کلاسها تمرکز دارند. همین تمرکز باعث میشود این مدلها در بسیاری از مسائل طبقهبندی، از نظر دقت و عملکرد، بسیار قویتر ظاهر شوند.

برخی کاربردهای مهم مدل تشخیصی عبارت است از:
- تشخیص اسپم در ایمیلها
- طبقهبندی تصاویر پزشکی (سالم/بیمار)
- تحلیل احساسات (مثبت/منفی)
- تشخیص اشیاء در تصویر یا ویدیو
مدلهای پایه (Foundation Models)
مدلهای پایه یا Foundation Models به نسل جدیدی از مدلهای هوش مصنوعی اطلاق میشود که روی حجم بسیار بزرگی از دادههای بدون برچسب، آموزش دیدهاند، این مدلها، شبکههای عصبی عمیق و بزرگی هستند که روش کار دانشمندان داده را در یادگیری ماشین (ML) متحول کردهاند. بهجای توسعهی مدلهای هوش مصنوعی از صفر، متخصصان علوم داده معمولا از مدل پایه به عنوان نقطهی شروع استفاده میکنند؛ رویکردی که باعث میشود ساخت مدلهای یادگیری ماشین برای کاربردهای جدید، سریعتر و کمهزینهتر انجام شود.
یکی از ویژگیهای منحصربهفرد مدل پایه، انعطافپذیری آن است. این مدلها میتوانند طیف گستردهای از وظایف متفاوت را با دقت بالا بر اساس ورودیها (prompts) انجام دهند. برخی از نمونههای مدلهای پایه موارد زیر میباشند.
- GPT-4 (OpenAI): مدل زبانی قدرتمند با توانایی درک و تولید متن در زبانهای مختلف
- PaLM (Google): پایه گذار Gemini و محصولات آینده گوگل
- BERT (Google): اولین مدلهای پایه در حوزه زبان و مبنای مدلهای NLP
- LLaMA (Meta): قدرتمندترین مدل از مدلهای زبانی بزرگ؛ LLMها

یکی از کاربردهای مهم مدلهای پایه، خودکارسازی وظایف پیچیده و فرایندهای مبتنی بر استدلال است. در ادامه، مجموعهای از مهمترین کاربردهای این مدلها را آوردهایم.
- پشتیبانی هوشمند از مشتری
- ترجمه خودکار زبانهای طبیعی
- تولید و بازنویسی محتوا
- تولید تصویر از متن (Text-to-Image Generation)
- ویرایش و ترمیم تصاویر با کیفیت بالا
- استخراج اطلاعات از اسناد متنی و PDF
- پاسخ به پرسش و تحلیل زبان طبیعی
- درک و تفسیر چندوجهی (تصویر+متن)
- کمکیار رباتیک و کنترل تعاملی
- تولید کد و تکمیل خودکار برنامهنویسی
مدل های هوش مصنوعی و یادگیری ماشین
مدلهای هوش مصنوعی (AI) توانایی خودکارسازی تصمیمگیری را دارند، اما فقط مدلهایی که از یادگیری ماشین (ML) پشتیبانی میکنند، میتوانند به صورت مستمر، عملکرد خود را در گذر زمان بهینه کنند.
همهی MLها AI هستند؛ اما همهی AIها ML نیستند
در حالی که تمام مدلهای یادگیری ماشین زیرمجموعهای از هوش مصنوعی محسوب میشوند، همهی مدلهای AI لزوما از یادگیری ماشین استفاده نمیکنند و طبق یک قانون مشخص عمل میکنند. مانند:
- موتور قوانین (Rules Engine)
- سیستمهای خبره (Expert System)
- هوش مصنوعی نمادین (Symbolic AI)
برخلاف این مدلها که منطق محور هستند و با نام مدل نمادین (Symbolic AI) شناخته میشوند، مدلهای یادگیری ماشین با آمار و دادهها سروکار دارند. بهاین صورت که مدلهای ML با تمرین کردن و مشاهده مثالهای زیاد، الگوها را یاد میگیرند و به تدریج در پیشبینیها دقیقتر میشوند.
مدلهای یادگیری ماشین (Machine Learning) یا ML
در مدلهای نمادین (Symbolic AI)، رفتار سیستم با مجموعهای از قواعد صریح تعریف میشود؛ به عبارتی، منطق سیستم توسط توسعهدهنده مشخص میشود.
برای مثال، در یک سیستم مبتنی بر قانون، باید مشخص کنید: «اگر دما بیش از ۳۰ درجه بود، پنکه روشن شود.»
در مقابل، مدلهای یادگیری ماشین بدون دریافت چنین قواعد مستقیمی کار میکنند. در یادگیری ماشین، مدل با استفاده از مجموعهای از دادههای نمونه، الگوهای پنهان را کشف کرده و به مرور زمان یاد میگیرد که در چه شرایطی باید چه رفتاری از خود نشان دهد.
با مشاهده تعداد زیادی مثال واقعی، مدل میتواند روابط میان ویژگیها را شناسایی کرده و تصمیمگیریهای آینده را بر همین اساس انجام دهد. این توانایی در یادگیری و تطبیق با دادههای جدید، همان چیزی است که مدلهای ML را به ابزاری قدرتمند در هوش مصنوعی تبدیل کرده است.
انواع یادگیری در مدلهای ML
روشهای یادگیری در یادگیری ماشین معمولا در سه دستهی کلی جای میگیرند:

1. یادگیری با نظارت (Supervised Learning)
همانطور که از نام این الگوریتم پیداست، در این نوع یادگیری، یک ناظر وجود دارد و این ناظر به الگوریتم یادگیری ماشین در فرایند یادگیری کمک میکند. برای مثال اگر هدف مدل، تشخیص گربه از سگ در تصاویر باشد، متخصص داده باید تصاویر نمونه را با برچسبهای “گربه” و “سگ”، و ویژگیهایی مانند اندازه، شکل برچسبگذاری کند. در طول آموزش، مدل از این برچسبها برای یادگیری ویژگیهای ظاهری هر دسته استفاده میکند و خروجی را بر اساس این ویژگیها حدس میزند.
2. یادگیری بدون نظارت (Unsupervised Learning)
در این روش، برخلاف روش یادگیری با نظارت، هیچ برچسبی وجود ندارد. مدل باید خودش ساختار پنهان داده را کشف کند. الگوریتمهای بدون نظارت معمولا با شناسایی الگوها و همبستگیها، دادهها را خوشهبندی میکنند.
برای مثال، فروشگاههای آنلاین مانند آمازون از این روشها برای سیستمهای توصیهگر (Recommendation Systems) استفاده میکنند.
3. یادگیری تقویتی (Reinforcement Learning)
مدل یادگیری تقویتی از طریق آزمون و خطا یاد میگیرد. خروجیهای درست پاداش میگیرند و خروجیهای نادرست تنبیه میشوند. این نوع مدل در کاربردهایی مانند پیشنهاد محتوای شبکههای اجتماعی، معاملات الگوریتمی بازار سهام بهکار میروند.
یادگیری عمیق (Deep Learning)
یادگیری عمیق نوعی از یادگیری ماشین است که عمدتا در زیرشاخههای یادگیری بدون نظارت قرار میگیرد و مبتنی بر ساختاری بهنام شبکههای عصبی مصنوعی است؛ ساختاری که تا حدی از مغز انسان الهام گرفته شده است.
در یادگیری عمیق، داده از میان لایههای متوالی از نورونها عبور میکند. هر لایه ویژگیهای پیچیدهتری را استخراج میکند تا مدل بتواند الگوها را بهتر درک کند. این فرایند را پیشانتشار (Forward Propagation) مینامند.
در مقابل، برای اصلاح خطاها و بهبود عملکرد، از روشی بهنام پس انتشار (Backpropagation) استفاده میشود که در آن وزنها و بایاسهای شبکه بر اساس میزان خطا تنظیم میشوند.
یادگیری عمیق اساس پیشرفتهترین کاربردهای AI است؛ از جمله مدلهای زبانی بزرگ (LLMs) مانند GPT، که قلب موتورهای گفتگو، تولید متن، تحلیل معنا و حتی برنامهنویسی خودکار هستند. البته باید توجه کرد که آموزش مدلهای یادگیری عمیق نیازمند منابع محاسباتی بسیار بالا میباشد.
Flowise چیست؟ ابزاری قدرتمند برای توسعه و مدیریت هوش مصنوعی
Flowise چیست؟
تفاوت مدل مولد و تشخیصی (Generative vs. Discriminative)
یکی از روشهای رایج برای دستهبندی مدلهای هوش مصنوعی، تقسیم آنها به دو دستهی اصلی است:
- مدلهای مولد (Generative)
- مدلهای تشخیصی (Discriminative)
تفاوت اصلی این دو مدل، در نحوهی مدلسازی دادهها و نوع احتمالاتی است که پیشبینی میکنند.
- مدلهای مولد بهدنبال مدلسازی احتمال مشترک P(x, y) هستند. این مدلها میخواهند بدانند «چه احتمالی وجود دارد که نمونهی x و برچسب y همزمان ظاهر شوند؟» به بیان سادهتر، آنها نه تنها برچسبگذاری را یاد میگیرند، بلکه میکوشند ساختار درونی دادهها را هم فهمیده و بازتولید کنند. همین ویژگی است که به آنها اجازه میدهد دادههای جدید خلق کنند.
- در مقابل مدلهای تشخیصی تنها به دنبال یادگیری احتمال شرطی P(y | x) هستند. یعنی صرفا یاد میگیرند که «با داشتن x، احتمال اینکه y درست باشد، چقدر است؟» این مدل بهجای درک یا بازسازی داده، تمرکزش بر مرزبندی دقیق بین کلاسها و تصمیمگیری سریع است.
در جدول زیر بهصورت خلاصه تفاوتهای این دو مدل را آوردهایم.
ویژگی | مدل مولد (Generative) | مدل تشخیصی (Discriminative) |
---|---|---|
نوع احتمال | P(x, y) | P(y | x) |
هدف اصلی | بازسازی داده و تولید نمونه جدید | پیشبینی برچسب برای دادهی ورودی |
نیاز به مدلسازی توزیع داده | دارد | ندارد |
پیچیدگی محاسباتی | بیشتر | کمتر |
قابلیت تولید داده جدید | دارد (مثلاً تولید متن، تصویر، صدا) | ندارد |
انواع مدلها | GPT، VAE، GAN، Diffusion Models | Logistic Regression، SVM، BERT، ResNet |
چه زمانی باید از مدل مولد استفاده کنیم و چه زمانی از مدل تشخیصی؟
انتخاب بین مدل مولد و تشخیصی بستگی به نوع مساله دارد. اگر هدف درک عمیقتر از ساختار داده یا تولید دادههای جدید باشد، مدلهای مولد انتخاب بهتری هستند. اما اگر فقط تصمیمگیری سریع و دقیق را بخواهید، مانند تشخیص احساسات، دستهبندی تصاویر، مدلهای تشخیصی مناسبتر هستند.
تفاوت مدل های طبقهبندی و رگرسیون
یکی از پایهایترین تقسیمبندیها در یادگیری ماشین، تفکیک بین مدلهای Classification و Regression است. این تمایز نه به الگوریتمها، بلکه به ماهیت خروجی مورد انتظار در یک مسئله مربوط میشود. برای مثال، در رگرسیون، دادههای آب و هوایی امروز داده شده و مثلا در خروجی دمای فردا پیشبینی میشود. اما در دسته بندی، دادهها داده شده تا بگوید فردا چه نوع آب و هوایی داریم. مثلا آفتابی، ابری-آفتابی، بارانی و غیره

مدلهای رگرسیون
مدلهای رگرسیون برای زمانی طراحی شدهاند که خروجی یک مقدار پیوسته (Continuous Value) باشد. هدف، پیشبینی یک عدد واقعی است که میتواند روی بازهی پیوسته نوسان کند.
رگرسیون در هستهی خودش، یک مسئله نگاشت از فضای ویژگیها X به یک مقدار عددی y است. یعنی: f:Rn→R
مدلهایی مانند Linear Regression برای زمانی مناسباند که رابطهی بین متغیرهای ورودی و خروجی تقریبا خطی و ساده باشد. در مقابل اگر با دادههایی سروکار دارید که رابطه آنها پیچیدهتر و غیرخطی هستند، میتوانید از مدلهایی مانند Polynomial Regression یا Support Vector Regression (SVR) استفاده کنید.
همچنین مدلهایی مانند Quantile Regression در شرایطی کاربرد دارند که پیشبینی مقدار به تنهایی کافی نباشد. این مدلها امکان تخمین مقادیر در بخشهای مختلف توزیع خروجی را فراهم میکنند؛ موضوعی که در تحلیل ریسک، سنجش عدم قطعیت و ارزیابی سناریوهای خوشبینانه یا بدبینانه اهمیت بالایی دارد.
مدلهای طبقهبندی
در مقابل، مدلهای طبقهبندی زمانی بهکار میروند که خروجی مدل، یک برچسب گسسته باشد. در این نوع مسائل، هدف پیشبینی این است که یک نمونه ورودی به کدام کلاس یا دسته تعلق دارد. این دستهبندی میتواند دودویی (Binary Classification) مانند تشخیص ایمیل اسپم از غیر اسپم یا چندکلاسه(Multi-Lable) و چندبرچسبی مثل دستهبندی تصاویر پزشکی یا تحلیل نیت کاربر در سامانههای پردازش زبان طبیعی (NLP) باشد.
از نظر ریاضی، مسائل طبقهبندی معمولا بهصورت تخمین تابع احتمال شرطی زیر بیان میشوند: P(y | x)
به این معنی که میخواهیم با داشتن ویژگیهای ورودی x، احتمال تعلق آن به هر یک از کلاسهای ممکن y را تخمین بزنیم. الگوریتمهای متداولی که در این مدلها بهکار میروند، از دسته مدلهای تشخیصی هستند از جمله:
- رگرسیون لجستیک (Logistic Regression)
- قضیه نیو بیزین (Naive Bayes)
- درخت تصمیم (Decision Trees)
- Transformerهایی که برای طبقهبندی فاینتیون شدهاند
یک نکته جالب و گاها گمراه کننده اینجاست که با وجود اینکه نام رگرسیون لجستیک به ظاهر به مدلهای رگرسیونی اشاره دارد، این مدل در عمل یک الگوریتم طبقهبندی دودویی است. خروجی آن، احتمال تعلق به کلاس خاص است؛ نه یک مقدار عددی پیوسته.
برای آشنایی با انواع پلتفرمهای هوش مصنوعی مکالمهای، مقاله زیر را مطالعه کنید.
هوش مصنوعی مکالمهای
چگونه مدل مناسب را انتخاب کنیم؟
انتخاب مدل مناسب برای یک پروژه هوش مصنوعی، یکی از حیاتیترین تصمیمات است. مدل خوب، نه فقط باید دقیق باشد، بلکه باید متناسب با نوع داده، هدف پروژه ،منابع محاسباتی و شرایط اجرا باشد. برای شروع، ابتدا باید نوع خروجی مورد انتظار و پیچیدگی مسئله را در نظر بگیرید.
در جدول زیر، برخی پارامترهای مهم در انتخاب مدل هوش مصنوعی را آوردهایم.
وضعیت مسئله شما چیست؟ | نوع مدل پیشنهادی | نمونه مدلها |
---|---|---|
خروجی یک عدد پیوسته است | مدل رگرسیون | Linear Regression، DNN Regressor |
خروجی یک برچسب گسسته است | مدل طبقهبندی (Classification) | Logistic Regression، SVM، BERT |
میخواهید داده تولید کنید (مثل متن، تصویر، صدا) | مدل مولد (Generative) | GAN، GPT، VAE |
میخواهید مرز بین کلاسها را تشخیص دهید | مدل تشخیصی (Discriminative) | Logistic Regression، ResNet |
دادهها دارای ساختار دنبالهدار یا زمانی هستند | مدل ترتیبی یا سری زمانی | RNN، LSTM، ARIMA |
به دنبال تحلیل بدون برچسب هستید | مدل بدون نظارت (Unsupervised) | K-Means، PCA، DBSCAN |
نکته کاربردی: اگر داده زیاد ولی منابع محدود دارید، مدلهای سادهتر مانند رگرسیون خطی و لجستیک شروع مناسبی برای راهاندازی مدل هستند. اما برای دادههای پیچیدهتر مانند تصاویر، صدا و زبان به سراغ مدهای عمیق یا پایه بروید. اگر نمیدانید کدام مدل پایه مناسب است، توصیه میکنیم از مدل پایه GPT و BERT استفاده کنید.
کاربرد مدل های هوش مصنوعی
واقعیت این است که هیچکدام از این دو دسته مدل؛ مولد (Generative) یا تشخیصی (Discriminative) نسبت به همدیگر برتر نیستند. نوع مسئله، داده و هدف نهایی سیستم تعیین میکند که کدام یک عملکرد بهتری خواهد داشت. در بسیاری از پروژهها، حتی ترکیب این دو بهترین نتیجه را میدهد.
اگر هدف، صرفا طبقهبندی باشد، مانند فیلتر کردن اسپم، تحلیل احساسات در متن، یا شناسایی بیماری از تصاویر پزشکی، مدلهای تشخیصی انتخاب مناسبتری هستند، زیرا این مدلها فقط یاد میگیرند که بر اساس ورودی، خروجی به کدام کلاس تعلق دارد.
اما اگر مسئله فراتر از طبقهبندی باشد، بهطور مثال بخواهید دادهی جدید تولید کنید، ساختار پنهان داده را یاد بگیرید یا درک عمیقتری از فضای داده داشته باشید؛ مدلهای مولد ضروریاند.
پیشبینی قیمت مسکن با مدل رگرسیون
در حوزه املاک و مستغلات، شرکتهایی مانند Zillow و Redfin از مدل رگرسیون خطی برای پیشبینی قیمت خانه استفاده میکنند. این مدل با تحلیل ویژگیهایی مانند موقعیت جغرافیایی، متراژ، تعداد اتاق، عمر بنا و وضعیت بازار، میتوانند قیمت تقریبی یک ملک را با دقت خوبی برآورد کنند.
- نوع مدل: رگرسیون
- خروجی: قیمت واقعی (مقدار عددی پیوسته)
- مزیت: تحلیل بلادرنگ هزاران داده برای تصمیمگیری سریعتر در خرید یا فروش
دستهبندی ایمیلها با مدلهای زبانی (BERT)
یا در یک استارتاپ فعال در حوزه CRM، برای خودکارسازی دستهبندی ایمیلهای ورودی مشتریان، از مدل BERT (یکی از مدلهای پایه در NLP) استفاده شد. این مدل با یادگیری از هزاران ایمیل قبلی، میتواند پیامهای جدید را در دستههایی مانند پشتیبانی فنی، درخواست خرید، شکایت، پیشنهاد محصول و غیره طبقهبندی کند.
- نوع مدل: طبقهبندی (Classification)
- خروجی: برچسب متنی مثلاً «پشتیبانی»
- مزیت: پاسخدهی سریع، کاهش بار نیروی انسانی، بهبود تجربه کاربری
مثالهای دیگر:
- در سیستمهایی مانند تکمیل خودکار متن (autocomplete)، اصلاح غلطهای املایی (spell check) یا چتباتها، مدلهای زبانی مولد مثل GPT کارشان این است که کلمه یا جملهی بعدی را حدس بزنند.
- در مدلهای بینایی مولد، میتوان از روی نویز، تصویر باکیفیت تولید کرد. (مانند Diffusion Models)
- گاها در طبقهبندی (مثل Navie Bayes) از مدل مولد استفاده میشود، زیرا میتواند احتمال تولید داده از هر کلاس را محاسبه کند.
15 تا از بهترین GPTها در ChatGPT را در مقاله زیر مشاهده کنید.
بهترین ChatGPT ها
آموزش مدل های هوش مصنوعی
فرایند یادگیری در مدلهای هوش مصنوعی، اساسا به معنای استخراج ساختارهای آماری و روابط پنهان از دادههای نمونه است. مدلی که آموزش میبیند، با استفاده از این توزیعهای آماری، تلاش میکند تا رفتار یا پدیدهای را که در دادههای آموزشی مشاهده شده، به ورودیهای جدید تعمیم دهد.
دادههای برچسب خورده در آموزش مدل
در روشهای یادگیری نظارتشده (Supervised) و نیمه نظارت شده (Semi-supervised)، این دادهها باید از قبل توسط انسانها، معمولا دیتاساینتیستها؛ برچسبگذاری شوند و اگر درست و دقیق انجام شود، میتواند اثربخشی مدل را به شکل چشمگیری افزایش دهد. یکی از مزیتهای مهم یادگیری نظارت شده این است که اگر ویژگیهای مهم بهخوبی استخراج شده باشند، معمولا مدل با حجم کمتری از دادهها هم میتواند به نتایج دقیق برسد.

پیچیدگیهای دادههای واقعی در آموزش مدل
مدلها، باید با دادههایی آموزش ببینند که از محیط واقعی جمعآوری شدهاند. این دادهها معمولا شامل نویزها، پیچیدگیها و تنوعهایی هستند که در دادههای ساختگی وجود ندارد. بنابراین، مدلی که با دادهی واقعی آموزش دیده، معمولا عملکرد بهتری دارد.
اما دستیابی به دادههای واقعی همیشه ساده نیست؛ ممکن است دادهها ناقص، پرهزینه یا شامل اطلاعات حساس باشند. همین موضوع باعث میشود، سازمانها بهسراغ راهکارهای جایگزین بروند.
استفاده از دادههای غیرواقعی در آموزش مدل
در شرایطی که دادهی واقعی کافی نباشد، دادههای مصنوعی (synthetic) یا تقویت شده (augmented) را بررسی خواهیم کرد. این دادهها میتوانند با کمک الگوریتمهایی مانند GAN یا حتی تکنیکهای سادهتر مانند چرخاندن و نویز دادن به دادههای تصویری، تولید شوند.
هر چند این دادهها به تنهایی جایگزین داده واقعی نمیشوند، اما در موارد زیادی به مدل کمک میکنند تا قبل از مواجهه با داده واقعی، مفاهیم پایه را یاد بگیرد.
نحوه آموزش مدل
آموزش مدلهای یادگیری ماشین، صرفا وارد کردن داده به الگوریتم نیست. کیفیت و ساختار داده، نوع مسئلهای که مدل قرار است آن را حل کند و نزدیکی دادههای آموزشی به شرایط واقعی، نقش کلیدی دارند. مدلی که بر اساس دادهی اشتباه یا ناکامل یاد بگیرد، حتی با پیچیدهترین معماری هم به نتیجهی قابل اعتماد نخواهد رسید. بنابراین آموزش موفق، نتیجهی یک طراحی منسجم در کل چرخه یادگیری میباشد؛ نه صرفا پیادهسازی یک بخش از الگوریتم.
افزایش اندازه و پیچیدگی مدل ها
مدلهای یادگیری عمیق، بهخصوص مدلهای زبانی بزرگ (LLM)ها، با افزایش تعداد پارامترها، نیاز شدیدی به دادهی بیشتر و متنوعتر پیدا میکنند. برای مثال GPT-3 یا BLOOM هر دو با بیش از ۱۷۵ میلیارد پارامتر، بدون دسترسی به انبوهی از دادههای متنی بههیچ عنوان قابل آموزش نیستند. اما هر چقدر مدل بزرگتر میشود، تهیه داده نه تنها سختتر، بلکه پرهزینهتر، کندتر و پیچیدهتر نیز میشود.
حذف Bias در داده و مدل
دادههای واقعی اغلب حامل سوگیریهای اجتماعی، تبعیضهای تاریخی و الگوهای نابرابرند. مدلهایی که با این دادهها آموزش میبینند، ناخواسته همان سوگیریها را میآموزند و در مقیاس بزرگتر مجددا آنها را بازتولید میکنند.
در حوزههایی مانند استخدام، سلامت یا قضاوت، این بازتولید میتواند به تصمیمهای ناعادلانه منجر شود. بنابراین، صرفا دقت مدل کافی نیست و باید عدالت در خروجی نیز بررسی شود.
برای کاهش این مشکل، ابزارهایی مانند FairIJ و روشهایی مثل FairReprogram توسعه یافتهاند که امکان اصلاح مدلها و کاهش سوگیری را در مراحل مختلف آموزش فراهم میکند.
Overfitting و Underfitting در مدل های یادگیری ماشین
مدلی که بیش از حد با دادههای آموزشی تطبیق پیدا کند، دچار بیشبرازش (Overfitting) میشود. در این حالت، مدل بهجای یادگیری الگوهای کلی و قابل تعمیم، جزئیات خاص و حتی نویز موجود در دادهها را به خاطر میسپارد. نتیجه این خواهد بود که عملکرد مدل در دادههای جدید، یعنی دادههایی خارج از مجموعه آموزش، بهطور چشمگیری افت میکند.
در نقطه مقابل، زمانی که مدل نتواند حتی ساختارهای ابتدایی داده را درست و دقیق یاد بگیرد، به کمبرازش (Underfitting) دچار میشود. یعنی ظرفیت مدل یا کیفیت آموزش آنقدر پائین بوده که ارتباطات معنادار بین ورودی و خروجی را درک نکرده است.

هر دو وضعیت باعث ضعف جدی در عملکرد مدل خواهند شد. هدف از آموزش موثر ایناست که مدل تعمیمپذیر باشد؛ نه صرفا دادههای آموزشی را حفظ کند، نه از درک الگوهای واقعی باز بماند. پیدا کردن تعامل بین دقت مدل روی دادههای آموزشی و توانایی تعمیم دادن به دادههای جدید، یکی از چالشهای اصلی در آموزش مدلهای یادگیری ماشین است.
مدل های پایه (Foundation Models)
همانطور که پیشتر گفتیم، مدلهای پایه(Foundation Models)، مانند GPT یا BERT، مدلهای یادگیری عمیق از پیشآموزش دیدهای هستند که روی دادههای بزرگ و متنوع آموزش داده شدهاند تا الگوهای کلی و قابل تعمیم را یاد بگیرند.
این مدلها بهجای شروع از صفر، نقطهی آغاز مناسبی برای توسعه و سفارشیسازی در کاربردهای خاص هوش مصنوعی هستند. بهجای ساخت مدل جدید میتوان با فاینتیونینگ (fine-tuning) یا تغییر معماری، همین مدلها را برای مسائل خاص مانند تحلیل پزشکی یا پردازش زبان تخصصی تطبیق داد. این کار باعث صرفهجویی قابل توجهی در زمان و انرژی و منابع محاسباتی میشود. در بسیاری از کاربردهای مدرن، فاینتیونینگ جای خود را به پرامپتتیونینگ (Prompt Tuning) داده است؛ روشی سبکتر که بهجای تغییر مدل، ورودی آن را طوری طراحی میکند که مدل را به سمت خروجی مطلوب هدایت کند.
طبق برآورد آزمایشگاه MIT-IBM، استفاده از مدلهای از پیش آموزشدیده بهجای آموزش مدل از صفر، میتواند مصرف منابع محاسباتی و انرژی را تا هزار برابر کاهش دهد.
ارزیابی و تست مدل های هوش مصنوعی
آموزش فقط نیمی از مسیر ساخت یک مدل خوب است؛ نیمهی مهم آن، آزمودن مدل در شرایط واقعی و اندازهگیری دقیق نحوه کارکرد آن است. این مرحله مشخص میکند که آیا مدل واقعا دادهها را فهمیده یا فقط آنها را حفظ کرده است. در این بخش، متریکها و روشهای ارزیابی، نقش داور را دارند که به سه روش زیر، تست مدل را انجام میدهند.
۱. اعتبار سنجی متقابل (Cross-validation)
اگر مدلی را فقط با دادههایی تست کنیم که خودش قبلا آنرا دیده، مثل این است که دانشآموزی را با تمرینهای کتابش امتحان کنیم. Cross-validation راهحلی برای این مسئله است؛ داده را به بخشهایی تقسیم میکنیم و به مدل فرصت میدهیم خودش را در شرایط جدید محک بزند. چهار تکنیک کاربردی اعتبار سنجی متقابل، در ادامه آورده شده است:
k-fold: در این روش، مدل بارها آموزش میبیند و هر بار بخشی از دادهها برای تست استفاده میشوند.
Holdout: در اینجا، یکبار برای همیشه، دادهها به دو بخش آموزشی و اعتبارسنجی تقسیم میشوند. این روش سریع و پر ریسک است.
Monte Carlo: با استفاده از این تکنیک، دادهها را به طور تصادفی به تعدادی پارتیشن تقسیم میشوند.
Leave-p-out: تمام ترکیبهای ممکن از p داده، تست میشوند. این روش دقیق اما از نظر محاسباتی سنگین است.
۲. متریکهای مدلهای طبقهبندی (Classification Metrics)
در مدلهایی با خروجی گسسته (مانند باینری یا چندکلاسه)، متریکها معمولا بر اساس ماتریس درهمریختگی (Confusion Matrix)، جدولی که تعداد مثبتهای واقعی، منفیهای واقعی، مثبتهای کاذب و منفیهای کاذب را نشان میدهد، محاسبه میشوند. ماتریس درهمریختگی شامل موارد زیر است:
- True Positive (TP): پیشبینی درست کلاس مثبت
- True Negative (TN): پیشبینی درست کلاس منفی
- False Positive (FP): پیشبینی مثبت اشتباه
- False Negative (FN): پیشبینی منفی اشتباه
متریکهای سنجش دقت و کارایی:
- Accuracy: نسبت پیشبینیهای صحیح به کل نمونهها را محاسبه میکند.
- Precision: درصد پیشبینیهای مثبت که واقعا مثبت بودهاند را نشان میدهد.
- Sensitivity: درصد نمونههای مثبت واقعی که درست تشخیص داده شدهاند.
- F1 Score: میانگین هامونیک Precision و Sensitivity را برای تعادل بین آنها محاسبه میکند.
- Confusion Matrix: ماتریس درهم ریختگی بهطور کلی نشان میدهد، مدل در کدام کلاسها درست عمل کرده و در کدام کلاسها بیشتر دچار خطا شده است.
۳. متریکهای مدلهای رگرسیون (Regression Metrics)
در مدلهای رگرسیون، خروجی همیشه پیوسته است. بنابراین ارزیابی باید بر اساس فاصله بین خروجی پیشبینی شده و مقدار واقعی انجام شود. متریکهای رایج این مدل، شامل موارد زیر است:
- (Mean Absolute Error (MAE (میانگین قدرمطلق خطاها)
- Mean Squared Error (MSE) (میانگین مجذور خطاها)
- Root Mean Square Error (RMSE) (ریشه دوم MSE)
- Mean Absolute Percentage Error (MAPE) (میانگین درصد خطای مطلق نسبت به مقدار واقعی)
این متریکها هر کدام نقش مهم در تضمین تعمیمپذیری (Generalization) مدل دارند و انتخاب متریک مناسب باتوجه به کاربرد و ماهیت دادهها، یکی از اقدامات مهم در طراحی مدلهای یادگیری ماشین میباشد.
استقرار مدل های هوش مصنوعی
برای اجرا و استقرار یک مدل هوش مصنوعی در دنیای واقعی، باید آن را روی زیرساختی مستقر کرد تا از نظر پردازش و حافظه، توان اجرای محاسبات سنگین مدل را داشته باشد. حتی اگر یک مدل در مرحله توسعه (Proof of Concept) به نتایج قابل قبولی رسیده باشد، نبود برنامهریزی دقیق برای Pipeline اجرایی و منابع سختافزاری میتواند مانع از ورود آن به مرحلهی عملیاتی شود.
فریمورکهای متنباز یادگیری ماشین مانند PyTorch، TensorFlow و Caffe2، امکان استقرار و اجرای مدلها را تنها با چند خط کد فراهم میکنند. این ابزارها به دلیل اکوسیستم فعال و انعطافپذیریشان، انتخاب اول بسیاری از توسعهدهندگان حرفهای شدهاند.
از نظر سختافزاری، انتخاب پردازنده بستگی مستقیم به نوع مدل و میزان بار محاسباتی دارد:
- CPU (پردازنده مرکزی): برای مدهایی با ساختار سبکتر یا وظایف غیرموازی، پردازندههای مرکزی کافی و مقرونبه صرفه هستند.
- GPU (پردازنده گرافیکی): برای مدلهای یادگیری عمیق که نیازمند پردازشهای موازی گسترده هستند؛ مانند شبکههای عصبی با میلیونها پارامتر، استفاده از GPU ضروری است. این پردازندهها با توان بالا، اجرای مدلهای سنگین را بهشکل قابل توجهی تسریع میکنند.
در آخر باید بگوییم، استقرار کامل و بدون نقص یک مدل، صرفا به کدنویسی وابسته نیست؛ بلکه به شناخت دقیق از نیازهای محاسباتی مدل، ابزارهای مناسب و محدودیتهای زیرساختی بستگی دارد. بدون این زیرساخت، بهترین مدلها هم در حد یک ایده، روی کاغذ باقی میمانند.
جمعبندی
مدل هوش مصنوعی، هستهی تصمیمگیرنده هر سیستم هوشمند است. ساختاری ریاضی که با یادگیری از دادهها، توان پیشبینی، طبقهبندی یا تولید را دارد. اما ساخت یک مدل دقیق و قابل اعتماد، تنها به انتخاب الگوریتم یا معماری خلاصه نمیشود. در این مقاله از بلاگ لیارا دیدیم که انتخاب درست بین مدلهای طبقهبندی، رگرسیون و تشخیصی بستگی به ماهیت خروجی و هدف نهایی ما دارد. مدل فقط با دادههای باکیفیت و برچسبخورده، بدون سوگیری و منطبق با واقعیت میتواند تعمیمپذیر شود و روی دادههای دیگر بخوبی جواب دهد. و در آخر مدل زمانی ارزش دارد که بتوان آن را روی زیرساخت مناسب (CPU, GPU) بهصورت پایدار، مستقر و اجرا کرد.
سوالات متداول
تفاوت یادگیری ماشین و هوش مصنوعی چیست؟
هوش مصنوعی یعنی توانایی سیستمها در تقلید یادگیری و تصمیمگیری، یادگیری ماشین با الگوریتمها، الگوها را از دل دادهها استخراج میکند و تصمیمگیری را خودکار میسازد.
مدل هوش مصنوعی چیست؟
مدل هوش مصنوعی(Artificial Intelligence) AI، سیستمی است که سعی میکند از روی دادهها، قواعد یا الگوهایی کشف کند تا بتواند با کمک آنها، درباره دادههای جدید تصمیم بگیرد یا پیشبینی کند.
آیا همیشه برای اجرای مدلها به GPU نیاز داریم؟
خیر، برای مدلهای کوچک یا کم حجم، CPUکافیست. GPU بیشتر برای آموزش مدلهای بزرگ یا پردازشهای همزمان استفاده میشود.
تفاوت یک مدل و الگوریتم در چیست؟
الگوریتم دستورالعمل یادگیری مدل است، مدل خروجی حاصل از اجرای آن الگوریتم روی داده، در واقع مدل همان چیزی است که بعد از آموزش در استقرار استفاده میشود.
در چه شرایطی از مدل تشخیصی (Discriminative) استفاده میکنیم؟
زمانی که هدف فقط طبقهبندی دقیق باشد، مدلهای تشخیصی مثل SVM، BERT یا Logistic Regression معمولا عملکرد بهتری دارند و مناسبتر هستند.
آیا همیشه دقت (Accuracy) معیار خوبی برای ارزیابی مدل است؟
خیر، در دادههای نامتوازن یا چندکلاسه، معیارهایی مانند F1، AUC یا MCC، مدل را بهتر ارزیابی میکنند.