قبل از هر خروجی هوش مصنوعی، چه اتفاقی می افتد؟

خلاصه کنید:

هر بار که یک سیستم هوش مصنوعی پاسخی تولید می‌کند یا یک تراکنش را مشکوک تشخیص می‌دهد، در حال انجام استنتاج است. در این مرحله، مدل آموزش‌دیده داده جدید را می‌گیرد و آن را از میان لایه‌های پارامترهای از پیش یادگرفته عبور می‌دهد تا خروجی تولید شود. این کار در زمان بسیار کوتاه، در حد میلی‌ثانیه، انجام می‌شود و در مقیاس عملیاتی می‌تواند میلیون‌ها بار در روز تکرار شود.

با این حال، این سرعت بدون هزینه به دست نمی‌آید. هر درخواست استنتاج به توان پردازشی GPU و پهنای باند حافظه نیاز دارد و با بزرگ‌تر شدن مدل یا افزایش ترافیک، این مصرف هم بالا می‌رود. در چنین شرایطی، افزایش تاخیر مستقیما روی تجربه کاربر اثر می‌گذارد و هزینه زیرساخت هم می‌تواند از پیش‌بینی‌ها فراتر برود. وقتی این بار کاری در چند منطقه جغرافیایی پخش می‌شود، هماهنگ‌سازی و نگه‌داری آن پیچیده‌تر هم می‌شود.

در عمل، هنگام استقرار سیستم‌های یادگیری ماشین، مهم‌ترین مسئله فقط چگونگی آموزش مدل نیست، بلکه این است که مدل در زمان اجرا چقدر سریع و پایدار می‌تواند پاسخ تولید کند. شناخت درست استنتاج و عوامل موثر بر عملکرد آن، مستقیما روی انتخاب معماری و طراحی سیستم در پروژه‌های هوش مصنوعی اثر می‌گذارد.

استنتاج هوش مصنوعی (AI inference) چیست؟

در یادگیری ماشین، استنتاج (AI inference) به معنای استفاده از یک مدل آموزش‌دیده برای انجام پیش‌بینی روی داده‌ های جدید است. در واقع، هر بار که یک مدل هوش مصنوعی در یک کاربرد واقعی خروجی تولید می‌کند یا تصمیمی می‌گیرد، این عمل به‌عنوان استنتاج شناخته می‌شود. به زبان ساده، AI inference یعنی یک مدل آموزش‌دیده، الگوهایی را که از داده‌ های آموزشی یاد گرفته است، برای استنتاج خروجی درست برای یک ورودی مشخص به‌کار می‌گیرد.

تمام یادگیری ماشین در اصل به تشخیص الگوها برمی‌گردد. مدل‌ ها با استفاده از داده‌ های نمونه، آموزش داده می‌شوند تا عملکرد خوبی روی یک سری وظایف مشخص داشته باشند. در این مرحله، پارامترها و هایپرپارامترها تنظیم می‌شوند تا رفتار مدل با الگوهای داده‌ های آموزشی هماهنگ شود. فرض اصلی یادگیری ماشین این است که اگر داده‌ های آموزشی به شرایط واقعی نزدیک باشند، مدل می‌تواند در کاربردهای واقعی نیز پیش‌بینی‌ های دقیقی ارائه دهد.

با سرویس آماده هوش مصنوعی لیارا، پروژه‌های AI خود را بدون دردسر اجرا کنید.
✅ اجرای Inference سریع✅ مناسب مدل‌های متن‌باز✅ زیرساخت پایدار
خرید و راه‌اندازی سرویس هوش مصنوعی

بسیاری از اصطلاحات هوش مصنوعی پیچیده هستند، اما “AI inference” یک مفهوم ساده و قابل‌فهم است.

مدل پیش‌بینی بازار سهام، قیمت آینده را نمی‌داند؛ بر اساس شباهت با روندهای گذشته، نتیجه را استنتاج می‌کند.
مدل تشخیص هرزنامه، معنای واقعی ایمیل را نمی‌داند؛ بر اساس شباهت به نمونه‌ های قبلی، آن را دسته‌بندی می‌کند.
مدل زبانی بزرگ (LLM)، با توجه به الگوهای متنی آموزش‌دیده، کلمه یا توکن بعدی را مرحله‌ به‌ مرحله پیش‌بینی می‌کند.
شبکه‌ های اجتماعی نیز بر اساس رفتار قبلی کاربران، حدس می‌زنند چه محتوایی برای هر فرد جذاب‌تر است.

هدف آموزش هوش مصنوعی رسیدن به دقت و هم‌راستایی مدل است، اما هدف استنتاج اجرای همان مدل در محیط واقعی با بیشترین کارایی و کمترین هزینه است. یک مدل ممکن است در روش‌ های مختلف استنتاج عملکرد متفاوتی داشته باشد.

هیچ تنظیم واحد و بهینه‌ ای برای این مرحله وجود ندارد و انتخاب بهترین روش به نوع کاربرد، حجم کار و منابع سخت‌افزاری بستگی دارد. در عمل، هدف اصلی ایجاد تعادل میان سرعت پاسخ، مقیاس‌پذیری و هزینه است.

مراحل کلیدی:

آماده‌سازی ورودی: داده‌ های جدید (مانند تصویر یا متن) پیش‌پردازش می‌شوند تا با قالب داده‌ های آموزشی مدل هماهنگ شوند؛ برای مثال، تغییر اندازه یا نرمال‌سازی (normalization).

اجرای مدل: داده‌ ها در یک «عبور رو به جلو» (forward pass) از مدل عبور می‌کنند و الگوهای آموخته‌شده اعمال می‌شوند، بدون آنکه وزن‌ ها به‌روزرسانی شوند.

تولید خروجی: نتایج به‌صورت احتمال‌ ها، برچسب‌ ها یا تصمیم‌ ها ظاهر می‌شوند (برای مثال «۹۵٪ سگ» برای یک تصویر).

تفاوت بین آموزش (training) و استنتاج (inference) چیست؟

آموزش زمانی است که مدل یاد می‌گیرد. در این مرحله، داده‌ های حجیم به مدل داده می‌شود و مدل به‌صورت تکراری پارامترهای داخلی خود را تنظیم می‌کند تا بتواند الگوها را تشخیص دهد. به مدل ورودی به همراه پاسخ درست داده می‌شود (مثل تصاویر همراه با برچسب یا متن همراه با خروجی مورد انتظار). مدل پیش‌بینی انجام می‌دهد، آن را با پاسخ درست مقایسه می‌کند و برای کاهش خطا خود را اصلاح می‌کند. این چرخه بارها تکرار می‌شود تا مدل در پیش‌بینی دقیق شود. این مرحله نیازمند توان محاسباتی بالا است اما یک‌بار یا به‌صورت دوره‌ ای انجام می‌شود.

در مقابل، استنتاج پس از آموزش رخ می‌دهد؛ در این مرحله مدل آموزش‌دیده داده‌ های جدیدی را که قبلا ندیده است دریافت می‌کند و به‌صورت لحظه‌ ای خروجی یا پاسخ تولید می‌کند.

جنبه	آموزش مدل (AI Training)	استنتاج (AI Inference)
هدف	یادگیری الگوها و بهینه‌سازی دقت مدل	داده های ورودی جدید دیده نشده
داده‌های مورد استفاده	مجموعه داده‌های برچسب‌گذاری شده	داده های جدید و دیده نشده
خروجی	وزن‌های به‌روزشده مدل (مدل آموزش‌دیده نهایی)	پیش‌بینی، امتیاز، طبقه‌بندی، یا پاسخ تولید شده
نیازهای محاسباتی	بسیار بالا (GPU/کلاسترهای توزیع‌شده)	کمتر به ازای هر درخواست ولی حساس به تاخیر
حساسیت به زمان	آفلاین و غیرتعاملی	بلادرنگ یا نزدیک به بلادرنگ (کاربرمحور)
فراوانی	کم (آموزش اولیه و بازآموزی دوره‌ای)	زیاد (در هر درخواست اجرا می‌شود)
ساختار هزینه	هزینه بالای اولیه برای آموزش	هزینه جاری به ازای هر درخواست
تمرکز بر بهینه‌سازی	افزایش دقت و کاهش خطا	کاهش latency و هزینه، افزایش throughput

مثال: سیستم کنترل محتوای هوشمند

آموزش مدل (Training):
مدل با استفاده از میلیون‌ها پست برچسب‌گذاری‌شده مانند «مجاز»، «اسپم»، «نفرت‌پراکنی» یا «نقض قوانین» آموزش داده می‌شود. در این مرحله، مدل با تنظیم وزن‌های داخلی خود، الگوهای متن، لحن، کلمات کلیدی و زمینه را یاد می‌گیرد تا بتواند محتوای مضر را از محتوای سالم تشخیص دهد.
استنتاج (Inference):
وقتی کاربر یک پست جدید ارسال می‌کند، مدل آموزش‌دیده متن را در لحظه پردازش کرده و برای هر دسته‌بندی یک امتیاز احتمال تولید می‌کند. بر اساس این امتیازها، سیستم تصمیم می‌گیرد پست منتشر شود، محدود شود، علامت‌گذاری شود یا برای بررسی انسانی ارسال گردد.

انواع استنتاج در هوش مصنوعی

استنتاج در هوش مصنوعی بر اساس نحوه و زمان تولید پیش‌بینی‌ها دسته‌بندی می‌شود. برخی سیستم‌ها به‌صورت آنی به ورودی کاربر پاسخ می‌دهند، در حالی که برخی دیگر داده‌های حجیم را به‌صورت دوره‌ای یا به‌طور پیوسته همزمان با وقوع رویدادها پردازش می‌کنند. تفاوت اصلی این مدل‌ها در موارد زیر است:

معیارهای دسته‌بندی استنتاج عبارت‌اند از:

الگوی زمان درخواست (Request timing): زمان تولید پیش‌بینی‌ها؛ می‌تواند به‌صورت لحظه‌ای برای هر درخواست، در بازه‌های زمانی مشخص (scheduled intervals)، یا به‌صورت پیوسته هم‌زمان با ورود داده‌ها باشد.
الگوی جریان داده (Data flow pattern): نحوه حرکت داده در سیستم؛ شامل مدل‌های درخواست–پاسخ تکی (single request-response)، پردازش دسته‌ای داده‌های حجیم (batch processing)، یا پردازش جریانی و رویدادمحور (event-driven/streaming).
نیازمندی‌های پاسخ‌گویی (Responsiveness requirements): میزان تأخیر قابل‌قبول برای کاربرد؛ از پاسخ‌های در حد میلی‌ثانیه در سیستم‌های بلادرنگ تا خروجی‌های با تأخیر بیشتر در بارهای غیر فوری.

استنتاج بلادرنگ (Real-time / Online inference)

در این نوع استنتاج، هر درخواست به‌محض رسیدن جداگانه پردازش می‌شود و مدل همان لحظه خروجی را برمی‌گرداند. ساختار آن معمولاً به شکل «درخواست–پاسخ» است؛ یعنی هر ورودی کاربر یا هر API call یک اجرای مستقل از مدل را فعال می‌کند.

زمان پاسخ در این حالت بسته به پیچیدگی مدل و زیرساخت، معمولاً از چند میلی‌ثانیه تا چند ثانیه متغیر است.

استنتاج جریانی (Streaming inference)

در استنتاج جریانی، مدل به‌جای اینکه منتظر درخواست‌های جداگانه یا اجرای زمان‌بندی‌شده بماند، به‌طور پیوسته روی جریان داده‌های ورودی کار می‌کند. داده‌ها به‌صورت یک جریان مداوم و رویدادمحور وارد سیستم می‌شوند و مدل هم هم‌زمان با رسیدن داده‌های جدید، پیش‌بینی تولید می‌کند.

این روش از نظر سرعت پاسخ، بین استنتاج بلادرنگ و استنتاج دسته‌ای قرار می‌گیرد؛ سریع‌تر از پردازش‌های زمان‌بندی‌شده است، اما به‌جای درخواست‌های مستقل، با داده‌های پیوسته و در حال جریان سروکار دارد.

استنتاج دسته‌ای (Batch inference)

در استنتاج دسته‌ای، پیش‌بینی‌ها روی حجم بزرگی از داده به‌صورت یک‌جا و در بازه‌های زمانی مشخص اجرا می‌شوند. به‌جای پردازش لحظه‌ای، سیستم داده‌ها را به شکل batch پردازش می‌کند؛ معمولاً در قالب jobهایی که ممکن است چند دقیقه تا چند ساعت طول بکشند.

این فرایند معمولاً توسط job schedulerها یا workflow engineها مدیریت می‌شود و روی کلاسترهای محاسباتی توزیع‌شده اجرا می‌گردد. داده از سیستم‌های ذخیره‌سازی خوانده می‌شود، به‌صورت موازی پردازش می‌شود و در نهایت خروجی به شکل جدول‌های به‌روزشده، فایل‌ها یا رکوردهای دیتابیس ذخیره می‌شود.

نوع	توضیح	زمان پاسخ	جریان داده	کاربردها
استنتاج بلادرنگ (Online)	هر درخواست را به‌محض رسیدن به‌صورت جداگانه پردازش می‌کند	میلی‌ثانیه تا چند ثانیه	درخواست–پاسخ	چت‌بات‌ها، تشخیص تقلب، سیستم‌های پیشنهاددهی
استنتاج جریانی (Streaming)	داده‌های ورودی را به‌صورت پیوسته و بدون توقف تحلیل می‌کند	نزدیک به بلادرنگ	جریان پیوسته و رویدادمحور	پایش IoT، تشخیص رویدادهای مالی، کشف ناهنجاری
استنتاج دسته‌ای (Batch)	پیش‌بینی‌ها را روی حجم زیاد داده به‌صورت یک‌جا اجرا می‌کند	دقیقه تا ساعت (طبق زمان‌بندی)	پردازش حجمی (Bulk)	امتیازدهی اعتباری، گزارش‌های تحلیلی، ارزیابی دوره‌ای مدل

محیط‌های اجرای استنتاج در هوش مصنوعی

استنتاج هوش مصنوعی بر اساس نحوه و زمان تولید پیش بینی ها دسته بندی می شود. در برخی سامانه ها پاسخ ها بلافاصله پس از ورودی کاربر تولید می شوند، در برخی دیگر داده های حجیم به صورت دوره ای پردازش می شوند یا همزمان با وقوع رویدادها به صورت پیوسته پردازش می شوند. تفاوت اصلی در موارد زیر است:

زمان درخواست: زمان تولید پیش بینی ها؛ می تواند به صورت لحظه ای برای هر درخواست، در بازه های زمانی برنامه ریزی شده، یا به صورت پیوسته همراه با ورود داده باشد
الگوی جریان داده: نحوه حرکت داده در سامانه؛ شامل مدل درخواست و پاسخ تکی، پردازش دسته ای داده های حجیم، یا جریان داده مبتنی بر رویداد
میزان حساسیت به پاسخ: مدت زمان قابل قبول برای دریافت خروجی؛ از چند میلی ثانیه در سامانه های لحظه ای تا تاخیر بیشتر در بارهای کاری غیر فوری

استقرار در محل

در مدل استقرار در محل (On-Premise)، همه‌چیز روی زیرساخت فیزیکی سازمان اجرا می‌شود؛ سخت‌افزاری که خودتان مالک آن هستید و مدیریت کاملش را در اختیار دارید.

این مدل بیشترین سطح کنترل را روی بارهای کاری هوش مصنوعی فراهم می‌کند. از نحوه پردازش داده‌ها گرفته تا تخصیص منابع محاسباتی، همه چیز تحت سیاست‌های داخلی سازمان انجام می‌شود. به همین دلیل، در صنایع حساس مثل سلامت، مالی، دولت و حقوقی، انتخابی رایج است؛ جایی که امنیت داده و رعایت مقررات اولویت اصلی است.

اما این کنترل کامل، بدون هزینه نیست. راه‌اندازی زیرساخت On-Premise معمولاً به سرمایه‌گذاری اولیه بالا نیاز دارد؛ به‌خصوص وقتی پای مدل‌های بزرگ و بارهای پردازشی سنگین در میان باشد. علاوه بر آن، نگهداری و مدیریت این سیستم‌ها هم به تیم فنی متخصص و دائمی نیاز دارد.

استقرار ابری

در استقرار ابری، مدل ها روی سرورهای دور اجرا می شوند که توسط ارائه دهندگان شخص ثالث مانند IBM در مراکز داده بزرگ نگهداری می شوند. این شیوه امکان استفاده از سخت افزارهای قدرتمند را بدون نیاز به هزینه اولیه بزرگ برای خرید آن یا کار مداوم برای نگهداشت آن فراهم می کند. در چنین حالتی، استقرار ابری معمولا مسیر سریع تری برای افزایش مقیاس در پردازش به شمار می رود، به ویژه در شرایطی که نیاز به افزایش سریع منابع محاسباتی برای پاسخ به جهش تقاضا وجود دارد.

این انعطاف و افزایش مقیاس با معاوضه در مالکیت داده و در برخی موارد تاخیر و هزینه های بلند مدت همراه است. داده ممکن است بین کاربر و سرورهای ابری رفت و برگشت داشته باشد که ممکن است سرعت استنتاج را کاهش دهد، هرچند اغلب با سخت افزار قدرتمندتر ارائه شده توسط ارائه دهندگان بزرگ ابر جبران می شود. این موضوع همچنین پیچیدگی های نظری در مورد منشأ داده ایجاد می کند، زیرا داده در معرض نهادهای بیشتری نسبت به حالت on-prem قرار می گیرد.

استقرار لبه

استنتاج لبه نزدیک به منبع داده اجرا می شود، مانند فروشگاه های خرده فروشی، کارخانه ها یا دکل های مخابراتی، تا تاخیر و مصرف پهنای باند کاهش پیدا کند. در کاربردهایی مثل تحلیل ویدیو و پایش اینترنت اشیا، پردازش محلی داده کمک می کند تصمیم ها در حد میلی ثانیه گرفته شوند، بدون اتکا به ارتباط رفت و برگشت با سرورهای متمرکز ابری.

در یک فروشگاه خرده فروشی، یک دوربین امنیتی مسیرهای صندوق را پایش می کند. یک دستگاه کوچک لبه که در محل نصب شده، مدل بینایی ماشین (computer vision) را اجرا می کند که رفتارهای مشکوک مانند عبور بدون پرداخت را تشخیص می دهد. اگر موردی علامت گذاری شود، سامانه بلافاصله به کارکنان فروشگاه هشدار می دهد. خلاصه هشدارها و گزارش های روزانه بعدا برای بررسی متمرکز به سرور مرکزی ارسال می شوند.

استقرار روی دستگاه

استنتاج روی دستگاه مستقیما روی سخت افزار کاربر مانند گوشی هوشمند، لپ تاپ یا سامانه های نهفته اجرا می شود. هدف آن افزایش حریم خصوصی، کاهش وابستگی به اتصال شبکه، و پاسخ فوری در برنامه هایی مانند دستیار صوتی و احراز هویت زیستی است.

وقتی کاربر عبارت بیدار مانند “Hey, assistant” را بیان می کند، یک مدل شبکه عصبی که به صورت محلی روی دستگاه اجرا می شود، پیوسته برای تشخیص آن عبارت محرک مشخص گوش می دهد. صدا در زمان واقعی روی پردازنده CPU دستگاه یا تراشه اختصاصی هوش مصنوعی پردازش می شود. هنگامی که واژه بیدار تشخیص داده می شود، سامانه فعال شده و درخواست برای پردازش بیشتر به ابر ارسال می شود. در این حالت:

مدل تشخیص واژه بیدار (wake word) که آموزش دیده است روی دستگاه ذخیره می شود.
استنتاج به صورت پیوسته روی سخت افزار محلی اجرا می شود.
داده صوتی خام تا زمان فعال شدن از دستگاه خارج نمی شود.
دستیار حتی بدون اتصال فعال به اینترنت، پاسخ را به صورت فوری ارائه می دهد.

چگونه محیط مناسب استنتاج هوش مصنوعی را انتخاب کنیم

انتخاب محیط استنتاج به نیازهای تاخیر، حجم ترافیک، حساسیت داده و محدودیت های هزینه وابسته است. در بسیاری از سامانه های عملیاتی، تیم ها از یک رویکرد ترکیبی استفاده می کنند و پردازش روی دستگاه یا در لبه را با استنتاج ابری ترکیب می کنند.

انتخاب استنتاج ابری: اگر به مقیاس پذیری بالا، مدیریت متمرکز مدل و توان پردازش حجم زیاد ترافیک یا بار کاری سنگین GPU نیاز باشد.
انتخاب استنتاج لبه: اگر برنامه به تاخیر کم نزدیک منبع داده، کاهش مصرف پهنای باند یا پردازش در زمان نزدیک به لحظه در مکان های توزیع شده نیاز داشته باشد.
انتخاب استنتاج روی دستگاه: اگر حریم خصوصی در اولویت باشد، اجرای بدون اتصال شبکه لازم باشد یا پاسخ فوری روی سخت افزار کاربر مانند تلفن هوشمند مورد نیاز باشد.

مزایای استنتاج هوش مصنوعی

استنتاج هوش مصنوعی تعیین می کند که برنامه شما با چه سرعتی پاسخ می دهد، تا چه اندازه پایدار در مقیاس های مختلف عمل می کند، و منابع زیرساختی را با چه میزان کارایی مصرف می کند. زمانی که به درستی پیاده سازی شود، استنتاج هوش مصنوعی مزایای قابل اندازه گیری در کارایی و عملکرد عملیاتی فراهم می کند:

تصمیم گیری در لحظه: استنتاج به صورت پیوسته داده های زنده را به خروجی های ساختارمند مانند امتیازهای ریسک، دسته بندی ها، رتبه بندی ها یا متن تولید شده تبدیل می کند. این خروجی ها به برنامه ها ارسال می شوند. برای نمونه، مدل های تشخیص ناهنجاری می توانند فعالیت های غیرعادی را در لحظه شناسایی کنند و هشدارهای خودکار برای واکنش سریع تر عملیاتی ایجاد کنند.
استفاده کم هزینه تر از مدل: پس از آموزش یک مدل، می تواند میلیون ها پیش بینی را بدون نیاز به آموزش مجدد ارائه دهد. اگرچه استنتاج در مقیاس بالا هزینه بر است، روش هایی مانند دسته بندی ورودی ها (batching) و کوانتش (quantization) می توانند هزینه هر درخواست را در بارهای کاری پرترافیک مانند دستیارهای مبتنی بر مدل های زبانی بزرگ کاهش دهند.
تجربه کاربری بهینه تر: استنتاج با تاخیر کم مستقیما روی حس «هوشمند بودن» یک برنامه اثر می گذارد. اگر یک قابلیت هوش مصنوعی در 100 میلی ثانیه پاسخ بدهد به جای 2 ثانیه، کاربر آن محصول را پاسخگو، پایدار و قابل اعتماد درک می کند.
استقرار در مقیاس تولید: با افزایش ترافیک، خطوط لوله استنتاج با استفاده از زیرساخت توزیع شده و مقیاس دهی خودکار به صورت افقی گسترش پیدا می کنند. یک دستیار نوشتاری مبتنی بر هوش مولد که در یک پلتفرم SaaS یکپارچه شده است ممکن است در ساعات عادی چند صد کاربر داشته باشد، اما پس از عرضه یک محصول بتواند به راحتی ده ها هزار کاربر را پشتیبانی کند.
آزمایش سریع تر و تکرار نسخه های مدل: خطوط لوله استنتاج این امکان را فراهم می کنند که نسخه های جدید مدل بدون آموزش دوباره از ابتدا آزمایش و منتشر شوند. می توان با تقسیم کاربران به چند گروه مختلف، دو مدل را در قالب آزمون A/B بررسی کرد، یا از استقرار سایه (shadow deployment) استفاده کرد تا یک مدل جدید را روی ترافیک واقعی ارزیابی کرد بدون اینکه روی کاربران اثر بگذارد، یا از انتشار تدریجی (canary release) برای انتقال مرحله ای ترافیک به نسخه جدید قبل از انتشار کامل استفاده کرد.

چالش های استنتاج

زمانی که مدل ها با بارهای کاری عملیاتی روبه رو می شوند، پیچیدگی استنتاج هوش مصنوعی آشکار می شود. وقتی برنامه از حالت آزمایشی به استقرار در مقیاس بالا منتقل می شود، باید هزینه، کارایی و محدودیت های زیرساختی بررسی شوند.

هزینه بالای استنتاج در مقیاس بزرگ: بر اساس گزارش DigitalOcean Currents 2026، 49 درصد از پاسخ دهندگان هزینه بالای استنتاج را به عنوان یکی از چالش های اصلی مطرح کرده اند. استفاده مداوم از GPU، قیمت گذاری مبتنی بر توکن، و الگوهای ترافیکی غیرقابل پیش بینی در افزایش این هزینه ها نقش دارند.
حساسیت به تاخیر در بارهای کاری عملیاتی: برنامه های زمان واقعی به پاسخ های پایدار با تاخیر پایین در شرایط ترافیک متغیر نیاز دارند. گلوگاه های کارایی در سرویس دهی مدل، شبکه یا تامین سخت افزار می توانند تجربه کاربر و پایداری سامانه را کاهش دهند.
پیچیدگی زیرساخت و سربار هماهنگ سازی: بسیاری از تیم ها برای اجرای استنتاج به چندین ابزار و API وابسته هستند که این موضوع پیچیدگی عملیاتی را افزایش می دهد. هماهنگ سازی استقرار، تنظیم مقیاس پذیری خودکار و پایش در سامانه های توزیع شده نیازمند دانش تخصصی در زمان بندی GPU و متعادل سازی بار است.
پایداری و مسائل عملیاتی: خطوط لوله استنتاج باید تحت بار بالا پایدار بمانند و همزمان یکنواختی خروجی را حفظ کنند. اگر گره های استنتاج GPU که وظیفه پردازش کمک های رندر را دارند تحت همزمانی بالا از کار بیفتند، جلسات فعال ویرایش ویدیو ممکن است دچار اختلال شوند یا پیش نمایش ها متوقف شوند.

فرایند استنتاج هوش مصنوعی

استنتاج از طریق یک لایه ارائه مدل انجام می شود که درخواست ها را دریافت می کند، داده را پردازش می کند و خروجی را از طریق API برمی گرداند.

۱. پیش پردازش داده های ورودی

ورودی های خام مانند متن، تصویر، صوت یا داده های ساخت یافته بررسی و به قالب مورد انتظار مدل تبدیل می شوند. این مرحله می تواند شامل توکن سازی برای مدل های زبانی بزرگ، نرمال سازی، استخراج ویژگی یا تبدیل داده به تنسور باشد.

در مثال تشخیص تقلب، یک خرید 2400 دلاری در سائوپائولو همراه با اختلاف موقعیت مکانی حساب و دستگاه ناشناخته بررسی می شود. سیستم ویژگی هایی مثل مبلغ، نوع فروشگاه، اثر انگشت دستگاه، موقعیت جغرافیایی، زمان و تاریخچه خرید را استخراج می کند و آن ها را به یک بردار عددی قابل پردازش برای مدل تبدیل می کند.

۲. بارگذاری و راه اندازی مدل

مدل آموزش دیده همراه با وزن ها و معماری در حافظه بارگذاری می شود. در محیط های عملیاتی، این مدل ها معمولا در قالب کانتینر اجرا می شوند و از طریق ابزارهایی مثل TensorFlow Serving، TorchServe یا FastAPI ارائه می شوند.
در این حالت، مدل تشخیص تقلب از قبل در حافظه فعال است و از طریق یک سرویس کانتینری اجرا می شود و درخواست تراکنش از طریق API به endpoint مدل ارسال می گردد.

۳. محاسبه گذر رو به جلو

داده پردازش شده از شبکه عصبی عبور می کند و عملیات ماتریسی و تابع های فعال سازی خروجی را تولید می کنند. این مرحله معمولا روی GPU یا شتاب دهنده ها اجرا می شود تا تاخیر کاهش پیدا کند.
در مثال، مدل ترکیب دستگاه ناشناخته، موقعیت بین المللی و مبلغ بالا را با الگوهای یادگرفته شده از میلیون ها تراکنش مقایسه می کند و در نهایت امتیاز احتمال تقلب 0.92 را تولید می کند.

۴. پس پردازش پیش بینی ها

خروجی خام مدل به نتیجه قابل استفاده تبدیل می شود، مثل برچسب نهایی، امتیاز یا تصمیم سیستم. در این مرحله ممکن است آستانه گذاری یا قوانین تجاری اعمال شوند.

در این سناریو، مقدار 0.92 از آستانه 0.85 بالاتر است، بنابراین تراکنش به عنوان پرریسک علامت گذاری شده و به جای رد شدن، برای احراز هویت مرحله ای ارسال می شود.

۵. ارسال پاسخ و ثبت لاگ

نتیجه نهایی به API ها، پایگاه داده یا سامانه های پایین دستی ارسال می شود و همزمان داده های مربوط به عملکرد سیستم ثبت می شوند.

در پایان، در کمتر از 120 میلی ثانیه، درخواست OTP برای کاربر ارسال می شود و اطلاعاتی مانند امتیاز مدل، جزئیات تراکنش و تاخیر پاسخ برای پایش و استفاده های بعدی ذخیره می گردد.

سوالات متداول

استنتاج هوش مصنوعی چیست؟

استنتاج هوش مصنوعی فرایند استفاده از یک مدل یادگیری ماشین آموزش دیده برای تولید پیش بینی یا خروجی از داده های جدید و دیده نشده است. این مرحله، بخش عملیاتی هوش مصنوعی است که در آن مدل برای ساخت برنامه های لحظه ای، تحلیل داده و سامانه های تصمیم گیری خودکار اجرا می شود.

تفاوت آموزش و استنتاج چیست؟

آموزش، مدل را با یادگیری الگوها از داده های بزرگ و تنظیم پارامترهای داخلی آن می سازد. استنتاج از مدل آموزش دیده روی داده های جدید استفاده می کند تا پیش بینی، دسته بندی یا خروجی تولید شود.

آیا استنتاج در تولید مهم تر از آموزش است؟

در سامانه های عملیاتی، استنتاج از نظر اجرا مهم تر است چون به صورت پیوسته اجرا می شود و مستقیما روی تاخیر، مقیاس پذیری و هزینه اثر می گذارد. آموزش دقت مدل را تعیین می کند، اما استنتاج تجربه کاربر و هزینه اجرای سیستم را شکل می دهد.

چه سخت افزاری برای استنتاج استفاده می شود؟

استنتاج هوش مصنوعی روی GPU ها و شتاب دهنده های تخصصی مانند TPU اجرا می شود که بسته به نیاز کارایی و نوع بار کاری انتخاب می شوند. استفاده از GPU برای مدل های یادگیری عمیق و مدل های زبانی بزرگ رایج است.

استنتاج لحظه ای و دسته ای چیست؟

استنتاج لحظه ای زمانی انجام می شود که درخواست وارد می شود و خروجی در همان لحظه یا در حد میلی ثانیه تا چند ثانیه تولید می شود. این روش در کاربردهای تعاملی مثل چت بات ها، تشخیص تقلب یا سیستم های پیشنهاد دهنده استفاده می شود.

استنتاج دسته ای حجم زیادی از داده را در بازه های زمانی مشخص پردازش می کند و به جای پاسخ فوری، خروجی هایی مثل امتیاز ریسک، پیش بینی تقاضا یا گزارش های تحلیلی تولید می کند.

بهترین پلتفرم های استنتاج هوش مصنوعی کدامند؟

پلتفرم های مناسب استنتاج هوش مصنوعی آن هایی هستند که زیرساخت GPU مقیاس پذیر، قیمت گذاری قابل پیش بینی و ابزارهای ارائه مدل یکپارچه دارند. سرویس ابری Gradient™ AI inference Cloud از DigitalOcean زیرساخت GPU، مقیاس دهی خودکار و محیط ساده برای اجرای بارهای کاری عملیاتی هوش مصنوعی ارائه می دهد.

تغییرات اخیر

آنچه در این مقاله می‌خوانید