هر بار که یک سیستم هوش مصنوعی پاسخی تولید میکند یا یک تراکنش را مشکوک تشخیص میدهد، در حال انجام استنتاج است. در این مرحله، مدل آموزشدیده داده جدید را میگیرد و آن را از میان لایههای پارامترهای از پیش یادگرفته عبور میدهد تا خروجی تولید شود. این کار در زمان بسیار کوتاه، در حد میلیثانیه، انجام میشود و در مقیاس عملیاتی میتواند میلیونها بار در روز تکرار شود.
با این حال، این سرعت بدون هزینه به دست نمیآید. هر درخواست استنتاج به توان پردازشی GPU و پهنای باند حافظه نیاز دارد و با بزرگتر شدن مدل یا افزایش ترافیک، این مصرف هم بالا میرود. در چنین شرایطی، افزایش تاخیر مستقیما روی تجربه کاربر اثر میگذارد و هزینه زیرساخت هم میتواند از پیشبینیها فراتر برود. وقتی این بار کاری در چند منطقه جغرافیایی پخش میشود، هماهنگسازی و نگهداری آن پیچیدهتر هم میشود.
در عمل، هنگام استقرار سیستمهای یادگیری ماشین، مهمترین مسئله فقط چگونگی آموزش مدل نیست، بلکه این است که مدل در زمان اجرا چقدر سریع و پایدار میتواند پاسخ تولید کند. شناخت درست استنتاج و عوامل موثر بر عملکرد آن، مستقیما روی انتخاب معماری و طراحی سیستم در پروژههای هوش مصنوعی اثر میگذارد.
استنتاج هوش مصنوعی (AI inference) چیست؟
در یادگیری ماشین، استنتاج (AI inference) به معنای استفاده از یک مدل آموزشدیده برای انجام پیشبینی روی داده های جدید است. در واقع، هر بار که یک مدل هوش مصنوعی در یک کاربرد واقعی خروجی تولید میکند یا تصمیمی میگیرد، این عمل بهعنوان استنتاج شناخته میشود. به زبان ساده، AI inference یعنی یک مدل آموزشدیده، الگوهایی را که از داده های آموزشی یاد گرفته است، برای استنتاج خروجی درست برای یک ورودی مشخص بهکار میگیرد.
تمام یادگیری ماشین در اصل به تشخیص الگوها برمیگردد. مدل ها با استفاده از داده های نمونه، آموزش داده میشوند تا عملکرد خوبی روی یک سری وظایف مشخص داشته باشند. در این مرحله، پارامترها و هایپرپارامترها تنظیم میشوند تا رفتار مدل با الگوهای داده های آموزشی هماهنگ شود. فرض اصلی یادگیری ماشین این است که اگر داده های آموزشی به شرایط واقعی نزدیک باشند، مدل میتواند در کاربردهای واقعی نیز پیشبینی های دقیقی ارائه دهد.
بسیاری از اصطلاحات هوش مصنوعی پیچیده هستند، اما “AI inference” یک مفهوم ساده و قابلفهم است.
مدل پیشبینی بازار سهام، قیمت آینده را نمیداند؛ بر اساس شباهت با روندهای گذشته، نتیجه را استنتاج میکند.
مدل تشخیص هرزنامه، معنای واقعی ایمیل را نمیداند؛ بر اساس شباهت به نمونه های قبلی، آن را دستهبندی میکند.
مدل زبانی بزرگ (LLM)، با توجه به الگوهای متنی آموزشدیده، کلمه یا توکن بعدی را مرحله به مرحله پیشبینی میکند.
شبکه های اجتماعی نیز بر اساس رفتار قبلی کاربران، حدس میزنند چه محتوایی برای هر فرد جذابتر است.
هدف آموزش هوش مصنوعی رسیدن به دقت و همراستایی مدل است، اما هدف استنتاج اجرای همان مدل در محیط واقعی با بیشترین کارایی و کمترین هزینه است. یک مدل ممکن است در روش های مختلف استنتاج عملکرد متفاوتی داشته باشد.
هیچ تنظیم واحد و بهینه ای برای این مرحله وجود ندارد و انتخاب بهترین روش به نوع کاربرد، حجم کار و منابع سختافزاری بستگی دارد. در عمل، هدف اصلی ایجاد تعادل میان سرعت پاسخ، مقیاسپذیری و هزینه است.
مراحل کلیدی:
آمادهسازی ورودی: داده های جدید (مانند تصویر یا متن) پیشپردازش میشوند تا با قالب داده های آموزشی مدل هماهنگ شوند؛ برای مثال، تغییر اندازه یا نرمالسازی (normalization).
اجرای مدل: داده ها در یک «عبور رو به جلو» (forward pass) از مدل عبور میکنند و الگوهای آموختهشده اعمال میشوند، بدون آنکه وزن ها بهروزرسانی شوند.
تولید خروجی: نتایج بهصورت احتمال ها، برچسب ها یا تصمیم ها ظاهر میشوند (برای مثال «۹۵٪ سگ» برای یک تصویر).
تفاوت بین آموزش (training) و استنتاج (inference) چیست؟
آموزش زمانی است که مدل یاد میگیرد. در این مرحله، داده های حجیم به مدل داده میشود و مدل بهصورت تکراری پارامترهای داخلی خود را تنظیم میکند تا بتواند الگوها را تشخیص دهد. به مدل ورودی به همراه پاسخ درست داده میشود (مثل تصاویر همراه با برچسب یا متن همراه با خروجی مورد انتظار). مدل پیشبینی انجام میدهد، آن را با پاسخ درست مقایسه میکند و برای کاهش خطا خود را اصلاح میکند. این چرخه بارها تکرار میشود تا مدل در پیشبینی دقیق شود. این مرحله نیازمند توان محاسباتی بالا است اما یکبار یا بهصورت دوره ای انجام میشود.
در مقابل، استنتاج پس از آموزش رخ میدهد؛ در این مرحله مدل آموزشدیده داده های جدیدی را که قبلا ندیده است دریافت میکند و بهصورت لحظه ای خروجی یا پاسخ تولید میکند.
جنبه
آموزش مدل (AI Training)
استنتاج (AI Inference)
هدف
یادگیری الگوها و بهینهسازی دقت مدل
داده های ورودی جدید دیده نشده
دادههای مورد استفاده
مجموعه دادههای برچسبگذاری شده
داده های جدید و دیده نشده
خروجی
وزنهای بهروزشده مدل (مدل آموزشدیده نهایی)
پیشبینی، امتیاز، طبقهبندی، یا پاسخ تولید شده
نیازهای محاسباتی
بسیار بالا (GPU/کلاسترهای توزیعشده)
کمتر به ازای هر درخواست ولی حساس به تاخیر
حساسیت به زمان
آفلاین و غیرتعاملی
بلادرنگ یا نزدیک به بلادرنگ (کاربرمحور)
فراوانی
کم (آموزش اولیه و بازآموزی دورهای)
زیاد (در هر درخواست اجرا میشود)
ساختار هزینه
هزینه بالای اولیه برای آموزش
هزینه جاری به ازای هر درخواست
تمرکز بر بهینهسازی
افزایش دقت و کاهش خطا
کاهش latency و هزینه، افزایش throughput
مثال: سیستم کنترل محتوای هوشمند
آموزش مدل (Training): مدل با استفاده از میلیونها پست برچسبگذاریشده مانند «مجاز»، «اسپم»، «نفرتپراکنی» یا «نقض قوانین» آموزش داده میشود. در این مرحله، مدل با تنظیم وزنهای داخلی خود، الگوهای متن، لحن، کلمات کلیدی و زمینه را یاد میگیرد تا بتواند محتوای مضر را از محتوای سالم تشخیص دهد.
استنتاج (Inference): وقتی کاربر یک پست جدید ارسال میکند، مدل آموزشدیده متن را در لحظه پردازش کرده و برای هر دستهبندی یک امتیاز احتمال تولید میکند. بر اساس این امتیازها، سیستم تصمیم میگیرد پست منتشر شود، محدود شود، علامتگذاری شود یا برای بررسی انسانی ارسال گردد.
انواع استنتاج در هوش مصنوعی
استنتاج در هوش مصنوعی بر اساس نحوه و زمان تولید پیشبینیها دستهبندی میشود. برخی سیستمها بهصورت آنی به ورودی کاربر پاسخ میدهند، در حالی که برخی دیگر دادههای حجیم را بهصورت دورهای یا بهطور پیوسته همزمان با وقوع رویدادها پردازش میکنند. تفاوت اصلی این مدلها در موارد زیر است:
معیارهای دستهبندی استنتاج عبارتاند از:
الگوی زمان درخواست (Request timing): زمان تولید پیشبینیها؛ میتواند بهصورت لحظهای برای هر درخواست، در بازههای زمانی مشخص (scheduled intervals)، یا بهصورت پیوسته همزمان با ورود دادهها باشد.
الگوی جریان داده (Data flow pattern): نحوه حرکت داده در سیستم؛ شامل مدلهای درخواست–پاسخ تکی (single request-response)، پردازش دستهای دادههای حجیم (batch processing)، یا پردازش جریانی و رویدادمحور (event-driven/streaming).
نیازمندیهای پاسخگویی (Responsiveness requirements): میزان تأخیر قابلقبول برای کاربرد؛ از پاسخهای در حد میلیثانیه در سیستمهای بلادرنگ تا خروجیهای با تأخیر بیشتر در بارهای غیر فوری.
استنتاج بلادرنگ (Real-time / Online inference)
در این نوع استنتاج، هر درخواست بهمحض رسیدن جداگانه پردازش میشود و مدل همان لحظه خروجی را برمیگرداند. ساختار آن معمولاً به شکل «درخواست–پاسخ» است؛ یعنی هر ورودی کاربر یا هر API call یک اجرای مستقل از مدل را فعال میکند.
زمان پاسخ در این حالت بسته به پیچیدگی مدل و زیرساخت، معمولاً از چند میلیثانیه تا چند ثانیه متغیر است.
استنتاج جریانی (Streaming inference)
در استنتاج جریانی، مدل بهجای اینکه منتظر درخواستهای جداگانه یا اجرای زمانبندیشده بماند، بهطور پیوسته روی جریان دادههای ورودی کار میکند. دادهها بهصورت یک جریان مداوم و رویدادمحور وارد سیستم میشوند و مدل هم همزمان با رسیدن دادههای جدید، پیشبینی تولید میکند.
این روش از نظر سرعت پاسخ، بین استنتاج بلادرنگ و استنتاج دستهای قرار میگیرد؛ سریعتر از پردازشهای زمانبندیشده است، اما بهجای درخواستهای مستقل، با دادههای پیوسته و در حال جریان سروکار دارد.
استنتاج دستهای (Batch inference)
در استنتاج دستهای، پیشبینیها روی حجم بزرگی از داده بهصورت یکجا و در بازههای زمانی مشخص اجرا میشوند. بهجای پردازش لحظهای، سیستم دادهها را به شکل batch پردازش میکند؛ معمولاً در قالب jobهایی که ممکن است چند دقیقه تا چند ساعت طول بکشند.
این فرایند معمولاً توسط job schedulerها یا workflow engineها مدیریت میشود و روی کلاسترهای محاسباتی توزیعشده اجرا میگردد. داده از سیستمهای ذخیرهسازی خوانده میشود، بهصورت موازی پردازش میشود و در نهایت خروجی به شکل جدولهای بهروزشده، فایلها یا رکوردهای دیتابیس ذخیره میشود.
نوع
توضیح
زمان پاسخ
جریان داده
کاربردها
استنتاج بلادرنگ (Online)
هر درخواست را بهمحض رسیدن بهصورت جداگانه پردازش میکند
میلیثانیه تا چند ثانیه
درخواست–پاسخ
چتباتها، تشخیص تقلب، سیستمهای پیشنهاددهی
استنتاج جریانی (Streaming)
دادههای ورودی را بهصورت پیوسته و بدون توقف تحلیل میکند
نزدیک به بلادرنگ
جریان پیوسته و رویدادمحور
پایش IoT، تشخیص رویدادهای مالی، کشف ناهنجاری
استنتاج دستهای (Batch)
پیشبینیها را روی حجم زیاد داده بهصورت یکجا اجرا میکند
استنتاج هوش مصنوعی بر اساس نحوه و زمان تولید پیش بینی ها دسته بندی می شود. در برخی سامانه ها پاسخ ها بلافاصله پس از ورودی کاربر تولید می شوند، در برخی دیگر داده های حجیم به صورت دوره ای پردازش می شوند یا همزمان با وقوع رویدادها به صورت پیوسته پردازش می شوند. تفاوت اصلی در موارد زیر است:
زمان درخواست: زمان تولید پیش بینی ها؛ می تواند به صورت لحظه ای برای هر درخواست، در بازه های زمانی برنامه ریزی شده، یا به صورت پیوسته همراه با ورود داده باشد
الگوی جریان داده: نحوه حرکت داده در سامانه؛ شامل مدل درخواست و پاسخ تکی، پردازش دسته ای داده های حجیم، یا جریان داده مبتنی بر رویداد
میزان حساسیت به پاسخ: مدت زمان قابل قبول برای دریافت خروجی؛ از چند میلی ثانیه در سامانه های لحظه ای تا تاخیر بیشتر در بارهای کاری غیر فوری
استقرار در محل
در استقرار در محل (on premise)، مدل های هوش مصنوعی روی سخت افزار فیزیکی اجرا میشوند که شما یا نهاد شما مالک آن هستید و خودتان نگهداری آن را انجام میدهید.
این نوع استقرار بالاترین سطح حاکمیت بر بار های کاری هوش مصنوعی را فراهم میکند، زیرا شما اختیار کامل دارید که داده چه زمان و چگونه پردازش شود و منابع محاسباتی چگونه تخصیص پیدا کنند. این موضوع برای صنایعی با مقررات سختگیرانه مانند سلامت، مالی، دولت و حقوقی مفید است، جایی که رعایت الزامات حریم خصوصی و امنیت داده ضروری است.
در مقابل، این سطح از اختیار با هزینه و نیروی کار همراه است. استقرار در محل، به ویژه در مورد سخت افزار مورد نیاز برای بار های کاری در مقیاس بالا و مدل های بزرگ مرتبط با هوش مولد، نیاز به سرمایه گذاری اولیه زیاد دارد. همچنین به نیروی متخصص برای نگهداری و اداره سرور ها نیاز دارد.
استقرار ابری
در استقرار ابری، مدل ها روی سرورهای دور اجرا می شوند که توسط ارائه دهندگان شخص ثالث مانند IBM در مراکز داده بزرگ نگهداری می شوند. این شیوه امکان استفاده از سخت افزارهای قدرتمند را بدون نیاز به هزینه اولیه بزرگ برای خرید آن یا کار مداوم برای نگهداشت آن فراهم می کند. در چنین حالتی، استقرار ابری معمولا مسیر سریع تری برای افزایش مقیاس در پردازش به شمار می رود، به ویژه در شرایطی که نیاز به افزایش سریع منابع محاسباتی برای پاسخ به جهش تقاضا وجود دارد.
این انعطاف و افزایش مقیاس با معاوضه در مالکیت داده و در برخی موارد تاخیر و هزینه های بلند مدت همراه است. داده ممکن است بین کاربر و سرورهای ابری رفت و برگشت داشته باشد که ممکن است سرعت استنتاج را کاهش دهد، هرچند اغلب با سخت افزار قدرتمندتر ارائه شده توسط ارائه دهندگان بزرگ ابر جبران می شود. این موضوع همچنین پیچیدگی های نظری در مورد منشأ داده ایجاد می کند، زیرا داده در معرض نهادهای بیشتری نسبت به حالت on-prem قرار می گیرد.
استقرار لبه
استنتاج لبه نزدیک به منبع داده اجرا می شود، مانند فروشگاه های خرده فروشی، کارخانه ها یا دکل های مخابراتی، تا تاخیر و مصرف پهنای باند کاهش پیدا کند. در کاربردهایی مثل تحلیل ویدیو و پایش اینترنت اشیا، پردازش محلی داده کمک می کند تصمیم ها در حد میلی ثانیه گرفته شوند، بدون اتکا به ارتباط رفت و برگشت با سرورهای متمرکز ابری.
در یک فروشگاه خرده فروشی، یک دوربین امنیتی مسیرهای صندوق را پایش می کند. یک دستگاه کوچک لبه که در محل نصب شده، مدل بینایی ماشین (computer vision) را اجرا می کند که رفتارهای مشکوک مانند عبور بدون پرداخت را تشخیص می دهد. اگر موردی علامت گذاری شود، سامانه بلافاصله به کارکنان فروشگاه هشدار می دهد. خلاصه هشدارها و گزارش های روزانه بعدا برای بررسی متمرکز به سرور مرکزی ارسال می شوند.
استقرار روی دستگاه
استنتاج روی دستگاه مستقیما روی سخت افزار کاربر مانند گوشی هوشمند، لپ تاپ یا سامانه های نهفته اجرا می شود. هدف آن افزایش حریم خصوصی، کاهش وابستگی به اتصال شبکه، و پاسخ فوری در برنامه هایی مانند دستیار صوتی و احراز هویت زیستی است.
وقتی کاربر عبارت بیدار مانند “Hey, assistant” را بیان می کند، یک مدل شبکه عصبی که به صورت محلی روی دستگاه اجرا می شود، پیوسته برای تشخیص آن عبارت محرک مشخص گوش می دهد. صدا در زمان واقعی روی پردازنده CPU دستگاه یا تراشه اختصاصی هوش مصنوعی پردازش می شود. هنگامی که واژه بیدار تشخیص داده می شود، سامانه فعال شده و درخواست برای پردازش بیشتر به ابر ارسال می شود. در این حالت:
مدل تشخیص واژه بیدار (wake word) که آموزش دیده است روی دستگاه ذخیره می شود.
استنتاج به صورت پیوسته روی سخت افزار محلی اجرا می شود.
داده صوتی خام تا زمان فعال شدن از دستگاه خارج نمی شود.
دستیار حتی بدون اتصال فعال به اینترنت، پاسخ را به صورت فوری ارائه می دهد.
چگونه محیط مناسب استنتاج هوش مصنوعی را انتخاب کنیم
انتخاب محیط استنتاج به نیازهای تاخیر، حجم ترافیک، حساسیت داده و محدودیت های هزینه وابسته است. در بسیاری از سامانه های عملیاتی، تیم ها از یک رویکرد ترکیبی استفاده می کنند و پردازش روی دستگاه یا در لبه را با استنتاج ابری ترکیب می کنند.
انتخاب استنتاج ابری: اگر به مقیاس پذیری بالا، مدیریت متمرکز مدل و توان پردازش حجم زیاد ترافیک یا بار کاری سنگین GPU نیاز باشد.
انتخاب استنتاج لبه: اگر برنامه به تاخیر کم نزدیک منبع داده، کاهش مصرف پهنای باند یا پردازش در زمان نزدیک به لحظه در مکان های توزیع شده نیاز داشته باشد.
انتخاب استنتاج روی دستگاه: اگر حریم خصوصی در اولویت باشد، اجرای بدون اتصال شبکه لازم باشد یا پاسخ فوری روی سخت افزار کاربر مانند تلفن هوشمند مورد نیاز باشد.
مزایای استنتاج هوش مصنوعی
استنتاج هوش مصنوعی تعیین می کند که برنامه شما با چه سرعتی پاسخ می دهد، تا چه اندازه پایدار در مقیاس های مختلف عمل می کند، و منابع زیرساختی را با چه میزان کارایی مصرف می کند. زمانی که به درستی پیاده سازی شود، استنتاج هوش مصنوعی مزایای قابل اندازه گیری در کارایی و عملکرد عملیاتی فراهم می کند:
تصمیم گیری در لحظه: استنتاج به صورت پیوسته داده های زنده را به خروجی های ساختارمند مانند امتیازهای ریسک، دسته بندی ها، رتبه بندی ها یا متن تولید شده تبدیل می کند. این خروجی ها به برنامه ها ارسال می شوند. برای نمونه، مدل های تشخیص ناهنجاری می توانند فعالیت های غیرعادی را در لحظه شناسایی کنند و هشدارهای خودکار برای واکنش سریع تر عملیاتی ایجاد کنند.
استفاده کم هزینه تر از مدل: پس از آموزش یک مدل، می تواند میلیون ها پیش بینی را بدون نیاز به آموزش مجدد ارائه دهد. اگرچه استنتاج در مقیاس بالا هزینه بر است، روش هایی مانند دسته بندی ورودی ها (batching) و کوانتش (quantization) می توانند هزینه هر درخواست را در بارهای کاری پرترافیک مانند دستیارهای مبتنی بر مدل های زبانی بزرگ کاهش دهند.
تجربه کاربری بهینه تر: استنتاج با تاخیر کم مستقیما روی حس «هوشمند بودن» یک برنامه اثر می گذارد. اگر یک قابلیت هوش مصنوعی در 100 میلی ثانیه پاسخ بدهد به جای 2 ثانیه، کاربر آن محصول را پاسخگو، پایدار و قابل اعتماد درک می کند.
استقرار در مقیاس تولید: با افزایش ترافیک، خطوط لوله استنتاج با استفاده از زیرساخت توزیع شده و مقیاس دهی خودکار به صورت افقی گسترش پیدا می کنند. یک دستیار نوشتاری مبتنی بر هوش مولد که در یک پلتفرم SaaS یکپارچه شده است ممکن است در ساعات عادی چند صد کاربر داشته باشد، اما پس از عرضه یک محصول بتواند به راحتی ده ها هزار کاربر را پشتیبانی کند.
آزمایش سریع تر و تکرار نسخه های مدل: خطوط لوله استنتاج این امکان را فراهم می کنند که نسخه های جدید مدل بدون آموزش دوباره از ابتدا آزمایش و منتشر شوند. می توان با تقسیم کاربران به چند گروه مختلف، دو مدل را در قالب آزمون A/B بررسی کرد، یا از استقرار سایه (shadow deployment) استفاده کرد تا یک مدل جدید را روی ترافیک واقعی ارزیابی کرد بدون اینکه روی کاربران اثر بگذارد، یا از انتشار تدریجی (canary release) برای انتقال مرحله ای ترافیک به نسخه جدید قبل از انتشار کامل استفاده کرد.
چالش های استنتاج
زمانی که مدل ها با بارهای کاری عملیاتی روبه رو می شوند، پیچیدگی استنتاج هوش مصنوعی آشکار می شود. وقتی برنامه از حالت آزمایشی به استقرار در مقیاس بالا منتقل می شود، باید هزینه، کارایی و محدودیت های زیرساختی بررسی شوند.
هزینه بالای استنتاج در مقیاس بزرگ: بر اساس گزارش DigitalOcean Currents 2026، 49 درصد از پاسخ دهندگان هزینه بالای استنتاج را به عنوان یکی از چالش های اصلی مطرح کرده اند. استفاده مداوم از GPU، قیمت گذاری مبتنی بر توکن، و الگوهای ترافیکی غیرقابل پیش بینی در افزایش این هزینه ها نقش دارند.
حساسیت به تاخیر در بارهای کاری عملیاتی: برنامه های زمان واقعی به پاسخ های پایدار با تاخیر پایین در شرایط ترافیک متغیر نیاز دارند. گلوگاه های کارایی در سرویس دهی مدل، شبکه یا تامین سخت افزار می توانند تجربه کاربر و پایداری سامانه را کاهش دهند.
پیچیدگی زیرساخت و سربار هماهنگ سازی: بسیاری از تیم ها برای اجرای استنتاج به چندین ابزار و API وابسته هستند که این موضوع پیچیدگی عملیاتی را افزایش می دهد. هماهنگ سازی استقرار، تنظیم مقیاس پذیری خودکار و پایش در سامانه های توزیع شده نیازمند دانش تخصصی در زمان بندی GPU و متعادل سازی بار است.
پایداری و مسائل عملیاتی: خطوط لوله استنتاج باید تحت بار بالا پایدار بمانند و همزمان یکنواختی خروجی را حفظ کنند. اگر گره های استنتاج GPU که وظیفه پردازش کمک های رندر را دارند تحت همزمانی بالا از کار بیفتند، جلسات فعال ویرایش ویدیو ممکن است دچار اختلال شوند یا پیش نمایش ها متوقف شوند.
فرایند استنتاج هوش مصنوعی
استنتاج از طریق یک لایه ارائه مدل انجام می شود که درخواست ها را دریافت می کند، داده را پردازش می کند و خروجی را از طریق API برمی گرداند.
۱. پیش پردازش داده های ورودی
ورودی های خام مانند متن، تصویر، صوت یا داده های ساخت یافته بررسی و به قالب مورد انتظار مدل تبدیل می شوند. این مرحله می تواند شامل توکن سازی برای مدل های زبانی بزرگ، نرمال سازی، استخراج ویژگی یا تبدیل داده به تنسور باشد.
در مثال تشخیص تقلب، یک خرید 2400 دلاری در سائوپائولو همراه با اختلاف موقعیت مکانی حساب و دستگاه ناشناخته بررسی می شود. سیستم ویژگی هایی مثل مبلغ، نوع فروشگاه، اثر انگشت دستگاه، موقعیت جغرافیایی، زمان و تاریخچه خرید را استخراج می کند و آن ها را به یک بردار عددی قابل پردازش برای مدل تبدیل می کند.
۲. بارگذاری و راه اندازی مدل
مدل آموزش دیده همراه با وزن ها و معماری در حافظه بارگذاری می شود. در محیط های عملیاتی، این مدل ها معمولا در قالب کانتینر اجرا می شوند و از طریق ابزارهایی مثل TensorFlow Serving، TorchServe یا FastAPI ارائه می شوند. در این حالت، مدل تشخیص تقلب از قبل در حافظه فعال است و از طریق یک سرویس کانتینری اجرا می شود و درخواست تراکنش از طریق API به endpoint مدل ارسال می گردد.
۳. محاسبه گذر رو به جلو
داده پردازش شده از شبکه عصبی عبور می کند و عملیات ماتریسی و تابع های فعال سازی خروجی را تولید می کنند. این مرحله معمولا روی GPU یا شتاب دهنده ها اجرا می شود تا تاخیر کاهش پیدا کند. در مثال، مدل ترکیب دستگاه ناشناخته، موقعیت بین المللی و مبلغ بالا را با الگوهای یادگرفته شده از میلیون ها تراکنش مقایسه می کند و در نهایت امتیاز احتمال تقلب 0.92 را تولید می کند.
۴. پس پردازش پیش بینی ها
خروجی خام مدل به نتیجه قابل استفاده تبدیل می شود، مثل برچسب نهایی، امتیاز یا تصمیم سیستم. در این مرحله ممکن است آستانه گذاری یا قوانین تجاری اعمال شوند.
در این سناریو، مقدار 0.92 از آستانه 0.85 بالاتر است، بنابراین تراکنش به عنوان پرریسک علامت گذاری شده و به جای رد شدن، برای احراز هویت مرحله ای ارسال می شود.
۵. ارسال پاسخ و ثبت لاگ
نتیجه نهایی به API ها، پایگاه داده یا سامانه های پایین دستی ارسال می شود و همزمان داده های مربوط به عملکرد سیستم ثبت می شوند.
در پایان، در کمتر از 120 میلی ثانیه، درخواست OTP برای کاربر ارسال می شود و اطلاعاتی مانند امتیاز مدل، جزئیات تراکنش و تاخیر پاسخ برای پایش و استفاده های بعدی ذخیره می گردد.
سوالات متداول
استنتاج هوش مصنوعی چیست؟
استنتاج هوش مصنوعی فرایند استفاده از یک مدل یادگیری ماشین آموزش دیده برای تولید پیش بینی یا خروجی از داده های جدید و دیده نشده است. این مرحله، بخش عملیاتی هوش مصنوعی است که در آن مدل برای ساخت برنامه های لحظه ای، تحلیل داده و سامانه های تصمیم گیری خودکار اجرا می شود.
تفاوت آموزش و استنتاج چیست؟
آموزش، مدل را با یادگیری الگوها از داده های بزرگ و تنظیم پارامترهای داخلی آن می سازد. استنتاج از مدل آموزش دیده روی داده های جدید استفاده می کند تا پیش بینی، دسته بندی یا خروجی تولید شود.
آیا استنتاج در تولید مهم تر از آموزش است؟
در سامانه های عملیاتی، استنتاج از نظر اجرا مهم تر است چون به صورت پیوسته اجرا می شود و مستقیما روی تاخیر، مقیاس پذیری و هزینه اثر می گذارد. آموزش دقت مدل را تعیین می کند، اما استنتاج تجربه کاربر و هزینه اجرای سیستم را شکل می دهد.
چه سخت افزاری برای استنتاج استفاده می شود؟
استنتاج هوش مصنوعی روی GPU ها و شتاب دهنده های تخصصی مانند TPU اجرا می شود که بسته به نیاز کارایی و نوع بار کاری انتخاب می شوند. استفاده از GPU برای مدل های یادگیری عمیق و مدل های زبانی بزرگ رایج است.
استنتاج لحظه ای و دسته ای چیست؟
استنتاج لحظه ای زمانی انجام می شود که درخواست وارد می شود و خروجی در همان لحظه یا در حد میلی ثانیه تا چند ثانیه تولید می شود. این روش در کاربردهای تعاملی مثل چت بات ها، تشخیص تقلب یا سیستم های پیشنهاد دهنده استفاده می شود.
استنتاج دسته ای حجم زیادی از داده را در بازه های زمانی مشخص پردازش می کند و به جای پاسخ فوری، خروجی هایی مثل امتیاز ریسک، پیش بینی تقاضا یا گزارش های تحلیلی تولید می کند.
بهترین پلتفرم های استنتاج هوش مصنوعی کدامند؟
پلتفرم های مناسب استنتاج هوش مصنوعی آن هایی هستند که زیرساخت GPU مقیاس پذیر، قیمت گذاری قابل پیش بینی و ابزارهای ارائه مدل یکپارچه دارند. سرویس ابری Gradient™ AI inference Cloud از DigitalOcean زیرساخت GPU، مقیاس دهی خودکار و محیط ساده برای اجرای بارهای کاری عملیاتی هوش مصنوعی ارائه می دهد.