آنچه در این مقاله میخوانید
هوش مصنوعی متا (لاما) چیست؟
۹ بهمن ۱۴۰۴
Llama (لاما) خانوادهای از مدلهای بزرگ زبانی (LLM) و مدلهای چندرسانهای بزرگ (LMM) است که توسط شرکت متا توسعه یافته است. جدیدترین نسخه در این خانواده، Llama 4 است. در حالت کلی، این مجموعه پاسخی از سمت شرکت فیسبوک به محصولات OpenAI و Google Gemini محسوب میشود.
اما با یک تفاوت بسیار بارز و مهم، تقریبا تمامی مدلهای لاما به صورت آزاد در دسترس کاربران قرار گرفته است و میتوانند از آنها در تحقیقات و همچنین امور تجاری استفاده کنند.
این موضوع اهمیت بسیار زیادی را دارد و سبب شده است تا مدلهای مختلف لاما در میان توسعه دهندگان هوش مصنوعی محبوب شود. در ادامه از این مطلب تخصصی لیارا نگاه دقیقی را به این امر خواهیم داشت تا بدانیم لاما چه خدمات و فرآیندهایی را ارائه میدهد.
همین الان، بدون هیچ پیچیدگی، هوش مصنوعی متا برای اینستاگرام و واتساپ خود را فعال کنید!
✅ بهینهسازی محتوا با Llama و Ollama ✅ افزایش کیفیت و تعامل ✅ راهاندازی سریع و آسان
خرید سرویس Meta
آنچه در ادامه خواهید خواند:
- لاما چیست تعریف دقیق LIama
- نسخههای معرفی شده لاما (Llama)
- لاما Llama 4 چگونه کار می کند؟
- لاما در برابر GPT و Gemini و دیگر مدلها، چگونه مقایسه خواهند شد؟
- لاما چه اهمیتی دارد؟
- آیا لاما از زبان فارسی پشتیبانی میکند؟
- محدودیت ها و چالشهای لاما
- جمع بندی
لاما چیست تعریف دقیق LIama
لاما مجموعهای از مدلهای هوش مصنوعی است که برای درک و تولید زبان طراحی شده است. درست مانند GPT از OpenAI یا Gemini از گوگل که همه ما آن را میشناسیم. اما چه المانی وجود دارد که لاما را در بین تعداد بسیار زیاد هوشهای مصنوعی برتر نشان میدهد. در پاسخ به شما متن باز بودن لاما را خواهیم گفت.
به این معنی است که هر توسعهدهندهای میتواند مدل را دانلود، اجرا و حتی آن را برای نیازهای خاص خود بازآموزی کند، چیزی که در دنیای چتجیبیتی و جمینی عملا یک فرآیند غیر ممکن است.
نسخههای معرفی شده لاما (Llama)
لاما خانوادهای از مدلهای زبانی چند رسانهای است که همانند هوشمصنوعیهایی که در بالا نام بردهایم کار میکند. شماره گذاری نسخهها در حال حاضر تا حدودی پراکنده است:
متا هم زمان در حال پشتیبانی از Llama 4 و نسخههای مختلفی (مانند 3.3، 3.2 و 3.1) است. احتمالی وجود دارد که با انتشار بیشتر مدلهای Llama 4، برخی از شاخههای Llama 3 کنار گذاشته خواهند شد، اما در حال حاضر آنها هنوز در دسترس و پشتیبانی خواهند شد.

- Llama 3.1 — 8B
- Llama 3.1 — 405B
- Llama 3.2 — 1B
- Llama 3.2 — 3B
- Llama 3.2 — 11B-Vision
- Llama 3.2 — 90B-Vision
- Llama 3.3 — 70B
- Llama 4 Scout
- Llama 4 Maverick
علاوه بر تمامی این مدلها، دو مدل Llama 4 نیز اعلام شدهاند که هنوز منتشر نشده است:
- Llama 4 Behemoth
- Llama 4 Reasoning
در حالت کلی، تمامی مدلهای لاما بر مبنای اصول مشترکی ساخته شدهاند:
تغییریافته از معماری ترنسفورمر و فرآیند یادگیری شامل پیشآموزش و ریز تنظیم. تفاوت اصلی بین نسخهها در توان محاسباتی، ساختار پارامترها و قابلیتهای چندرسانهای است. مدلهای Llama 4 به صورت ذاتی چندرسانه شده هستند و از معماری ترکیب متخصصین (mixture-of-experts یا MoE) استفاده میکنند در ادامه به جزئیات بیشتری درباره این رویکرد خواهیم داشت.
زمانی که به مدل، متنی را میدهید، آن تلاش میکند متحملترین توالی کلمات بعدی را پیشبینی کند، حال این عمل چگونه انجام میشود؟ جواب مشخص است همانطور که در مطالب گذشته گفتهایم این کار با یک شبکه عصبی عظیم انجام میشود که میلیاردها متغیر (پارامتر) دارد. در مدلهای پشتیبانی، ورودی تصویری نیز فرآیندی مشابه برای پردازش تصاویر را خواهد داشت.
مدلهای مختلف Llama 3 برای ترکیبی از سرعت، هزینه و دقت طراحی شدهاند. مدلهای کوچکتر مانند Llama 3.1 8B و Llama 3.2 3B مناسب اجرا در دستگاهها مانند گوشی یا کامپیوترهای شخصی، یا اجرای سریع و کم هزینه بر روی سختافزارهای قویتر هستند. بزرگترین مدل در این خانواده Llama 3.1 405B است که در اغلب اوقات عملکرد بهتری را نسبت به نسخههای دیگر ارائه میدهد اما نیازمند منابع محاسباتی قابل توجهی است.
نسخههای Vision برای فعالیتهای چندرسانهای طراحی شده است و Llama 3.3 70B توانسته است توازن درستی را بین عملکرد و هزینه برای کاربران فراهم کند که این امر یک ویژگی بسیار مهم است. در مدلهای Llama 4 مانند (Scout و Maverick) از رویکردهای متفاوتی برای پارامترها استفاده شده است.
به عنوان مثال:
- Scout در مجموع 109 میلیارد پارامتر دارد اما تنها 17 میلیارد پارامتر آن در هر بار فعالسازی مورد استفاده قرار میگیرد
- Maverick نیز 400 میلیارد پارامتر دارد ولی مجددا در هر بار پاسخدهی حداکثر 17 میلیارد فعال میشوند.
این روش به مدلها امکان میدهد هم قدرتمند باشند و هم کارآمد، هرچند توسعه آنها پیچیدهتر است.
متا از مدل بزرگتری به نام Behemoth نیز صحبت کرده است. مدلی که با معماری MoE که 2 تریلیون پارامتر کل دارد و 288 میلیارد پارامتر فعال در زمان اجرا خواهد داشت. این مدل در حال حاضر در مراحل آموزش است.
نکته دیگری که در زمینه معرفی Llama 4 وجود دارد، نبود یک مدل تخصصی (استدلال) در زمان انتشار اولیه است. صفحهای معرفی کننده است که نشان میدهد مدلی استدلالی در راه است، اما تنها چالش لالما محدود به مدلهای غیراستدلالی است.
لاما Llama 4 چگونه کار می کند؟
Llama 4 بر اساس معماری ترکیب متخصصین (mixture-of-experts — MoE) عمل میکند. مشخصات اصلی و مهم دو مدل اصلی به این صورت است:
- Scout :109B پارامتر در مجموع، تقسیمشده میان 16 متخصص و در هر پاسخ نهایتا 17B پارامتر فعال میشود.
- Maverick :400B پارامتر در مجموع، تقسیمشده میان 128 متخصص و باز هم نهایتا 17B پارامتر فعال میشود.
هر متخصص را میتوان به بخشهای زیرسیستم مشاهده کرد که در حوزههای تخصصی مهارتهای لازم را خواهند داشت. اگرچه LLMها زبان را به همان گونه که انسانها آن را پردازش نمیکنند، اما تصویرسازیای که در این قسمت به ما کمک میکند این است که تعریف کنیم Scout ممکن است یک متخصص برای ادبیات انگلیسی، یک متخصص برای برنامهنویسی باشد.

ساختار MoE، ترکیب چند متخصص در یک مدل زبانی
در مدلهای زبانی جدید مانند Scunt و Maverick، ساختاری به نام Mixture of Experts (MoE) یا ترکیب متخصصان استفاده شده است. در این ساختار، میتوان هر متخصص را مانند یک سیستم در نظر گرفت که در یک حوزه خاصی مهارتهای لازم را دارند برای مثال یک متخصص برای ادبیات یک متخصص برای برنامهنویسی و دیگری برای زیستشناسی است.
مدلی مانند Maverick که پارامترها و تعداد متخصصان بیشتری را در اختیار دارد و میتواند زیرشاخههای دقیقتری را پوشش دهد. به عنوان نمونه، به جای داشتن یک متخصص کلی برای زیستشناسی، ممکن است متخصصان جداگانهای برای میکروبیولژی و جانورشناسی در آن باشد.
نحوهٔ عملکرد مکانیزم درگاهدهی
در معماری MoE، شبکهای با عنوان درگاهدهنده (Gating Network) وظیفه دارد تصمیم بگیرد کدام متخصص یا متخصصان باید برای پاسخگویی فعال شوند. در هر بار تولید پاسخ، این شبکه معمولا یک متخصص مشترک (که همیشه فعال است) را همراه با یک یا چند متخصص مرتبط فعال میکند.
به عنوان مثال:
اگر پرسش در رابطه با:
- شکارچیان راس زنجیره غذایی باشد، احتمالا متخصص زیست شناسی به همراه متخصص مشترک فعال میشود.
- اگر پرسش مربوط به فیلم Jaws باشد، متخصص ادبیات در کنار متخصص مشترک بایستی وارد عمل شوند.
در نتیجه چه عملی رخ خواهد داد. در هر بار پردازش تنها بخشی از کل پارامترهای مدل (برای نمونه 17 میلیار از 70 مییلیارد پارامترها) فعال میشود این رویکرد باعث استفاده بهینه تر از منابع محاسباتی و افزایش کارایی مدل میگردد.
در مقابل، مدلهایی مانند Llama 3.3 70B در هر بار اجرا، تمام پارامترهای خود را آن هم بهصورت همزمان فعال میکنند، روشی که به توان محاسباتی بیشتری نیاز دارد.
شکلگیری متخصصان و آموزش مدل
مدلهای زمانی بر اساس (توکنها) آموزشهای لازم را دریافت میکنند، هر توکن میتواند یک کلمه یا بهش معنایی از یک عبارت باشد. تمامی این توکنها در یک فضای برداری چند بعدی نمایش داده میشوند.
برای نمونه: اگر واژهای (Apple) و (Iphone) اغلب در کنار هم دیگر نام برده میشوند، مدل درمییابد که این دو مفهوم به یکدیگر مرتبط هستند و از مفاهیم دیگر مانند (Apple) که همان میوه است از موز و یا میوههای دیگر متمایز است.
در روند آموزش، هر متخصص با یادگیری از الگوهای خاصی از دادهها شکل میگیرند و بخشی از این فضای برداری را به خود اختصاص میدهند. مرزبندی میان متخصصان دقیقا بر اساس حوزههای پایه نیست، اما این تصویر به درک نحوه عملکرد MoE کمک میکند.
مقیاس آموزش و منبع دادهها
برای دستیابی به این سطح از عملکرد، مدلهای Llama 4 با استفاده از تریلیونها توکن متنی و میلیاردها تصویر آموزش داده شدهاند. دادههای آموزشی از منابع مختلفی جمعآوری شدهاند، مانند:
- پایگاههای عمومی مانند Common Crawl و ویکیپدیا
- کتابهای حوزه عمومی (مانند Project Gutenberg)
- دادههای هوش مصنوعی که توسط مدلهای پیشین تولید شدهاند.
متا تاکید کرده است که در این فرایند از دادههای کاربران فیسبوک استفاده نشده است.
علاوه بر آموزش پایه، مدلهای Scout و Maverick از مدل بزرگتر Behemoth تقطیر (Distilled) شدهاند، یعنی این مدلها برای تقلید از رفتار و پاسخهای Behemoth آموزش دیدهاند تا با پارامترهای کمتر، عملکردی نزدیک به آن ارائه دهند.
کنترل و بهینه سازی پاسخها
از آن جایی که بخشی از دادههای آموزشی از منابع آزاد اینترنتی جمعآوری میشوند، این احتمال وجود دارد که خطا یا محتوای نامناسب وجود داشته باشد. برای آن که بتوان این موارد را تا حد بسیار زیادی کاهش داد، متا از روش دیگری مانند:
- ریزتنظیم نظارتشده (Sepervised Fine-Tuning)
- یادگیری تقویتی (Reinforcement Learning)
- بهینهسازی مستقیم ترجیحات انسانی (Direct Preference Optimization)
استفاده کرده است. تمامی این روندها به بهبود کیفیت پاسخها و همسویی بیشتر خروجی مدل با اهداف انسانی کمک خواهد کرد.

لاما در برابر GPT و Gemini و دیگر مدلها، چگونه مقایسه خواهند شد؟
روی صحبت ما بیشتر با (Maverick و Scout) است، در این حوزه، مدلهای متن باز و توامندی وجود دارند، اما همیشه در صدر تمامی معیارها قرار نخواهند گرفت. نبود یک مدل اختصاصی تا زمان انتشار اولیه مانع آن شده است که در بسیاری از بنچمارکها بالاترین جایگاه را داشته باشند.
گزارش بنچمارکها منشتر شده توسط Artificial Analysis نشان میدهد که Maverick در مدلهای رقابتی با:
- DeepSeek V3، Grok 3، GPT-4o
- Claude Sonnet 3.7
- Gemini 2.0 Flash
قرار دارد. نکته مهم در این میان Maverick است که بهترین عملکرد را در میان مدلهای باز چندرسانهای داشته است و هم زمان بهترین عملکرد را در میان مدلهای باز غیر چینی دارد. ساختار MoE او میتواند هزینه عملیاتی را نسبت به مدلهای اختصاصی مانند GPT-4o کاهش دهد. نسخه ازمایشی Maverick در رقابت چت بات ها عملکرد دوم را کسب کرده است که نشان دهنده پتانسیل آن خواهد بود. Maverick دارای پنجره متنی (context window) یک میلیون توکن است که در عمل مناسب به شمار میآید، هرچند بعضی رقبای دیگر نیز همین محدوده را ارائه میدهند.
مدل Scout
Scout به دو دلیل جذاب است و مورد استفاده قرار میگیرد:
- کارایی بالا: Scout به صورتی ساخته شده است که میتواد بر روی تنها یک کارت گرافیک خیلی قوی به نام H100 اجرا شود. این یک پیشرفت بسیار بزرگی است، به این دلیل که در حالت معمول مدلهای هوش مصنوعی بزرگ به چندین کارت گرافیک نیاز دارند. این یعنی Scout بهینهتر و کم هزینهتر خواهد بود.
- حافظه بالا: این مدل میتواند حجم زیادی از متن را به خاطر بسپارد (حدود 10 میلیون کلمه یا توکن). فرض کنید که میتوانید یک کتاب قطور (یا چند کتاب) را به آن بدهید و Scout تمام آن را در حافظه خود نگه دارد و دربارهاش با شما گفتوگو کند.
نکته بسیار مهم در این قسمت آن است که این قابلیت حافظه عظیم هنوز به صورت تجاری عرضه نشده است و در دسترس عموم قرار ندارد.
مدل Behemoth
متا یک مدل دیگر به اسم Behemoth نیز معرفی کرده است و ادعا میکند که در برخی آزمونها، عملکرد آن حتی از مدل معروف GPT-4.5 نیز بهتر بوده است.
در مجموع Llama 4 چشم اندازه آینده خانواده لاما را نشان میدهد، اما شاخههای Llama 3 همچنان گزینههایی بهصرفه و کاربردی برای بسیاری از نیازها هستند. آنها شاید دیگر در صدر بهترین عملکرد نباشند اما برای بسیاری از پروژهها کفایت میکنند.
| ویژگی | Llama 4 (Maverick) | GPT-4o | Gemini 2.0 | Claude 3.7 |
|---|---|---|---|---|
| متن باز | است | نیست | نیست | نیست |
| نوع معماری | MoE | Dense | Mixture | Dense |
| توان پردازش | 400B پارامتر (17B فعال) | حدود 1.8T پارامتر | نامشخص | نامشخص |
| پشتیبانی از چندرسانهای | است | است | است | محدود |
| هزینه اجرا | پایینتر | بالا | بالا | متوسط |
لاما چه اهمیتی دارد؟
مدلهای معروفی که اسم آن را شنیدهایم ، مانند،o1 و GPT-4o از OpenAI , Gemini از گوگل، Claude از Anthropic مدلهای اختصاصی و پکیچ شکل هستند. شرکتها و محققان میتوانند از طریق APIهای رسمی به آنها دسترسی داشته باشند یا نسخههایی تنظیمشده را بخرند، اما دسترسی کامل به کد و ساختار داخلی آنها امکانپذیر نیست.
در مقابل آنها، با لاما شما میتوانید مدل را در هر زمانی دانلود کنید و درصورتی که دانش فنی داشته باشید، آن را بر روی سرور ابری اجرا کنید یا وارد جزئیات پیادهسازی کنید.
نکتهای که در این میان وجود دارد آن است که میتوانید لاما را بر روی زیرساختهایی مانند:
- Amazon Web Services
- Google Cloud
- Microsoft Azure
و دیگر سرویسها اجرا کنید و به این ترتیب اپلیکشنهای مبتنی بر LLM را بسازید یا آن را بر روی دادههای خودتان تنظیم کنید تا متنهایی با سبک و روند برندتان تولید کند. پیش از هر چیز از مستندات لاما برای استفاده درست و شناخت محدودیتهای مجوز از آن استفاده کنید.
منبع باز بودن لاما به توسعهدهندگان و شرکتها این اجازه را میدهد تا با کنترل بیشتر بر روی مدلها، اپلیکیشنهای مبتنی بر هوشمصنوعی ساخته شود، البته تا زمانی که از سیاستها و محدودیتها پیروی کند.
یکی از محدودیتهای مهم مجوز لاما این است که شرکتهایی با بیش از 700 میلیون کاربر ماهانه باید برای استفاده تجاری اجازه بگیرند، بنابراین شرکتهای بزرگی مانند اپل، گوگل و آمازون ملزماند یا از متا مجوز بگیرند یا به توسعه مدلهای اختصاصی خود ادامه دهند.
در نامهای که همراه با انتشار 3.1 Llama منشتر شد، مارک زاکربرگ (مدیر عامل متا) در رابطه برنامه متا برای باز نگه داشتن لاما کامل صحبت کرد و گفت:
من باور دارم که منبع باز برای آیندهای مثبت در حوزه هوش مصنوعی بسیار اهمیت دارد. هوش مصنوعی پتانسیلی بیشتر از هر فناوری جدید دیگری را برای افزایش خلاقیت، کیفیت زندگی و رشد اقتصادی دارد و برای پیشبرد تحقیقات پزشکی و عملی از آن استفاده میشود.
منبع باز بودن لاما نقش بسیار تعیین کنندهای را در شکل دهی AI خواهد داشت، اما در عین حال فرصت بزرگی برای توسعه دهندگان مستقل و شرکتهایی که نمیخواهند به راهحلهای بسته، وابسته شوند فراهم میکند. بسیاری از پیشرفتهای بزرگ محاسبات در گذشته بر پایه پژوهشهای باز و نوآوریهای مشترک شکل گرفته است، اکنون به نظر میرسد هوش مصنوعی نیز در مسیر مشابهی قدم میگذارد. در حالی که گوگل، Open AI و Anthropic نیز در این مسیر نقش بسزایی را خواهند داشت، اما امکان ندارد به سادگی همان انحصار تجاری را که گوگل در جستجو و تبلیغات دارد، در حوزه هوش مصنوعی تکرار کند.
آیا لاما از زبان فارسی پشتیبانی میکند؟
- Llama 3 و 4 در آموزش خود دادههای چندزبانه دارند.
- در تستهای عمومی، عملکرد در زبان فارسی قابل قبول اما پایینتر از GPT-4o است.
- با ریزتنظیم (Fine-tuning) بر روی دادههای فارسی میتواند بسیار قدرتمند شود.
- چند پروژه بومیسازی فارسی (Persian-Llama یا LlamaFa) هم در حال توسعهاند.
محدودیت ها و چالشهای لاما
با وجود تمام مزایا و قابلیتهای چشمگیر مدلهای خانوادهی Llama، نباید از چالشها و محدودیتهای آنها غافل شد. در ادامه به چند نکتهی مهم در این زمینه اشاره خواهیم کرد:
خطر نشت داده و استفاده نادرست از مدلها
از آنجا که لاما یک مدل متنباز است، هر توسعهدهندهای میتواند نسخهای از آن را دانلود و اجرا کند. این موضوع آزادی عمل زیادی را فراهم میکند، اما در عین حال خطراتی نیز دارد. اگر مدل بدون نظارت یا کنترل مناسب مورد استفاده قرار گیرد، ممکن است محتوای نامناسب، اطلاعات نادرست یا حتی دادههای حساس تولید کند. همچنین در صورتی که مدل بر روی دادههای داخلی یا محرمانه آموزش داده شود و حفاظت لازم انجام نگیرد، احتمال نشت اطلاعات افزایش مییابد.
نیاز به سختافزار قدرتمند برای اجرا
مدلهای بزرگتر لاما مانند Llama 3.1 405B یا Llama 4 Maverick به منابع سختافزاری قابلتوجهی نیاز دارند. برای اجرای نسخههای سنگین، حداقل چندین کارت گرافیک پیشرفته مانند NVIDIA H100 یا A100 مورد نیاز است. اگر چه نسخههای کوچکتر مانند Llama 3.2 3B یا 8B امکان اجرا روی سیستمها یا لپتاپها را دارند، اما اجرای مدلهای چندرسانهای یا نسخههای مبتنی بر MoE همچنان به زیرساخت محاسباتی ابری وابسته است.
در دسترس نبودن نسخههای جدیدتر (مانند Behemoth)
متا تاکنون مدلهایی مانند Llama 4 Behemoth و Llama 4 Reasoning را معرفی کرده، اما هنوز آنها را بهصورت عمومی منتشر نکرده است. بنابراین جامعه توسعهدهندگان به نسخههای قبلی (مانند Maverick و Scout) محدود است. این مسئله میتواند سرعت پژوهشها و مقایسههای فنی را کاهش دهد، زیرا هنوز دادههای بنچمارک رسمی و مستندات کامل در دسترس نیست.
نیاز به دانش فنی بالا برای تنظیم و استفاده تخصصی
اگرچه لاما بهصورت متنباز عرضه شده است، اما برای استفاده بهینه از آن خصوصا در پروژههای تجاری یا تخصصی نیاز به دانش فنی قابلتوجهی وجود دارد. فرایندهایی مانند ریزتنظیم (Fine-tuning)، بهینهسازی پاسخها (Alignment) و ادغام مدل با زیرساختهای ابری یا APIها پیچیدهاند و نیازمند مهارت در یادگیری عمیق، پردازش زبان طبیعی و مدیریت منابع سختافزاری هستند.

جمع بندی
لاما با ترکیب مدلهای بزرگ زبانی و متن باز بودن، نقطه عطفی در مسیر توسعه هوش مصنوعی محسوب میشود. این مدلها آزادی و انعطاف زیادی را برای پژوهشگران و شرکتها فراهم خواهند کرد تا بتوانند راهکارهای اختصاصی خود را داشته باشند، چیزی که در مدلهای بستهای مانند GPT یا Gemini ممکن نیست. با این حال، اجرای نسخههای پیشرفته لاما نیازمند سختافزار قوی، دانش فنی بالا است و نسخههای جدیدتر آن هنوز در دسترس عمومی قرار نگرفتهاند.