Meta випустила Llama 3.1 405B – свою найбільшу модель ШІ з відкритим кодом
Сьогодні, 23 липня, Meta повідомила, що випускає Llama 3.1 405B. Модель містить 405 млрд параметрів – це максимум за останні роки, пише TechCrunch.
Параметри допомагають мовній моделі розв’язувати завдання, і чим їх більше, тим більше швидкість. Для моделі з відкритим кодом 405 млрд – це максимум за останні роки.
Llama 3.1 405B навчається на 16 тис. графічних процесорів Nvidia H100 та отримує переваги нових методів навчання та розробки. Як стверджує Meta, модель успішно конкурує з GPT-4o від OpenAI та Claude 3.5 Sonnet від Anthropic.
Як і попередні моделі Meta, Llama 3.1 405B доступна для завантаження або використання на хмарних платформах AWS, Azure і Google Cloud.
Вона також використовується в WhatsApp і Meta.ai – тут вона забезпечує роботу чат-бота для користувачів із США.
Переваги Llama 3.1 405B
Як і інші моделі генеративного ШІ з відкритим і закритим кодом, Llama 3.1 405B може виконувати низку різних завдань, від кодування та відповідей на основні математичні запитання до конспектування документів вісьмома мовами:
- англійська,
- німецька,
- французька,
- італійська,
- португальська,
- хінді,
- Іспанська
- тайська.
Модель працює лише з текстами, тобто не може щось намалювати чи відповісти на запитання про зображення. Проте в її компетенції більшість текстових робочих навантажень, включно з PDF-файлами та електронними таблицями.
Meta навчає Llama 3.1 405B на наборі даних із 15 трлн токенів, датованих до 2024 року. Токени — це частини слів, які моделям легше засвоїти, ніж цілі слова, тому 15 трлн токенів перетворюються на приголомшливі 750 млрд слів.
Для точного налаштування моделі Meta використовувала синтетичні дані, згенеровані іншими моделями AI.
Великі ШІ-розробники, включно з OpenAI і Anthropic, вивчають можливості застосування синтетичних даних для навчання ШІ. Водночас, деякі експерти вважають, що синтетичні дані потенційно можуть посилити упередженість моделі.
Додатково Meta зауважує, що нову модель навчали на більшій кількості неанглійських даних (щоб збільшити продуктивність іншими мовами), їй “згодували” більше «математичних даних» і коду (покращити математичні навички моделі), а також свіжі веб-дані (щоб покращити знання Llama 3.1 405B про поточні події).
Підписуйтеся на наші соцмережі
Meta використала суперечливі методи для навчання ШІ
Нещодавно Reuters писав, що Meta використовувала захищені авторським правом електронні книги для навчання ШІ, попри попередження власних юристів.
Також компанія дозволяє ШІ передивлятись публікації, фотографіх і підписи в Instagram і Facebook, і користувачам важко відмовитися від цього.
Ба більше, Meta разом із OpenAI вже отримали судовий позов від авторів, у тому числі комікеси Сари Сільверман, щодо ймовірного несанкціонованого використання компаніями захищених авторським правом даних для навчання моделей.
«Дані про навчання багато в чому схожі на секретний рецепт і соус, який використовується для створення цих моделей. З нашої точки зору, ми багато вклали в це. І це буде одна з тих речей, яку ми продовжуватимемо вдосконалювати».
Рагаван Срінівасан, віце-президент з управління програмами штучного інтелекту в Meta
Llama 3.1 405B використовує більше контексту і інструментів
Llama 3.1 405B має більше контекстне вікно, ніж попередні моделі Llama: 128 тис. токенів, що еквівалентно книзі на 50 сторінок. Контекст моделі або контекстне вікно посилається на вхідні дані (наприклад, текст), які модель розглядає перед тим, як генерувати вихідні дані (наприклад, додатковий текст).
Це дозволяє моделі узагальнювати довші текстові фрагменти та файли. Для чат-ботів це означає, що він з меншою ймовірністю може забути нещодавні теми розмови.
Порівняння Llama 3 405B та конкурентів
Llama 3 405B працює нарівні з GPT-4 OpenAI і досягає «змішаних результатів» порівняно з GPT-4o та Claude 3.5 Sonnet.
Llama 3 405B краще виконує код і генерує сюжети, ніж GPT-4o, проте її багатомовні можливості загалом слабші. Також модель відстає від Claude 3.5 Sonnet у програмуванні та загальних міркуваннях.
Де можна розгорнути Llama 3 405B
Через масштаби моделі для її роботи потрібне потужне обладнання. Meta рекомендує принаймні серверний вузол.
За словами компанії, Llama 3.1 405B краще використовувати для дистиляції моделі — процесу передачі знань від великої моделі до меншої, ефективнішої моделі — і генерації синтетичних даних для навчання (або тонкого налаштування) альтернативних моделей.
Meta паралельно презентувала менші мовні моделі Llama 3.1 8B і Llama 3.1 70B
Meta просуває свої менші нові моделі для програм загального призначення, таких як активація чат-ботів і генерація коду.
Разом з “старшою сестрою” Meta представила сьогодні дві інші нові менші моделі Llama 3.1 8B і Llama 3.1 70B. Це оновлені версії моделей компанії Llama 3 8B і Llama 3 70B, випущених у квітні 2024-го. Вони також мають контекстні вікна на 128 тис. токенів.
Контексти попередніх моделей перевищували 8000 токенів, що робить це оновлення досить суттєвим — якщо припустити, що нові моделі Llama можуть ефективно обмірковувати весь цей контекст.
Усі моделі Llama 3.1 можуть використовувати інструменти, програми та API сторонніх розробників для виконання завдань, включно з конкурентами від Anthropic і OpenAI.
“З коробки” вони навчені:
- Brave Search, щоб відповідати на запитання про останні події,
- API Wolfram Alpha для запитів, пов’язаних із математикою та наукою,
- інтерпретатор на Python для перевірки коду.
Крім того, Meta стверджує, що моделі Llama 3.1 можуть використовувати певні інструменти, яких вони раніше не бачили — певною мірою.
За даними Meta, моделі Llama були завантажені понад 300 млн разів, і наразі було створено понад 20 тис. моделей, отриманих від Llama.