LLaMA

LLaMA
LLaMA
Тип	большая языковая модель, family of large-language models[вд] и языковая модель
Автор	Meta AI[вд]
Разработчик	Meta Platforms
Написана на	Python
Первый выпуск	февраль 2023
Последняя версия	3.2 (25 сентября 2024);
Репозиторий	github.com/facebookresea…
Лицензия	Llama 2 Community License Agreement[вд]
Сайт	llama.meta.com (англ.)

LLaMA (Large Language Model Meta AI) — большая языковая модель (LLM), выпущенная Meta AI в феврале 2023 года. Были обучены модели различных размеров в диапазоне от 7 до 65 миллиардов весов. Разработчики LLaMA сообщили, что производительность модели с 13 миллиардами весов в большинстве тестов NLP превышает производительность гораздо более крупной модели GPT-3 (со 175 миллиардами весов) и что самая большая модель может конкурировать с современными моделями, такими как PaLM и Chinchilla. В то время как самые мощные LLM как правило были доступны только через ограниченные API (если вообще были доступны), Meta предоставила исследовательскому сообществу веса моделей LLaMA под некоммерческой лицензией. В течение недели после выпуска LLaMA её веса были выложены в открытый доступ на 4chan через BitTorrent.

Архитектура и обучение

LLaMA использует архитектуру трансформера, стандартную архитектуру для языкового моделирования с 2018 года. Разработчики LLaMA сосредоточились на масштабировании производительности модели за счёт увеличения объёма обучающих данных, а не на количестве весов, аргументируя это тем, что доминирующая стоимость LLM связана с выводом на обученную модель, а не с вычислительными затратами на процесс обучения. LLaMA была обучена на 1,4 трлн токенов, взятых из общедоступных источников данных, в том числе:

Веб-страницы, извлеченные Common Crawl
Репозитории исходного кода с открытым исходным кодом из GitHub
Википедия на 20 разных языках
Книги общественного достояния из Project Gutenberg
Исходный код LaTeX для научных статей, загруженных в ArXiv
Вопросы и ответы с веб-сайтов Stack Exchange

Выпуск и утечка

О LLaMA было объявлено 23 февраля 2023 года в сообщении в блоге и документе, описывающем обучение, архитектуру и производительность модели. Код, используемый для обучения модели, был опубликован под лицензией GPL 3 с открытым исходным кодом. Доступ к весам модели управлялся в процессе подачи заявок, при этом доступ предоставлялся «в каждом конкретном случае» академическим исследователям, тем, кто связан с правительственными организациями, гражданским обществом и академическими кругами, а также отраслевыми исследовательскими лабораториями по всему миру.

2 марта 2023 года^[4] торрент, содержащий веса LLaMA, был размещён на имиджборде 4chan и впоследствии распространился через онлайн-сообщества ИИ. В тот же день был открыт пулл-реквест в основном репозитории LLaMA с просьбой добавить magnet-ссылку в официальную документацию^[5]^[6]. 4 марта был открыт запрос на добавление ссылок на репозитории HuggingFace, содержащие модель^[5]^[7]. 6 марта Meta подала запросы на удаление репозиториев HuggingFace, связанных в запросе на вытягивание, охарактеризовав это как «несанкционированное распространение» модели. HuggingFace выполнил просьбу^[8]. 20 марта Meta подала иск DMCA за нарушение авторских прав в отношении репозитория, содержащего скрипт, загружающий LLaMA с зеркала, и на следующий день GitHub удовлетворил требования^[9]. По состоянию на 25 марта Facebook не ответил на запрос на включение, содержащий магнитную ссылку^[6].

Реакция на утечку была разной. Некоторые предполагали, что модель будет использоваться в злонамеренных целях, например, для более изощрённой рассылки спама. Некоторые отметили доступность модели, а также тот факт, что меньшие версии модели могут быть запущены относительно дёшево, предполагая, что это будет способствовать расцвету дополнительных исследовательских разработок. Многие комментаторы, такие как Саймон Уиллисон, сравнивали LLaMA со Stable Diffusion, моделью преобразования текста в изображение, которая, в отличие от предшествующих ей сравнительно сложных моделей, распространялась открыто, что привело к быстрому распространению связанных инструментов, методов и программного обеспечения.

18 июля 2023 года Meta и Microsoft совместно выпустили новую версию языковой модели — Llama 2, сделав её доступной для исследовательских и коммерческих целей^[10]. В сентябре 2023 года на ежегодном мероприятии Connect был представлен ИИ-ассистент Meta AI, работающий на основе этой модели^[11].

18 апреля 2024 года вышла Llama 3 с открытым исходным кодом, а также обновлён Meta AI^[11]. В июле 2024 года появился более мощный вариант модели Llama 3.1, который имеет более 405 млрд параметров^[12]. В конце сентября 2024 года Meta выпустила свою первую мультимодальную опенсорс модель Llama 3.2, представляющую собой семейство LLM разной мощности^[13].

Приложения

Центр исследований базовых моделей (CRFM) Института человеко-ориентированного искусственного интеллекта (HAI) Стэнфордского университета выпустил Alpaca, рецепт обучения, основанный на модели LLaMA 7B, в которой используется метод настройки инструкций «Самообучение» для приобретения сопоставимых возможностей. К модели text-davinci-003 серии OpenAI GPT-3.5 по скромной цене^[14]^[15]. Несколько проектов с открытым исходным кодом продолжают эту работу по тонкой настройке LLaMA с набором данных Alpaca.

Примечания

↑ Llama 3.2: Revolutionizing edge AI and vision with open, customizable models — 2024.
↑ LLaMA: Open and Efficient Foundation Language Models - Meta Research (фр.)
↑ Touvron, Hugo; Lavril, Thibaut; Izacard, Gautier; Martinet, Xavier; Lachaux, Marie-Anne; Lacroix, Timothée; Rozière, Baptiste; Goyal, Naman; Hambro, Eric; Azhar, Faisal; Rodriguez, Aurelien; Joulin, Armand; Grave, Edouard; Lample, Guillaume (2023). "LLaMA: Open and Efficient Foundation Language Models". arXiv:2302.13971 [cs.CL].
↑ /g/ - /aicg/ - AI Chatbot General - Technology - 4chan (неопр.) (5 марта 2023). Дата обращения: 9 сентября 2023. Архивировано из оригинала 5 марта 2023 года.
↑ ¹ ² VK, Anirudh (2023-03-06). "Meta's LLaMA Leaked to the Public, Thanks To 4chan". Analytics India Magazine. Архивировано 26 марта 2023. Дата обращения: 17 марта 2023.
↑ ¹ ² Save bandwidth by using a torrent to distribute more efficiently by ChristopherKing42 · Pull Request #73 · facebookresearch/llama (англ.). GitHub. Дата обращения: 25 марта 2023. Архивировано 10 апреля 2023 года.
↑ Download weights from huggingface to help us save bandwith by Jainam213 · Pull Request #109 · facebookresearch/llama (англ.). GitHub. Дата обращения: 17 марта 2023. Архивировано 21 марта 2023 года.
↑ Cox, Joseph (2023-03-07). "Facebook's Powerful Large Language Model Leaks Online". Vice (англ.). Архивировано 6 апреля 2023. Дата обращения: 17 марта 2023.
↑ OpSec Online LLC. github/dmca - Notice of Claimed Infringement via Email (неопр.). GitHub (21 марта 2023). Дата обращения: 25 марта 2023. Архивировано 10 апреля 2023 года.
↑ Meta* в партнёрстве с Microsoft выпустила ИИ-модель Llama 2 — она доступна для исследовательских и коммерческих целей (неопр.). 3dnews.ru (18 июля 2023). Дата обращения: 19 июля 2023. Архивировано 18 июля 2023 года.
↑ ¹ ² Meta объявила о запуске бесплатного обновленного ИИ-помощника на своих платформах (неопр.). Forbes (19 апреля 2024). Дата обращения: 26 сентября 2024.
↑ Meta выпустила крупнейшую ИИ-модель Llama 3.1. У нее открытый код (неопр.). РБК (24 июля 2024). Дата обращения: 26 сентября 2024.
↑ Meta выпустила Llama 3.2: это первая мультимодальная LLM в опенсорс (неопр.). habr.ru (25 сентября 2024). Дата обращения: 26 сентября 2024.
↑ Taori; Gulrajani, Ishaan; Zhang, Tianyi; Dubois, Yann; Li, Xuechen Alpaca: A Strong, Replicable Instruction-Following Model (неопр.). Stanford Institute for Human-Centered Artificial Intelligence (13 марта 2023). Архивировано 6 апреля 2023 года.
↑ Wang Y., Kordi Y., Mishra S., Liu A., Smith N. A., Khashabi D., Hajishirzi H. Self-Instruct: Aligning Language Model with Self Generated Instructions (англ.) // ArXiv.org — 2022. — ISSN 2331-8422 — arXiv:2212.10560

[_70328f48f2d2372d-1] Llama 3.2: Revolutionizing edge AI and vision with open, customizable models — 2024.

[_6364fc505d8c5675-2] LLaMA: Open and Efficient Foundation Language Models - Meta Research (фр.)

[paper-3] Touvron, Hugo; Lavril, Thibaut; Izacard, Gautier; Martinet, Xavier; Lachaux, Marie-Anne; Lacroix, Timothée; Rozière, Baptiste; Goyal, Naman; Hambro, Eric; Azhar, Faisal; Rodriguez, Aurelien; Joulin, Armand; Grave, Edouard; Lample, Guillaume (2023). "LLaMA: Open and Efficient Foundation Language Models". arXiv:2302.13971 [cs.CL].

[4] /g/ - /aicg/ - AI Chatbot General - Technology - 4chan (неопр.) (5 марта 2023). Дата обращения: 9 сентября 2023. Архивировано из оригинала 5 марта 2023 года.

[India-leak-5] ¹ ² VK, Anirudh (2023-03-06). "Meta's LLaMA Leaked to the Public, Thanks To 4chan". Analytics India Magazine. Архивировано 26 марта 2023. Дата обращения: 17 марта 2023.

[CKing-6] ¹ ² Save bandwidth by using a torrent to distribute more efficiently by ChristopherKing42 · Pull Request #73 · facebookresearch/llama (англ.). GitHub. Дата обращения: 25 марта 2023. Архивировано 10 апреля 2023 года.

[7] Download weights from huggingface to help us save bandwith by Jainam213 · Pull Request #109 · facebookresearch/llama (англ.). GitHub. Дата обращения: 17 марта 2023. Архивировано 21 марта 2023 года.

[8] Cox, Joseph (2023-03-07). "Facebook's Powerful Large Language Model Leaks Online". Vice (англ.). Архивировано 6 апреля 2023. Дата обращения: 17 марта 2023.

[9] OpSec Online LLC. github/dmca - Notice of Claimed Infringement via Email (неопр.). GitHub (21 марта 2023). Дата обращения: 25 марта 2023. Архивировано 10 апреля 2023 года.

[10] Meta* в партнёрстве с Microsoft выпустила ИИ-модель Llama 2 — она доступна для исследовательских и коммерческих целей (неопр.). 3dnews.ru (18 июля 2023). Дата обращения: 19 июля 2023. Архивировано 18 июля 2023 года.

[Llama3-11] ¹ ² Meta объявила о запуске бесплатного обновленного ИИ-помощника на своих платформах (неопр.). Forbes (19 апреля 2024). Дата обращения: 26 сентября 2024.

[12] Meta выпустила крупнейшую ИИ-модель Llama 3.1. У нее открытый код (неопр.). РБК (24 июля 2024). Дата обращения: 26 сентября 2024.

[13] Meta выпустила Llama 3.2: это первая мультимодальная LLM в опенсорс (неопр.). habr.ru (25 сентября 2024). Дата обращения: 26 сентября 2024.

[14] Taori; Gulrajani, Ishaan; Zhang, Tianyi; Dubois, Yann; Li, Xuechen Alpaca: A Strong, Replicable Instruction-Following Model (неопр.). Stanford Institute for Human-Centered Artificial Intelligence (13 марта 2023). Архивировано 6 апреля 2023 года.

[15] Wang Y., Kordi Y., Mishra S., Liu A., Smith N. A., Khashabi D., Hajishirzi H. Self-Instruct: Aligning Language Model with Self Generated Instructions (англ.) // ArXiv.org — 2022. — ISSN 2331-8422 — arXiv:2212.10560

[2]

[1]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

[13]

[14]

[15]

LLaMA

Содержание

Архитектура и обучение

Выпуск и утечка

Приложения

Примечания

Навигация

LLaMA

Архитектура и обучение

Выпуск и утечка

Приложения

Примечания

Навигация

Поиск