Apple представила малые языковые модели OpenELM, которые могут быть запущены на смартфонах
RSSApple выпустила серию языковых моделей OpenELM, разработанных для работы непосредственно на устройствах пользователя, таких как смартфоны и ноутбуки. Это полностью открытая модель, превосходящая многие другие LLM, обученные на общедоступных данных.
Эти малые модели отличаются от большинства существующих решений, которые требуют подключения к облачным серверам, и предназначены для генерации текста. С ними расход электроэнергии на устройстве почти не растет, а интернет-соединение им не нужно.
Apple утверждает, что семейство моделей «имеет целью расширить возможности и укрепить открытое исследовательское сообщество, способствуя будущим исследовательским усилиям». Модели были предварительно обучены на общедоступных наборах данных с 1,8 трлн токенов с Reddit, Wikipedia, arXiv.org и тому подобное.
OpenELM состоит из небольших моделей, предназначенных для эффективного выполнения задач по созданию текста. Соответствующий код опубликован в сообществе кодов искусственного интеллекта Hugging Face. Всего существует 8 моделей OpenELM: 4 предварительно обученные и 4 настроенные по инструкции. Они охватывают различные размеры параметров — от 270 миллионов до 3 миллиардов параметров.
Под параметрами здесь подразумевается количество переменных, которые модель использует, принимая решения на основе обучающих наборов данных. Например, у недавно выпущенной модели Phi-3 от Microsoft — 3,8 млрд параметров, а у Gemma от Google — 2,2 млрд. При этом модели меньшего размера дешевле в использовании и оптимизированы для работы на телефонах и ноутбуках.
Техника, используемая в OpenELM, называется масштабированием слоёв, что позволяет более эффективно распределять параметры в модели трансформера. Это обеспечивает повышенную точность ответов модели в тестах на основе стандартных задач.
Apple предлагает свои модели OpenELM в рамках так называемой «лицензии на образец кода», а также предоставляет различные контрольные точки по обучению, статистические данные об эффективности моделей, а также инструкции по предварительному обучению, оценке, настройке инструкций и параметров.
Данная лицензия не запрещает коммерческого использования или модификации кода, однако требует распространять программное обеспечение Apple совместно с текстами самой лицензии и отказа от ответственности. Последний подразумевает отсутствие гарантий безопасности и вероятность неточных, необъективных, неприемлемых и даже вредных ответов на запросы пользователя.