Открытые большие языковые модели для запуска на своём сервере:
- DeepSeek-R1 -китайская модель, охватывает 671 миллиард параметров и учитывает контекст в 128 тысяч токенов.
- Granite - модель от IBM, 8 миллиардов параметров.
- InternVL - модель, способная обрабатывать визуальную информацию. 5-78 млрд параметров.
- OLMo 2 - полностью открытая модель, 7 и 13 млрд параметров.
- Phi-4 - модель от Microsoft, нацеленная на решение логических задач. 15 млрд параметров.
- Qwen - китайская модель, 72 млрд параметров, 128 тысяч токенов. Есть вариант для обработки визуальной информации.
- SmolLM2 - легковесные модели (135 млн, 360 млн и 1.7 млрд параметров), рассчитанные на резюмирование информации и обработку текста.
- all-MiniLM-L6-v2, 23 млн параметров, подходит для встраивания в приложения.
Движки для исполнения больших языковых моделей: llama.cpp, ollama, koboldcpp.
|