Ставим нейронку на комп и кайфуем (на случай блока интернета)😎

Что? ДА! Если ваша видеокарта минимум RTX 3060, то можно поставить локальную языковую модель и пользоваться ей без интернета. Плюсы? Конфиденциальность, независимость от мировой паутины, огромный выбор инструментов. Насколько это просто? Супер легко! Разбираемся вместе.

Скачиваем программу LM Studio (с официального сайта) - это оболочка и диспетчер моделей, для того, чтобы все выглядело привычно, как чат-бот на телефоне.

Жмём иконку робота и оказываемся в океане моделей. Не паникуем, вникаем.

У моделей будет три приставки «instruct» «coder» «reasoning». Из перевода легко догадаться: первая для повседневного общения и задач, вторая для кодинга, третья для ресерча.

Буква «B» - billions. Количество миллиардов параметров. Оптимальные для обычного юзера которому нужна историческая справка, работа с документами и рабочий компаньон это от 8B до 14B. Можно рассмотреть от 3B до 7B, но это совсем простые задачи.

При выборе модели мы наткнемся на список с версиями, которые будут от Q1 и до Q8. Q - это квантование. Цифра показывает насколько её сжали. Чем выше число, тем больше вес модели и точность. Нас интересует баланс - выбираем Q4. Но какую взять модель за основу? Вы увидите там Qwen, Deepseek, Olmo, Phi и так далее. Знакомых названий мало, давайте ориентироваться.

Так какую основу выбрать? Нас интересует рабочая лошадка с хорошим пониманием русского языка и тут я могу посоветовать либо Qwen 3 от Alibaba, либо Gemma 3 от Google. Я протестировал обе и отдал предпочтение последней. Кстати, никто не запрещает вам накачать разных моделей и испытывать их сколько угодно. Главное - грамотно подобрать параметры под технические характеристики. Желательно подбирать так, чтобы модель целиком умещалась в память видеокарты, так она будет работать быстрее. Можно конечно замахнуться на 70B, поставить гибридный режим, тогда ИИ будет делить память видеокарты с оперативной памятью, но и работать сильно медленнее.

После того, как вы попользовались локальным чат-ботом - его нужно выгрузить из памяти видеокарты. Сделать это легко, как ни странно нужно нажать кнопку «извлечь» рядом с названием модели. И нет, никакой кэш видеокарты не засоряется, чистить ничего не надо.

Бонус
С русским языком хорошо работают модели: Vikhor и Saiga. Они изначально разрабатывали под нужды русскоязычных пользователей. Они не так популярны и известны, но очень практичны там, где необходимо точное понимание контекста и культуры.
Бонус 2

Post scriptum
Конечно я знаю, что на дтф ИИ боятся и ненавидят. Тут в принципе ко всему относятся с пассивной ненавистью, особенно к играм. Но мой материал нацелен на тех, кто умеет ставить технологии на пользу своей жизни. Пробуйте, тестируйте, находите нужную модель под свои запросы.