Большинство современных AI-сервисов работают через облако: чтобы задать вопрос или загрузить файл, пользователь отправляет данные на сторонние серверы. Это удобно, но неприемлемо, если речь идёт о личных дневниках, исследовательских заметках, корпоративных документах, договорах, HR-файлах или финансовых отчётах.
Хорошая новость в том, что сегодня крупные языковые модели (LLM) можно запускать локально — прямо на своём компьютере или собственном сервере — и взаимодействовать с документами без передачи данных в интернет.
В этой статье разберём, как запустить LLM локально, подключить к ней свои документы и работать с ними в приватном режиме. Мы пошагово рассмотрим установку Ollama и OpenWebUI, выбор модели под железо, настройку поиска по документам через embeddings и создание локальной базы знаний, которая хранится только на вашем устройстве.
📌 Зачем запускать LLM локально
Перед тем как переходить к установке, важно понимать, какие задачи решает локальный запуск LLM.
🔒 Приватность и контроль данных
При локальном запуске:
- документы не отправляются в облако;
- запросы не логируются третьими сторонами;
- данные остаются на диске пользователя.
Это критично для:
- бизнеса и корпоративных сред;
- юристов и бухгалтеров;
- исследователей;
- разработчиков, работающих с NDA-материалами;
- личных архивов и заметок.
⚙️ Независимость от сервисов
Локальная LLM:
- не зависит от доступности ChatGPT или других сервисов;
- работает без подписки;
- не ограничена лимитами запросов;
- не блокируется по региону.
📚 Работа с большими наборами документов
Локальная модель может:
- искать информацию по PDF, TXT, DOCX;
- отвечать на вопросы на основе ваших файлов;
- использовать документы как контекст для генерации ответов.
🧠 Как устроена локальная LLM с документами (кратко)

Архитектура решения выглядит так:
- Ollama — отвечает за запуск и управление языковыми моделями.
- OpenWebUI — даёт браузерный интерфейс (аналог ChatGPT).
- Embedding-модель (nomic-embed-text) — превращает текст документов в числовые векторы.
- База знаний — хранит embeddings и позволяет искать релевантные фрагменты.
- LLM-модель — получает вопрос + найденный контекст и формирует ответ.
Важно:
📌 Embedding-модель и LLM — это разные модели и выполняют разные задачи.
🧰 Что понадобится для начала

Перед установкой убедитесь, что у вас есть:
- терминал (Windows, macOS, Linux);
- Python ≥ 3.9 или Docker (в этой статье используется Python);
- минимум 8 ГБ оперативной памяти (лучше 16 ГБ и выше);
- свободное место на диске для моделей.
⚙️ Установка Ollama
Ollama — это инструмент для локального запуска LLM.
Шаг 1. Установка
Перейдите на официальный сайт Ollama и установите версию под вашу ОС (Windows, macOS или Linux).
После установки откройте терминал и выполните команду:
ollama list
Если Ollama запущена корректно, команда вернёт список установленных моделей (или пустой список).
🖥️ Установка OpenWebUI
OpenWebUI предоставляет веб-интерфейс для работы с локальной LLM.
Шаг 2. Установка через pip
Установите OpenWebUI:
pip install open-webui
Команда работает на Windows, macOS и Linux при наличии Python ≥ 3.9.
Запустите сервер:
open-webui serve
Откройте браузер и перейдите по адресу:
http://localhost:8080
Теперь интерфейс готов к работе.
🤖 Установка и выбор модели LLM
Шаг 3. Загрузка модели
Выберите модель из списка Ollama и загрузите её локально. Например:
ollama pull gemma3:4b
💡 Как выбрать модель под своё железо

| Уровень | Характеристики | Рекомендуемый размер |
|---|---|---|
| Tier 1 | ≤ 8 ГБ RAM, без GPU | 1B–2B |
| Tier 2 | 16 ГБ RAM, слабый GPU | 2B–4B |
| Tier 3 | ≥16 ГБ RAM, 6–8 ГБ VRAM | 4B–9B |
| Tier 4 | ≥32 ГБ RAM, 12+ ГБ VRAM | 12B+ |
📌 Для начала рекомендуется Gemma3, так как она стабильна и подходит для локального использования.
Проверьте установленные модели:
ollama list
📄 Настройка работы с документами

Чтобы LLM могла искать информацию в ваших файлах, нужна embedding-модель.
Установка embedding-модели
Выполните команду:
ollama pull nomic-embed-text
🔍 Зачем нужна embedding-модель
- она преобразует текст документов в векторы;
- позволяет быстро находить семантически похожие фрагменты;
- передаёт найденный контекст основной LLM-модели.
⚙️ Настройки OpenWebUI для документов
Включение памяти
Перейдите:
- Settings → Personalization → включите Memory
Это позволит модели помнить контекст прошлых диалогов.
Настройки документов
Откройте:
- Admin Panel → Settings → Documents
Укажите:
- Embedding Model Engine: Ollama
- Embedding Model:
nomic-embed-text - включите Full Context Mode
🧩 Chunking: как документы разбиваются на части

Документы разбиваются на фрагменты (chunks), так как модели не работают с длинным текстом целиком.
Рекомендованные значения
| Сценарий | Размер chunk | Overlap |
|---|---|---|
| Слабое железо | 128–256 | 10–15% |
| Среднее | 256–384 | 15–20% |
| Комфортное | 384–512 | 15–20% |
| Технические PDF | 384–512 | 15–20% |
| Короткие заметки | 128–256 | 10–15% |
⚠️ Изменение chunk-настроек требует повторной загрузки документов.
📤 Загрузка документов
Перейдите:
- Workspace → Knowledge → создайте коллекцию
Загрузите файлы (PDF, TXT и др.) и следите за возможными ошибками загрузки.
🧠 Создание пользовательской модели

Перейдите:
- Workspace → Models → Create new
Выберите:
- базовую модель (например,
gemma3:1b); - подключите коллекцию документов (Knowledge).
Теперь модель будет автоматически использовать ваши документы как контекст.
✍️ (Опционально) System Prompt
System Prompt позволяет задать стиль и правила работы модели.
Пример:
You are a thoughtful, analytical assistant. Clearly separate facts from interpretation and avoid speculation.
Этот prompt применяется ко всем диалогам с моделью.
▶️ Работа с локальной LLM
Создайте новый чат, выберите пользовательскую модель — и начинайте задавать вопросы.
Модель будет отвечать на основе ваших документов, не выходя в интернет.
⚠️ По умолчанию интерфейс прекращает отображение ответа через 5 минут, но обработка продолжается в фоне.
Если в процессе работы с локальными LLM вы сталкиваетесь с нагрузкой на браузер и интерфейс, рекомендуем также прочитать статью:
👉 Проблемы с производительностью JavaScript на сайте: как ускорить загрузку и отклик
📌 Итоги
Вы получили полностью локальную AI-систему:
- LLM работает на вашем устройстве;
- документы не покидают диск;
- поиск идёт через embeddings;
- нет зависимости от облачных сервисов.
Такой подход идеально подходит для приватных, корпоративных и исследовательских задач.