

Стоимость владения (TCO, Total Cost of Ownership) AI-решением - это совокупные расходы на внедрение и эксплуатацию системы искусственного интеллекта, включая не только очевидные статьи (API-токены, серверы), но и скрытые (поддержка, обучение модели, хранение данных, DevOps). Когда компания решает внедрить ИИ-решение - чат-бот, RAG-систему, аналитического ассистента - один из первых вопросов: сколько это будет стоить? Ответ зависит от выбранного подхода. Облачные API требуют минимальных начальных вложений, но стоимость растёт с объёмом использования. Собственные серверы дороги на старте, но могут окупиться при больших объёмах. В этой статье мы разберём оба варианта с реальными цифрами, покажем точку безубыточности и дадим формулу для расчёта стоимости вашего проекта.
Облачные API: платишь за то, что используешь
Облачные LLM (YandexGPT, DeepSeek, ведущие коммерческие модели) работают по модели pay-as-you-go: вы платите за количество обработанных токенов. Нет начальных инвестиций, не нужно покупать серверы и нанимать инженеров по GPU. Это делает облачные API идеальным стартовым вариантом для большинства компаний.
Как считаются токены
Токен - это условная единица текста. Для русского языка одно слово в среднем равно 1.5-2 токенам (русские слова длиннее английских и токенизируются менее эффективно). Стоимость рассчитывается отдельно для входных токенов (ваш запрос + контекст) и выходных (ответ модели). Входные токены обычно дешевле выходных.
Реальный пример расчёта для типичного чат-бота
Допустим, ваш чат-бот обрабатывает 100 обращений в день. Средний запрос: 200 токенов от пользователя + 1 500 токенов контекста из RAG + 500 токенов системного промпта = 2 200 входных токенов. Средний ответ: 400 выходных токенов. Итого на одно обращение: 2 200 входных + 400 выходных = 2 600 токенов.
При 100 обращениях в день: 260 000 токенов в день, или около 7.8 миллиона токенов в месяц.
Сколько это стоит на разных моделях:
- YandexGPT Lite - примерно 0.2 руб. за 1 000 токенов. Месячная стоимость: около 1 560 рублей
- YandexGPT Pro - примерно 1.2 руб. за 1 000 токенов. Месячная стоимость: около 9 360 рублей
- DeepSeek-V3 - $0.27/$1.10 за 1M входных/выходных токенов. При текущем курсе: около 350-500 рублей в месяц
- DeepSeek-R1 - $0.55/$2.19 за 1M входных/выходных. Около 700-1 000 рублей в месяц
- Ведущие коммерческие модели - $3-15 за 1M входных, $15-75 за 1M выходных токенов. От 5 000 до 50 000 рублей в месяц в зависимости от конкретной модели
Разброс огромный: от 350 рублей до 50 000 рублей в месяц за один и тот же объём обращений. Это ещё раз подтверждает, что выбор модели - ключевое экономическое решение.
Как стоимость масштабируется с ростом
Главная особенность облачных API - линейный рост стоимости. В два раза больше обращений - в два раза больше расходы. Это предсказуемо, но может стать проблемой при быстром масштабировании.
Пример масштабирования (YandexGPT Pro):
- 100 обращений/день - 9 360 руб./мес.
- 500 обращений/день - 46 800 руб./мес.
- 1 000 обращений/день - 93 600 руб./мес.
- 5 000 обращений/день - 468 000 руб./мес.
- 10 000 обращений/день - 936 000 руб./мес.
Тот же расчёт для DeepSeek-V3:
- 100 обращений/день - ~400 руб./мес.
- 500 обращений/день - ~2 000 руб./мес.
- 1 000 обращений/день - ~4 000 руб./мес.
- 5 000 обращений/день - ~20 000 руб./мес.
- 10 000 обращений/день - ~40 000 руб./мес.
При 10 000 обращений в день на YandexGPT Pro компания платит почти миллион рублей в месяц только за токены LLM. Это уже сопоставимо с арендой собственных GPU-серверов. Но если использовать DeepSeek-V3, даже при 10 000 обращений стоимость остаётся весьма умеренной - 40 000 рублей.
Вывод: выбор модели влияет на стоимость сильнее, чем выбор между облаком и on-premise. Переход с дорогой модели на дешёвую (при сопоставимом качестве) может дать экономию в 10-20 раз.
Собственные серверы: высокий старт, фиксированная стоимость
Развёртывание LLM на собственных серверах (on-premise) - это альтернативный подход с принципиально другой экономикой. Вы платите фиксированную сумму за инфраструктуру вне зависимости от количества запросов. Это означает, что при высоких объёмах стоимость одного запроса стремится к нулю.
Стоимость GPU-серверов
Для запуска языковой модели нужны специализированные серверы с GPU (графическими процессорами). Вот основные конфигурации и их стоимость в 2026 году:
- NVIDIA A10 (24 ГБ) - подходит для компактных моделей (Mistral 7B, Llama 8B). Аренда: 40 000-60 000 руб./мес. Покупка: от 350 000 руб. за карту (+ сервер 200 000-300 000 руб.)
- NVIDIA L40S (48 ГБ) - для средних моделей с квантизацией (Llama 70B в 4-bit). Аренда: 80 000-120 000 руб./мес. Покупка: от 800 000 руб. за карту
- NVIDIA A100 (80 ГБ) - стандарт для продуктивных систем, модели до 70B параметров. Аренда: 120 000-200 000 руб./мес. за одну карту. Покупка: от 1 200 000 руб. за карту
- NVIDIA H100 (80 ГБ) - новейшее поколение, 2-3x быстрее A100. Аренда: 200 000-350 000 руб./мес. Покупка: от 3 000 000 руб. за карту
Для продуктивной системы с моделью среднего размера (30-70B параметров) понадобятся 2-4 GPU A100 или 1-2 H100. Бюджет на аренду: 300 000-700 000 рублей в месяц только за GPU.
Дополнительные расходы on-premise:
- Электричество - один GPU-сервер потребляет 1-3 кВт. При стоимости электричества 5-7 руб./кВтч это 3 600-15 000 руб./мес. (если серверы в собственном ЦОД)
- Охлаждение - GPU выделяют много тепла. Система кондиционирования серверной добавляет 30-50% к стоимости электричества
- DevOps/MLOps специалист - настройка, мониторинг, обновления модели. Зарплата: 200 000-400 000 руб./мес. или частичная занятость существующего инженера
- Сетевая инфраструктура - быстрое подключение к интернету (если пользователи внешние), VPN, балансировка нагрузки. 10 000-50 000 руб./мес.
- Резервирование - для отказоустойчивости нужен как минимум второй сервер. Это удваивает стоимость аренды GPU
Итого TCO on-premise (минимальная конфигурация - Mistral 7B на A10):
- GPU-сервер: 50 000 руб./мес.
- DevOps (частичная занятость): 80 000 руб./мес.
- Инфраструктура: 20 000 руб./мес.
- Итого: ~150 000 руб./мес.
TCO on-premise (средняя конфигурация - Llama 70B на 2x A100):
- GPU-серверы: 300 000 руб./мес.
- DevOps: 150 000 руб./мес.
- Инфраструктура: 50 000 руб./мес.
- Итого: ~500 000 руб./мес.
Точка безубыточности: когда on-premise выгоднее облака
Точка безубыточности - это объём запросов, при котором стоимость облачных API сравнивается со стоимостью собственных серверов. После этой точки каждый дополнительный запрос на on-premise обходится дешевле.
Расчёт для YandexGPT Pro vs Mistral 7B on-premise:
On-premise TCO: 150 000 руб./мес. YandexGPT Pro: 9.36 руб. за 100 обращений, или 0.094 руб. за обращение (при 2 600 токенах на обращение). Точка безубыточности: 150 000 / 0.094 = ~1 600 000 обращений в месяц, или ~53 000 обращений в день.
Это огромный объём, который характерен для крупного бизнеса. Для компании со 100-1 000 обращениями в день облачный YandexGPT Pro однозначно выгоднее.
Расчёт для ведущих коммерческих моделей vs Llama 70B on-premise:
On-premise TCO: 500 000 руб./мес. Дорогая коммерческая модель: примерно 5 руб. за обращение (при 2 600 токенах). Точка безубыточности: 500 000 / 5 = 100 000 обращений в месяц, или ~3 300 обращений в день.
Здесь картина совсем другая. При 3 300+ обращениях в день собственные серверы с Llama 70B уже выгоднее дорогой коммерческой модели. Это объём, который достижим для среднего бизнеса.
А если сравнить с DeepSeek?
On-premise TCO: 150 000 руб./мес. DeepSeek-V3: ~0.004 руб. за обращение. Точка безубыточности: 150 000 / 0.004 = ~37 500 000 обращений в месяц. Практически недостижимый объём для большинства компаний. При использовании DeepSeek-V3 on-premise почти никогда не будет дешевле по чистой стоимости API. Однако у on-premise есть другие преимущества: приватность данных, отсутствие зависимости от провайдера, стабильная латентность.
Общее правило:
- При использовании дорогих моделей - on-premise становится выгодным при 3 000-10 000 обращениях в день
- При использовании YandexGPT Pro - on-premise выгоден при 30 000-50 000 обращениях в день
- При использовании DeepSeek - on-premise экономически не оправдан (выбирается по другим причинам: приватность, стабильность)
Скрытые расходы, о которых забывают
Стоимость LLM (облачных или on-premise) - это только часть TCO. Полноценное AI-решение включает множество компонентов, каждый из которых стоит денег.
1. Генерация эмбеддингов
Для RAG-системы каждый фрагмент базы знаний должен быть преобразован в вектор. Эмбеддинги тоже стоят денег. Voyage AI (voyage-4-large) стоит $0.12 за миллион токенов. Для базы знаний из 10 000 документов (в среднем 500 токенов каждый = 5M токенов) первичная индексация обойдётся в $0.60 (около 50 рублей). Это немного, но при регулярной переиндексации расходы накапливаются. Для email-архива из 100 000 писем стоимость индексации уже составит 500-1 000 рублей.
2. Векторная база данных
Хранение и поиск векторов требует ресурсов:
- pgvector (расширение PostgreSQL) - если у вас уже есть PostgreSQL, дополнительные расходы минимальны. Для 100 000 векторов размерностью 2048 понадобится примерно 1.6 ГБ памяти + индексы. Аренда виртуальной машины с 4 ГБ RAM: 2 000-5 000 руб./мес.
- Turbopuffer - облачная база данных для больших объёмов. Стоимость зависит от количества записей и запросов. Для 100 000 записей: $10-50/мес. Для миллиона: $50-200/мес.
3. Хранение данных
Исходные документы, обработанные фрагменты, метаданные, логи запросов, история диалогов - всё это занимает место. Объём хранения для типичного проекта - от 10 ГБ до 1 ТБ. Стоимость облачного хранилища: 1-5 руб./ГБ/мес. Для 100 ГБ: 100-500 руб./мес.
4. Трафик и сетевые расходы
Исходящий трафик в облаке обычно платный. При высоких объёмах запросов (streaming-ответы, передача контекста) расходы на трафик могут составлять 1 000-10 000 руб./мес.
5. Мониторинг и логирование
Для продуктивной системы нужен мониторинг: время ответа, качество ответов, расход токенов, ошибки API. Инструменты мониторинга (Grafana, Datadog, custom) стоят от 0 (self-hosted) до 10 000-50 000 руб./мес. (SaaS).
6. Разработка и поддержка
Создание RAG-системы, промптов, интеграций, админ-панели - это работа разработчиков. Поддержка: обновление базы знаний, корректировка промптов, добавление новых сценариев. Для внешнего подрядчика это ежемесячная стоимость поддержки. Для внутренней команды - часть зарплатного фонда.
7. Качество данных
Мусор на входе - мусор на выходе. Если база знаний содержит устаревшие, дублирующиеся или противоречивые документы, качество ответов будет низким. Расходы на курирование данных (ручное или автоматизированное) могут составлять 20 000-100 000 руб./мес. в зависимости от объёма.
Полный TCO: облако vs on-premise для разных масштабов
Сведём все расходы в единую картину для трёх типичных масштабов бизнеса.
Малый бизнес (100 обращений/день, DeepSeek-V3)
- LLM API: 400 руб./мес.
- Эмбеддинги (Voyage AI): 50 руб./мес.
- Векторная база (pgvector в составе существующего PostgreSQL): 0 руб.
- Хранение: 100 руб./мес.
- Поддержка: 50 000 руб./мес. (внешний подрядчик)
- Итого: ~50 550 руб./мес.
Основная статья расходов - поддержка, а не API. Стоимость токенов пренебрежимо мала.
Средний бизнес (1 000 обращений/день, YandexGPT Pro)
- LLM API: 93 600 руб./мес.
- Эмбеддинги: 200 руб./мес.
- Векторная база (pgvector, выделенный сервер): 5 000 руб./мес.
- Хранение и трафик: 2 000 руб./мес.
- Мониторинг: 5 000 руб./мес.
- Поддержка: 80 000 руб./мес.
- Итого: ~185 800 руб./мес.
Средний бизнес (1 000 обращений/день, DeepSeek-V3)
- LLM API: 4 000 руб./мес.
- Остальные расходы аналогичны: 92 200 руб./мес.
- Итого: ~96 200 руб./мес.
Замена YandexGPT Pro на DeepSeek-V3 экономит почти 90 000 рублей в месяц. Если качество DeepSeek устраивает для конкретной задачи - это существенная экономия.
Крупный бизнес (5 000 обращений/день, on-premise Llama 70B)
- GPU-серверы (2x A100): 300 000 руб./мес.
- Резервный сервер: 150 000 руб./мес.
- DevOps/MLOps: 200 000 руб./мес.
- Эмбеддинги (on-premise модель): 0 руб. (GPU покрывают)
- Векторная база (pgvector): 10 000 руб./мес.
- Хранение и инфраструктура: 30 000 руб./мес.
- Мониторинг: 20 000 руб./мес.
- Поддержка: 150 000 руб./мес.
- Итого: ~860 000 руб./мес.
Для сравнения: 5 000 обращений/день на ведущей коммерческой модели (по $0.05 за обращение) обошлись бы примерно в 750 000 руб./мес. только за API, плюс расходы на инфраструктуру - итого более 1 000 000 руб./мес. On-premise здесь уже экономически оправдан - и бонусом вы получаете полную приватность данных.
Стоимость разработки и внедрения
Помимо ежемесячных расходов на эксплуатацию, есть единовременные затраты на разработку и внедрение ИИ-решения. Это инвестиция, которая происходит один раз (с возможными доработками позже).
Этапы и стоимость разработки:
- Аудит и стратегия - анализ бизнес-процессов, определение сценариев, выбор архитектуры. 2-4 недели. Стоимость: 100 000-200 000 руб.
- Подготовка данных - сбор, очистка, структурирование базы знаний. Зависит от объёма: от 50 000 руб. (100 документов) до 500 000 руб. (10 000+ документов с разными форматами)
- Разработка RAG-пайплайна - построение системы индексации, поиска и генерации. 3-6 недель. Стоимость: 200 000-500 000 руб.
- Интеграция с каналами - подключение чат-бота к Telegram, виджету на сайте, CRM. 1-3 недели на канал. Стоимость: 50 000-150 000 руб. за канал
- Тестирование и доработка - проверка качества ответов, корректировка промптов, обучение пользователей. 2-4 недели. Стоимость: 100 000-200 000 руб.
Типичный бюджет на внедрение:
- Пилотный проект (один сценарий, один канал) - 150 000-300 000 руб.
- Полноценное решение (RAG + 2-3 канала + CRM-интеграция) - 500 000-1 500 000 руб.
- Enterprise-решение (on-premise, множество сценариев, кастомизация) - от 2 000 000 руб.
Модель ценообразования Промолитики
В Промолитике мы стремимся к прозрачному ценообразованию, которое понятно бизнесу. Вот как устроена наша модель.
Пилотный проект
Стоимость: от 150 000 рублей. Срок: 2-4 недели. Что входит: аудит данных, подготовка базы знаний (до 200 документов), настройка RAG-пайплайна, подключение одного канала (Telegram или виджет на сайте), базовая настройка промптов. Результат: работающий прототип, который можно тестировать на реальных пользователях.
Полноценное решение
Стоимость: от 500 000 рублей. Срок: 4-8 недель. Что входит: полная подготовка базы знаний, RAG-пайплайн с гибридным поиском, подключение 2-3 каналов, CRM-интеграция, ролевая модель доступа, аналитический дашборд. Результат: продуктивная система, готовая к ежедневному использованию.
Ежемесячная поддержка
Стоимость: от 50 000 рублей в месяц. Что входит: мониторинг качества ответов, обновление базы знаний, корректировка промптов, техническая поддержка, отчёты по использованию. Стоимость облачных API (токены) оплачивается отдельно по фактическому потреблению.
Модель «под ключ» для крупного бизнеса
Для компаний с нестандартными требованиями (on-premise, множество сценариев, интеграция с внутренними системами) мы рассчитываем стоимость индивидуально на основе аудита.
Как оценить стоимость вашего проекта
Для предварительной оценки стоимости AI-решения используйте следующую формулу:
Ежемесячный TCO = Стоимость LLM + Эмбеддинги + Хранение + Инфраструктура + Поддержка
Чтобы рассчитать стоимость LLM, вам нужно знать три параметра:
- Количество обращений в день - сколько запросов будет обрабатывать система. Для чат-бота на сайте: 50-500. Для внутреннего ассистента на 100 сотрудников: 200-1 000. Для автоматизации поддержки: 500-5 000
- Средний размер запроса в токенах - типичный запрос с RAG-контекстом: 2 000-3 000 входных + 300-500 выходных. Для простых FAQ: 500+200. Для анализа документов: 5 000-10 000+500
- Стоимость токена выбранной модели - см. таблицы выше для YandexGPT, DeepSeek и других
Пример расчёта:
Компания с 200 обращениями в день, YandexGPT Pro, средний запрос 2 500 входных + 400 выходных токенов:
- Входных токенов/месяц: 200 * 30 * 2 500 = 15 000 000
- Выходных токенов/месяц: 200 * 30 * 400 = 2 400 000
- Стоимость входных: 15 000 * 1.2 руб. = 18 000 руб.
- Стоимость выходных: 2 400 * 1.2 руб. = 2 880 руб.
- Итого LLM: 20 880 руб./мес.
- + Инфраструктура и поддержка: ~60 000-80 000 руб./мес.
- Полный TCO: ~80 000-100 000 руб./мес.
Способы оптимизации стоимости
Вне зависимости от выбранного подхода (облако или on-premise) существуют проверенные способы снизить стоимость без потери качества.
1. Кэширование ответов
Если одни и те же вопросы задаются часто (что характерно для FAQ и поддержки), кэширование снижает количество обращений к LLM. Семантический кэш (на основе эмбеддингов) позволяет находить кэшированный ответ даже на перефразированный вопрос. По нашему опыту, кэширование сокращает расход токенов на 30-60% для типичных чат-ботов.
2. Маршрутизация на дешёвые модели
Не все запросы требуют мощной модели. Простые вопросы («какой у вас адрес?») отлично обрабатывает YandexGPT Lite или компактная on-premise модель. Классификатор определяет сложность запроса и направляет его на соответствующую модель. Экономия: 40-70% при сохранении качества для сложных запросов.
3. Оптимизация промптов
Каждый лишний токен в промпте - это деньги. Сократите системный промпт до необходимого минимума. Уберите повторяющиеся инструкции. Структурируйте контекст так, чтобы модель быстрее находила нужную информацию. Типичная экономия: 15-30% на входных токенах.
4. Ограничение длины ответа
Если для ответа достаточно 2-3 предложений - укажите это в промпте. Без ограничения модель может генерировать длинные, подробные ответы, каждый токен которых стоит денег. Параметр max_tokens в API позволяет жёстко ограничить длину ответа.
5. Батчевая обработка
Для задач, не требующих мгновенного ответа (обработка документов, генерация отчётов, обновление базы знаний), используйте асинхронные API. YandexGPT предлагает сниженные тарифы для асинхронных запросов. DeepSeek также имеет batch API со скидкой 50%.
6. Компрессия контекста
Вместо того чтобы загружать в контекст 5 фрагментов из базы знаний по 500 токенов каждый, предварительно сожмите их: извлеките ключевые факты, уберите повторы. Компрессия может сократить объём контекста в 2-3 раза без существенной потери информации.
7. Выбор правильного размера модели
Для on-premise: не всегда нужна модель с 70B параметров. Для многих задач (FAQ, классификация, извлечение данных) достаточно 7-8B модели, которая требует в 10 раз меньше ресурсов GPU. Тестируйте на реальных задачах: если качество 7B модели приемлемо для вашего сценария, экономия на инфраструктуре будет колоссальной.
Итог: как принять решение
Стоимость AI-решения зависит от трёх ключевых факторов: выбранной модели, объёма использования и требований к приватности. Вот основные ориентиры для принятия решения:
- Малый бизнес (до 500 обращений/день) - облачные API однозначно. DeepSeek-V3 для экономии, YandexGPT для качества русского и локализации данных. TCO: 50 000-100 000 руб./мес. включая поддержку
- Средний бизнес (500-5 000 обращений/день) - облачные API или гибрид. Оптимизация через маршрутизацию моделей и кэширование. TCO: 100 000-500 000 руб./мес.
- Крупный бизнес (5 000+ обращений/день) - on-premise или гибрид. Экономически оправдан при использовании дорогих моделей. TCO: от 500 000 руб./мес.
- Регулируемые отрасли - on-premise вне зависимости от объёма (причина - приватность, а не экономика). TCO: от 500 000 руб./мес.
Главные правила оптимизации: начните с пилота на облачных API, измерьте реальные объёмы и стоимость, оптимизируйте (кэш, маршрутизация, промпты), а затем масштабируйте. Не инвестируйте в on-premise, пока не убедитесь, что объёмы это оправдывают, - или пока приватность не станет абсолютным требованием.
Если вы хотите получить точный расчёт стоимости AI-решения для вашего бизнеса - свяжитесь с нами. Мы проведём аудит, оценим объёмы и предложим оптимальную архитектуру с расчётом TCO на 12 месяцев. Подробнее о наших решениях - на странице ПромоБот.



