Свои большие языковые модели — API, выделенные инстансы и on-prem.
Линейка собственных AiST LLM: генеративные модели на ru/en/code, мультимодальные с vision, embeddings, до 1M токенов контекста. OpenAI-совместимый API, выделенный инстанс или on-prem в вашем ЦОД, fine-tuning под вашу отрасль.
- ◯ 4 модели: Pro · Light · Code · Vision
- ⌬ OpenAI-совместимый API
- ≡ До 1M токенов контекста
- ⊞ Fine-tuning на ваших данных
- ⛨ 152-ФЗ · on-prem · air-gapped
4 собственные модели — под разные задачи и бюджеты.
Не «одна универсальная модель», а инженерно-разные размеры и специализации. Pro для сложных задач, Light для массовых, Code для разработки, Vision для документов и изображений. Все — через одно API.
Pro
Большая модель для сложных задач: анализ договоров, fact-check, агенты, reasoning. Уровень Claude Sonnet / GPT-4o на ru-задачах.
Light
Быстрая и дешёвая для массовых операций: чаты, классификация, теги, summary. ~10 раз дешевле Pro на типовых задачах.
Code
Заточена под разработку: генерация кода, ревью, тесты, debugging, миграции. Знает 1С, Python, TS, Go, Rust, SQL, Bash.
Vision
Мультимодальная: текст + изображения. Чтение документов, схем, чертежей, графиков, скриншотов UI. Связка с AiST OCR.
Облако, выделенный инстанс или on-prem — выбираете под ваши требования ИБ.
Старт за 5 минут на общем API. Под нагрузку — выделенный инстанс с вашим rate-limit и SLA. Под 152-ФЗ и закрытый периметр — разворачиваем on-prem на вашем железе.
Public API
Общий multi-tenant endpoint. Pay-as-you-go по токенам. Старт за 5 минут — получили ключ и пишете запросы. Подходит для прототипов и средних нагрузок.
Dedicated
Выделенный инстанс модели в нашем облаке только для вас. Гарантированный throughput, отдельные ключи, кастомный rate-limit, SLA 99.9%, низкая задержка.
On-prem
Модели разворачиваем в вашем ЦОД на вашем железе. Данные не покидают периметр. 152-ФЗ. Подходит для банков, госов, оборонки.
Air-gapped
On-prem без единого байта наружу. Поставка моделей файлами, обновления — физическим носителем. Для объектов критической инфры.
От запроса в вашем коде — до ответа модели за 200 мс. Через одно API.
OpenAI-совместимый эндпоинт принимает запрос, балансировщик роутит на нужную модель и регион, инференс идёт на нашем GPU-кластере (или вашем для on-prem), ответ возвращается стримом. Биллинг — в токенах, в рублях.
-
01
Замена OpenAI за 5 минут Меняете base_url в OpenAI SDK на `https://api.aist.ai/v1` — и всё уже работает. Тот же интерфейс chat.completions, та же стрим-семантика, тот же function-calling.
-
02
Балансировщик и кэш Запрос летит на ближайший GPU-пул, prompt-cache ловит повторяющиеся контексты (системные промпты, RAG-подсказки) и экономит до 40% от счёта.
-
03
Function-calling и JSON-mode Модель сама вызывает ваши функции (tool-use), возвращает строгий JSON по схеме, поддерживает streaming и long-context. Совместимо с любым агентским фреймворком.
-
04
Прозрачный биллинг в рублях Счёт по токенам, в рублях, без курсовых рисков. Бюджет по ключу, лимит по команде, авто-блок при превышении. Отчёты для CFO — из коробки.
Не «ещё один LLM-API». Полная линейка для корпоративных задач.
Streaming, function-calling, JSON-mode, vision, embeddings, fine-tuning, batch-режим, prompt-cache. Всё что нужно для продакшена — в одном API, на ваших данных, в вашем контуре.
OpenAI-совместимое API
chat.completions, embeddings, streaming — как у OpenAI. Миграция — замена base_url.
До 1M контекста
aist-llm-pro — 256K, расширенная версия 1M. Целая книга/база договоров в один запрос.
Function-calling
Модель сама вызывает ваши API. Параллельные tool-calls, structured output, JSON-mode.
Vision & multimodal
aist-llm-vision принимает до 20 изображений на запрос. Документы, схемы, графики, UI.
Fine-tuning
Дообучение под ваш домен — 500–5000 примеров и через день ваша модель.
Streaming <200 мс
SSE-стрим, TTFT ~200 мс. Пользователь видит ответ сразу, не ждёт 10 секунд молчания.
Prompt-cache
Повторяющиеся системные промпты и RAG-контекст кэшируются. Минус 40% к счёту.
Batch-режим
Миллион запросов в ночь — на 50% дешевле, чем синхронные. Для аудитов и разметки.
Guardrails & PII
Фильтры тем, защита от инъекций, маскирование PII на входе и выходе.
Embeddings ru/en
aist-embed-ru-v3, 1024-d, до 8K токенов. 2 ₽ / 1M. Для RAG и поиска.
Дашборд использования
Запросы по ключам, токены, стоимость, ошибки, latency p50/p95/p99.
SDK & интеграции
Python, Node, Go, Rust, .NET, 1С. Совместимо с LangChain, LlamaIndex, AutoGen.
Платите только за использованное. В рублях. Без курсовых рисков.
Прозрачное ценообразование по токенам. Скидки на объём, batch-режим, выкуп reserved-capacity. Бюджеты по ключам и командам — чтобы CFO не вздрагивал от счетов.
// тарификация
// модели
// способы оплаты
// sdk & платформы
// регионы
// связки с сервисами AiST
Pricing понятный, прогнозируемый, корпоративный.
Free-tier для старта (100 тыс токенов на Pro). Скидка при объёме и reserved-capacity. Для корпоративных клиентов — пост-оплата по счетам, бюджеты по департаментам, единый контракт. Никаких «овернайт-сюрпризов» в счёте.
Оплата по факту использования. Стартуете с 100К бесплатных токенов, дальше — по тарифу.
Зарезервированная мощность со скидкой 30–50%. Для высоких и стабильных нагрузок.
Бессрочная лицензия на развёртывание в вашем контуре. Без токен-биллинга, считаете только своё железо.
От корпоративного чата до production-агентов и custom-моделей.
LLM — это инфраструктура AI-приложений. Любой ваш ассистент, агент, поиск, аналитика, чат — живёт на LLM. Это базовый строительный блок, без которого ничего не работает.
Корпоративный ChatGPT в вашем контуре
Кабинет, Telegram-бот, виджет в 1С — сотрудники общаются с LLM на ru/en, не утекая в OpenAI. Все запросы — под аудитом, по ролям, в рамках 152-ФЗ.
Code-assistant в IDE
aist-llm-code в VSCode, Cursor, JetBrains через стандартный API. Генерация, рефакторинг, тесты, ревью PR. Знает 1С, Python, TS и ваш legacy.
Backend для ваших AI-фич
Под капотом вашего продукта — наш LLM-API. Чат-помощник, классификация, summary, генерация описаний товаров. Один API на весь продукт.
Custom-модель для вашей отрасли
Дообучение на 5000 примерах вашей терминологии (медицина, право, нефтегаз) — и модель отвечает «как ваш эксперт». Качество на вашем домене — +20–40%.
Движок для AiST Agent
Под нашими агентами — наш LLM. Function-calling, JSON-mode, длинный контекст, низкая задержка. Агент на 100 шагов укладывается в 3 минуты.
Batch-обработка миллионов записей
«Классифицируй 10 млн отзывов», «суммируй 1 млн звонков», «извлеки факты из 500 000 договоров» — batch-API на 50% дешевле и за ночь.
Свои модели — основа всех остальных сервисов AiST.
Каждый сервис AiST под капотом использует наши же LLM. RAG генерирует ответы через Pro, Dialog ведёт диалог через Light, Agent работает через Pro с function-calling, OCR дополнительно использует Vision. Когда вы берёте AiST LLM — у вас под рукой вся экосистема.
Не только API. Это вся экосистема AiST.
Можно брать только API и строить своё. А можно сразу использовать готовые сервисы поверх LLM: RAG для поиска по документам, Agent для автономных задач, Dialog для общения с клиентами. Один кабинет, один счёт, единая модерация и аудит.
«Мы использовали GPT-4 через VPN, переживая каждый день о 152-ФЗ. Перешли на aist-llm-pro — качество на ru-задачах оказалось выше, счёт в рублях, никаких VPN и юридических рисков»
Что ещё есть на AiST Platform→LLM в РФ: 152-ФЗ, рубли, без VPN, без юридических рисков.
GPT-4 через VPN — это нарушение пользовательского соглашения OpenAI и потенциальное 152-ФЗ. AiST LLM решает обе проблемы: модели в вашем контуре, оплата в рублях, контракт по РФ-законам.
Закрытый периметр
- On-prem или AiST BOX в вашем ЦОД
- Air-gapped вариант для критической инфры
- Запросы не уходят за границу
- RBAC: ключи по командам, скоупы по моделям
- Защита от prompt-injection на входе
- SIEM-экспорт каждого запроса
Юридическая чистота
- 152-ФЗ — ПДн в вашем контуре
- Договор по РФ-юрисдикции
- Без VPN и нарушений ToS
- Реестр отечественного ПО
- Сертификация ФСТЭК (в процессе)
- Совместимо с СТР-К
Прозрачные расходы
- Оплата в рублях, без курсовых рисков
- Бюджеты по ключам и командам
- Кэш и batch — минус 40–50% к счёту
- Reserved capacity со скидкой 30–50%
- Пост-оплата по счетам для B2B
- Закрытие документов по РФ-стандарту
Что обычно спрашивают перед миграцией с OpenAI.
А по качеству реально не хуже GPT-4 / Claude?
На ru-задачах aist-llm-pro — на уровне Claude Sonnet и GPT-4o, на ряде доменов (юр. тексты РФ, 1С, государственная отчётность) — заметно точнее, потому что обучалась с учётом ru-специфики. Покажем benchmark на ваших задачах за неделю пилота.
Сколько займёт миграция с OpenAI?
5 минут для кода. Меняете `base_url` в OpenAI SDK на `https://api.aist.ai/v1`, имя модели на `aist-llm-pro` — всё работает. Streaming, function-calling, JSON-mode совместимы один-в-один.
Можно ли поднять модель в нашем ЦОД?
Да, on-prem поставляется для Pro, Light, Code, Vision и Embed. Сайзинг GPU считаем под ваш трафик (обычно 1–4 H100 для средней корпорации). Air-gapped поставка — носителем, без интернета.
Реально дообучить модель под нашу терминологию?
Да. Минимум 500 качественных примеров «вопрос-ответ» в вашем стиле. Оптимально — 2000–5000. Через сутки — ваша custom-модель через тот же API. Можно держать несколько fine-tuned моделей одновременно, под разные команды.
Сколько это стоит на нашей нагрузке?
Считаем по вашему профилю запросов. Ориентир: средняя корпорация на 1000 сотрудников через корп. чат — ~50–150 тыс ₽/мес на Pro с кэшем. Для высоких нагрузок reserved capacity даёт 30–50% скидки. Для air-gapped — разовая лицензия + ваше железо.
Можно ли использовать только LLM или нужно брать всю платформу?
Можно только LLM-API — это полноценный продукт. Но настоящая сила появляется в связке с RAG (поиск по документам), Agent (автономные задачи), Dialog (виджет и мессенджеры), OCR/ASR/Image. Один кабинет, один счёт, единый аудит.
Получите API-ключ за 5 минут и замерьте качество на своих запросах.
Зарегистрируйтесь — получите ключ и 100 тыс токенов на aist-llm-pro бесплатно. Прогоните свои промпты, сравните с GPT-4 или Claude. Решение принимаете на цифрах.