aist.llm / own-models · api · dedicated · on-prem

Свои большие языковые модели — API, выделенные инстансы и on-prem.

Линейка собственных AiST LLM: генеративные модели на ru/en/code, мультимодальные с vision, embeddings, до 1M токенов контекста. OpenAI-совместимый API, выделенный инстанс или on-prem в вашем ЦОД, fine-tuning под вашу отрасль.

Получить API-ключ→ Линейка моделей

◯ 4 модели: Pro · Light · Code · Vision
⌬ OpenAI-совместимый API
≡ До 1M токенов контекста
⊞ Fine-tuning на ваших данных
⛨ 152-ФЗ · on-prem · air-gapped

POST /v1/chat/completions · aist-llm-pro stream · 200 ms TTFT

curl python node openai-sdk

       $ curl https://api.aist.ai/v1/chat/completions \
         -H "Authorization: Bearer $AIST_KEY" \
         -d '{"model":"aist-llm-pro","stream":true,
             "messages":[{"role":"user","content":"Объясни клиенту..."}]}'
     

// stream response Конечно. По вашему договору № РТ-24/0815 предусмотрены штрафы 0,1% от суммы заказа за день просрочки

TTFT0.2s

tok/s148

context256K

SLA99.9%

модель: aist-llm-pro-v3 · регион: ru-central-1 ~ 40 ₽ / 1M токенов

// линейка моделей

4 собственные модели — под разные задачи и бюджеты.

Не «одна универсальная модель», а инженерно-разные размеры и специализации. Pro для сложных задач, Light для массовых, Code для разработки, Vision для документов и изображений. Все — через одно API.

flagship aist-llm-pro

Pro

Большая модель для сложных задач: анализ договоров, fact-check, агенты, reasoning. Уровень Claude Sonnet / GPT-4o на ru-задачах.

контекст256K

модальностиtext · vision

входная цена40 ₽ / 1M

tools / jsonда

aist-llm-light

Light

Быстрая и дешёвая для массовых операций: чаты, классификация, теги, summary. ~10 раз дешевле Pro на типовых задачах.

контекст128K

скорость~ 300 tok/s

входная цена4 ₽ / 1M

tools / jsonда

aist-llm-code

Code

Заточена под разработку: генерация кода, ревью, тесты, debugging, миграции. Знает 1С, Python, TS, Go, Rust, SQL, Bash.

контекст200K

языки кода40+

входная цена20 ₽ / 1M

FIM & agenticда

aist-llm-vision

Vision

Мультимодальная: текст + изображения. Чтение документов, схем, чертежей, графиков, скриншотов UI. Связка с AiST OCR.

контекст128K

img на запросдо 20

входная цена30 ₽ / 1M

+ OCRвстроен

+ EMBED aist-embed-ru-v3 · отдельная модель эмбеддингов ru/en для RAG, поиска, кластеризации. 2 ₽ / 1M токенов · 1024-мерный вектор · sliding-window до 8K.

// варианты развёртывания

Облако, выделенный инстанс или on-prem — выбираете под ваши требования ИБ.

Старт за 5 минут на общем API. Под нагрузку — выделенный инстанс с вашим rate-limit и SLA. Под 152-ФЗ и закрытый периметр — разворачиваем on-prem на вашем железе.

⌬

Public API

Общий multi-tenant endpoint. Pay-as-you-go по токенам. Старт за 5 минут — получили ключ и пишете запросы. Подходит для прототипов и средних нагрузок.

тарифpay-as-you-go

SLA99.5%

старт5 мин

⊞

Dedicated

Выделенный инстанс модели в нашем облаке только для вас. Гарантированный throughput, отдельные ключи, кастомный rate-limit, SLA 99.9%, низкая задержка.

тарифreserved capacity

SLA99.9%

старт1–3 дня

⛨

On-prem

Модели разворачиваем в вашем ЦОД на вашем железе. Данные не покидают периметр. 152-ФЗ. Подходит для банков, госов, оборонки.

тарифлицензия

железоваше GPU

старт2–4 недели

⛓

Air-gapped

On-prem без единого байта наружу. Поставка моделей файлами, обновления — физическим носителем. Для объектов критической инфры.

тарифлицензия

интернетне нужен

СТР-Ксовместимо

// как это работает

От запроса в вашем коде — до ответа модели за 200 мс. Через одно API.

OpenAI-совместимый эндпоинт принимает запрос, балансировщик роутит на нужную модель и регион, инференс идёт на нашем GPU-кластере (или вашем для on-prem), ответ возвращается стримом. Биллинг — в токенах, в рублях.

// L1 · запрос

sdk OpenAI-совместимый 5 мин миграции

auth API-ключ Bearer + scope

route выбор модели pro · light · code · vision

limit rate & budget лимит на ключ

↓

// L2 · инференс

balance балансировщик region · gpu pool

cache prompt cache −40% к счёту

infer GPU-инференс vLLM · TensorRT

tools function-calling + JSON-mode

↓

// L3 · ответ & учёт

stream streaming ответ SSE · 200 мс TTFT

safety guardrails PII · brand-safety

billing биллинг токенов в рублях, по ключу

audit лог запроса в SIEM опционально

01
Замена OpenAI за 5 минут Меняете base_url в OpenAI SDK на `https://api.aist.ai/v1` — и всё уже работает. Тот же интерфейс chat.completions, та же стрим-семантика, тот же function-calling.
02
Балансировщик и кэш Запрос летит на ближайший GPU-пул, prompt-cache ловит повторяющиеся контексты (системные промпты, RAG-подсказки) и экономит до 40% от счёта.
03
Function-calling и JSON-mode Модель сама вызывает ваши функции (tool-use), возвращает строгий JSON по схеме, поддерживает streaming и long-context. Совместимо с любым агентским фреймворком.
04
Прозрачный биллинг в рублях Счёт по токенам, в рублях, без курсовых рисков. Бюджет по ключу, лимит по команде, авто-блок при превышении. Отчёты для CFO — из коробки.

// возможности

Не «ещё один LLM-API». Полная линейка для корпоративных задач.

Streaming, function-calling, JSON-mode, vision, embeddings, fine-tuning, batch-режим, prompt-cache. Всё что нужно для продакшена — в одном API, на ваших данных, в вашем контуре.

◯

OpenAI-совместимое API

chat.completions, embeddings, streaming — как у OpenAI. Миграция — замена base_url.

api

≡

До 1M контекста

aist-llm-pro — 256K, расширенная версия 1M. Целая книга/база договоров в один запрос.

long-context

⌬

Function-calling

Модель сама вызывает ваши API. Параллельные tool-calls, structured output, JSON-mode.

tools · json

▦

Vision & multimodal

aist-llm-vision принимает до 20 изображений на запрос. Документы, схемы, графики, UI.

vision

⊞

Fine-tuning

Дообучение под ваш домен — 500–5000 примеров и через день ваша модель.

finetune · lora

↻

Streaming <200 мс

SSE-стрим, TTFT ~200 мс. Пользователь видит ответ сразу, не ждёт 10 секунд молчания.

stream · sse

⌗

Prompt-cache

Повторяющиеся системные промпты и RAG-контекст кэшируются. Минус 40% к счёту.

cache · finops

⏱

Batch-режим

Миллион запросов в ночь — на 50% дешевле, чем синхронные. Для аудитов и разметки.

batch

⛨

Guardrails & PII

Фильтры тем, защита от инъекций, маскирование PII на входе и выходе.

safety

⌘

Embeddings ru/en

aist-embed-ru-v3, 1024-d, до 8K токенов. 2 ₽ / 1M. Для RAG и поиска.

vectors

▤

Дашборд использования

Запросы по ключам, токены, стоимость, ошибки, latency p50/p95/p99.

analytics

⛓

SDK & интеграции

Python, Node, Go, Rust, .NET, 1С. Совместимо с LangChain, LlamaIndex, AutoGen.

sdk

// тарифы & модели потребления

Платите только за использованное. В рублях. Без курсовых рисков.

Прозрачное ценообразование по токенам. Скидки на объём, batch-режим, выкуп reserved-capacity. Бюджеты по ключам и командам — чтобы CFO не вздрагивал от счетов.

// тарификация

per-tokenreserved capacitybatch −50%cache −40%volume discountлицензия on-prem

// модели

aist-llm-proaist-llm-lightaist-llm-codeaist-llm-visionaist-embed-ru+ fine-tuned

// способы оплаты

безналичный РФпредоплатапост-оплата (B2B)карты МИРСБП

// sdk & платформы

OpenAI PythonOpenAI Node1С (HTTP-клиент)cURLLangChainLlamaIndex

// регионы

ru-central-1 (Москва)ru-northwest-1 (СПб)ru-siberia-1 (Новосибирск)on-prem ваш ЦОД

// связки с сервисами AiST

RAGOCRASRImageVideoDialogAgentModeration

Pricing понятный, прогнозируемый, корпоративный.

Free-tier для старта (100 тыс токенов на Pro). Скидка при объёме и reserved-capacity. Для корпоративных клиентов — пост-оплата по счетам, бюджеты по департаментам, единый контракт. Никаких «овернайт-сюрпризов» в счёте.

40 ₽/ 1M токенов Pro

4 ₽/ 1M токенов Light

−40%с prompt-cache

⌬

Pay-as-you-go

Оплата по факту использования. Стартуете с 100К бесплатных токенов, дальше — по тарифу.

⊞

Reserved capacity

Зарезервированная мощность со скидкой 30–50%. Для высоких и стабильных нагрузок.

⛨

Лицензия on-prem

Бессрочная лицензия на развёртывание в вашем контуре. Без токен-биллинга, считаете только своё железо.

// что строят на AiST LLM

От корпоративного чата до production-агентов и custom-моделей.

LLM — это инфраструктура AI-приложений. Любой ваш ассистент, агент, поиск, аналитика, чат — живёт на LLM. Это базовый строительный блок, без которого ничего не работает.

// корп. чат

Корпоративный ChatGPT в вашем контуре

Кабинет, Telegram-бот, виджет в 1С — сотрудники общаются с LLM на ru/en, не утекая в OpenAI. Все запросы — под аудитом, по ролям, в рамках 152-ФЗ.

RBACаудит152-ФЗ

// разработка

Code-assistant в IDE

aist-llm-code в VSCode, Cursor, JetBrains через стандартный API. Генерация, рефакторинг, тесты, ревью PR. Знает 1С, Python, TS и ваш legacy.

VSCode1Сcode-review

// прикладные ai-приложения

Backend для ваших AI-фич

Под капотом вашего продукта — наш LLM-API. Чат-помощник, классификация, summary, генерация описаний товаров. Один API на весь продукт.

SaaSweb-appmobile

// fine-tuning

Custom-модель для вашей отрасли

Дообучение на 5000 примерах вашей терминологии (медицина, право, нефтегаз) — и модель отвечает «как ваш эксперт». Качество на вашем домене — +20–40%.

LoRASFTRLHF

// агенты

Движок для AiST Agent

Под нашими агентами — наш LLM. Function-calling, JSON-mode, длинный контекст, низкая задержка. Агент на 100 шагов укладывается в 3 минуты.

toolsmulti-step200K ctx

// research & аналитика

Batch-обработка миллионов записей

«Классифицируй 10 млн отзывов», «суммируй 1 млн звонков», «извлеки факты из 500 000 договоров» — batch-API на 50% дешевле и за ночь.

batchsummaryclassification

// уже на платформе

Свои модели — основа всех остальных сервисов AiST.

Каждый сервис AiST под капотом использует наши же LLM. RAG генерирует ответы через Pro, Dialog ведёт диалог через Light, Agent работает через Pro с function-calling, OCR дополнительно использует Vision. Когда вы берёте AiST LLM — у вас под рукой вся экосистема.

Не только API. Это вся экосистема AiST.

Можно брать только API и строить своё. А можно сразу использовать готовые сервисы поверх LLM: RAG для поиска по документам, Agent для автономных задач, Dialog для общения с клиентами. Один кабинет, один счёт, единая модерация и аудит.

«Мы использовали GPT-4 через VPN, переживая каждый день о 152-ФЗ. Перешли на aist-llm-pro — качество на ru-задачах оказалось выше, счёт в рублях, никаких VPN и юридических рисков»

Что ещё есть на AiST Platform→

◯

4 модели + embeddingsPro · Light · Code · Vision · Embed

✓ готово

⌬

OpenAI-совместимый APIмиграция за 5 минут

✓ готово

⊞

Dedicated & on-prem & air-gappedпод любой уровень ИБ

✓ готово

↻

Streaming + tools + JSON200 мс TTFT

✓ готово

⌗

Prompt-cache + batch−40% и −50% к счёту

✓ готово

⊕

Fine-tuning под ваш доменLoRA · SFT · RLHF

✓ готово

⛨

Guardrails + PII + RBACзащита на вход и выход

✓ готово

⛓

Связки с RAG / Agent / Dialogвся экосистема поверх

✓ готово

// корпоративный контроль

LLM в РФ: 152-ФЗ, рубли, без VPN, без юридических рисков.

GPT-4 через VPN — это нарушение пользовательского соглашения OpenAI и потенциальное 152-ФЗ. AiST LLM решает обе проблемы: модели в вашем контуре, оплата в рублях, контракт по РФ-законам.

// для CISO

Закрытый периметр

On-prem или AiST BOX в вашем ЦОД
Air-gapped вариант для критической инфры
Запросы не уходят за границу
RBAC: ключи по командам, скоупы по моделям
Защита от prompt-injection на входе
SIEM-экспорт каждого запроса

// для юристов

Юридическая чистота

152-ФЗ — ПДн в вашем контуре
Договор по РФ-юрисдикции
Без VPN и нарушений ToS
Реестр отечественного ПО
Сертификация ФСТЭК (в процессе)
Совместимо с СТР-К

// для CFO

Прозрачные расходы

Оплата в рублях, без курсовых рисков
Бюджеты по ключам и командам
Кэш и batch — минус 40–50% к счёту
Reserved capacity со скидкой 30–50%
Пост-оплата по счетам для B2B
Закрытие документов по РФ-стандарту

// часто спрашивают

Что обычно спрашивают перед миграцией с OpenAI.

А по качеству реально не хуже GPT-4 / Claude?

На ru-задачах aist-llm-pro — на уровне Claude Sonnet и GPT-4o, на ряде доменов (юр. тексты РФ, 1С, государственная отчётность) — заметно точнее, потому что обучалась с учётом ru-специфики. Покажем benchmark на ваших задачах за неделю пилота.

Сколько займёт миграция с OpenAI?

5 минут для кода. Меняете `base_url` в OpenAI SDK на `https://api.aist.ai/v1`, имя модели на `aist-llm-pro` — всё работает. Streaming, function-calling, JSON-mode совместимы один-в-один.

Можно ли поднять модель в нашем ЦОД?

Да, on-prem поставляется для Pro, Light, Code, Vision и Embed. Сайзинг GPU считаем под ваш трафик (обычно 1–4 H100 для средней корпорации). Air-gapped поставка — носителем, без интернета.

Реально дообучить модель под нашу терминологию?

Да. Минимум 500 качественных примеров «вопрос-ответ» в вашем стиле. Оптимально — 2000–5000. Через сутки — ваша custom-модель через тот же API. Можно держать несколько fine-tuned моделей одновременно, под разные команды.

Сколько это стоит на нашей нагрузке?

Считаем по вашему профилю запросов. Ориентир: средняя корпорация на 1000 сотрудников через корп. чат — ~50–150 тыс ₽/мес на Pro с кэшем. Для высоких нагрузок reserved capacity даёт 30–50% скидки. Для air-gapped — разовая лицензия + ваше железо.

Можно ли использовать только LLM или нужно брать всю платформу?

Можно только LLM-API — это полноценный продукт. Но настоящая сила появляется в связке с RAG (поиск по документам), Agent (автономные задачи), Dialog (виджет и мессенджеры), OCR/ASR/Image. Один кабинет, один счёт, единый аудит.

// next step

Получите API-ключ за 5 минут и замерьте качество на своих запросах.

Зарегистрируйтесь — получите ключ и 100 тыс токенов на aist-llm-pro бесплатно. Прогоните свои промпты, сравните с GPT-4 или Claude. Решение принимаете на цифрах.

// нажимая, вы соглашаетесь с обработкой данных по 152-ФЗ