AiST.Ai
aist.llm / own-models · api · dedicated · on-prem

Свои большие языковые модели — API, выделенные инстансы и on-prem.

Линейка собственных AiST LLM: генеративные модели на ru/en/code, мультимодальные с vision, embeddings, до 1M токенов контекста. OpenAI-совместимый API, выделенный инстанс или on-prem в вашем ЦОД, fine-tuning под вашу отрасль.

  • 4 модели: Pro · Light · Code · Vision
  • OpenAI-совместимый API
  • До 1M токенов контекста
  • Fine-tuning на ваших данных
  • 152-ФЗ · on-prem · air-gapped
// линейка моделей

4 собственные модели — под разные задачи и бюджеты.

Не «одна универсальная модель», а инженерно-разные размеры и специализации. Pro для сложных задач, Light для массовых, Code для разработки, Vision для документов и изображений. Все — через одно API.

flagship aist-llm-pro

Pro

Большая модель для сложных задач: анализ договоров, fact-check, агенты, reasoning. Уровень Claude Sonnet / GPT-4o на ru-задачах.

контекст256K
модальностиtext · vision
входная цена40 ₽ / 1M
tools / jsonда
aist-llm-light

Light

Быстрая и дешёвая для массовых операций: чаты, классификация, теги, summary. ~10 раз дешевле Pro на типовых задачах.

контекст128K
скорость~ 300 tok/s
входная цена4 ₽ / 1M
tools / jsonда
aist-llm-code

Code

Заточена под разработку: генерация кода, ревью, тесты, debugging, миграции. Знает 1С, Python, TS, Go, Rust, SQL, Bash.

контекст200K
языки кода40+
входная цена20 ₽ / 1M
FIM & agenticда
aist-llm-vision

Vision

Мультимодальная: текст + изображения. Чтение документов, схем, чертежей, графиков, скриншотов UI. Связка с AiST OCR.

контекст128K
img на запросдо 20
входная цена30 ₽ / 1M
+ OCRвстроен
+ EMBED aist-embed-ru-v3 · отдельная модель эмбеддингов ru/en для RAG, поиска, кластеризации. 2 ₽ / 1M токенов · 1024-мерный вектор · sliding-window до 8K.
// варианты развёртывания

Облако, выделенный инстанс или on-prem — выбираете под ваши требования ИБ.

Старт за 5 минут на общем API. Под нагрузку — выделенный инстанс с вашим rate-limit и SLA. Под 152-ФЗ и закрытый периметр — разворачиваем on-prem на вашем железе.

Public API

Общий multi-tenant endpoint. Pay-as-you-go по токенам. Старт за 5 минут — получили ключ и пишете запросы. Подходит для прототипов и средних нагрузок.

тарифpay-as-you-go
SLA99.5%
старт5 мин

Dedicated

Выделенный инстанс модели в нашем облаке только для вас. Гарантированный throughput, отдельные ключи, кастомный rate-limit, SLA 99.9%, низкая задержка.

тарифreserved capacity
SLA99.9%
старт1–3 дня

On-prem

Модели разворачиваем в вашем ЦОД на вашем железе. Данные не покидают периметр. 152-ФЗ. Подходит для банков, госов, оборонки.

тарифлицензия
железоваше GPU
старт2–4 недели

Air-gapped

On-prem без единого байта наружу. Поставка моделей файлами, обновления — физическим носителем. Для объектов критической инфры.

тарифлицензия
интернетне нужен
СТР-Ксовместимо
// как это работает

От запроса в вашем коде — до ответа модели за 200 мс. Через одно API.

OpenAI-совместимый эндпоинт принимает запрос, балансировщик роутит на нужную модель и регион, инференс идёт на нашем GPU-кластере (или вашем для on-prem), ответ возвращается стримом. Биллинг — в токенах, в рублях.

// L1 · запрос
sdk OpenAI-совместимый 5 мин миграции
auth API-ключ Bearer + scope
route выбор модели pro · light · code · vision
limit rate & budget лимит на ключ
// L2 · инференс
balance балансировщик region · gpu pool
cache prompt cache −40% к счёту
infer GPU-инференс vLLM · TensorRT
tools function-calling + JSON-mode
// L3 · ответ & учёт
stream streaming ответ SSE · 200 мс TTFT
safety guardrails PII · brand-safety
billing биллинг токенов в рублях, по ключу
audit лог запроса в SIEM опционально
  • 01
    Замена OpenAI за 5 минут Меняете base_url в OpenAI SDK на `https://api.aist.ai/v1` — и всё уже работает. Тот же интерфейс chat.completions, та же стрим-семантика, тот же function-calling.
  • 02
    Балансировщик и кэш Запрос летит на ближайший GPU-пул, prompt-cache ловит повторяющиеся контексты (системные промпты, RAG-подсказки) и экономит до 40% от счёта.
  • 03
    Function-calling и JSON-mode Модель сама вызывает ваши функции (tool-use), возвращает строгий JSON по схеме, поддерживает streaming и long-context. Совместимо с любым агентским фреймворком.
  • 04
    Прозрачный биллинг в рублях Счёт по токенам, в рублях, без курсовых рисков. Бюджет по ключу, лимит по команде, авто-блок при превышении. Отчёты для CFO — из коробки.
// возможности

Не «ещё один LLM-API». Полная линейка для корпоративных задач.

Streaming, function-calling, JSON-mode, vision, embeddings, fine-tuning, batch-режим, prompt-cache. Всё что нужно для продакшена — в одном API, на ваших данных, в вашем контуре.

OpenAI-совместимое API

chat.completions, embeddings, streaming — как у OpenAI. Миграция — замена base_url.

api

До 1M контекста

aist-llm-pro — 256K, расширенная версия 1M. Целая книга/база договоров в один запрос.

long-context

Function-calling

Модель сама вызывает ваши API. Параллельные tool-calls, structured output, JSON-mode.

tools · json

Vision & multimodal

aist-llm-vision принимает до 20 изображений на запрос. Документы, схемы, графики, UI.

vision

Fine-tuning

Дообучение под ваш домен — 500–5000 примеров и через день ваша модель.

finetune · lora

Streaming <200 мс

SSE-стрим, TTFT ~200 мс. Пользователь видит ответ сразу, не ждёт 10 секунд молчания.

stream · sse

Prompt-cache

Повторяющиеся системные промпты и RAG-контекст кэшируются. Минус 40% к счёту.

cache · finops

Batch-режим

Миллион запросов в ночь — на 50% дешевле, чем синхронные. Для аудитов и разметки.

batch

Guardrails & PII

Фильтры тем, защита от инъекций, маскирование PII на входе и выходе.

safety

Embeddings ru/en

aist-embed-ru-v3, 1024-d, до 8K токенов. 2 ₽ / 1M. Для RAG и поиска.

vectors

Дашборд использования

Запросы по ключам, токены, стоимость, ошибки, latency p50/p95/p99.

analytics

SDK & интеграции

Python, Node, Go, Rust, .NET, 1С. Совместимо с LangChain, LlamaIndex, AutoGen.

sdk
// тарифы & модели потребления

Платите только за использованное. В рублях. Без курсовых рисков.

Прозрачное ценообразование по токенам. Скидки на объём, batch-режим, выкуп reserved-capacity. Бюджеты по ключам и командам — чтобы CFO не вздрагивал от счетов.

// тарификация

per-tokenreserved capacitybatch −50%cache −40%volume discountлицензия on-prem

// модели

aist-llm-proaist-llm-lightaist-llm-codeaist-llm-visionaist-embed-ru+ fine-tuned

// способы оплаты

безналичный РФпредоплатапост-оплата (B2B)карты МИРСБП

// sdk & платформы

OpenAI PythonOpenAI Node1С (HTTP-клиент)cURLLangChainLlamaIndex

// регионы

ru-central-1 (Москва)ru-northwest-1 (СПб)ru-siberia-1 (Новосибирск)on-prem ваш ЦОД

// связки с сервисами AiST

RAGOCRASRImageVideoDialogAgentModeration

Pricing понятный, прогнозируемый, корпоративный.

Free-tier для старта (100 тыс токенов на Pro). Скидка при объёме и reserved-capacity. Для корпоративных клиентов — пост-оплата по счетам, бюджеты по департаментам, единый контракт. Никаких «овернайт-сюрпризов» в счёте.

40 ₽/ 1M токенов Pro
4 ₽/ 1M токенов Light
−40%с prompt-cache
Pay-as-you-go

Оплата по факту использования. Стартуете с 100К бесплатных токенов, дальше — по тарифу.

Reserved capacity

Зарезервированная мощность со скидкой 30–50%. Для высоких и стабильных нагрузок.

Лицензия on-prem

Бессрочная лицензия на развёртывание в вашем контуре. Без токен-биллинга, считаете только своё железо.

// что строят на AiST LLM

От корпоративного чата до production-агентов и custom-моделей.

LLM — это инфраструктура AI-приложений. Любой ваш ассистент, агент, поиск, аналитика, чат — живёт на LLM. Это базовый строительный блок, без которого ничего не работает.

// корп. чат

Корпоративный ChatGPT в вашем контуре

Кабинет, Telegram-бот, виджет в 1С — сотрудники общаются с LLM на ru/en, не утекая в OpenAI. Все запросы — под аудитом, по ролям, в рамках 152-ФЗ.

RBACаудит152-ФЗ
// разработка

Code-assistant в IDE

aist-llm-code в VSCode, Cursor, JetBrains через стандартный API. Генерация, рефакторинг, тесты, ревью PR. Знает 1С, Python, TS и ваш legacy.

VSCodecode-review
// прикладные ai-приложения

Backend для ваших AI-фич

Под капотом вашего продукта — наш LLM-API. Чат-помощник, классификация, summary, генерация описаний товаров. Один API на весь продукт.

SaaSweb-appmobile
// fine-tuning

Custom-модель для вашей отрасли

Дообучение на 5000 примерах вашей терминологии (медицина, право, нефтегаз) — и модель отвечает «как ваш эксперт». Качество на вашем домене — +20–40%.

LoRASFTRLHF
// агенты

Движок для AiST Agent

Под нашими агентами — наш LLM. Function-calling, JSON-mode, длинный контекст, низкая задержка. Агент на 100 шагов укладывается в 3 минуты.

toolsmulti-step200K ctx
// research & аналитика

Batch-обработка миллионов записей

«Классифицируй 10 млн отзывов», «суммируй 1 млн звонков», «извлеки факты из 500 000 договоров» — batch-API на 50% дешевле и за ночь.

batchsummaryclassification
// уже на платформе

Свои модели — основа всех остальных сервисов AiST.

Каждый сервис AiST под капотом использует наши же LLM. RAG генерирует ответы через Pro, Dialog ведёт диалог через Light, Agent работает через Pro с function-calling, OCR дополнительно использует Vision. Когда вы берёте AiST LLM — у вас под рукой вся экосистема.

Не только API. Это вся экосистема AiST.

Можно брать только API и строить своё. А можно сразу использовать готовые сервисы поверх LLM: RAG для поиска по документам, Agent для автономных задач, Dialog для общения с клиентами. Один кабинет, один счёт, единая модерация и аудит.

«Мы использовали GPT-4 через VPN, переживая каждый день о 152-ФЗ. Перешли на aist-llm-pro — качество на ru-задачах оказалось выше, счёт в рублях, никаких VPN и юридических рисков»

Что ещё есть на AiST Platform
4 модели + embeddingsPro · Light · Code · Vision · Embed
готово
OpenAI-совместимый APIмиграция за 5 минут
готово
Dedicated & on-prem & air-gappedпод любой уровень ИБ
готово
Streaming + tools + JSON200 мс TTFT
готово
Prompt-cache + batch−40% и −50% к счёту
готово
Fine-tuning под ваш доменLoRA · SFT · RLHF
готово
Guardrails + PII + RBACзащита на вход и выход
готово
Связки с RAG / Agent / Dialogвся экосистема поверх
готово
// корпоративный контроль

LLM в РФ: 152-ФЗ, рубли, без VPN, без юридических рисков.

GPT-4 через VPN — это нарушение пользовательского соглашения OpenAI и потенциальное 152-ФЗ. AiST LLM решает обе проблемы: модели в вашем контуре, оплата в рублях, контракт по РФ-законам.

// для CISO

Закрытый периметр

  • On-prem или AiST BOX в вашем ЦОД
  • Air-gapped вариант для критической инфры
  • Запросы не уходят за границу
  • RBAC: ключи по командам, скоупы по моделям
  • Защита от prompt-injection на входе
  • SIEM-экспорт каждого запроса
// для юристов

Юридическая чистота

  • 152-ФЗ — ПДн в вашем контуре
  • Договор по РФ-юрисдикции
  • Без VPN и нарушений ToS
  • Реестр отечественного ПО
  • Сертификация ФСТЭК (в процессе)
  • Совместимо с СТР-К
// для CFO

Прозрачные расходы

  • Оплата в рублях, без курсовых рисков
  • Бюджеты по ключам и командам
  • Кэш и batch — минус 40–50% к счёту
  • Reserved capacity со скидкой 30–50%
  • Пост-оплата по счетам для B2B
  • Закрытие документов по РФ-стандарту
// часто спрашивают

Что обычно спрашивают перед миграцией с OpenAI.

А по качеству реально не хуже GPT-4 / Claude?

На ru-задачах aist-llm-pro — на уровне Claude Sonnet и GPT-4o, на ряде доменов (юр. тексты РФ, 1С, государственная отчётность) — заметно точнее, потому что обучалась с учётом ru-специфики. Покажем benchmark на ваших задачах за неделю пилота.

Сколько займёт миграция с OpenAI?

5 минут для кода. Меняете `base_url` в OpenAI SDK на `https://api.aist.ai/v1`, имя модели на `aist-llm-pro` — всё работает. Streaming, function-calling, JSON-mode совместимы один-в-один.

Можно ли поднять модель в нашем ЦОД?

Да, on-prem поставляется для Pro, Light, Code, Vision и Embed. Сайзинг GPU считаем под ваш трафик (обычно 1–4 H100 для средней корпорации). Air-gapped поставка — носителем, без интернета.

Реально дообучить модель под нашу терминологию?

Да. Минимум 500 качественных примеров «вопрос-ответ» в вашем стиле. Оптимально — 2000–5000. Через сутки — ваша custom-модель через тот же API. Можно держать несколько fine-tuned моделей одновременно, под разные команды.

Сколько это стоит на нашей нагрузке?

Считаем по вашему профилю запросов. Ориентир: средняя корпорация на 1000 сотрудников через корп. чат — ~50–150 тыс ₽/мес на Pro с кэшем. Для высоких нагрузок reserved capacity даёт 30–50% скидки. Для air-gapped — разовая лицензия + ваше железо.

Можно ли использовать только LLM или нужно брать всю платформу?

Можно только LLM-API — это полноценный продукт. Но настоящая сила появляется в связке с RAG (поиск по документам), Agent (автономные задачи), Dialog (виджет и мессенджеры), OCR/ASR/Image. Один кабинет, один счёт, единый аудит.

// next step

Получите API-ключ за 5 минут и замерьте качество на своих запросах.

Зарегистрируйтесь — получите ключ и 100 тыс токенов на aist-llm-pro бесплатно. Прогоните свои промпты, сравните с GPT-4 или Claude. Решение принимаете на цифрах.

// нажимая, вы соглашаетесь с обработкой данных по 152-ФЗ