aist.ai-gateway / 50+ models · ₽-оплата

Любая LLM мира — через один API и из России.

GPT-4, Claude, Gemini, o1, Llama, GigaChat, ваша локальная модель — всё в одном эндпоинте, OpenAI-совместимый API. Оплата в рублях, договор с юрлицом РФ, ФЗ-152. Умная маршрутизация по цене, латенси, региону или fallback при сбое провайдера — меняешь модель в конфиге, не в коде. Единый биллинг и лимиты по командам, аудит запросов, ретраи и кеш ответов из коробки.

Получить ключ→ 50+ моделей

◉ Оплата в ₽ · договор РФ
↔ OpenAI-совместимый API
⚡ Latency <120мс
⛨ 152-ФЗ · аудит

aist-gateway · live routing 50+ models

claude-sonnet-4.5anthropic · via aist-rf 89ms200

gigachat-prosber · local 67ms200

llama-3.3-70bmeta · self-hosted 54ms200

deepseek-r1deepseek · cn-mirror 134ms200

RPS: 2 480 · ошибок: 0.02% экономия за месяц: ₽1.2М

// проблема

В России доступ к LLM — это всегда боль.

OpenAI блокирует, Anthropic не принимает оплату, юрлицо РФ нельзя зарегистрировать, ключи отзываются. Gateway снимает все три проблемы одним подключением.

// доступ

Нет легального пути к OpenAI и Anthropic

Зарубежные провайдеры блокируют российские IP, банковские карты, юрлица. VPN-обходы запрещены корп-политикой и нестабильны.

→

Прокси через юрлицо ЕС/ОАЭ + договор с AiST в РФ. Легально, стабильно, с закрывающими документами.

// оплата

Невозможно оплатить токены в валюте

SWIFT не работает, карты не принимаются, крипту бухгалтерия не проведёт. Тратите часы на workaround вместо разработки.

→

Оплата по счёту в рублях, акт + счёт-фактура, любая периодичность. Один договор — все провайдеры мира.

// масштаб

Свои модели не тянут под нагрузкой

vLLM падает, GPU простаивает, очередь растёт. Команда ML-ops становится bottle-neck для всех продуктовых релизов.

→

Подключаем ваш self-hosted в Gateway: load-balancing, fallback, авто-масштабирование. Модель — как любой провайдер.

// каталог

50+ моделей. Frontier, локальные, ваши собственные.

Топовые модели мира + крупнейшие отечественные + поддержка любых open-source через self-host. Меняете строку в коде — приложение продолжает работать.

OpenAI🇺🇸

GPT-4o · GPT-4.1 · o1 · o3-mini

visionfunction-call

Anthropic🇺🇸

Claude Sonnet 4.5 · Opus 4 · Haiku 4.5

200k ctxvision

Google🇺🇸

Gemini 2.5 Pro · 2.5 Flash

1M ctxmultimodal

xAI🇺🇸

Grok-4 · Grok-3

realtime

Meta⚙

Llama 4 · 3.3-70B · 3.2-90B

локальнаяvision

Mistral🇫🇷

Large 2 · Codestral · Pixtral

локальнаяcode

DeepSeek🇨🇳

DeepSeek-R1 · V3

локальнаяreasoning

Qwen🇨🇳

Qwen-3 · Qwen-VL · Qwen-Coder

локальная

Sber🇷🇺

GigaChat Pro · GigaChat Max

РФ152-ФЗ

Yandex🇷🇺

YandexGPT 5 Pro · Lite

РФ152-ФЗ

T-Bank🇷🇺

T-pro · T-lite

РФлокальная

Self-host⚙

Ваша модель в вашем контуре

on-premvLLM · TGI

// единый интерфейс

Один SDK, OpenAI-совместимый. Без переписывания.

Меняете base_url и ключ — продолжаете писать в тот же интерфейс. Вся библиотека функций OpenAI: streaming, tools, JSON-mode, vision, embeddings.

example.py

python node curl

# Любая модель — одна строчка
from openai import OpenAI

client = OpenAI(
  base_url="https://api.aist.ai/v1",
  api_key="aist_sk_...",
)

response = client.chat.completions.create(
  model="claude-sonnet-4.5",  # или gpt-4o, gigachat, llama-70b…
  messages=[{"role": "user", "content": "Привет"}],
  stream=True,
)

Что включено

→ Streaming, tools, JSON-mode, vision, embeddings
→ Автоматический fallback на запасную модель при ошибке
→ Кеширование ответов и дедупликация запросов
→ Метрики, аудит, бюджеты по командам и проектам
→ SDK для Python, JS, Go, Java, Kotlin, Swift

// возможности

Что Gateway добавляет к «сырому» API.

Мы не просто прокси. Это слой защиты, контроля и интеллектуальной маршрутизации поверх любого LLM.

⇄

Маршрутизация и fallback

Правила «если Claude недоступен → GPT-4o → GigaChat». Latency-based роутинг, sticky-sessions, A/B на живом трафике.

<50мсoverhead

99.97%uptime

₽

Контроль расходов

Бюджеты по командам, проектам, пользователям. Жёсткие лимиты, алерты в Slack/Telegram, отчёты в 1С. Дашборд «куда уходит ₽».

−42%средняя экономия

real-timeметрики

⛨

Безопасность и PII

Анонимизация перс-данных перед отправкой во внешние API, фильтры на вход и выход, полный аудит запросов. RBAC, SSO, MFA.

152-ФЗсовместимо

SOC2type II

⌬

Кеш и дедупликация

Семантический кеш повторяющихся запросов, RAG-кеш эмбеддингов. На типичных нагрузках экономит 30–60% токенов без потери качества.

~45%cache hit-rate

×3RPS на тех же GPU

// масштабирование своих моделей

Подключите свою модель — Gateway сделает её продовой.

Вы тренируете модель, мы — берём на себя нагрузочное масштабирование, мониторинг, fallback и биллинг. Команда ML занимается данными, не инфраструктурой.

Авто-масштабирование GPU-пула

Поднимаем дополнительные ноды при росте RPS, гасим в простое. Никаких простаивающих H100 за ваш счёт.

Канарейки и A/B тесты

Раскатываете новую версию модели на 5% трафика, сравниваете метрики, откатываете одной кнопкой. Без даунтайма.

Распределённая инференция

Тензорный параллелизм, speculative decoding, batching. Из коробки vLLM, TensorRT-LLM, SGLang.

Мониторинг и SLA

p50/p95/p99 latency, throughput, GPU utilization, accuracy drift. Алерты в ваш PagerDuty или Telegram-бот.

Файн-тюн как сервис

Загружаете датасет, выбираете базовую модель — получаете адаптер. LoRA, QLoRA, full fine-tune, RLHF на ваших серверах или наших.

// часто спрашивают

Что важно знать до подключения.

Это легально для юрлица в РФ?

Да. AiST — российская компания, договор и закрывающие документы по РСБУ. Доступ к зарубежным провайдерам идёт через наше юрлицо в ЕС/ОАЭ. Полная цепочка прозрачна, никаких VPN.

Что с ФЗ-152 и банковской тайной?

Для чувствительных данных — только отечественные модели или ваш self-host. Для остального — встроенная анонимизация PII перед отправкой. Аудит всех запросов, RBAC, SSO.

Сколько стоит и как платится?

Без подписки. Платите только за токены — наценка 8–12% к официальной цене провайдера. Оплата по счёту в рублях, постоплата 30 дней. Минимальный объём отсутствует.

Как подключить свою модель?

Если она в вашем контуре — даёте URL, мы регистрируем как провайдера. Если нужно поднять — берём ваш HuggingFace или PyTorch чекпоинт, разворачиваем на ваших или наших GPU за 48 часов.

Какой SLA?

99.95% доступности Gateway, реакция 15 минут (24×7), компенсация в токенах при нарушении. На уровне моделей — fallback автоматически переключает на запасной провайдер.

Можно ли запустить in-house, без вашего облака?

Да. Gateway есть в составе AiST Ai BOX — ставится в ваш ЦОД, работает в закрытом контуре. Все фичи сохраняются.

// next step

Ключ за 1 день. Тестовый бюджет — за счёт AiST.

Пришлём API-ключ, документацию и стартовый бюджет в ₽3 000 на тесты. Договор подпишем, когда увидите, что работает.

// нажимая, вы соглашаетесь с обработкой данных по 152-ФЗ