Любая LLM мира — через один API и из России.
GPT-4, Claude, Gemini, o1, Llama, GigaChat, ваша локальная модель — всё в одном эндпоинте, OpenAI-совместимый API. Оплата в рублях, договор с юрлицом РФ, ФЗ-152. Умная маршрутизация по цене, латенси, региону или fallback при сбое провайдера — меняешь модель в конфиге, не в коде. Единый биллинг и лимиты по командам, аудит запросов, ретраи и кеш ответов из коробки.
- ◉ Оплата в ₽ · договор РФ
- ↔ OpenAI-совместимый API
- ⚡ Latency <120мс
- ⛨ 152-ФЗ · аудит
В России доступ к LLM — это всегда боль.
OpenAI блокирует, Anthropic не принимает оплату, юрлицо РФ нельзя зарегистрировать, ключи отзываются. Gateway снимает все три проблемы одним подключением.
Нет легального пути к OpenAI и Anthropic
Зарубежные провайдеры блокируют российские IP, банковские карты, юрлица. VPN-обходы запрещены корп-политикой и нестабильны.
Невозможно оплатить токены в валюте
SWIFT не работает, карты не принимаются, крипту бухгалтерия не проведёт. Тратите часы на workaround вместо разработки.
Свои модели не тянут под нагрузкой
vLLM падает, GPU простаивает, очередь растёт. Команда ML-ops становится bottle-neck для всех продуктовых релизов.
50+ моделей. Frontier, локальные, ваши собственные.
Топовые модели мира + крупнейшие отечественные + поддержка любых open-source через self-host. Меняете строку в коде — приложение продолжает работать.
GPT-4o · GPT-4.1 · o1 · o3-mini
Claude Sonnet 4.5 · Opus 4 · Haiku 4.5
Gemini 2.5 Pro · 2.5 Flash
Grok-4 · Grok-3
Llama 4 · 3.3-70B · 3.2-90B
Large 2 · Codestral · Pixtral
DeepSeek-R1 · V3
Qwen-3 · Qwen-VL · Qwen-Coder
GigaChat Pro · GigaChat Max
YandexGPT 5 Pro · Lite
T-pro · T-lite
Ваша модель в вашем контуре
Один SDK, OpenAI-совместимый. Без переписывания.
Меняете base_url и ключ — продолжаете писать в тот же интерфейс. Вся библиотека функций OpenAI: streaming, tools, JSON-mode, vision, embeddings.
# Любая модель — одна строчка from openai import OpenAI client = OpenAI( base_url="https://api.aist.ai/v1", api_key="aist_sk_...", ) response = client.chat.completions.create( model="claude-sonnet-4.5", # или gpt-4o, gigachat, llama-70b… messages=[{"role": "user", "content": "Привет"}], stream=True, )
Что включено
- → Streaming, tools, JSON-mode, vision, embeddings
- → Автоматический fallback на запасную модель при ошибке
- → Кеширование ответов и дедупликация запросов
- → Метрики, аудит, бюджеты по командам и проектам
- → SDK для Python, JS, Go, Java, Kotlin, Swift
Что Gateway добавляет к «сырому» API.
Мы не просто прокси. Это слой защиты, контроля и интеллектуальной маршрутизации поверх любого LLM.
Маршрутизация и fallback
Правила «если Claude недоступен → GPT-4o → GigaChat». Latency-based роутинг, sticky-sessions, A/B на живом трафике.
Контроль расходов
Бюджеты по командам, проектам, пользователям. Жёсткие лимиты, алерты в Slack/Telegram, отчёты в 1С. Дашборд «куда уходит ₽».
Безопасность и PII
Анонимизация перс-данных перед отправкой во внешние API, фильтры на вход и выход, полный аудит запросов. RBAC, SSO, MFA.
Кеш и дедупликация
Семантический кеш повторяющихся запросов, RAG-кеш эмбеддингов. На типичных нагрузках экономит 30–60% токенов без потери качества.
Подключите свою модель — Gateway сделает её продовой.
Вы тренируете модель, мы — берём на себя нагрузочное масштабирование, мониторинг, fallback и биллинг. Команда ML занимается данными, не инфраструктурой.
Авто-масштабирование GPU-пула
Поднимаем дополнительные ноды при росте RPS, гасим в простое. Никаких простаивающих H100 за ваш счёт.
Канарейки и A/B тесты
Раскатываете новую версию модели на 5% трафика, сравниваете метрики, откатываете одной кнопкой. Без даунтайма.
Распределённая инференция
Тензорный параллелизм, speculative decoding, batching. Из коробки vLLM, TensorRT-LLM, SGLang.
Мониторинг и SLA
p50/p95/p99 latency, throughput, GPU utilization, accuracy drift. Алерты в ваш PagerDuty или Telegram-бот.
Файн-тюн как сервис
Загружаете датасет, выбираете базовую модель — получаете адаптер. LoRA, QLoRA, full fine-tune, RLHF на ваших серверах или наших.
Что важно знать до подключения.
Это легально для юрлица в РФ?
Да. AiST — российская компания, договор и закрывающие документы по РСБУ. Доступ к зарубежным провайдерам идёт через наше юрлицо в ЕС/ОАЭ. Полная цепочка прозрачна, никаких VPN.
Что с ФЗ-152 и банковской тайной?
Для чувствительных данных — только отечественные модели или ваш self-host. Для остального — встроенная анонимизация PII перед отправкой. Аудит всех запросов, RBAC, SSO.
Сколько стоит и как платится?
Без подписки. Платите только за токены — наценка 8–12% к официальной цене провайдера. Оплата по счёту в рублях, постоплата 30 дней. Минимальный объём отсутствует.
Как подключить свою модель?
Если она в вашем контуре — даёте URL, мы регистрируем как провайдера. Если нужно поднять — берём ваш HuggingFace или PyTorch чекпоинт, разворачиваем на ваших или наших GPU за 48 часов.
Какой SLA?
99.95% доступности Gateway, реакция 15 минут (24×7), компенсация в токенах при нарушении. На уровне моделей — fallback автоматически переключает на запасной провайдер.
Можно ли запустить in-house, без вашего облака?
Да. Gateway есть в составе AiST Ai BOX — ставится в ваш ЦОД, работает в закрытом контуре. Все фичи сохраняются.
Ключ за 1 день. Тестовый бюджет — за счёт AiST.
Пришлём API-ключ, документацию и стартовый бюджет в ₽3 000 на тесты. Договор подпишем, когда увидите, что работает.