AiST.Ai
aist.asr / speech-to-text · диаризация · realtime

Звонки, встречи и видео — в текст с разбивкой по спикерам.

AiST ASR превращает любую речь — звонки колл-центра, совещания, видео-обучение, интервью — в точную текстовую расшифровку с тайм-кодами, спикерами и ключевыми темами. Встроен в AiST Platform: подключаете АТС или папку — дальше всё само.

  • Диаризация: до 10 спикеров
  • Realtime & batch
  • Точность WER ~ 5–8% на ru
  • SIP / телефония «из коробки»
  • 152-ФЗ · on-prem · PII-маски
// проблема

Тысячи часов звонков и встреч — и ноль данных, чтобы с ними работать.

Колл-центр пишет 100% звонков — слушает 1%. Встречи в Teams «ушли в пустоту». Видео-курсы лежат и не ищутся. Голос остаётся главным потерянным каналом данных в компании.

// контроль качества

Слушают 1% звонков, штрафят за 1% ошибок

Супервизор колл-центра не успевает прослушать всё — берёт случайную выборку. Реальные проблемы (грубость, обещания, утечки) уходят в пустоту, а «хорошие» операторы получают штрафы за единичный косяк.

100% звонков расшифрованы и размечены: тон, темы, чек-листы скрипта. Аномалии — автоматически наверх.
// встречи

Полтора часа митинга — и никто не помнит, что решили

Совещания в Teams/Zoom/МТС Линк проходят — и всё. Кто-то записал в блокнот, кто-то нет. Через неделю встаёт вопрос «а что мы там решили?» — ответ восстанавливается по памяти.

Авто-протокол с цитатами, темами, решениями и задачами. Сразу в Jira/CRM. Поиск по любой встрече.
// видео-контент

200 часов корпоративного видео нельзя найти

Записи внутренних докладов, видео-инструкции, обучающие курсы — лежат на Kinescope и корп. портале без поиска. «Где-то на 7-й минуте говорили про…» — никто не найдёт.

Каждое видео — с транскриптом, поиском по тексту и переходом по тайм-коду. Субтитры в комплекте.
// как это работает

От «сырого» аудио — до размеченного протокола в CRM. Без человека.

Конвейер собирает аудио из любого источника, чистит, распознаёт, разбивает по спикерам, понимает эмоции и темы — и кладёт результат туда, где работают сотрудники: в CRM, BI, базу знаний, дашборд КЦ.

// L1 · приём
sip АТС / телефония Asterisk · Mango
meet видеоконференции Teams · МТС Линк
video видеоплатформы Kinescope · Rutube
file файлы / стрим S3 · WebSocket
// L2 · распознавание
denoise шумоподавление VAD · echo cancel
asr речь → текст WER 0.05–0.08 ru
diarize кто говорит до 10 спикеров
punct пунктуация & кейс числа · даты · ИНН
// L3 · понимание & выгрузка
nlu темы & эмоции + скрипт чек-лист
summary протокол + задачи через AiST LLM
export CRM · BI · БЗ amoCRM · Jira · 1С
subs субтитры SRT/VTT видео + сайт
  • 01
    Источник подключается раз и навсегда SIP-транк к АТС, бот в Teams/Zoom/МТС Линк, hot-folder с записями, S3-bucket с видео. После настройки система забирает аудио сама.
  • 02
    Распознавание + диаризация в одном проходе VAD убирает паузы, шум-фильтр — фон. ASR-модель даёт текст с тайм-кодами по словам. Диаризация определяет, где клиент, а где оператор — даже без разделения каналов.
  • 03
    NLU добавляет смысл поверх текста Тон каждой реплики, темы разговора, ключевые сущности (номер заказа, ФИО, сумма), соответствие скрипту, обещания и претензии — автоматически.
  • 04
    Результат — там, где работают сотрудники Звонок попадает в карточку сделки в CRM, протокол митинга — в Confluence и задачи в Jira, тренд жалоб — на дашборд руководителя.
// возможности

Не «просто Whisper». Промышленный ASR для РФ-задач.

Готовые модели под ru-телефонию (8 кГц с шумом), под видеоконференции, под медиа-запись. Диаризация, эмоции, темы, чек-листы, субтитры — всё в одном движке, всё через одно API.

A

Точность WER 0.05–0.08

Русский язык, телефония 8 кГц с шумом, до 100 спец-терминов. Английский и смесь ru/en тоже.

accuracy

Диаризация спикеров

До 10 человек в записи. Работает даже на моно-канале. Стабильные ID на всю запись.

diarization

Realtime < 500 мс

Потоковая расшифровка для живых звонков, суфлёр оператора, real-time субтитры на митингах.

streaming · sip

Темы и тон

Автоматические теги: «жалоба», «возврат», «уточнение цены». Эмоция реплики — раздр./нейтр./друж.

nlu · sentiment

Чек-лист скрипта

«Поздоровался?», «Назвал имя?», «Озвучил цену?». Каждый звонок размечен — супервизор видит всё.

qm

Сущности и факты

Номер заказа, дата, сумма, ФИО, адрес — достаются из речи и заполняются в карточку клиента.

ner

Свой словарь

Названия продуктов, имена сотрудников, аббревиатуры. Загружаете список — модель учится их писать правильно.

custom-vocab

PII-маскирование

Номера карт, паспорт, СНИЛС в речи — автоматически зашумляются в аудио и маскируются в тексте.

pii · pci-dss

Тайм-коды по словам

Каждое слово — со своим временем. Клик по тексту — переход в аудио на ту же секунду.

word-timestamps

Субтитры SRT/VTT

Готовые файлы субтитров для Rutube/Kinescope/корп. портала. Многоязычные дорожки.

captions

Авто-протокол + задачи

AiST LLM поверх транскрипта собирает протокол: решения, ответственные, задачи, дедлайны.

summary · llm

Стрим + batch

WebSocket для живого звонка, batch на миллионы часов архива — одни и те же модели.

api · throughput
// откуда забираем звук

20+ коннекторов: телефония, конференции, видео-платформы, файлы.

Не надо «сначала всех перевести в нашу АТС». Подключаемся к тому, что у вас уже стоит — Asterisk, Mango, МТС Линк, Контур. Толк, корпоративный портал. Старые архивы — через S3 и файлошары.

// телефония / sip

AsteriskFreePBXMango OfficeSipuniМТС ExolveUISNaumen Contact

// видеоконференции

МТС ЛинкКонтур.ТолкЯ.ТелемостVK ЗвонкиМойОфис ЛогосMS TeamsZoom

// видео-платформы

KinescopeRutubeVK ВидеоЯ.ЭфирHLS-стримRTMP

// файлы / архивы

S3 / CephSMB / NFSFTPWebDAVmp3 · wav · ogg · flacmp4 · mov · webm

// crm & контакт-центры

amoCRMBitrix241С:CRMWebimednaNaumen

// live & api

WebSocket-стримHTTP / batchSIPRECмикрофон браузераSDK для мобайла

Аудио — на входе. Размеченный текст в CRM — на выходе.

Под каждый источник — готовый коннектор, который сам забирает запись после звонка/встречи и отдаёт результат туда, где работают сотрудники. Расшифровка появляется в карточке клиента, в протоколе встречи, в дашборде супервизора — а не «в отдельном поисковике, куда никто не ходит».

WER 0.06средняя точность ru
< 500 мсзадержка realtime
× 30быстрее реал-тайма в batch
Live (WebSocket / SIP)

Звонок ещё идёт — а текст уже на экране оператора. Суфлёр подсказывает скрипт и ответы из базы знаний.

Pull из АТС / встречи

После окончания запись забирается, расшифровывается, размечается — через 30 секунд лежит в карточке клиента.

Batch на архивах

«Поднимите все звонки за 3 года и покажите тренды отказов» — миллионы часов за ночь.

// что строят на AiST ASR

Один движок — контроль качества, протоколы, субтитры, голосовой ввод.

ASR — это инфраструктура для десятка сценариев одновременно. Колл-центр получает контроль качества, продажи — расшифровку звонков в CRM, HR — протокол встреч, СМИ — расшифровку интервью.

// колл-центр

100% контроль качества звонков

Каждый звонок размечен по скрипту, тон, темы, обещания клиенту. Аномалии — супервизору. Прослушивать вручную нужно только спорные. КЦ на 200 операторов контролируется одним человеком.

Asteriskчек-листсентимент
// продажи

Расшифровка звонков в карточку сделки

Менеджер не тратит 20 минут на «занести в CRM» — разговор сам ложится в карточку с тегами темы и следующим шагом. РОП видит реальную картину, а не «всё ок» в комментариях.

amoCRMBitrix24auto-summary
// встречи

Авто-протокол совещаний с задачами

Встреча в Teams/МТС Линк закончилась — через 2 минуты в Confluence лежит протокол: решения, ответственные, дедлайны. Задачи автоматически в Jira. Никто не записывает руками.

МТС ЛинкConfluenceJira
// видео-обучение

Поиск по видеотеке и субтитры

Записи внутренних тренингов и видео-курсов — с поиском по тексту и переходом по тайм-коду. Сотрудник находит «где про оформление командировки» за 5 секунд, а не смотрит час записи.

KinescopeSRT/VTTRAG
// юристы

Расшифровка заседаний и показаний

Аудиозапись заседания — в текст с спикерами и цитатами для дела. Поиск по показаниям, выгрузка к иску. Юрист экономит дни на каждом производстве.

диаризацияцитаты1С:ДО
// сми & маркетинг

Расшифровка интервью и подкастов

Журналист записывает интервью — в редакторе уже размеченный текст. Маркетинг получает полный текст вебинаров для рассылки и статей. Производство контента ускоряется в 5–10 раз.

интервьюподкастSEO-текст
// уже на платформе

Не нужно «прикручивать Whisper». Всё уже прикручено.

«Голая» ASR-модель — это меньше половины задачи. Дальше нужны: SIP-приёмники, диаризация, NLU поверх, разметка скрипта, выгрузка в CRM, дашборд для супервизора, PCI-DSS-маскирование. У нас это всё уже собрано.

Включается — не интегрируется месяцами.

AiST ASR — сервис в составе AiST Platform. Не нужны ML-инженеры, отдельная инфра под GPU, разработка интеграций с АТС и CRM, написание дашбордов с нуля. Подключили SIP-транк — через день каждый звонок размечен и лежит в карточке клиента.

«Контроль качества колл-центра делал отдел из 6 человек — остался один. Покрытие выросло с 1% до 100%»

Что ещё есть на AiST Platform
A
ASR-модели ru/enтелефония + студия + конференции
готово
Диаризация & VADдо 10 спикеров на моно
готово
Коннекторы телефонииSIP · Asterisk · Mango · MTS
готово
Боты для Teams / МТС Линкживые субтитры + протоколы
готово
NLU: темы, эмоции, чек-лист+ кастомные правила
готово
PCI-DSS / PII-маскированиев аудио и тексте
готово
Дашборд супервизора КЦметрики · аномалии · разбор
готово
Выгрузка в CRM / BI / RAGamoCRM · Jira · 1С · Confluence
готово
// корпоративный контроль

Голос клиента — это персональные данные. Поэтому ASR живёт в вашем контуре.

Звонок — это и PII (имя, телефон, паспорт), и PCI (когда диктуют карту), и коммерческая тайна. AiST ASR работает on-prem, маскирует чувствительное на входе и логирует каждый запрос.

// для CISO

Закрытый периметр

  • On-prem или AiST BOX в вашем ЦОД
  • GPU-инференс — у вас, никуда не уходит
  • PII / PCI-DSS-маскирование на лету
  • Шумоподавление номеров карт в аудио
  • RBAC: записи видны только владельцу группы
  • Аудит каждого запроса в SIEM
// для CFO

ROI и операционка

  • −85% времени супервизоров КЦ
  • +15% к конверсии продаж через разбор звонков
  • −30% времени менеджеров на запись в CRM
  • Лицензия по часам или пакетом
  • Кэш и дедупликация: меньше счёт на инференс
  • Прозрачные расходы в рублях
// для CIO

Интеграции и управление

  • 20+ коннекторов: телефония / встречи / видео
  • WebSocket / SIPREC / HTTP-API
  • Свой словарь, правила, чек-листы
  • A/B-тесты моделей и промптов
  • SLA 99.5%, горизонтальное масштабирование
  • Streaming < 500 мс из коробки
// часто спрашивают

Что обычно спрашивают перед пилотом ASR.

А какая реальная точность на ru-телефонии?

На «нормальной» телефонии 8 кГц с шумом WER ~ 0.05–0.08, на студийном звуке — 0.03–0.05. Терминология (продукты, бренды) подтягивается через свой словарь — даём тексту правильно писать ваши названия. Точность по вашим звонкам показываем за 3 дня на 100 записях.

Диаризация работает на моно-канале?

Да. Если запись — один файл со смешанными каналами (типичный кейс старых АТС), модель определяет до 10 спикеров по голосу. На стерео (клиент / оператор разделены) точность диаризации — 99%.

Как с интеграцией в нашу АТС?

Готовые подключения через SIP / SIPREC / WebSocket к Asterisk, FreePBX, Mango Office, MTS Exolve, Sipuni, UIS, Naumen. Для других — SIPREC-приёмник универсальный. Звонки забираются live или после окончания — на ваш выбор.

Сколько занимает запуск?

Пилот «звонки в карточку CRM» или «протокол митингов» — 1–2 недели до продуктива. Полный КЦ на 200+ операторов с дашбордами и чек-листами — 4–6 недель. Архив за 3 года — параллельно, в batch-режиме.

А что про PCI-DSS, когда диктуют номер карты?

Детектор номеров карт работает на уровне аудио — цифры либо зашумляются в записи, либо вырезаются. В тексте — маскируются XXXX. Совместимо с PCI-DSS-требованиями к записям колл-центров.

Это отдельный продукт или часть платформы?

AiST ASR — сервис в составе AiST Platform. Можно брать только его (как ASR-API), а можно сразу с конструктором ассистентов, RAG по транскриптам, ролями и аудитом. Один кабинет, один счёт.

// next step

Пришлите 100 звонков или часов встреч — покажем точность и готовый процесс.

Заберём 100 ваших аудио (звонки или встречи). Через 5 дней — живой демо с вашими спикерами и терминологией, метрики WER, расчёт окупаемости.

// нажимая, вы соглашаетесь с обработкой данных по 152-ФЗ