aist.asr / speech-to-text · диаризация · realtime

Звонки, встречи и видео — в текст с разбивкой по спикерам.

AiST ASR превращает любую речь — звонки колл-центра, совещания, видео-обучение, интервью — в точную текстовую расшифровку с тайм-кодами, спикерами и ключевыми темами. Встроен в AiST Platform: подключаете АТС или папку — дальше всё само.

Запустить пилот→ Как это работает

◉ Диаризация: до 10 спикеров
≋ Realtime & batch
⌬ Точность WER ~ 5–8% на ru
⛯ SIP / телефония «из коробки»
⛨ 152-ФЗ · on-prem · PII-маски

AiST ASR · live · звонок колл-центра 01:24

КЛ

Клиент00:42· нейтр.

Здравствуйте, я по поводу заказа № 48 215. Когда ожидать доставку?

ОП

Оператор · Анна00:51· друж.

Сейчас посмотрю. Заказ передан в курьерскую службу 04.05, доставка завтра до 18:00.

КЛ

Клиент01:08· раздр.

Мне обещали ещё вчера. Это повторная просрочка — что делать?

ОП

Оператор · Анна01:24· live

Понимаю, оформлю компенсацию

WER: 0.06 · спикеры: 2 · теги: просрочка · компенсация модель: aist-asr-call-v2

// проблема

Тысячи часов звонков и встреч — и ноль данных, чтобы с ними работать.

Колл-центр пишет 100% звонков — слушает 1%. Встречи в Teams «ушли в пустоту». Видео-курсы лежат и не ищутся. Голос остаётся главным потерянным каналом данных в компании.

// контроль качества

Слушают 1% звонков, штрафят за 1% ошибок

Супервизор колл-центра не успевает прослушать всё — берёт случайную выборку. Реальные проблемы (грубость, обещания, утечки) уходят в пустоту, а «хорошие» операторы получают штрафы за единичный косяк.

→

100% звонков расшифрованы и размечены: тон, темы, чек-листы скрипта. Аномалии — автоматически наверх.

// встречи

Полтора часа митинга — и никто не помнит, что решили

Совещания в Teams/Zoom/МТС Линк проходят — и всё. Кто-то записал в блокнот, кто-то нет. Через неделю встаёт вопрос «а что мы там решили?» — ответ восстанавливается по памяти.

→

Авто-протокол с цитатами, темами, решениями и задачами. Сразу в Jira/CRM. Поиск по любой встрече.

// видео-контент

200 часов корпоративного видео нельзя найти

Записи внутренних докладов, видео-инструкции, обучающие курсы — лежат на Kinescope и корп. портале без поиска. «Где-то на 7-й минуте говорили про…» — никто не найдёт.

→

Каждое видео — с транскриптом, поиском по тексту и переходом по тайм-коду. Субтитры в комплекте.

// как это работает

От «сырого» аудио — до размеченного протокола в CRM. Без человека.

Конвейер собирает аудио из любого источника, чистит, распознаёт, разбивает по спикерам, понимает эмоции и темы — и кладёт результат туда, где работают сотрудники: в CRM, BI, базу знаний, дашборд КЦ.

// L1 · приём

sip АТС / телефония Asterisk · Mango

meet видеоконференции Teams · МТС Линк

video видеоплатформы Kinescope · Rutube

file файлы / стрим S3 · WebSocket

↓

// L2 · распознавание

denoise шумоподавление VAD · echo cancel

asr речь → текст WER 0.05–0.08 ru

diarize кто говорит до 10 спикеров

punct пунктуация & кейс числа · даты · ИНН

↓

// L3 · понимание & выгрузка

nlu темы & эмоции + скрипт чек-лист

summary протокол + задачи через AiST LLM

export CRM · BI · БЗ amoCRM · Jira · 1С

subs субтитры SRT/VTT видео + сайт

01
Источник подключается раз и навсегда SIP-транк к АТС, бот в Teams/Zoom/МТС Линк, hot-folder с записями, S3-bucket с видео. После настройки система забирает аудио сама.
02
Распознавание + диаризация в одном проходе VAD убирает паузы, шум-фильтр — фон. ASR-модель даёт текст с тайм-кодами по словам. Диаризация определяет, где клиент, а где оператор — даже без разделения каналов.
03
NLU добавляет смысл поверх текста Тон каждой реплики, темы разговора, ключевые сущности (номер заказа, ФИО, сумма), соответствие скрипту, обещания и претензии — автоматически.
04
Результат — там, где работают сотрудники Звонок попадает в карточку сделки в CRM, протокол митинга — в Confluence и задачи в Jira, тренд жалоб — на дашборд руководителя.

// возможности

Не «просто Whisper». Промышленный ASR для РФ-задач.

Готовые модели под ru-телефонию (8 кГц с шумом), под видеоконференции, под медиа-запись. Диаризация, эмоции, темы, чек-листы, субтитры — всё в одном движке, всё через одно API.

Точность WER 0.05–0.08

Русский язык, телефония 8 кГц с шумом, до 100 спец-терминов. Английский и смесь ru/en тоже.

accuracy

◉

Диаризация спикеров

До 10 человек в записи. Работает даже на моно-канале. Стабильные ID на всю запись.

diarization

≋

Realtime < 500 мс

Потоковая расшифровка для живых звонков, суфлёр оператора, real-time субтитры на митингах.

streaming · sip

⌬

Темы и тон

Автоматические теги: «жалоба», «возврат», «уточнение цены». Эмоция реплики — раздр./нейтр./друж.

nlu · sentiment

▤

Чек-лист скрипта

«Поздоровался?», «Назвал имя?», «Озвучил цену?». Каждый звонок размечен — супервизор видит всё.

⛯

Сущности и факты

Номер заказа, дата, сумма, ФИО, адрес — достаются из речи и заполняются в карточку клиента.

ner

⌥

Свой словарь

Названия продуктов, имена сотрудников, аббревиатуры. Загружаете список — модель учится их писать правильно.

custom-vocab

⛨

PII-маскирование

Номера карт, паспорт, СНИЛС в речи — автоматически зашумляются в аудио и маскируются в тексте.

pii · pci-dss

⏱

Тайм-коды по словам

Каждое слово — со своим временем. Клик по тексту — переход в аудио на ту же секунду.

word-timestamps

▶

Субтитры SRT/VTT

Готовые файлы субтитров для Rutube/Kinescope/корп. портала. Многоязычные дорожки.

captions

≡

Авто-протокол + задачи

AiST LLM поверх транскрипта собирает протокол: решения, ответственные, задачи, дедлайны.

summary · llm

⎓

Стрим + batch

WebSocket для живого звонка, batch на миллионы часов архива — одни и те же модели.

api · throughput

// откуда забираем звук

20+ коннекторов: телефония, конференции, видео-платформы, файлы.

Не надо «сначала всех перевести в нашу АТС». Подключаемся к тому, что у вас уже стоит — Asterisk, Mango, МТС Линк, Контур. Толк, корпоративный портал. Старые архивы — через S3 и файлошары.

// телефония / sip

AsteriskFreePBXMango OfficeSipuniМТС ExolveUISNaumen Contact

// видеоконференции

МТС ЛинкКонтур.ТолкЯ.ТелемостVK ЗвонкиМойОфис ЛогосMS TeamsZoom

// видео-платформы

KinescopeRutubeVK ВидеоЯ.ЭфирHLS-стримRTMP

// файлы / архивы

S3 / CephSMB / NFSFTPWebDAVmp3 · wav · ogg · flacmp4 · mov · webm

// crm & контакт-центры

amoCRMBitrix241С:CRMWebimednaNaumen

// live & api

WebSocket-стримHTTP / batchSIPRECмикрофон браузераSDK для мобайла

Аудио — на входе. Размеченный текст в CRM — на выходе.

Под каждый источник — готовый коннектор, который сам забирает запись после звонка/встречи и отдаёт результат туда, где работают сотрудники. Расшифровка появляется в карточке клиента, в протоколе встречи, в дашборде супервизора — а не «в отдельном поисковике, куда никто не ходит».

WER 0.06средняя точность ru

< 500 мсзадержка realtime

× 30быстрее реал-тайма в batch

≋

Live (WebSocket / SIP)

Звонок ещё идёт — а текст уже на экране оператора. Суфлёр подсказывает скрипт и ответы из базы знаний.

⇣

Pull из АТС / встречи

После окончания запись забирается, расшифровывается, размечается — через 30 секунд лежит в карточке клиента.

▦

Batch на архивах

«Поднимите все звонки за 3 года и покажите тренды отказов» — миллионы часов за ночь.

// что строят на AiST ASR

Один движок — контроль качества, протоколы, субтитры, голосовой ввод.

ASR — это инфраструктура для десятка сценариев одновременно. Колл-центр получает контроль качества, продажи — расшифровку звонков в CRM, HR — протокол встреч, СМИ — расшифровку интервью.

// колл-центр

100% контроль качества звонков

Каждый звонок размечен по скрипту, тон, темы, обещания клиенту. Аномалии — супервизору. Прослушивать вручную нужно только спорные. КЦ на 200 операторов контролируется одним человеком.

Asteriskчек-листсентимент

// продажи

Расшифровка звонков в карточку сделки

Менеджер не тратит 20 минут на «занести в CRM» — разговор сам ложится в карточку с тегами темы и следующим шагом. РОП видит реальную картину, а не «всё ок» в комментариях.

amoCRMBitrix24auto-summary

// встречи

Авто-протокол совещаний с задачами

Встреча в Teams/МТС Линк закончилась — через 2 минуты в Confluence лежит протокол: решения, ответственные, дедлайны. Задачи автоматически в Jira. Никто не записывает руками.

МТС ЛинкConfluenceJira

// видео-обучение

Поиск по видеотеке и субтитры

Записи внутренних тренингов и видео-курсов — с поиском по тексту и переходом по тайм-коду. Сотрудник находит «где про оформление командировки» за 5 секунд, а не смотрит час записи.

KinescopeSRT/VTTRAG

// юристы

Расшифровка заседаний и показаний

Аудиозапись заседания — в текст с спикерами и цитатами для дела. Поиск по показаниям, выгрузка к иску. Юрист экономит дни на каждом производстве.

диаризацияцитаты1С:ДО

// сми & маркетинг

Расшифровка интервью и подкастов

Журналист записывает интервью — в редакторе уже размеченный текст. Маркетинг получает полный текст вебинаров для рассылки и статей. Производство контента ускоряется в 5–10 раз.

интервьюподкастSEO-текст

// уже на платформе

Не нужно «прикручивать Whisper». Всё уже прикручено.

«Голая» ASR-модель — это меньше половины задачи. Дальше нужны: SIP-приёмники, диаризация, NLU поверх, разметка скрипта, выгрузка в CRM, дашборд для супервизора, PCI-DSS-маскирование. У нас это всё уже собрано.

Включается — не интегрируется месяцами.

AiST ASR — сервис в составе AiST Platform. Не нужны ML-инженеры, отдельная инфра под GPU, разработка интеграций с АТС и CRM, написание дашбордов с нуля. Подключили SIP-транк — через день каждый звонок размечен и лежит в карточке клиента.

«Контроль качества колл-центра делал отдел из 6 человек — остался один. Покрытие выросло с 1% до 100%»

Что ещё есть на AiST Platform→

ASR-модели ru/enтелефония + студия + конференции

✓ готово

◉

Диаризация & VADдо 10 спикеров на моно

✓ готово

⛯

Коннекторы телефонииSIP · Asterisk · Mango · MTS

✓ готово

▶

Боты для Teams / МТС Линкживые субтитры + протоколы

✓ готово

⌬

NLU: темы, эмоции, чек-лист+ кастомные правила

✓ готово

⛨

PCI-DSS / PII-маскированиев аудио и тексте

✓ готово

▤

Дашборд супервизора КЦметрики · аномалии · разбор

✓ готово

⛓

Выгрузка в CRM / BI / RAGamoCRM · Jira · 1С · Confluence

✓ готово

// корпоративный контроль

Голос клиента — это персональные данные. Поэтому ASR живёт в вашем контуре.

Звонок — это и PII (имя, телефон, паспорт), и PCI (когда диктуют карту), и коммерческая тайна. AiST ASR работает on-prem, маскирует чувствительное на входе и логирует каждый запрос.

// для CISO

Закрытый периметр

On-prem или AiST BOX в вашем ЦОД
GPU-инференс — у вас, никуда не уходит
PII / PCI-DSS-маскирование на лету
Шумоподавление номеров карт в аудио
RBAC: записи видны только владельцу группы
Аудит каждого запроса в SIEM

// для CFO

ROI и операционка

−85% времени супервизоров КЦ
+15% к конверсии продаж через разбор звонков
−30% времени менеджеров на запись в CRM
Лицензия по часам или пакетом
Кэш и дедупликация: меньше счёт на инференс
Прозрачные расходы в рублях

// для CIO

Интеграции и управление

20+ коннекторов: телефония / встречи / видео
WebSocket / SIPREC / HTTP-API
Свой словарь, правила, чек-листы
A/B-тесты моделей и промптов
SLA 99.5%, горизонтальное масштабирование
Streaming < 500 мс из коробки

// часто спрашивают

Что обычно спрашивают перед пилотом ASR.

А какая реальная точность на ru-телефонии?

На «нормальной» телефонии 8 кГц с шумом WER ~ 0.05–0.08, на студийном звуке — 0.03–0.05. Терминология (продукты, бренды) подтягивается через свой словарь — даём тексту правильно писать ваши названия. Точность по вашим звонкам показываем за 3 дня на 100 записях.

Диаризация работает на моно-канале?

Да. Если запись — один файл со смешанными каналами (типичный кейс старых АТС), модель определяет до 10 спикеров по голосу. На стерео (клиент / оператор разделены) точность диаризации — 99%.

Как с интеграцией в нашу АТС?

Готовые подключения через SIP / SIPREC / WebSocket к Asterisk, FreePBX, Mango Office, MTS Exolve, Sipuni, UIS, Naumen. Для других — SIPREC-приёмник универсальный. Звонки забираются live или после окончания — на ваш выбор.

Сколько занимает запуск?

Пилот «звонки в карточку CRM» или «протокол митингов» — 1–2 недели до продуктива. Полный КЦ на 200+ операторов с дашбордами и чек-листами — 4–6 недель. Архив за 3 года — параллельно, в batch-режиме.

А что про PCI-DSS, когда диктуют номер карты?

Детектор номеров карт работает на уровне аудио — цифры либо зашумляются в записи, либо вырезаются. В тексте — маскируются XXXX. Совместимо с PCI-DSS-требованиями к записям колл-центров.

Это отдельный продукт или часть платформы?

AiST ASR — сервис в составе AiST Platform. Можно брать только его (как ASR-API), а можно сразу с конструктором ассистентов, RAG по транскриптам, ролями и аудитом. Один кабинет, один счёт.

// next step

Пришлите 100 звонков или часов встреч — покажем точность и готовый процесс.

Заберём 100 ваших аудио (звонки или встречи). Через 5 дней — живой демо с вашими спикерами и терминологией, метрики WER, расчёт окупаемости.

// нажимая, вы соглашаетесь с обработкой данных по 152-ФЗ