Звонки, встречи и видео — в текст с разбивкой по спикерам.
AiST ASR превращает любую речь — звонки колл-центра, совещания, видео-обучение, интервью — в точную текстовую расшифровку с тайм-кодами, спикерами и ключевыми темами. Встроен в AiST Platform: подключаете АТС или папку — дальше всё само.
- ◉ Диаризация: до 10 спикеров
- ≋ Realtime & batch
- ⌬ Точность WER ~ 5–8% на ru
- ⛯ SIP / телефония «из коробки»
- ⛨ 152-ФЗ · on-prem · PII-маски
Тысячи часов звонков и встреч — и ноль данных, чтобы с ними работать.
Колл-центр пишет 100% звонков — слушает 1%. Встречи в Teams «ушли в пустоту». Видео-курсы лежат и не ищутся. Голос остаётся главным потерянным каналом данных в компании.
Слушают 1% звонков, штрафят за 1% ошибок
Супервизор колл-центра не успевает прослушать всё — берёт случайную выборку. Реальные проблемы (грубость, обещания, утечки) уходят в пустоту, а «хорошие» операторы получают штрафы за единичный косяк.
Полтора часа митинга — и никто не помнит, что решили
Совещания в Teams/Zoom/МТС Линк проходят — и всё. Кто-то записал в блокнот, кто-то нет. Через неделю встаёт вопрос «а что мы там решили?» — ответ восстанавливается по памяти.
200 часов корпоративного видео нельзя найти
Записи внутренних докладов, видео-инструкции, обучающие курсы — лежат на Kinescope и корп. портале без поиска. «Где-то на 7-й минуте говорили про…» — никто не найдёт.
От «сырого» аудио — до размеченного протокола в CRM. Без человека.
Конвейер собирает аудио из любого источника, чистит, распознаёт, разбивает по спикерам, понимает эмоции и темы — и кладёт результат туда, где работают сотрудники: в CRM, BI, базу знаний, дашборд КЦ.
-
01
Источник подключается раз и навсегда SIP-транк к АТС, бот в Teams/Zoom/МТС Линк, hot-folder с записями, S3-bucket с видео. После настройки система забирает аудио сама.
-
02
Распознавание + диаризация в одном проходе VAD убирает паузы, шум-фильтр — фон. ASR-модель даёт текст с тайм-кодами по словам. Диаризация определяет, где клиент, а где оператор — даже без разделения каналов.
-
03
NLU добавляет смысл поверх текста Тон каждой реплики, темы разговора, ключевые сущности (номер заказа, ФИО, сумма), соответствие скрипту, обещания и претензии — автоматически.
-
04
Результат — там, где работают сотрудники Звонок попадает в карточку сделки в CRM, протокол митинга — в Confluence и задачи в Jira, тренд жалоб — на дашборд руководителя.
Не «просто Whisper». Промышленный ASR для РФ-задач.
Готовые модели под ru-телефонию (8 кГц с шумом), под видеоконференции, под медиа-запись. Диаризация, эмоции, темы, чек-листы, субтитры — всё в одном движке, всё через одно API.
Точность WER 0.05–0.08
Русский язык, телефония 8 кГц с шумом, до 100 спец-терминов. Английский и смесь ru/en тоже.
Диаризация спикеров
До 10 человек в записи. Работает даже на моно-канале. Стабильные ID на всю запись.
Realtime < 500 мс
Потоковая расшифровка для живых звонков, суфлёр оператора, real-time субтитры на митингах.
Темы и тон
Автоматические теги: «жалоба», «возврат», «уточнение цены». Эмоция реплики — раздр./нейтр./друж.
Чек-лист скрипта
«Поздоровался?», «Назвал имя?», «Озвучил цену?». Каждый звонок размечен — супервизор видит всё.
Сущности и факты
Номер заказа, дата, сумма, ФИО, адрес — достаются из речи и заполняются в карточку клиента.
Свой словарь
Названия продуктов, имена сотрудников, аббревиатуры. Загружаете список — модель учится их писать правильно.
PII-маскирование
Номера карт, паспорт, СНИЛС в речи — автоматически зашумляются в аудио и маскируются в тексте.
Тайм-коды по словам
Каждое слово — со своим временем. Клик по тексту — переход в аудио на ту же секунду.
Субтитры SRT/VTT
Готовые файлы субтитров для Rutube/Kinescope/корп. портала. Многоязычные дорожки.
Авто-протокол + задачи
AiST LLM поверх транскрипта собирает протокол: решения, ответственные, задачи, дедлайны.
Стрим + batch
WebSocket для живого звонка, batch на миллионы часов архива — одни и те же модели.
20+ коннекторов: телефония, конференции, видео-платформы, файлы.
Не надо «сначала всех перевести в нашу АТС». Подключаемся к тому, что у вас уже стоит — Asterisk, Mango, МТС Линк, Контур. Толк, корпоративный портал. Старые архивы — через S3 и файлошары.
// телефония / sip
// видеоконференции
// видео-платформы
// файлы / архивы
// crm & контакт-центры
// live & api
Аудио — на входе. Размеченный текст в CRM — на выходе.
Под каждый источник — готовый коннектор, который сам забирает запись после звонка/встречи и отдаёт результат туда, где работают сотрудники. Расшифровка появляется в карточке клиента, в протоколе встречи, в дашборде супервизора — а не «в отдельном поисковике, куда никто не ходит».
Звонок ещё идёт — а текст уже на экране оператора. Суфлёр подсказывает скрипт и ответы из базы знаний.
После окончания запись забирается, расшифровывается, размечается — через 30 секунд лежит в карточке клиента.
«Поднимите все звонки за 3 года и покажите тренды отказов» — миллионы часов за ночь.
Один движок — контроль качества, протоколы, субтитры, голосовой ввод.
ASR — это инфраструктура для десятка сценариев одновременно. Колл-центр получает контроль качества, продажи — расшифровку звонков в CRM, HR — протокол встреч, СМИ — расшифровку интервью.
100% контроль качества звонков
Каждый звонок размечен по скрипту, тон, темы, обещания клиенту. Аномалии — супервизору. Прослушивать вручную нужно только спорные. КЦ на 200 операторов контролируется одним человеком.
Расшифровка звонков в карточку сделки
Менеджер не тратит 20 минут на «занести в CRM» — разговор сам ложится в карточку с тегами темы и следующим шагом. РОП видит реальную картину, а не «всё ок» в комментариях.
Авто-протокол совещаний с задачами
Встреча в Teams/МТС Линк закончилась — через 2 минуты в Confluence лежит протокол: решения, ответственные, дедлайны. Задачи автоматически в Jira. Никто не записывает руками.
Поиск по видеотеке и субтитры
Записи внутренних тренингов и видео-курсов — с поиском по тексту и переходом по тайм-коду. Сотрудник находит «где про оформление командировки» за 5 секунд, а не смотрит час записи.
Расшифровка заседаний и показаний
Аудиозапись заседания — в текст с спикерами и цитатами для дела. Поиск по показаниям, выгрузка к иску. Юрист экономит дни на каждом производстве.
Расшифровка интервью и подкастов
Журналист записывает интервью — в редакторе уже размеченный текст. Маркетинг получает полный текст вебинаров для рассылки и статей. Производство контента ускоряется в 5–10 раз.
Не нужно «прикручивать Whisper». Всё уже прикручено.
«Голая» ASR-модель — это меньше половины задачи. Дальше нужны: SIP-приёмники, диаризация, NLU поверх, разметка скрипта, выгрузка в CRM, дашборд для супервизора, PCI-DSS-маскирование. У нас это всё уже собрано.
Включается — не интегрируется месяцами.
AiST ASR — сервис в составе AiST Platform. Не нужны ML-инженеры, отдельная инфра под GPU, разработка интеграций с АТС и CRM, написание дашбордов с нуля. Подключили SIP-транк — через день каждый звонок размечен и лежит в карточке клиента.
«Контроль качества колл-центра делал отдел из 6 человек — остался один. Покрытие выросло с 1% до 100%»
Что ещё есть на AiST Platform→Голос клиента — это персональные данные. Поэтому ASR живёт в вашем контуре.
Звонок — это и PII (имя, телефон, паспорт), и PCI (когда диктуют карту), и коммерческая тайна. AiST ASR работает on-prem, маскирует чувствительное на входе и логирует каждый запрос.
Закрытый периметр
- On-prem или AiST BOX в вашем ЦОД
- GPU-инференс — у вас, никуда не уходит
- PII / PCI-DSS-маскирование на лету
- Шумоподавление номеров карт в аудио
- RBAC: записи видны только владельцу группы
- Аудит каждого запроса в SIEM
ROI и операционка
- −85% времени супервизоров КЦ
- +15% к конверсии продаж через разбор звонков
- −30% времени менеджеров на запись в CRM
- Лицензия по часам или пакетом
- Кэш и дедупликация: меньше счёт на инференс
- Прозрачные расходы в рублях
Интеграции и управление
- 20+ коннекторов: телефония / встречи / видео
- WebSocket / SIPREC / HTTP-API
- Свой словарь, правила, чек-листы
- A/B-тесты моделей и промптов
- SLA 99.5%, горизонтальное масштабирование
- Streaming < 500 мс из коробки
Что обычно спрашивают перед пилотом ASR.
А какая реальная точность на ru-телефонии?
На «нормальной» телефонии 8 кГц с шумом WER ~ 0.05–0.08, на студийном звуке — 0.03–0.05. Терминология (продукты, бренды) подтягивается через свой словарь — даём тексту правильно писать ваши названия. Точность по вашим звонкам показываем за 3 дня на 100 записях.
Диаризация работает на моно-канале?
Да. Если запись — один файл со смешанными каналами (типичный кейс старых АТС), модель определяет до 10 спикеров по голосу. На стерео (клиент / оператор разделены) точность диаризации — 99%.
Как с интеграцией в нашу АТС?
Готовые подключения через SIP / SIPREC / WebSocket к Asterisk, FreePBX, Mango Office, MTS Exolve, Sipuni, UIS, Naumen. Для других — SIPREC-приёмник универсальный. Звонки забираются live или после окончания — на ваш выбор.
Сколько занимает запуск?
Пилот «звонки в карточку CRM» или «протокол митингов» — 1–2 недели до продуктива. Полный КЦ на 200+ операторов с дашбордами и чек-листами — 4–6 недель. Архив за 3 года — параллельно, в batch-режиме.
А что про PCI-DSS, когда диктуют номер карты?
Детектор номеров карт работает на уровне аудио — цифры либо зашумляются в записи, либо вырезаются. В тексте — маскируются XXXX. Совместимо с PCI-DSS-требованиями к записям колл-центров.
Это отдельный продукт или часть платформы?
AiST ASR — сервис в составе AiST Platform. Можно брать только его (как ASR-API), а можно сразу с конструктором ассистентов, RAG по транскриптам, ролями и аудитом. Один кабинет, один счёт.
Пришлите 100 звонков или часов встреч — покажем точность и готовый процесс.
Заберём 100 ваших аудио (звонки или встречи). Через 5 дней — живой демо с вашими спикерами и терминологией, метрики WER, расчёт окупаемости.