aist.moderation / ugc · pii · dlp · brand-safety

Модерация UGC и детекция чувствительного в тексте, фото, видео и речи.

AiST Moderation проверяет контент на входе и на выходе: токсичность, экстремизм, NSFW, дипфейк, реклама конкурентов, утечки PII и карт. Защищает соцсети, маркетплейсы, корпоративную почту и колл-центр — автоматически, по вашим политикам.

Запустить пилот→ Как это работает

⚠ Текст · фото · видео · аудио
⛨ PII / PCI-DSS маскирование
◉ AI-content & deepfake детекция
≋ Realtime + batch
⌘ 152-ФЗ · 149-ФЗ · on-prem

AiST Moderation · очередь · marketplace last 1 min

проверено4 218

блок47

на ревью183

пропущено3 988

«Срочно куплю iPhone 15 Pro, отдам наличкой...» мошенничество контакт вне площадки

0.94блок

▦

photo_4729.jpg · карточка товара лого конкурента лицо человека

0.71ревью

✓

«Платье в цветочек, размер M, как новое» политика ок PII нет

0.02пропуск

модель: aist-mod-v3 · автономно: 96% ~ 0.18 сек

// проблема

Один токсичный коммент — скандал. Одна утечка карты — штраф.

UGC, исходящая почта, контент маркетплейса — это конвейер тысяч единиц в день. Модерация руками — медленная, дорогая и всё равно пропускает. Один пропуск стоит репутации, штрафа по ФЗ или утечки данных клиентов.

// ugc

Модераторы не успевают, токсичность утекает

На маркетплейс/в соцсеть приходит 50 000 объявлений и комментариев в день. Команда из 15 модераторов справляется на 15%. Остальное — на удачу. Один скандальный пост — главная новость дня в Telegram-каналах.

→

AI проверяет 100% контента за 0.2 сек. Спорное (5–10%) — модератору, явное — автоматически.

// dlp / pii

Утечки PII и карт стоят миллионов

Сотрудник вкладывает в письмо клиенту файл с паспортными данными. Оператор колл-центра диктует номер карты в запись разговора. Менеджер скидывает прайс с коммерческой тайной в Telegram. Каждый случай — нарушение 152-ФЗ.

→

Детекция PII в тексте, фото, аудио. Автомаскирование, блок вложений, алерт ИБ до отправки.

// бренд

Контент в стиле бренда? — нет, это AI и рандом

Сотрудники постят от имени бренда всё что угодно. Маркетинг засоряет ленту картинками с Midjourney «не в стиле». Подрядчики выкладывают AI-тексты с галлюцинациями. Отслеживать руками — нереально.

→

Brand-safety фильтр на выход: соответствие тону, AI-content детекция, проверка фактов через RAG.

// как это работает

Контент пришёл → классифицировался → ушёл в паблик, на ревью или в корзину.

Конвейер принимает любой контент (текст, фото, видео, аудио, файл), параллельно прогоняет через 20+ классификаторов и ваши кастомные правила, выдаёт вердикт со скоринг-вероятностями и маршрутизирует: автопропуск, автоблок или человек.

// L1 · приём

api HTTP / SDK pre-publish · live

queue Kafka / RabbitMQ массовый поток

email почтовый шлюз dlp на outbound

chat мессенджеры & КЦ чаты · звонки

↓

// L2 · классификация

txt текст-модели токсичность · 149-ФЗ

img vision-модели NSFW · насилие · лого

av видео + аудио дипфейк · ругань

pii PII / PCI / DLP паспорт · карта · ИНН

↓

// L3 · вердикт & действие

policy ваши политики правила · пороги

route пропуск / блок / ревью маршрутизация

queue очередь модератору web-UI · приоритет

log аудит + SIEM каждое решение

01
Контент приходит из любого источника REST/Webhook на этапе pre-publish, шина Kafka для массового потока, шлюз почты для DLP, перехват сообщений в корп. мессенджерах, запись звонков из КЦ.
02
20+ классификаторов параллельно Токсичность, экстремизм, NSFW, дипфейк, реклама конкурентов, нарушения 149-ФЗ, маркировка иноагентов, PII, PCI, коммерческая тайна. Каждый — свой scoring 0..1, всё объединяется.
03
Вердикт по вашим политикам «Если NSFW > 0.85 — блок, если 0.4–0.85 — ревью», «если в письме есть ИНН и адресат вне домена — блок». Конструктор правил без кода.
04
Действие и аудит — автоматически Контент уходит в паблик, в корзину или в очередь модератору с приоритетом. Каждое решение — в аудит-лог и SIEM. Модератор кликает «согласен» — модель дообучается.

// возможности

20+ классификаторов — под всё, что важно бизнесу и ИБ.

Не один универсальный «AI-фильтр», а набор специализированных моделей. Каждая точно знает свой класс. Все работают параллельно, давая прозрачный скоринг по каждой категории.

⚠

Токсичность & оскорбления

Хейт, угрозы, ругань, унижения по признакам. ru/en, сленг, маты завуалированно.

toxicity

⌘

149-ФЗ & экстремизм

Запрещённый контент, символика, иноагенты, реклама запрещённого по РФ-законам.

ru-compliance

▦

NSFW & насилие

Эротика, насилие, оружие, наркотики, кровь. Vision-модели на фото и видео.

nsfw · violence

◉

Deepfake & AI-content

Дипфейк-видео, лица, сгенерированные FLUX/SDXL, тексты от ChatGPT/Claude.

ai-detect

⛨

PII / персональные данные

Паспорт, СНИЛС, ИНН, ОГРН, телефон, e-mail, адрес. В тексте, фото (OCR) и речи (ASR).

152-фз

⊟

PCI-DSS / номера карт

Карты в тексте, в записях звонков, в скан-документах. Алгоритм Луна+маска.

pci-dss

⛯

Коммерческая тайна

Прайсы, договоры, клиентские базы. Поиск по шаблонам и маркерам ваших документов.

trade-secret

↗

Спам / фишинг / скам

Шаблоны мошенничества, контакты вне площадки, ссылки на фишинговые домены.

scam · spam

Реклама конкурентов

Лого, упоминания, скрытая реклама в UGC. Чёрный список брендов — ваш собственный.

brand-safety

Авторские права

Perceptual-hash для фото и видео, поиск по вашей базе утверждённых ассетов.

⊕

Возрастной контент

Возрастные ограничения 18+/16+/12+ по ЕАЭС, маркировка контента, age-gate.

age-rating

⎓

Realtime + batch

API ~150 мс на единицу, batch-обработка миллионов единиц в ночь на архивах.

throughput

// что и откуда модерируем

Любой контент — любой канал. Один движок — все точки входа.

UGC с маркетплейса, объявления, отзывы, комментарии, исходящая почта, чаты в корп. мессенджерах, звонки КЦ, документы перед публикацией. Везде — одна и та же политика, один скоринг, один аудит.

// типы контента

КомментарийОтзывОбъявлениеКарточка товараПостСообщениеПисьмоЗвонокДокумент

// форматы

ТекстИзображениеВидеоАудиоPDFDOCXАрхивы (.zip)

// каналы входа

REST APIWebhookKafka / RabbitMQPostfix / RuPostSIPRECфайлошарыS3-bucket

// рф-законы

152-ФЗ149-ФЗ436-ФЗ возрастной114-ФЗ экстремизминоагентымаркировка рекламы

// отрасли & платформы

МаркетплейсСоцсетьФорумДоска объявленийWikiКорп. порталСМИ

// действия на вердикт

ПропуститьЗаблокироватьВ ревьюЗамаскироватьСкрытьАлерт ИБТикет Jira

Один движок — один комплект политик. Контент проверяется везде одинаково.

Раньше: модератор для комментариев, антиспам для писем, DLP-прокси для документов, отдельная команда для звонков КЦ. Каждый со своими правилами, противоречащими друг другу. Сейчас — одна политика, один словарь, один аудит, разные точки входа.

96%автономно (без модератора)

~ 0.18 сексреднее решение

20+классификаторов

⊕

Pre-publish модерация

UGC проверяется до публикации. Невидимо для пользователя — просто его «пост опубликован» через 0.2 секунды.

⌖

Post-publish скан

Архив комментариев / переписки / документов прогоняется батчем. Аномалии и найденные нарушения — модератору.

⛨

DLP / outbound

Перехват писем и вложений до отправки. Блок утечки PII, карт, договоров и баз. Алерт ИБ-офицеру.

// что строят на AiST Moderation

От модерации маркетплейса до корпоративного DLP.

Moderation — это инфраструктура «фильтра». Каждое подразделение находит свой кейс: UGC-площадки, ИБ, маркетинг, поддержка, СМИ. Один движок, разные политики и каналы.

// маркетплейс

Pre-publish модерация объявлений

Перед публикацией каждое объявление проверяется: запрещённые товары, мошеннические схемы, контакты вне площадки, лица людей без согласия. 96% уходит в паблик автоматически за 0.2 сек, остальное — модератору с объяснением.

UGCфродOCR на фото

// соцсеть / форум

Модерация комментариев в real-time

Каждый комментарий через 150 мс имеет вердикт: пропуск, скрытие, бан. Хейт, политика, реклама конкурентов, спам, фишинговые ссылки — блокируются до того, как их увидит хоть один пользователь.

realtime149-ФЗbrand-safety

// иб & dlp

Защита от утечек PII через почту

Шлюз почты сканирует исходящие письма. Если в письме паспорт, карта, ИНН клиентов, выгрузка из CRM — блок до отправки, алерт ИБ-офицеру и тикет в Jira. Минус 100% утечек по 152-ФЗ.

PostfixRuPost152-ФЗ

// колл-центр

Контроль того, что говорят операторы

Запись звонка через AiST ASR → модерация транскрипта: грубость, обещания скидок без права, утечка PII, «сейчас продиктуйте карту». Алерт супервизору по каждому инциденту.

+ AiST ASRPCI-DSSскрипт

// сми & контент

Проверка контента до публикации

Каждая статья проходит проверку: иноагенты без маркировки, экстремизм, фейки, проверка фактов через RAG. Редактор видит флаги до публикации, не после жалобы Роскомнадзора.

114-ФЗиноагентыfact-check

// банкинг & финуслуги

KYC и дипфейк-детекция

Селфи для онбординга или видео-верификации — проверяется на дипфейк, склейку, маску. Документы — на подделку штампа и печати. Минус 80% мошеннических заявок.

KYCдипфейкliveness

// уже на платформе

Не нужно собирать «свой Roskomnadzor». Всё уже настроено.

«Голый» классификатор — меньше четверти задачи. Дальше нужны: 20+ моделей под разные категории, конструктор политик, шлюзы (почта, Kafka, SIP), очередь модератора с приоритетами, дашборды, аудит-лог в SIEM, дообучение. У нас всё это уже собрано.

Включается — не строится ИБ-командой год.

AiST Moderation — сервис в составе AiST Platform. Не нужно искать ML-инженеров, разрабатывать UI модератора, поднимать GPU-инфру и интегрировать с каждой системой по отдельности. Подключили Webhook со своей площадки — через час начинается модерация по вашим политикам.

«15 модераторов разбирали 15% потока и всё равно ловили скандалы. Сейчас 3 модератора разбирают спорное (4%), остальное — автоматически. Скандалов нет шесть месяцев»

Что ещё есть на AiST Platform→

⚠

20+ классификаторовтекст · фото · видео · аудио

✓ готово

⛨

PII / PCI / DLPпаспорт · карта · ИНН · база

✓ готово

◉

Deepfake + AI-content детекцияфото · видео · текст

✓ готово

⊕

Конструктор политикправила · пороги · действия

✓ готово

▤

UI модератора + очередьприоритеты · клавиши · дообучение

✓ готово

⛯

Шлюзы входаAPI · Kafka · email · SIPREC · S3

✓ готово

⌬

Связки с RAG / OCR / ASRповерх любого контента

✓ готово

⌘

Аудит + SIEMкаждое решение — в логе

✓ готово

// корпоративный контроль

Модератор ИБ любит этот сервис: всё по закону, всё в аудите.

Модерация трогает ровно то, на что есть штрафы и иски: персональные данные, экстремизм, нарушения авторских прав, утечки. Поэтому AiST Moderation — on-prem, под аудитом, с объяснимыми решениями.

// для CISO

Закрытый периметр

On-prem или AiST BOX в вашем ЦОД
Контент не покидает периметр
GPU-инференс — у вас
SIEM-экспорт каждого решения
Защита от adversarial-атак
RBAC: модераторы видят свои очереди

// для юристов

Соответствие законам

152-ФЗ — PII в вашем контуре
149-ФЗ — запрещённый контент
114-ФЗ — экстремизм
436-ФЗ — возрастная маркировка
Иноагенты — автоматическая маркировка
Готовые отчёты для РКН

// для CFO

ROI и операционка

−85% штата модерации
96% решений — автономно
0 утечек PII через DLP
0 штрафов по 152-ФЗ и РКН
Прозрачный счёт в рублях
Лицензия по единицам или пакетом

// часто спрашивают

Что обычно спрашивают перед пилотом Moderation.

А модели точно ловят русский сленг и завуалированный мат?

Да. Модели обучены на ru-корпусах с учётом сленга, искажений (бл@ н, х* й, замены букв цифрами), эмоджи-маскирования. Точность на токсичности 0.92–0.95. Постоянно дообучаются на ваших правках модератора.

Что делать с ложными срабатываниями?

Каждое сомнительное (скоринг 0.3–0.85, пороги настраиваются) идёт в очередь модератору. Модератор кликает «согласен / не согласен» — модель дообучается. Через месяц работы точность по вашим типам контента заметно вырастает.

Можно ли добавить свои кастомные правила?

Да. Конструктор политик без кода: «если скоринг X > Y и есть ИНН и адресат вне домена — блок». Свои чёрные списки слов, лиц, доменов. Свои perceptual-hash для «запрещённых картинок» (логотипы конкурентов, утвержденная графика конкурентов).

А дипфейк реально детектится?

Современные дипфейки на фото и видео — да, точность 0.88–0.94 на типовых атаках. Идеальные дипфейки от продвинутого злоумышленника — могут проходить, поэтому в KYC-сценариях рекомендуем сочетать с liveness-проверкой (моргание, поворот). AI-сгенерированные тексты от GPT/Claude — детектятся точнее (0.85–0.92).

Сколько занимает запуск?

Пилот «модерация одного канала» (комменты, или DLP по почте, или объявления) — 1–2 недели до продуктива. Полная корпоративная модерация со всеми каналами, политиками и дашбордами ИБ — 4–6 недель.

Это отдельный продукт или часть платформы?

AiST Moderation — сервис в составе AiST Platform. Можно брать только его (как Moderation-API), а можно сразу с OCR (для документов), ASR (для звонков), RAG (для fact-check), Dialog (для модерации чатов на лету). Один кабинет, один счёт, единый аудит.

// next step

Пришлите 1 000 ваших единиц контента — через неделю покажем точность и готовый процесс.

Заберём 1 000 единиц вашего UGC, писем или объявлений (с разметкой «правильно/неправильно»). Через 5 дней — живой демо на ваших данных, метрики precision/recall по каждой категории, расчёт окупаемости.

// нажимая, вы соглашаетесь с обработкой данных по 152-ФЗ