С помощью решений превращайте речь в текст, выделяйте интересующие диалоги или разговор конкретного человека среди объемных аудиоданных.
Phonexia Speech Platform – совокупность методик голосовой биометрии и распознавания речи, которые позволят вам понять какой спикер и что говорит.
Развертывание программы происходит локально или в облаке, ее используют в работе коммерческие организации и государственные учреждения.
Особенности Phonexia Speech Platform:
- систематизация аудио. Автоматически группируйте аудио по таким критериям, как качество речи, распознавание голоса, языка, ключевых слов, пола и возраста говорящих.
- идентификация говорящего. Определяйте голос спикера за считанные секунды, даже если человек использует своеобразный диалект, язык или специфические слова.
- определение полезной информации. Если вам необходимо преобразовать речь в текст, идентифицировать из какого региона или страны говорящий с целью выделить основной контекст, вам поможет в этом Phonexia Speech Platform.
Технологии голосовой биометрии
Идентификация спикера.
Технология использует современные расширенные нейронные сети для создания высокоточных математических моделей человеческого голоса (голосовых отпечатков). Поэтому точность результатов достигает более 96%. Совместимость с многообразием источников звука, включая GSM/CDMA, 3G, VoIP, стационарные и спутниковые телефоны повышает адаптивность к различным каналам. Точность сохраняется даже при наличии акцента, нечетких слов – это идеальное решение для международных проектов, в рамках которых нужно обработать естественные беседы. Экспорт результатов происходит в формате XML/JSON.
Диалогизация говорящего
Диаризация дикторов определяет, сегментирует появление спикеров в аудиозаписи. Вы узнаете, сколько людей присутствует в аудио, сможете различать их по голосу. Программа поможет предотвратить мошенничество, поскольку технология автоматически определяет, когда кто-то присоединяется к беседе и выдает себя за человека, который ее начал.
Определение гендерной принадлежности
Не всегда мужской и женский голоса легко различить, но Phonexia умеет это делать. Если вам нужно отфильтровать отдельно голос мужчины или женщины, сделайте это с помощью функции автоматической идентификации пола. Часто такая выборка требуется при составлении статистики или других отчетных материалов.
Анализ возраста
Технология Phonexia Age Estimation (AGE) автоматически определяет возрастную группу спикера. Возраст человека оценивается с точностью +- 10 лет. Программа определяет возрастную группу говорящих на любом языке, поскольку технология не зависит от языка.
Технологии распознавания речи
Трансформация речи в текст
Методика использует передовые модели нейронных сетей Phonexia с крупными моделями с открытым исходным кодом. Решение предлагает диапазон транскрипции более 60 языков, а также автоматическое определение языка. Транскрибируйте большие объемы речи без сложностей.
Определение языка
Phonexia Language Identification (LID) автоматически распознает язык и диалект спикера. Функция автоматического определения языка поможет просматривать массивные аудиофайлы, находить записи речи на определенном языке. При необходимости запрашивайте у программы автоматическую сегментацию дикторов на основе языка и диалекта. Технология предполагает активацию голосового бота для идентификации языка спикеров.
Поиск ключевых слов
С помощью Phonexia Keyword Spotting (KWS) в автоматическом режиме программа распознает ключевые слова и фразы в разговоре. Эта функция определит тему беседы, позволит быстро найти интересующие контексты. Технология использует надежный акустический подход, он работает, несмотря на шумную обстановку.
Идентификация голосовой активности
Phonexia (VAD) определяет, какие части аудиозаписей содержат речь. Программа способна фильтровать звук, находить участки с голосовой активностью. Преимущество этой опции – возможность концентрировать внимание только на речи и голосе.
Оценка качества речевого контента
Программа автоматически проверяет качество речи, выявляет наличие шума, частоту дискретизации. Это экономия времени для вас, ведь такое разделение поможет сфокусироваться лишь на качественных частях аудио, которые требуют анализа.
