Здесь можно найти учебные материалы, которые помогут вам в написании курсовых работ, дипломов, контрольных работ и рефератов. Так же вы мажете самостоятельно повысить уникальность своей работы для прохождения проверки на плагиат всего за несколько минут.
Предлагаем нашим посетителям воспользоваться бесплатным программным обеспечением «StudentHelp», которое позволит вам всего за несколько минут, выполнить повышение оригинальности любого файла в формате MS Word. После такого повышения оригинальности, ваша работа легко пройдете проверку в системах антиплагиат вуз, antiplagiat.ru, РУКОНТЕКСТ, etxt.ru. Программа «StudentHelp» работает по уникальной технологии так, что на внешний вид, файл с повышенной оригинальностью не отличается от исходного.
Результат поиска
Наименование:
курсовая работа Система распознавания речи
Информация:
Тип работы: курсовая работа.
Добавлен: 07.05.2012.
Год: 2011.
Страниц: 9.
Уникальность по antiplagiat.ru: < 30%
Описание (план):
Оглавление
ВВЕДЕНИЕ
В
настоящее время в среде «речевиков» сложилось
представление, что конечной и высшей
целью является создание именно «фонетической
печатающей машинки», а универсальным
методом решения всех речевых проблем
являются «скрытые Марковские модели»
(СММ).
Остановимся
на возможностях и недостатках соответствующих
систем автоматического распознавания
речи (анонсируемые сегодня возможностью
распознавания сотен и даже тысяч слов
с надежностью до 98%).
От
пользователя требуется предварительная
настройка системы на его голос от нескольких
десятков минут до нескольких часов предварительного
наговаривания текстов.
Так
как слова, включенные даже в хорошо и
аккуратно произносимый текст, оказываются
как бы плавающими в океане омонимии, то
количество ошибок (словесных) возрастает
приблизительно в 5 раз. Беглое отслеживание
таких ошибок, кроме случаев возникновения
нелепых текстов, уже затруднительно.
Аппарат коррекции ошибок в большинстве
демонстрационных систем слабо отлажен.
Были
упоминания, что даже для хорошо организованных
спонтанно произнесенных текстов вероятность
правильного распознавания слов не превышает
одной трети.
Наконец,
время обработки введенного отрезка речи
в таких системах может занимать минуты.
Все
сказанное говорит о том, что в качестве
конечной цели предлагаемые демонстрационные
системы «речь-текст» вряд ли представляют
интерес. Это не исключает возможности
использования их в качестве полигона
для оценки научных идей, но в этом случае
должны отчетливо излагаться те модели,
которые закладываются в данные системы
автоматического распознавания и каким
образом должна проверяться их практическая
перспективность. Таким образом, мы переходим
на противоположный конец триады «практические
системы – речевые технологии – речевая
наука».
Целью
данной работы является распознавание
речевой информации с помощью систем управления,
использующих системы автоматического
распознавания речевых команд на основе
скрытых Марковских моделей (СММ) на компьютере.
При фиксированной на сегодняшний день
аппаратной базе подобных систем распознавания
и учитывая тенденции её развития в ближайшем
будущем, рассматривается один из наиболее
важных блоков таких систем - блок обучения
СММ тренировочными последовательностями
От успешного решения им задачи обучения
Марковской модели напрямую зависит качество
работы системы распознавания. В задаче
обучения СММ на данный момент есть две
серьёзные проблемы: стандартные методы
её решения (метод Баума-Велча или ЕМ-процедура)
являются методами локальной оптимизации,
(то есть, не способны выйти за пределы
локальных экстремумов функции) и сильно
зависимы от стартовых параметров.
В
поисках решения данной задачи в работе
проводится разработка программного обеспечения
для систем распознавания речевых команд.
Для
достижения поставленной цели в работе
решены следующие основные задачи:
•
Исследованы алгоритмы обучения СММ тренировочными
последовательностям .
•
Разработаны методы, направленные на дальнейшее
повышение эффективности и качества работы
данного алгоритма в контексте рассматриваемой
задачи.
В
настоящее время работы по распознаванию
речи не только не потеряли актуальности,
но и развиваются широким фронтом, находя
для себя множество областей для практического
применения.
В
данной работе рассматриваются системы
распознавания речи и их частный случай
- системы распознавания речевых команд,
т.е. распознавание изолированных слов,
а не слитной речи. Такие системы весьма
полезны на практике, и возросшая необходимость
в них связана в первую очередь с появлением
большого количества доступных человеку
разнообразных устройств (персональные,
мобильные и карманные компьютеры, коммуникаторы
и мобильные телефоны, игровые и многофункциональные
мультимедийные устройства с достаточной
вычислительной мощностью) в сочетании
с бурным развитием телекоммуникаций
в современном мире. Растёт важность массового
внедрения новых интерфейсов взаимодействия
человека с техническими системами, поскольку
традиционные интерфейсы во многом уже
достигли своего совершенства, а вместе
с ним и своих пределов. При традиционно
высокой значимости информации, поступающей
к нам через органы зрения, и её высокой
доли среди всей сенсорной информации,
считающейся равной порядка 85%, этот канал
восприятия человека становится в значительной
степени перегружен, и первоочередной
альтернативой здесь видится коммуникация
именно по акустическому каналу. Кроме
того, системы распознавания (а также синтеза)
речи также крайне важны для людей с ограниченным
зрением, и эта ниша для их применения
активно развивается, прежде всего, в области
мобильной телефонии, а также в бытовой
технике (для управления разнообразными
домашними устройствами). Для помощи таким
людям производители вводят в свои устройства
возможности управления посредством голосовых
команд, а также дублирования экранной
информации голосом. И в первую очередь
от таких продуктов требуется распознавание
ограниченного набора команд пользователя,
а не слитной речи с большим или неограниченным
словарём. Благодаря стандартизации платформ
и операционных систем телефонов расширяется
круг сторонних разработчиков программных
продуктов с данной функциональностью.
Аппаратная
база таких систем также может быть весьма
разнообразной и оказывать заметное влияние
на итоговую эффективность системы распознавания
в целом. Аппаратная часть систем распознавания
уже не является самым узким местом и способна
выполнять качественную оцифровку речевого
сигнала с требуемыми параметрами, а также
обеспечивает требуемые вычислительные
мощности для реализации необходимых
алгоритмов предобработки и работы с моделями
слов.
1
АНАЛИЗ ТЕХНИЧЕСКОГО
ЗАДАНИЯ
Традиционная
модель автоматического распознавания
речи (АРР) предполагает, что путем отслеживания
акустических параметров и применения
одного из средств поиска по набору эталонов
фонематических сегментов можно установить
фонематические ряды. Затем эти ряды могут
быть применены для проведения лингвистического
анализа на более высоком ярусе выделения
слов, фраз и смысла высказываний. Успешное
понимание произнесенных предложений
(фраз) включает употребление той или иной
лингвистической структуры в сочетании
с наиболее достоверной звуковой информацией.
При
автоматическом распознавании речи большие
трудности представляют собой процессы
обнаружения и идентификации некоторых
групп фонем.
1.1
Распознавание слов
в слитной речи
Для
распознавания слов в слитной речи апробированы
два различных подхода. В первом случае
при глобальном подходе слово, которое
необходимо распознать, сравнивается
с каждым словом словаря. При сравнении
используется, как правило, спектральное
представление каждого слова. Среди различных
методов данного типа хорошие результаты
дал метод динамического программирования.
Во
втором случае при аналитическом подходе
каждое слово или группа слов сначала
сегментируется на меньшие единицы. Сегментами
являются слогоподобные или фонемоподобные
единицы. Это позволяет проводить распознавание
либо на слоговом, либо на фонемном уровне
и одновременно хранить в памяти параметры
(длительность, энергию и т.п.), относящиеся
к просодии и полезные в дальнейшем. Сегментация
может быть основана на нахождении гласных
высказывания, которые часто располагаются
около максимума интегративной энергии
спектра. При таком подходе первым критерием
сегментации является изменение энергии
во времени. Некоторые согласные, например
m, n, l, иногда обладают такой же энергией,
как и гласные. Поэтому необходим ввод
дополнительных параметров для выяснения
наличия гласного звука в каждом ранее
определенном сегменте.
Для
идентификации согласных, как правило,
проводится разделение взрывных и невзрывных
согласных. Это достигается путем обнаружения
паузы (смычки), соответствующей смыканию
перед реализацией взрыва. Задача усложняется
для позиции начала высказывания, где
сравнительно просто определяется смычка
только для звонких взрывных согласных.
После обнаружения смычки определяются
изменение спектра и вид изменения. Для
установления каждой категории звуков
обычно пользуются упорядоченными правилами,
основанными на информации, зависящей
от акустического и фонетического контекстов.
В слитной речи фонетическая реализация
какого-то конкретного высказывания зависит
от нескольких факторов, включая диалект,
скорость произнесения речи, манеру произнесения
диктора и другие.
1.2
Распознавание изолированных
слов
Основные
признаки распознавания изолированных
слов - иерархическая многоярусная структура
и контроль каждого яруса с помощью соответствующих
грамматик, чьи символы являются расплывчатыми
лингвистическими переменными величинами.
Стратегия
распознавания основана на группировке
единиц речи в широкие фонетические классы,
за которым следует классификация на более
детальные группы.
При
распознавании слитной речи возникают
трудности: распознавание слитной речи
намного сложнее распознавания отдельно
произнесенных слов, прежде всего, вследствие
неявных границ между словами. В результате
трудно определить начало и конец соответствия
между фонемной цепочкой слова из словаря
и распознаваемой фонемной цепочкой. Система
акустико-фонетическ го анализа слитной
речи обычно рассматривается как часть
общей системы по автоматическому ее распознаванию.
Предварительная
сегментация и классификация звуковых
элементов включает определение гласноподобных,
фрикативноподобных звуков, взрывных
согласных, пауз. Задача сегментации, рассматриваемая
как задача деления речевого потока на
функционально значимые отрезки, решается
по-разному. При разработке систем распознавания
речи учитывается важность первой ступени
обработки акустического сигнала, что
связано с работой акустического процессора.
Процесс автоматической сегментации непрерывно
связан с маркировкой звуковой последовательности.
Разработка автоматической сегментации
и маркировки вызвана необходимостью
привлечения большой акустико-фонетическо
базы данных и стремлением к объективизации
речевого анализа.
1.3
Проблема автоматического
распознавания речи
Проблема
АРР может быть решена поэтапно. На первом
этапе задача распознавания заключается
во внешнем удостоверении внутренне выявленных
и только поверхностно охарактеризованных
классов акустических событий. Для второго
этапа решающее значение имеет обобщение
внешних критериев классификации внутренне
не выявленных классов, что делает возможным
предсказуемость характеристики неизвестного
сигнала.
При
автоматическом распознавании речи, прежде
всего, следует выяснить, является ли сигнал
в действительности фонетическим (речевым).
Известно деление речевого потока на микро-
и макросегменты. Разграничение между
двумя макросегментами (фразами синтагмами)
носит, как правило, дискретный характер,
а между двумя микросегментами (субзвуками,
звуками, слогами) - стертый. Звуки изменяют
свои супрасегментные (длительность, интенсивность,
частота основного тона) и сегментные
(спектральные) характеристики в соответствии
с влиянием единиц других ярусов. Например,
увеличение длительности гласной в речевом
потоке может указывать на семантическую
выделенность слова, положение ударения
относительно этой гласной, информацию
о предшествующей и последующей фонемах
и т. д. Следовательно, для предсказания,
например, длительности звука, следует
учитывать ряд лингвистических факторов.
Знание
сочетаемости фонем на стыках слов играет
также не последнюю роль при восприятии
речи. Разграничительные средства звучащей
речи представляют собой сложное явление,
состоящее из самых различных компонентов,
связанных с фонотактическими особенностями,
синтактико-семантич скими факторами,
ритмикой формирования речевого высказывания.
Следует
остановиться на некоторых проблемах
сегментации, связанных со спецификой
фонетического уровня. К числу трудностей
может быть отнесено автоматическое распознавание
назальных и плавных фонем слитной речи.
Неопределенности, возникающие из-за ограничений
любой системы обработки речи и часто
из-за плохого произношения, рассматриваются
как источники информации для стохастической
грамматики или грамматики неопределенного
множества.
Имеющиеся
в настоящее время способы микросегментации
речи (сегментации на субзвуки, звуки,
слоги) можно классифицировать следующим
образом:
использование
степени стабильности во времени каких-либо
акустических параметров речевого сигнала,
таких как концентрация энергии в частотном
спектре;
накладывание
акустических меток на речевой сигнал
через регулярно повторяющиеся короткие
интервалы;
сравнение
выборок речевого сигнала в коротких временных
окнах при регулярных интервалах с выборками
из фонем-прототипов.
Различают
контекстно-зависимы и контекстно-независим е
методы сегментации. Самым простым методом
контекстно-независи ой маркировки является
сопоставление эталонов. Для этого необходимо,
чтобы в запоминающем устройстве для каждой
возможной словарной единице хранилось
модель. Контекстно-зависимая сегментация
допускает связь используемого множества
признаков и порогов с фонетическим контекстом.
Для
решения проблемы сегментации звучащей
речи большое значение имеет обращение
к слогу. При этом в современной лингвистике
условно разграничиваются фонетический
и фонологический типы слога.
При
определении, разграничении и определении
слога необходимо использовать фонологические
критерии. В наиболее общих терминах слог
- это речевой сегмент, состоящий из ядра,
т.е. гласного (или слогообразующего согласного)
и артикуляторно связанных с ним соседних
согласных. Слог дает возможность выхода
как на более низкий звуковой, так и на
более высокий языковой ярус с использованием
информации фонотактических особенностей
формирование морфем, слов. Большинство
способов сегментации на слоги основано
на изменениях общей (суммарной) интенсивности
сигнала, т.е. энергии. Поскольку теоретически
каждый слог должен содержать только один
гласный, а гласные обычно имеют преобладающую
интенсивность по сравнению с окружающими
согласными, можно предположить, что большинство
локальных максимумов - гласные. Очевидно,
что слоговые границы находятся в минимальной
точке между двумя максимумами. Однако
этот подход наталкивается на сложность,
т.к. при наличии, например, сонанта могут
появляться ложные максимумы.
Сегментация
может проводиться в два этапа: на слоги,
а затем на звуки, их составляющие, в результате
чего уточняются границы между слогами.
Соотношение между сегментами по ряду
параметров позволяет выявить внутреннюю
структуру слоговой единицы.
В
фонетике точка зрения на акустическую
выделенность границ фонетического слова
(ритмической структуры) претерпела ряд
изменений. Полное отрицание акустических
границ слова сменилось утверждением
о том, что при определении границ фонетического
слова в потоке речи вполне реально опираться
на объективные критерии: акустические
характеристики звуков на стыке фонетических
слов и их аллофоническую вариативность.
При разграничении речевого потока на
фонетические слова привлечение акустических
характеристик стыковых звуков необходимо
во всех случаях: как без паузы, так и при
наличии последней.
Вероятность
появления паузы в речи зависит от характера
сочетаний звуков ритмической структуры
соседних слов (например, если первое слово
кончается ударным слогом, а следующее
за ним начинается также с ударного, то
появление между этими словами паузы более
вероятно, чем в том случае, когда за ударным
слогом первого фонетического слова следует
безударный слог второго фонетического
слова) и места рассматриваемого стыка
во фразе.
В
потоке речи определение границ фонетического
слова сопряжено с рядом трудностей, возникающих
в связи с принадлежностью высказывания
к стилю произношения и типу произнесения;
позицией фонетического слова в тексте,
синтагме и фразе.
Одни
реализации границ фонетических слов
действительно имеют свои акустические
признаки, другие их не имеют. Задача не
должна ограничиваться исключительно
поиском физических и слуховых признаков
соседних звуков, а должна быть направлена
на определение иерархии (соподчинения)
этих признаков.
Информация
об ударении, несомненно, также используется
для определения числа фонетических слов
в сообщении. Важнейшей информацией, однако,
используемой человеком при членении
речевого потока, является информация
о типах наиболее частотных фонетических
слов (ритмических структур). При членении
слитной речи на семантически значимые
отрезки используется информация различных
языковых уровней - от фонологического
до семантического. При разработке программ
для автоматического членения текста
эта информация (о типах ритмических структур,
числе и степени ударения и т.д.), безусловно,
должна быть принята во внимание. Однако
в слитной речи возникают двусмысленные
языковые ситуации, декодирование которых
может быть осуществлено с привлечением
дополнительной информации об акустических
признаках членения. Стыковые гласные
и согласные обладают определенными акустическими
признаками, изменение которых зависит
от характера связи между ними.
В
случаях, когда доступ к системе, распознающей
речь, должен быть обеспечен любому пользователю,
целесообразен переход к неадаптивным
(независимым от диктора) системам автоматического
распознавания. Эти системы гораздо легче
реализовать для языков, фонетическая
структура которых более изучена (для
русского, японского, английского) и гораздо
сложнее для языков тонального типа (вьетнамского,
китайского, французского).
При
создании систем автоматического распознавания
звучащей речи огромное значение приобретают
эксперименты в области восприятия речи.
Результаты таких экспериментов часто
лежат в основе функционирования той или
иной системы. ЭВМ, распознающие речь,
зачастую копируют некоторые не только
анализирующие функции человеческого
уха, но и запоминающие, а также логические
функции человеческого мозга.
Непрерывное
совершенствование форм диалога между
человеком-операторо и ЭВМ должно привести
к оптимизации коммуникации между ними.
Диалог «человек-машина» на естественном
языке предполагает использование, как
соответствующих технических методов,
так и определенных лингвистических знаний.
Изучение проблемы роли языка общения
между человеком и ЭВМ и разработка автоматизированных
систем с естественным для человека языком
общения находятся на стадии дальнейшего
становления.
1.4 Структурная схема
устройства выделения
признаков речевых сигналов
Ниже
будет предложена следующая структурная
схема устройства выделения признаков
речевых сигналов (рисунок 1.1).
Она
состоит из следующих блоков:
1
- микрофон;
2
– блок выделения огибающей;
3
– блок определения начала и конца слова;
4
– блок выделения конечной разности;
5
– блок выделения количества звуков;
6
– линия задержки;
7
– блок выделения интервалов;
8
– блок анализа;
9
– блок данных;
10
– печатающее устройство.
Задача
распознавания речи может быть сведена
к задаче распознавания отдельных звуков
с последующим использованием алгоритмов,
учитывающих особенности произношения,
словопостроения и словосочетания фраз
отдельных индивидуумов.
В
этом случае задача выделения звуков речи
может рассматриваться как задача распознавания
образов, количество которых ограничено,
хотя и достигает нескольких десятков.
При этом сама задача классификации предъявляемых
образцов звуков может быть сведена к
задаче многоальтернативной проверки
гипотез. При этом система распознавания
звуков речи может строиться с использованием
принципов "обучения с учителем",
т.е. предварительного набора информационной
базы классифицированных данных, с которыми
производится сравнение поступающих на
анализ сигналов. Процедура распознавания
звуков речи должна учитывать особенности
их реализации. Во-первых, эти реализации
у каждого звука имеют свой вид. Во-вторых,
имеют ограниченную протяженность во
времени.
Методы
анализа речевых сигналов можно рассматривать
с помощью модели, в которой речевой сигнал
является откликом системы с медленно
изменяющимися параметрами на периодическое
или шумовое возбуждающее колебание (рисунок
1.2).
Выходной
сигнал голосового тракта определяется
сверткой функции возбуждения и импульсного
отклика линейного, изменяющегося во времени
фильтра, моделирующего голосовой тракт.
Таким образом, речевой сигнал s(t) выражается
следующим образом:
,
где
e(t) - функция возбуждения, v(t,t) - отклик голосового
тракта в момент t на дельта-функцию, подаваемую
на вход в момент t.
Речевой
сигнал можно промоделировать откликом
линейной системы с переменными параметрами
(голосового тракта) на соответствующий
возбуждающий сигнал. При неизменной форме
голосового тракта выходной сигнал равен
свертке возбуждающего сигнала и импульсного
отклика голосового тракта. Однако все
разнообразие звуков получается путем
изменения формы голосового тракта. Если
форма голосового тракта изменяется медленно,
то на коротких интервалах времени выходной
сигнал логично по-прежнему аппроксимировать
сверткой возбуждающего сигнала и импульсного
отклика голосового тракта. Поскольку
при создании различных звуков форма голосового
тракта изменяется, огибающая спектра
речевого сигнала будет, конечно, тоже
изменяться с течением времени. Аналогично
при изменении периода сигнала, возбуждающего
звонкие звуки, частотный разнос между
гармониками спектра будет изменяться.
Следовательно, необходимо знать вид речевого
сигнала на коротких отрезках времени
и характер его изменения во времени.
В
системах анализа речевых сигналов обычно
пытаются разделить возбуждающую функцию
и характеристики голосового тракта. Далее
в зависимости от конкретного способа
анализа получают параметры, описывающие
каждую компоненту.
В
частотной области спектр коротких отрезков
речевого сигнала можно представить в
виде произведения огибающей, характеризующей
состояние голосового тракта, и функции,
описывающей тонкую структуру, которая
характеризует возбуждающий сигнал. Поскольку
основным параметром сигнала, возбуждающего
звонкий звук, является разнос гармоник
основного тона, а характеристики голосового
тракта с достаточной полнотой определяются
частотами формант, то при анализе весьма
удобно исходить из представления речи
в частотной области. При создании различных
звуков форма голосового тракта и возбуждающий
сигнал изменяются, при этом изменяется
и спектр речевого сигнала. Следовательно,
спектральное представление речи должно
основываться на кратковременном спектре,
получаемом из преобразования Фурье.
Рассмотрим
дискретизированный речевой сигнал, представленный
последовательностью s(n). Его кратковременное
преобразование Фурье S(w,n) определяется как
(1.1)
Данное
выражение описывает преобразование Фурье
взвешенного отрезка речевого колебания,
причем весовая функция h(n) сдвигается
во времени.
Линейное
предсказание является одним из наиболее
эффективных методов анализа речевых
сигналов. Этот метод становится доминирующим
при оценке основных параметров речевых
сигналов, таких как период основного
тона, форманты, спектр, а также при сокращенном
представлении речи с целью ее низкоскоростной
передачи и экономного хранения. Важность
метода обусловлена высокой точностью
получаемых оценок и относительной простотой
вычисления.
Основной
принцип метода линейного предсказания
состоит в том, что текущий отсчет речевого
сигнала можно аппроксимировать линейной
комбинацией предшествующих отсчетов.
Коэффициент предсказания при этом определяется
однозначно минимизацией среднего квадрата
разности между отсчетами речевого сигнала
и их предсказанными значениями (на конечном
интервале). Коэффициенты предсказания
- это весовые коэффициенты, используемые
в линейной комбинации. Метод линейного
предсказания можно применять для сокращения
объема цифрового речевого сигнала.
Основной
целью обработки речевых сигналов является
получение наиболее удобного и компактного
представления содержащейся в них информации.
Точность представления определяется
той информацией, которую необходимо сохранить
или выделить. Например, цифровая обработка
может применяться для выяснения, является
ли данное колебание речевым сигналом.
Сходная, но несколько более сложная задача
состоит в том, чтобы классифицировать
колебания на вокализованную речь, невокализованную
речь и паузу (шум).
В
основе большинства методов обработки
речи лежит представление о том, что свойства
речевого сигнала с течением времени медленно
изменяются. Это предположение приводит
к методам кратковременного анализа, в
которых сегменты речевого сигнала выделяются
и обрабатываются так, как если бы они
были короткими участками отдельных звуков
с отличающимися свойствами.
Одним
из наиболее известных методов анализа
речи во временной области можно назвать
метод, предложенный Л.Рабинером и Р.Шафером
в /3/. Он основан на измерении кратковременного
среднего значения сигнала и кратковременной
функции среднего числа переходов через
нуль. Как отмечалось выше, амплитуда речевого
сигнала существенно изменяется во времени.
Подобные изменения амплитуды хорошо
описываются с помощью функции кратковременной
энергии сигнала. В общем случае определить
функцию энергии можно как
Это
выражение может быть переписано в виде
, (1.2)
где
Выбор
импульсной характеристики h(n) или окна
составляет основу описания сигнала с
помощью функции энергии.
Чтобы
понять, как влияет выбор временного окна
на функцию кратковременной энергии сигнала,
предположим, что h(n) в (1.2) является достаточно
длительной и имеет постоянную амплитуду;
значение En будет при этом изменяться
во времени незначительно. Такое окно
эквивалентно фильтру нижних частот с
узкой полосой пропускания. Полоса фильтра
нижних частот не должна быть столь узкой,
чтобы выходной сигнал оказался постоянным.
Для описания быстрых изменений амплитуды
желательно иметь узкое окно (короткую
импульсную характеристику), однако слишком
малая ширина окна может привести к недостаточному
усреднению и, следовательно, к недостаточному
сглаживанию функции энергии. Влияние
ширины временного окна на точность измерения
кратковременного среднего значения (средней
энергии):
если
N (ширина окна в отсчетах) мало (порядка
периода основного тона и менее), то En будет
изменяться очень быстро, в соответствии
с тонкой структурой речевого колебания,
если
N велико (порядка нескольких периодов
основного тона), то En будет изменяться
медленно и не будет адекватно описывать
изменяющиеся особенности речевого сигнала.
Это
означает, что не существует единственного
значения N, которое в полной мере удовлетворяло
бы перечисленным требованиям, так как
период основного тона изменяется от 10
отсчетов (при частоте дискретизации 10
кГц) для высоких детских и женских голосов
и до 250 отсчетов для очень низких мужских.
N выберем равным 100, 200, 300 отсчетов при
частоте дискретизации 8 кГц.
Основное
назначение En состоит в том, что эта величина
позволяет отличить вокализованные речевые
сегменты от невокализованных. Значение
функции кратковременного среднего значения
сигнала для невокализованных сегментов
значительно меньше, чем для вокализованных.
Характерной
особенностью метода анализа речевых
сигналов является бинарное квантование
входного речевого сигнала. Возможность
выделения параметров сигналов, подвергшихся
бинарному квантованию, показана в /4/.
Используемая математическая модель речевого
сигнала имеет вид:
, (1.3)
где
A(t) - закон изменения амплитуды речевого
сигнала, Y(t)
- полная фазовая функция речевого сигнала.
Закон
изменения амплитуды сигнала не является
достаточно информативным параметром
для оценки речевого сообщения, так как
он не является постоянным для одного
и того же слова или фразы, произнесенных
с различной интонацией и громкостью.
В качестве информативной характеристики
речевого сигнала в предлагаемом методе
полагается полная фазовая функция речевого
сигнала. Полная фазовая функция речевого
сигнала представляется в виде разложения
в ряд Тейлора:
. (1.4)
Выражение
(1.4) можно переписать следующим образом
. (1.5)
В
разложении берутся первые три коэффициента
разложения. При этом первый коэффициент m0,
являющийся начальной фазой речевого
сигнала, принимается равным нулю, вследствие
неинформативности. Тогда полная фазовая
функция будет:
, (1.6)
где, m1
- коэффициент разложения, являющийся
средней частотой речевого сигнала, m2
- коэффициент разложения, являющийся
изменением (девиацией) частоты речевого
сигнала.
После
дискретизации полная фазовая функция
имеет следующий вид:
, (1.7)
где
i - номер текущего отсчета в дискретизированной
последовательности, Dt - шаг дискретизации.
Параметры m1
и m2
являются характеристиками, которые используются
для описания речевого сообщения. В режиме
обработки "скользящее окно" вычисляется
первая конечная разность полной фазовой
функции речевого сигнала, которая является
кратковременной функцией среднего числа
переходов через нуль речевого сигнала
и является грубой оценкой частоты речевого
сигнала m1
с некоторой погрешностью, зависящей от
изменения частоты m2. Для определения m2
следует вычислить вторую конечную разность
полной фазовой функции речевого сигнала,
которая также является скоростью изменения
функции среднего числа переходов через
нуль речевого сигнала. Первая и вторая
конечные разности полной фазовой функции
имеют следующий вид /4/:
,
, (1.8)
где
L - ширина временного "скользящего&qu t;
окна выраженная в количестве отсчетов.
Тогда
из (1.8) частоту речевого сигнала m1
и изменение частоты m2, получим в виде:
,
,
где
T=L?Dt
- ширина временного "скользящего&qu t;
окна.
1.5
Разработка структурной
схемы устройства определения
количества звуков в
изолированном слове
речи
Структурная
схема разрабатываемого устройства, анализирующего
информационные признаки речевых сигналов
и определяющего начало и конец звука
в слове, изображена на рисунке 1.3. Она
состоит из следующих блоков:
1
– первый формирователь;
2
– цифровая линия задержки (ЦЛЗ);
3
– первый реверсивный счетчик;
4
– второй РС;
5
– первый сумматор;
6
– третий РС;
7
– четвертый РС;
8
– второй сумматор;
9
– пятый РС;
10
– шестой РС;
11
– третий сумматор;
12
– первый вычислитель модуля;
13
– второй вычислитель модуля;
14
– третий вычислитель модуля;
15
– первое пороговое устройство;
16
– второе ПУ;
17
– третье ПУ;
18
– второй формирователь;
19
– третий формирователь;
20
– четвертый формирователь;
21
– схема ИЛИ.
Речевой
сигнал, произносимый человеком, попадает
в микрофон. Микрофон служит для преобразования
акустических волн, возбуждаемых голосовым
трактом человека, в электрические колебания.
Для
формирования бинарно-квантованного сигнала
из аналогового речевого сигнала применяется
АЦП с однобитной словарной организацией.
В качестве такого АЦП можно использовать
компаратор. Амплитудная характеристика
компаратора приведена на рисунке 1.4.