На бирже курсовых и дипломных проектов можно найти образцы готовых работ или получить помощь в написании уникальных курсовых работ, дипломов, лабораторных работ, контрольных работ, диссертаций, рефератов. Так же вы мажете самостоятельно повысить уникальность своей работы для прохождения проверки на плагиат всего за несколько минут.

ЛИЧНЫЙ КАБИНЕТ 

 

Здравствуйте гость!

 

Логин:

Пароль:

 

Запомнить

 

 

Забыли пароль? Регистрация

Повышение уникальности

Предлагаем нашим посетителям воспользоваться бесплатным программным обеспечением «StudentHelp», которое позволит вам всего за несколько минут, выполнить повышение уникальности любого файла в формате MS Word. После такого повышения уникальности, ваша работа легко пройдете проверку в системах антиплагиат вуз, antiplagiat.ru, etxt.ru или advego.ru. Программа «StudentHelp» работает по уникальной технологии и при повышении уникальности не вставляет в текст скрытых символов, и даже если препод скопирует текст в блокнот – не увидит ни каких отличий от текста в Word файле.

Результат поиска


Наименование:


курсовая работа Системы управления распознавания речевой информации

Информация:

Тип работы: курсовая работа. Добавлен: 15.12.2012. Сдан: 2012. Страниц: 17. Уникальность по antiplagiat.ru: < 30%

Описание (план):



Министерство образования Омской области
 
Бюджетное образовательное учреждение Омской области
среднего профессионального образования
«Омский государственный колледж управления и профессиональных технологий»
 
Специальность 080802 «Прикладная информатика»
 
 
 
 
 
 
 
 
Системы управления распознавания речевой информации
 
Курсовая работа
 
КР.080802.ПИ-43.1601/09
 
 
 
 
 
 
 
Разработал
студент                                                                      Ю.А. Полещук
 
Руководитель                                                              С.П. Серкова
 
                                       
 
 
 
 
 
 
 
2012

Содержание
Введение
1              Автоматическое распознавание речи
1.1              Распознавание слов в слитной речи
1.2              Распознавание изолированных слов
1.3              Проблема автоматического распознавания речи
2              Системы управления распознаванием речевой информации
2.1              Система голосового управления
2.1.1              Программа VoiceNavigator
2.1.2              Программа Truffaldino
2.2              ПО для распознавания речи
2.2.1              Требования к оборудованию
2.2.2              Программное обеспечение, применяемое за рубежом
2.2.3              Положение в России
2.2.4              Будущее систем распознавания речи
Заключение
Список литературы

 


Введение

 
Когда-то писателям-фантастам возможность обычного разговора с компьютером казалась столь очевидной и естественной, что первые вычислительные машины, лишенные голосового интерфейса, воспринимались как что-то неполноценное и еще не вполне состоявшееся. С той поры утекло много времени, за которое произошли две перемены: первая из них состояла в том, что люди с этой неполноценностью смирились, а вторая характерна тем, что под влиянием технического прогресса стали возрождаться надежды на долгожданную реализацию естественного интерфейса, частью которого и является разговор, но не с фининспектором, а с компьютером.
Надо сказать, что потребность в речевом общении с компьютером столь естественна, что ее не могли заглушить никакие паллиативы, порождаемые развитием аппаратного и программного обеспечения. В наибольшей мере ее стимулирует отнюдь не желание разработчиков создать пользовательские суперудобства, а существование специфических областей компьютеризации, где голосовые команды являются наиболее приемлемым или даже единственно возможным решением. К ним относятся телефонный доступ к автоматическим справочным системам, управление удаленным компьютером или мобильным портативным устройством, осуществляемое во время движения.
Цель работы: выявить состояние и перспективы развития систем распознавания речи.
Задачи:
?      Описать технологию распознавания речи
?      Выявить проблемы автоматического распознавания речи.
?      Привести обзор популярных систем управления распознаванием речевой информации.
?      Описать программное обеспечение, используемое в России и за рубежом.
?      Выявить перспективы развития систем распознавания речи.


1              Автоматическое распознавание речи

 
Традиционная модель автоматического распознавания речи (АРР) предполагает, что путем отслеживания акустических параметров и применения одного из средств поиска по набору эталонов фонематических сегментов можно установить фонематические ряды. Затем эти ряды могут быть применены для проведения лингвистического анализа на более высоком ярусе выделения слов, фраз и смысла высказываний. Успешное понимание произнесенных предложений (фраз) включает употребление той или иной лингвистической структуры в сочетании с наиболее достоверной звуковой информацией.
При автоматическом распознавании речи большие трудности представляют собой процессы обнаружения и идентификации некоторых групп фонем.
 

1.1              Распознавание слов в слитной речи

 
Для распознавания слов в слитной речи апробированы два различных подхода. В первом случае при глобальном подходе слово, которое необходимо распознать, сравнивается с каждым словом словаря. При сравнении используется, как правило, спектральное представление каждого слова. Среди различных методов данного типа хорошие результаты дал метод динамического программирования.
Во втором случае при аналитическом подходе каждое слово или группа слов сначала сегментируется на меньшие единицы. Сегментами являются слогоподобные или фонемоподобные единицы. Это позволяет проводить распознавание либо на слоговом, либо на фонемном уровне и одновременно хранить в памяти параметры (длительность, энергию и т.п.), относящиеся к просодии и полезные в дальнейшем. Сегментация может быть основана на нахождении гласных высказывания, которые часто располагаются около максимума интегративной энергии спектра. При таком подходе первым критерием сегментации является изменение энергии во времени. Некоторые согласные, например m, n, l, иногда обладают такой же энергией, как и гласные. Поэтому необходим ввод дополнительных параметров для выяснения наличия гласного звука в каждом ранее определенном сегменте.
Для идентификации согласных, как правило, проводится разделение взрывных и невзрывных согласных. Это достигается путем обнаружения паузы (смычки), соответствующей смыканию перед реализацией взрыва. Задача усложняется для позиции начала высказывания, где сравнительно просто определяется смычка только для звонких взрывных согласных. После обнаружения смычки определяются изменение спектра и вид изменения. Для установления каждой категории звуков обычно пользуются упорядоченными правилами, основанными на информации, зависящей от акустического и фонетического контекстов. В слитной речи фонетическая реализация какого-то конкретного высказывания зависит от нескольких факторов, включая диалект, скорость произнесения речи, манеру произнесения диктора и другие.
 

1.2              Распознавание изолированных слов

 

Основные признаки распознавания изолированных слов - иерархическая многоярусная структура и контроль каждого яруса с помощью соответствующих грамматик, чьи символы являются расплывчатыми лингвистическими переменными величинами.
Стратегия распознавания основана на группировке единиц речи в широкие фонетические классы, за которым следует классификация на более детальные группы.
При распознавании слитной речи возникают трудности: распознавание слитной речи намного сложнее распознавания отдельно произнесенных слов, прежде всего, вследствие неявных границ между словами. В результате трудно определить начало и конец соответствия между фонемной цепочкой слова из словаря и распознаваемой фонемной цепочкой. Система акустико-фонетического анализа слитной речи обычно рассматривается как часть общей системы по автоматическому ее распознаванию.
Предварительная сегментация и классификация звуковых элементов включает определение гласноподобных, фрикативноподобных звуков, взрывных согласных, пауз. Задача сегментации, рассматриваемая как задача деления речевого потока на функционально значимые отрезки, решается по-разному. При разработке систем распознавания речи учитывается важность первой ступени обработки акустического сигнала, что связано с работой акустического процессора. Процесс автоматической сегментации непрерывно связан с маркировкой звуковой последовательности. Разработка автоматической сегментации и маркировки вызвана необходимостью привлечения большой акустико-фонетической базы данных и стремлением к объективизации речевого анализа.
 

1.3              Проблема автоматического распознавания речи

 
Проблема АРР может быть решена поэтапно. На первом этапе задача распознавания заключается во внешнем удостоверении внутренне выявленных и только поверхностно охарактеризованных классов акустических событий. Для второго этапа решающее значение имеет обобщение внешних критериев классификации внутренне не выявленных классов, что делает возможным предсказуемость характеристики неизвестного сигнала.
При автоматическом распознавании речи, прежде всего, следует выяснить, является ли сигнал в действительности фонетическим (речевым). Известно деление речевого потока на микро- и макросегменты. Разграничение между двумя макросегментами (фразами синтагмами) носит, как правило, дискретный характер, а между двумя микросегментами (субзвуками, звуками, слогами) - стертый. Звуки изменяют свои супрасегментные (длительность, интенсивность, частота основного тона) и сегментные (спектральные) характеристики в соответствии с влиянием единиц других ярусов. Например, увеличение длительности гласной в речевом потоке может указывать на семантическую выделенность слова, положение ударения относительно этой гласной, информацию о предшествующей и последующей фонемах и т. д. Следовательно, для предсказания, например, длительности звука, следует учитывать ряд лингвистических факторов.
Знание сочетаемости фонем на стыках слов играет также не последнюю роль при восприятии речи. Разграничительные средства звучащей речи представляют собой сложное явление, состоящее из самых различных компонентов, связанных с фонотактическими особенностями, синтактико-семантическими факторами, ритмикой формирования речевого высказывания.
Следует остановиться на некоторых проблемах сегментации, связанных со спецификой фонетического уровня. К числу трудностей может быть отнесено автоматическое распознавание назальных и плавных фонем слитной речи. Неопределенности, возникающие из-за ограничений любой системы обработки речи и часто из-за плохого произношения, рассматриваются как источники информации для стохастической грамматики или грамматики неопределенного множества.
Имеющиеся в настоящее время способы микросегментации речи (сегментации на субзвуки, звуки, слоги) можно классифицировать следующим образом:
1) использование степени стабильности во времени каких-либо акустических параметров речевого сигнала, таких как концентрация энергии в частотном спектре;
2) накладывание акустических меток на речевой сигнал через регулярно повторяющиеся короткие интервалы;
3) сравнение выборок речевого сигнала в коротких временных окнах при регулярных интервалах с выборками из фонем-прототипов.
Различают контекстно-зависимые и контекстно-независимые методы сегментации. Самым простым методом контекстно-независимой маркировки является сопоставление эталонов. Для этого необходимо, чтобы в запоминающем устройстве для каждой возможной словарной единице хранилось модель. Контекстно-зависимая сегментация допускает связь используемого множества признаков и порогов с фонетическим контекстом.
Для решения проблемы сегментации звучащей речи большое значение имеет обращение к слогу. При этом в современной лингвистике условно разграничиваются фонетический и фонологический типы слога.
При определении, разграничении и определении слога необходимо использовать фонологические критерии. В наиболее общих терминах слог - это речевой сегмент, состоящий из ядра, т.е. гласного (или слогообразующего согласного) и артикуляторно связанных с ним соседних согласных. Слог дает возможность выхода как на более низкий звуковой, так и на более высокий языковой ярус с использованием информации фонотактических особенностей формирование морфем, слов. Большинство способов сегментации на слоги основано на изменениях общей (суммарной) интенсивности сигнала, т.е. энергии. Поскольку теоретически каждый слог должен содержать только один гласный, а гласные обычно имеют преобладающую интенсивность по сравнению с окружающими согласными, можно предположить, что большинство локальных максимумов - гласные. Очевидно, что слоговые границы находятся в минимальной точке между двумя максимумами. Однако этот подход наталкивается на сложность, т.к. при наличии, например, сонанта могут появляться ложные максимумы.
Сегментация может проводиться в два этапа: на слоги, а затем на звуки, их составляющие, в результате чего уточняются границы между слогами. Соотношение между сегментами по ряду параметров позволяет выявить внутреннюю структуру слоговой единицы.
В фонетике точка зрения на акустическую выделенность границ фонетического слова (ритмической структуры) претерпела ряд изменений. Полное отрицание акустических границ слова сменилось утверждением о том, что при определении границ фонетического слова в потоке речи вполне реально опираться на объективные критерии: акустические характеристики звуков на стыке фонетических слов и их аллофоническую вариативность. При разграничении речевого потока на фонетические слова привлечение акустических характеристик стыковых звуков необходимо во всех случаях: как без паузы, так и при наличии последней.
Вероятность появления паузы в речи зависит от характера сочетаний звуков ритмической структуры соседних слов (например, если первое слово кончается ударным слогом, а следующее за ним начинается также с ударного, то появление между этими словами паузы более вероятно, чем в том случае, когда за ударным слогом первого фонетического слова следует безударный слог второго фонетического слова) и места рассматриваемого стыка во фразе.
В потоке речи определение границ фонетического слова сопряжено с рядом трудностей, возникающих в связи с принадлежностью высказывания к стилю произношения и типу произнесения; позицией фонетического слова в тексте, синтагме и фразе.
Одни реализации границ фонетических слов действительно имеют свои акустические признаки, другие их не имеют. Задача не должна ограничиваться исключительно поиском физических и слуховых признаков соседних звуков, а должна быть направлена на определение иерархии (соподчинения) этих признаков.
Информация об ударении, несомненно, также используется для определения числа фонетических слов в сообщении. Важнейшей информацией, однако, используемой человеком при членении речевого потока, является информация о типах наиболее частотных фонетических слов (ритмических структур). При членении слитной речи на семантически значимые отрезки используется информация различных языковых уровней - от фонологического до семантического. При разработке программ для автоматического членения текста эта информация (о типах ритмических структур, числе и степени ударения и т.д.), безусловно, должна быть принята во внимание. Однако в слитной речи возникают двусмысленные языковые ситуации, декодирование которых может быть осуществлено с привлечением дополнительной информации об акустических признаках членения. Стыковые гласные и согласные обладают определенными акустическими признаками, изменение которых зависит от характера связи между ними.
В случаях, когда доступ к системе, распознающей речь, должен быть обеспечен любому пользователю, целесообразен переход к неадаптивным (независимым от диктора) системам автоматического распознавания. Эти системы гораздо легче реализовать для языков, фонетическая структура которых более изучена (для русского, японского, английского) и гораздо сложнее для языков тонального типа (вьетнамского, китайского, французского).
При создании систем автоматического распознавания звучащей речи огромное значение приобретают эксперименты в области восприятия речи. Результаты таких экспериментов часто лежат в основе функционирования той или иной системы. ЭВМ, распознающие речь, зачастую копируют некоторые не только анализирующие функции человеческого уха, но и запоминающие, а также логические функции человеческого мозга.
Непрерывное совершенствование форм диалога между человеком-оператором и ЭВМ должно привести к оптимизации коммуникации между ними. Диалог «человек-машина» на естественном языке предполагает использование, как соответствующих технических методов, так и определенных лингвистических знаний. Изучение проблемы роли языка общения между человеком и ЭВМ и разработка автоматизированных систем с естественным для человека языком общения находятся на стадии дальнейшего становления.


2              Системы управления распознаванием речевой информации

 

2.1              Система голосового управления

 

Все системы голосового управления компьютером и другим оборудованием можно условно разделить на два класса.
К первому классу мы будем относить устройства, назначением которых является облегчение работы с компьютером. Такие устройства используются в качестве дополнительного канала управления наряду с основными и традиционными каналами — клавиатура и мышь, а также экран компьютера (который служит каналом обратной связи).
В устройствах второго класса речевой интерфейс является основным и единственным. Эти устройства доступны тем, кто не может работать с клавиатурой и экраном компьютера либо из-за проблем со здоровьем, либо из-за чрезмерной занятости какой-либо работой (например, управлением автомобилем или самолетом).
В этом разделе мы рассмотрим несколько систем голосового управления, созданных в компании «Центр речевых технологий». Это программы VoiceNavigator и Truffaldino, библиотека распознавания голосовых команд VoiceKeyKit и система DiVo управления мобильным телефоном в автомобиле без использования рук (hands-free car kit).
Все они, кроме последней, относятся к первому классу, т.к. для работы с ними необходимы традиционные средства ввода и вывода информации. Систему DiVo управления мобильным телефоном в автомобиле можно отнести ко второму классу — для работы с этой системой не нужен ни компьютер, ни экран, ни клавиатура.
 
 

2.1.1              Программа VoiceNavigator

Программа VoiceNavigator (рис. 1) является типичным представителем программ голосового управления компьютером. Она позволяет пользователю запускать приложения голосом, не дотрагиваясь до клавиатуры, и выполнять произвольно заданные команды.

Рис. 1. Программа VoiceNavigator
Перед использованием программы VoiceNavigator ее необходимо обучить, произнеся в микрофон слова команд. Так как программа VoiceNavigator распознает команды по образцам, то команды можно произносить на любом языке и любым голосом.
Чтобы программа начала распознавать голосовые команды, ее необходимо «разбудить», произнеся ключевое слово. После этого программа будет реагировать только на Ваши команды, игнорируя остальные звуки.
В программе есть функция голосового ответа-подтверждения команд. Эта функция позволяет убедиться, что Ваша команда распознана системой и готова для выполнения.
Программа VoiceNavigator нетребовательна к ресурсам компьютера. Вы можете использовать ее в компьютере, оборудованном процессором с тактовой частотой 200 МГц или выше, причем для ввода звуковых команд подойдет любой звуковой адаптер, например, Creative Sound Blaster.
 

2.1.2              Программа Truffaldino

Программа Truffaldino (рис. 2) предназначена для управления домашним или офисным оборудованием, таким как телевизор, домофон, видео-магнитофон, аудио-система, кондиционер, микроволновая печь, система освещения, телефон и т.п.

Рис. 2. Программа Truffaldino
Эта программа пригодится людям с ограниченными физическими возможностями, не способными управляться с домашней техникой обычным способом.
После предварительного обучения программа Truffaldino способна распознавать несколько десятков команд, произнесенных на любом языке и любым голосом. Последнее возможно благодаря тому, что команды распознаются по голосовым шаблонам.
Особенностью программы является хорошая работа в условиях шумов. Это обстоятельство имеет большое значение, так как дома или в офисе акустическая обстановка может быть далеко не идеальной.
Помимо ключевой фразы, предназначенной для «пробуждения» программы Truffaldino, имеется функция ограничения доступа. С помощью этой функции Вы сможете заблокировать запуск программы посторонними людьми.
В программе Truffaldino есть функция голосового ответа-подтверждения команд, аналогичная такой же функции программы VoiceNavigator. Эта функция позволяет убедиться, что Ваша команда распознана Системные требования программы Truffaldino аналогичны требованиям программы VoiceNavigator. Однако для управления оборудованием необходимо применение дополнительного устройства, такого как Infra-Red X-tender.
 

2.2              ПО для распознавания речи

  
Первые попытки разработать программу, способную понимать человеческую речь, были предприняты едва ли не на заре компьютерной эры, в начале пятидесятых. В дальнейшем многие научные центры, в том числе и в нашей стране, брались за решение этой проблемы (фундаментальные исследования теории языка, которые велись в 70-х годах в СССР, легли в основу многих современных продуктов), но первый серьезный прорыв в области речевых технологий удалось сделать только в 1986 году в знаменитом американском Defense Advanced Research Project Agency (DARPA) — Агентстве перспективных исследований Министерства обороны .
Успех связан с тем, что ученые решили уменьшить число фонетических структур, предлагаемых распознающему устройству. Для реализации этой задачи они применили так называемую "скрытую марковскую модель" (Hidden Markov Model, HMM), основанную на свойстве марковской цепи генерировать последовательность определенных детерминированных символов при переходах между некоторыми состояниями вероятностного характера (в марковском процессе параметры системы зависят только от предыдущего состояния и "не помнят" более глубокой предыстории). Имея последовательность символов, сгенерированную марковской моделью, можно однозначно восстановить породившую ее последовательность состояний,но лишь только при том условии, что каждый символ соответствует одному состоянию.
В процессе цифровой обработки речевой сигнал подвергается сначала логарифмическому, а затем обратному преобразованию Фурье, в результате чего отыскивается с десяток первых коэффициентов, несущих наиболее существенную информацию об огибающей спектральной характеристики сигнала. Собственно, современные развитые коммерческие программы распознавания речи и отличаются именно способом реализации механизма выбора из своей (или созданной пользователем) базы данных наиболее вероятного набора фонем (минимально значимых элементов, из которых состоит слово).
 

2.2.1              Требования к оборудованию

Вначале системы для распознавания речи реализовывались, как правило, на специализированном оборудовании и соответствующих платформах. В силу того, что требования, предъявляемые к обработке речи в реальном времени, высоки, слабые центральные процессоры были не в силах взять на себя подобную задачу. Основой компьютерного распознавания речи являлось применение предварительной цифровой обработки сигналов на внешних платах. Производители ПО для распознавания речи, даже перейдя на однопроцессорные компьютеры, некоторое время продолжали применять специальные звуковые карты и микрофоны. Например, популярная программа KurzWeil Voice еще пару лет назад требовала в обязательном порядке "свою" звуковую карту.
Модульные системы компьютерно-телефонных средств распознавания голоса, выполненные в виде плат расширения для компьютера, включают специализированные процессоры цифровой обработки звуковых сигналов (Digital Signal Processor или DSP), берущие на себя ряд операций нижнего уровня и позволяющие снизить требования к быстродействию основного процессора. Например, плата распознавания речи VR/160, поставляемая фирмой Dialogic, поддерживает до 16 каналов одновременно,причем она прекрасно работает совместно с процессором DX-486. Впрочем, Dialogic выпускает и более мощные четырехпроцессорные платы Antares с большим объемом оперативной памяти.
Минимальные требования к неспециализированным однопроцессорным компьютерам со стороны программ для распознавания речи находятся, как правило (для IBM-совместимых машин), на уровне Pentium 133 и 32 мегабайт оперативной памяти. Следует иметь в виду. что для сколько-нибудь количество памяти критично (намного лучше иметь 64 Мб), а еще более критичны параметры звуковой карты и специализированного микрофона — он должен находиться на фиксированном расстоянии и быть узконаправленным, а наилучшие результаты дает микрофон, входящий в состав микротелефонной гарнитуры.
Работа в зашумленных помещениях также, разумеется, оказывает самое негативное влияние на качество распознавания. Каждый микрофон имеет свой особый "профиль", поэтому программу требуется "обучить" не только работе с конкретным пользователем, но и с конкретным оборудованием. Подключенному к компьютеру диктофону тоже потребуется свой "профиль". Специальные микротелефонные гарнитуры поставляются вместе с известными программами распознавания речи -Via Voice Gold корпорации IBM Research, Naturally Speaking Preferred фирмы Dragon Systems и Voice Xpress (Lernout&Hauspie Speech Products).
 

2.2.2              Программное обеспечение, применяемое за рубежом

Функцию распознавания речи IBM не только встроила в свою операционную систему OS/2 Warp 4, известную под кодовым названием Merlin (конец 1996 г.), но и выпускает в качестве отдельного продукта. Пакет для распознавания слитной речи Via Voice от IBM отличается своей способностью с самого начала, без обучения, распознавать до 80% слов. При обучении вероятность правильного распознавания повышается до 95%, причем параллельно с настройкой программы на конкретного пользователя происходит освоение будущим оператором навыков работы с системой. Небезынтересно, что, рекламируя этот пакет, IBM утверждает, будто средняя машинистка набивает примерно 80 слов в минуту, a Via Voice достигает скорости 150 слов в минуту.
Dragon Dictate Naturally Speaking (Ньютон, шт. Массачусетс, www.drag-onsys.com) — первый коммерческий продукт для распознавания слитной речи, вышедший в начале 1997 года. Позволяет непосредственно диктовать в программы Word, WordPerfect, Netscape Navigator, Internet Explorer и приложения, причем ему доступен богатый набор управляющих команд. Пользуясь только голосом, можно исправлять и переставлять слова, выделять текст и даже менять размер шрифта и позиционировать курсор с абсолютной точностью. Первоначальная настройка на конкретный голос пользователя является обязательной, но программа способна обучаться и в процессе дальнейшего диктанта; рабочее качество распознавания может быть достигнуто спустя примерно пару недель пользования системой.
Lernout&Hauspie Speech Products (Берлингтон, шт. Массачусетс, www.lhs.com) в 1997 г. приобрела KurzWeil Applied Intelligence, основатель которой Рей Курцвайль стал в L&H главным техническим руководителем. После этого фирма получила инвестиции от Microsoft, делающей на ее продукты сярья.чную ставку, а затем выпустила Voice Commands — программу для голосового управления с развитыми возможностями. Несколько позже эта компания создала и свою систему распознавания речи Voice Xpress Plus, которая по качеству распознавания незначительно уступает Dragon Dictate Naturally Speaking, но зато при работе с офисными программами (например, с Word) реализует более "естественный" интерфейс (можно подавать команды вроде "изменить шрифт последнего предложения на Arial" или "сложить эту колонку цифр").
Технология распознавания речи достигла уже такой зрелости, что теперь стало возможным ее использование для организации полностью автоматизированных телефонных служб, способных работать в интерактивном голосовом режиме. Одно за другим появляются сообщения об успешном внедрении таких служб и о преимуществах, которые оно дает.
Фирма Charles Schwab&Co (Сан-Франциско) имеющиеся системы IVR (Interactive Voice Response — интерактивная система с голосовым ответом, подразумевающая ввод запросов через телефон с тональным набором номера)дополнила программным обеспечением, созданным на базе технологии Conversational Transaction Technology, разработанной компанией Nuance Communications (www.nuance.com).
Созданная в результате этого объединения система Voice Broker позволяет в автоматическом режиме по телефону, используя только голосовой интерфейс, получать информацию о текущих котировках акций и ценных бумаг. База данных содержит свыше 15 тысяч разновидностей ценных бумаг, и Voice Broker обеспечивает более 100 тысяч видов различных информационных запросов, учитывая, например, различные речевые формулировки названий фирм. Модуль распознавания голоса (Voice Recognition Unit, VRU) смонтирован на рабочей станции с процессором SPARC фирмы Sun и взаимодействует с несколькими блоками распознавания на машинах UltraSPARC, которые снабжают модуль VRU запрошенной информацией. Пользователь получает ответ в пределах 2 секунд. Вслед за Schwab программы для распознавания нашли свое применение в Sears, Roebuck and Co и United Parcel Service of America.
Программное обеспечение для распознавания речи фирмы Nuance Communications использует крупнейшая в Канаде дисконтная брокерская контора Toronto Dominion, запустив в эксплуатацию службу Green Line Investors, позволяющую абонентам получать по телефону информацию о биржевых котировках. Вводятся особые пользовательские "профили", на основе которых система определяет, например, следует ли зачитывать данному абоненту краткую или подробную информацию.
Программу распознавания речи Natural Dialogue System фирмы Philips Speech Processing (Вена, Австрия, www.speech.be.philips.com) использует первая канадская система автоматических "желтых страниц" (Торонто), предоставляющая информацию о местных ресторанах и способная по желанию абонента соединить его с выбранным заведением.
Она же используется швейцарской железнодорожной компанией Swiss Railways. Предусмотрена возможность самообучения системы во время эксплуатации. Из запросов, требующих сложного "восприятия речи" (вроде "Я бы хотел попасть из Женевы в Цюрих через Берн"), выделяются ключевые слова -названия станций, предлоги "из", "в", "через" — и на основании наиболее правдоподобного варианта строится обращение к базе данных и соответствующий синтезированный Авиакомпания Lufthansa своим потенциальным пассажирам предлагает автоматическое расписание своих рейсов, а радиостанция Radio Luxembourg — прогноз погоды по туристическим маршрутам всего мира.
Немецкая служба сотовой телефонной GSM-связи Dutch PTT внедрила систему обработки речи Voice Dialing, разработанную американской компанией Glenayre, что обеспечивает не только голосовой набор телефонного номера, но и выполнение необходимых команд и возможность программирования до 40 часто набираемых телефонных номеров. В результате стало возможным звонить прямо во время движения автомобиля, не отвлекаясь от управления.
Программы от IBM и Dragon Dictate используются в надеваемых компьютерах (wearable PC) компании Xybernaut (www.xybernaut.com). Эти устройства весом всего 795 г используются, например, американскими таможенниками, несущими службу на границе с Мексикой. Стражи порядка проверяют номера проезжающих автомобилей, сверяясь с удаленными центральными правоохранительными базами. Правда, служащие таможни жалуются на проблемы с распознаванием, возникающие при сильном ветре...
IBM уже давно использует технологию распознавания речи для своих внутренних нужд, а сейчас выпускает средства создания автоматизированных речевых агентов, способных распознавать называемые телефонными абонентами имена людей и названия организаций и соединять их с соответствующими номерами. Объем каталога имен может достигать 200 тысяч записей.
Фирма Language Force (www.lan-guageforce.com) на основе технологии распознавания речи Via Voice разработала автоматический переводчик Universal Translator Deluxe, позволяющий устную английскую речь переводить на 33 различных языка, в число которых входят арабский, китайский,японский,корейский, испанский, немецкий и иврит.
Достижения компьютерной обработки речевых сигналов могут применяться не только для того, чтобы вести беседы по мобильному телефону, — ряд парламентариев с гран Западной Европы добиваются контроля над центром прослушивания Менвич-Хилл Агентства национальной безопасности (АНБ) США, расположенным в Англии, недалеко от Йоркшира. Первоначально центр, созданный при поддержке британской разведки Ml 5, предназначался для анализа информационного трафика из СССР, но ныне, как следует из отчета технической службы Европарламента, осуществляет перехват всех европейских телефонных разговоров, факсов и электронной почты. Система распознавания речи используется для выделения ключевых слов, при наличии которых автоматически включается запись разговора с последующим ее перенаправлением для проверки в американское отделение АНБ.
 

2.2.3              Положение в России

К сожалению, распространенные зарубежные системы распознавания речи русский язык не подд
и т.д.................


Перейти к полному тексту работы


Скачать работу с онлайн повышением уникальности до 90% по antiplagiat.ru, etxt.ru или advego.ru


Смотреть полный текст работы бесплатно


Смотреть похожие работы


* Примечание. Уникальность работы указана на дату публикации, текущее значение может отличаться от указанного.