Здесь можно найти учебные материалы, которые помогут вам в написании курсовых работ, дипломов, контрольных работ и рефератов. Так же вы мажете самостоятельно повысить уникальность своей работы для прохождения проверки на плагиат всего за несколько минут.

ЛИЧНЫЙ КАБИНЕТ 

 

Здравствуйте гость!

 

Логин:

Пароль:

 

Запомнить

 

 

Забыли пароль? Регистрация

Повышение уникальности

Предлагаем нашим посетителям воспользоваться бесплатным программным обеспечением «StudentHelp», которое позволит вам всего за несколько минут, выполнить повышение уникальности любого файла в формате MS Word. После такого повышения уникальности, ваша работа легко пройдете проверку в системах антиплагиат вуз, antiplagiat.ru, etxt.ru или advego.ru. Программа «StudentHelp» работает по уникальной технологии и при повышении уникальности не вставляет в текст скрытых символов, и даже если препод скопирует текст в блокнот – не увидит ни каких отличий от текста в Word файле.

Результат поиска


Наименование:


курсовая работа Автоматизированное распознавание речи

Информация:

Тип работы: курсовая работа. Добавлен: 04.06.13. Сдан: 2013. Страниц: 19. Уникальность по antiplagiat.ru: < 30%

Описание (план):


 

Спудьева М.Н. «Информационные технологии в ДОУ и архивном деле».
 
РОСЖЕЛДОР
Федеральное государственное  бюджетное
 образовательное  учреждение  высшего профессионального образования
«Ростовский государственный  университет путей сообщения»
(ФГБОУ ВПО РГУПС)

 
 
 
 
 
 
 
КУРСОВАЯ РАБОТА
 
По дисциплине: «Информационные технологии в ДОУ и архивном деле»
На тему: «Автоматизированное  распознавание речи»
 
 
 
Выполнил:                                                                          М.Н. Спудьева
                                              
                                                                                              Группа: ГД-4-001
 
Проверил:                                                                            Е.С. Окулова
 
 
 
Ростов-на-Дону
2012
 
Содержание
 
 
Введение 4
1. Понятия и виды систем распознавания речи. 5
1.1 Системы распознавания речи: понятие и виды 5
1.2 История  создания и разработки автоматизированных  систем распознавания речи 15
2. Применение автоматизированных систем распознавания речи. 19
2.1 Проблемы применения систем распознавания речи 19
2.2 Песпективы  использования данных систем  в России 26
Заключение 33
Список  используемых источников 34
 
 
 
 


Введение

 
В современных компьютерных системах все больше внимания уделяется  построению интерфейса естественного  ввода-вывода информации. Одним из перспективных  направлений на сегодняшний день является использование систем речевого диалога, которая предполагает автоматический синтез и распознавание речи. Этим и обусловлена актуальность данной темы.
Автоматизированное распознавание  речи необходимо для создания средств речевого ввода команд и текстов, автоматического перевода, реферирования текстов, построения справочных и информационно - поисковых устройств. Синтез речи является одним из функциональных узлов различных роботов связи. Существуют системы, которые могут сообщение, присланное вами по электронной почте, преобразовать в "голосовое" и передать по нужному телефону в заданный промежуток времени. Другие системы по названному телефонному номеру (входящему в заранее определенный список) обеспечивают услуги выдачи адресов, маршрутов проезда и т.п.
Ввод данных всегда требовал значительных затрат времени и сил, а стремление свести эти затраты  к минимуму заставляет постоянно  работать над способами перевода знаковой системы, которой пользуется человек, на тот язык, который понятен машине.
Перфокарты, а потом клавиатура не до конца решили эту проблему, так как эти способы передачи информации не являются естественными  для человека, а потому они неэффективны, неэкономичны и, кроме того, требуют  длительного освоения. При современных  масштабах распространения ПК работать с ними приходится не только специалистам, владеющим быстрым набором с  клавиатуры, но и малоподготовленным пользователям, для которых ввод информации выливается в отдельную  проблему.
 
Любой поработавший с современным  графическим пакетом согласится, что около десятка движений мышью  при создании какого-либо эффекта  порой можно заменить одним словом. Таким образом, задача состоит в  том, чтобы научить компьютер  понимать без посредника тот язык, на котором говорят люди между  собой, то есть придумать алгоритм распознавания  звукового образа. На уровне письменного  текста указанная проблема уже частично решена некоторые программы, позволяют вводить через сканер любой напечатанный текст. Однако в данном случае мы имеем дело с уже готовым текстом, а ввод информации в процессе его создания представляет определенную сложность. Пока человек не научится телепатически передавать свои мысли, единственным инструментом, служащим ему для этого, является речь, и потому каждому пользователю ПК очень хотелось бы, чтобы его помощник слышал, а главное, понимал своего хозяина.
В данной курсовой работе подробно изложены виды систем распознавания  речи, а также методология таких  систем. Особое внимание уделено перспективам использования и применению систем в настоящее время в России.
 


    Понятия и виды систем распознавания речи.
      Системы распознавания речи: понятие и виды
 
Распознавание речи — процесс  преобразования речевого сигнала в  цифровую информацию (напр., текстовые  данные). Обратной задачей является синтез речи.
Автоматическое речевое  распознавание - процесс, которым компьютер  отображает акустический речевой сигнал в виде текста или соответствующих команд, управляющих вычислительным процессом. Более сложным понятием является автоматическое понимание речи, которое включает в себя автоматическое распознавание и семантический анализ распознанного текста. Системы распознавания речи можно разделить, классифицировать по ряду признаков, в том числе:
         -          по зависимости от диктора,
         -          по объему словаря,
         -          по характеру распознаваемого речевого потока.
         Рассмотрим эти характеристики.
Диктор - зависимые системы разрабатываются для одиночного пользователя. Эти системы обычно проще по структуре, дешевле, однако не обладают достаточной гибкостью и возможностью адаптации к группе дикторов либо к работе с неизвестным диктором.
Диктор - независимые системы разрабатываются, чтобы эксплуатировать с любым диктором специфического типа. Эти системы наиболее трудно развиваются, являются наиболее дорогим и обеспечивают точность распознавания ниже чем диктор-зависимые системы. Однако, они более гибки и удобны в использовании.
Системы с адаптацией под  диктора позволяют производить  настройку под конкретного диктора  или группу дикторов. Такие системы  позволяют обеспечить достаточно эффективность  распознавания, однако сам процесс  настройки ее под диктора или группу дикторов может быть достаточно трудоемким.
Размер словаря речевой  системы распознавания непосредственно  связан с ее сложностью и сильно влияет на характеристики точности распознавания.
Размер словаря определяется конкретными требованиями соответствующей  прикладной системы. Некоторые прикладные программы только требуют нескольких слов (например только числа ), другие требуют очень больших словарей (например системы автоматической диктовки текста).
Обычно рассматриваются  следующие градации объема словарей:
- Маленький словарь - десятки слов
- Средний словарь - сотни  слов
-  Большой словарь - тысячи слов
- Очень большой словарь - десятки тысяч слов.
По характеру речевого потока системы распознавания речи делятся на системы распознавания  изолированных слов и непрерывной  речи.
Системы распознавания изолированных  слов ориентированы на распознавание  одиночных слов с одновременным  требование паузы между высказыванием  каждого слова. Это - самая простая  форма распознавания, потому что  здесь проще найти конечные и  начальные точки слова и при  этом произношение соседних слов не влияет друг на друга, что обеспечивает достаточно высокое качество распознавания.
Системы распознавания одиночных  команд должны обеспечивать достаточно высокую надежность (95%-97%) правильного  распознавания для группы дикторов до 5-7 человек, а также иметь возможность  подстройки системы при наличии ошибок распознавания.
Система распознавания одиночных  команд должна отвечать требованиям быстроты реакции, обеспечивающей минимальную задержку выдачи ответа после произнесения слова. Системы распознавания непрерывной (слитной) речи функционирует с речью, в которой слова соединены вместе, то есть не отделяемый к паузам. Непрерывная речь более трудно обрабатывается из-за ряда эффектов. Сначала, трудно найти начало и конечные пункты (точки) слов. Другая проблема - "коартикуляция". Смысл ее состоит в том, что воспроизведение каждой фонемы зависит от окружающих фонем, и аналогично, на начало и конец слов воздействуют предшествующие и последующие слова. На распознавание непрерывной речи также воздействует темп речи. Кроме этого размер словаря систем распознавания непрерывной речи должен иметь достаточно значительный объем (десятки и сотни тысяч слов).
Возможное применение состоит  в создании системы автоматической диктовки для оперативного формирования отчетов о проделанной работе, Существующие системы автоматической диктовки позволяют создавать текстовые  файлы в большинстве используемых текстовых редакторов - Word, Word Perfect ,WordPad с достаточно высоким качеством текста. Следует отметить, однако что последнее замечание касается в основном систем англоязычного распознавания, хотя в настоящее время на рынке начали появляться варианты систем для автоматической диктовки русскоязычного текста.
При автоматическом распознавании  речи большие трудности представляют собой процессы обнаружения и  идентификации некоторых групп фонем.
Для распознавания слов в  слитной речи апробированы два различных  подхода. В первом случае при глобальном подходе слово, которое необходимо распознать, сравнивается с каждым словом словаря. При сравнении используется, как правило, спектральное представление  каждого слова. Среди различных  методов данного типа хорошие  результаты дал метод динамического  программирования.
Во втором случае при аналитическом  подходе каждое слово или группа слов сначала сегментируется на меньшие  единицы. Сегментами являются слогоподобные или фонемоподобные единицы. Это позволяет проводить распознавание либо на слоговом, либо на фонемном уровне и одновременно хранить в памяти параметры (длительность, энергию и т.п.), относящиеся к просодии и полезные в дальнейшем. Сегментация может быть основана на нахождении гласных высказывания, которые часто располагаются около максимума интегративной энергии спектра. При таком подходе первым критерием сегментации является изменение энергии во времени. Некоторые согласные, например m, n, l, иногда обладают такой же энергией, как и гласные. Поэтому необходим ввод дополнительных параметров для выяснения наличия гласного звука в каждом ранее определенном сегменте.
Для идентификации согласных, как правило, проводится разделение взрывных и невзрывных согласных. Это  достигается путем обнаружения  паузы (смычки), соответствующей смыканию перед реализацией взрыва. Задача усложняется для позиции начала высказывания, где сравнительно просто определяется смычка только для звонких  взрывных согласных. После обнаружения  смычки определяются изменение спектра  и вид изменения. Для установления каждой категории звуков обычно пользуются упорядоченными правилами, основанными  на информации, зависящей от акустического  и фонетического контекстов. В  слитной речи фонетическая реализация какого-то конкретного высказывания зависит от нескольких факторов, включая  диалект, скорость произнесения речи, манеру произнесения диктора и другие.
Основные признаки распознавания  изолированных слов - иерархическая  многоярусная структура и контроль каждого яруса с помощью соответствующих  грамматик, чьи символы являются расплывчатыми лингвистическими переменными  величинами.
Стратегия распознавания  основана на группировке единиц речи в широкие фонетические классы, за которым следует классификация  на более детальные группы.
При распознавании слитной  речи возникают трудности: распознавание  слитной речи намного сложнее  распознавания отдельно произнесенных  слов, прежде всего, вследствие неявных  границ между словами. В результате трудно определить начало и конец  соответствия между фонемной цепочкой слова из словаря и распознаваемой фонемной цепочкой. Система акустико-фонетического  анализа слитной речи обычно рассматривается  как часть общей системы по автоматическому ее распознаванию.
Предварительная сегментация  и классификация звуковых элементов  включает определение гласно подобных, фрикативно подобных звуков, взрывных согласных, пауз. Задача сегментации, рассматриваемая  как задача деления речевого потока на функционально значимые отрезки, решается по-разному. При разработке систем распознавания речи учитывается  важность первой ступени обработки  акустического сигнала, что связано  с работой акустического процессора. Процесс автоматической сегментации  непрерывно связан с маркировкой  звуковой последовательности. Разработка автоматической сегментации и маркировки вызвана необходимостью привлечения  большой акустико-фонетической базы данных и стремлением к объективизации речевого анализа.
Проблема АРР может  быть решена поэтапно. На первом этапе  задача распознавания заключается  во внешнем удостоверении внутренне  выявленных и только поверхностно охарактеризованных классов акустических событий. Для  второго этапа решающее значение имеет обобщение внешних критериев  классификации внутренне не выявленных классов, что делает возможным предсказуемость  характеристики неизвестного сигнала.
При автоматическом распознавании  речи, прежде всего, следует выяснить, является ли сигнал в действительности фонетическим (речевым). Известно деление  речевого потока на микро- и макросегменты. Разграничение между двумя макросегментами (фразами синтагмами) носит, как правило, дискретный характер, а между двумя  микросегментами (субзвуками, звуками, слогами) - стертый. Звуки изменяют свои супрасегментные (длительность, интенсивность, частота основного тона) и сегментные (спектральные) характеристики в соответствии с влиянием единиц других ярусов. Например, увеличение длительности гласной в  речевом потоке может указывать  на семантическую выделенность слова, положение ударения относительно этой гласной, информацию о предшествующей и последующей фонемах и т. д. Следовательно, для предсказания, например, длительности звука, следует учитывать ряд лингвистических факторов.
Знание сочетаемости фонем  на стыках слов играет также не последнюю  роль при восприятии речи. Разграничительные  средства звучащей речи представляют собой сложное явление, состоящее  из самых различных компонентов, связанных с фонотактическими особенностями, синтактико-семантическими факторами, ритмикой формирования речевого высказывания.
Следует остановиться на некоторых  проблемах сегментации, связанных  со спецификой фонетического уровня. К числу трудностей может быть отнесено автоматическое распознавание  назальных и плавных фонем  слитной речи. Неопределенности, возникающие  из-за ограничений любой системы  обработки речи и часто из-за плохого  произношения, рассматриваются как  источники информации для стохастической грамматики или грамматики неопределенного  множества.
Имеющиеся в настоящее  время способы микросегментации речи (сегментации на субзвуки, звуки, слоги) можно классифицировать следующим образом:
- использование степени стабильности во времени каких-либо акустических параметров речевого сигнала, таких как концентрация энергии в частотном спектре;
- накладывание акустических меток на речевой сигнал через регулярно повторяющиеся короткие интервалы;
- сравнение выборок речевого сигнала в коротких временных окнах при регулярных интервалах с выборками из фонем-прототипов.
Различают контекстно-зависимые  и контекстно-независимые методы сегментации. Самым простым методом  контекстно-независимой маркировки является сопоставление эталонов. Для  этого необходимо, чтобы в запоминающем устройстве для каждой возможной  словарной единице хранилось  модель. Контекстно-зависимая сегментация  допускает связь используемого  множества признаков и порогов  с фонетическим контекстом.
Для решения проблемы сегментации  звучащей речи большое значение имеет  обращение к слогу. При этом в  современной лингвистике условно  разграничиваются фонетический и фонологический типы слога.
При определении, разграничении  и определении слога необходимо использовать фонологические критерии. В наиболее общих терминах слог - это речевой сегмент, состоящий  из ядра, т.е. гласного (или слогообразующего согласного) и артикуляторно связанных с ним соседних согласных. Слог дает возможность выхода как на более низкий звуковой, так и на более высокий языковой ярус с использованием информации фонотактических особенностей формирование морфем, слов. Большинство способов сегментации на слоги основано на изменениях общей (суммарной) интенсивности сигнала, т.е. энергии. Поскольку теоретически каждый слог должен содержать только один гласный, а гласные обычно имеют преобладающую интенсивность по сравнению с окружающими согласными, можно предположить, что большинство локальных максимумов - гласные. Очевидно, что слоговые границы находятся в минимальной точке между двумя максимумами. Однако этот подход наталкивается на сложность, т.к. при наличии, например, сонанта могут появляться ложные максимумы.
Сегментация может проводиться  в два этапа: на слоги, а затем  на звуки, их составляющие, в результате чего уточняются границы между слогами. Соотношение между сегментами по ряду параметров позволяет выявить  внутреннюю структуру слоговой единицы.
В фонетике точка зрения на акустическую выделенность границ фонетического слова (ритмической  структуры) претерпела ряд изменений. Полное отрицание акустических границ слова сменилось утверждением о  том, что при определении границ фонетического слова в потоке речи вполне реально опираться на объективные критерии: акустические характеристики звуков на стыке фонетических слов и их аллофоническую вариативность. При разграничении речевого потока на фонетические слова привлечение  акустических характеристик стыковых звуков необходимо во всех случаях: как  без паузы, так и при наличии  последней.
Вероятность появления паузы  в речи зависит от характера сочетаний  звуков ритмической структуры соседних слов (например, если первое слово кончается  ударным слогом, а следующее за ним начинается также с ударного, то появление между этими словами  паузы более вероятно, чем в  том случае, когда за ударным слогом первого фонетического слова  следует безударный слог второго  фонетического слова) и места  рассматриваемого стыка во фразе.
В потоке речи определение  границ фонетического слова сопряжено  с рядом трудностей, возникающих  в связи с принадлежностью  высказывания к стилю произношения и типу произнесения; позицией фонетического  слова в тексте, синтагме и фразе.
Одни реализации границ фонетических слов действительно имеют свои акустические признаки, другие их не имеют. Задача не должна ограничиваться исключительно  поиском физических и слуховых признаков  соседних звуков, а должна быть направлена на определение иерархии (соподчинения) этих признаков.
Информация об ударении, несомненно, также используется для  определения числа фонетических слов в сообщении. Важнейшей информацией, однако, используемой человеком при  членении речевого потока, является информация о типах наиболее частотных фонетических слов (ритмических структур). При  членении слитной речи на семантически значимые отрезки используется информация различных языковых уровней - от фонологического  до семантического. При разработке программ для автоматического членения текста эта информация (о типах  ритмических структур, числе и  степени ударения и т.д.), безусловно, должна быть принята во внимание. Однако в слитной речи возникают двусмысленные  языковые ситуации, декодирование которых  может быть осуществлено с привлечением дополнительной информации об акустических признаках членения. Стыковые гласные  и согласные обладают определенными  акустическими признаками, изменение  которых зависит от характера  связи между ними.
В случаях, когда доступ к  системе, распознающей речь, должен быть обеспечен любому пользователю, целесообразен  переход к неадаптивным (независимым  от диктора) системам автоматического  распознавания. Эти системы гораздо  легче реализовать для языков, фонетическая структура которых  более изучена (для русского, японского, английского) и гораздо сложнее  для языков тонального типа (вьетнамского, китайского, французского).
При создании систем автоматического  распознавания звучащей речи огромное значение приобретают эксперименты в области восприятия речи. Результаты таких экспериментов часто лежат  в основе функционирования той или иной системы. ЭВМ, распознающие речь, зачастую копируют некоторые не только анализирующие функции человеческого уха, но и запоминающие, а также логические функции человеческого мозга.
Непрерывное совершенствование  форм диалога между человеком-оператором и ЭВМ должно привести к оптимизации  коммуникации между ними. Диалог «человек-машина»  на естественном языке предполагает использование, как соответствующих  технических методов, так и определенных лингвистических знаний. Изучение проблемы роли языка общения между человеком  и ЭВМ и разработка автоматизированных систем с естественным для человека языком общения находятся на стадии дальнейшего становления.
 


1.2 История создания и разработки автоматизированных систем распознавания речи

Соединенные Штаты Америки, конец 60-х годов XX века: «Три», — сказал Валтер Кронкит (Walter Cronkite), ведущий научно-популярной программы «XXI век», во время демонстрации новейших разработок в области распознавания речи. Компьютер распознал это слово как «четыре». «Идиот», — пробормотал Валтер. «Этого слова нет в словаре», — ответил компьютер.
Хотя первые разработки в  области распознавания речи относятся  еще к 1920-м годам, первая система  была создана только в 1952 году компанией  Bell Laboratories (сегодня она входит в состав Lucent Technologies). А первая коммерческая система была создана еще позже: в 1960 году IBM объявила о разработке такой системы, но на рынок программа так и не вышла.
Затем, в 1970-х годах, авиакомпания Eastern Airlines в США установила дикторозависимую систему отправки багажа: оператор называл пункт назначения — и багаж отправлялся в путь. Однако из-за количества допущенных ошибок система так и не прошла испытательный срок.
После этого разработки в  данной области если и велись, то достаточно вяло. Даже в 1980-х годах  реальных коммерческих приложений с  использованием систем распознавания  речи было довольно мало.
Сегодня в этом направлении  работают уже не десятки, а сотни  исследовательских коллективов  в научных и учебных заведениях, а также в крупных корпорациях. Об этом можно судить по таким международным  форумам ученых и специалистов в  области речевых технологий, как ICASSP, EuroSpeech, ICPHS и др. Результаты работы, на которую, как у нас образно говорят, «навалились всем миром», трудно переоценить.
Уже в течение нескольких лет голосовые навигаторы, или  системы распознавания команд, успешно  применяются в различных областях деятельности. Например, call-центр OmniTouch, поставленный Ватикану компанией Alcatel, использовался для обслуживания мероприятий, проходивших в рамках празднования 2000-летия Христа. Паломник, звонивший в call-центр, излагал свой вопрос, и система автоматического распознавания речи «выслушивала» его. Если система определяла, что вопрос задан по часто встречающейся теме, например о расписании мероприятий или адресах гостиниц, то включалась предварительно сделанная запись. При необходимости уточнить вопрос предлагалось речевое меню, в котором голосом надо было указать один из пунктов. Если же система распознавания определяла, что предварительно записанного ответа на заданный вопрос нет, то происходило соединение паломника с оператором-человеком.
В Швеции не так давно  была открыта автоматическая телефонная справочная служба, использующая программу  распознавания речи компании Philips. За первый месяц работы службы Autosvar, которая начала действовать без официального объявления, ее услугами воспользовались 200 тыс. клиентов. Человек должен набрать определенный номер и после ответа автоматического секретаря назвать интересующий его раздел информационного справочника.
Новая услуга предназначена  в основном для частных клиентов, которые предпочтут ее из-за значительно  меньшей стоимости услуг. Служба Autosvar является первой системой такого рода в Европе.
Даже в медицине технология распознавания голоса нашла свое место. Уже разработаны аппараты осмотра желудка, послушные голосу врача. Правда, эти аппараты, по словам специалистов, пока еще несовершенны: у них замедленная реакция  на приказы врача. Но все еще впереди. В Мемфисе VA Medical Center вложил 277 тыс. долл. в программу Dragon, позволяющую врачам и медсестрам надиктовывать информацию в базу данных компьютера. Вероятно, скоро не нужно будет мучиться, чтобы разобрать в медицинской карте почерк врача.
Уже сотни крупных компаний используют технологию распознавания  голоса в своей продукции или  в услугах; в их числе — AOL, FedEx, Honda, Sony, Sprint, T. Rowe Price, United Airlines и Verizo. По оценкам экспертов, рынок голосовой технологии достиг в 2002 году порядка 695 млн. долл., что на 10% выше, чем в 2001 году.
Авиакомпания United Airways внедрила автоматическую справочную службу еще в 1999 году. Автоматические системы обработки телефонных звонков эксплуатируются такими компаниями, как инвестиционный банк Charles Schwab & Co, розничная сеть Sears, сеть супермаркетов Roebuck. Американские операторы беспроводной связи (AT&T Wireless и Sprint PCS) уже больше года используют подобные программы и предоставляют услуги голосового набора. И хотя сейчас лидером по количеству call-центров такого типа является Америка, в последнее время выгоду от систем распознавания речи начали осознавать и в Европе. Например, швейцарская служба железных дорог уже предоставляет своим немецкоязычным пассажирам услуги, аналогичные тем, что предлагает United Airways.
Следующим шагом технологий распознавания речи можно считать  развитие так называемых Silent Speech Interfaces (SSI) (Интерфейсов Безмолвного Доступа). Эти системы обработки речи базируются на получении и обработке речевых сигналов на ранней стадии артикулирования. Данный этап развития распознавания речи вызван двумя существенными недостатками современных систем распознавания: чрезмерная чувствительность к шумам, а также необходимость четкой и ясной речи при обращении к системе распознавания. Подход, основанный на SSI, заключается в том, чтобы использовать новые сенсоры, не подверженные влиянию шумов в качестве дополнения к обработанным акустическим сигналам.
 


2. Применение автоматизированных  систем распознавания речи.

2.1 Проблемы применения  систем распознавания речи

 
С одной стороны, тема автоматического распознавания речи абсолютно не нова, с другой, активное развитие и применение этой технологии только начинается (в который раз). С одной стороны, успели сформироваться устойчивые стереотипы и предубеждения, с другой, несмотря на почти полвека настойчивых усилий не нашли разрешения концептуальные вопросы, вставшие еще перед родоначальниками речевого ввода. Первый и, пожалуй, основной касается области применения. Поиск приложений, где распознавание речи могло бы продемонстрировать все свои достоинства, вопреки устоявшемуся мнению, является задачей далеко не тривиальной. Сложившаяся практика применения компьютеров не способствует широкому внедрению речевого интерфейса.
Становление современной компьютерной индустрии проходило под флагом графического интерфейса, альтернативы которому в круге решаемых сегодня компьютерами задач не существует. Развитие автоматизации отдельных секторов промышленности задало направление развитию пользовательского интерфейса, форма которого, утвердившись, в свою очередь оказала свое ограничивающее влияние на основные тенденции автоматизации. Массовые приложения: САПР, офисные и издательские пакеты, СУБД составляют основной объем программной начинки компьютеров, оставляя в их нынешнем виде очень мало места для применения альтернативных моделей пользовательского интерфейса, в том числе и речевого.
Для подачи команд, связанных с позиционированием в пространстве, человек всегда пользовался, и будет пользоваться жестами, то есть, системой «руки - глаза». На этом принципе построен современный графический интерфейс. Часто упускаемая из рассмотрения характеристика этого вида интерфейса – он аналоговый. В отличие от графического интерфейса речь носит дискретный характер и манипулирует дискретными сущностями. Перспектива замены клавиатуры и мыши блоком распознавания речи абсолютно отпадает, а перспектива их совмещения пока достаточно призрачна. При этом выигрыш от возложения на речевой интерфейс даже части функций управления настолько мал, что не смог предоставить достаточных оснований даже для пробного внедрения в массовых компьютерах на протяжении уже более сорока лет при наличии технической возможности. Именно таким сроком оценивается существование коммерчески применимых систем распознавания речи.
Сегодня среди ведущих производителей систем распознавания речи не принято отдавать должное достижениям исследователей прошлых лет. Причина понятна: это не только в значительной степени снизит видимые показатели достигнутого ими прогресса, но и поспособствует возникновению вполне обоснованных сомнений в перспективности осуществляемых подходов вообще.
Для объективной оценки прогресса технологии распознавания речи сравните характеристики систем, реализованных в рамках проекта ARPA к 1976 году и систем, продвигаемых на рынок в настоящее время. Возникает два вопроса.
Почему не нашли достойного применения разработки двадцатилетней давности, и почему за такой продолжительный период не произошло видимого качественного сдвига в характеристиках конкретных систем? Ответ на первый вопрос частично изложен выше: основная проблема в области применения. Можно добавить, что вопреки настойчиво навязываемому сегодня в маркетинговых целях мнению, высокие требования данной технолог
и т.д.................


Перейти к полному тексту работы


Скачать работу с онлайн повышением уникальности до 90% по antiplagiat.ru, etxt.ru или advego.ru


Смотреть полный текст работы бесплатно


Смотреть похожие работы


* Примечание. Уникальность работы указана на дату публикации, текущее значение может отличаться от указанного.