Здесь можно найти учебные материалы, которые помогут вам в написании курсовых работ, дипломов, контрольных работ и рефератов. Так же вы мажете самостоятельно повысить уникальность своей работы для прохождения проверки на плагиат всего за несколько минут.

ЛИЧНЫЙ КАБИНЕТ 

 

Здравствуйте гость!

 

Логин:

Пароль:

 

Запомнить

 

 

Забыли пароль? Регистрация

Повышение оригинальности

Предлагаем нашим посетителям воспользоваться бесплатным программным обеспечением «StudentHelp», которое позволит вам всего за несколько минут, выполнить повышение оригинальности любого файла в формате MS Word. После такого повышения оригинальности, ваша работа легко пройдете проверку в системах антиплагиат вуз, antiplagiat.ru, РУКОНТЕКСТ, etxt.ru. Программа «StudentHelp» работает по уникальной технологии так, что на внешний вид, файл с повышенной оригинальностью не отличается от исходного.

Результат поиска


Наименование:


доклад Распознавание речи компьтером

Информация:

Тип работы: доклад. Добавлен: 02.05.13. Год: 2012. Страниц: 13. Уникальность по antiplagiat.ru: < 30%

Описание (план):


Содержание
ВВЕДЕНИЕ 3
1. История 5
2. Распознавание речи на сегодняшний день 7
3. Алгоритмы распознавания речи 9
4. Способы распознавания речи 13
5. Перспективы 16
ЗАКЛЮЧЕНИЕ 17
 
  

ВВЕДЕНИЕ

 
Когда-то писателям-фантастам  возможность обычного разговора  с компьютером казалась столь  очевидной и естественной, что  первые вычислительные машины, лишенные голосового интерфейса, воспринимались как что-то неполноценное и еще  не вполне состоявшееся. С той норы утекло много времени, за которое  произошли две перемены: первая из них состояла в том, что люди с  этой неполноценностью смирились, а  вторая характерна тем, что под влиянием технического прогресса стали возрождаться надежды на долгожданную реализацию естественного интерфейса, частью которого и является разговор.
Надо сказать, что потребность  в речевом общении с компьютером  столь естественна, что ее не могли  заглушить никакие паллиативы, порождаемые  развитием аппаратного и программного обеспечения. В наибольшей мере ее стимулирует  отнюдь не желание разработчиков  создать пользовательские суперудобства, а существование специфических областей компьютеризации, где голосовые команды являются наиболее приемлемым или даже единственно возможным решением. К ним относятся телефонный доступ к автоматическим справочным системам, управление удаленным компьютером или мобильным портативным устройством, осуществляемое во время движения.
Первые попытки разработать  программу, способную понимать человеческую речь, были предприняты едва ли не на заре компьютерной эры, в начале пятидесятых. В дальнейшем многие научные центры, в том числе и в нашей стране, брались за решение этой проблемы (фундаментальные исследования теории языка, которые велись в 70-х годах в СССР, легли в основу многих современных продуктов), но первый серьезный прорыв в области речевых технологий удалось сделать только в 1986 году в знаменитом американском Defense Advanced Research Project Agency (DARPA) — Агентстве перспективных исследований Министерства обороны.
Успех связан с тем, что  ученые решили уменьшить число фонетических структур, предлагаемых распознающему  устройству. Для реализации этой задачи они применили так называемую "скрытую марковскую модель" (Hidden Markov Model, HMM), основанную на свойстве марковской цепи генерировать последовательность определенных детерминированных символов при переходах между некоторыми состояниями вероятностного характера (в марковском процессе параметры системы зависят только от предыдущего состояния и "не помнят" более глубокой предыстории). Имея последовательность символов, сгенерированную марковской моделью, можно однозначно восстановить породившую ее последовательность состояний,но лишь только при том условии, что каждый символ соответствует одному состоянию.
В процессе цифровой обработки  речевой сигнал подвергается сначала  логарифмическому, а затем обратному  преобразованию Фурье, в результате чего отыскивается с десяток первых коэффициентов, несущих наиболее существенную информацию об огибающей спектральной характеристики сигнала. Собственно, современные развитые коммерческие программы распознавания речи и отличаются именно способом реализации механизма выбора из своей (или созданной пользователем) базы данных наиболее вероятного набора фонем (минимально значимых элементов, из которых состоит слово).
 


    История
 
Первое устройство для  распознавания речи появилось в 1952 году, оно могло распознавать произнесённые человеком цифры. В 1964 году на ярмарке компьютерных технологий в Нью-Йорке было представлено устройство IBM Shoebox.
Коммерческие программы  по распознаванию речи появились  в начале девяностых годов. Обычно их используют люди, которые из-за травмы руки не в состоянии набирать большое  количество текста. Эти программы (например, Dragon NaturallySpeaking, VoiceNavigator) переводят голос пользователя в текст, таким образом, разгружая его руки. Надёжность перевода у таких программ не очень высока, но с годами она постепенно улучшается.
Увеличение вычислительных мощностей мобильных устройств  позволило и для них создать  программы с функцией распознавания  речи. Среди таких программ стоит  отметить приложение Microsoft Voice Command, которое позволяет работать со многими приложениями при помощи голоса. Например, можно включить воспроизведение музыки в плеере или создать новый документ.
Интеллектуальные речевые  решения, позволяющие автоматически  синтезировать и распознавать человеческую речь, являются следующей ступенью развития интерактивных голосовых  систем (IVR). Использование интерактивного телефонного приложения в настоящее время не веяние моды, а жизненная необходимость. Снижение нагрузки на операторов контакт-центров и секретарей, сокращение расходов на оплату труда и повышение производительности систем обслуживания — вот только некоторые преимущества, доказывающие целесообразность подобных решений.
Прогресс, однако, не стоит  на месте и в последнее время  в телефонных интерактивных приложениях  все чаще стали использоваться системы  автоматического распознавания  и синтеза речи. В этом случае общение с голосовым порталом становится более естественным, так  как выбор в нем может быть осуществлен не только с помощью  тонового набора, но и с помощью  голосовых команд. При этом системы  распознавания являются независимыми от дикторов, то есть распознают голос  любого человека.
Основным преимуществом  голосовых систем является дружественность  к пользователю — он избавляется от необходимости пробираться сквозь сложные и запутанные лабиринты голосовых меню. Теперь достаточно произнесения цели звонка, после чего голосовая система автоматически переместит звонящего в нужный пункт меню.
Следующим шагом технологий распознавания речи можно считать  развитие так называемых Silent Speech Interfaces (SSI) (Интерфейсов Безмолвного Доступа). Эти системы обработки речи базируются на получении и обработке речевых сигналов на ранней стадии артикулирования. Данный этап развития распознавания речи вызван двумя существенными недостатками современных систем распознавания: чрезмерная чувствительность к шумам, а также необходимость четкой и ясной речи при обращении к системе распознавания. Подход, основанный на SSI, заключается в том, чтобы использовать новые сенсоры, не подверженные влиянию шумов в качестве дополнения к обработанным акустическим сигналам.
На сегодняшний день существует два типа систем распознавания речи — работающие «на клиенте» (client-based) и по принципу «клиент-сервер» (client-server). При использовании клиент-серверной технологии речевая команда вводится на устройстве пользователя и через Интернет передается на удаленный сервер, где обрабатывается и возвращается на устройство в виде команды (Google Voice, Vlingo, пр.); ввиду большого количества пользователей сервера система распознавания получает большую базу для обучения. Первый вариант работает на иных математических алгоритмах и встречается редко (Speereo Software) — в этом случае команда вводится на устройстве пользователя и обрабатывается в нем же. Плюс обработки «на клиенте» в мобильности, независимости от наличия связи и работы удаленного оборудования. Так, система, работающая «на клиенте» кажется надежнее, но ограничивается, порой, мощностью устройства на стороне пользователя.
 


    Распознавание речи на сегодняшний день
 
      Как хорошо было раньше! Позвонив  в справочную, можно было побеседовать с девушкой-оператором и даже назначить ей свидание. Теперь же на том конце провода слышится приятный, но неживой женский голос, предлагающий набрать 1 для получения такой-то информации, 2 — для связи с тем-то, 3 — для выхода в меню и т.д. Все чаще доступ к информации контролируется системой, а не человеком. В этом есть своя логика: однообразная, неинтересная работа выполняется не человеком, а машиной. И для пользователя процедура получения информации упрощается: назвал определенный набор цифр — получил нужную информацию.
      Существующие  технологии распознавания речи  не имеют пока достаточных  возможностей для их широкого  использования, но на данном  этапе исследований проводится  интенсивный поиск возможностей  употребления коротких многозначных  слов (процедур) для облегчения понимания.  Распознавание речи в настоящее  время нашло реальное применение  в жизни, пожалуй, только в  тех случаях, когда используемый  словарь сокращен до 10 знаков, например  при обработке номеров кредитных  карт и прочих кодов доступа  в базирующихся на компьютерах  системах, обрабатывающих передаваемые  по телефону данные. Так что  насущная задача - распознавание по крайней мере 20 тысяч слов естественного языка - остается пока недостижимой. Эти возможности пока недоступны для широкого коммерческого использования. Однако ряд компаний своими силами пытается использовать уже существующие в данной области науки знания.
      Существующие  сегодня системы распознавания  речи основываются на сборе  всей доступной (порой даже  избыточной) информации, необходимой  для распознавания слов. Исследователи  считают, что таким образом  задача распознавания образца  речи, основанная на качестве  сигнала, подверженного изменениям, будет достаточной для распознавания,  но тем не менее в настоящее время даже при распознавании небольших сообщений нормальной речи, пока невозможно после получения разнообразных реальных сигналов осуществить прямую трансформацию в лингвистические символы, что является желаемым результатом.
   Сегодня  в этом направлении работают уже не десятки, а сотни исследовательских коллективов в научных и учебных заведениях, а также в крупных корпорациях. Об этом можно судить по таким международным форумам ученых и специалистов в области речевых технологий, как ICASSP, EuroSpeech, ICPHS и др. Результаты работы, на которую, как у нас образно говорят, «навалились всем миром», трудно переоценить.
       Уже в течение нескольких лет  голосовые навигаторы, или системы распознавания команд, успешно применяются  в различных  областях  деятельности.  Например,  call-центр     OmniTouch    поставленный  Ватикану компанией Alcatel, использовался для обслуживания мероприятий, проходивших в рамках празднования 2000-летия Христа. Паломник, звонивший в call-центр, излагал свой вопрос, и система автоматического распознавания речи «выслушивала» его. Если система определяла, что вопрос задан по часто встречающейся теме, например о расписании мероприятий или адресах гостиниц, то включалась предварительно сделанная запись. При необходимости уточнить вопрос предлагалось речевое меню, в котором голосом надо было указать один из пунктов. Если же система распознавания определяла, что предварительно записанного ответа на заданный вопрос нет, то происходило соединение паломника с оператором-человеком.
   В Швеции  не так давно была открыта автоматическая телефонная справочная служба, использующая программу распознавания речи компании Philips. За первый месяц работы службы Autosvar, которая начала действовать без официального объявления, ее услугами воспользовались 200 тыс. клиентов. Человек должен набрать определенный номер и после ответа автоматического секретаря назвать интересующий его раздел информационного справочника.
   Новая  услуга предназначена в основном для частных клиентов, которые предпочтут ее из-за значительно меньшей стоимости услуг. Служба Autosvar является первой системой такого рода в Европе (в США испытания аналогичной службы в компании AT&T были начаты в декабре  2002  года).
  Вот несколько  примеров использования этой технологии в США.
    Риэлтеры часто обращаются к услугам компании Newport Wireless. Когда риэлтер проезжает на машине по улице и видит возле какого-нибудь дома табличку «Продается», он звонит в Newport Wireless и запрашивает сведения о доме с таким-то номером,  находящемся на такой-то улице. Автоответчик приятным женским голосом рассказывает ему о метраже дома, дате постройки и владельцах. Вся эта информация находится в базе данных Newport Wireless. Риэлтерам остается только выдать сообщение клиенту. Абонентская плата — около 30 долл. в месяц.
    Джули, виртуальный агент компании Amtrak, обслуживает железнодорожных пассажиров с октября 2001 года. Она по телефону сообщает о расписании  поездов, об их прибытии и отправлении, а также производит бронирование билетов. Джули — это продукт компании SpeechWorks Software и Intervoice Hardware. Она уже увеличила показатель удовлетворенности пассажиров на 45%; 13 из 50 клиентов получают всю нужную информацию из «уст» Джули. Раньше компания Amtrak использовала тоновую систему справки, однако показатель удовлетворенности тогда был меньше: всего 9 клиентов из 50.
   В Amtrak признаются, что свою цену (4 млн. долл.) Джули окупила за 12-18 месяцев. Она позволила не нанимать на работу целую команду служащих. A British Airways экономит 1,5 млн. долл. в год, используя технологию от Nuance Communications, которая тоже автоматизирует справочную службу.
  Недавно Sony Computer Entertainment America представила Socom — первую видеоигру, в которой игроки могут отдавать устные приказы бойцам из «Deploy grenades». В игре стоимостью 60 долл. применена технология ScanSoft. В прошлом году было продано 450 тыс. таких игр, что сделало Socom безусловным лидером продаж компании.
 Даже в  медицине технология распознавания голоса нашла свое место. Уже разработаны аппараты осмотра желудка, послушные голосу врача. Правда, эти аппараты, по словам специалистов, пока еще несовершенны: у них замедленная реакция на приказы врача. Но все еще впереди. В Мемфисе VA Medical Center вложил 277 тыс. долл. в программу Dragon, позволяющую врачам и медсестрам надиктовывать информацию в базу данных компьютера. Вероятно, скоро не нужно будет мучиться, чтобы разобрать в медицинской карте почерк врача.
Уже сотни крупных  компаний используют технологию распознавания голоса в своей продукции или в услугах; в их числе — AOL, FedEx, Honda, Sony, Sprint, T. Rowe Price, United Airlines и Verizo. По оценкам экспертов, рынок голосовой технологии достиг в 2002 году порядка 695 млн. долл., что на 10% выше, чем в 2001 году.
Авиакомпания  United Airways внедрила автоматическую справочную службу еще в 1999 году. Автоматические системы обработки телефонных звонков эксплуатируются такими компаниями, как инвестиционный банк Charles Schwab & Со, розничная сеть Sears, сеть супермаркетов Roebuck. Американские операторы беспроводной связи (AT&T Wireless и Sprint PCS) уже больше года используют подобные программы и предоставляют услуги голосового набора. И хотя сейчас лидером по количеству call-центров такого типа является Америка, в последнее время выгоду от систем распознавания речи начали осознавать и в Европе. Например, швейцарская служба железных дорог уже предоставляет своим немецкоязычным пассажирам услуги, аналогичные тем, что предлагает United Airways.
 
    Алгоритмы распознавания речи
 
Процесс распознавания  речи может быть разделен на две  основные фазы: оцифровка и декодирование. На первой фазе входной аудиосигнал записывается и разбивается на фрагменты. На фазе декодирования полученная информация анализируется на основе использования различных моделей и алгоритмов
Алгоритмы декодирования  могут опираться на образцы как целых слов, так и отдельных частей слов. Самой малой частью слова является фонема, и любому языку обычно достаточно 40-60 фонем, чтобы описать произношение всех слов.
Наиболее точными  с точки зрения распознавания  являются модели, основанные на распознавании слов целиком. Однако они могут использоваться лишь в системах со словарями небольшого объема
Модели, основанные на фонемной структуре, являются гораздо  более универсальными и в значительной мере решают проблему объема словаря.
 В основу предлагаемого подхода, и это является его главной отличительной чертой, положено сложное (иерархическое и многоярусное) представление пространства акустико-фонетических признаков и фонетических единиц, задействованных в процессе распознавания. Ниже в самом общем виде описываются основные этапы процедуры формирования такого представления и способ его использования непосредственно в процессе распознавания.
Первоначально для речевого сигнала, который будет использоваться в процессе обучения распознающей системы, составляется детальная сегментная транскрипция. Сегменты – аллофоны фонем – описываются посредством  двух основных классов стандартных  фонетических признаков – автономных и иерархических. Автономные признаки (такие как назализация, напряженность, лабиализация и др.) определяют «многоярусный» характер представления акустико-фонетического  пространства; они обладают относительной  независимостью, поскольку их наличие  или отсутствие никак не предопределяется и не ограничивается реализацией  других признаков, и могут использоваться для описания фонетических единиц любого уровня иерархии. Иерархический признак, напротив, характеризуется обязательной соотнесенностью с другими классификационными признаками. Так, например, только согласный  звук может быть взрывным, и только взрывной, в свою очередь, может быть реализован с носовым взрывом. В  целом для подробного фонетического  описания используется приблизительно 40 фонетических признаков, автономных и иерархических. Все аллофоны, затранскрибированные с помощью описанного выше набора признаков, далее используются в  процессе обучения системы распознавания  речи. Процесс сегментации и транскрибирования  речевого сигнала может выполняться  как вручную (экспертом-фонетистом), так и в (полу-)автоматическом режиме (особенно в случае использования больших объемов речевого материала), с последующей экспертной коррекцией.
Составляется словарь  системы распознавания речи, при  этом каждое слово получает транскрипционное представление. За основу принимается  стандартное (полностильное) произнесение, определяемое как исходная транскрипция слова (ИТС). В дальнейшем, в процессе распознавания, каждое слово будет соотноситься с имеющимися в словаре ИТС. 
Далее, в рамках разработки расширенного пространства слова, осуществляется генерация всех теоретически возможных  вариантов реализации данного слова - т.н. «аллофонных сетей». При генерации  аллофонных сетей используются фонетические правила модификации, которые позволяют  для любой русской фонемы в  любом контексте спрогнозировать все возможные модификационные сценарии. Данные модификационные правила формулировались на основе сведений, содержащихся в литературе [например, 4], исследовательского опыта и лингвистических знаний экспертов, с поправкой на реальные произносительные статистики, полученные в процессе обработки имеющегося речевого материала. Модификационные правила дополняются факторами влияния, наличие или отсутствие которых в конкретной речевой реализации определяет относительные вероятности типов и степеней модификационных изменений фонетической единицы, предписанной в ИТС. Подробнее о формулировании и применении модификационных правил см. в следующем разделе.
Как уже говорилось выше, аллофонные сети, являясь необходимым  элементом фонетического описания, сами по себе не способны эффективно моделировать произносительную вариативность в  рамках задачи автоматического распознавания  речи. Проблема решается посредством  последующей иерархизации пространства произносительной вариативности слова за счет введения определенного количества обобщающих уровней описания. Обобщение осуществляется лингвистами (экспертами-фонетистами) на основе наблюдений за звучащей речью. При использовании достаточно больших баз речевых данных возможно применение автоматической процедуры для обобщения аллофонных транскрипций. Обобщения могут затрагивать как один, так и несколько уровней иерархии. Не только каждая элементарная единица (фонема или один из ее аллофонов), но и практически любая обобщенная мета-единица (исключая самый верхний уровень иерархии) может в потенциале входить в любое число других мета-единиц более высоких уровней, так что мета-единицы имеют различный размер, в зависимости от количества элементарных исходных единиц, входящих в их состав, и/или их обобщающей силы. При объединении фонетических единиц в мета-классы основным фактором является адекватность в отражении произносительной реальности, которая не всегда соответствует традиционным фонологическими принципам классификации фонетических  единиц и признаков. Так, например, среди выделенных нами мета-единиц есть не только традиционные широкие фонетические классы, такие как “гласный”, “согласный”, “закрытый”, “мягкий” и т.д., но и некоторые нетрадиционные объединения, например, “передний” (включает гласные переднего ряда, мягкие и переднеязычные согласные),  “губной” (лабиализованные гласные и губные согласные), “полугласный/полусогласный” и др. Кроме того, допустимыми являются мета-единицы, включающие аллофоны различных фонем и не сводимые к простой комбинации соответствующих фонем (это означало бы, что все их аллофоны входят в данную мета-единицу, а это не всегда имеет место). Аллофоны группируются также на основе контекстов их реализации, что позволяет учитывать различные типы систематической аллофонической вариативности, наблюдаемой в связной речи. В результате объединения детализованных (аллофонных), промежуточных (фонемных и аллофонных) и обобщенных (мета-фонемных) транскрипционных представлений для каждого слова генерируется иерархическая многоярусная сеть (ИМС), которая обеспечивает полноценный учет и эффективную организацию всех допустимых произносительных вариантов слова в различной степени подробности.
Иерархическая многоярусная сеть (ИМС), в которую организованы все единицы и мета-единицы, представляет собой односвязное многоярусное дерево. На заданном уровне дерева каждая пара единиц или мета-единиц может быть либо независимой (автономной), либо иерархически связанной с высшим уровнем (иерархической). Такое структурированное представление позволяет установить меру близости для любой заданной пары звуков. На каждом узле ИМС имеется иерархическая весовая функция (ИВФ), описывающая относительную значимость добавления /отрицания данного фонетического признака для распознавания конкретной фонемы в данном слове. Весовые функции первоначально отражают статистическую информацию о влиянии чисто фонетического уровня реализации звуков (выводимую на основе фонетических модификационных правил) и имеют поправки за счет общелингвистических факторов влияния – уровня (фонетического) слова (позиция, контекст и др.), уровня лексикона (частотность слова, омонимия и т.п.), уровня  произнесения (темп,  стиль). Такая структура признакового описания единиц и мета-единиц позволяет достаточно просто и стандартизовано определять меру сходства  между собой различных вариантов аллофонной реализации слова с учетом многих лингвистических и экстралингвистических факторов.
В процессе обучения системы  для каждой единицы и мета-единицы, включенной в ИМС, создается шаблон. Для простых единиц такие шаблоны получаются стандартным способом (например, с помощью СММ). Шаблоны для мета-единиц имеют иерархическую структуру и составляются из шаблонов простых единиц, входящих в состав данной мета-единицы. Также существует возможность создания дополнительных шаблонов непосредственно для мета-единиц.
В процессе распознавания  происходит сравнение входных данных и имеющихся ИТС. При этом с учетом  значений иерархической весовой функции устанавливается мера сходства между найденной текущей  реализацией распознаваемого слова и ИМС, построенной по исходной транскрипции сравниваемого слова (ИТС). Чем выше значение меры близости сравниваемых транскрипций с учетом ИВФ, тем более вероятным является распознанный вариант слова.
 


    Способы распознавания речи
 
Выделяют несколько основных способов распознавания речи:

    Распознавание отдельных команд.


Суть технологии: раздельное произнесение и последующее распознавание слова или словосочетания из небольшого заранее заданного словаря.
Техническая реализация: точность распознавания ограничена объемом заданного словаря. При соблюдении этого условия данная технология позволяет достичь самой высокой достоверности распознавания.
Применение: в настоящее время наиболее ярким примером использования технологии распознавания отдельных команд в коммерческих приложениях является голосовая навигация по сайтам.

    Распознавание по грамматике


Суть технологии: распознавание фраз, соответствующих определенным заданным правилам (грамматике).
Техническая реализация: для задания грамматик используются стандартные XML-языки (VoiceXML), обмен данными между системой распознавания и приложением, как правило, осуществляется по протоколу MRCP.
Применение: технология распознавания по грамматике широко применяется в системах голосового самообслуживания (СГС).

    Поиск ключевых слов в потоке слитной речи.


Суть технологии: распознавание отдельных участков речи.
Техническая реализация: в этом случае речь может быть как спонтанной, так и соответствующей определённым правилам. Произнесенная речь не полностью преобразуется в текст - в ней автоматически находятся лишь те участки, которые содержат заданные слова или словосочетания.
Применение: данная технология распознавания часто применяется в поисковых системах, в системах мониторинга речи.

    Распознавание слитной речи на большом словаре (LVCSR — large vocabulary continuous speech recognition).


Суть технологии: эта технология наиболее близка к мечте человека о взаимодействии человека и машины – все, что сказано, дословно преобразуется в текст. Поэтому иногда эта технология так и называется STT – speech to text.
Техническая реализация: задача полноценного распознавания слитной речи не решена нигде в мире, однако, достоверность распознавания уже достаточно высока для использования технологии на практике.
Применение: потенциальная сфера применения технологии в коммерческих целях довольно широка.

В зависимости от способов распознавания  применяются различные технологии.

Наиболее сложной  является технология распознавания  слитной речи на большом словаре.


Этапы распознавания.

1. Обработка речи начинается  с оценки качества речевого сигнала. На этом этапе определяется уровень помех и искажений.
2. Результат оценки поступает  в модуль акустической адаптации, который управляет модулем расчета параметров речи, необходимых для распознавания.
3. В сигнале выделяются участки,  содержащие речь, и происходит оценка параметров речи.
4. Далее параметры речи поступают  в основной блок системы распознавания  – декодер. Это компонент, который  сопоставляет входной речевой  поток с информацией, хранящейся  в акустических и языковых  моделях, и определяет наиболее  вероятную последовательность слов, которая и является конечным результатом распознавания.
А) Акустические модели. При сравнительно небольшом рабочем словаре высокой достоверности распознавания можно достигнуть, лишь сопоставляя входной поток речи с шаблонами отдельных звуков – акустическими моделями. Современная тенденция технологии описания звуковых образов подразумевает комбинирование различных подходов. Так, в «Центре речевых технологий» для описания акустических моделей используют комбинацию классической теории цифровой обработки сигналов и технологии искусственных нейронных сетей. Такие модели наиболее устойчивы к междикторской вариативности, а также к помехам и искажениям, вносимым окружением или каналом передачи.
Б) Языковые модели. С ростом словаря увеличивается количество слов, схожих или даже одинаковых по звучанию. При слитном произнесении акустическая схожесть отдельных фрагментов речи проявляется настолько, что часто и человек, прослушивая запись вне контекста, не может в точности распознать то, что было произнесено. Поэтому значительную роль в распознавании речи играют так называемые языковые модели. Они позволяют определить наиболее вероятные словные последовательности. Сложность построения языковой модели во многом зависит от конкретного языка. Так, для английского языка, достаточно использовать статистические модели (так называемые N-граммы). Для высокофлективных языков (языков, в которых существует много форм одного и того же слова), к которым относится и русский, языковые модели, построенные только с использованием статистики, уже не дают такого эффекта – слишком много нужно данных, чтобы достоверно оценить статистические связи между словами. Задача осложняется тем, что в русском языке допустим произвольный порядок слов («мама мыла раму» - «раму мыла мама»). Поэтому в «Центре речевых технологий» используются гибридные языковые модели, использующие правила русского языка, информацию о части речи и форме слова и классическую статистическую модель.
В) При распознавании на большом  словаре также используется модуль определения темы разговора. Это позволяет в зависимости от тематики речи автоматически менять словарь и языковые модели. Модуль определения темы разговора разработан с использованием теории data mining. По сути этот компонент – зачатки системы искусственного интеллекта, которая в будущем все чаще будет использоваться совместно с модулем распознавания, делая процесс преобразования речи в текст более осмысленным.

Обеспечение высокого качества распознавания

Качество распознавания зависит  от двух факторов – структуры каркаса системы распознавания речи (набора программных модулей и алгоритмов, использующихся при распознавании) и качества моделей – акустических, языковых, тематических.
Все модели обучаются с использованием большого объема материала. Так, для  акустических моделей используются сотни часов записей речи тысяч  дикторов. Для повышения устойчивости распознавания к помехам и  искажениям, при обучении используются записи в различных каналах и  различных условиях. Для обучения языковых моделей и моделей тематик  используются текстовые корпуса  объемом от сотен миллионов словоформ  до нескольких миллиардов. Подготовка такого объема обучающего материала  – это сложная и кропотливая  работа. «Центр речевых технологий»  в течение нескольких десятилетий  накапливал обучающий материал и  на данный момент обладает уникальный по своим объемам, разнообразию и качеству набором записей и текстов, способных обеспечить высочайшее качество распознавания речи.
 
    Перспективы
 
Возможности голосового управления открывают перед пользователями огромные перспективы. Если учесть, что сегодня во многих офисах компьютер управляет принтером, модемом, факсом, а с появлением DVD стало возможно подключать к домашнему компьютеру аудиоцентры и домашние кинотеатры, то можно себе представить следующую картину из нашего недалекого будущего. Вы сидите на мягком диване и говорите; «Телевизор», потом — «МузТВ» — включается цепочка «микрофон — звуковая карта — компьютер — телевизор», и вы видите на экране телевизора свой   любимый клип. Или вы произносите; «Отправить факс», «номер...», диктуете текст сообщения, потом — «Готово», и через несколько секунд услышите в ответ: «Факс отправлен». И все это вполне реально и осуществимо. Теперь добавьте к этому возможность голосовой навигации по Интернету, распознавание голоса, записанного на любой аудионоситель или в звуковой файл. В общем, пора уже наконец задуматься о приобретении системы распознавания звучащей речи, ведь не за горами тот день, когда вам надо будет только произнести слово! 
      Как пожаловался  недавно один бывший британский  чиновник, самым горьким напоминанием  о расставании с должностью  служит тот факт, что машина  не трогается с места, когда  он беззаботно плюхается на  заднее сидение. 
      По мнению  самых 
и т.д.................


Перейти к полному тексту работы


Скачать работу с онлайн повышением оригинальности до 90% по antiplagiat.ru, etxt.ru


Смотреть полный текст работы бесплатно


Смотреть похожие работы


* Примечание. Уникальность работы указана на дату публикации, текущее значение может отличаться от указанного.