На бирже курсовых и дипломных проектов можно найти образцы готовых работ или получить помощь в написании уникальных курсовых работ, дипломов, лабораторных работ, контрольных работ, диссертаций, рефератов. Так же вы мажете самостоятельно повысить уникальность своей работы для прохождения проверки на плагиат всего за несколько минут.

ЛИЧНЫЙ КАБИНЕТ 

 

Здравствуйте гость!

 

Логин:

Пароль:

 

Запомнить

 

 

Забыли пароль? Регистрация

Повышение уникальности

Предлагаем нашим посетителям воспользоваться бесплатным программным обеспечением «StudentHelp», которое позволит вам всего за несколько минут, выполнить повышение уникальности любого файла в формате MS Word. После такого повышения уникальности, ваша работа легко пройдете проверку в системах антиплагиат вуз, antiplagiat.ru, etxt.ru или advego.ru. Программа «StudentHelp» работает по уникальной технологии и при повышении уникальности не вставляет в текст скрытых символов, и даже если препод скопирует текст в блокнот – не увидит ни каких отличий от текста в Word файле.

Результат поиска


Наименование:


курсовая работа Инструменты технологии хранилищ данных

Информация:

Тип работы: курсовая работа. Добавлен: 04.09.2012. Сдан: 2011. Страниц: 9. Уникальность по antiplagiat.ru: < 30%

Описание (план):


СОДЕРЖАНИЕ 
 
 
 
 
 
 
 
 
 
 
 
 
 


     ВВЕДЕНИЕ

 
     Хранилище данных является неотъемлемым элементом  большинства корпоративных систем business intelligence. Как правило, даже небольшие компании используют несколько информационных систем для автоматизации различных сфер деятельности. Кроме того, большинство компаний использует отдельные системы в филиалах и региональных офисах. Данные, получаемые от различных структурных элементов компании не унифицированы, часто противоречивы, и показатели, используемые для анализа и управления не могут быть из них получены напрямую. Использование хранилища данных, как специализированного источника для аналитической обработки информации необходимо, т.к. именно на стадии сбора и интеграции данных происходит объединение данных, их унификация и другие преобразования. В хранилище данных, в которое в зависимости от решаемых задач, пройдя предварительную обработку, стекаются данные из самых разнообразных источников, включая корпоративные информационные системы, локальные файлы (таблицы Excel, Access), данные, предоставляемые или каким-то образом получаемые от контрагентов, данные по рынку и др. Практически вся полезная информация в подготовленном виде находится в хранилище данных, а методы обработки и типы систем бизнес-анализа зависят от конкретных задач.
     Помимо задачи интеграции и унификации данных хранилище решает вопросы:
       Повышения производительности обработки  запросов и позволяет на порядки  сократить время подготовки отчетов и ускорить процесс получения информации
       Хранения снимков данных, что  позволяет в любой момент времени  оценить ситуацию в прошлом и  сравнить изменения 
       Обнаружения изменения в практически  статических данных (проблема медленно меняющихся размерности), что обеспечит  правильное распределение показателей  по категориям
     Для развития и процветания бизнеса недостаточно просто владеть информацией, все зависит от качества владения - умения четко и быстро определять категорию показателей, на основании которых требуется принимать решение, проводить анализ определенных значений данных показателей с различной степенью детализации с учетом всех параметров, оказывающих на них влияние. Хранилище данных является хорошим инструментом в решении данной задачи. Тот, у кого есть средства, позволяющие четко представить картину бизнес-данных, их взаимосвязь, историю возникновения, временную глубину, оказывается в выигрыше. Он может отследить тенденции развития, спрогнозировать возможные изменения, и, соответственно, получить конкурентные преимущества. Качественная визуализация данных, ориентированных на различные группы работников и отделы - одна из основных задач, решаемых с помощью хранилища данных.
 

      1. ХАРАКТЕРИСТИКА ХРАНИЛИЩА ДАННЫХ

 
     Предметно-ориентированный, интегрированный, привязанный ко времени и неизменяемый набор данных, предназначенный для поддержки принятия решений.
     В приведенном выше определении, указанные характеристики данных рассматриваются следующим образом:1
     • Предметная ориентированность. Хранилище  данных организовано вокруг основных предметов (или субъектов) организации (например, клиенты, товары и сбыт), а не вокруг прикладных областей деятельности (выставление счета клиенту, контроль запасов и продажа товаров). Это свойство отражает необходимость хранения данных, предназначенных для поддержки принятия решений, а не обычных оперативно-прикладных данных.
     • Интегрированность. Смысл этой характеристики состоит в том, что оперативно-прикладные данные обычно поступают из разных источников, которые часто имеют  несогласованное представление  одних и тех же данных, например используют разный формат. Для предоставления пользователю единого обобщенного представления данных необходимо создать интегрированный источник, обеспечивающий согласованность хранимой информации.
     • Привязка ко времени. Данные в хранилище  точны и действительны только в том случае, если они привязаны к некоторому моменту или промежутку времени. Необходимость привязки хранилища данных ко времени следует из большой длительности того периода, за который была накоплена сохраняемая в нем информация, из явной или неявной связи временных отметок со всеми сохраняемыми данными, а также из того факта, что хранимая информация фактически представляет собой набор снимков состояния данных.
     • Неизменяемость. Это означает, что  данные не обновляются в оперативном  режиме, а лишь регулярно пополняются  за счет информации из оперативных систем обработки. При этом новые данные никогда не заменяют, а
     лишь  дополняют прежние. Таким образом, база данных хранилища постоянно  пополняется новыми данными, последовательно  интегрируемыми с уже накопленной  информацией. Существует достаточно много определений хранилищ данных, причем наиболее ранние определения в основном отражают характеристики информации, содержащейся в хранилище. Более поздние версии расширяют диапазон определения хранилища данных, включая в него описание типа обработки данных, связанной с доступом к данным из исходных источников и далее вплоть до доставки данных лицам, ответственным за принятие решений. Но каким бы ни было применяемое определение, конечной целью создания хранилища данных является интеграция корпоративных данных в едином репозитарии, обращаясь к которому пользователи могут выполнять запросы, подготавливать отчеты и проводить анализ данных. Подводя итог, можно сказать, что технология хранилищ данных — это технология управления данными и их анализа. В последние годы тематика хранилищ данных обогатилась новым термином — сетевое хранилище данных.

     1.1. Сетевое хранилище данных

 
     Распределенное  хранилище данных ванное в среде Web и не имеющее центрального репозитария  данных.  Web — необъятный источник информации о действиях пользователей, поскольку все эти действия регистрируются в процессе того, как пользователи работают с удаленными Web-узлами, обращаясь к ним со своих Web-браузеров. Данные регистрации действий пользователей называются данными о маршрутах перемещения. Применение хранилищ данных в Web для накопления и обработки информации о маршрутах перемещения привело к созданию сетевых хранилищ данных.

     1.2. Сравнение систем OLTP и хранилищ данных

 
     СУБД, созданная для поддержки оперативной  обработки транзакций (OLTP), обычно рассматривается как непригодная для организации хранилищ данных, поскольку к этим двум типам систем предъявляются совершенно разные требования. Например, системы OLTP проектируются с целью обеспечения максимально интенсивной обработки фиксированных транзакций, тогда как хранилища данных — прежде всего для обработки единичных произвольных запросов (ad hoc query). В таблице 1 для сравнения приведены основные характеристики типичных систем OLTP и хранилищ данных.
     Таблица 1
     Сравнение основных характеристик типичных систем OLTP и хранилищ данных
Система OLTP                                                                   Хранилище данных
Содержит  текущие данные Содержит исторические данные
Хранит  подробные сведения Хранит подробные сведения, а также частично и полностью обобщенные данные
Данные  являются динамическими Данные в  основном являются статическими
Повторяющийся способ обработки данных                   Нерегламентированный, неструктурированный и эвристический  способ обработки данных
Высокая интенсивность обработки транзакций           Средняя и низкая интенсивность обработки транзакций
Предсказуемый способ использования данных Непредсказуемый способ использования данных
Предназначена для обработки транзакций Предназначено для проведения анализа
Продолжение Табл.1
Ориентирована на прикладные области Ориентировано на предметные области
Поддержка принятия повседневных решений Поддержка принятия стратегических решений
Обслуживает большое количество работников Обслуживает относительно малое количество исполнительного звена работников руководящего звена
 
     Организация обычно имеет несколько различных  систем OLTP, предназначенных для поддержки  таких деловых процессов, как  управление запасами, выставление счетов клиентам и продажа товаров. Эти системы вырабатывают оперативные данные, которые являются очень подробными, текущими и подверженными изменениям. Системы OLTP оптимально подходят для интенсивной обработки транзакций, которые проектируются заранее, многократно повторяются и связаны преимущественно с обновлением данных.
     В соответствии с этими особенностями, данные в системах OLTP организованы согласно требованиям конкретных деловых  приложений и позволяют принимать  повседневные решения большому количеству параллельно работающих пользователей-исполнителей. В противоположность сказанному выше, в организации обычно имеется только одно хранилище данных, которое содержит исторические, подробные, до определенной степени обобщенные и практически неизменные данные (т.е. новые данные могут только добавляться).
     Хранилища данных предназначены для обработки  относительно небольшого количества транзакций, которые имеют непредсказуемый  характер и требуют ответа на произвольные, неструктурированные и эвристические  запросы. Информация в хранилище данных организована в соответствии с требованиями возможных запросов и предназначена для поддержки принятия долговременных стратегических решений относительно небольшим количеством руководящих работников. Хотя системы OLTP и хранилища данных имеют совершенно разные характеристики и создаются для различных целей, все же они тесно связаны в том смысле, что системы OLTP являются источником информации для хранилища данных.
     Основная  проблема при организации этой связи  заключается в том, что поступающие из систем OLTP данные могут быть, несогласованными, фрагментированными, подверженными изменениям, содержащими дубликаты или пропуски. Поэтому до размещения в хранилище эти оперативные данные должны быть "очищены".2
     Системы OLTP не предназначены для получения быстрого ответа на произвольные запросы. Они также не используются для хранения устаревших исторических данных, которые требуются для анализа тенденций. Системы OLTP в основном поставляют огромное количество необработанных данных, которые не так-то легко поддаются анализу. С помощью хранилищ данных можно получить ответы на запросы, более сложные, чем запросы с простейшими обобщениями.
     Хранилище данных предназначено для поиска ответов на вопросы различных  типов, начиная от относительно простых  и заканчивая весьма сложными, а их работа зависит от того, какие инструментальные средства доступа применяют конечные пользователи.

     1.3. Проблемы разработки и сопровождения хранилищ данных

 
     В таблице 2 перечислены потенциальные  проблемы, связанные с разработкой и сопровождением хранилищ данных.
     Таблица 2
     Проблемы  разработки и сопровождения хранилищ данных
Проблема
Недооценка  ресурсов, необходимых для загрузки данных
Скрытые проблемы источников данных
     Продолжение Табл.2
Отсутствие  требуемых данных в имеющихся архивах
Повышение требований конечных пользователей
Унификация  данных
Высокие требования к ресурсам
Владение  данными
Сложное сопровождение
Долговременный  характер проектов
Сложности интеграции
 
     Недооценка  ресурсов, необходимых  для загрузки данных. Многие разработчики склонны недооценивать время, необходимое для извлечения, очистки и загрузки данных в хранилище. Для выполнения этого процесса может потребоваться значительная часть общего времени разработки. Но эта доля может в конечном итоге значительно сократиться при использовании более совершенных инструментов очистки и сопровождения данных.
     Скрытые проблемы источников данных. Скрытые проблемы, связанные с источниками данных, поставляющими информацию в хранилище, могут быть обнаружены только спустя несколько лет после начала их эксплуатации. При этом разработчику придется принять решение об устранении возникших проблем в хранилище данных и/или в источниках данных.
     Отсутствие  требуемых данных в имеющихся архивах. В хранилищах данных часто возникает потребность получить некоторые сведения, которые не учитывались в оперативных системах, служащих источниками данных. В таком случае организация должна решить, стоит ей модифицировать существующие системы OLTP или же создать новую систему по сбору недостающих данных.
     Повышение требований конечных пользователей. После того как конечные пользователи получат в свое распоряжение инструменты составления запросов и отчетов, их потребности в помощи и консультациях сотрудников информационной службы организации скорее возрастут, чем сократятся. Это вызвано тем, что пользователи хранилища данных начинают в большей степени осознавать истинные возможности и значение этого инструмента. Данную проблему можно частично разрешить, используя менее мощные, но простые и удобные инструменты или уделяя большее внимание обучению пользователей. Еще одной причиной увеличения нагрузки на сотрудников информационной службы организации является то, что после запуска хранилища данных возрастает количество пользователей и запросов, причем сложность запросов также существенно увеличивается.
     Унификация  данных. Создание крупномасштабного хранилища данных может быть связано с решением серьезной задачи унификации данных, но унификация способна уменьшить ценность собранной информации.
     Высокие требования к ресурсам. Для хранилища данных может потребоваться огромный объем дискового пространства. Для многих реляционных систем поддержки принятия решений используются схемы типа "звезда", "снежинка" или "звезда-снежинка". Все эти варианты приводят к созданию очень больших таблиц с фактическими данными (называемых также таблицами фактов). При наличии множества размерностей фактических данных для хранения таблиц фактов вместе с итоговыми данными и индексами может потребоваться гораздо больше места, чем для хранения исходных необработанных данных.
     Владение  данными. Создание хранилища данных может потребовать изменения статуса конечных пользователей в отношении прав владения данными. Конфиденциальные данные, которые ранее были доступны для просмотра и использования только отдельными подразделениями организации, занятыми в определенных деловых сферах (например, продажа или маркетинг), теперь придется сделать доступными и другим сотрудникам организации.
     Сложное сопровождение. Хранилища данных обычно характеризуются сложностью сопровождения, поскольку любая реорганизация деловых процессов или источников данных может отразиться на работе хранилища данных. Для того чтобы хранилище данных всегда оставалось ценным ресурсом, необходимо, чтобы оно постоянно соответствовало текущему состоянию организации, работу которой оно поддерживает.
     Долговременный  характер проектов. Хранилище данных представляет собой единый информационный ресурс организации. Однако для его создания может потребоваться до трех лет, поэтому многие организации вначале формируют магазины данных. Магазины данных (data mart) предназначены для поддержки работы только какого-то одного отделения организации или одной ее прикладной области, поэтому создать их можно гораздо быстрее.
     Сложности интеграции. Наиболее важной частью процесса сопровождения хранилища данных является сохранение его интеграционных возможностей. Это означает, что организация должна потратить значительное время, чтобы определить, насколько хорошо могут интегрироваться различные инструментальные средства хранилища данных для получения искомого общего решения. Это довольно трудная задача, поскольку для выполнения различных операций с хранилищем данных могут использоваться самые разные инструментальные средства, которые должны совместно работать на пользу всей организации в целом.

     2. АРХИТЕКТУРА ХРАНИЛИЩА ДАННЫХ

     2.1. Оперативные данные

 
     Исходные  данные, помещаемые в хранилище, поступают  из следующих источников.
     • Оперативные данные мэйнфреймов, содержащиеся в иерархических и сетевых базах данных первого поколения. По некоторым оценкам большинство оперативных корпоративных данных хранится всистемах этого типа.
     • Данные различных подразделений, сохраняемые  в специализированных файловых системах, таких как VSAM, RMS и реляционных  базах данных наподобие Informix и Oracle.
     
Рис.1. Типичная архитектура хранилища данных

     • Закрытые данные, которые хранятся на рабочих станциях и закрытых серверах.
     • Внешние системы, например Internet, коммерчески  доступные базы данных или базы данных, принадлежащие поставщикам или клиентам организации.
     Хранилище оперативных данных (Operational Data Store — ODS) представляет собой репозитарий  для текущих и интегрированных  оперативных данных, применяемых  при анализе. Чаще всего оно структурируется  и заполняется данными по такому же принципу как и обычное хранилище данных, но фактически применяется просто как область накопления данных перед их передачей в обычное хранилище.3

     2.2. Диспетчеры хранилища данных

 
     Диспетчер загрузки (load manager), который часто  называют внешним (frontend) компонентом, выполняет все операции, связанные с извлечением и загрузкой данных в хранилище. Данные могут извлекаться непосредственно из источников данных, а в последнее время для этого чаще всего применяются хранилища оперативных данных. Операции, выполняемые диспетчером загрузки, включают простые преобразования данных, необходимые для их подготовки к вводу в хранилище.
     Диспетчер хранилища (warehouse manager) выполняет все  операции, связанные с управлением  информацией, помещенной в хранилище данных. Диспетчер хранилища выполняет следующие операции:4
     • анализ непротиворечивости данных;
     • преобразование и перемещение исходных данных из временной области
     хранения  в основные таблицы хранилища  данных;
     • создание индексов и представлений для базовых таблиц;
     • денормализация данных (в случае необходимости);
     • агрегирование данных (в случае необходимости);
     • резервное копирование и архивирование  данных.
     В некоторых случаях диспетчер  хранилища также анализирует  профили запросов для определения необходимых индексов и требований к агрегированию данных.
     Диспетчер запросов (query manager), который часто  называют внутренним (backend) компонентом, выполняет все операции, связанные с управлением пользовательскими запросами. Этот компонент обычно создается на основе предоставляемых разработчиком СУБД инструментов доступа к данным, инструментов мониторинга хранилища и программ собственной разработки, использующих весь набор функциональных возможностей СУБД. Сложность диспетчера запросов определяется функциональными средствами, которые предоставляются инструментами доступа к данным и самой СУБД.

     2.3. Суммарные данные за периоды времени

 
     В этой области хранилища размещаются  все данные, предварительно обработанные диспетчером хранилища с целью  их суммирования (агрегирования) за короткие и продолжительные периоды времени. Эта часть хранилища данных служит для временного хранения данных и постоянно подвергается изменениям в ответ на изменения профилей запросов. Назначение просуммированных данных состоит в повышении производительности запросов.
     Архивные  и резервные копии. Этот компонент хранилища данных отвечает за подготовку фактической и  просуммированной информации, предназначенной для создания архивов и резервных копий. Хотя просуммированные данные вырабатываются на основе фактических данных, на их получение затрачены ресурсы, поэтому такие данные также должны быть включены в резервную копию или переданы в архив вместе с фактическими данными по истечении срока их хранения.
     Метаданные. В этой области хранилища данных хранятся все те метаданные (данные о данных), которые используются любыми процессами хранилища. Метаданные могут применяться для разных целей, включая перечисленные ниже:
     • Извлечение и загрузка данных. Метаданные используются для отображения источников данных на общее представление информации внутри хранилища.
     • Обслуживание хранилища. Метаданные применяются  для автоматизации подготовки таблиц с итоговой информацией.
     • Часть процесса обслуживания запросов. Метаданные используются для направления запроса к наиболее подходящему источнику данных. Структура метаданных для разных процессов может различаться в зависимости от их назначения. Средства доступа конечных пользователей к данным используют метаданные для выбора способа построения запроса.  
 
 
 
 
 
 
 
 
 
 
 
 

     3. СРЕДСТВА ДОСТУПА К ДАННЫМ

 
     Основным  назначением хранилища данных является предоставление конечным пользователям  информации, необходимой им для принятия стратегических решений. Пользователи взаимодействуют с хранилищем с помощью специальных инструментов доступа к данным. Само хранилище данных должно обеспечивать эффективное выполнение произвольных запросов и предоставлять средства проведения анализа. Высокая производительность хранилища данных достигается за счет тщательного предварительного планирования операций соединения, суммирования и составления периодических отчетов, которые могут потребоваться конечным пользователям.

     3.1. Инструменты создания отчетов и запросов

 
     Инструменты создания отчетов подразделяются на инструменты создания итоговых отчетов  и редакторы отчетов. Инструменты создания итоговых отчетов используются для создания регулярных оперативных отчетов и для подготовки таких объемных пакетных заданий, как оформление заказов и выписка счетов-фактур для клиентов или выписка чеков на получение зарплаты сотрудниками. Редакторы отчетов — это недорогие инструменты для рабочего стола, предназначенные для нужд конечных пользователей. Инструменты создания запросов в реляционных СУБД служат для ввода или формирования операторов SQL, используемых для извлечения данных из хранилища. Подобные инструменты обычно скрывают от конечных пользователей сложность операторов языка SQL и структур баз данных за счет создания между пользователем и базой данных промежуточного метауровня. Метауровень — это программное обеспечение, которое предоставляет пользователю некоторое предметно-ориентированное представление содержимого базы данных и позволяет формировать операторы SQL с помощью визуальных инструментов, действующих по принципу "указать и щелкнуть". Примером подобного инструмента создания запросов является язык Query-By-Example (QBE).
     Разработка  данных — это процесс открытия новых осмысленных корреляций, закономерностей и тенденций путем переработки огромного количества информации с использованием статистических и математических методов, а также методов искусственного интеллекта. Методы разработки данных обладают достаточным потенциалом, чтобы превзойти возможности инструментов OLAP, так как главным притягательным фактором использования технологии разработки данных является способность создавать прогностические, а не ретроспективные модели.5

     3.2. Информационные потоки в хранилище данных

 
     В этом разделе рассматриваются те действия, которые осуществляются при обработке различных массивов (или потоков) информации внутри хранилища данных. В технологии хранилищ данных главное внимание уделяется управлению пятью основными информационными потоками: входным, восходящим, нисходящим, выходным и метапотоком. Место этих потоков в структуре хранилища данных схематически показано на рис.2.
     С каждым из этих потоков связаны определенные процессы, которые представлены ниже.
     • Входной поток. Извлечение, очистка  и загрузка исходных данных.
     • Восходящий поток. Повышение ценности сохраняемых в хранилище данных путем суммирования, документирования и распределения исходных данных.
     
Рис.2. Информационные потоки в хранилище  данных

     • Нисходящий поток. Архивирование и  резервное копирование информации в хранилище.
     • Выходной поток. Предоставление данных пользователям.
     • Метапоток. Управление метаданными.
     Входной поток связан с выборкой информации из источников данных с целью их последующей загрузки в хранилище  данных. В качестве альтернативы, данные могут первоначально загружаться в хранилище оперативных данных (Operational Data Store — ODS) перед передачей в хранилище данных. Поскольку исходные данные вырабатываются в основном системами OLTP, они должны быть перестроены в соответствии с требованиями хранилища данных. Перестройка данных включает следующие операции:
     • очистка данных;
     • преобразование данных в соответствии с требованиями хранилища данных, включая добавление и/или удаление полей и денормализацию данных;
     • проверка внутренней непротиворечивости данных и их непротиворечивости по отношению к данным, уже загруженным в хранилище.
     Для эффективного управления входным потоком  необходимо подобрать механизм определения  момента начала извлечения данных с  последующим выполнением требуемых преобразований и проверкой непротиворечивости данных. Для создания единого непротиворечивого представления корпоративных данных очень важно в процессе извлечения информации из источников убедиться в том, что она находится в согласованном состоянии. Сложность процесса извлечения информации зависит от степени взаимной согласованности между различными источниками данных. После извлечения из источника данные обычно загружаются во временное хранилище с целью выполнения очистки и проверки их непротиворечивости. Для обслуживания входного потока предусмотрены специальные коммерческие инструменты.
     Процессы, связанные с повышением ценности представленных в хранилище данных посредством суммирования, документирования и распределения исходных данных.
     Обслуживание восходящего потока включает выполнение приведенных ниже действий:
     • Суммирование данных. Выполняется с  помощью операций выборки, проекции, соединения и группирования реляционных  данных, для получения представлений, которые являются более удобными и полезными для конечных пользователей. Суммирование может включать выполнение не только простых реляционных операций, но и проведение сложного статистического анализа, включая определение тенденций, кластеризацию и получение выборочных данных.
и т.д.................


Перейти к полному тексту работы


Скачать работу с онлайн повышением уникальности до 90% по antiplagiat.ru, etxt.ru или advego.ru


Смотреть полный текст работы бесплатно


Смотреть похожие работы


* Примечание. Уникальность работы указана на дату публикации, текущее значение может отличаться от указанного.