На бирже курсовых и дипломных проектов можно найти образцы готовых работ или получить помощь в написании уникальных курсовых работ, дипломов, лабораторных работ, контрольных работ, диссертаций, рефератов. Так же вы мажете самостоятельно повысить уникальность своей работы для прохождения проверки на плагиат всего за несколько минут.

ЛИЧНЫЙ КАБИНЕТ 

 

Здравствуйте гость!

 

Логин:

Пароль:

 

Запомнить

 

 

Забыли пароль? Регистрация

Повышение уникальности

Предлагаем нашим посетителям воспользоваться бесплатным программным обеспечением «StudentHelp», которое позволит вам всего за несколько минут, выполнить повышение уникальности любого файла в формате MS Word. После такого повышения уникальности, ваша работа легко пройдете проверку в системах антиплагиат вуз, antiplagiat.ru, etxt.ru или advego.ru. Программа «StudentHelp» работает по уникальной технологии и при повышении уникальности не вставляет в текст скрытых символов, и даже если препод скопирует текст в блокнот – не увидит ни каких отличий от текста в Word файле.

Результат поиска


Наименование:


курсовая работа Информационный поиск в сети Интернет

Информация:

Тип работы: курсовая работа. Добавлен: 18.09.2012. Сдан: 2011. Страниц: 10. Уникальность по antiplagiat.ru: < 30%

Описание (план):


    Содержание 

    Введение…………………………………………………………………..3
    История……………………………………………………………………5
    Информационный поиск как процесс…………………………………...6
      Средства поиска информации…………………...…...…………...6
      Основные методы поиска информации в Интернете…….…..….7
      Виды поиска ………..……………...……………………….…….10
      Проблемы, возникающие в процессе поиска информации…....10
      Структура ИПС для Интернет………..………………...……….12
    4. Примеры поисковых систем и их описание……………………………13
    4.1. Yandex..…………………...…………………………………………13
    4.2. Google..………………………………………………………………14
    4.3. Yahoo!.................................................................................................15
    4.4. Рейтинг поисковых систем -  март 2011 г (в России)…….….…..19
    4.5. Рейтинг английских поисковых систем…………..………………20
    Заключение……….…………………………………………….………..21
    Литература………………………………………………………………22
 
 
 
 
 
 
 
 
 
 
 
 
    1. Введение 

    Существует  мнение, что в сети Интернет есть всё или почти всё. Однако этим богатством надо ещё уметь воспользоваться, что представляет собой задачу нетривиальную. Во-первых, объём данных, размещённых в сети, очень велик, а сама эта информация практически никак не структурирована. Во-вторых, Интернет очень изменчив: ежедневно в нём появляются новые данные – страницы или целые сайты, что-то исчезает, а часть ресурсов меняет адрес. Наконец сетевые публикации в целом отличаются меньшей достоверностью, чем публикации бумажные, так что информацию, размещённую в сети, нужно ещё каким-то образом оценить или проверить. Всё это затрудняет задачу поиска и превращает выбор поисковой стратегии в сложную проблему, не имеющую общего решения. Тем не менее, оказывается вполне возможным выработать некоторые принципы поиска.
    Бурный рост объема информации в Интернет делает поиск незаменимым методом доступа к этой информации. Можно выделить две основные формы поиска в Интернет:
    Использование поисковых систем, которые собирают сведения о (части) доступных в Интернет ресурсах и организуют поиск по этой информации, как по полнотекстовой базе данных. Примерами таких систем являются - Altavista,Google, Yandex, и т. д.
    Использование Интернет - каталогов, в которых информация об избранных ресурсах Интернет классифицирована по тематическим признакам. Такие каталоги существуют не только в электронном виде (List или Yahoo!), но также издаются и в виде печатных изданий - таких как, например, “Желтые страницы Интернет'”.
    Первое, что нужно сделать, приступая  к поиску данных в Интернет, особенно в сложном случае, - это определить цель поиска. Очень полезно ответить для себя на следующие вопросы:
      Хотите ли Вы составить общее представление о вопросе или найти какую-то специальную информацию по данной теме
    известны ли Вам адреса ресурсов сети, с которых можно начать поиск
    что вы уже знаете о проблеме, информацию о которой ищете
    можете ли Вы предположить, с каких ключевых слов имеет смысл начать поиск
    сколько времени Вы готовы потратить на поиск нужных данных
       От того, как именно поставлена  задача, во многом зависит и  стратегия поисковой деятельности, и выбор соответствующих поисковых  средств.
    Побудительной причиной осуществления информационного поиска является информационная потребностьвыраженная в форме информационного запроса 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 

    2. История 

    Термин  «информационный поиск» был впервые  введён Кельвином Муром в 1948 в его докторской диссертации, опубликован и употребляется в литературе с 1950.
    Информационный поиск (англ. Information retrieval) — процесс нахождения, отбора и выдачи определенной заранее заданными признаками информации (в т.ч. - документов, их частей и/или данных) из массивов и записей любого вида и на любых носителях.
    Сначала системы автоматизированного ИП, или информационно-поисковые системы (ИПС), использовались лишь для управления информационным взрывом в научной литературе. Многие университеты и публичные библиотеки стали использовать ИПС для обеспечения доступа к книгам, журналам и другим документам. Широкое распространение ИПС получили с появлением сети Интернет. У русскоязычных пользователей наибольшей популярностью пользуются поисковые системы Google, Яндекс и Рамблер.
    В зависимости от степени привлечения к информационному поиску технических средств и участия в нем человека различают: "ручной", "машинный" и "автоматизированный" информационный поиск. Последний может производиться в режиме диалога или пакетной обработки запросов. 
 
 
 
 
 
 
 
 

    3. Информационный поиск как процесс 

    Поиск информации представляет собой процесс  выявления в некотором множестве документов (текстов) всех тех, которые посвящены указанной теме (предмету), удовлетворяют заранее определенному условию поиска (запросу) или содержат необходимые (соответствующие информационной потребности) факты, сведения, данные.
    Процесс поиска включает последовательность операций, направленных на сбор, обработку и  предоставление необходимой информации заинтересованным лицам.
    В общем случае поиск информации состоит из четырех этапов:
    определение (уточнение) информационной потребности и формулировка информационного запроса;
    определение совокупности возможных держателей информационных массивов (источников);
    извлечение информации из выявленных информационных массивов;
    ознакомление с полученной информацией и оценка результатов поиска.
 
3.1. Средства поиска информации 

    По  принципу организации и использования  средства поиска можно разделить  на каталоги (справочники, директории) и поисковые машины.
    Каталог
    Каталоги являются справочниками, содержащими списки адресов Интернет, сгруппированные по определенным признакам. Как правило, они объединяются по тематике (наука, искусство, новости и т.д.), где каждая тема разветвляется на несколько подуровней.
    Особенность этих средств поиска информации состоит в том, что создание структуры, базы данных и их постоянное обновление осуществляется "вручную", коллективом редакторов и программистов, и сам процесс поиска требует непосредственного участия пользователя, самостоятельно переходящего от ссылки к ссылке.
    Поисковые машины
    Действие поисковых машин заключается в постоянном последовательном исследовании всех узлов Интернет, доступных данной системе поиска, со всеми их связями и ответвлениями. В связи с постоянным обновлением информации машина поиска регулярно возвращается через определенный срок (порядка месяца) к уже изученным узлам, чтобы обнаружить и зарегистрировать изменения. Вся прочитанная информация индексируется, то есть создается специализированная база данных, в которой закодированы все исследованные системой страницы Интернет.
    При поступлении запроса от пользователя машина поиска рассматривает всю индексированную информацию и выдает список документов, соответствующих задаче поиска. Найденные документы ранжируются в зависимости от местоположения ключевых слов (в заголовке, в начале текста, в первых параграфах) и частоты их появления в тексте.
    Несмотря на схожий принцип работы, машины поиска различаются по языкам запроса, зонам поиска, глубине поиска внутри документа, методам ранжирования и приоритетов, поэтому применение разных поисковых машин дает различные результаты.
    3.2. Основные методы поиска информации в Интернете
    Можно выделить следующие основные методы поиска информации в Интернете, которые, в зависимости от целей и задач ищущего, используются по отдельности или в комбинации друг с другом:
    1. Непосредственный  поиск с использованием  гипертекстовых ссылок:
    Поскольку все сайты в пространстве WWW фактически оказываются связанными между собой, поиск информации может быть произведен путем последовательного просмотра связанных страниц с помощью браузера.
    Хотя  этот полностью ручной метод поиска выглядит полным анахронизмом в Сети, содержащей более 60 млн. узлов, "ручной" просмотр Web-страниц часто оказывается единственно возможным на заключительных этапах информационного поиска, когда механическое "копание" уступает место более глубокому анализу.
    Использование каталогов, классифицированных и тематических списков и всевозможных небольших  справочников также относится к этому виду поиска.
    2. Использование поисковых  машин
    Сегодня этот метод является одним из основных и фактически единственным при проведении предварительного поиска. Результатом  последнего может являться список ресурсов Cети, подлежащих детальному рассмотрению.
    Как правило, применение поисковых машин  основано на использовании ключевых слов, которые передаются поисковым  серверам в качестве аргументов поиска: что искать.
    Если  делать все правильно, то формирование списка ключевых слов требует предварительной работы по составлению тезауруса.
    3. Поиск с применением  специальных средств
    Этот  полностью автоматизированный метод  может оказаться весьма эффективным  для проведения первичного поиска.
    Одна  из технологий этого метода основана на применении специализированных программ - спайдеров, которые в автоматическом режиме просматривают Web-страницы, отыскивая на них искомую информацию.
    Фактически  это автоматизированный вариант  просмотра с помощью гипертекстовых ссылок, описанный выше (поисковые  машины для построения своих индексных таблиц используют похожие методы).
    Нет нужды говорить, что результаты автоматического  поиска обязательно требуют последующей  обработки.
    Применение  данного метода целесообразно, если использование поисковых машин  не может дать необходимых результатов (например, в силу нестандартности запроса, который не может быть адекватно задан существующими средствами поисковых машин).
    В ряде случаев этот метод может  быть очень эффективен.
    Выбор между использованием спайдера или  поисковых серверов являет собой вариант классического выбора между применением универсальных или специализированных средств.
    4. Анализ новых ресурсов
    Поиск по новообразованным ресурсам может  оказаться необходимым при проведении повторных циклов поиска, поиска наиболее свежей информации или для анализа тенденций развития объекта исследования в динамике.
    Другой  возможной причиной может явиться  то, что большинство поисковых  машин обновляет свои индексы  со значительной задержкой, вызванной  гигантскими объемами обрабатываемых данных, и эта задержка обычно тем больше, чем менее популярна интересующая тема.
    Это соображение может оказаться  весьма существенным при проведении поиска в узкоспециальной предметной области. 

    3.3. Виды поиска 

    Полнотекстовый  поиск - поиск по всему содержимому документа. Пример полнотекстового поиска — любой интернет-поисковик, например www.yandex.ru, www.google.com. Как правило, полнотекстовый поиск для ускорения поиска использует предварительно построенные индексы. Наиболее распространенной технологией для индексов полнотекстового поиска являются инвертированные индексы.
    Поиск по метаданным — это поиск по неким атрибутам документа, поддерживаемым системой — название документа, дата создания, размер, автор и т. д. Пример поиска по реквизитам — диалог поиска в файловой системе (например, MS Windows).
    Поиск изображений — поиск по содержанию изображения. Поисковая система распознает содержание фотографии (загружена пользователем или добавлен URL изображения). В результатах поиска пользователь получает похожие изображения. Так работают поисковые системы: Polar Rose, Picollator и др.
3.4. Проблемы, возникающие в процессе поиска информации
    Одна  из проблем является чисто методологической. Для проведения эффективного поиска мы заинтересованы в одновременном  решении двух противоположных задач:
    увеличение охвата с целью извлечения максимального количества значимой информации;
    уменьшение охвата с целью минимизации шумовой информации.
    Нетрудно  видеть, что одновременно осуществить  это довольно сложно, хотя зачастую все-таки возможно. Один из методов, если поисковая машина позволяет, - это введение явных ограничений (запрещенных слов). Другой состоит в правильном формировании запросов, в частности,- в предпочтении нескольких конкретизированных запросов одному общему. К сожалению, весьма ограниченный входной язык большинства машин не оставляет особенного простора для творчества в этом направлении.
    Другая, связанная с этой, проблема - неоднозначность  человеческого языка. Если сфера  ваших интересов - нефть (оil) то около  половины вываленных на вас ссылок будет касаться... живописи. Картина маслом, так сказать... К проблеме синонимов в русскоязычном Интернете добавляется еще проблема морфологических вариаций слов. Изготовим платы, изготовление плат... Добавьте сюда наличие в языке омонимов (абонентная плата, а в некоторых системах также зарплата и платан), и работа с тезаурусом покажется уже не блажью, а суровой необходимостью.
    Много головной боли в нашем отечественном  Интернете происходит от обилия кодировок. Я все понимаю: "загадочная русская душа", "сам хорош", "другим путем" (каждый своим) - но не до такой же степени! Изобрести три (!) основных кодировки, каждая из которых еще может существовать в вариациях (например, расположение буквы Ё в КОИ-8), плюс неосновные разной степени экзотичности!.. С этим общим врагом каждый борется, как умеет. Российские поисковые машины распознают вашу кодировку и кодировку сайта и пытаются по мере возможности привести их в соответствие. Это удается, но не всегда. Иначе: если вы ищете слово "Финансы", а на сайте ему соответствует загадочное "тХМЮМЯШ", поиск вряд ли будет удачным.
    Поиск может быть неудачным и в силу формы представления информации. Данные, лежащие в базе, "не цепляются" ни поисковой машиной, ни спайдером. Например, информация по предприятиям удаленных регионов нашей страны, для которых Интернет часто является единственным средством общения с миром, обычно расположена на региональных серверах и как раз почему-то в базах данных.
    И последнее неудобство, докучающее в  первую очередь пользователям русскоязычной части Сети, - это ее нестабильность. Меняются адреса, структура сайтов, сами они появляются и исчезают. Конечно, это издержки быстрого роста, но в худшем случае вы не сможете добраться до половины источников, выданных поисковой машиной. А иногда так хочется!

    3.5. Структура ИПС для Интернет

 
      
 

4. Примеры поисковых систем и их описание

    4.1. Яndex

    Яндекс - На сегодня наиболее популярная поисковая система, ежемесячно к ней обращаются более 35 миллионов пользователей Русскоязычной части Интернета. Начала свою работу во второй половине 1997 года учитывая морфологию русского языка. История компании "Яндекс" началась в 1990 году с разработки поискового программного обеспечения в компании "Аркадия". За два года работ были созданы две информационно-поисковые системы - Международная Классификация Изобретений, 4 и 5 редакция, а также Классификатор Товаров и Услуг. Обе системы работали локально под DOS и позволяли проводить поиск, выбирая слова из заданного словаря, с использованием стандартных логических операторов. В1993 году "Аркадия" стала подразделением компании CompTek. В 1993-1994 годы программные технологии были существенно усовершенствованы благодаря сотрудничеству с лабораторией Ю. Д. Апресяна (Институт Проблем Передачи Информации РАН). В частности, словарь, обеспечивающий поиск с учетом морфологии русского языка, занимал всего 300Кб, то есть целиком грузился в оперативную память и работал очень быстро. С этого момента пользователь мог задавать в запросе любые формы слов.
    Слово Яндекс придумал за несколько лет  до этого один из основных и старейших  разработчиков поискового механизма. "Яndex" означает "Языковой index", или, если по-английски, "Yandex" - "Yet Another indexer". За 4 года публичного существования Яndex возникли и другие толкования. Например, если в слове "Index" перевести с английского первую букву ("I" - "Я"), получится "Яndex".
    В начале 1996 года был разработан алгоритм построения гипотез. Отныне морфологический разбор перестал быть привязан к словарю - если какого-либо слова в словаре нет, то находятся наиболее похожие на него словарные слова и по ним строится модель словоизменения. В это время Интернет в России только начинался. Еще через полгода стало очевидно, что ничто не отделяет CompTek от создания собственной глобальной поисковой машины. Объем Рунета составлял тогда всего несколько гигабайт. Осенью 1997 года был открыт Yandex.Ru.

    4.2. Google

    Лидер поисковых машин Интернета, Google занимает более 60 % мирового рынка, а значит, шесть из десяти находящихся в сети людей обращаются к его странице в поисках информации в Интернете. Сейчас регистрирует ежедневно около 50 миллионов поисковых запросов и индексирует более 8 миллиардов веб - страниц.
    Была  разработана в 1998 выпускниками Стэндфордского университета Сергеем Брином и Лари Пейджем, которые применили для  ранжирования документов технологию PageRank, где одним из ключевых моментов является определение "авторитетности" конкретного документа на основе информации о документах, ссылающихся на него. Говоря общими словами, чем больше документов ссылается на данный документ и чем они авторитетнее, тем более авторитетным данный документ становится. Количественное значение авторитетности документа (другими словами, взвешенное количество ссылок или PageRank) относится к так называемым статическим факторам (то есть независящим от конкретного запроса) и учитывается при определении релевантности документа конкретному запросу как весовой коэффициент. Наряду с этим Google применил для определения релевантности документа не только текст самого документа, но и текст ссылок на него. Эта технология позволила ему обеспечить выдачу довольно релевантных результатов на фоне других поисковиков. Довольно быстро Google стал лидировать в различных опросах по такому показателю, как удовлетворенность пользователей результатами поиска.
    Google осуществляет поиск по документам  на более чем 35 языках, в том  числе русском. В настоящее время многие порталы и специализированные сайты предоставляют услуги поиска информации в Интернете на базе Google, что делает задачу успешного позиционирования сайтов в Google еще более важной. Google проводит переиндексацию своей поисковой базы примерно раз в четыре недели. Во время этого усовершенствования, неофициально называемого Google dance, происходит обновление базы на основе информации, собранной роботами за время, прошедшее с предыдущего усовершенствования, и перерасчет значений PageRank документов. Также существует определенное количество документов с достаточно большим значением PageRank, информация о которых в поисковой базе обновляется ежедневно, однако значение PageRank пересчитывается только во время Google dance. Нормированное значение PageRank для конкретного документа, загруженного в браузер, можно узнать, скачав и установив Google ToolBar - специальную панель инструментов для работы с этим поисковиком. Не смотря на то, что в поисковике имеется форма для бесплатного добавления страницы в базу, Google предпочитает сам находить новые документы по ссылкам с уже известных и не будет индексировать добавленную через форму страницу, если в его базе не найдется ни одной страницы, ссылающейся на нее.

    4.3. Yahoo

    Одна  из самых первых Поисковых систем (создана Дэвидом Фило и Джерри Янгом в апреле 1994года) по сей день остается и самой популярной из них, традиционно сочетая поиск, как по ключевым словам, так и с помощью иерархического дерева разделов.
    Нынешнее  развитие Yahoo можно определить как  движение в он-лайн, интерактивность. Yahoo быстро осваивает эту область Интернет-услуг, но возникает одна проблема: ядро Yahoo! не было на это рассчитано. Не была в 1994 году заложено в него "онлайновая" составляющая, ее "приклеил" Тим Кугл несколькими годами позже. Естественно возникает угроза хакерских атак через эту незащищенную область.
    Одно  из новшеств поисковой системы Yahoo - панель задач для браузера Firefox,. Этот инструмент помогает пользоваться поиском Yahoo, не заходя на официальный  сайт, а лишь используя функциональные кнопки панели.
    1 сентября 2005 года поисковик Yahoo, которому  принадлежит более 200 миллионов  адресов электронной почты по  всему миру, анонсировал запуск  новой системы поиска текстов,  фотографий и других документов, содержащихся в письмах.
    Необходимость такого нововведения возникла вслед  за увеличением объёма хранимых данных, ведь некоторые пользователи создают  целые почтовые архивы. Подгоняемый  конкурентом Google и его почтовым сервисом Gmail, Yahoo для хранения почты предлагает отныне 1 гигабайт бесплатного места, или 2 гигабайта по годовому абонементу. "Как только вы получаете возможность хранить больше информации, вам необходимы и расширенные поисковые возможности", - объясняет Эрик Петерсон, аналитик компании Jupiter Research.
    Пользователи поисковой системы Yahoo, в свою очередь, смогут теперь использовать возможности детализированного поиска слов в названии или непосредственно в тексте письма, а также в присоединенных документах, не открывая их. Результат поиска отражается в трёх строках с указанием всех атрибутов. На панели справа отображаются все похожие документы. Найденные фотографии выводятся на экран в уменьшенном виде, что значительно облегчает поиск. Система также учитывает орфографические ошибки, позволяя искать слова лишь по первым буквам.
    Для начала Yahoo планирует предложить новую  систему небольшому числу американских пользователей, а затем распространить её по всему миру. Со стороны клиентов это не потребует никаких дополнительных усилий. "Когда услуга станет, доступна, в левом верхнем углу страницы вашего почтового ящика появится соответствующий баннер", - обещает компания Yahoo.
    По  данным comScore Media Metrix на июль этого года, домену Yahoo принадлежит 219 миллионов  адресов электронной почты, что  составляет 31,5% мирового рынка, уступая лишь Microsoft с 221 миллионом пользователей сервиса Hotmail (35,5% рынка). 

  Rambler Yandex Апорт
Адрес www.rambler.ru www.yandex.ru www.aport.ru
Кол-во уникальных пользователей поисковой системы в день (среднее за неделю с 25 по 31 января) 19 344 13 323 6 714
Кол-во уникальных пользователей поисковой  системы в месяц (январь) 137 300 94 775 55 200
Кол-во запросов к поисковой системе  в день (среднее за неделю с 25 по 31 января) 138 983 50 235 24 057
Размер  поисковой системы 3 815 679 (DOC)  
5 143 907 (URLs)  
24 897 (SERV)
4 512 231 (DOC)  
24 772 (SERV)
1 757 208 (DOC) 
2 999 585 (URL) 
13 264 (SERV)
Кол-во индексируемых в день страниц (среднее за неделю с 25 по 31 января) 130 000 URLs  
40 000 NEW
     
900 000 URLs ???
Период обновления страницы в индексах от недели до месяца 7 дней от недели до месяца
Появление в индексах после регистрации ближайший выходной 10 мин для  доменов 'ru', 'su', 7 дней для остальных 7 дней
Появление в индексах незарегистрированных страниц от недели до месяца около 7 дней от недели до месяца
Глубина индексирования не ограничена не ограничена не ограничена
Поддержка фреймов + + +
Поддержка ImageMaps + + +
Индексация закрытых разделов + + +
Популярность веб-сайта - планируется -
Определение частоты обновления - + +
Robots.txt + + +
Meta Robots + + +
Возможность проверки страницы на наличие в индексах + + + 
Возможность проверки на наличие ссылок с других страниц - планируется +

4.4. Рейтинг поисковых систем - март 2011 г. (в России)

 
    Как показали исследования компании Dilibrium, основаные на показателях статистики более чем 100 сайтов, рейтинг
    поисковых систем России в марте 2011 года выглядит так*:
    1. Первое место на протяжении последних лет удерживает Яндекс с 62% всех поисковых запросов по России, по сравнению
    с прошлым годом потеряв более чем 7% поискового трафика, что связано, в первую очередь, с выходом Mail.ru на свою поисковую
    платформу.
    2. Второе место, уже традиционно,  занимает Google с немногим более  чем 26% всех поисковых запросов  РФ, таким образом
    увеличив  свою долю поискового трафика практически на 3%.
    3. Третье место занял поиск Mail.ru с 6% всех поисковых запросов  России и тенденция роста, у  данного поисковика,
    сохраняется каждый месяц.
    4. Поисковая система Рамблер выпала  из тройки лидеров и ещё  более сократила свое присутствие в доле поискового трафика
и т.д.................


Перейти к полному тексту работы


Скачать работу с онлайн повышением уникальности до 90% по antiplagiat.ru, etxt.ru или advego.ru


Смотреть полный текст работы бесплатно


Смотреть похожие работы


* Примечание. Уникальность работы указана на дату публикации, текущее значение может отличаться от указанного.