ITDic.Ru - Очень толковый словарь IT-шников

Индексация

Индексация - Описание содержания документов на языке программеров, а именно – ИПЯ (что значит – информационно-поисковой язык). С его помощью к документу прикрепляются ключевые слова, по которым этот документ потом легко отыскать.
Ключевые слова: индексация, документ, содержание, язык, программер, программист, поиск, ключевые слова

Индексация документов сети – это, по сути, коллекционирование страниц самых разных сайтов поисковым роботом для базы данных своей поисковой системы. Роботов, которые ищут и присваивают индивидуальные «почтовые» индексы страницам сайтов, часто называют «spider». Для чего же трудолюбивые паучки это делают? Ответ очевиден: чтобы по запросу пользователя, а именно – по ключевым словам в окне браузера, побыстрее найти нужные документы. Те страницы, в которых, по мнению робота, ключевых слов особенно много и они употребляются по делу, выходят на первую страницу поисковой выдачи.

При этом поисковый робот видит веб-страницы не так как люди – пользователи Интернета. «Паук» понимает html-разметку, он умеет анализировать тэги. Различает заголовки «H1» и обычные абзацы «p». А ещё он «узнает» основной текст и может отделить его от служебного.

Однако при поиске «паучки» ведут себя совсем, как люди. Поисковые роботы могут ходить не только по заранее заданным поисковой системой спискам страниц, но также переходить по ссылкам с этих документов и индексировать найденные по этим ссылкам веб-страницы. Вот и получается, что роботы тоже используют браузер для серфинга и индексируют документы прямой видимости, которые увидит и каждый пользователь Интернета.

Посещая во время своих странствий ту или иную страницу, робот копирует её содержимое и отдаёт этот ворох слов и знаков на переработку поисковой системе. А система для удобства хранения преобразует страницы в обратные индексы – своеобразные консервы. Хранить в таком сжатом виде документы поисковой системе гораздо удобнее. Но как только пользователь набирает ключевое слово и давит на кнопку «Найти», происходит маленькое чудо – документ по запросу расшифровывается и выдаётся в первоначальном виде.

Кроме обратного индекса документа, поисковая система хранит еще и копию того же самого документа. Это делается для создания сниппетов – кусочков текста, содержащих ключевое слово по запросу, которые появляются сразу под ссылкой на нужную страницу.

 
Голосов: 4000
 
 

Случайные определения

Мобильный Интернет - Позволяет выйти в Интернет даже в чистом поле. Благо...
Тракинг - Апгрейт сайта в соответствии с новыми данными. Или из-за баналь...
Информационная безопасность - Надежность и защищенность информационной ср...
Веб-сервис - Независимая система, которая выполняет заданный алгоритм. Ве...
Трафик - Объем пробега информации за секунду. Выражается в битах – это не...
Компилятор - Программка, которая трансформирует информацию в язык близкий...
Язык гипертекстовой разметки ХML - Язык, на котором рождаются заклинания ...
Rambler's Top100