SEO

Глазами робота — естественность веб-страниц

foto_07

В продолжение темы важности страниц попробуем разобраться с понятием естественности веб-страницы. Данное понятие является ключевым при ранжировании страниц сайтов поисковыми роботами.

Чтобы провести эффективное продвижение сайта в целом и отдельных его страниц в частности, важно понимать, на какие параметры страниц сайта необходимо повлиять, чтобы повысить их позиции в результатах поисковых систем. Об этом, а также о принципах расчета индекса поисковой системы будет рассказано в данной статье.

Какие сайты выдает поисковая система?

Если пользователь ввел запрос, например «события», поисковая система увидит в своем индексе, что слово «события» было найдено на многих веб-ресурсах.

При этом их количество может быть очень большим — более тысячи.

Можно задать справедливый вопрос, в каком порядке поисковой системе следует отбирать ссылки на найденные страницы, чтобы наверху списка результатов были ссылки, которые наиболее соответствуют поисковому запросу?

Для этого поисковые системы учитывают множество свойств текста страницы и всего сайта — факторов, которые можно разделить на две категории:

  • внутренние;
  • внешние.

К внутренним факторам, как известно, относятся те факторы, на которые владелец сайта может влиять самостоятельно. Например, изображения, ссылки на сайте, тексты, теги.

Внешние факторы — это, как правило, ссылки на сайт с других страниц в сети Интернет.

Их ставят владельцы сайтов, и напрямую повлиять на них нельзя, поэтому подобные факторы называются внешними.

Итак, какие внутренние факторы учитывают поисковые системы для сортировки найденных страниц?

Главный принцип поисковых систем основан на стремлении найти и показать вверху списка результатов «естественные веб-страницы», которые наиболее соответствуют запросу пользователя.

Что такое естественность страницы?

Их интересуют материалы, созданные людьми и для людей, а не для поисковых роботов. Что же означает слово «естественные»? Разберем на примере.

Пусть поисковая система по запросу «СОБЫТИЯ» нашла два следующих текстовых документа. В обоих текстах есть слово «СОБЫТИЯ».

Например, ГЛАВНЫЕ НЕОФИЦИАЛЬНЫЕ СОБЫТИЯ 2012 ГОДА «Весь год, одновременно с самыми важными событиями, происходит множество любопытных курьезов, которые упоминаются в новостях в последнюю очередь.

Однако, без них картина уходящего года была бы не полной, и уж во всяком случае не такой красочной. Издание предлагает список самых необычных событий 2012 года, составленный на основе голосования наших читателей.»

ГЛАВНЫЕ СОБЫТИЯ НЕОФИЦИАЛЬНЫЕ СОБЫТИЯ 2013 СОБЫТИЯ ГОДА «Весь события год, параллельно события с самыми важными событиями, происходит события множество любопытных события курьезов, которые упоминаются в новостях в последнюю события очередь.Однако, без события них картина уходящего года была бы, наверное, не полной, и уж во всяком события случае не такой красочной. Издание предлагает события список самых странных новостей года, составленный на основе предпочтений наших читателей.»

Даже краткий взгляд на эти тексты позволяет увидеть принципиальное отличие: первый текст написан хорошим, понятным языком, а вот второй совсем не читабельный. Читать его сложно, слово «события» употребляется в нем не к месту и не в меру.

Другими словами, первый текст — естественный, он написан человеком и для человека. Второй — неестественный, люди не захотят его читать. Очевидно, он составлен автором специально для поискового робота.

А теперь вспомним, что поисковому роботу необходимо решить, ссылку на какой из этих документов поставить выше в результатах поиска по запросу «СОБЫТИЯ». В первом искомое слово встречается два раза, во втором — двенадцать.

Может показаться, что, чем чаще в тексте встречается нужное слово, тем более соответствует текст запросу… Но тогда в результатах поиска робот должен был первой указать ссылку на полную чушь, составленную оптимизатором.

Критерии естественности

Очевидно, что поисковый робот не может понимать тексты, как это делает человек, и выбор из сотен или миллионов текстов, в которых найдено слово из поискового запроса, осуществляется автоматически. Как тогда автоматически отличить естественные тексты сайта от неестественных?

На помощь приходит лингвистика и статистика. Естественный текст имеет свои закономерности, которые почти не меняются. Это средняя длина предложений, средняя длина слов, частота употребления слов, расстановка знаков препинания. Многие из этих характеристик можно подсчитать автоматически и понять степень естественности текста сайта.

Наиболее устойчив показатель частоты употребления слов в тексте. Он лучше всего исследован, и его труднее всего обойти.

Наиболее известна закономерность, именуемая законом Ципфа:

В некотором достаточно большом текстовом массиве количество вхождений слова будет обратно пропорционально его номеру, если расположить слова в порядке их частоты употребления.

Закон Ципфа применяют для анализа текстов в самых разных целях, в том числе даже в криптографии для анализа шифровок, когда нужно понять, действительно ли это зашифрованный текст или естественный.

Безусловно, частота употребления конкретного слова сильно зависит от тематики текста. Но в одной тематике эти закономерности довольно устойчивы и подчиняются закону Ципфа.

Зная этот и другие принципы поведения слов в тексте, поисковый робот может обнаружить неестественную плотность и расположение некоторых слов и на этом основании сделать вывод о неестественном характере текста.

Например, в приведенном примере неестественного текста частота слова «события» почти в три раза выше, чем ожидаемое для нормальных текстов.

Безусловно, последовательность ранжирования поисковыми машинами намного сложнее и учитывает множество параметров. Но все эти параметры, используемые в качестве значимых факторов для ранжирования, основаны на представлении о том, какими должны быть нормальные, читабельные документы, созданные для человека.

Отправить комментарий

Отправляя комментарий, Вы соглашаетесь с политикой сайта.