Успех
или неудача веб-сайтов зависят от небольшого алгоритма — PageRankот Google. В
этой статье мы расскажем, как он функционирует.
Начнем с прописных истин: Интернет огромен, а
веб-страницы, наоборот, малы. Многие из них предлагают похожий контент. При
этом отдельному сайту очень трудно подняться над этой массой. Пользователь
сможет найти его только в том случае, если запустит поиск Googleи страница появится в самом верху списка. Правила Интернета отличаются
жесткостью и напоминают о дарвиновской борьбе за выживание — это правила Google.
Однако если существуют сотни похожих страниц, то
какая из них окажется наверху, а какая будет загнана в конец списка? Ответ на
этот вопрос основатели GoogleЛарри Пейдж и Сергей Брин заложили в формулу алгоритма PageRank. Тот, кто
использует его, может сделать свое присутствие в Интернете заметным. Тот, кто
пренебрегает им, будет наказан. Однако как же работает PageRank, и в каком случае
веб-страница попадает в верхнюю часть списка?
PageRank: как работает формула
PageRankвозник из простого
и гениального логического рассуждения.
1.Для каждой веб-страницы найдется определенноеколичествостраниц, которые дают на нее гиперссылку. 2.Каждая из этих веб-страниц, в свою очередь, тоже имеет PageRank.
3. Ссылка со страницы В
на страницу А, как при голосовании, может считаться одним голосом, отданным В
за А.
4. PageRankстраницы В придает голосу, отданному за А, дополнительный вес.
Следовательно, чем выше PageRankстраницы В, тем лучше.
5. В качестве дальнейшего
фактора рассматривается общее число ссылок, которые находятся на странице В.
Чем меньше число ссылок на странице В, тем лучше это для PageRankстраницы А.
Важно следующее: PageRankрассчитывается не для какого-то веб-продукта, а каждой отдельной страницы.
Поэтому может случиться так, что определенный документ на веб-сервере будет
иметь более высокий PageRank, чем домашняя страница, к которой он
принадлежит. В виде формулы вся игра вокруг PageRankвыглядит следующим образом:
PR(A) = (1-d) + d (PR(T1)/C(T1) + ... + PR(Th)/C(lh))
Это читается так: PageRankстраницы А складывается из PageRankстраниц Т1.. .Тп, разделенных соответственно на количество ссылок на
этих страницах. При этом следует еще учесть коэффициент затухания.
Принцип PageRankлегко объяснить, если предположить, что весь Интернет состоит всего из
четырех страниц. Итак, даны страницы А, В, С и D. Каждая имеет
исходный вес PageRank, равный 1. Значения, взятые вместе,
соответствуют всей условной сети из четырех страниц. Для первого примерабудем исходить из того, что каждая из страниц
В, С и Dдемонстрирует одну ссылку на страницу А и
помимо этого икаких других ссылок нет. Если
пока пренебречь некоторыми другими факторами, влияющими на PageRank, получается такая формула:
PR(A) = 1/1 + 1/1 + 1/1
Она дает значение PageRankдля А, которое равно 3.
Теперь представим себе следующую, более
сложную ситуацию (см. график: ) А имеет ссылки на В и С; В —
только на А; С указывает на А, В и D; D— только на В. Тогда формула
для А будет выглядеть так: PR(A) = 1/1 + 1/3
Ссылка, размещенная на странице В, дает
1, от С мы получаем только 0,33, поскольку она имеет сразу три ссыпки. В
результате получатся 1,33. Формула для В будет иметь следующий вид: PR(В) = 1/2 + 1/3 + 1/1 Послеокругленияполучаем1,83. Значение для С рассчитывается так: PR(С) = 1/2
То есть 0,5. В конце концов, Dимеет: PR (D) = 1/3
Или в округленном виде 0,33. В сумме мы
вновь получаем общее число всех страниц: 1,33 + 1,83 + 0,5 + 0,33 = 3,99 Оно
меньше исходного значения на 0,01 из-за округления. В этом вычислении не
хватает еще кое-чего: в результат не включен PageRankкаждой страницы. Возьмем еще раз пример
с веб-страницей В. Если ввести в него показатели PageRank, полученные во время выполнения шага 1,
то вместо формулы PR(В)
= 1/2 + 1/3 + 1/1 получается:
PR(В) = 1,33/2 + 0,5/3 + 0,33/1
Округленный результат равен 1,62.
Конечно, новое вычисление значения PageRankдля
В изменит рейтинги PageRankдля
страниц А, С и D. А
новое значение D, в
свою очередь, изменит значение В. Поэтому Googleприближается к PageRankитеративно, то есть ступенчато: поисковая
система применяет результаты предыдущего прохода для вычисления следующего
шага итерации. По данным Пейджа и Брина, достаточно 100 итерационных проходов,
чтобы получить PageRankмиллиардов
сохраненных страниц.
Коэффициент затухания: с
учетом пользователя
Согласно теории Google, PageRankвыражает вероятность, с которой интернет-пользователь
после перехода по случайной ссылке может попасть на нужную страницу. Но
поскольку следует исходить из того, что пользователь делает конечное число
переходов, в формулу был введен коэффициент затухания. Он симулирует ситуацию,
в которой пользователю надоедает ходить по ссылкам. Это затухание вычисляется с
учетом голосов на каждую ссылку страницы. В описании своего алгоритма еще на
заре становления GoogleСергей Брин и Ларри Пейдж
использовали коэффициент затухания 0,85. Можно, предположить, что коэффициент
при сегодняшних расчетах Googleблизок к этому значению.
В программах, предназначенных для расчета
PageRank, можно
увидеть значения от 0 до 10. Но это всего лишь индекс, настоящее значение параметра
PageRankвысчитывается по-другому. Доподлинно
неизвестно, какими числами оперирует система, но есть мнение, что значения для
страниц имеют число в пределах единицы — то есть от 0 до 1. Получаются
маленькие десятичные дроби, отражающие PageRankвеб-страниц.
Кстати сказать, эксперты пришли еще к
одному любопытному наблюдению: чем выше значение PageRank, тем сложнее его улучшить. Googleиспользует логарифмическую шкалу, поэтому
преодолеть рубеж PageRankмежду 2
и 3 гораздо легче, чем между 9 и максимальной отметкой 10. Стоит отметить, что
для подавляющего большинства сайтов значения PageRankограничиваются цифрой 5, далее
продвигаются только тысячи сайтов, а значения 10 удостоены единицы.
Фильтры: PageRankи его маленькие помощники
Используя свою формулу PageRank, Googleиндексировала Сеть с огромным успехом.
Но триумф вызвал появление паразитов: владельцывеб-сайтов быстро поняли принцип
работы механизма и стали искусственно продвигать свои страницы. Это привело к
тому, что Googleначала изобретать новые
методы для защиты от таких хитрецов, aPageRankсо временем превратился лишь в один из
факторов, влияющих на положение вебстраниц в результатах поиска Google.
Тем не менее PageRankчасто используют как своего рода валюту:
«Если ты дашь мне две ссылки со страниц с PageRank4, я дам тебе одну ссылку со страницы с PageRank5». Все это довольно наивно: простой
обмен ссылками ничего не дает, тем более если сайты не связаны одной
тематикой.
Однако PageRank— лишь вершина айсберга. В системе есть
десятки фильтров, а также различные методы оценки сайтов и результатов поиска.