튜토리얼 Tutorials/티스토리 팁 tistory tips

구글의 시작 페이지랭크PageRank 논문, 그리고 나와 당신의 블로그

Tap to restart 2020. 11. 7. 01:00

The PageRank Citation Ranking: Bringing Order to the Web

'The PageRank Citation Ranking: Bringing Order to the Web' 이 17쪽 짜리 논문이 구글의 시작이었습니다.

논문 원문을 스탠포드 대학에서 내려받을 수 있어요. 이 논문을 쓴 사람은 구글의 공동창업자 Sergey Brin과 Larry Page입니다. 심지어 성도 Page죠.

 

이 파일이 그 논문입니다.

1999-66.pdf
0.29MB

 

1998년 1월 29일이라고 날짜가 적혀 있죠. 벌써 20년도 더 되었군요.

 

논문 요약

Abstract
The importance of a Web page is an inherently subjective matter, which depends on the
readers interests, knowledge and attitudes. But there is still much that can be said objectively
about the relative importance of Web pages. This paper describes PageRank, a method for
rating Web pages objectively and mechanically, e ectively measuring the human interest and
attention devoted to them.
We compare PageRank to an idealized random Web surfer. We show how to eciently
compute PageRank for large numbers of pages. And, we show how to apply PageRank to search
and to user navigation.

요약
웹페이지의 중요성은 독자의 관심, 지식, 태도에 달린 본질적으로 주관적 문제다. 하지만 웹페이지의 상대적 중요성에 대해서 객관적으로 말해질 수 있는 것이 아직 많이 있다. 이 논문은 효과적으로 웹페이지에 대해 쏟는 인간의 관심과 주의를 측정하는, 웹페이지를 객관적으로, 기계적으로 등급을 메기는 방식인 페이지랭크PageRank를 묘사한다.
우리는 페이지랭크를 이상화된 무작위 웹 서핑하는 사람에 비유한다. 우리는 어떻게 효과적으로 많은 페이지들을 계산하는지 보여준다. 그리고, 우리는 어떻게 페이지랭크를 검색하는데 사용자 항해에 적용하는지 보여준다.

 

페이지랭크 이전의 웹은?

구글 이후에 태어난 사람들은 구글 이전의 웹을 알지 못할 것 같네요. 구글의 페이지랭크 이전의 웹은 야후란 포털이 최고였습니다. 포털은 전화번호부와 비슷했죠. 블로그 카테고리를 눌러서 그 안에서 글을 눌러 읽는 방식을 생각하면 됩니다. 페이지랭크 이후 검색다운 검색이 가능해졌죠.

 

주관적 문제를 객관적 지표로 측정하기

웹페이지의 중요성은 주관적 문제로 느껴지죠. 객관적 측정이 불가능해 보였죠. 그 당시에는요. 구글 창업자 두 사람이 찾아낸 거죠. 아주 간단해보이는 방식으로요.

 

여러분이라면 어떻게 해결할 것인가요?

어떻게 웹페이지들의 중요성을 가려낼 것인가 생각해 보세요. 혁신적 아이디어 중 많은 경우는 아이디어를 보고 나면 나도 생각할 수 있겠는 걸 싶은 것들이 많습니다. 물론 보기 전까지는 생각이 안 나지만요.

 

비슷한 과제를 떠올려 볼까요?

과제: 오늘 기사 1000개를 읽고, 가장 중요한 사람 10명을 추려내기

어떻게 중요한 사람을 추려내겠습니까?

 

어떻게 해결했을까요?

논문을 다 읽어봐도 좋지만, 그림만 봐도 대충 이해할 수 있습니다.

바로 이 그림입니다.

 

 

 

간단화된 페이지랭크 계산(페이지랭크 논문 4쪽)

이 그림 전 중요한 설명을 보죠.

"we give the following intuitive description of PageRank: a page has high rank if the sum of the ranks of its backlinks is high."(페이지랭크 논문 3쪽)
우리는 페이지랭크에 대해 다음과 같은 직관적인 설명을 한다: 백링크 순위의 합계가 높을 경우 페이지는 높은 순위를 가진다.

 

숫자가 높을수록 중요한 페이지

100이 적힌 페이지에는 링크가 2개 있습니다. 하나는 53 적힌 페이지로, 하나는 50이 적힌 페이지로 가죠. 링크가 2개고 100점이 50점 50점 나눠서 가고 있는 거 같습니다. 9라고 적힌 페이지에는 링크가 3개가 있고요. 각 링크로 3이란 랭크가 전해지고요.

 

우리는 그림만 봐도 대충 유추할 수 있죠. "중요한 페이지가 링크를 건 페이지는 중요하다"입니다. "안 중요한 페이지가 링크를 건 페이지는 그리 중요하지 않다"입니다.

간단히 생활에서 예를 들면 엄청나게 유명한 사람, 예를 들어 대통령이 당신을 누군가에게 믿을만한 사람이라고 추천한다면, 그 사람은 당신을 소중하게 여길 거예요. 여러분의 동네 친구가 누군가에게 믿을만한 사람이라고 여러분을 추천한다면, 상대방은 '음, 그런가...'라고 긴가민가할 것이고요.

 

어디서 많이 본 시스템 갖죠. 학계 평가 방식이 바로 저런 식입니다. 교수 평가 관련 기사에 자주 나오는 '인용 횟수'가 바로 '링크'니까요. 그리고 공신력 있는 학술지에 인용되었는가로 가중치를 둬 점수를 매기죠. 그것을 웹페이지에 기술적, 수학적으로 구현한 것이 페이지랭크라고 볼 수 있습니다. 이렇게 말하면 별거 아닌 거 같지만, 말이 쉽지 구현은 정말 어렵습니다. 구글의 창업자는 구현해냈기 때문에 더 대단한 거죠.

 

나와 당신의 블로그

구글의 페이지랭크가 바로 구글의 검색 알고리즘입니다. 1998년으로부터 20년이 지났다고 근본 원리가 바뀐 것은 아니예요. 근본 원리는 그대로죠.

구글에서 뭔가를 검색했을 때 위키백과 같은 백과사전 사이트가 왜 자주 상위에 있는지 이제 이해할 수 있을 것입니다. 위키백과라면 이 세상 수많은 사이트에서 링크를 걸테니까요. 당연히 페이지랭크가 올라가죠.

 

제 블로그나 여러분의 블로그가 높은 랭크에 올라가기 위한 가장 빠른 방법은 페이지랭크, 즉 순위가 높은 웹사이트가 링크 달아주는 것입니다. 아쉽게도 그럴 일이 드물죠. 콘텐츠도 별로 없고 콘텐츠 질도 별로 라면 더더욱 그런 일은 생기지 않고요.

 

하지만 꾸준히 질 좋은 콘텐츠를 만들다 보면, 언젠가(?) 그런 일이 생깁니다. 물론 그 '꾸준히'가 어렵지만요... 그 '언젠가'가 언제인지 알 수도 없지만요. 언젠가가 바로 내일일 수도 있고, 한달 뒤, 아니 1년 뒤일 수도 있으니까요.

 

그래도 '꾸준히'하다보면 꾸준히 올라갑니다. 페이지랭크 순위가 낮은 웹사이트라도 링크를 달아주기 시작한다면 서서히 랭크가 올라갈테니까요.