Blog Archive

레이블이 스크랩인 게시물을 표시합니다. 모든 게시물 표시
레이블이 스크랩인 게시물을 표시합니다. 모든 게시물 표시

2007-03-10

"공유하기 싫은 사람은 인터넷을 떠나라"에 대한 답글

커서님의 글에 부분적으로 공감합니다만 약간 다른 관점에서 "공유"의 문제를 이야기하고 싶습니다. 인터넷은 잘 모르겠고, 웹의 시작은 서로 다른, 멀리 떨어진 기종간의 자료를 자유롭게 교환하기 위해 탄생하였습니다. 그리고 그런 목적의 상당 부분은 "하이퍼링크"라는 아주 간단하지만 대단한 기술을 통해 구현되었습니다. 그래서 인터넷에 있는 모든 글들이 거미줄처럼 서로 연결되어서, 사람들은 어디에서 출발하더라도 관련된 지식과 정보들에 쉽게 접근할 수 있게 되었습니다.


그런데 최근의 우리 나라에서 벌어지는 인터넷의 문화는 참 이상한 방향으로 가고 있습니다. 누구나 완전히 새로운 창작은 없겠지만, 남이 써놓은 글을 "스크랩"하기 또는 "담기", "퍼가기"와 같은 그럴듯한 말로 포장해서 자신의 공간에 담아두어야 한다는 강박 관념을 갖게 된 것입니다. 그렇게 해서 자신의 블로그나 미니 홈피가 풍부해지면 결국 방문자들에게 이득을 주는 것일까요? 그것은 단편적인 생각일 수 있습니다. 그렇게 퍼가기와 스크랩을 통해 복사된 글들이 인터넷에 많아지면, 인터넷의 꽃인 검색은 점점 더 어려워집니다.


좋은 검색 결과를 얻기 위해서는 이 자료가 얼마나 검색 목적에 적합한지 기계가 판단을 해야 합니다. 이 때의 판단 기준으로는 사람들이 얼마나 많이 봤는가, 글 내용과 제목, 키워드 등이 얼마나 적합한가, 그 글을 참조하고 있는 링크가 얼마나 많은가, 얼마나 많은 추천을 받았는가, 얼마나 많은 사람이 북마크를 했는가 등이 있을 수 있습니다. 잘 아시겠지만 우리 나라에서 최고의 검색 포털인 네이버에서 무엇을 검색해보면 똑같은 내용의 글들이 블로그, 카페, 지식인 등에 몇 번씩 반복해서 나타나고 있고, 도대체 그 "지식", "글"을 쓴 원 저작자가 누구인지 알 수가 없습니다. 반복해서 나타나면 노출의 기회가 많아져서 접근성이 높아진 것일까요? 결코 아닙니다. 왜냐하면, 반복해서 나타나지 않고, 원본 글이 가장 적합한 글이었다면, 그 글은 검색 엔진에 의해 가중치가 점점 더 높아져야 합니다. 그런데 복사본이 많아지니까 원본 글의 가중치는 실제 그 글이 가지는 중요도, 적합성보다 낮아질 수밖에 없습니다. 다시 말해 뭐가 중요하고, 뭐가 적합한지를 기계적으로, 또는 사람이 판단할 기준이 애매해진다는 것이지요. 이것은 결국 인터넷 검색의 품질을 극적으로 떨어뜨리는 결과를 가져옵니다. 우리 나라의 웹 검색 수준이 구글과 야후같은 세계적인 기업에 비해 비교가 되지 않을만큼 초보 수준에서 벗어나지 못하고 있습니다. 어쩌면 그런 퍼가기와 같은 기형적인 웹 데이터들에 의해 웹이 쓰레기로 오염되었기 때문에 포털들은 웹 검색의 필요성을 못 느꼈을 것입니다. 단지 포털 내부에 갇힌 자료들만 잘 보여주면 되었지요. 인터넷의 세계는 국경을 넘어 무한한 정보를 얻을 수 있는 곳인데도 우리 나라는 정확하지도 않은, 그리고 온통 퍼가기로 여기 저기 반복되는 "네이버" 지식인 수준의 공유 "지식"에서 발전하지 못하고 있는 것입니다. 국경을 넘어 세계 사람들은 "공유된" "공공의 지적 자산"을 키워가며 자신들의 지적인 창작물들을 키우는 동안 우리는 갇힌 우리들만의 좁은 세계에서 서로 퍼가고, 나르고, 복사하고 있는 것입니다. 좀 극단적으로 말하면 다른 나라의 개개인들이 기존의 가치에 자신만의 부가 가치를 더해서 지식을 키워가는 동안 우리는 아무런 새로운 가치도 창출하지 못하는 복사하기에 열광하고 있는 것이지요.


인터넷에서 좋은 정보를 발견했다면 퍼가지 말고, 링크를 걸면 됩니다. 그렇게 해서 외부에서 링크가 많이 걸린 정보는 중요한 정보일 가능성이 높습니다. 그리고 외부에서 걸린 "링크의 텍스트 제목"을 통해, 원본 자료의 내용을 대표하는 제목이 무엇인지, 어떤 자료가 담겨 있는지를 기계적으로 결정하기가 더 좋아집니다. 이렇게 해서 내가 검색 엔진을 통해 찾든, 아니면 링크를 따라가면서 찾든, 나의 목적에 더 쉽고 빠르게 도달할 수 있습니다. 인터넷에 있는 많은 자원들이 이렇게 해서 "공공성"을 가져야 합니다. 서로 베껴서 널리 퍼뜨리는 것이 아니고, 내가 만든 저작물을 링크로 인용하여 다른 사람이 연관된 새로운 저작물을 만들면서 우리의 공공 자산은 점점 더 커지는 것입니다.


언제부터인가 "조선닷컴" 사이트에 "퍼가기"라는 주황색 버튼이 생겼더군요. 아니 신문사에서, 그것도 조선일보와 같은 극우 신문이 공개적으로 자신의 기사를 퍼가도록 할리가 있나 싶어서 눌러봤더니, 아니나 다를까 그것은 "RSS" 구독 버튼이었습니다. RSS 구독은 퍼가기와는 전혀 다른 개념인데 어떻게 이것을 "퍼가기"라고 표현했을까 생각해보니, 우리 나라 인터넷 사용자들 사이에 "퍼가기"라는 말이 원 저작자의 글의 인기도를 높이는 긍정적인 단어로 인식되기 때문에 아마 뜻을 왜곡하면서도 그런 명칭을 붙였을 것 같습니다. 하지만 퍼가기는 결코 원 저작자의 인기도를 높여주지도 않고, 퍼가기로 복사된 글들이 많아지면서 그 내용의 중요도가 높아지지도 않습니다. 한 마디로 인터넷 세상의 엔트로피가 증가할 뿐입니다.


건전한 "링크"를 원천적으로 막고, 이상한 "공유" 개념에 기반해서 "퍼가기"를 조장하는 우리 나라의 포털, 블로그, 언론 매체, 심지어 정부 기관의 잘못된 관행이 몇 가지 있습니다.


첫째는, 원본 글에 대한 정확한 링크, 즉 딥 링크(deep link)를 막는 인터넷 주소(URI) 감추기입니다. 비교적 진보적인 인터넷 매체인 프레시안만 봐도, 어떤 기사를 들어가도 주소창에는 항상 똑같은 "http://www.pressian.com" 주소만 나옵니다. 프레임을 사용하여 주소를 감춰버린 것이지요. 가장 공공성이 강한 정부나 공공 기관의 웹 사이트도 마찬가지입니다. 심지어 정보 접근성을 보장해야 하는 한국 정보 문화 진흥원이나, 우리 나라 소프트웨어와 디지털 콘텐츠 기술의 발전 정책을 집행하는 한국 소프트웨어 진흥원도 그런 행위를 하고 있습니다. 인터넷 주소가 나타나질 않으니, 기본적으로 해당 페이지에 링크를 걸 수가 없는 것입니다. 다시 말해, 필요하면 그냥 복사하든가 아니면 말든가 하라는 것이지요. 주소 감추기는 또 다른 폐해도 있습니다. 시각 장애인들과 같이 비시각적으로 인터넷을 보는 사람들에게는 문서의 제목과 주소가 매우 중요한 이해의 단서가 됩니다. 그런데 인터넷 주소 감추기를 통해 그 사이트 안에 담긴 수없이 다른 문서가 똑같은 제목과 똑같은 주소만을 가지게 됩니다. 다시 말해 서로 다른 문서들을 변별할 수 있는 문서의 "독특성"이 완전히 사라지는 것이지요. 그나마 문서 안에서의 "제목"과 내용이라도 충실하게 HTML 규격에 맞추어 작성했으면 불행중 다행인데 우리 나라 웹 페이지들은 "제목"을 표준에 맞추어 표현한 경우도 매우 드뭅니다. 그냥 글자만 굵고 크게 하면 제목인 것은 아닙니다.


둘째는, "스크랩", "퍼가기", "블로그에 담기", "클리핑", "나르기", "담아가기", 콜백과 같이 다양한 이름으로 등장하는 "복사하기" 기능입니다. 아예 공개적으로 복사를 권장하지만, 인터넷 주소는 안 보이게 함으로써, "링크"는 불허하겠다고 선언하는 것이지요. 복사로 얼룩진 대표적인 사이트가 아마 싸이월드, 네이버 블로그지식인, 다음 카페이겠지요. 그 "복사"라는 것도 자신들의 포털 안에서는 무제한 허용하면서, 포털 밖의 인터넷 세상으로는 무제한 금지하려고 별 짓을 다하고 있지요. 그것중에 대표적인 예가 "마우스 오른쪽 버튼 막기"와 같은 별 효용도 없는 기능을 쓰는 것입니다. 어쩌면 다행인지도 모릅니다. 어차피 "그네들의" 포털에서는 복사된 쓰레기만 넘쳐나니, 그 쓰레기를 다른 인터넷 세상으로 무단 투하하는 것을 막아주고 있으니 말입니다. 그러면서 열린 공간인 인터넷에 있는 귀중한 정보는 다시 그들만의 닫힌 세상인 포털 안으로 복사해다 부지런히 나르는 것을 권장하고 있습니다.


세째는, 포털에 일반 사용자들이 올려놓은 자료가 열린 세상에 널리 퍼지지 못하도록 "robots.txt"를 이용해 검색을 막아놓는 행위입니다. 다시 말해, 나는 공개된 인터넷이라고 생각해서 다음 카페, 네이버 지식인에 올려놓은 자료들은 다음 안에서 또는, 네이버 안에서만 검색이 가능합니다. 이것은 21세기 인터넷 세상에서 20세기 PC통신 방식을 고집하겠다는 것과 별로 다를 바 없는 것입니다. 다른 검색 엔진들이 검색을 못하도록 철저히 자신들의 포털 안에 사용자들을 가둬놓은 것이지요. 그것에 반기를 들고 나온 것이 바로 엠파스의 소위 "열린 검색"입니다. 그러나 엠파스의 접근 방식도 잘못 되어 있습니다. 어쨌든 네이버, 다음에서 검색을 허용하지 않겠다고 국제적으로 약속된 표준에 따라 장치해놓은 검색 거부 선언을 엠파스는 의도적으로 무시해버렸기 때문입니다. 이거 누구 편을 들어야 좋을지 모를 정도로 진흙탕 다툼 같지 않습니까?


네째는, 더 엽기적인 것입니다. 네이버에서는 설사 엠파스 같은 곳에서 자신의 지식인 자료를 검색을 했다 하더라도, 그것이 쓸모없도록 무력화시키기 위해, 며칠 지나면 지식인에 올라온 자료의 인터넷 주소가 자동으로 바뀌도록 해놓았습니다. 이것은 상대의 악행을 막기 위해 자신은 더 큰 악행을 저지르는 행위이지요. 다시 말해, 네이버 지식인에 올라온 자료를 나중에 다시 보기 위해 내가 오늘 즐겨찾기(또는 북마크)에 등록했다고 해도, 내일이면 쓸모없어질 수가 있는 것입니다. 그러니 사용자들이 선택할 수 있는 것은 무엇일까요? 내일이면 없어질 페이지에 링크를 걸 수도 없고, 결국에는 그냥 복사해다가 내 홈페이지에 붙이고, 게시판에 붙이고, 열심히 "퍼가는" 길밖에 없습니다. 그러는 동안 세계 7위를 차지하는 한국어 인터넷 사용자들이 공공 재산의 하나인 "위키피디아"에 등록한 한국어 문서 등록률은 세계 30위에 머물고 있습니다.


이미 서구 문화권에서 상당히 널리 퍼지고 있고, 혁명적이라 할만한 콘텐츠의 유통 방법인 RSS가 아직 우리 나라 사람들에게 널리 알려지지 않은 이유도 아마 "퍼가기" 때문인 것 같습니다. 서구 문화권에서는 개인 블로그는 물론이고, 기업, 대학, 정부, 공공 기관 할 것 없이 RSS를 통해 자신들의 소식을 사용자들에게 쉽게 전달하려고 하고 있습니다. 빨리 우리 나라 웹 사이트들도 퍼가기를 조장하는 지금까지의 잘못된 관행을 버리고, 공공재로서의 인터넷 사용을 더 편하게 만드는 작업에 뛰어들었으면 좋겠습니다. 그 전에 인터넷 사용자들 스스로도 "퍼가지 않기" 운동이라도 해야 하지 않을까 싶습니다. 어쨌든 저는 제 사이트에 있는 글을 사람들이 "퍼가기"를 통해 공유하는 것이 싫습니다.

2006-12-19

어떤 형태의 펌질과 스크랩도 모두 반대합니다.

블로그 글의 무단 도용: 네이버 vs. 독립 블로거 라는 글을 읽고 다시 열불이 나서 한 마디 씁니다.


불법이고 합법이고를 떠나서 저는 펌질, 스크랩을 적극 반대합니다. 펌질, 스크랩을 통해 복사된 글들이 인터넷을 어지럽혀 결국 검색 엔진이 사용자가 원하는 글을 찾는 것을 매우 어렵게 만들고, 제목만 살짝 다르지만 결국에는 똑같이 복사된 글만 검색 결과에 올려놓는 어처구니 없는 현상을 양산해냅니다. 그래서 펌질에 의해 오염된 네이버 블로그, 싸이월드 미니홈피는 검색하면 원본 글은 누가 쓴 지도 모르겠고, 복사하고 또 복사한 쓰레기만 나오죠. 그나마 네이버와 싸이월드가 자신의 서비스들을 robots.txt로 검색을 막아놓은 게 어찌보면 다행일지도 모르겠습니다. 그렇지 않았으면 우리 나라 인터넷은 온통 복사된 쓰레기로 가득 찼을 지도 모르니까요.

웹의 기본은 스크랩이나 복사가 아니라 링크입니다. 그리고 그 링크에 의해서 검색의 중요도도 결정되어야 합니다. 펌질과 스크랩을 통해 데이터의 웹은 더욱 요원해져 갑니다. 사용자들이 올려놓은 지식 정보와 블로그, 카페는 마치 자기 자산인양 검색도 막아놓고, 다른 곳에서 링크를 걸려고 하면 매일 링크 주소를 바꿔버리는 네이버를 비롯한 국내 포털들의 행태가 어쩔 수 없이 펌질과 스크랩을 양산했고, 인터넷 세상을 오염시켜온 주범입니다. 그런 세상에서 파란과 같은 후발 주자가 어떻게든 트래픽을 모아보려고 타 블로그의 스크랩 기능을 넣었다는 것은 어찌 보면 이미 예상되어 온 일이라고 보입니다. 그나마 뺐으니 천만 다행이군요.

2006-06-11

그래도 펌/펌질에 대해 부정적인 이유

펌로그는 무조건 잘못된 것이다?라는 재미있는 글을 읽고서 새삼 다시 한 번 펌에 대해 생각해보게 되었습니다. 이상하게 우리 나라에 유독 많은 것이 바로 펌, 또는 펌질, 또는 스크랩이라고 불리면서 원본 글을 복사해다가 자신의 페이지에 붙이는 행위입니다. 이에 대해 쿠키님은 원본 글을 쓴 사람이 영구적이고 안정적인 소스로서 글이 가치를 갖도록 책임을 져야 한다는 의견을 제시하셨고, rantro님은 펌로그를 만드는 사람이 관련글을 찾아서 한 곳에서 보여주는 것만으로도 제 2의 창작이라 할만큼 가치있는 일이라는 의견을 내셨습니다. 그리고 주된 논쟁은 저작권과 관련되어 있는 것 같습니다. 두 분의 주장도 일리가 있다고 생각합니다만, 저는 그래도 펌 행위에 대해 비교적 부정적입니다. 예전에는 저 개인도 펌질을 별 생각없이 했었지만 요즘에는 웬만하면 원본에 링크를 걸고 있습니다.

논쟁에서도 나왔지만, 인터넷에서 자기가 원하는 목표에 가장 근접하는 정보를 찾는 것은 쉬운 일이 아닙니다. 그것은 검색 엔진의 기술이 발달하지 못한 탓도 있겠지만, 아직 웹에 있는 정보들이 논리적으로 잘 정리되어 쌓여있지 않기 때문이라고 봅니다. 즉, 아직까지 웹에 있는 정보들은 쓰레기의 바다라는 것이고, 그런 쓰레기 속에서도 비교적 사용자가 원하는 정보와 최대한 유사한 정보를 제시해주는 엄청난 기술을 제공하는 곳이 바로 구글과 야후와 같은 검색 엔진이라고 생각합니다. 그러면 그런 검색 엔진이 도대체 그 정보, 또는 문서가 가장 적합할 것이라고 어떻게 판단을 할까요? 우리가 생각하는 것보다 훨씬 복잡한 기술과 기법들을 사용하겠지만 단순화해서 생각해보면 아마 다음과 같은 것들도 포함될 것입니다.


  • 제목이 적절한 것
  • 제목이 불분명하다면 내용이 적절한 것
  • 다른 곳에서 해당 문서로 링크가 많이 걸린 것
  • 해당 문서의 조회수가 높은 것
  • 해당 문서에 사용자들의 답변과 의견이 많이 올라온 것

원본 문서가 가치있는 문서라면, 그것은 다른 곳에서 많이 링크가 걸릴 것이고, 또 많은 사람들이 들어올 것입니다. 즉, 더 많은 링크가 걸리거나 더 조회수가 많은 문서일수록 해당 문서는 우리가 찾고자 하는 적합한 문서이거나 또는 가치있는 문서일 가능성이 높다고 추측할 수 있습니다. 문서의 제목, 내용, 키워드 같은 것들은 기계도 이해할 수 있을만한 정해진 규칙이 아직까지 없고 사용자가 마음대로 작성할 수 있게 되어있어서 완전히 신뢰할 수 있는 것은 아닙니다. 그런 신뢰성을 부분적으로 메꾸어주는 것이 바로 외부 문서에서 해당 문서로 걸린 링크의 수, 조회수와 같은 다른 사용자들의 참여도와 인기도(?)일 수 있습니다. 우리가 어떤 키워드로 인터넷을 검색했을 때에 다른 문서보다 상위에 노출되었다면 아마도 제목, 내용, 링크의 수, 인기도, 조회수 등을 고려해 가장 적합하다고 기계가 판단했기 때문이겠지요.

그런데 원본 문서에 링크를 걸지 않고 그냥 내용을 복사해다가 새로운 사이트에 문서를 만들면, 원본 문서에 축적될 수 있는 가중치는 떨어질 수 밖에 없습니다. 즉, 검색을 했을 때에 그 원본 문서가 정말 정확한 내용을 담은 문서라면 최상위에 노출될 것인데, 복사본이 여기 저기에 있기 때문에 원본 문서의 링크수와 조회수는 떨어지게 되고, 검색 엔진은 원본 문서의 정확성이나 신뢰성을 실제보다 더 낮게 판단하게 됩니다. 사용자 입장에서는 특정한 검색 요청에 대해 원하는 문서가 아닌 다른 엉뚱한 문서를 결과로 얻게 될 수도 있습니다. 또는 원본 문서가 약간의 모양만 달리 해서 여기 저기 여러 군데에 있다 보니 검색 결과는 상당히 여러 개가 나왔는데 다 똑같은 내용을 펌질을 통해 복사한 결과라는 것을 알게되기도 합니다. 다시 말해서 검색의 적합성과 정확성, 그리고 신속성이 펌질로 인해 계속 떨어지는 것입니다. 우리 나라에서 인기있는 네이버에서 검색을 해보면, 네이버 지식인, 네이버 블로그라는 것들이 주로 이런 펌질로 이루어지다보니 똑같은 문서인데도 제목만 살짝 다르게 되어 마치 여러 개의 검색 결과인 것처럼 노출이 됩니다. 그래서 혹시나 새로운 내용을 담고 있나 하고 여러 검색 결과를 눌러봐도 사실은 똑같은 내용의 중복이라는 것을 발견하고 시간이 아깝다는 생각을 하게 됩니다.

말이 쓸데없이 길어졌네요. 결론적으로 아직까지 완벽하지 않은 인터넷 세계에서 외부에서의 링크수와 문서의 조회수는 그 문서의 중요성과 적합성을 판단하는 중요한 기준인데, 펌질을 해버리면 그런 기준들이 엉망이 되어버린다는 것입니다. 결국 안그래도 어지러운 인터넷 세상에서 펌질로 인해 똑같은 글이 여기저기 난무하게 되면 목적에 부합한 원하는 문서를 찾기가 더 힘들어진다고 생각합니다.