BlogTalk 회고 – Researcher Network, Splog

BlogTalk 첫날 회고를 계속해 본다. 첫날은 대학원 연구가 주로 발표되었고 KISTI에서 Researcher Networks를 명시된 작성자를 기반으로 찾는 시스템에 대한 발표가 있었다. 동일 이름이지만 서로 다른 사람을 찾거나 이름이 다르게 표기되지만 같은 인물임을 찾기 위해 메일 주소, 소속 등의 메타 데이터를 활용한다고 했고, 나름 의미있는 내용으로는 다음과 같은 관계 분석이 있었다.

  • Topic + 사람으로 네트워크 찾기: 논문에서 키워드를 추출한 후 동일 키워드를 포함한 글을 기준으로 사람간의 관계를 찾을 수 있다.
  • 사람으로 네트워크 찾기: 특정 사람이 발표한 논문들의 키워드를 기반으로 유사 키워드를 많이 사용한 다른 사람들을 찾아준다.

현재 Daum view에서는 글과 키워드를 기반으로 관련글을 찾고 있는데, 여기에 사람이라는 요소를 어떻게 넣을 수 있을지 힌트가 된 것 같다. 또한 키워드 전문가를 찾아서 보여주는 것이 의미가 있다는 것도 확인할 수 있었다.

Splog는 Spam Blog로 ‘가입 유도’, ‘복사’, ‘일기’ 등을 포함한다. 발표된 내용은 사용자 입력을 기반으로 각각의 사용자에게 맞는 스팸 필터를 적용한다는 내용이였는데 데이터 마이닝 관련 용어들은 잘 이해를 못했지만 나름 재미있는 내용이 있었다.

스팸을 판단하기 위해 value와 spam으로 글을 평가하게 했을 때, (정보성이 높으면 4점, 낮으면 1점, 스팸성이 강하면 4점, 약하면 1점으로 4×4 메트릭스로 평가) 스팸성이 4점이면서 정보성이 1점이면 확실한 스팸이라 할 수 있는데 스팸성이 4점이면서 정보성이 1~4점으로 다른 평가를 받는 글 같은 경우는 사용자의 관심에 따라 스팸 여부가 갈릴 수 있음을 볼 수 있었다. 이는 두가지 시사하는 바가 있는데 스팸 필터링이 어렵고 관련 팀과 지속적으로 협업을 해야한다는 것과 또 하나 VA 성공을 위해서는 광고성은 높지만 동시에 정보성도 높게 유지하는 것이 핵심 요소라는 것이다.

이외에도 동일 주제에 대해 blog와 news에 나타난 단어들의 관계를 분석했을 때 서로 다른 연결성이 보였다는 발표도 있었는데, (블로그가 좀 더 다양한 관계성을 보여준데 반해 보수적 신문은 매우 제한적인 관계만 보여주었다. 예를 들어 미디어법에 대해 조중동은 부정적 단어를 사용하지 않고 있었다.) Semantic Web이 원래의 기계가 읽을 수 있는 태그를 사용한다는 취지에서 오히려 글에서 직접 키워드를 추출하는 방식으로 구현된 Contextual Web이 결국 더 실용적으로 많이 사용되고 있음을 확인할 수 있었다.

This entry was posted in 깨달음으로 가는 길 and tagged , , . Bookmark the permalink. Post a comment or leave a trackback: Trackback URL.

Post a Comment

Your email is never published nor shared. Required fields are marked *

*
*

You may use these HTML tags and attributes: <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <strike> <strong>