网络数据挖掘 L4L5 网页排序

2018-07-12  本文已影响0人  gb_QA_log

title: 网络数据挖掘 L4L5 网页排序
date: 2017-04-12 18:34:16
categories: DataMining
mathjax: true
tags: [WebDataMining]


L4 Ranking Aggregation

Social Choice Theory社会选择理论是关于投票的理论

我们如何做决定:

集体智慧

现在的民主方式其实是默认了一个前提,“集体智慧”。

但其实集体智慧有很多因素要考虑。不是所有人都能做正确明智的选择:

主观、意见分散、集权、跟从都可能导致失败
处于对不同人的意见的综合考虑,实际生活中就有了各种应用:

Rule

以上算法在TREC会议上多有应用。

L5 Web Structure Mining

介绍

网络结构:

因此需要考虑实际的关注点、计算能力、内存等情况来构造网络图。为了构造这张图,先定义以下几个函数关系:

Web Graph Mining

Fan:Back_url

流行程度
真粉?
特殊情况:google.com等

PageRank的计算

能够表明网页的流行程度。其中T是指向A的网页,而C(T)是T指向网页的总数
PR(A)=(1-d)+d*(\frac{PR(T_1)}{C(T_1)}+\frac{PR(T_2)}{C(T_2)}+...\frac{PR(T_n)}{C(T_n)})
举个例子:

Paste_Image.png

PR(a)=1, PR(b)=1, PR(c) =1


Paste_Image.png Paste_Image.png Paste_Image.png

Web Community

给定一些网页,找他们中的密集连接在一起的Community

附:
数据堂:出售数据
相关数据集、算法网站
http://webla.sourceforge.net/javadocs/pt/tumba/links/WebGraph.html
http://introcs.cs.princeton.edu/java/45graph/Digraph.java.html
http://www.cs.ucsb.edu/~kris/Research/agl/doc/agl2/Digraph.html

上一篇下一篇

猜你喜欢

热点阅读