信息检索

2018-07-07  本文已影响0人  猿崛起

#数据收集 

## 内部数据收集

## 互联网数据收集

### 爬虫

### 爬虫的工作模式:

提供一个或若干个初始网页的地址, 获得初始网页上的URL列表,然后在抓取网页的过程中,不断地从当前页面上抽取新的URL放入待爬队列。

### 获取新的URL的策略:

深度优先、广度优先、最佳优先

### 已有框架介绍Heritrix

# 数据存储

# 数据处理

## 信息检索

## 基础算法

PageRank、HITS:

## 工具

elasticsearch

solr

## 扩展:推荐系统

## 推荐系统工具:mahout

上一篇 下一篇

猜你喜欢

热点阅读