[论文]Learning to Summarize Web Im

2016-08-15  本文已影响0人  EdwardLee

论文地址

一、任务

1、图像文字摘要:图像->sentence描述,image classification model,PIS->ITJS

2、文字可视化:文字->图像,text categorization model?选择文本语义相近的image作为视觉表达,PTS->ITJS

二、相关研究

1、Events in still image

1)event classification:研究较少,主要集中在特定的领域,例如human activity/action分类

2)可视图像的sentence & summarization 生产:AND-OR graph等。These methods generate a direct representation of what objects exist and what is happening in a scene, and then decode it into a sentence. 文本生成依赖object recognization,但后者依然很难。

这篇paper的区别:We focus on the problem of summarizing images using high-level semantic sentences or short articles collected from the Internet, not just describing “what are there” or “what

is happening” in images.

2、Cross-Media Retrieval

1)[2,5,12,15]代表的第一代的多模检索引擎支持文本形式的query来查询不包含text metadata的image,但是这些image往往具有keyword、class labels

2)[3]是一个列外,它从image和text上学习了“latent-space”

3)更高级的系统[22,28]通过fusing features from different models into a single vector,或者先为不同的模式学习不同的模型之后再fusing outputs[16,27]

4)上述方法的输入基本都要求both image and text features

5)当前已经有方法通过将image和text映射到同一空间进而支持相关性计算[25]

三、Mutual-Summarization

1、Image Summarization

简化为检索问题Image->Sentence

进一步引入ITJS数据,I->S ≈ I->D + D->S≈I->ID + ID->TD + TD->S ,其中D=

重要假设:在ITJS空间里,属于同D的I和T是语义相关的。因此,简化为两个问题:image classification 和自动文本summarization

1)自动文本Summarization

采用MEAD[24]系统生成文本的summarization,MEAD实现了多种摘要的算法,例如position-based的,Centroid,TF*IDF,和Query-based。两个baseline的摘要方法:lead-based 和random-based,前者按顺序取cluster中所有doc的首句and依次往后的句子;对应的random方法从cluster中随机选择句子。本文采用lead-based的单个文档的摘要生成。采用的压缩比是25%。

2)Image Classification

简化为6-class的图像分类任务。分类采用的多核SVM(Multiple Kernel SVM,MK-SVM)[8,26],并和MK-KNN和SCA[25]做了比较

a)MK-SVM

特征:optimal combination of state-of-art features and spatial pyramid levels,by using the MKL technique

模型:H(I,Y,Θ)=Sum Θi * [K(α(I),α(Ii)),Yi]

α表示图片的特征描述,Yi是类标,K是a positive definite kernel, obtained as a liner combination of histogram kernels。

核:K(α(I),α(Ii))= sum 1to#α  βk*k(αk(I),αk(Ii))

sum 1to#α βk = 1

其中,#α是描述图片的特征数,例如当有两类特征Color Histogram 和 Pyramid SIFT时,#α=2。

MKL 负责学习系数Θi 和 histogram combination weights βk ∈[0,1]

k作为核函数,考虑了3种类型(不同的判别能力和计算代价),该文的首选是histogram intersection kernel(The Histogram Intersection Kernel is also known as the Min Kernel and has been proven useful in image classification)

k(x,y) = sum{min(xi,yi)}

同时,该文也对比了RBF核和线性核来对比分类效果。

b)Multiple Kernel KNN(MK-KNN)

在KNN的基础上,对Similarity metric进行改动:s(x,y) = K(x,y)

c)Semantic Correlation Matching(SCM)

[25]使用Canonical correlation analysis(CCA,典型关联分析)来分别为图片和文本学习canonical components,wi 和wt。

3)Sentence Selection

在图片分类过程后,一个新的图片I可以被映射到ID。根据M(ID-TD)和M(TD-S),可以死得到一系列sentence S ,ranked by 与I的置信度Confidence。

Con f(x,y) = K (x,y), Conf(I,S) ≈ Conf(I,ID)

2、Text Visualization

上一篇下一篇

猜你喜欢

热点阅读