信息计量学|搜索引擎的使用
在计量研究中有个重要的研究方法——链接分析法。由此产生出了机构的网络影响力等一系列的研究主题。而链接数据的获取往往来自于搜索引擎的搜索结果,那么,百度、google、yahoo……这些搜索引擎具有哪些功能呢?
一、Yahoo!
由于yahoo拥有多国语言版本,各个版本的搜索引擎索引并不相同,因此此处选择了美国yahoo网站作为研究对象(https://www.yahoo.com/)。
1.Yahoo!的基本检索
Yahoo!的基本检索只有一个搜索框,在搜索框中使用特定的符号来进行检索。
使用双引号精确检索结果”” ,用加号表示并的关系+,用减号表示排除的关系。用OR表示或的关系。
有一些高级搜索的功能也能够通过在基本检索中输入特定语句来实现。
学生 site:www.pku.edu.cn(在北京大学的网站中搜索包含学生一词的网页)
2.Yahoo的高级搜索
Yahoo的高级搜索较难找到,但所能进行的检索功能却很丰富。如果找不到高级搜索入口的读者可以直接在地址栏键入以下地址(https://search.yahoo.com//web/advanced)。
高级搜索界面概览如下所示:
Yahoo的高级搜索的搜索功能包括:
- 搜索精确词/排除某些词
- 在特定域和网站中进行搜索
- 搜索特定的文件类型,包括.html/.PDF/.xls/.ppt/.doc/.txt
- 限定网站/网页所属的国家
- 限定每页显示的结果数
实践发现,Yahoo!能够进行网站规模的检索(网站中包含的网页总数量),url提及(网站中包含某一特定utl的网页数),网站文档丰富度检索(网站中包含的特定文档的数量)。
二、google
google是在论文中出现频次很高的搜索引擎,这一方面有历史原因,也是因为google本身也具备其他搜索引擎不具备的优点。目前国内如果不在某些特定的IP地址内,是无法正常使用google的,此处请大家自行学习科学上网。
1.google的基本检索
google的基本检索不区分大小写
可以在搜索时使用符号或字词,以便让搜索结果更加精确
符号/字词和搜索字词之间不能加上空格 ,例如site:www.sysu.edu.cn可以正常搜索,但site: www.sysu.edu.cn则会失效。
搜索完全匹配的结果:为字词或短语加上引号。例如:"tallest building"。
搜索通配符或未知字词:在字词或短语中您要放置占位符的地方加上 *。例如:"largest * in the world"。
从搜索结果中排除特定字词:在您要排除的字词前加上 -。例如:jaguar speed -car
组合搜索:在各个搜索查询之间加上“OR”。例如:marathon OR race。
搜索特定网站:在相应网站或域名前加上“site:”。例如:site:youtube.com 或 site:.gov。
查看网站的 Google 缓存版本:在相应网址前加上“cache:”。例如:cache:pku.edu.cn
2.google的高级检索
谷歌高级搜索的界面相对较好进入,在一般的谷歌搜索界面的设置中即可找到,如下图所示
高级搜索
同样也可以点击下方的链接直接进入google高级搜索https://www.google.com.hk/advanced_search?gws_rd=cr
高级搜索界面如下所示:
高级搜索2
具体的功能包括了:
- 搜索精确词/排除某些词
- 限制网页语言
- 限制网页的国家和地区
- 限制最后更新实践
- 在特定的网站或网域中进行搜索
- 限定检索词在网页上出现的位置:任意/网页标题/网页文本/网页网址中/指向网页的链接中
- 搜索特定文件类型:.pdf/.ps/.dwf/.kml/.kmz/.xls/.ppt/.doc/.rtf/.swf
谷歌帮助地址:
实践发现,Google能够进行网站规模的检索(网站中包含的网页总数量),url提及(网站中包含某一特定utl的网页数),网站文档丰富度检索(网站中包含的特定文档的数量)。限定检索词在网页上出现的位置更加丰富。
三、 bing
1. bing的基本检索
+查找包含前面带+好号的所有术语的网页
""完全匹配精确查找
AND或&查找包含所有术语或短语的网页
OR或|查找包含某个术语或短语的网页
NOT 或 –排除包含某个术语或短语的网页
默认情况下,所有搜索都是AND搜索。逻辑运算符必须大写,否则会作为非索引字而忽略。
2. bing的高级检索
bing并未设置专门的高级搜索页面,仅将关键词的使用视为高级检索功能,这些关键词包括:
检索关键词
注意:在这些关键字的冒号后面不要加入空格。
实践发现,bing可以进行网站规模的检索(网站的网页总数)、网站文档丰富度检索(网站中包含的特定文档的数量)、特定国家网页检索。
四、 Baidu
1.Baidu的基本检索
限制在特定站点:site:xinhuanet.com
限定在标题中检索关键词:intitle:北京大学
限定在url中检索关键词:inurl:北京大学
检索结果页面可以限定时间、网页类型
搜索结果界面
2、 Baidu的高级检索
baidu的高级搜页同样没有明显的链接,需要使用请点击下面的链接(https://www.baidu.com/gaoji/advanced.html)。
百度的高级搜索主要包括了以下功能:
- 限定搜索结果包含全部关键词/完整关键词/任意关键词/不包括以下关键词
- 限制搜索结果显示条数
- 限定要搜索的网页时间
- 限定网页语言:全部/简体中文/繁体中文
- 限制搜索网页的格式:所有/.pdf/.doc/.xls/.ppt/.rtf
- 限制关键词所在位置:网页的任何地方/网页标题/网页的URL
- 限定搜索的网站
实践发现,baidu可以进行网站规模的检索(网站的网页总数)、网站文档丰富度检索(网站中包含的特定文档的数量)、网页的URL提及检索。
五、覆盖率比较
对不同搜索引擎检索效果及索引覆盖率进行调研。通过检索网站网页数量,以“北京大学”和“哈佛大学”为检索域。分别在几个搜索引擎中进行检索,得到如下结果。
对比表
由表可以看出,尽管四个主流搜索引擎均有检索网页总数的功能,但由于其索引的不同,检索结果也存在较大的差异,以大学为例,国内大学在国内搜索引擎中索引较多,在国外搜索引擎中索引较少。而国外大学则与此相反,呈现国内搜索引擎索引结果较少,国外搜索引擎索引较多的结果。因此在研究中需要根据所研究网站类型的不同选择相应的搜索引擎。
六、链接检索功能
经过对四个搜索引擎进行实践测试,发现四个搜索引擎均已经不再提供链接检索的服务,因此当前的链接分析研究已无法通过主流商业搜索引擎来获取数据,链接数的获取还有哪些工具仍需进一步研究。