使用Google BIG Query进行专利大数据分析
使用Google BIG Query进行专利大数据分析
专利分析
专利挖掘
机器学习
序
专利分析的核心在于对专利数据库的分析,传统的获取专利数据的方式包括访问专利数据库或提供专利数据服务的网站等。
专利数据库包括:
专利数据库
- SIPOABS,德温特专利数据库
提供专利服务的网站:
- Soopat,PatExplorer
- Google Patents
关于Google Patents Public Data
QQ图片20180524105259.png-54kB相对于前面介绍的其他专利分析的工具,使用Google专利分析最大的优势是免费。目前国内的提供专利检索服务的网站大多收费不菲,并且一般是面向公司企业或者国知局,对于有志于从事专利分析的个人研究者不够友好。更令人发指的是做专利分析最主要的专利著录项目导出功能是百分之百收费的,例如你想要将几万条专利数据导出进行作图,或者聚类,甚至深度学习,不交钱基本上就可以断了这个念想了。
好在,我们还有神圣的Google,Google Patents Public Data,和Google BIG Query的圣三位一体。
什么是 Google BIG Query
Google BIG Query是谷歌的开源大数据分析平台,目前Google将其专利数据库Google Patents Public Data放到了Google BIG Query上,用户可以通过在网页端使用standard SQL进行查询,也可以通过外部调用Google BIG Query API的方式使用其他语言,例如C# LINQ等工具,更方便地进行数据分析。相对于在专利检索网站上进行特定字段的检索,使用逻辑丰富的Standard SQL或者是更为强大的高级程序语言来进行数据挖掘则毫无疑问地更具优势。而使用Google BIG Query访问GPPD数据库最大的优势是,所有的结果可以以JSON格式全部导出。
而且,不花一分钱。
Google Patents Public Data的专利数据全面吗
Google Patents Public Data数据库目前收录了IFI CLAIMS PatentsServices和Google自己的专利数据库,数据目前已经更新到2018年5月。数据集大概有803G左右,从数据的全面性来讲,甚至超越了大多数国内的专利分析网站的数据库覆盖面。
实战演练
专利分析的Hello World!
在本节中,我们来做一个统计全球范围的国家专利排名分析。看一看哪个国家才是最可怕的专利申请狂魔。
TIPS: 使用Google Big Query服务需要有Google账号和Google BIG Query的账号,注册即可。
进入Google BigQuery网站后可以从左栏查看数据集的一览表。
首先我们选择patents-public-data数据库的patents.publications数据集。可以看到这个数据集有809GB,目前收录了SIPO和USPTO的专利信息。在点进去的Detail里可以看到数据库的最后修改日期。
右栏的编辑框是输入SQL查询语句的。目前网页版仅支持使用Standard SQL和Legacy SQL进行查询,如果需要使用高级语言进行查询,需要在外部调用API,这篇教程就先略过,感兴趣的读者可以自行在网站中查看手册。
接下来我们在右边编辑框中输入:
SELECT COUNT(*) AS cnt, country_code
FROM (
SELECT ANY_VALUE(country_code) AS country_code
FROM `patents-public-data.patents.publications` AS pubs
GROUP BY application_number
)
GROUP BY country_code
ORDER BY cnt DESC
上边我们输入了SQL语言进行查询,限于篇幅,本教程就不具体介绍SQL语言的具体语法了,想要了解的读者可以访问W3C School的网站更深一步了解。
OK,点击下方的Run Query
按钮
Row | cnt | country_code |
---|---|---|
1 | 17918180 | JP |
2 | 14422640 | CN |
3 | 12625901 | US |
4 | 6624616 | DE |
5 | 3540879 | KR |
6 | 3270080 | EP |
7 | 3223992 | WO |
8 | 2897010 | GB |
9 | 2430467 | FR |
10 | 2409075 | CA |
11 | 1158394 | ES |
12 | 994885 | RU |
13 | 583894 | BE |
14 | 540418 | NL |
15 | 414163 | DK |
16 | 222505 | FI |
17 | 61829 | LU |
几秒钟之后,表格已经显示在下栏了,速度是不是远超其他专利分析工具?
从上表中能够直观的看到,专利数量排名第一的还是日本,接下来是中国和美国。
如何导出分析结果
在分析表格的右上角有四个按钮,分别是Download as CSV
,Download as JSON
,Save As Table
,Save As Google Sheet
一般来讲,普通的分析使用Download as CSV
即可。CSV文件,即逗号分隔文件,可以用EXCEL直接打开。如果想使用编程的方式对结果进行分析或者在Web端对数据进行呈现,也可以方便的使用Download as JSON
。
小结
使用Google BigQuery能够做到的分析远比上述举例更加丰富,由于强大的SQL查询语法,你可以自定义包含丰富逻辑层次的查询表达式,你甚至还可以对分析结果进行进行基于机器学习的数据挖掘。虽然Google云计算每日在并发线程,数据处理总量上还是存在一些限额,然而对于一般的专利分析用户也是完全能够满足使用需求了