关于使用jq 处理json格式的简单笔记

2021-08-07 本文已影响0人 My熊猫眼

json格式包含有如下的基本类型：数字，字符串，false, true, null
而由基本类型组成的复合类型有：数组，对象；其中数组是以 [ ] 进行标记的，而对象是以 { } 进行标记;

jq 这个命令用来处理json数据格式，非常方便，简单记录其常用的使用方法如下：
A. 对于数组的处理：
1). 如果 jq 要处理的json是数组类型，那么用 “jq .[ ]” 可以将数组的最外层的[ ] 标记脱掉, 从而变成对象类型。
2). 上述命令的中括号里面可以带有参数，这个参数就是数组的下标，这个下标从前向后最小是 0，最大值没有限制，如果超出，那么就会return null. 同时支持下标从后向前基数，最小为-1. 但是参数的值除了数字，不可以是空格. 同时数组的下表支持切片，也就是 [2:7] 或者 [1,2,5,7] 这种格式都是支持的.
B. 对于对象的处理：
1). 因为对象里面的每个元素都是 key:value的形式存在，虽然value 也可以是一个复合类型，但是不影响 key:value 这种格式，所以对于对象，通常用 jq .key 这种方式来获取对应key的value. 其中key 在这里可以不用引号括起来,当然也可以用引号括起来,反正key都是字符串类型。
2). 如果要获得对象所有元素的key值，那么要把 |keys 串接在对象后面，需要注意的是这里不是利用的shell的管道，而是jq内置的管道，所以属于jq的参数的一部分. 例如：

[root@localhost Desktop]# cat t | jq .[0]         #获得的结果是一个json 对象. 
{   
  "cloudName": "ACl",
  "hom": "33ac8Xc",
  "id": "c2X8",
  "isDefault": true,
  "managedByms": [],
  "name": "Ation 1",
  "state": "Enabled",
  "DId": "3Xcd90ff72c2c",
  "user": {
    "name": "1Da",
    "type": "seDl"
  }
}
[root@localhost Desktop]# cat t | jq ".[0]|keys"   #获取所有的key值，如果value 依然是对象，那么这里不会列出value中对象的key值. 
[
  "cloudName",
  "hom",
  "id",
  "isDefault",
  "managedByms",
  "name",
  "state",
  "DId",
  "user"
]

其实 keys 属性不仅仅支持对象，也支持json 数组，比如：

[root@localhost Desktop]# echo '["china","chinese","CHINA"]' | jq '.|keys'
[
  0,
  1,
  2
]

3). 判断是否存在某个key.
在上面利用jq内置的 keys 属性，可以获取所有的key, 其实还有jq内置的has 方法，这个方法可以判断对应的key是否存在. 例子如下：

[root@localhost Desktop]# cat t | jq '.[0]|has("users")'
false
[root@localhost Desktop]# cat t | jq '.[0]|has("user")'
true
[root@localhost Desktop]#

4). jq 的查找结果避免输出错误，转而输出null
在查找条件的后面加上一个问号，那么如果找不到就不会输出任何的error, 相应的输出一个null来替代. 这个问号可以加在方法的后面(后面的例子中可以看到)。这在递归查找的时候非常有用;否则可能会出现报错的情形.
5). jq 的查找结果为空，避免输出null ,而是什么都不输出
目前不知道怎么实现，暂且用其他的linux 命令来过滤吧
6). 根据指定的关键字查找有该关键字的key，也就是模糊查找
jq 支持PCRE 正则表达式，所以支持模糊搜索，这里主要展示用scan 方法输出模糊搜索的结果. 用法实例如下：

[root@localhost Desktop]# cat t | jq '.[]|keys?|.[]|scan(".*ten.*",".*Ten.*",".*id.*")?'    #首先去掉 json 数组的 [ ] 符号， 然后调用keys 属性获得对应的keys 值，这时候的类型依然变成了数组，所以再次去掉数组的标志符号，从而变成了字符串，把这个字符串传递给scan 方法，从而输出模糊匹配的结果. 
"homeTenantId"
"id"
"managedByTenants"
"tenantId"
"id"

7). 根据指定的key, 查找嵌套对象中所有该key的value,输出该value
使用 .. 或者 recurse 来表示递归查找，然后通过管道进行常规的查找就可以了，举例如下：

[root@localhost Desktop]# cat t | jq 'recurse|.id?'
"c22b1b54-fa25-4901-ad3f-d91836a747b8"
null
{
  "user": "multiple"
}
null
[root@localhost Desktop]# cat t | jq 'recurse|.user?'   #使用 recurse 内置方法
{
  "name": "1Da",
  "type": "sDl"
}
null
null
"multiple"
[root@localhost Desktop]# cat t | jq '..|.user?'        #使用 .. 来表示递归，和recurse 一样；
{
  "name": "1Da",
  "type": "sDl"
}
null
null
"multiple"

8). 如何将匹配key 的 key 和value 一起进行输出?

az vm get-instance-view -g rgtest -n rheltest |jq  '..|{name:.name?}'

yan@Azure:~$ az vm get-instance-view  -g rgtest -n rheltest | jq '..|{name:.name?}|select(.name!=null)'       #通过select 方法实现非空输出,并且输出结果是key:value的方式
{
  "name": "rheltest"
}
{
  "name": "rheltest_OsDisk_1_beee1fadb3de4ac0846a48c9df7c73b5"
}
{
  "name": "OmsAgentForLinux"
}
{
  "name": "rheltest_OsDisk_1_beee1fadb3de4ac0846a48c9df7c73b5"
}

yan@Azure:~$ az vm get-instance-view  -g rgtest -n rheltest | jq '..|.name?|select(.!=null)'      #通过select进行非空输出，并且输出结果是 value方式；
"rheltest"
"rheltest_OsDisk_1_beee1fadb3de4ac0846a48c9df7c73b5"
"OmsAgentForLinux"
"rheltest_OsDisk_1_beee1fadb3de4ac0846a48c9df7c73b5"

以上的命令表示递归方式，获取Key为name的所有key:value对，并以key:value的方式进行输出，但是空的字典对象如何排除呢？目前还没有发现好的解决方法

9). 因为keys 属性支持对象的同时，也支持数组，所以如何来剔除数组而只是要对象的keys呢？
有一个walk 方法可以实现，但是不常用，所以这里不做讨论.
10).嵌套的模糊查找，上面描述了用scan进行模糊查找，以及用recurse来进行嵌套，如何两者结合呢？
因为scan方法只能够作用于字符串，所以不可以简单的将recurse和scan 结合起来使用，这里需要通过keys来实现嵌套的模糊查询. 举例如下：

[root@localhost Desktop]# cat t | jq '.[]|keys?|.[]|scan(".*use.*")?'  #直接的模糊查询，只能找到一个key.
"user"
[root@localhost Desktop]# cat t | jq '.[]|..|keys?|.[]|scan(".*use.*")?' #先通过嵌套输出所有的key, 然后再模糊查询. 得到的是两个key. 
"user"
"user"
[root@localhost Desktop]#

11). 其他使用小tips：
在可以使用 .key1.key2 这种情况下，也可以使用 .key1|.key2 的格式，个人更倾向于使用 .key1|.key2 ，因为看起来更清晰明了. 比如下面的例子.

[root@localhost Desktop]# cat t| jq .[0].user
{
  "name": "1c56a18a-8458-486d-85a9-2e2ac4db47da",
  "type": "servicePrincipal"
}
[root@localhost Desktop]# cat t| jq .[0]|.user
bash: .user: command not found...
[root@localhost Desktop]# cat t| jq '.[0]|.user'
{
  "name": "1c56a18a-8458-486d-85a9-2e2ac4db47da",
  "type": "servicePrincipal"
}
[root@localhost Desktop]#

在大多数情况下我们看到的json 复合格式最外层都是数组的形式，而不是对象的形式，这个是因为什么原因呢？因为json的对象必须是 key:value 的格式，虽然value 也可以是一个复合格式，但是一定需要key:value 形式，而数组的不同元素的类型之间没有任何的关联，同一个数组，既可以包含有字符串元素，也可以包含对象元素，还可以包含数字... ，因此一个复合类型的 json格式一般最外层都是数组的形式.

最常使用的一种场景如下：

首先用模糊查询,配合递归查找相应的key；-----简言之，就是找到key
然后用特定的key, 配合递归查询找到所有的结果；------简言之，就是依据key遍历到所有的值
最后对上述的结果做进一步的处理得到需要的结果. -----简言之，对得到的值做进一步的过滤获得真正需要的结果
简单例子如下下：

[root@localhost Desktop]# cat t | jq '.[]|..|keys?|.[]|match(".*use.*"; "ig")?|.string'        #这里使用 match 方法而不是使用 scan方法，因为scan方法不知道怎么忽略大小写. 其中flag 是 i, g ；分别表示忽略大小写，以及global match. 最终匹配到的key是如下的4个
"UseAT"
"user"
"username"
"username"
[root@localhost Desktop]# cat t | jq '.[]|..|.username?' | grep -Evi null     #通过递归输出username 这个key的所有value.  
"unknown"
"multiple"
#最后需要找到真正需求的值，这个根据具体情况来实现，这里不展示. 
[root@localhost Desktop]# az account show | jq '..|keys?|.[]|match(".*tenant.*",".*home.*";"ig")|.string'      #其实match 可以实现多个条件写到一起，当这样做的时候，多个条件之间是 逻辑或的关系，并且是以 逗号进行分割的；而 flag 则是 分号进行分割的；
"homeTenantId"
"homeTenantId"
"managedByTenants"
"tenantId"
[root@localhost Desktop]#

简单总结：

通过模糊搜索，然后导出所有相关的key

yan@Azure:~$ az vm get-instance-view -g rgtest -n rheltest | jq '..|keys?|.[]|scan(".*name.*")'
"name"
"name"
"adminUsername"
"name"
"name"
yan@Azure:~$

利用上一步的key, 然后输出对应的value或者key:value, 并且排除结果是null的值；

yan@Azure:~$ for i in `az vm get-instance-view -g rgtest -n rheltest | jq '..|keys?|.[]|scan(".*name.*")' `;do az vm get-instance-view -g rgtest -n rheltest |jq "..|.$i?|select(.!=null)";done

yan@Azure:~$for i in `az vm get-instance-view -g rgtest -n rheltest | jq '..|keys?|.[]|scan(".*name.*")' `;do az vm get-instance-view -g rgtest -n rheltest |jq "..|{$i:.$i?}|select(.$i!=null)"; done

关于使用jq 处理json格式的简单笔记

最常使用的一种场景如下：

猜你喜欢

热点阅读