2023-02-26linux 多个文件内容查找,Linux 根
2023-02-25 本文已影响0人
麦冬花儿
有文本1.txt,内容如下:
{"phone":"18633333333","code":"333333"}
{"phone":"18611111111","code":"111111"}
{"phone":"18655555555","code":"555555"}
{"phone":"18644444444","code":"444444"}
{"phone":"18622222222","code":"222222"}
有文本2.txt,内容如下:
18600000000
18633333333
18699999999
18611111111
18655555555
需求
找出1.txt中的phone字段是否在2.txt中,若存在,则输出完整的json串。
解决
方法一
遍历2.txt,逐行去1.txt中grep,输出到3.txt。
cat 2.txt | while read line
do
grep $line 1.txt >> 3.txt
done
3.txt中内容:
{"phone":"18633333333","code":"333333"}
{"phone":"18611111111","code":"111111"}
{"phone":"18655555555","code":"555555"}
方法二(推荐)
由于博主之前清洗数据时两个文件都200多兆,使用while read line循环读取非常耗时。
使用awk合并两个文件
以:作为分隔符
逐行扫描,当ARGIND是文件1取分隔后的第四个元素作为key,整个一行原始字符串作为value,加入到awk数组(也可理解为map集合)
逐行扫描,当ARGIND是文件2时判断第一个元素是否存在数组中(awk判断的是key是否存在)
awk -F'"' '{if(ARGIND==1)phones[$4]=$0}{if(ARGIND>1 && ($1 in phones))print phones[$1]}' 1.txt 2.txt
输出:
{"phone":"18633333333","code":"333333"}
{"phone":"18611111111","code":"111111"}
{"phone":"18655555555","code":"555555"}
特别注意
需关注两个文件的文件格式,必须一致,否则会出现问题。
建议都转为unix编码格式。
方法三:
#!/usr/bin/bash
for j in `ls $1/*/*_nv.tsv` #我的目标文件是以_nv.tsv结尾的,所以将他们全列出
do
jj=${j##*/}
jjj=${jj%_*}
echo $jjj >> testnv.txt #将文件名带出来,前面的jjj是字符串截取,不要路径和后缀只要文件名
for i in `awk '{print $2}' new.txt` #查找的元素在new.txt的第二列
do
grep $i $j >> testnv.txt #grep会将含有查找元素的那一行全部找到,追加写入到结果文件
done
done
方法四
#!/usr/bin/bash
for j in `ls $1/*/*_nv.tsv` #我的目标文件是以_nv.tsv结尾的,所以将他们全列出
do
jj=${j##*/}
jjj=${jj%_*}
echo $jjj >> testnv.txt #将文件名带出来,前面的jjj是字符串截取,不要路径和后缀只要文件名
for i in `awk '{print $2}' new.txt` #查找的元素在new.txt的第二列
do
if grep -q $i $j #grep到了就将j文件包含i行的一整行写入文件,行首加文件名
then
grep $i $j | sed 's/^/'"$jjj"' /' >> $2/t.tsv
else
echo "${jjj} 0 nomatchfor${i} " >> $2/snv_freq_t.tsv #没grep到就在第一列写入“nomatchfor查找的文本”
fi
done
done
参考:
https://blog.csdn.net/weixin_39662955/article/details/116547137
https://www.cnblogs.com/YlnChen/p/16647342.html