23.1-argparse模块-ls命令实现-单词统计进阶-配置

2019-10-16 本文已影响0人 BeautifulSoulpy

层次高的人，往往都很低调，因为他们活在自己的世界里；
层次低的人，往往都很高调，因为他们活在别人的世界里；

人生本过客，何必千千结，想拥有就去努力，努力过后就不在乎结果。成功是付出的收获，失败也是正常的历练。而所有功名利禄实际是早早晚晚的一场云烟，真正拥有的是自己的心情，何必不能释怀，妄自空折磨自己!

本章节是大数据的核心代码？？？

总结：

文本文件一般是一行行处理，二进制文件是一次性处理；一行行处理，利用生成器是Python写法；

函数的封装，函数名一般不大写；

参数动作 定义了解析器在接收到参数后该如何处理参数，那么 参数类别 就是告诉解析器这个参数的元信息，也就是参数是什么样的。比如，参数是字符串呢？还是布尔类型呢？参数是在几个值中可选的呢？还是可以给定值，等等。

Python解析命令行读取参数有两种方式：sys.argv和argparse

argparse

在工作业务中，有些函数的调用要尽量傻瓜，能够让其他人能够方便地调用，毕竟甲方是爸爸。

假设我有一个python程序，姑且叫extract_WRF.py，内部代码如下例子一，脚本中的main主函数功能简化为打印出输入的参数，即：

print(zone,input_source_dir,output_source_dir,features,levels)

参数有zone,input_source_dir,output_source_dir,feature,levels,但是该函数print不能在命令行运行，只能在脚本内部调用，于是我们需要python标准库内的argparse[1]来帮忙。

使用步骤：

1）import argparse 首先导入模块
2）parser = argparse.ArgumentParser（）创建一个解析对象
3）parser.add_argument() 向该对象中添加你要关注的命令行参数和选项
4）parser.parse_args() 解析命令行

2. 设置解析器

第一步要做的就是设置解析器，后续对命令行的解析就依赖于这个解析器，它能够将命令行字符串转换为 Python 对象。通过实例化 argparse.ArgumentParser，给定一些选填参数，我们就可以设置一个解析器：

import argparse
parser = argparse.ArgumentParser(
    description='My Cmd Line Program',
)

对于第2步，通过help parser ,显示其参数有：

ArgumentParser	-
- pro	--程序名称，默认为 sys.argv[0]
-usage	--用法信息，默认从参数自动获取
-description	-- 描述项目是做什么的
-epilog	--紧随着参数描述（argument）的文本
-formatter_class	--自定义帮助信息的格式
-prefix_chars	-- 命令行的前缀
- fromfile_prefix_chars	-- 额外的参数应该读取的文件的前缀字符集（默认:None）
- argument_default	-- 参数的全局默认值（默认：None）
- conflict_handler	--解决冲突的可选策略
-add help	- 给解析器添加-h/–help 选项（默认: True）

3.定义参数

通过 ArgumentParser.add_argument 方法来为解析器设置参数信息，以告诉解析器命令行字符串中的哪些内容应解析为哪些类型的 Python 对象，如：

# 添加 nums 参数，在使用信息中显示为 num
# 其类型为 int，且支持输入多个，且至少需要提供一个
parser.add_argument('nums',  metavar='num', type=int, nargs='+',
                    help='a num for the accumulator')
# 添加 --sum 参数，该参数被 parser 解析后所对应的属性名为 accumulate
# 若不提供 --sum，默认值为 max 函数，否则为 sum 函数
parser.add_argument('--sum', dest='accumulate', action='store_const',
                    const=sum, default=max,
                    help='sum the nums (default: find the max)')

argparse 支持的参数

3.1 参数动作

action，也就是参数动作，究竟是用来做什么的呢？

想象一下，当我们在命令行输入一串参数后，对于不同类型的参数是希望做不同的处理的。那么参数动作其实就是告诉解析器，我们希望对应的参数该被如何处理。比如，参数值是该被存成一个值呢，还是追加到一个列表中？是当成布尔的 True 呢，还是 False？

参数动作被分成了如下 8 个类别：
store —— 保存参数的值，这是默认的参数动作。它通常用于给一个参数指定值，如指定名字：

>>> parser.add_argument('--name')
>>> parser.parse_args(['--name', 'Eric'])
Namespace(name='Eric')

store_const—— 保存被 const 命名的固定值。当我们想通过是否给定参数来起到标志的作用，给定就取某个值，就可以使用该参数动作，如：

>>> parser.add_argument('--sum', action='store_const', const=sum)
>>> parser.parse_args(['--sum'])
Namespace(sum=<built-in function sum>)
>>> parser.parse_args([])
Namespace(sum=None)

store_true 和 store_false —— 是 store_const 的特殊情况，用来分别保存 True 和 False。如果为指定参数，则其默认值分别为 False 和 True，如：

>>> parser.add_argument('--use', action='store_true')
>>> parser.add_argument('--nouse', action='store_false')
>>> parser.parse_args(['--use', '--nouse'])
Namespace(nouse=False, use=True)
>>> parser.parse_args([])
Namespace(nouse=True, use=False)

append —— 将参数值追加保存到一个列表中。它常常用于命令行中允许多个相同选项，如：

>>> parser.add_argument('--file', action='append')
>>> parser.parse_args(['--file', 'f1', '--file', 'f2'])
Namespace(file=['f1', 'f2'])

append_const —— 将 const 命名的固定值追加保存到一个列表中（const 的默认值为 None）。它常常用于将多个参数所对应的固定值都保存在同一个列表中，相应的需要 dest 入参来配合，以放在同一个列表中，如：

不指定 dest 入参，则固定值保存在以参数名命名的变量中

>>> parser.add_argument('--int', action='append_const', const=int)
>>> parser.add_argument('--str', action='append_const', const=str)
>>> parser.parse_args(['--int', '--str'])
Namespace(int=[<class 'int'>], str=[<class 'str'>])

指定 dest 入参，则固定值保存在 dest 命名的变量中

>>> parser.add_argument('--int', dest='types', action='append_const', const=int)
>>> parser.add_argument('--str', dest='types', action='append_const', const=str)
>>> parser.parse_args(['--int', '--str'])
Namespace(types=[<class 'int'>, <class 'str'>])

count —— 计算参数出现次数，如：

>>> parser.add_argument('--increase', '-i', action='count')
>>> parser.parse_args(['--increas', '--increase'])
Namespace(increase=2)
>>>parser.parse_args(['-iii'])
Namespace(increase=3)

help —— 打印解析器中所有选项和参数的完整帮助信息，然后退出。
version —— 打印命令行版本，通过指定 version 入参来指定版本，调用后退出。如：

>>> parser = argparse.ArgumentParser(prog='CMD')
>>> parser.add_argument('--version', action='version', version='%(prog)s 1.0')
>>> parser.parse_args(['--version'])
CMD 1.0

3.2 参数类别

参数动作 定义了解析器在接收到参数后该如何处理参数，那么 参数类别 就是告诉解析器这个参数的元信息，也就是参数是什么样的。比如，参数是字符串呢？还是布尔类型呢？参数是在几个值中可选的呢？还是可以给定值，等等。逐一介绍不同类型的参数。

可变参数列表

可变参数列表用来定义一个参数可以有多个值，且能通过 nargs 来定义值的个数。

nargs=N，N为一个数字，则要求该参数提供 N 个值，如：

>>> parser.add_argument('--foo', nargs=2)
>>> print(parser.parse_args(['--foo', 'a', 'b']))
Namespace(foo=['a', 'b'])
>>> print(parser.parse_args(['--foo', 'a', 'b', 'c']))
usage: [-h] [--foo FOO FOO]
: error: unrecognized arguments: c

nargs=?，则要求改参数提供 0 或 1 个值，如：

>>> parser.add_argument('--foo', nargs='?')
>>> parser.parse_args(['--foo'])
Namespace(foo=None)
>>> parser.parse_args(['--foo', 'a'])
Namespace(foo='a')
>>> parser.parse_args(['--foo', 'a', 'b'])
usage: [-h] [--foo [FOO]]
: error: unrecognized arguments: b

nargs=*，则要求改参数提供 0 或多个值，如：

>>> parser.add_argument('--foo', nargs='*')
>>> parser.parse_args(['--foo'])
Namespace(foo=[])
>>> parser.parse_args(['--foo', 'a'])
Namespace(foo=['a'])
>>> parser.parse_args(['--foo', 'a', 'b', 'c', 'd', 'e'])
Namespace(foo=['a', 'b', 'c', 'd', 'e'])

nargs=+，则要求改参数至少提供 1 个值，如：

>>> parser.add_argument('--foo', nargs='+')
>>> parser.parse_args(['--foo', 'a'])
Namespace(foo=['a'])
>>> parser.parse_args(['--foo'])
usage: [-h] [--foo FOO [FOO ...]]
: error: argument --foo: expected at least one argument

可选参数

可选参数 顾名思义就是参数是可以加上，或不加上。默认情况下，通过 ArgumentParser.add_argument 添加的参数就是可选参数。

我们可以通过 - 来指定短参数，也就是名称短参数；也可以通过 -- 来指定长参数，也就是名称长的参数。当然也可以两个都指定。

可选参数通常用于：用户提供一个参数以及对应值，则使用该值；若不提供，则使用默认值。如：

>>> parser.add_argument('--name', '-n')
>>> parser.parse_args(['--name', 'Eric'])  # 通过长参数指定名称
Namespace(name='Eric')
>>> parser.parse_args(['-n', 'Eric']) # 通过短参数指定名称
Namespace(name='Eric')
>>> parser.parse_args([]) # 不指定则默认为 None
Namespace(name=None)

参数类型

参数类型 就是解析器参数值是要作为什么类型去解析，默认情况下是 str 类型。我们可以通过 type 入参来指定参数类型。

argparse 所支持的参数类型多种多样，可以是 int、float、bool等，比如：

>>> parser.add_argument('-i', type=int)
>>> parser.add_argument('-f', type=float)
>>> parser.add_argument('-b', type=bool)
>>> parser.parse_args(['-i', '1', '-f', '2.1', '-b', '0'])
Namespace(b=False, f=2.1, i=1)

更厉害的是，type 入参还可以是可调用(callable)对象。这就给了我们很大的想象空间，可以指定 type=open 来把参数值作为文件进行处理，也可以指定自定义函数来进行类型检查和类型转换。

作为文件进行处理：

>>> parser.add_argument('--file', type=open)
>>> parser.parse_args(['--file', 'README.md'])
Namespace(b=None, f=None, file=<_io.TextIOWrapper name

使用自定义函数进行处理，入参为参数值，需返回转换后的结果。比如，对于参数 --num，我们希望当其值小于 1 时则返回 1，大于 10 时则返回 10：

>>> def limit(string):
...   num = int(string)
...   if num < 1:
...     return 1
...   if num > 10:
...     return 10
...   return num
...
>>> parser.add_argument('--num', type=limit)
>>> parser.parse_args(['--num', '-1'])  # num 小于1，则取1
Namespace(num=1)
>>> parser.parse_args(['--num', '15'])  # num 大于10，则取10
Namespace(num=10)
>>> parser.parse_args(['--num', '5'])  # num 在1和10之间，则取原来的值
Namespace(num=5)

参数默认值

参数默认值 用于在命令行中不传参数值的情况下的默认取值，可通过 default 来指定。如果不指定该值，则参数默认值为 None。

比如：

>>> parser.add_argument('-i', default=0, type=int)
>>> parser.add_argument('-f', default=3.14, type=float)
>>> parser.add_argument('-b', default=True, type=bool)
>>> parser.parse_args([])
Namespace(b=True, f=3.14, i=0)

位置参数

位置参数 就是通过位置而非是 - 或 -- 开头的参数来指定参数值。

比如，我们可以指定两个位置参数 x 和 y ，先添加的 x 位于第一个位置，后加入的 y 位于第二个位置。那么在命令行中输入 1 2的时候，分别对应到的就是 x 和 y：

>>> parser.add_argument('x')
>>> parser.add_argument('y')
>>> parser.parse_args(['1', '2'])
Namespace(x='1', y='2')

可选值

可选值 就是限定参数值的内容，通过 choices 入参指定。

有些情况下，我们可能需要限制用户输入参数的内容，只能在预设的几个值中选一个，那么可选值就派上了用场。

比如，指定文件读取方式限制为 read-only 和 read-write：

>>> parser.add_argument('--mode', choices=('read-only', 'read-write'))
>>> parser.parse_args(['--mode', 'read-only'])
Namespace(mode='read-only')
>>> parser.parse_args(['--mode', 'read'])
usage: [-h] [--mode {read-only,read-write}]
: error: argument --mode: invalid choice: 'read' (choose from 'read-only', 'read-w

互斥参数

互斥参数 就是多个参数之间彼此互斥，不能同时出现。使用互斥参数首先通过 ArgumentParser.add_mutually_exclusive_group 在解析器中添加一个互斥组，然后在这个组里添加参数，那么组内的所有参数都是互斥的。

比如，我们希望通过命令行来告知乘坐的交通工具，要么是汽车，要么是公交，要么是自行车，那么就可以这么写：

>>> group = parser.add_mutually_exclusive_group()
>>> group.add_argument('--car', action='store_true')
>>> group.add_argument('--bus', action='store_true')
>>> group.add_argument('--bike', action='store_true')
>>> parser.parse_args([])  # 什么都不乘坐
Namespace(bike=False, bus=False, car=False)
>>> parser.parse_args(['--bus'])  # 乘坐公交
Namespace(bike=False, bus=True, car=False)
>>> parser.parse_args(['--bike'])  # 骑自行车
Namespace(bike=True, bus=False, car=False)
>>> parser.parse_args(['--bike', '--car'])  # 又想骑车，又想坐车，那是不行的
usage: [-h] [--car | --bus | --bike]
: error: argument --car: not allowed with argument --bike

4.解析命令行

定义好参数后，就可以使用 ArgumenteParser.parse_args 方法来解析一组命令行参数字符串了。

默认情况下，参数取自 sys.argv[1:]，它就是你在命令行敲入的一段命令（不含文件名）所对应的一个字符串列表。比如，若你输入 python3 cmd.py --sum 1 2 3，那么 sys.argsv[1:] 就是 ['--sum', '1', '2', '3']。

当然，也可以通过 parse_args 入参来指定一组命令行参数字符串：

args = parser.parse_args(['--sum', '-1', '0', '1'])
print(args) # 结果：Namespace(accumulate=<built-in function sum>, nums=[-1, 0, 1])

5.业务逻辑

解析好命令行后，我们就可以从解析结果中获取每个参数的值，进而根据自己的业务需求做进一步的处理。比如，对于上文中所定义的 nums 参数，我们可以通过解析后的结果中的 accumulate 方法对其进行求最大值或求和（取决于是否提供 --sum 参数）。

result = args.accumulate(args.nums)
print(result)  # 基于上文的 ['--sum', '-1', '0', '1'] 参数，accumulate 为 sum 函数，其结果为 0

依次增加所需参数，并规定其是否是必须参数、类型、默认值、个数。比如required = True 规定其为必要参数，type=str 定义其为字符串，默认值为‘d02’,帮助信息为’WRF模拟区域d01,d02,d03中的一个‘。

import argparse

parser = argparse.ArgumentParser(
    prog='ls',
    description='List information about the FILEs.',
    add_help=True)   #  1. 设置一个参数解析器
# ls/etc
parser.add_argument('path')     #  2. 定义参数
parser.add_argument('-l')
parser.add_argument('-a','--all')
# parser.add_argument('integers', metavar='N', type=int, nargs='+',
#                     help='an integer for the accumulator')
# parser.add_argument('--sum', dest='accumulate', action='store_const',
#                     const=sum, default=max,
#                     help='sum the integers (default: find the max)')

args = parser.parse_args(('/venv',))   # 解析命令行
parser.print_help()  # 打印帮助；
print(args)

# 4. 业务逻辑
result = args.accumulate(args.nums)
print(result)
#-----------------------------------------------------------------------------------------------------
C:\Users\Administrator\PycharmProjects\learn\venv\Scripts\python.exe C:/Users/Administrator/PycharmProjects/learn/t2.py
usage: ls [-h] [-l L] [-a ALL] path

List information about the FILEs.

positional arguments:
  path

optional arguments:
  -h, --help         show this help message and exit
  -l L
  -a ALL, --all ALL
Namespace(all=None, l=None, path='/venv')
Process finished with exit code 0

对于 features 参数，我们利用nargs来指定 featuers 参数后面的值有多少个，默认为1，本文例子中定义为*，代表无穷多个，即nargs *来表示如果有该位置参数输入的话，之后所有的输入都将作为该位置参数的值。

练习3：ls命令实现

import argparse
from pathlib import Path

parser = argparse.ArgumentParser(
    prog='ls',
    description='List information about the FILEs.',
    add_help=True)   #获得一个参数解析器
# ls/etc
parser.add_argument('path',nargs='?',default='.',help='filepath')
parser.add_argument('-l',dest='list',action='store_true',help='use a long listing format')
parser.add_argument('-a','--all',action='store_true',help='do not ignore entries strating with .')

# parser.add_argument('integers', metavar='N', type=int, nargs='+',
#                     help='an integer for the accumulator')
# parser.add_argument('--sum', dest='accumulate', action='store_const',
#                     const=sum, default=max,
#                     help='sum the integers (default: find the max)')

args = parser.parse_args(('./venv'.split()))   # 分析参数


print('---------------------------------')
parser.print_help()  # 打印帮助；
print(args)
print('---------------------------------')
print(args.all,args.list,args.path)

def listdir(p:str,detail=True):
    path = Path(p)
    for x in path.iterdir():
        if detail:
            st = path.stat()
            print(st)
            #t = _getfiletype(path)
            #mode = _getmodestr(st.st_mode)
            mode = stat.filemode(st.st_mode)
            print(mode,x.name)
        else:
            print(x.name)


def _getfiletype(p:Path):
    if p.is_dir():
        return 'd'
    elif p.is_block_device():
        return 'b'
    elif p.is_char_device():
        return 'c'
    elif p.is_fifo():
        return'p'
    elif p.is_socket():
        return 's'
    elif p.is_symlink():
        return 'l'
    else:
        return '-'

modelist = ['r','w','x','r','w','x','r','w','x']
def _getmodestr(mode:int):
    mode = mode &0o777
    mstr = ''

    for i in range(8,-1,-1):
        m = mode >> i & 1
        if m:
            mstr += modelist[8-i]
        else:
            mstr += '-'
    return mstr
import stat

listdir(args.path)
#--------------------------------------------------------------
C:\Users\Administrator\PycharmProjects\learn\venv\Scripts\python.exe C:/Users/Administrator/PycharmProjects/learn/t2.py
---------------------------------
usage: ls [-h] [-l] [-a] [path]

List information about the FILEs.

positional arguments:
  path        filepath

optional arguments:
  -h, --help  show this help message and exit
  -l          use a long listing format
  -a, --all   do not ignore entries strating with .
Namespace(all=False, list=False, path='./venv')
---------------------------------
False False ./venv
os.stat_result(st_mode=16895, st_ino=3096224743906169, st_dev=3203957385, st_nlink=1, st_uid=0, st_gid=0, st_size=4096, st_atime=1570584513, st_mtime=1570584513, st_ctime=1568191868)
drwxrwxrwx Include
os.stat_result(st_mode=16895, st_ino=3096224743906169, st_dev=3203957385, st_nlink=1, st_uid=0, st_gid=0, st_size=4096, st_atime=1570584513, st_mtime=1570584513, st_ctime=1568191868)
drwxrwxrwx Lib
os.stat_result(st_mode=16895, st_ino=3096224743906169, st_dev=3203957385, st_nlink=1, st_uid=0, st_gid=0, st_size=4096, st_atime=1570584513, st_mtime=1570584513, st_ctime=1568191868)
drwxrwxrwx pyvenv.cfg
os.stat_result(st_mode=16895, st_ino=3096224743906169, st_dev=3203957385, st_nlink=1, st_uid=0, st_gid=0, st_size=4096, st_atime=1570584513, st_mtime=1570584513, st_ctime=1568191868)
drwxrwxrwx Scripts
os.stat_result(st_mode=16895, st_ino=3096224743906169, st_dev=3203957385, st_nlink=1, st_uid=0, st_gid=0, st_size=4096, st_atime=1570584513, st_mtime=1570584513, st_ctime=1568191868)
drwxrwxrwx t.py
os.stat_result(st_mode=16895, st_ino=3096224743906169, st_dev=3203957385, st_nlink=1, st_uid=0, st_gid=0, st_size=4096, st_atime=1570584513, st_mtime=1570584513, st_ctime=1568191868)
drwxrwxrwx t2.py
os.stat_result(st_mode=16895, st_ino=3096224743906169, st_dev=3203957385, st_nlink=1, st_uid=0, st_gid=0, st_size=4096, st_atime=1570584513, st_mtime=1570584513, st_ctime=1568191868)
drwxrwxrwx test5

Process finished with exit code 0

练习1： 对sample文件进行不区分大小写的单词统计；
要去用户可以拍数一些单词的统计，例如a、the、of等不应该出现在具有实际意义的统计中，应当忽略要求，全部代码使用函数封装，并调用完成；

# 函数封装总结：
#1. topn输出个数n； 切片[]、计数器方式[count、enumerate ] ；

# 方法1： for循环太多

def makekey(s:str):
    chars = set(r"""!'"#./\()[],*-""")
    key = s.lower()
    ret = []
    
    for i ,c in enumerate(key):
        if c in chars:
            ret.append(" ")
        else:
            ret.apeend(c)
    return "".join(ret).split()

def makekey1(s:str):
    chars = set(r"""!'"#./\()[],*-""")
    key = s.lower()  #影响性能
    ret = []
    start = 0
    
    for i,c in enumerate(key):
        if c in chars:
            if start == i:
                start += 1
                continue
            ret.append(key[start:i])
            start = i + 1
    else:
        if start < len(key):
            ret.append(key[start:])
    return ret
d = {}
with open('./sample.txt',encoding='utf8') as f:
    for line in f:                       # 优化点：能不能减少循环；
        words = line.split()
        for wordlist in map(makekey1,words):
            for word in wordlist:
                d[word] = d.get(word,0) + 1
                
for k,v in sorted(d.items(), key=lambda item:item[1], reverse=True):
    print(k,v)


# 方法2： 
def makekey1(s:str):
    chars = set(r"""!'"#./\()[],*- """)
    #key = s.lower()  #影响性能
    key = s
    #ret = []
    start = 0
    
    for i,c in enumerate(key):
        if c in chars:
            if start == i:
                start += 1
                continue
            #ret.append(key[start:i])
            yield key[start:1]
            start = i + 1
    else:
        if start < len(key):
            #ret.append(key[start:])
            yield key[start:]
    #return ret
    
def topn(n:int,stopwords = set()):
    d = {}
    
    with open('./sample.txt',encoding='utf8') as f:
        for line in f:           # 一行行读取；
            #words = line.split()
            for word in map(str.lower,makekey1(line)):
                if word not in stopwords:
                    d[word] = d.get(word,0) + 1
                    
    for i ,(k,v) in enumerate(sorted(d.items(), key=lambda item:item[1], reverse=True)):
        if i == n:break
        yield(k,v)
        
    #yield from sorted(d.items(),key=lambda item:item[1],reverse=True)[:n]
    yield from sorted(d.items(),key=lambda item:item[1],reverse=True)
     
for x in topn(10):
    print(x)

练习2：配置文件转换

from configparser import ConfigParser
import json

cfg = ConfigParser()
cfg.read('test.ini')
d = {}
for section in cfg.sections():
    d[section] = dict(cfg.items(section))
print(d)
json.dumps(d,'te.json' )