基础篇: 5. Python爱恨交织的字符串

2019-10-28 本文已影响0人后视镜

Python2.x的字符串的确是个大坑，每次编码都要小心翼翼地处理，但它优秀简洁的文本处理能力是不可不提的。

1. 基础用法

字符串的基础用法

1.1 字符串初始化

a = str("ababa")
# 单引号和双引号没什么区别
b = '1'
b = "1"

1.2 字符串格式化

简单地展示了两种字符串格式化的用法，更详细地只能去查文档了，特别拿出来一些很常用的方式

用百分号和元组的格式化
1. %d是整型，02表示最少两位，不足前面补0，一般用于日期都可以，保证年月日是8位数字。
2. %f是输出浮点数，.2表示只保留两位小数
3. %s是输出字符串
format()函数是推荐的，花括号里面带数字表示第几个位置，也可以用关键字，一共两种。看自己的续期使用吧，也不一定特别好，关键字的比较太长了，有时候写个格式化都很麻烦。位置短小，适合快速。就是看需求
1. 千分位加逗号这个很实用，冒号加逗号就可以了，自动分。

# 以前的方式
print("%s %02d %.2f" % ("strings", 1, 0.2))
strings 01 0.20
# 新的使用format函数
print("{0} {1:,}".format("strings", 100000000))
strings 100,000,000
# 关键字
print("{uid} {vote_num}".format(vote_num=1, uid=1000))
1000 1
# 一样效果，**表示关键字传参
params = {"uid": 1000, "vote_num": 1}
print("{uid} {vote_num}".format(**params ))
# 下面这种经常有人犯的错，
print("{uid} {vote_num}".format(params))

1.3 字符串长度

len("123")
3

1.4 字符串的截取

"123"[1:]
23

1.5 字符串合并

几个字符串合并是非常常见的情况，一开始大家都喜欢用+号来联合字符串，但这样的做法在字符串数量非常多的情况下，程序性能是极其低下的，养成良好的编程习惯比出问题的时候干着急更为有效。

用格式化方式，组合几个字符串，这样往往用在字符串数量已经明确知道的情况。
用join()函数，传入的参数是个可迭代对象

如前面dict所提到的，多个字段查询对应一个数据的时候，我们可以写一个通用的方式生成key

keys = ["uid", "day", "hour", ]
# 下划线是分隔符
key = "_".join(keys)
uid_day_hour

1.6 简单的字符匹配

startswith()判断字符串是否以参数为开头，
endswith判断字符串是否以参数为结束的

#判断字符串是否相等
print("aa" == "aa")
True
print("Hello world!".startswith("He"))
True
print("Hello world!".endswith("world!"))

这两个函数常用于文件过滤判断，endswith就很明显用于文件扩张名来判断，startswith一般用于路径判断或者一系列文件都是以某个前缀开头的，在文件目录和文明处理方面，这两个函数很方便。

1.7 删除字符串中的字符

字符串经常会进行一些编辑，例如读取文件行数据的时候，需要清除掉前后的空白字符，包括看不见的换行符等，有时候两个字符串相比较，最好也是先去掉空白字符，这样就不会出现看起来相等，但机器判断是不相等的。

strip()这个函数是处理字符串开头和末尾的，不传参默认去掉空白字符再返回新的字符串。传入的参数一个字符串，包含了要删掉前后的字符，这个很有意思但不常用，因为大厂讲求一个稳字，业务但最常用的还是去掉前后空白字符。
lstrip()只是去掉字符串开头的。
rstrip()去掉字符串结尾的。

a = "   10000    "
print(a.strip() == "10000")
True
print(a.lstrip() == "10000    ")
True
print(a.lstrip() == "   10000")
True
# 文档例子
'www.example.com'.strip('cmowz.')
'example'

1.8 简单查找字符串

查找字符串里面有没有字符，这里不涉及正则匹配模块，只是简单运用str的几个函数.

“Py' in "Python"
True
# 返回下标位置
"Python".find("yt")
1
"Python".find("yd")
-1
# 从结尾开始查查找模式串，下面是简单获取文件名的方法，经常这是这样处理的。
# 如果要平台移植性，用os.sep
idx = "/home/ryan/test/my.txt".rfind("/")
if idx != -1:
    print( "/home/ryan/test/my.txt"[idx+1:])
 else:
    print("")
 my.txt

2. 例子-日志文件读取

Python很适合做数据分析，我也经常写Python脚本去分析或者获取日志数据，这里举个简单的生产日志分析例子，从日志文件中读取出时间、用户UID和票数并打印出来。

日志都是行数据，每行包括三个元素，日期时间、日志级别和json格式的数据（很多人问为什么不直接一行一个json log呢？新的可以自己这样改过来，但旧的改动比较大，所以还需要部分渐进地改）

2019-10-28 10:00:00 INFO {"msg":"add uid vote num succ", "uid":1000, "new_vote_num": 2000, "add_vote_num": 1000}
2019-10-28 10:00:00 INFO {"msg":"add uid vote num succ", "uid":1002, "new_vote_num": 5000, "add_vote_num": 500}
2019-10-28 10:00:00 INFO {"msg":"add uid vote num succ", "uid":1001, "new_vote_num": 1000, "add_vote_num": 300}

格式是日期时间、日志级别再带一个json对象:

YYYY-mm-dd HH:MM:SS DEBUG_LEVEL {}

代码如下:

#! /usr/bin/env python
# -*- coding: utf-8 -*-
import sys
import json
from datetime import datetime

def my_strptime(data):
    # 先分出日期和时间
    date_str, time_str = data.split()
    year, month, day = map(int, date_str.split("-"))
    hour, minute, second = map(int, time_str.split(":"))
    return datetime(year, month, day, hour, minute, second)

def main():
     # 从命令行中获取文件名参数，argv[0]是程序文件名
    fname = sys.argv[1]
    # f是文件描述符
    f = open(fname, "r")
    datas = []
    for line in f:
        line = line.strip()
        # 先找真正信息左花括号
        start_idx = line.find("{")
        # 格式不正确的
        if start_idx <= 2:
            continue
        prefix_str = line[:start_idx-2]
        # 切分出三个元素，日期，时间和日志级别
        prefix_str_list = prefix_str.split()
        #怎么将时间转为python的时间类型呢，很多人都会看了文档直接用strptime，但这个函数有bug，我们一般换一种方式来实现
        dt = my_strptime(prefix_str_list[0] + " " + prefix_str_list[1])
        level = prefix_str_list[2]

        json_data = json.loads(line[start_idx:])
        each_obj = {}
        each_obj["level"] = level
        each_obj["dt"] = dt
        each_obj["data"] = json_data
        datas.append(each_obj)

    # 输出时间、uid和最新的票数
    fmt = "{dt} {uid} {vote_num:,}"
    for row in datas:
        dt = row.get("dt", "")
        data = row.get("data", {})
        uid = data.get("uid", 0)
        vote_num = data.get("new_vote_num", 0)      
        content = fmt.format(dt = dt, uid= uid, vote_num = vote_num)
        print(content)

if __name__ == '__main__':
    main()

先看main函数，跳过读取文件的diamante
line.find先找到第一个{的位置，然后前面是日期和日志级别，后面是json对象
对前面的进行空格切分会分出三个元素:
- 日期: "2019-10-28"
- 时间: 10:00:00
- 日志级别: INFO
由于直接用strptime在多线程环境下有bug，我们习惯都是不用的，所以我直接写了个替换，传入日期时间2019-10-28 10:00:00返回一个datetime对象
从start_idx到结尾都是json对象，所以直接用json.loads来转化为python的dict。
fmt用了千分位逗号分隔符，方便阅读。

3.总结

字符串的操作在日常任务上面占比了很大一部分，由于Python的便捷性，很多时候日志的分析都会用Python，在shell已经无法满足的时候。上文提供的例子只是一个简化地应用，但已经好很贴近我以前接触到的日志分析和统计数据了。其实字符串存在很多坑，是在Python3才慢慢修复的，但无法避免的是我们必须要正面去了解，才能在日常任务中避免犯错。我曾经见过很逗字符串不熟悉，导致连打日志都报错，无法跟踪想打的是什么日志。所以接着我会回顾一下Python字符串的坑。

后视镜 20191028