正则表达式学习

2018-07-19 本文已影响12人有点健忘

先搜索下文章学习
https://www.cnblogs.com/ggjucheng/p/3423731.html
http://www.runoob.com/java/java-regular-expressions.html
https://www.cnblogs.com/lizhenlin/p/6654934.html
http://www.zjmainstay.cn/my-regexp
然后自己开始测试

        var p=Pattern.compile("(\\d+)([a-z]+)")
        val  matcher=p.matcher("aa2222dd443")
        var groupCount=matcher.groupCount()
        println("match========${matcher.matches()}=====$groupCount")
        while (matcher.find()){
            val start=matcher.start()
            val end= matcher.end()
            println("result====start=$start=end=$end===========group=${     
 matcher.group()}==${matcher.group(1)}===${matcher.group(2)}")
        }

//结果
match========false=====2
result====start=2=end=8===========group=2222dd==2222===dd

先简单说明下代码里用到的知识。
\d 表示数字，前边还有个斜杠是用来转义的，因为后边用到的斜杠
加号表示匹配前边的规则一次或者多次，至少得有一次。如果要是0次或者多次，请用星号
[a-z] 匹配的是小写字母。类似的[A-Z] ，[0-9]
括号是用来分组的，可以看到有2个括号，所以下边的groupCount就是2了。
如果你要匹配的字符串里的括号，那么加个反斜杠比如这样 ( 这样就匹配括号了
matches（）方法，返回的结果，如果完全匹配，那么才返回true的，上边的明显不是完全匹配，我们只匹配中间的部分，所以返回的是false
find（）看名字就知道开始查找了，它和后边的start ，end ，group都是一体的。
只有find返回true，表示找到匹配的东西了，后边几个方法才可以用，否则就异常拉。
start返回的是匹配的第一个字符的所以，end是最后一个字符的索引，
group返回的是当前find匹配到的字符串。相当于group（0）
至于group（1），group（2）就是前边说的分组了，也就是括号括起来的部分。
解释完了，对于打印结果也就理解拉。
最后简单说下start（1），start（2），end（1），end(2)和上边的group（1），group（2）一个道理。都是对某个分组来说的。

修改下代码继续看

        var p=Pattern.compile("\\d+")
        val  matcher=p.matcher("aa2222dd443")
        var groupCount=matcher.groupCount()
        println("match========${matcher.matches()}=====$groupCount")
        while (matcher.find()){
            val start=matcher.start()
            val end= matcher.end()
            println("result====start=$start=end=$end=========${matcher.group()}")
        }

//打印结果
match========false=====0
result====start=2=end=6=========2222
 result====start=8=end=11=========443

分析说明，没有括号，所以groupcount就是0，而且也只能使用matcher.group()方法获取匹配的结果，
这时候用group（1）就挂了。

再修改加个括号

        var p=Pattern.compile("(\\d+)")
        val  matcher=p.matcher("aa2222dd443")
        var groupCount=matcher.groupCount()
        println("match========${matcher.matches()}=====$groupCount")
        while (matcher.find()){
            val start=matcher.start()
            val end= matcher.end()
            println("result====start=$start=end=$end=========${matcher.group()}===${matcher.group(1)}")
        }

//结果
 match========false=====1
result====start=2=end=6=========2222===2222
 result====start=8=end=11=========443===443

分析说明，和上边的差不多，就是多了个括号，所以它分组count就是1了，也能使用group（1），结果和group（）一样，因为本来就只有一个。

继续例子

        val fileName="1/0912/3_98/hello-0912_3_98_0025.zip"
        val versionPattern = Pattern.compile("(\\S+)_(\\d+)_(\\d+)_(\\d+).zip")
        val patternMatcher = versionPattern.matcher(fileName)
        if (!patternMatcher.find() || patternMatcher.groupCount() !== 4) {
            println("count==========${patternMatcher.groupCount()}")
            return
        }
        try {
            val Version = patternMatcher.group(1)
            val majorVersion = Integer.valueOf(patternMatcher.group(2))
            val minorVersion = Integer.valueOf(patternMatcher.group(3))
            val subminorVersion = Integer.valueOf(patternMatcher.group(4))
            println("========$Version=====$majorVersion===$minorVersion===$subminorVersion")
        } catch (e: NumberFormatException) {
           
        }

========1/0912/3_98/hello-0912=====3===98===25

说明下\S 代表匹配任何非空白字符 \d代表数字

lookingat用法

Attempts to match the input sequence, starting at the beginning of the region
从开头开始查找，换句话说从第一个字母开始匹配，符合要就就是ture，不符合就是false

 val pattern=Pattern.compile("\\d+")
        val matcher=pattern.matcher("2332ddd")
         val r=matcher.lookingAt()
        var matcher2=pattern.matcher("aa222233dd")
          val  r2=matcher2.lookingAt()
        println("======$r===$r2")
       // ======true===false

最后了，复制一点常用的
正则表达式语法
在其他语言中，\ 表示：我想要在正则表达式中插入一个普通的（字面上的）反斜杠，请不要给它任何特殊的意义。

在 Java 中，\ 表示：我要插入一个正则表达式的反斜线，所以其后的字符具有特殊的意义。

所以，在其他的语言中（如Perl），一个反斜杠 \ 就足以具有转义的作用，而在 Java 中正则表达式中则需要有两个反斜杠才能被解析为其他语言中的转义作用。也可以简单的理解在 Java 的正则表达式中，两个 \ 代表其他语言中的一个 \，这也就是为什么表示一位数字的正则表达式是 \d，而表示一个普通的反斜杠是 \\。

字符

说明

\

将下一字符标记为特殊字符、文本、反向引用或八进制转义符。例如，"n"匹配字符"n"。"\n"匹配换行符。序列"\\\\"匹配"\\"，"\\("匹配"("。

^

匹配输入字符串开始的位置。如果设置了 RegExp 对象的 Multiline 属性，^ 还会与"\n"或"\r"之后的位置匹配。

$

匹配输入字符串结尾的位置。如果设置了 RegExp 对象的 Multiline 属性，$ 还会与"\n"或"\r"之前的位置匹配。

*

零次或多次匹配前面的字符或子表达式。例如，zo* 匹配"z"和"zoo"。* 等效于 {0,}。

+

一次或多次匹配前面的字符或子表达式。例如，"zo+"与"zo"和"zoo"匹配，但与"z"不匹配。+ 等效于 {1,}。

?

零次或一次匹配前面的字符或子表达式。例如，"do(es)?"匹配"do"或"does"中的"do"。? 等效于 {0,1}。

{n}

n 是非负整数。正好匹配 n 次。例如，"o{2}"与"Bob"中的"o"不匹配，但与"food"中的两个"o"匹配。

{n,}

n 是非负整数。至少匹配 n 次。例如，"o{2,}"不匹配"Bob"中的"o"，而匹配"foooood"中的所有 o。"o{1,}"等效于"o+"。"o{0,}"等效于"o*"。

{n,m}

M 和 n 是非负整数，其中 n <= m。匹配至少 n 次，至多 m 次。例如，"o{1,3}"匹配"fooooood"中的头三个 o。'o{0,1}' 等效于 'o?'。注意：您不能将空格插入逗号和数字之间。

?

当此字符紧随任何其他限定符（*、+、?、{n}、{n,}、{n,m}）之后时，匹配模式是"非贪心的"。"非贪心的"模式匹配搜索到的、尽可能短的字符串，而默认的"贪心的"模式匹配搜索到的、尽可能长的字符串。例如，在字符串"oooo"中，"o+?"只匹配单个"o"，而"o+"匹配所有"o"。

.

匹配除"\r\n"之外的任何单个字符。若要匹配包括"\r\n"在内的任意字符，请使用诸如"[\s\S]"之类的模式。

(pattern)

匹配 pattern 并捕获该匹配的子表达式。可以使用 $0…$9 属性从结果"匹配"集合中检索捕获的匹配。若要匹配括号字符 ( )，请使用"\("或者"\)"。

(?:pattern)

匹配 pattern 但不捕获该匹配的子表达式，即它是一个非捕获匹配，不存储供以后使用的匹配。这对于用"or"字符 (|) 组合模式部件的情况很有用。例如，'industr(?:y|ies) 是比 'industry|industries' 更经济的表达式。

(?=pattern)

执行正向预测先行搜索的子表达式，该表达式匹配处于匹配 pattern 的字符串的起始点的字符串。它是一个非捕获匹配，即不能捕获供以后使用的匹配。例如，'Windows (?=95|98|NT|2000)' 匹配"Windows 2000"中的"Windows"，但不匹配"Windows 3.1"中的"Windows"。预测先行不占用字符，即发生匹配后，下一匹配的搜索紧随上一匹配之后，而不是在组成预测先行的字符后。

(?!pattern)

执行反向预测先行搜索的子表达式，该表达式匹配不处于匹配 pattern 的字符串的起始点的搜索字符串。它是一个非捕获匹配，即不能捕获供以后使用的匹配。例如，'Windows (?!95|98|NT|2000)' 匹配"Windows 3.1"中的 "Windows"，但不匹配"Windows 2000"中的"Windows"。预测先行不占用字符，即发生匹配后，下一匹配的搜索紧随上一匹配之后，而不是在组成预测先行的字符后。

x|y

匹配 x 或 y。例如，'z|food' 匹配"z"或"food"。'(z|f)ood' 匹配"zood"或"food"。

[xyz]

字符集。匹配包含的任一字符。例如，"[abc]"匹配"plain"中的"a"。

[^xyz]

反向字符集。匹配未包含的任何字符。例如，"[^abc]"匹配"plain"中"p"，"l"，"i"，"n"。

[a-z]

字符范围。匹配指定范围内的任何字符。例如，"[a-z]"匹配"a"到"z"范围内的任何小写字母。

[^a-z]

反向范围字符。匹配不在指定的范围内的任何字符。例如，"[^a-z]"匹配任何不在"a"到"z"范围内的任何字符。

\b

匹配一个字边界，即字与空格间的位置。例如，"er\b"匹配"never"中的"er"，但不匹配"verb"中的"er"。

\B

非字边界匹配。"er\B"匹配"verb"中的"er"，但不匹配"never"中的"er"。

\cx

匹配 x 指示的控制字符。例如，\cM 匹配 Control-M 或回车符。x 的值必须在 A-Z 或 a-z 之间。如果不是这样，则假定 c 就是"c"字符本身。

\d

数字字符匹配。等效于 [0-9]。

\D

非数字字符匹配。等效于 [^0-9]。

\f

换页符匹配。等效于 \x0c 和 \cL。

\n

换行符匹配。等效于 \x0a 和 \cJ。

\r

匹配一个回车符。等效于 \x0d 和 \cM。

\s

匹配任何空白字符，包括空格、制表符、换页符等。与 [ \f\n\r\t\v] 等效。

\S

匹配任何非空白字符。与 [^ \f\n\r\t\v] 等效。

\t

制表符匹配。与 \x09 和 \cI 等效。

\v

垂直制表符匹配。与 \x0b 和 \cK 等效。

\w

匹配任何字类字符，包括下划线。与"[A-Za-z0-9_]"等效。

\W

与任何非单词字符匹配。与"[^A-Za-z0-9_]"等效。

\xn

匹配 n，此处的 n 是一个十六进制转义码。十六进制转义码必须正好是两位数长。例如，"\x41"匹配"A"。"\x041"与"\x04"&"1"等效。允许在正则表达式中使用 ASCII 代码。

\num

匹配 num，此处的 num 是一个正整数。到捕获匹配的反向引用。例如，"(.)\1"匹配两个连续的相同字符。

\n

标识一个八进制转义码或反向引用。如果 \n 前面至少有 n 个捕获子表达式，那么 n 是反向引用。否则，如果 n 是八进制数 (0-7)，那么 n 是八进制转义码。

\nm

标识一个八进制转义码或反向引用。如果 \nm 前面至少有 nm 个捕获子表达式，那么 nm 是反向引用。如果 \nm 前面至少有 n 个捕获，则 n 是反向引用，后面跟有字符 m。如果两种前面的情况都不存在，则 \nm 匹配八进制值 nm，其中 n 和 m 是八进制数字 (0-7)。

\nml

当 n 是八进制数 (0-3)，m 和 l 是八进制数 (0-7) 时，匹配八进制转义码 nml。

\un

匹配 n，其中 n 是以四位十六进制数表示的 Unicode 字符。例如，\u00A9 匹配版权符号 (©)。

抽几个常用的出来

\d 数字0到9 ，等价于 [0-9]
\D 非数字0到9，等价于 [^0-9]
\s 空白字符，常用来匹配空格，当然也包括制表符tab按出来的空格，换页符
\S 大写的都表示非小写的效果
\w 匹配任何字类字符，字母数字外加下划线，也就是 [A-Za-z0-9_]
\W 上边的取反

星号 0次或多次
问号 0次或者1次
加号 1次或者多次
那么如果要有个范围咋办？用花括号
{3} 固定3次
{3，9} 最小3次，最大9次
{3，} 最小3次，上不封顶
x|y匹配 x 或 y。例如，'z|food' 匹配"z"或"food"。'(z|f)ood' 匹配"zood"或"food"。

学这个的目的

我就是为了给手机号中间加个横杠才来学习的，学完了，才写一个
如下输入框，限数字，长度13，算上2个横杠的长度

 <EditText
                android:id="@+id/et_phone2"
                android:layout_width="match_parent"
                android:layout_height="wrap_content"
                android:layout_marginTop="10dp"
                android:maxLength="13"
                android:inputType="number"
                android:digits="0123456789"
                android:hint="125-2254-1452" />

代码如下

        et_phone2.addTextChangedListener(object :TextWatcher{
            override fun afterTextChanged(s: Editable?) {
                et_phone2.removeTextChangedListener(this)//取消监听，要不下边settext的话就死循环了。
                val pattern = Pattern.compile("(\\d{3})(\\d{0,4})(\\d{0,4})")
                val str=s.toString().trim().replace("-","")
                val m = pattern.matcher(str)
                if (m.matches()) {
                    var changed=m.group(1)
      //后边两个可能是空，为空的话不加横杠，
                    (2 .. 3).forEach {
                        val end=m.group(it)
                        if(!TextUtils.isEmpty(end)){
                            changed="$changed-$end"
                        }
                    }

                    et_phone2.setText(changed)
                    et_phone2.setSelection(changed.length)
                }else{
                    et_phone2.setText(str)
                    et_phone2.setSelection(str.length)
                }
                et_phone2.addTextChangedListener(this)
            }
            override fun beforeTextChanged(s: CharSequence?, start: Int, count: Int, after: Int) {
              
            }

            override fun onTextChanged(s: CharSequence?, start: Int, before: Int, count: Int) {
              
            }
        })

简单测试了下没啥问题，如果有人看到这里帮忙测试下有没有问题。

记录

实际使用中记录

Longtitude (X),Latitude (Y),POI Name,Address,City,State,Zip,Country
-98.418316,45.458857,ABERDEEN REGIONAL AIRPORT,4430 HWY 12 EAST,ABERDEEN,SD,57401,UNITED STATES
-81.430298,40.9151,AKRON - CANTON REGIONAL AIRPORT,5400 LAUBY ROAD,NORTH CANTON,OH,44720,UNITED STATES
-84.188528,31.532176,"ALBANY, GA - SOUTHWEST GEORGIA REGIONAL AIRPORT",3905 NEWTON ROAD,ALBANY,GA,31707,UNITED

正则表达式我是这样写的
第一种逗号结尾的，[^,]表示不是逗号的字符，+表示至少有一个
第二种，双引号加逗号结尾，双引号里可能还有逗号

String rx="[^,]+,|\"[^,]+\",";

当然了，我们这个是从本地文件读取的,使用系统自带的类来处理
findInLine：如果找到，指针就会指向找到的字符串的末尾。所以我们调用N次就行，当然了最后一个Country的属性是没有逗号的，那使用next（）方法，剩下的都给它即可。

Scanner scanner = new Scanner(poiFile);

              while(scanner.hasNextLine()) 
              {
                scanner.nextLine();
                try 
                {
          
                  Longtitude = scanner.findInLine(rx);
                  Latitude = scanner.findInLine(rx);
                  Name = scanner.findInLine(rx);
                  String Address = scanner.findInLine(rx);
                  String City = scanner.findInLine(rx);
                  String State = scanner.findInLine(rx);
                  String Zipcode = scanner.findInLine(rx);
                  String Country=scanner.next();

复习知识点
| 表示或者
[abc] 表示匹配a或者b或者c都可以