正则表达式初体验

概述

正则表达式(Regular Expression)在字符串模式匹配,在字符串搜索和替换中展现强大的功能。

常用的正则表达式语法我将其总结为7类:

先看一个概括的整理

image.png

  • 字符类**

    • \w : 匹配数字和字符
    • . : 匹配除换行符 \n 之外的任何单字符
    • [a-z][A-Z] :匹配从a到z或者A到Z的任意字符
    • [0-9] : 匹配0到9的任意数字
  • 数值类

    • \d :匹配数字
  • 分隔符类

    • \s : 匹配white space(包括空格、tab等)
  • 定位类:在字符类和数值类前面

    • ^ : 字符开头
    • $ :字符结尾
    • \b : 单词结界符
  • 定量类,包含数值型和特殊符类,放在字符类和数值类后面

    • 数值型:{}, 大括号里加数字
    • * : 0次或多次
    • + : 1次或多次
    • ? : 0或1次
  • 逻辑关系类

    • [] :表示逻辑关系或,比如[abc]表示a或者b或c
    • (|) : () 和 | 结合也表示逻辑关系或
  • 分组类

    • **()** : 用于分组

示例

R语言可以结合gsub使用正则匹配语法

gsub语法: gsub("old value 或 pattern","new value",data)

image.png