正则表达式初体验

概述

正则表达式(Regular Expression)在字符串模式匹配，在字符串搜索和替换中展现强大的功能。

常用的正则表达式语法我将其总结为7类：

先看一个概括的整理

字符类**
- \w : 匹配数字和字符
- . : 匹配除换行符 \n 之外的任何单字符
- [a-z] 和 [A-Z] :匹配从a到z或者A到Z的任意字符
- [0-9] : 匹配0到9的任意数字
数值类
- \d ：匹配数字
分隔符类
- \s : 匹配white space(包括空格、tab等)
定位类：在字符类和数值类前面
- ^ : 字符开头
- $ ：字符结尾
- \b : 单词结界符
定量类，包含数值型和特殊符类，放在字符类和数值类后面
- 数值型：{}，大括号里加数字
- * : 0次或多次
- + : 1次或多次
- ? : 0或1次
逻辑关系类
- [] ：表示逻辑关系或，比如[abc]表示a或者b或c
- (|) : () 和 | 结合也表示逻辑关系或
分组类
- **()** : 用于分组

R语言可以结合gsub使用正则匹配语法

gsub语法： gsub("old value 或 pattern","new value",data)