正则表达式

🕗 发布于 2024-07-13 14:03 java 正则表达式

在这里插入图片描述

字符类（只匹配单个字符）
预定义字符（只匹配单个字符）
数量词

小结

正则表达式的书写规则

符号	含义	举例
?	0次或1次	\\d?
*	0次或多次	\\d* ---------- (abc)*
+	1次或多次	\\d+ --------- (abc)+
{}	具体次数	a{7} --------- \\d{7, 19}
(?i)	忽略后面字符的大小写	(?i)abc
a((?i)b)c	只忽略b的大小写	a((?i)b)c
[]	里面的内容出现1次	[abc]
^	取反	[^abc]
&&	交集，不能写单个的&	[a-z&&m-p]
.	任意字符	\n回车符号不匹配
\	转义字符	\\d
\\d	0-9	\\d+
\\D	非0-9	\\D+
\\s	空白字符	\\D+
\\S	非空白字符	[^\s]
\w	单词字符	[a-zA-Z_0-9]
\\W	非单词字符	[^\w]
()	分组	并集 a(bc)+
		写在方括号外面表示

# 正则表达式爬取信息

// 需求1：从以下内容中爬取出手机、邮箱、座机电话等信息
    private static void method1() {
        String data = "一起学Java，\n" +
                "电话：13511296261,15265432051，\n" +
                "或者联系邮箱：bonus@163.com，\n" +
                "座机电话：010123456789,010-123564812，\n" +
                "邮箱：13194641245@qq.com，\n" +
                "邮箱：dlei0009@126.com，\n" +
                "热线电话：400-618-9080，400-618-1200，400-6185000，4006186666";
        // 1、定义爬取规则
        String regex = "(1[3-9]\\d{9})|(0\\d{2,7}-?\\d{4,19})|([\\w&&[^0]]\\w{2,}@\\w{2,20}(\\.\\w{2,10}){1,2})"
                + "|(400(-?\\d{3,7}){2})";
        // 2、正则表达式封装成Pattern对象
        Pattern pattern = Pattern.compile(regex);
        // 3、通过Pattern对象获取查找内容的匹配器对象
        Matcher matcher = pattern.matcher(data);
        // 4、定义循环爬取信息
        while (matcher.find()) {
            String rs = matcher.group(); // 获取到找到的内容
            System.out.println(rs);
        }
    }

package com.itheima.regex;

import java.util.Arrays;

public class RegexTest4 {
    public static void main(String[] args) {
        // 1、public String replaceAll(String regex, String newStr)：按照正则表达式匹配的内容进行替换
        // 需求1：请把 古力娜扎ai8888迪丽热巴999aa5566玛尔扎哈fbbhdjfn4156卡尔扎巴，中间的非中文字符替换成"-"
        String s1 = "古力娜扎ai8888迪丽热巴999aa5566玛尔扎哈fbbhdjfn4156卡尔扎巴";
        System.out.println(s1.replaceAll("\\w+", "-"));

        // 需求2（拓展）：某语音系统，收到一个口吃的人说的“我我我喜欢编编编编编编编编编程程！”需要优化成“我喜欢编程！”
        /**
         *  (.) 一组，匹配任意字符
         *  \\1：为这个组声明一个组号：1号
         *  +：声明必须是重复的字
         *  $1可以去取到第一组代表的那个重复的字
         */
        String s2 = "我我我喜欢编编编编编编编编编程程！";
        System.out.println(s2.replaceAll("(.)\\1+", "$1"));

        // 2、public String[] split(String regex)：按照正则表达式匹配的内容进行分割字符串，返回一个字符串数组
        // 需求1：请把 古力娜扎ai8888迪丽热巴999aa5566玛尔扎哈fbbhdjfn4156卡尔扎巴，中的人名获取出来
        String s3 = "古力娜扎ai8888迪丽热巴999aa5566玛尔扎哈fbbhdjfn4156卡尔扎巴";
        String[] names = s3.split("\\w+");
        System.out.println(Arrays.toString(names));
    }
}

原文地址：https://blog.csdn.net/ioncannontic/article/details/140368456

免责声明：本站文章内容转载自网络资源，如本站内容侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

上一篇：Ubuntu 安装配置与调优 Docker 并支持 IPv6
下一篇：mac ssh连接工具

【网络安全】Cookie SameSite属性
严格限制可能会影响用户体验，例如，当用户点击 GitHub 链接时，无法保持登录状态，因为此时会丢失 GitHub 的 Cookie。当浏览器加载该图片时，它会向 A.com 发送带有 Cookie
阅读更多2024-11-16
【C语言】实现二维数组按行排序
【C语言】实现二维数组按行排序
阅读更多2024-11-16
NLP开发常见问题
NLP开发常见问题
阅读更多2024-11-16
在spring boot工程中使用Filter时，@WebFilter 注解不生效的问题分析和解决方案
如果要使用@WebFilter进行过滤路径的配置，则需要在启动类中添加@ServletComponentScan注解启用Servlet容器扫描@WebFilter注解，并删除Filter类中的@Com
阅读更多2024-11-16
天天学编程Day16
在 C++ 中，常量表达式（Constant Expression）是指在编译期就能计算出结果的表达式。其结果在程序运行过程中是不可改变的，并且这个结果必须是编译时常量，例如整数常量、枚举常量、用常量
阅读更多2024-11-16
消失的数字（c语言实现）
方法一我们使用异或操作符实现。介绍一下^操作符性质就是首先0^a=a；a^a=0;然后异或操作符还满足交换律。比如a ^ b ^ c ^a= a ^ a ^b ^c;我们可以通过这样的性质实现这个代
阅读更多2024-11-16
机器学习——期末复习重点题归纳
机器学习期末复习
阅读更多2024-11-16
opencv kdtree & pcl kdtree 效率对比
由于项目中以一个环节需要使用kdtree ,对性能要求比较严苛，所以看看那个kdtree效率高一些。对比了opencv和pcl。
阅读更多2024-11-16
Qt 5.6.3 手动配置 mingw 环境
手动设置 qt mingw 编译环境
阅读更多2024-11-16
IntelliJ IDEA 2024.3（Ultimate Edition）免费化教学
一款由 JetBrains 公司开发的集成开发环境 (Integrated Development Environment, IDE)，主要用于 Java 语言的软件开发，但它也支持其他多种编程语言和
阅读更多2024-11-16

正则表达式

小结

# 正则表达式爬取信息

相关文章