Java爬虫调用API时的异常处理策略

🕗 发布于 2025-01-22 19:02 java 爬虫 开发语言

在使用Java爬虫调用API时，异常处理是确保程序稳定运行的关键环节。网络请求可能会遇到各种问题，如网络超时、服务器错误、数据格式错误等。合理地处理这些异常可以提高爬虫的健壮性和可靠性。以下是一些常见的异常处理策略和代码示例。

一、常见的异常类型

（一）网络异常

连接超时（ConnectTimeoutException）：无法在指定时间内建立连接。
读取超时（SocketTimeoutException）：连接建立后，无法在指定时间内读取数据。
DNS解析失败（UnknownHostException）：无法解析目标域名。

（二）HTTP异常

HTTP状态码错误（HttpResponseException）：服务器返回的HTTP状态码表示请求失败，如404（未找到）、500（服务器错误）等。
SSL证书错误（SSLHandshakeException）：在使用HTTPS时，SSL证书验证失败。

（三）数据解析异常

JSON解析错误（JsonParseException）：返回的数据格式不符合JSON规范，无法解析。
字段缺失（NullPointerException）：解析JSON时，某些预期字段不存在。

二、异常处理策略

（一）捕获异常

使用try-catch块捕获可能的异常，并进行适当的处理。

（二）重试机制

在网络请求失败时，可以设置重试机制，增加请求成功的概率。

（三）日志记录

记录异常信息，便于后续排查问题。

（四）优雅降级

在某些情况下，即使请求失败，也可以提供部分数据或默认值，而不是直接抛出异常。

三、代码示例

以下是一个完整的Java代码示例，展示如何在调用API时处理异常：

import org.apache.http.client.methods.HttpGet;
import org.apache.http.impl.client.CloseableHttpClient;
import org.apache.http.impl.client.HttpClients;
import org.apache.http.util.EntityUtils;
import com.fasterxml.jackson.databind.ObjectMapper;

import java.io.IOException;

public class ApiCrawler {
    public static void main(String[] args) {
        String url = "https://api.example.com/data";
        int maxRetries = 3;  // 最大重试次数
        int retryCount = 0;

        while (retryCount < maxRetries) {
            try (CloseableHttpClient httpClient = HttpClients.createDefault()) {
                HttpGet request = new HttpGet(url);
                HttpResponse response = httpClient.execute(request);

                if (response.getStatusLine().getStatusCode() == 200) {
                    String jsonResponse = EntityUtils.toString(response.getEntity());
                    ObjectMapper mapper = new ObjectMapper();
                    Map<String, Object> data = mapper.readValue(jsonResponse, Map.class);
                    System.out.println("Data: " + data);
                    break;  // 请求成功，退出循环
                } else {
                    System.out.println("Request failed with status code: " + response.getStatusLine().getStatusCode());
                }
            } catch (UnknownHostException e) {
                System.out.println("UnknownHostException: " + e.getMessage());
            } catch (SocketTimeoutException e) {
                System.out.println("SocketTimeoutException: " + e.getMessage());
            } catch (IOException e) {
                System.out.println("IOException: " + e.getMessage());
            } catch (Exception e) {
                System.out.println("Unexpected exception: " + e.getMessage());
            }

            retryCount++;
            System.out.println("Retrying... Attempt " + retryCount);
        }

        if (retryCount == maxRetries) {
            System.out.println("Max retries reached. Request failed.");
        }
    }
}

代码解析

捕获异常：使用try-catch块捕获可能的异常，包括网络异常、HTTP异常和IO异常。
重试机制：在捕获异常后，增加重试次数，直到达到最大重试次数。
日志记录：在捕获异常时，记录异常信息，便于排查问题。

四、注意事项

（一）合理设置超时时间

在创建HttpClient时，可以设置连接超时和读取超时时间，避免程序长时间等待。

CloseableHttpClient httpClient = HttpClients.custom()
    .setConnectTimeout(5000)  // 设置连接超时时间为5秒
    .setSocketTimeout(10000)  // 设置读取超时时间为10秒
    .build();

（二）处理HTTP状态码

根据返回的HTTP状态码，可以进行不同的处理。例如，对于404错误，可以记录日志并跳过；对于500错误，可以重试。

（三）优雅降级

在某些情况下，即使请求失败，也可以提供部分数据或默认值，而不是直接抛出异常。例如，如果某个字段缺失，可以使用默认值替代。

（四）日志记录

使用日志框架（如SLF4J、Logback）记录异常信息，便于后续排查问题。

import org.slf4j.Logger;
import org.slf4j.LoggerFactory;

public class ApiCrawler {
    private static final Logger logger = LoggerFactory.getLogger(ApiCrawler.class);

    public static void main(String[] args) {
        String url = "https://api.example.com/data";
        int maxRetries = 3;
        int retryCount = 0;

        while (retryCount < maxRetries) {
            try (CloseableHttpClient httpClient = HttpClients.createDefault()) {
                HttpGet request = new HttpGet(url);
                HttpResponse response = httpClient.execute(request);

                if (response.getStatusLine().getStatusCode() == 200) {
                    String jsonResponse = EntityUtils.toString(response.getEntity());
                    ObjectMapper mapper = new ObjectMapper();
                    Map<String, Object> data = mapper.readValue(jsonResponse, Map.class);
                    logger.info("Data: {}", data);
                    break;
                } else {
                    logger.warn("Request failed with status code: {}", response.getStatusLine().getStatusCode());
                }
            } catch (Exception e) {
                logger.error("Exception occurred: {}", e.getMessage(), e);
            }

            retryCount++;
            logger.info("Retrying... Attempt {}", retryCount);
        }

        if (retryCount == maxRetries) {
            logger.error("Max retries reached. Request failed.");
        }
    }
}

五、总结

通过合理设置异常处理机制，可以显著提高Java爬虫的稳定性和可靠性。在实际应用中，根据具体需求对代码进行适当调整和优化，确保爬虫的稳定性和数据的准确性。希望这些建议对您有所帮助，祝您在数据抓取和分析工作中取得更大的成功！

原文地址：https://blog.csdn.net/2401_87849335/article/details/145283340

免责声明：本站文章内容转载自网络资源，如侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

上一篇：Android系统开发（十九）：无缝拉伸的艺术——9-Patch 可绘制对象详解
下一篇：2025/1/21 学习Vue的第四天

Idea调试的时候字符串路径乱码 poi解析时表单中文名字正确，但是找不到
IDEA乱码
阅读更多2025-01-23
[深度学习]多层神经网络
介绍多层神经网络，神经网络和人类神经的关系，多层神经网络的训练过程，全连接网络，过拟合和欠拟合。
阅读更多2025-01-23
基于SSM实现的乡村振兴文化平台系统功能实现十一
本章功能：美食信息业务逻辑层Impl、美食相册信息业务逻辑层Imp、美食评论信息业务逻辑层Impl、美食评论回复信息业务逻辑层Impl
阅读更多2025-01-23
【爬虫开发】爬虫开发从0到1全知识教程第12篇：scrapy爬虫框架,介绍【附代码文档】
本教程的知识点为：爬虫课程概要爬虫基础爬虫概述知识点： 1. 爬虫的概念 requests模块 requests模块知识点： 1. requests模块介绍 1.1 requests模块的作用
阅读更多2025-01-23
本地仓库管理之分支间的操作
本地仓库管理之分支间的操作
阅读更多2025-01-23
数据结构（精讲）----应用篇
数据结构（精讲）----应用篇：带你认识什么是数据结构，为什么要学习数据结构，学习数据结构对自己的编程以及逻辑思维有什么帮助
阅读更多2025-01-23
ECCV 2024，全新激活函数！
它可以提升学习复杂关系的能力，减少过拟合，增强模型性能，与它相关的研究一直是重中之重。最近，这方向有了不少新突破。ECCV 2024上的这篇，提出了一种可训练的高表达激活函数DiTAC，基于高效微分C
阅读更多2025-01-23
大一计算机的自学总结：归并排序及归并分治
归并排序及归并分治
阅读更多2025-01-23
【大数据】机器学习-----------半监督学习
在某些情况下，对函数(f)进行松弛处理，能让(f)获得一个闭式解，这意味着前面提及的目标方程存在全局最优解。然而，此时(f(x))变成了处于([-1,1])区间的实数，无法直接当作一个标签来使用。不过
阅读更多2025-01-23
Swift语言的学习路线
通过上述学习路线，从Swift的基础到高级特性，再到iOS开发及项目实战，初学者可以逐步掌握Swift的使用。编程是一项需要持续学习和实践的技能，保持热情和好奇心，相信你一定能在Swift的世界中大展
阅读更多2025-01-23