使用python-Spark使用的场景案例具体代码分析

🕗 发布于 2024-11-15 12:30 大数据 hadoop python

使用场景

1. 数据批处理

• 日志分析：互联网公司每天会产生海量的服务器日志，如访问日志、应用程序日志等。Spark可以高效地读取这些日志文件，对数据进行清洗（例如去除无效记录、解析日志格式）、转换（例如提取关键信息如用户ID、访问时间、访问页面等）和分析（例如统计页面访问量、用户访问路径等）。

• 数据仓库ETL（Extract，Transform，Load）：在构建数据仓库时，需要从各种数据源（如关系型数据库、文件系统等）提取数据，进行清洗、转换和加载到数据仓库中。Spark可以处理大规模的数据，并且通过其丰富的转换操作（如对数据进行聚合、关联等），能够很好地完成ETL流程。

2. 机器学习与数据挖掘

• 推荐系统：基于用户的行为数据（如购买记录、浏览历史等）和物品的属性数据，Spark MLlib（机器学习库）可以用于构建推荐模型。例如，使用协同过滤算法来发现用户的兴趣偏好，为用户推荐可能感兴趣的商品、电影、音乐等。

• 聚类分析：对于大规模的数据集，如客户细分场景下的用户特征数据，Spark可以应用聚类算法（如K - Means）将相似的用户或数据点聚集在一起，帮助企业更好地理解客户群体的结构，进行精准营销等活动。

3. 实时数据处理

• 实时监控与预警：在金融领域，Spark Streaming可以实时处理股票交易数据，计算关键指标（如实时股价波动、成交量变化等），当指标超出设定的阈值时，及时发出预警信号。

• 实时交通数据分析：通过接入交通传感器（如摄像头、测速仪等）的实时数据，Spark可以对交通流量、车速、拥堵情况等进行实时分析，为交通管理部门提供决策支持，如动态调整交通信号灯时间。

Spark使用场景的详细代码案例

1. 数据批处理 - 日志分析

from pyspark.sql import SparkSession
from pyspark.sql.functions import split, count, col

# 创建SparkSession
spark = SparkSession.builder.appName("LogAnalysis").getOrCreate()

# 假设日志数据格式为每行: [IP地址, 时间戳, 请求方法, 请求路径, 协议, 状态码, 用户代理]
# 这里模拟一些日志数据
log_data = [
    ("192.168.1.1", "2024-11-08 10:00:00", "GET", "/index.html", "HTTP/1.1", "200", "Mozilla/5.0"),
    ("192.168.1.2", "2024-11-08 10:05:00", "GET", "/about.html", "HTTP/1.1", "200", "Chrome/100.0"),
    ("192.168.1.1", "2024-11-08 10:10:00", "POST", "/login", "HTTP/1.1", "200", "Mozilla/5.0")
]

columns = ["ip", "timestamp", "method", "path", "protocol", "status", "user_agent"]
df = spark.createDataFrame(log_data, columns)

# 统计每个页面的访问次数
page_views = df.groupBy("path").agg(count("*").alias("views"))
page_views.show()

# 统计每个IP的请求次数
ip_requests = df.groupBy("ip").agg(count("*").alias("requests"))
ip_requests.show()

# 找出访问次数最多的前5个页面
top_pages = page_views.orderBy(col("views").desc()).limit(5)
top_pages.show()

# 关闭SparkSession
spark.stop()

2. 数据批处理 - 数据仓库 ETL（以从CSV文件提取数据并加载到新表为例）

from pyspark.sql import SparkSession
import os

# 创建SparkSession
spark = SparkSession.builder.appName("ETLExample").getOrCreate()

# 假设源数据是一个CSV文件，路径为以下（这里可以替换为真实路径）
csv_path = "/path/to/source/csv/file.csv"
if not os.path.exists(csv_path):
    raise FileNotFoundError(f"CSV file not found at {csv_path}")

# 读取CSV文件，假设CSV文件有列名：id, name, age
df = spark.read.csv(csv_path, header=True, inferSchema=True)

# 进行一些数据转换，比如将年龄加1（这里只是示例，可以根据实际需求调整）
df = df.withColumn("new_age", df.age + 1)

# 假设要将数据加载到一个新的Parquet格式文件中，路径为以下（可替换）
output_path = "/path/to/output/parquet/file.parquet"
df.write.mode("overwrite").parquet(output_path)

# 关闭SparkSession
spark.stop()

3. 机器学习与数据挖掘 - 推荐系统（基于用户 - 物品评分的协同过滤）

from pyspark.sql import SparkSession
from pyspark.ml.recommendation import ALS
from pyspark.ml.evaluation import RegressionEvaluator

# 创建SparkSession
spark = SparkSession.builder.appName("RecommendationSystem").getOrCreate()

# 模拟用户 - 物品评分数据
data = [
    (1, 1, 5.0),
    (1, 2, 4.0),
    (2, 1, 3.0),
    (2, 2, 2.0),
    (2, 3, 4.0),
    (3, 1, 2.0),
    (3, 3, 5.0),
    (4, 2, 3.0),
    (4, 3, 4.0),
]

columns = ["user_id", "item_id", "rating"]

# 创建DataFrame
df = spark.createDataFrame(data, columns)

# 划分训练集和测试集
(train_df, test_df) = df.randomSplit([0.8, 0.2])

# 创建ALS模型
als = ALS(userCol="user_id", itemCol="item_id", ratingCol="rating", coldStartStrategy="drop")

# 训练模型
model = als.fit(train_df)

# 对测试集进行预测
predictions = model.transform(test_df)

# 评估模型
evaluator = RegressionEvaluator(metricName="rmse", labelCol="rating", predictionCol="prediction")
rmse = evaluator.evaluate(predictions)
print(f"Root Mean Squared Error = {rmse}")

# 为用户生成推荐
user_recs = model.recommendForAllUsers(5)
user_recs.show(truncate=False)

# 关闭SparkSession
spark.stop()

4. 机器学习与数据挖掘 - 聚类分析（K - Means 聚类）

from pyspark.sql import SparkSession
from pyspark.ml.feature import VectorAssembler
from pyspark.ml.clustering import KMeans

# 创建SparkSession
spark = SparkSession.builder.appName("KMeansClustering").getOrCreate()

# 模拟客户特征数据，这里假设每个客户有两个特征：年龄和收入
data = [
    (25, 50000),
    (30, 60000),
    (35, 70000),
    (40, 80000),
    (28, 55000),
    (32, 65000),
]

columns = ["age", "income"]
df = spark.createDataFrame(data, columns)

# 将特征列组合成一个向量列
assembler = VectorAssembler(inputCols=columns, outputCol="features")
df = assembler.transform(df)

# 创建K - Means模型，设置聚类数为3
kmeans = KMeans(k=3, seed=1)
model = kmeans.fit(df)

# 预测聚类结果
predictions = model.transform(df)
predictions.show()

# 关闭SparkSession
spark.stop()

5. 实时数据处理 - 实时监控与预警（以简单的股票价格监控为例，使用Spark Streaming和Socket模拟实时数据）

from pyspark.sql import SparkSession
from pyspark.streaming import StreamingContext

# 创建SparkSession和StreamingContext，设置批处理间隔为5秒
spark = SparkSession.builder.appName("StockMonitoring").getOrCreate()
ssc = StreamingContext(spark.sparkContext, 5)

# 这里使用Socket模拟接收实时股票价格数据，实际中可能是从消息队列等接收
# 假设数据格式为: 股票代码,价格
lines = ssc.socketTextStream("localhost", 9999)

# 解析数据
data = lines.map(lambda line: line.split(","))

# 将数据转换为DataFrame格式（这里只是简单示例，可能需要更多处理）
from pyspark.sql.types import StructType, StructField, StringType, DoubleType
schema = StructType([
    StructField("symbol", StringType(), True),
    StructField("price", DoubleType(), True)
])
df = data.toDF(schema)

# 假设要监控某只股票（这里以股票代码为 'AAPL' 为例），当价格超过150时预警
apple_stock = df.filter(df.symbol == "AAPL")
alert = apple_stock.filter(df.price > 150).map(lambda row: f"Alert: {row.symbol} price {row.price} is high!")

alert.pprint()

# 启动 StreamingContext
ssc.start()
# 等待停止
ssc.awaitTermination()
6. 实时数据处理 - 实时交通数据分析（使用Spark Streaming和Kafka，假设已经有Kafka环境和交通数据主题）
from pyspark.sql import SparkSession
from pyspark.streaming import StreamingContext
from pyspark.streaming.kafka import KafkaUtils
import json

# 创建SparkSession和StreamingContext，设置批处理间隔为10秒
spark = SparkSession.builder.appName("TrafficAnalysis").getOrCreate()
ssc = StreamingContext(spark.sparkContext, 10)

# Kafka参数，这里需要替换为真实的Kafka服务器地址和交通数据主题
kafkaParams = {"metadata.broker.list": "localhost:9092"}
topic = "traffic_data"

# 从Kafka读取实时交通数据
kafkaStream = KafkaUtils.createDirectStream(ssc, [topic], kafkaParams)

# 解析JSON格式的交通数据，假设数据包含车速、车流量等信息
def parse_traffic_data(json_str):
    try:
        data = json.loads(json_str)
        return (data["location"], data["speed"], data["volume"])
    except Exception as e:
        print(f"Error parsing data: {e}")
        return None

parsed_data = kafkaStream.map(lambda x: parse_traffic_data(x[1]))
valid_data = parsed_data.filter(lambda x: x is not None)

# 将数据转换为DataFrame格式（这里只是简单示例，可能需要更多处理）
from pyspark.sql.types import StructType, StructField, StringType, DoubleType
schema = StructType([
    StructField("location", StringType(), True),
    StructField("speed", DoubleType(), True),
    StructField("volume", DoubleType(), True)
])
df = valid_data.toDF(schema)

# 计算每个区域的平均车速和车流量
average_speed_volume = df.groupBy("location").agg({"speed": "avg", "volume": "sum"})
average_speed_volume.pprint()

# 启动 StreamingContext
ssc.start()
# 等待停止
ssc.awaitTermination()

原文地址：https://blog.csdn.net/qq_38617531/article/details/143767842

免责声明：本站文章内容转载自网络资源，如本站内容侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

上一篇：Qt 和 WPF（Windows Presentation Foundation）
下一篇：第十四章 Spring之假如让你来写AOP——雏形篇

Java学习，基本数据类型
System.out.println("最小值：Double.MIN_VALUE=" + Double.MIN_VALUE);System.out.println("最小
阅读更多2024-11-17
创建第一个react项目
通过以上步骤，你已经成功创建并运行了你的第一个React项目。接下来，你可以继续探索React的更多功能，编写更复杂的组件和应用程序。希望这个教程对你有所帮助！如果有任何问题，欢迎随时提问。参考资料R
阅读更多2024-11-17
从零开始的c++之旅——二叉搜索树
这与之前实现的二叉树类似，只不过用上了模板跟构造函数，因为构造函数我们在后面需要用来生成节点。K _key;:_key(key){}//这里也能体现封装思想，不管我们如何实现的类此处我们只需定义成No
阅读更多2024-11-17
c/c++内存管理
int main()// new/delete 和 malloc/free最大区别是 new/delete对于【自定义类型】除了开空间还会调用构造函数和析构函数free(p1);delete p2;/
阅读更多2024-11-17
1、PyTorch介绍与张量的创建
【代码】1、PyTorch介绍与张量的创建。
阅读更多2024-11-17
‌REST风格（Representational State Transfer）
REST风格的核心思想是将Web应用程序的功能作为资源来表示，使用统一的标识符（URI）来对这些资源进行操作，并通过HTTP协议（如GET、POST、PUT、DELETE等）来定义对这些资源的操作。‌
阅读更多2024-11-17
软件测试 —— 自动化基础
自动化是指自动的代替人的行为完成操作，自动化在生活中可以说是随处可见，如：自动洒水机、自动洗手液等，这些生活中的自动案例有效的减少了我们人力的消耗，同时也提高了我们的生活质量，在我们软件中的自动化测试
阅读更多2024-11-17
Python爬虫下载新闻，Flask展现新闻（2）
Python爬虫下载新闻和Flask展现新闻的主要技术
阅读更多2024-11-17
【CSS in Depth 2 精译_057】第九章 CSS 的模块化与作用域 + 9.1 CSS 模块的定义（上）
本篇为《CSS in Depth》全新第2版9.1小节内容的上篇，主要介绍了 CSS 模块化的产生背景及相关概念，并结合上一节层叠图层（cascade layer）的知识，通过一个简单的 messag
阅读更多2024-11-17
分布式事务seata基于docker安装和项目集成seata
分布式系统节点通过网络连接，一定会出现分区问题（P）当分区出现时,系统的一致性和可用性就无法同时满足cp-->不同节点的角色不同ap-->不同节点的角色相同。
阅读更多2024-11-17