自学内容网 > 正文

新时代【机器学习】与【Pycharm】：【随机数据生成】与智能【股票市场分析】

🕗 发布于 2024-07-08 16:40 机器学习 pycharm 信息可视化数据挖掘语言模型

目录

第一步：准备工作

1.1 安装必要的库

小李的理解：

小李的理解：

第二步：生成和准备数据

2.1 生成随机股票数据

小李的理解：

2.2 数据探索与可视化

小李的理解：

2.3 数据处理

小李的理解：

2.4 选择特征和标签

小李的理解：

第三步：拆分数据集

小李的理解：

第四步：训练决策树模型

小李的理解：

第五步：模型预测与评估

小李的理解：

专栏：机器学习笔记

总篇：学习路线

第一卷：线性回归模型

第二卷：逻辑回归模型

第一步：准备工作

1.1 安装必要的库

小李的理解：

在开始之前，需要安装一些工具，类似于做饭前要准备好各种食材。这里，需要安装pandas、scikit-learn和matplotlib，它们分别用于数据处理、机器学习和数据可视化。

在Pycharm中打开终端，并运行以下命令：

pip install pandas scikit-learn matplotlib

这些库的作用如下：

pandas：用于数据处理和分析，就像厨房里的切菜板和刀。
scikit-learn：用于机器学习模型的构建和评估，相当于厨房里的锅和炉灶。
matplotlib：用于数据可视化，类似于摆盘和装饰菜肴。

1.2 导入库

小李的理解：

在新的Python文件中，导入这些库。就像准备好工具后，把它们放在桌子上随时可以使用。

import pandas as pd
import numpy as np
from sklearn.model_selection import train_test_split
from sklearn.tree import DecisionTreeClassifier
from sklearn.metrics import accuracy_score
import matplotlib.pyplot as plt

第二步：生成和准备数据

2.1 生成随机股票数据

小李的理解：

现在要生成一些模拟的股票数据。想象在创建一个虚拟的股票市场，这些数据包括日期、开盘价、最高价、最低价、收盘价和成交量。就像在做一顿虚拟的大餐，需要各种食材和调料。

# 设置随机种子以确保结果可重复
np.random.seed(42)

# 生成99个交易日期（工作日）
dates = pd.date_range(start='2023-01-01', periods=99, freq='B')

# 随机生成股票价格数据
open_prices = np.random.uniform(low=100, high=200, size=len(dates))
high_prices = open_prices * np.random.uniform(low=1, high=1.1, size=len(dates))
low_prices = open_prices * np.random.uniform(low=0.9, high=1, size=len(dates))
close_prices = np.random.uniform(low=100, high=200, size=len(dates))
volumes = np.random.randint(low=1000, high=10000, size=len(dates))

# 创建数据框
stock_data = pd.DataFrame({
    '日期': dates,
    '开盘价': open_prices,
    '最高价': high_prices,
    '最低价': low_prices,
    '收盘价': close_prices,
    '成交量': volumes
})

# 将数据保存到CSV文件中
stock_data.to_csv('data.csv', index=False, encoding='utf-8-sig')
print("数据已保存到data.csv文件中")

2.2 数据探索与可视化

小李的理解：

为了更好地理解我们的数据，可以绘制收盘价的时间序列图。这就像是把做好的菜摆盘后拍张照片，看看颜色和外观怎么样。

# 绘制收盘价的时间序列图
plt.figure(figsize=(12, 6))
plt.plot(stock_data['收盘价'], label='收盘价')
plt.title('模拟股票收盘价历史')
plt.xlabel('日期')
plt.ylabel('收盘价 (美元)')
plt.legend()
plt.show()

这段代码将显示模拟股票收盘价随时间变化的图表。

2.3 数据处理

小李的理解：

为了进行预测，需要创建一些特征和标签。用今天的数据来预测明天的情况。具体来说，会看看今天的收盘价，并判断明天的收盘价是否会上涨。就像是根据今天的天气预测明天是否会下雨。

# 创建新的特征和标签
stock_data['次日收盘价'] = stock_data['收盘价'].shift(-1)
stock_data['价格上涨'] = (stock_data['次日收盘价'] > stock_data['收盘价']).astype(int)
stock_data.dropna(inplace=True)
print(stock_data.head())

在这段代码中：

创建了一个新的列次日收盘价，表示下一天的收盘价。
创建了标签列价格上涨，如果第二天的收盘价高于当天，则标签为1，否则为0。
删除了包含空值的行。

2.4 选择特征和标签

小李的理解：

选择一些关键数据作为特征，用它们来预测明天的情况。这些特征包括收盘价、开盘价、最高价、最低价和成交量。就像是选择了一些重要的天气指标（如温度、湿度、风速等）来预测明天的天气。

# 选择特征和标签
features = stock_data[['收盘价', '开盘价', '最高价', '最低价', '成交量']]
labels = stock_data['价格上涨']

在这段代码中，选择了特征列和标签列，用于后续的模型训练和评估。

第三步：拆分数据集

小李的理解：

为了评估模型，需要把数据分成两部分：一部分用来训练模型，另一部分用来测试模型的准确性。就像是用一些数据来训练一个预测模型，然后用其他数据来验证它的预测能力。

from sklearn.model_selection import train_test_split

# 拆分数据集
X_train, X_test, y_train, y_test = train_test_split(features, labels, test_size=0.2, random_state=42)

在这段代码中，将数据集的80%用作训练集，20%用作测试集。还设置了random_state参数，以确保每次运行代码时拆分方式相同。

第四步：训练决策树模型

小李的理解：

可以用训练数据来训练我们的模型了。决策树是一种机器学习算法，就像是一个聪明的机器人，它可以学习数据中的模式，并根据这些模式做出预测。

from sklearn.tree import DecisionTreeClassifier

# 训练决策树模型
clf = DecisionTreeClassifier()
clf.fit(X_train, y_train)

在这段代码中，首先创建了一个DecisionTreeClassifier对象，然后使用训练数据X_train和y_train来训练模型。

第五步：模型预测与评估

小李的理解：

训练完成后，可以用测试数据来评估模型的表现。让模型对测试数据做出预测，并计算预测的准确性。就像是测试一个天气预报模型，看看它预测的准确性有多高。

from sklearn.metrics import accuracy_score

# 模型预测与评估
y_pred = clf.predict(X_test)
accuracy = accuracy_score(y_test, y_pred)
print(f"准确率: {accuracy:.2f}")

在这段代码中，我们使用clf.predict方法来预测测试数据的标签，然后使用accuracy_score函数来计算模型的准确性。

结果

日期开盘价最高价最低价收盘价成交量 0 2023-01-02 137.454012 138.937023 135.901969 121.582103 4440 1 2023-01-03 195.071431 195.684524 190.777431 162.289048 4766 2 2023-01-04 173.199394 184.221984 166.999404 108.534746 6644 3 2023-01-05 159.865848 164.891327 145.224374 105.168172 3914 4 2023-01-06 115.601864 121.481036 105.910136 153.135463 5968

日期开盘价最高价 ... 成交量次日收盘价价格上涨 0 2023-01-02 137.454012 138.937023 ... 4440 162.289048 1 1 2023-01-03 195.071431 195.684524 ... 4766 108.534746 0 2 2023-01-04 173.199394 184.221984 ... 6644 105.168172 0 3 2023-01-05 159.865848 164.891327 ... 3914 153.135463 1 4 2023-01-06 115.601864 121.481036 ... 5968 154.063512 1

[5 rows x 8 columns] 准确率: 0.50

完整代码

为了方便你查看和运行，以下是完整的代码：

import pandas as pd
import numpy as np
from sklearn.model_selection import train_test_split
from sklearn.tree import DecisionTreeClassifier
from sklearn.metrics import accuracy_score
import matplotlib.pyplot as plt
from matplotlib.font_manager import FontProperties

# 设置随机种子以确保结果可重复
np.random.seed(42)

# 生成99个交易日期（工作日）
dates = pd.date_range(start='2023-01-01', periods=99, freq='B')

# 随机生成股票价格数据
open_prices = np.random.uniform(low=100, high=200, size=len(dates))
high_prices = open_prices * np.random.uniform(low=1, high=1.1, size=len(dates))
low_prices = open_prices * np.random.uniform(low=0.9, high=1, size=len(dates))
close_prices = np.random.uniform(low=100, high=200, size=len(dates))
volumes = np.random.randint(low=1000, high=10000, size=len(dates))

# 创建数据框
stock_data = pd.DataFrame({
    '日期': dates,
    '开盘价': open_prices,
    '最高价': high_prices,
    '最低价': low_prices,
    '收盘价': close_prices,
    '成交量': volumes
})

# 将数据保存到CSV文件中
stock_data.to_csv('data.csv', index=False, encoding='utf-8-sig')
print("数据已保存到data.csv文件中")

# 读取CSV文件中的数据
stock_data = pd.read_csv('data.csv')
print(stock_data.head())

# 设置字体属性，确保能显示中文
font = FontProperties(fname='C:/Windows/Fonts/simhei.ttf')  # 这里使用黑体，可以根据需要更改

# 绘制收盘价的时间序列图
plt.figure(figsize=(12, 6))
plt.plot(stock_data['日期'], stock_data['收盘价'], label='收盘价')
plt.title('模拟股票收盘价历史', fontproperties=font)
plt.xlabel('日期', fontproperties=font)
plt.ylabel('收盘价 (美元)', fontproperties=font)
plt.legend(prop=font)
plt.xticks(rotation=45)
plt.tight_layout()
plt.show()

# 创建新的特征和标签
stock_data['次日收盘价'] = stock_data['收盘价'].shift(-1)
stock_data['价格上涨'] = (stock_data['次日收盘价'] > stock_data['收盘价']).astype(int)
stock_data.dropna(inplace=True)
print(stock_data.head())

# 选择特征和标签
features = stock_data[['收盘价', '开盘价', '最高价', '最低价', '成交量']]
labels = stock_data['价格上涨']

# 拆分数据集
X_train, X_test, y_train, y_test = train_test_split(features, labels, test_size=0.2, random_state=42)

# 训练决策树模型
clf = DecisionTreeClassifier()
clf.fit(X_train, y_train)

# 模型预测与评估
y_pred = clf.predict(X_test)
accuracy = accuracy_score(y_test, y_pred)
print(f"准确率: {accuracy:.2f}")

总结

生成随机股票数据，保存为 CSV 文件，并使用决策树进行预测和评估。

安装必要的库：
使用 pip install pandas numpy scikit-learn matplotlib 安装库。
生成并保存随机数据：
生成 99 个交易日（工作日）的随机股票数据，包括日期、开盘价、最高价、最低价、收盘价和成交量。使用 pandas 将数据保存到 data.csv 文件中。
读取并准备数据：
- 从 CSV 文件中读取数据。
- 创建新的特征（次日收盘价）和标签（价格上涨）。
数据可视化：
- 使用 matplotlib 绘制收盘价的时间序列图。
- 设置字体属性以确保图表中能正确显示中文。
拆分数据集：
将数据集拆分为训练集和测试集。
训练决策树模型：
使用 DecisionTreeClassifier 训练模型。
模型预测与评估：
使用测试集对模型进行评估，计算模型的准确性。

原文地址：https://blog.csdn.net/2303_77720864/article/details/140267188

免责声明：本站文章内容转载自网络资源，如本站内容侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

上一篇：王老师 linux c++ 通信架构笔记（二）配置服务器为固定的 ip 地址与远程登录
下一篇：ARL联动AWVS实现自动化漏洞扫描

管家婆工贸ERP BR039.采购订单关联MRP明细表
ⅲ. 由于以上报表是复制系统原有功能的基础上增加定制功能，所以如果在以后版本升级中复制参考的系统中的原报表增加了新功能，该定制插件虽然可以支持升级到新版本，但是升级后不包含新版本中增加的新功能，如需变
阅读更多2024-11-17
3271.哈希分割字符串
这个问题通过简单的字符串处理和数学运算实现了字符串的哈希转换。算法时间复杂度为 O(n)，其中 n 是字符串的长度。这种方法高效且易于理解，非常适合用来解决类似的字符串处理问题。
阅读更多2024-11-17
Java核心知识体系-线程管理
在Java程序开发中，线程管理是一个至关重要的方面。它涉及到如何有效地创建、调度、同步和销毁线程，以确保程序的性能、响应性和稳定性。以下是对Java线程管理的详细探讨。
阅读更多2024-11-17
WebChromeClient 方法分类及其功能
`WebChromeClient` 是 Android `WebView` 的关键组件，处理网页交互事件。本文介绍了其主要回调方法及注意事项，帮助开发者提升 Web 应用的用户体验。
阅读更多2024-11-17
服务端高并发分布式结构进阶之路
服务端高并发分布式结构演进之路
阅读更多2024-11-17
物理hack
手把手教你黑进你朋友的电脑，然后给他关机，哈哈哈，来玩吧网络安全红队（成长ing）,学习分享
阅读更多2024-11-17
R 语言科研配色 --- 第 15 期
在使用 R 语言进行科研绘图时，颜色的选择是一件让人特别纠结的事情。本系列文章介绍了 R 语言科研绘图时常用的一些配色。本账号内所有原创内容，未经允许禁止转载和用于商业用途，违者必究。为了解决 R 语
阅读更多2024-11-17
【Android、IOS、Flutter、鸿蒙、ReactNative 】静态数组
Android Java 静态数组、Android Kotlin 静态数组、IOS Object-c 静态数组、IOS Swift 静态数组、鸿蒙静态数组、React Native 静态数组。
阅读更多2024-11-17
蓝牙 HFP 协议详解及 Android 实现
蓝牙免提协议（HFP，Hands-Free Profile）是用于支持免提通话的标准协议，广泛应用于车载蓝牙系统、蓝牙耳机等设备。HFP提供了拨号接听电话挂断电话以及语音拨号等功能，同时支持同步手机电
阅读更多2024-11-17
lua实现雪花算法
雪花算法（Snowflake Algorithm）是一种用于生成唯一ID的分布式生成算法，最初由Twitter开发。它的主要目的是在分布式系统中生成唯一的、时间有序的ID，这些ID通常用于数据库的主键
阅读更多2024-11-17