11.22【大数据】

🕗 发布于 2024-12-09 14:55 大数据

各文件的区别

1. history_starter_jrj.py

爬虫对象：JrjSpyder
数据来源：金融界（JRJ）
爬取方式：调用 get_historical_news 方法，传入网站列表和起始日期。
处理步骤：
1. 爬取历史数据。
2. 去重清洗。
3. 去除包含null值的行。
4. 创建新的数据库，针对每个股票保存涉及该股票的新闻，并贴好标签。

2. history_starter_nbd.py

爬虫对象：NbdSpyder
数据来源：每日经济新闻（NBD）
爬取方式：调用 get_historical_news 方法，传入起始页码。
处理步骤：
1. 爬取历史数据。
2. 去重清洗。
3. 去除包含null值的行。
4. 创建新的数据库，针对每个股票保存涉及该股票的新闻，并贴好标签。

3. history_starter_cnstock.py

爬虫对象：CnStockSpyder
数据来源：中国证券网（CNStock）
爬取方式：循环调用 get_historical_news 方法，传入每个网站的URL和分类。
处理步骤：
1. 爬取历史数据。
2. 去重清洗。
3. 去除包含null值的行。
4. 创建新的数据库，针对每个股票保存涉及该股票的新闻，并贴好标签。
5. 每次爬取后休眠30秒，防止被封IP。

4. history_starter_stock_price.py

爬虫对象：StockInfoSpyder
数据来源：股票价格数据
爬取方式：调用 get_historical_news 方法，可以指定起始和结束日期，如果不指定则从最新数据时间开始获取直到当前。
处理步骤：
1. 爬取历史股票价格数据。

总结

数据来源：四个文件分别从不同的数据源爬取数据，分别是金融界（JRJ）、每日经济新闻（NBD）、中国证券网（CNStock）和股票价格数据。
爬取方式：爬取方式有所不同，JRJ和CNStock需要传入具体的网站列表和分类，NBD需要传入起始页码，而股票价格数据可以通过指定时间段来爬取。
处理步骤：前三个文件（JRJ、NBD、CNStock）的处理步骤相似，包括爬取数据、去重清洗、去除null值和创建新的数据库。而股票价格数据文件（stock_price）只包含爬取数据的步骤。

这些文件的主要区别在于数据源的不同和爬取方式的差异，但处理步骤在前三个文件中基本一致。

PRO1,tensorFlow版本问题

原文地址：https://blog.csdn.net/m0_73553411/article/details/143974493

免责声明：本站文章内容转载自网络资源，如本站内容侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

上一篇：P1223 排队接水（贪心）
下一篇：基于单片机的中小水电站闸门控制系统(论文+源码)

C语言函数嵌套
函数可以嵌套调用，但不能嵌套定义。
阅读更多2024-12-27
C中访问基类的私有虚函数的方法是什么？
在C++中，访问基类的私有虚函数并不是一件直接的事情，因为私有成员函数的访问权限限制了其在派生类中的直接访问。- `student`类继承自`person`，并重写了`name()`函数，还添加了两个
阅读更多2024-12-27
动态头部：利用注意力机制统一目标检测头部
将定位和分类结合在目标检测中的复杂性促进了各种方法的蓬勃发展。先前的工作试图改进各种目标检测头（head）的性能，但未能给出一个统一的视角。在本文中，我们提出了一种新颖的动态头框架，通过注意力机制统一
阅读更多2024-12-27
Vue.js 核心概念：模板、指令、数据绑定
模板是 Vue.js 的视图部分，类似于传统的 HTML 页面结构，但是它更加动态和灵活。在 Vue 中，模板用来描述用户界面，并将数据和 DOM 元素绑定在一起。Vue 的模板看起来就像普通的 HT
阅读更多2024-12-27
工厂常用软件系统大全中英文全称对照表及功能介绍应用场景ERP MES WMS SCADA IOT SAP等软件系统介绍
11. Oracle（Oracle ）甲骨文数据库： ○ 功能：Oracle是一款关系型数据库管理系统（RDBMS），提供数据存储、管理和分析的功能，支持多种编程语言和开发工具。10. SAP（Sy
阅读更多2024-12-27
Hadoop实现WordCount详解
通过本文的介绍，我们了解了如何使用Hadoop实现WordCount程序。从环境搭建到程序编写，再到作业的提交和运行，每一步都是实现大数据处理的关键。WordCount程序虽然简单，但它是理解Hado
阅读更多2024-12-27
初始化全部推断的寄存器、 SRL 和存储器
初始化全部推断的寄存器、 SRL 和存储器
阅读更多2024-12-27
[Unity Shader][图形渲染]【游戏开发】 Shader数学基础8 - 齐次坐标
齐次坐标的核心思想是通过引入一个额外的维度 w，将 n 维空间中的点和向量用 n+1 维坐标表示。点的齐次坐标：在三维空间中，点的齐次坐标为 (x,y,z,w)其中 w≠0。常见的做法是将 w 设置为
阅读更多2024-12-27
LDR6020在iPad一体式键盘的创新应用
随着科技的不断进步和用户需求的不断提升，相信搭载LDR6020芯片的iPad一体式键盘将成为越来越多用户的首选配件，引领移动外设的发展潮流，为用户带来更多惊喜与便利。这一设计极大地提升了使用的便捷性和
阅读更多2024-12-27
Mongodb
Mongoose 是一个对象文档模型库，官网。
阅读更多2024-12-27