11.22【大数据】
各文件的区别
1. history_starter_jrj.py
- 爬虫对象:
JrjSpyder
- 数据来源:金融界(JRJ)
- 爬取方式:调用
get_historical_news
方法,传入网站列表和起始日期。 - 处理步骤:
- 爬取历史数据。
- 去重清洗。
- 去除包含null值的行。
- 创建新的数据库,针对每个股票保存涉及该股票的新闻,并贴好标签。
2. history_starter_nbd.py
- 爬虫对象:
NbdSpyder
- 数据来源:每日经济新闻(NBD)
- 爬取方式:调用
get_historical_news
方法,传入起始页码。 - 处理步骤:
- 爬取历史数据。
- 去重清洗。
- 去除包含null值的行。
- 创建新的数据库,针对每个股票保存涉及该股票的新闻,并贴好标签。
3. history_starter_cnstock.py
- 爬虫对象:
CnStockSpyder
- 数据来源:中国证券网(CNStock)
- 爬取方式:循环调用
get_historical_news
方法,传入每个网站的URL和分类。 - 处理步骤:
- 爬取历史数据。
- 去重清洗。
- 去除包含null值的行。
- 创建新的数据库,针对每个股票保存涉及该股票的新闻,并贴好标签。
- 每次爬取后休眠30秒,防止被封IP。
4. history_starter_stock_price.py
- 爬虫对象:
StockInfoSpyder
- 数据来源:股票价格数据
- 爬取方式:调用
get_historical_news
方法,可以指定起始和结束日期,如果不指定则从最新数据时间开始获取直到当前。 - 处理步骤:
- 爬取历史股票价格数据。
总结
- 数据来源:四个文件分别从不同的数据源爬取数据,分别是金融界(JRJ)、每日经济新闻(NBD)、中国证券网(CNStock)和股票价格数据。
- 爬取方式:爬取方式有所不同,JRJ和CNStock需要传入具体的网站列表和分类,NBD需要传入起始页码,而股票价格数据可以通过指定时间段来爬取。
- 处理步骤:前三个文件(JRJ、NBD、CNStock)的处理步骤相似,包括爬取数据、去重清洗、去除null值和创建新的数据库。而股票价格数据文件(stock_price)只包含爬取数据的步骤。
这些文件的主要区别在于数据源的不同和爬取方式的差异,但处理步骤在前三个文件中基本一致。
PRO1,tensorFlow版本问题
原文地址:https://blog.csdn.net/m0_73553411/article/details/143974493
免责声明:本站文章内容转载自网络资源,如本站内容侵犯了原著者的合法权益,可联系本站删除。更多内容请关注自学内容网(zxcms.com)!