自学内容网 自学内容网

A股上市公司年报爬虫及关键词词频分析(2004-2023年)

随着2023年上市公司年报陆续发布,我们搜集整理了最新上市公司年报,可用于文本分析和词频统计。如果想直接获取年报文本TXT版本或者数字化词频统计结果,可直接联系文末小编。

对于想学习利用python进行年报爬取和词频分析过程的用户,我们推出以下课程,不仅可以学习python爬虫以及数据分析技能,还能对上市公司年报进行个性化词频分析。详情如下:

课程内容:

1、信息获取(包括公司代码,公司简称,年份,年报地址)

预期结果:按照股票代码,公司名称,年份,下载链接等要素写入excel表

你将学习:使用python第三方库requests, re , time等进行年报爬取

新特性:

  • 全新接口,更全面的数据获取
  • 更友好的进度显示
  • 更多可选参数,支持年份区间下载

2、目标信息下载并转换(下载目标区间的年报并转为txt格式)

预期结果:从excel表格中批量下载pdf版本的年报,将其命名为"股票代码_公司简称_ 年份"的格式,并全部转为txt文件。

你将学习:使用python第三方库pandas,requests, re , pdfplumber,time等

多线程批量下载pdf年报并转换为txt文件。

新特性:

  • 可选择是否删除年报PDF原文件
  • 支持自定义命名结果文件夹
  • 提供区间年份的批量处理

3、目标信息数据分析(对目标区间年报进行文本分析)

预期结果:从多个文本文件中提取关键词并统计词频,然后将结果存储到 Excel 文件中。

你将学习:使用python第三方库jieba,xlwt等批处理txt 文件并进行关键词统计分析。

新特性:

  • 支持自选关键词,定制你需要的结果
  • 更友好的路径管理
  • 支持指定年份的统计
  • 新增数据暂存功能,防止数据丢失
  • 新增统计总字数的功能

4、具体应用

目前很多学者都使用文本挖掘的方式来构建某些特定的变量,例如:

A:《管理世界》中吴非(2021)对人工智能技术、大数据技术、云计算技术、区块链技术、数字技术运用五个维度76个数字化相关词频进行统计;

B:《财贸经济》中赵宸宇(2021)对数字技术应用、互联网商业模式、智能制造、现代信息系统四个维度99个数字化相关词频进行统计;

C:《经济研究》中甄红线(2023)对技术分类、组织赋能、数字化应用等类别下139个数字化相关词频进行统计

本课程从变量设计的技术实现上来看,通过Python爬虫功能归集整理了上海交易所、深圳交易所全部A股上市企业的年度报告,并通过Java PDFbox库提取所有文本内容,并以此作为数据池供后续的特征词筛选。在企业数字化转型特征词的确定上,基于学术领域和实业领域进行了分项讨论。

整个过程用简单的流程图表示如下:

【下载→

方式一(推荐):主页 个人 简介

-CSDN博客

方式二:数据下载方式汇总-CSDN博客


原文地址:https://blog.csdn.net/m0_74824534/article/details/145265565

免责声明:本站文章内容转载自网络资源,如侵犯了原著者的合法权益,可联系本站删除。更多内容请关注自学内容网(zxcms.com)!