(资料图片仅供参考)
1.资料名称:2022-2000年上市公司企业年报文本数据
2.计算方式:使用python将巨潮网上市公司年报进行爬取,下载的pdf文件已经转化为txt格式,方便后续文本分析处理;pdf批量下载过程中存在年报更新的情况,已经对年报进行了筛选,剔除了非年报文件并保留了最新更新或更正的年报;原始地址的文件名称并不统一,本人已经将年报文件名称进行了统一,统一格式为“股票代码_年度_发布日期_****年年度报告.txt”,例如,“000002_2023_20230331_2022年年度报告.txt”
3.数据来源:巨潮网
4.资料范围:5.3万个年报,近6个G的数据量,数据格式为.txt 格式(记事本),计量软件可以直接导入,提供详细的Python爬虫代码
复制这个链接下载
https://www.caomeikeyan.com/forum.php?mod=viewthread&tid=2189
(出处: 草莓科研服务网——中国专业社科交流平台)
关键词: