CNDD-0265 上市公司年报前瞻性信息文本词频统计及学术论文应用
01 数据介绍
▪ 数据名称: 前瞻性信息文本
▪ 数据编号:0265
▪ 数据层级:A股上市公司层面
▪ 数据范围:2007-2023年
▪ 样本数量:前瞻性信息文本词频统计数据 50,749条;前瞻性信息文本关键词明细数据608,952条
▪ 数据来源:根据上市公司年报文本爬取
▪ 数据说明: CNDD上市公司前瞻性信息文本数据包括前瞻性信息文本关键词明细及前瞻性信息文本统计。参考王秀丽等(2020),统计了上市公司年报文本中含有“前瞻性信息文本”相关的词频明细及合计数据。数据提供.xlsx和.dta两种格式,可用stata或excel打开。
▪ 数据维度:年度数据
CNDeepData 数据应用质量评级
▪ 常用度:★★★★☆
▪ 稀缺度:★★★★★
▪ 新颖度:★★★★★
▪ 总体级别:14颗星
✔ 常用度:是数据市场中需求指标,是指该数据在经济管理类学术论文中使用频率。
✔ 稀缺度:是数据市场中供给指标,是指该数据在其他数据库的出现频率。
✔ 新颖度:是数据市场中生成指标,是指该数据在生成时方法新颖程度和工作量。
前瞻性信息文本词频统计数据
前瞻性信息文本关键词明细数据
▪ 变量分布
前瞻性信息文本词频统计数据
前瞻性信息文本关键词明细数据
▪ 文献来源:
王秀丽,齐荻,吕文栋.控股股东股权质押与年报前瞻性信息披露[J].会计研究,2020,(12):43-58.
参 照 Karapandza( 2016) 的研究,建立了以下回归模型:
在上述模型中,FEPS 为预计下一期的每股收益,EPS 为当期每股收益,ROE 为净资产收益率,LEV 为资产负债率,Size 为公司规模,Age 为公司年龄,Growth 为主营业务收入增长率,LOSS 是公司是否亏损的哑变量。该模型的残差项即为文本异常语调 ( AbTone) 。在年报中词语的抓取方法上,本文使用了 Python3. 6编程软件所编写的网络爬虫程序 ( Beautiful Soup) 来自动抓取巨潮资讯网上的上市公司年报第四章节 “经营情况讨论与分析书”,通过 Python 的语言分析模块来统计文中目标词语的出现频率。此外,为了保证词语抓取的全面性,还将所有词语导入到开源分析工具 Word2vec 中,寻找与这些词语内容相近程度最高的词语,并加入到文本抓取词库之中。本文所采用的其他研究变量参见表 1。本文 的 核 心 解 释 变 量 为 股权质押的虚拟变量( Pledge) ,我们将其定义为 “上市公司在 t 年末存在控股股东股权质押取 1,否则取 0” ( 不包括当期质押且在当期解除的观测值) 。此外,还控制了衡量公司基本面情况和管理层特征等变量。
表 4 为多元回归结果。从左至右,分别采用了不同的多元回归模型来处理。第一列为 OLS 回归; 第二列为考虑公司个体效应的固定效应模型; 第三列为增加考虑了年度效应和行业效应的双向固定效应模型; 第四、五列数据采用了高维固定效应模型来进行回归。由第一列的回归结果可以看出,股权质押的虚拟变量( Pledge) 对年报未来信息描述 ( FTR) 的回归系数正向显著,为 0. 133 ( T= 6. 59,P<0. 01) ,该结果与假设 1 的推断相一致,说明与非股权质押上市公司相比,进行了股权质押的公司将更有可能披露未来事项。由第二列回归结果可知,在考虑公司个体效应后,回归系数依然显著。同时,R2得到了较大幅度的增加,由 0. 610 变为 0. 695,这表明在控制了个体效应之后,模型的解释能力得到了提升,由第三列回归结果可知,在综合考虑行业因素、个体因素和年度因素后,原回归结果未发生显著改变,以上结果支持了本文的假设 1。为了进一步验证假设检验的合理性,我们采用了高维固定效应模型对原模型进行了重新检验,结果显示,原假设依然成立。
由表 4 中的检验结果对比可知,因变量与自变量的关系在控制了个体因素后,回归系数有所下降。因此我们需要探究,这些个体因素究竟是什么? 为此,我们在假设 1的模型设定基础上,加入了反映公司盈余管理的代理变量。由第五列的结果来看,应计盈余管理 ( DA) 和真实盈余管理( REM) 的回归系数均显著,且在加入这两个控制变量后,模型的拟合优度分别比同模型,但未考虑盈余管理时所计算出的拟合优度要高,表明在上文提到的个体效应中,部分可以由公司的盈余管理行为来解释。
[1]苗霞,李秉成.管理层超额乐观语调与企业财务危机预测——基于年报前瞻性信息的分析[J].商业研究,2019,(02):129-137.
[2]田高良,薛宇婷,李星,等.投资者重视管理者的前瞻性吗?——基于年报文本分析的经验证据[J].管理工程学报,2023,37(01):225-236.
[3]雷新途,方柳卿.言多必失:产品市场掠夺风险会影响年报前瞻性信息披露吗?[J].商业研究,2020,(10):73-88.
见推文末尾。
本数据为高级会员专属数据,添加客服微信,购买年度高级会员299元,永久高级会员899元,可享CNDeepData所有数据免费获取。
添加客服微信,购买年度高级会员299元,永久高级会员899元,可享CNDeepData所有数据免费获取。
▪ 客服微信方式:
扫描下方二维码,或搜索下方微信号。
1. 除中国深度数据库(CNDD)特殊声明外,CNDD对基于合法来源的数据的选择、整理和编排具有独创性。任何自然人、法人、其他组织未经CNDD授权,不得以任何目的截取、上传、下载、复制、修改、使用、编译等或者以任何方式任何媒介传播上述作品的任何部分,否则视为侵权。
2. 对于存在侵害CNDD上述权利违法行为的主体,CNDD保留依法追究其法律责任的权利。
任何使用CNDD数据等产品的单位和个人,承诺只将CNDD的数据等用于学术研究,并在所得研究成果(包括但不限于学术论文、咨询报告等)中注明数据来源于CNDD。数据来源的注明方式请参考:“本研究数据来源于中国深度数据库CNDD”;英文参考:“We get the data from CNDeepData (CNDD)”。
![](https://cndeepdata.pro/wp-content/uploads/replace/ea4b8c8514feef7a9ee5df77ad26f01d-300x122.jpeg)
中国深度数据库:让精品数据 得以流动
CNDeepData:Let high-quality data flow without barriers
部分图片来源于网络,如涉侵权请告知,本站将第一时间删除。客服微信号:DeepData001