CNDD-0265 上市公司年报前瞻性信息文本词频统计及学术论文应用

01 数据介绍

▪ 数据名称: 前瞻性信息文本

数据编号:0265

▪ 数据层级:A股上市公司层面

▪ 数据范围:2007-2023年

▪ 样本数量:前瞻性信息文本词频统计数据 50,749条;前瞻性信息文本关键词明细数据608,952条

▪ 数据来源:根据上市公司年报文本爬取

▪ 数据说明: CNDD上市公司前瞻性信息文本数据包括前瞻性信息文本关键词明细及前瞻性信息文本计。参考王秀丽等(2020,统计了上市公司年报文本中含有“前瞻性信息文本”相关的词频明细及合计数据数据提供.xlsx和.dta两种格式,可用stata或excel打开。

▪ 数据维度:年度数据

▪ 数据介绍: 前瞻性信息是指对未来经营情况和发展前景的预测,从形式上可以分为定量预测和定性预测。定量预测是有目标性地对下一个经营期间所实现净利润或每股收益进行估值。这种预测具有较强的事后可验证性,且一般针对于财务信息,如上市公司业绩预告、分析师报告等。定性预测是指公司对未来经营计划的披露,如创新研究计划、商业拓展规划和供应商合作计划等( Hirst 等,2008; Baginski 等,2002) 。定性预测一般针对于非财务信息,具有较高自主性。从对于投资者的价值来看,定量的前瞻性预测更加直观,投资者能够直接根据预测结果制定具体投资方案 ( Baginski 等,2016) 。定量前瞻性信息的准确性体现在预测方式 ( 点预测或区间预测) 、预测时效和预测内容。相
     基于此,CNDD参考王秀丽等(2020采用了特征词汇提取法来度量“前瞻性特征”指标,抓取 “未来”、 “计划”、 “有望”、“预期”、“预计”、“以后”、“今后”、“将会”、“届时”、“明年”、“后年”、“2-5 年内”等一系列词语,这些词语出现的频次越高,说明公司披露了越多的未来事项。

CNDeepData 数据应用质量评级

 常用度:★★

▪ 稀缺度:★★

▪ 新颖度:★★★

▪ 总体级别:14颗星

  常用度:是数据市场中需求指标,是指该数据在经济管理类学术论文中使用频率。

✔  稀缺度:是数据市场中供给指标,是指该数据在其他数据库的出现频率。

  新颖度:是数据市场中生成指标,是指该数据在生成时方法新颖程度和工作量。

02 变量说明    

03 数据概览

前瞻性信息文本词频统计数据

前瞻性信息文本关键词明细数据

▪  变量分布

前瞻性信息文本词频统计数据

前瞻性信息文本关键词明细数据

04 前沿文献速递

▪ 文献来源

王秀丽,齐荻,吕文栋.控股股东股权质押与年报前瞻性信息披露[J].会计研究,2020,(12):43-58.

▪ 文献内容
近年来上市公司 “无股不押”的行为给我国股票市场造成了巨大波动,质押比例高的公司股价一度呈现断崖式下跌,引发了市场对风险的担忧,更吸引了学者们对股权质押问题的广泛关注。基于此背景,本文以我国沪深上市公司 2010-2018 年的数据为样本,重点考察了股权质押企业年报文本信息的披露特征。研究发现在股权质押后,上市公司年报文本中将披露更多前瞻性信息用以描述未来前景,将来时态语句数量显著提高。整体文本特征的异常乐观程度越大,上述现象越显著。进一步的研究示,在企业经营风险加大,外部监督增强和自身代理问题更严重的样本中,年报中呈现的未来前景的文本信息披露增多。上述发现在一系列的稳健性检验中依然成立。本文的发现证实了年报文本信息描述的 “将来化”是股权质押后上市公司美化文本信息披露,降低股权质押风险,稳定股价的重要手段。本文的结论丰富了股权质押下控股股东影响文本信息披露的研究,并为监管机构规范股权质押上市公司行为提供了相应参考。

▪ 模型设计与变量说明

参 照 Karapandza( 2016) 的研究,建立了以下回归模型:

在模型 ( 1) 中,被解释变量为 “经营情况讨论与分析”中未来事项的披露 ( FTR) ,我们采用了特征词汇提取法来度量该指标,抓取 “未来”、 “计划”、 “有望”、“预期”、“预计”、“以后”、“今后”、“将会”、“届时”、“明年”、“后年”、“2-5 年内”等一系列词语,这些词语出现的频次越高,说明公司披露了越多的未来事项。为了提升该指标在不同公司之间的可比性,我们对该变量进行了标准化处理,令前瞻性特征字段数量除以 “经营情况讨论与分析”部分总字数,所得到的比例值即 FTR 的取值。在模型 ( 2) 中,调节变量为年报异常文本信息乐观程度 ( AbTone ) ,对 于 该 变 量, 我 们 参 照 Huang 等( 2014) 的研究方法,首先通过计算年报文本中的语调,包括乐观倾向语调和悲观倾向语调,根据以下公式来进行计算:

若年报文本中的语调乐观程度符合当期业绩表现,则应满足以下数量关系:

在上述模型中,FEPS 为预计下一期的每股收益,EPS 为当期每股收益,ROE 为净资产收益率,LEV 为资产负债率,Size 为公司规模,Age 为公司年龄,Growth 为主营业务收入增长率,LOSS 是公司是否亏损的哑变量。该模型的残差项即为文本异常语调 ( AbTone) 。在年报中词语的抓取方法上,本文使用了 Python3. 6编程软件所编写的网络爬虫程序 ( Beautiful Soup) 来自动抓取巨潮资讯网上的上市公司年报第四章节 “经营情况讨论与分析书”,通过 Python 的语言分析模块来统计文中目标词语的出现频率。此外,为了保证词语抓取的全面性,还将所有词语导入到开源分析工具 Word2vec 中,寻找与这些词语内容相近程度最高的词语,并加入到文本抓取词库之中。本文所采用的其他研究变量参见表 1。本文 的 核 心 解 释 变 量 为 股权质押的虚拟变量( Pledge) ,我们将其定义为 “上市公司在 t 年末存在控股股东股权质押取 1,否则取 0” ( 不包括当期质押且在当期解除的观测值) 。此外,还控制了衡量公司基本面情况和管理层特征等变量。

▪ 计算结果

表 4 为多元回归结果。从左至右,分别采用了不同的多元回归模型来处理。第一列为 OLS 回归; 第二列为考虑公司个体效应的固定效应模型; 第三列为增加考虑了年度效应和行业效应的双向固定效应模型; 第四、五列数据采用了高维固定效应模型来进行回归。由第一列的回归结果可以看出,股权质押的虚拟变量( Pledge) 对年报未来信息描述 ( FTR) 的回归系数正向显著,为 0. 133 ( T= 6. 59,P<0. 01) ,该结果与假设 1 的推断相一致,说明与非股权质押上市公司相比,进行了股权质押的公司将更有可能披露未来事项。由第二列回归结果可知,在考虑公司个体效应后,回归系数依然显著。同时,R2得到了较大幅度的增加,由 0. 610 变为 0. 695,这表明在控制了个体效应之后,模型的解释能力得到了提升,由第三列回归结果可知,在综合考虑行业因素、个体因素和年度因素后,原回归结果未发生显著改变,以上结果支持了本文的假设 1。为了进一步验证假设检验的合理性,我们采用了高维固定效应模型对原模型进行了重新检验,结果显示,原假设依然成立。
由表 4 中的检验结果对比可知,因变量与自变量的关系在控制了个体因素后,回归系数有所下降。因此我们需要探究,这些个体因素究竟是什么? 为此,我们在假设 1的模型设定基础上,加入了反映公司盈余管理的代理变量。由第五列的结果来看,应计盈余管理 ( DA) 和真实盈余管理( REM) 的回归系数均显著,且在加入这两个控制变量后,模型的拟合优度分别比同模型,但未考虑盈余管理时所计算出的拟合优度要高,表明在上文提到的个体效应中,部分可以由公司的盈余管理行为来解释。

05 其他相关文献

[1]苗霞,李秉成.管理层超额乐观语调与企业财务危机预测——基于年报前瞻性信息的分析[J].商业研究,2019,(02):129-137.

[2]田高良,薛宇婷,李星,等.投资者重视管理者的前瞻性吗?——基于年报文本分析的经验证据[J].管理工程学报,2023,37(01):225-236.

[3]雷新途,方柳卿.言多必失:产品市场掠夺风险会影响年报前瞻性信息披露吗?[J].商业研究,2020,(10):73-88.

06 获取方式

见推文末尾。

本数据为高级会员专属数据,添加客服微信,购买年度高级会员299元,永久高级会员899元,可享CNDeepData所有数据免费获取。

添加客服微信,购买年度高级会员299元,永久高级会员899元,可享CNDeepData所有数据免费获取。

客服微信方式

扫描下方二维码,或搜索下方微信号。

添加客服微信号:

DeepData001

获取更多更新数据

版权声明 …

1. 除中国深度数据库(CNDD)特殊声明外,CNDD对基于合法来源的数据的选择、整理和编排具有独创性。任何自然人、法人、其他组织未经CNDD授权,不得以任何目的截取、上传、下载、复制、修改、使用、编译等或者以任何方式任何媒介传播上述作品的任何部分,否则视为侵权。

2. 对于存在侵害CNDD上述权利违法行为的主体,CNDD保留依法追究其法律责任的权利。

数据授权使用说明 …

任何使用CNDD数据等产品的单位和个人,承诺只将CNDD的数据等用于学术研究,并在所得研究成果(包括但不限于学术论文、咨询报告等)中注明数据来源于CNDD。数据来源的注明方式请参考:“本研究数据来源于中国深度数据库CNDD”;英文参考:“We get the data from CNDeepData (CNDD)”。

中国深度数据库:让精品数据 得以流动

CNDeepData:Let high-quality data flow without barriers

资源下载此资源仅限年度高级会员下载,请先

部分图片来源于网络,如涉侵权请告知,本站将第一时间删除。客服微信号:DeepData001

发表评论

您的邮箱地址不会被公开。 必填项已用 * 标注

滚动至顶部