CNDD-0266 上市公司风险信息文本词频统计及学术论文应用

01 数据介绍

▪ 数据名称: 风险信息文本

数据编号:0266

▪ 数据层级:A股上市公司层面

▪ 数据范围:2007-2023年

▪ 样本数量:风险信息文本词频统计数据 50,746条;风险信息文本关键词明细数据811,936条

▪ 数据来源:根据上市公司年报文本爬取

▪ 数据说明: CNDD上市公司风险信息文本数据包括风险信息文本关键词明细及风险信息文本统计。参考许文瀚等(2019 ,统计了上市公司年报文本中含有“风险信息文本”相关的词频明细及合计数据数据提供.xlsx和.dta两种格式,可用stata或excel打开。

▪ 数据维度:年度数据

▪ 数据介绍: 上市公司所从事的经营活动具有极强的专业性,一般投资者若不具备公司经营和财务分析的相关知识,就不能很好地辨识风险,就会做出错误的投资决策。为保护投资者利益,近年来各国监管部门都出台规则要求公司在年报和其他信息披露形式中对风险信息进行提示。现有研究表明,风险信息具有以下特点: 第一,风险信息可以确认和强化投资者的风险认知。即使不进行披露,投资者对投资风险也有一定的认识,且这种认识因投资者的谨慎程度而异。投资者在获取公司所主动披露的风险信息后,可能会对信息做出不同程度的解读,对风险敏感度较低的投资者可能会由于公司主动披露行为而增加对公司的信任度; 对风险敏感度较高的投资者可能会由于接受了新的风险信息而变得更为谨慎,这就增加了投资者意见分歧。第二,风险信息通常被视为坏消息。根据认知心理学的观点,信息接受者对于好消息通常保持怀疑态度,而对于坏消息则选择直接相信。在对公司披露坏消息的经济后果研究中发现,资本市场对坏消息的反应程度大于对好消息。因此上市公司所主动披露的风险信息更容易引起市场恐慌。第三,风险信息主要以非财务文本的形式表现,相比于专业性较强的财务数字信息,文本信息在可理解性上更胜一筹,便于一般投资者理解和判断。因此相比于公司披露的会计信息,以文字为主的风险信息更能够引起强烈的市场反应,从而加剧股价波动。
     基于此,CNDD参考许文瀚等(2019采用了特征词汇提取法来度量“前瞻性特征”指标,抓取风险特征关键词,包括“风险”“缺陷”“流动”“系统”“债务”“负担”“过剩”“失效”“过期”“困境”“汇率”“宏观”“危机”等,这些词语出现的频次越高,说明公司披露了越多的未来事项。

CNDeepData 数据应用质量评级

 常用度:★★

▪ 稀缺度:★★

▪ 新颖度:★★★

▪ 总体级别:14颗星

  常用度:是数据市场中需求指标,是指该数据在经济管理类学术论文中使用频率。

✔  稀缺度:是数据市场中供给指标,是指该数据在其他数据库的出现频率。

  新颖度:是数据市场中生成指标,是指该数据在生成时方法新颖程度和工作量。

02 变量说明

03 数据概览

风险信息文本词频统计数据

风险信息文本关键词明细数据

▪  变量分布

风险信息文本词频统计数据

风险信息文本关键词明细数据

04 前沿文献速递

▪ 文献来源

许文瀚,齐荻,陈沉.上市公司研发活动与风险信息披露——基于文本分析法的实证检验[J].财经论丛,2019,(08):73-83. .

▪ 文献内容
公司在是否披露研发活动的问题上面临着两难抉择: 一方面如实披露能够缓解融资约束; 但另一方面又不利于知识产权保护。近年来证监会的信息披露新规似乎减少了公司在研发信息上的自由裁量权。然而,我们从文本信息的角度,通过研究 2010 ~2017 年 A 股上市公司发现: 公司虽然增加了研发信息披露,但出于知识产权保护动机,所披露的信息存在着一定的误导性。其中最主要的手段是通过风险信息披露来减少外界对公司研发活动的关注; 但上述关系将因公司 “伪研发”、较高的地区知识产权保护力度而减弱。本研究拓展了风险披露、技术研发的研究领域,并提出了更加行之有效的文本信息度量方法,丰富了文本信息量化研究。

▪ 模型设计与变量说明

本文构建以下模型来验证上市公司研发活动与年报风险信息披露呈正相关关系。

1. 因变量。对于风险信息(Risk)的度量,以往的研究采用了人工阅读法和字数统计法。前者工作量较大,效率较低,且无法避免阅读者的主观性; 而后者则难以度量风险程度,且无法对风险进行分类。近年来随着计算机文本分析技术的兴起,对大样本上市公司年报进行文本信息提取与分析得以实现,通过网络爬虫技术,有众多学者实现了对年报文本信息的量化。本文借鉴该研究方法,并进行了改进。具体而言,我们首先通过风险特征词进行抓取,再通过关键词定位法抓取用以修饰风险关键词的情感倾向词汇。例如 “重大 XXX 缺陷”,其中 “重大”为情感倾向词, “缺陷”为风险词。为了保证结果的可靠性,我们将所抓取的所有词语导入到开源分析工具 Word2vec 中,寻找与这些词语内容相近程度最高的词语,并将遗漏值重新加入到文本抓取词库之中,共得 183 个风险特征词汇。最后用语句中所出现的情绪倾向词汇乘以风险词汇数,则是该语句的风险程度,数值越大越说明风险程度高。年报整体风险程度为单个语句风险程度之和。 
2. 自变量。对于公司研发活动的度量,以往有通过研发强度(即研发支出占销售收入比)和当年新增专利授权数目等度量方式,这两种度量方式各有利弊。首先,研发强度能够衡量公司对于研发的投入量,可以看出公司对于研发的重视程度。然而这种方式忽略了某些公司可能刚完成项目的研发,正处于后期论证或专利申请阶段的情形; 当年新增专利授权数目虽然能衡量公司的研发成果,但却忽略了那些正在申请的专利。因此,本文对于研发活动的度量,除了借鉴常用的研发强度(RD1)和新增专利授权数目(RD3)之外,还增加了研发人员薪酬占比(RD2)和当年新增专利申请数目(RD4),以更加全面地刻画公司研发活动。

▪ 计算结果

表 2 为控制行业和年份的情况下,对模型 1 的回归结果。当研发活动以研发强度来度量时,RD1 的系数为 0. 356,在 1% 的水平显著; 以研发人员薪酬占比来度量时,RD2 的系数为 0. 060,在 5% 的水平显著; 以新增专利获取数量来度量时,RD3 的回归系数为 0. 003,在 1% 的水平显著;以新增专利申请数量来度量时,RD4 的回归系数为 0. 002,在 10% 的水平显著。以上结果均表明公司的确借助风险信息披露来保证研发活动的信息安全,并不希望通过乐观披露来吸引外界对公司研发活动的关注。

05 其他相关文献

[1]王成龙,吴忧.年报风险信息披露模仿行为研究:基于LDA主题模型分析[J/OL].世界经济,2024,(11):183-205[2024-12-04].

[2]陈怡欣,张俊瑞,马晨.客户年报风险信息披露的溢出效应——基于供应商企业创新的研究[J/OL].财经论丛,1-11[2024-12-04].

[3]张淑惠,周美琼,吴雪勤.年报文本风险信息披露与股价同步性[J].现代财经(天津财经大学学报),2021,41(02):62-78.

06 获取方式

见推文末尾。

本数据为高级会员专属数据,添加客服微信,购买年度高级会员299元,永久高级会员899元,可享CNDeepData所有数据免费获取。

添加客服微信,购买年度高级会员299元,永久高级会员899元,可享CNDeepData所有数据免费获取。

客服微信方式

扫描下方二维码,或搜索下方微信号。

添加客服微信号:

DeepData001

获取更多更新数据

版权声明 …

1. 除中国深度数据库(CNDD)特殊声明外,CNDD对基于合法来源的数据的选择、整理和编排具有独创性。任何自然人、法人、其他组织未经CNDD授权,不得以任何目的截取、上传、下载、复制、修改、使用、编译等或者以任何方式任何媒介传播上述作品的任何部分,否则视为侵权。

2. 对于存在侵害CNDD上述权利违法行为的主体,CNDD保留依法追究其法律责任的权利。

数据授权使用说明 …

任何使用CNDD数据等产品的单位和个人,承诺只将CNDD的数据等用于学术研究,并在所得研究成果(包括但不限于学术论文、咨询报告等)中注明数据来源于CNDD。数据来源的注明方式请参考:“本研究数据来源于中国深度数据库CNDD”;英文参考:“We get the data from CNDeepData (CNDD)”。

中国深度数据库:让精品数据 得以流动

CNDeepData:Let high-quality data flow without barriers

资源下载此资源仅限年度高级会员下载,请先

部分图片来源于网络,如涉侵权请告知,本站将第一时间删除。客服微信号:DeepData001

发表评论

您的邮箱地址不会被公开。 必填项已用 * 标注

滚动至顶部