CNDD-0277 上市公司文本情感倾向词频统计及学术论文应用

01 数据介绍

▪ 数据名称: 情感倾向文本

数据编号:0277

▪ 数据层级:A股上市公司层面

▪ 数据范围:2007-2023年

▪ 样本数量:情感倾向文本词频统计数据 50,746条;情感倾向文本关键词明细数据304,476条

▪ 数据来源:根据上市公司年报文本爬取

▪ 数据说明: CNDD上市公司风情感倾向文本数据包括情感倾向文本关键词明细及情感倾向文本关键词统计。参考许文瀚等(2019 ,统计了上市公司年报文本中含有“情感倾向文本”相关的词频明细及合计数据数据提供.xlsx和.dta两种格式,可用stata或excel打开。

▪ 数据维度:年度数据

▪ 数据介绍:年报中频繁出现的这些程度副词往往指向公司认为具有重大影响的事件或决策。例如,“重大”合同、“重要”决策等可能预示着公司未来业绩的增长或风险的增加。通过对这些词汇的统计分析,结合公司的历史数据和行业背景, 有助于揭示公司在过去一年中关注的重点领域和可能存在的重大风险,可以建立预测模型来预测公司的未来业绩和风险。投资者可以通过这些信息,更准确地了解公司的运营状况和潜在趋势。 
     基于此,CNDD参考许文瀚等(2019采用了特征词汇提取法来度量“情感倾向”指标,抓取情感倾向关键词,包括“重大”“特大”“巨大”“重要”“极”“最”。

CNDeepData 数据应用质量评级

 常用度:★★

▪ 稀缺度:★★

▪ 新颖度:★★★

▪ 总体级别:14颗星

  常用度:是数据市场中需求指标,是指该数据在经济管理类学术论文中使用频率。

✔  稀缺度:是数据市场中供给指标,是指该数据在其他数据库的出现频率。

  新颖度:是数据市场中生成指标,是指该数据在生成时方法新颖程度和工作量。

02 变量说明

03 数据概览

情感倾向文本词频统计数据

情感倾向文本关键词明细数据

▪  变量分布

情感倾向文本词频统计数据

情感倾向文本关键词明细数据

04 前沿文献速递

▪ 文献来源

许文瀚,齐荻,陈沉.上市公司研发活动与风险信息披露——基于文本分析法的实证检验[J].财经论丛,2019,(08):73-83. .

▪ 文献内容
公司在是否披露研发活动的问题上面临着两难抉择: 一方面如实披露能够缓解融资约束; 但另一方面又不利于知识产权保护。近年来证监会的信息披露新规似乎减少了公司在研发信息上的自由裁量权。然而,我们从文本信息的角度,通过研究 2010 ~2017 年 A 股上市公司发现: 公司虽然增加了研发信息披露,但出于知识产权保护动机,所披露的信息存在着一定的误导性。其中最主要的手段是通过风险信息披露来减少外界对
公司研发活动的关注; 但上述关系将因公司 “伪研发”、较高的地区知识产权保护力度而减弱。本研究拓展了风险披露、技术研发的研究领域,并提出了更加行之有效的文本信息度量方法,丰富了文本信息量化研究
▪ 模型设计与变量说明

本文构建以下模型来验证上市公司研发活动与年报风险信息披露呈正相关关系。

1. 因变量。对于风险信息(Risk)的度量,以往的研究采用了人工阅读法和字数统计法。前者工作量较大,效率较低,且无法避免阅读者的主观性; 而后者则难以度量风险程度,且无法对风险进行分类。近年来随着计算机文本分析技术的兴起,对大样本上市公司年报进行文本信息提取与分析得以实现,通过网络爬虫技术,有众多学者实现了对年报文本信息的量化。本文借鉴该研究方法,并进行了改进。具体而言,我们首先通过风险特征词进行抓取,再通过关键词定位法抓取用以修饰风险关键词的情感倾向词汇。例如 “重大 XXX 缺陷”,其中 “重大”为情感倾向词, “缺陷”为风险词。为了保证结果的可靠性,我们将所抓取的所有词语导入到开源分析工具 Word2vec 中,寻找与这些词语内容相近程度最高的词语,并将遗漏值重新加入到文本抓取词库之中,共得 183 个风险特征词汇。最后用语句中所出现的情绪倾向词汇乘以风险词汇数,则是该语句的风险程度,数值越大越说明风险程度高。年报整体风险程度为单个语句风险程度之和。 
2. 自变量。对于公司研发活动的度量,以往有通过研发强度(即研发支出占销售收入比)和当年新增专利授权数目等度量方式,这两种度量方式各有利弊。首先,研发强度能够衡量公司对于研发的投入量,可以看出公司对于研发的重视程度。然而这种方式忽略了某些公司可能刚完成项目的研发,正处于后期论证或专利申请阶段的情形; 当年新增专利授权数目虽然能衡量公司的研发成果,但却忽略了那些正在申请的专利。因此,本文对于研发活动的度量,除了借鉴常用的研发强度(RD1)和新增专利授权数目(RD3)之外,还增加了研发人员薪酬占比(RD2)和当年新增专利申请数目(RD4),以更加全面地刻画公司研发活动。
▪ 计算结果

表 2 为控制行业和年份的情况下,对模型 1 的回归结果。当研发活动以研发强度来度量时,RD1 的系数为 0. 356,在 1% 的水平显著; 以研发人员薪酬占比来度量时,RD2 的系数为 0. 060,在 5% 的水平显著; 以新增专利获取数量来度量时,RD3 的回归系数为 0. 003,在 1% 的水平显著;以新增专利申请数量来度量时,RD4 的回归系数为 0. 002,在 10% 的水平显著。以上结果均表明公司的确借助风险信息披露来保证研发活动的信息安全,并不希望通过乐观披露来吸引外界对公司研发活动的关注。

05 其他相关文献

[1]左月华,刘晓军,代昀昊,等.商业信用、年报文本与借贷成本——基于信号传递理论的实证检验[J].金融学季刊,2022,16(01):1-24.

[2]李成刚,贾鸿业,赵光辉,等.基于信息披露文本的上市公司信用风险预警——来自中文年报管理层讨论与分析的经验证据[J].中国管理科学,2023,31(02):18-29. 

[3]刘逸爽,陈艺云.管理层语调与上市公司信用风险预警——基于公司年报文本内容分析的研究[J].金融经济学研究,2018,33(04):46-54.

06 获取方式

见推文末尾。

本数据为高级会员专属数据,添加客服微信,购买年度高级会员299元,永久高级会员899元,可享CNDeepData所有数据免费获取。

添加客服微信,购买年度高级会员299元,永久高级会员899元,可享CNDeepData所有数据免费获取。

客服微信方式

扫描下方二维码,或搜索下方微信号。

添加客服微信号:

DeepData001

获取更多更新数据

版权声明 …

1. 除中国深度数据库(CNDD)特殊声明外,CNDD对基于合法来源的数据的选择、整理和编排具有独创性。任何自然人、法人、其他组织未经CNDD授权,不得以任何目的截取、上传、下载、复制、修改、使用、编译等或者以任何方式任何媒介传播上述作品的任何部分,否则视为侵权。

2. 对于存在侵害CNDD上述权利违法行为的主体,CNDD保留依法追究其法律责任的权利。

数据授权使用说明 …

任何使用CNDD数据等产品的单位和个人,承诺只将CNDD的数据等用于学术研究,并在所得研究成果(包括但不限于学术论文、咨询报告等)中注明数据来源于CNDD。数据来源的注明方式请参考:“本研究数据来源于中国深度数据库CNDD”;英文参考:“We get the data from CNDeepData (CNDD)”。

中国深度数据库:让精品数据 得以流动

CNDeepData:Let high-quality data flow without barriers

资源下载此资源仅限年度高级会员下载,请先

部分图片来源于网络,如涉侵权请告知,本站将第一时间删除。客服微信号:DeepData001

发表评论

您的邮箱地址不会被公开。 必填项已用 * 标注

滚动至顶部