CNDD-0277 上市公司文本情感倾向词频统计及学术论文应用
01 数据介绍
▪ 数据名称: 情感倾向文本
▪ 数据编号:0277
▪ 数据层级:A股上市公司层面
▪ 数据范围:2007-2023年
▪ 样本数量:情感倾向文本词频统计数据 50,746条;情感倾向文本关键词明细数据304,476条
▪ 数据来源:根据上市公司年报文本爬取
▪ 数据说明: CNDD上市公司风情感倾向文本数据包括情感倾向文本关键词明细及情感倾向文本关键词统计。参考许文瀚等(2019) ,统计了上市公司年报文本中含有“情感倾向文本”相关的词频明细及合计数据。数据提供.xlsx和.dta两种格式,可用stata或excel打开。
▪ 数据维度:年度数据
CNDeepData 数据应用质量评级
▪ 常用度:★★★★☆
▪ 稀缺度:★★★★★
▪ 新颖度:★★★★★
▪ 总体级别:14颗星
✔ 常用度:是数据市场中需求指标,是指该数据在经济管理类学术论文中使用频率。
✔ 稀缺度:是数据市场中供给指标,是指该数据在其他数据库的出现频率。
✔ 新颖度:是数据市场中生成指标,是指该数据在生成时方法新颖程度和工作量。
情感倾向文本词频统计数据
情感倾向文本关键词明细数据
▪ 变量分布
情感倾向文本词频统计数据
情感倾向文本关键词明细数据
▪ 文献来源:
许文瀚,齐荻,陈沉.上市公司研发活动与风险信息披露——基于文本分析法的实证检验[J].财经论丛,2019,(08):73-83. .
公司研发活动的关注; 但上述关系将因公司 “伪研发”、较高的地区知识产权保护力度而减弱。本研究拓展了风险披露、技术研发的研究领域,并提出了更加行之有效的文本信息度量方法,丰富了文本信息量化研究
本文构建以下模型来验证上市公司研发活动与年报风险信息披露呈正相关关系。
表 2 为控制行业和年份的情况下,对模型 1 的回归结果。当研发活动以研发强度来度量时,RD1 的系数为 0. 356,在 1% 的水平显著; 以研发人员薪酬占比来度量时,RD2 的系数为 0. 060,在 5% 的水平显著; 以新增专利获取数量来度量时,RD3 的回归系数为 0. 003,在 1% 的水平显著;以新增专利申请数量来度量时,RD4 的回归系数为 0. 002,在 10% 的水平显著。以上结果均表明公司的确借助风险信息披露来保证研发活动的信息安全,并不希望通过乐观披露来吸引外界对公司研发活动的关注。
[1]左月华,刘晓军,代昀昊,等.商业信用、年报文本与借贷成本——基于信号传递理论的实证检验[J].金融学季刊,2022,16(01):1-24.
[2]李成刚,贾鸿业,赵光辉,等.基于信息披露文本的上市公司信用风险预警——来自中文年报管理层讨论与分析的经验证据[J].中国管理科学,2023,31(02):18-29.
[3]刘逸爽,陈艺云.管理层语调与上市公司信用风险预警——基于公司年报文本内容分析的研究[J].金融经济学研究,2018,33(04):46-54.
见推文末尾。
本数据为高级会员专属数据,添加客服微信,购买年度高级会员299元,永久高级会员899元,可享CNDeepData所有数据免费获取。
添加客服微信,购买年度高级会员299元,永久高级会员899元,可享CNDeepData所有数据免费获取。
▪ 客服微信方式:
扫描下方二维码,或搜索下方微信号。
1. 除中国深度数据库(CNDD)特殊声明外,CNDD对基于合法来源的数据的选择、整理和编排具有独创性。任何自然人、法人、其他组织未经CNDD授权,不得以任何目的截取、上传、下载、复制、修改、使用、编译等或者以任何方式任何媒介传播上述作品的任何部分,否则视为侵权。
2. 对于存在侵害CNDD上述权利违法行为的主体,CNDD保留依法追究其法律责任的权利。
任何使用CNDD数据等产品的单位和个人,承诺只将CNDD的数据等用于学术研究,并在所得研究成果(包括但不限于学术论文、咨询报告等)中注明数据来源于CNDD。数据来源的注明方式请参考:“本研究数据来源于中国深度数据库CNDD”;英文参考:“We get the data from CNDeepData (CNDD)”。
![](https://cndeepdata.pro/wp-content/uploads/replace/ea4b8c8514feef7a9ee5df77ad26f01d-300x122.jpeg)
中国深度数据库:让精品数据 得以流动
CNDeepData:Let high-quality data flow without barriers
部分图片来源于网络,如涉侵权请告知,本站将第一时间删除。客服微信号:DeepData001