CNDD-0264 上市公司创新研发文本词频数据及学术论文应用

01 数据介绍

▪ 数据名称: 创新研发

数据编号:0264

▪ 数据层级:A股上市公司层面

▪ 数据范围:2007-2023年

▪ 样本数量:创新研发文本词频统计数据 50,746条;创新研发文本关键词明细数据1,268,650条

▪ 数据来源:根据上市公司年报文本爬取

▪ 数据说明: CNDD上市公司创新研发文本数据包括创新研发关键词明细及创新研发计。参考李岩琼和姚颐(2020,统计了上市公司年报文本中含有“创新研发”相关的词频明细及合计数据数据提供.xlsx和.dta两种格式,可用stata或excel打开。

▪ 数据维度:年度数据

▪ 数据介绍: 研发活动 ( Research and Development,简称 R&D) 可以创造企业的未来价值,也会影响市场绩效、预期盈利和未来现金流 ( Lev,1999) ,因此信息使用者会密切关注企业的 R&D 活动,并将此作为判断企业发展前景的重要因素。目前大量文献发现财务报表中 R&D 定量信息 ( R&D支出) 具有价值相关性 ( Kothari 等,2002; Amir 等,2003) 。然而,会计准则对研发支出处理的主观性以及企业对研发活动的操纵行为可能会导致 R&D 定量数字无法有效反映企业的真实研发支出情况 ( Lev,1999; Franzen 等,2007) 。首先,我国会计准则对研发支出的处理分为研究阶段和开发阶段,研究阶段发生的支出计入费用化支出,开发阶段符合资本化条件的部分计入资本化支出。但在实际操作中,由于研发业务的复杂性,研究和开发阶段的区分存在一定主观性,开发阶段的支出是否满足资本化的五个条件①也很难做出客观合理的判断。这会导致研发支出的会计数字很大程度上依赖于会计人员职业判断和企业管理者裁决,为企业盈余管理提供了操纵空间 ( 肖海莲和周美华,2012) 。其次,R&D 活动具有高度的公司特质性、结果不确定性及较大的信息不对称程度 ( Aboody 和 Lev,2000; Boone 和 Raman,2001; Chan 等,2001; Kothari 等,2002) ,公司可能通过实际业务活动操纵研发投入进行真实盈余管理 ( 孙刚等,2016) ,或出于一些特殊目的如获得减税激励而对研发活动进行操纵 ( 杨国超等,2017) 。这些特点决定了 R&D 定量信息的价值可能有限,仅仅依靠定量信息无法准确判断企业研发现状,因此定性信息逐渐成为越来越重要的信息来源,对其披露可以成为重要的信息补充 ( Merkley,2014) 。
     基于此,CNDD参考李岩琼和姚颐(2020)将R&D 类关键词为 “R&D”、“研发”、“创新”、“研究”、“开发”、“研制”、“科研”、“预研”、“设计”、“创造”、“实验”、“试 验”、“技术”、“专利”、“工艺”、“新项目”、“新产品”、“新业务”、“知识产权”、“科技成果”、“科技投入”作为创新研发文本分析的词库推出上市公司创新研发文本数据,为相关研究提供数据支持。

CNDeepData 数据应用质量评级

 常用度:★★

▪ 稀缺度:★★

▪ 新颖度:★★★

▪ 总体级别:14颗星

  常用度:是数据市场中需求指标,是指该数据在经济管理类学术论文中使用频率。

✔  稀缺度:是数据市场中供给指标,是指该数据在其他数据库的出现频率。

  新颖度:是数据市场中生成指标,是指该数据在生成时方法新颖程度和工作量。

02 变量说明    

03 数据概览

创新研发文本词频统计数据

创新研发文本关键词明细数据

▪  变量分布

创新研发文本词频统计数据

创新研发文本关键词明细数据

04 前沿文献速递

▪ 文献来源

李岩琼,姚颐.研发文本信息:真的多说无益吗?——基于分析师预测的文本分析[J].会计研究,2020,(02):26-42.

▪ 文献内容
 本文采用文本分析技术提取年报研发文本信息,并从分析师预测角度解读其信息价值。研究发现:( 1) R&D 文本信息显著降低了分析师预测偏差及分歧度,而且信息透明度发挥了中介效应。( 2) R&D 文本信息披露越多,未来三年的创新产出以及政府研发补助越多,说明企业倾向于选择性披露有利于企业的研发信息。( 3) 企业披露动机越强,分析师获取私有信息的能力越弱,R&D 文本信息对分析师预测偏差和分歧度的降低作用越显著。以上结论说明我国年报 R&D 文本信息具有一定信息含量,对分析师来讲 “多说有益”。本文从研发文本视角以及分析师预测角度验证了我国年报文本信息的积极效应,有助于丰富 R&D 以及分析师预测文献。
▪ 企业合作文化数据构建

本文的解释变量为 R&D 文本信息披露变 量 R&D_DISC,主要参照 Muslu 等 ( 2015) 和 Jones ( 2007) 采用关键词法进行测量,本文使用年报中 R&D 类相关关键词数占年报全文字数的比例乘以 100 衡量 R&D 文本信息披露,同时也使用 R&D 关键词披露总字数的对数值进行稳健性检验。R&D 类相关关键词包括 “R&D”、 “研发”、 “创新”、“研究”、“开发”、 “研制”、 “科研”、 “预研”、 “设计”、“创造”、“实验”、 “试验”、 “技术”、 “专利”、 “工艺”、“新项目”、“新产品”、“新业务”、“知识产权”、“科技成果”、“科技投入”,关键词的选择依据两部分: ( 1) 根据Merkley ( 2014 ) 、Kravet 和 Muslu ( 2013 ) 、Campbell 等( 2014) 、Muslu 等 ( 2015) 有关 R&D 主题词汇及主题分类,找到中文对应词汇; ( 2) 随机选取 100 份年报文本,人工阅读并提取 R&D 类关键词,构成本文的关键词列表。 

▪ 模型设计与变量说明

本文参照 Jones ( 2007) 、王雄元等 ( 2017) 设立本文的研究模型:

所有变量的具体计量方法均在表 1 中进行了列示。

▪ 计算结果

表 5 回归结果支持本文的 “多说有益”假说,该假说认为企业会选择性披露对企业有利的 R&D 文本信息,改善了企业信息披露质量,进而降低分析师预测偏差和预测分歧度。表 5 的回归结果显示,R&D_ DISC 与 EEROR 在 1%水平上显著负相关,与 DISPERSION 在 5%水平上显著负相关,说明当年报 R&D 文本信息披露越多时,分析师预测偏差越小 ( 预测准确度越高) ,预测分歧度也越小。此外,在回归的控制变量中,对于年报中非 R&D 的披露内容,当披露更多宏观类文本信息时,分析师预测偏差越大,分歧度也越大,因为宏观类信息往往代表宏观环境的改变,此时意味着企业经营面临的不确定性会增大,进而增加分析师的预测难度; 当企业资产负债率越高、盈余波动性越大、企业之前发生亏损时,分析师预测偏差与分歧度也越大,因为此时往往说明企业风险也较大,分析师预测难度增加。这也与前人的研究结论基本保持一致。

05 其他相关文献

[1]李丹,邱静.研发文本信息披露与审计费用[J].财会月刊,2024,45(22):76-82.

[2]符号亮,夏婷,孙凤娥.企业研发文本披露的同行溢出效应[J].经济与管理研究,2023,44(11):125-144.

[3]王华,刘慧芬.产品市场竞争、代理成本与研发信息披露[J].广东财经大学学报,2018,33(03):52-64.

06 获取方式

见推文末尾。

本数据为高级会员专属数据,添加客服微信,购买年度高级会员299元,永久高级会员899元,可享CNDeepData所有数据免费获取。

添加客服微信,购买年度高级会员299元,永久高级会员899元,可享CNDeepData所有数据免费获取。

客服微信方式

扫描下方二维码,或搜索下方微信号。

添加客服微信号:

DeepData001

获取更多更新数据

版权声明 …

1. 除中国深度数据库(CNDD)特殊声明外,CNDD对基于合法来源的数据的选择、整理和编排具有独创性。任何自然人、法人、其他组织未经CNDD授权,不得以任何目的截取、上传、下载、复制、修改、使用、编译等或者以任何方式任何媒介传播上述作品的任何部分,否则视为侵权。

2. 对于存在侵害CNDD上述权利违法行为的主体,CNDD保留依法追究其法律责任的权利。

数据授权使用说明 …

任何使用CNDD数据等产品的单位和个人,承诺只将CNDD的数据等用于学术研究,并在所得研究成果(包括但不限于学术论文、咨询报告等)中注明数据来源于CNDD。数据来源的注明方式请参考:“本研究数据来源于中国深度数据库CNDD”;英文参考:“We get the data from CNDeepData (CNDD)”。

中国深度数据库:让精品数据 得以流动

CNDeepData:Let high-quality data flow without barriers

资源下载此资源仅限年度高级会员下载,请先

部分图片来源于网络,如涉侵权请告知,本站将第一时间删除。客服微信号:DeepData001

发表评论

您的邮箱地址不会被公开。 必填项已用 * 标注

滚动至顶部