CNDD-0263 上市公司合作文化文本数据及学术论文应用
01 数据介绍
▪ 数据名称: 合作文化
▪ 数据编号:0263
▪ 数据层级:A股上市公司层面
▪ 数据范围:2007-2023年
▪ 样本数量:合作文化关键词统计 50,746条; 合作文化关键词明细数据 761,190条
▪ 数据来源:根据上市公司年报文本爬取
▪ 数据说明: CNDD上市公司合作文化文本数据包括合作文化关键词明细及合作文化统计。参考潘健平等(2019),统计了上市公司年报文本中含有“合作文化”相关的词频明细及合计数据。数据提供.xlsx和.dta两种格式,可用stata或excel打开。
▪ 数据维度:年度数据
CNDeepData 数据应用质量评级
▪ 常用度:★★★★☆
▪ 稀缺度:★★★★★
▪ 新颖度:★★★★★
▪ 总体级别:14颗星
✔ 常用度:是数据市场中需求指标,是指该数据在经济管理类学术论文中使用频率。
✔ 稀缺度:是数据市场中供给指标,是指该数据在其他数据库的出现频率。
✔ 新颖度:是数据市场中生成指标,是指该数据在生成时方法新颖程度和工作量。
合作文化关键词统计数据
合作文化关键词明细数据
▪ 变量分布
合作文化关键词统计数据
合作文化关键词明细数据
▪ 文献来源:
潘健平,潘越,马奕涵.以“合”为贵?合作文化与企业创新[J].金融研究,2019,(01):148-167.
与 Guiso et al. ( 2015) 以及 Graham et al. ( 2016) 的研究有所不同,本文并没有采用发放调查问卷或进行高管访谈的形式来收集企业文化的数据,这主要是由于调查中可能存在“光晕效应”,即企业管理者在回答问卷的过程中,问卷中问题的次序会影响最终的回答结果,因为管理者的情绪会因某些问题发生变化,所以就单个问题而言,单独回答和在回答一系列问题之后再回答所得到的结果可能不同,这种由“光晕效应”所产生的偏差会影响数据的质量。而且问卷和访谈都只能做到抽样调查,所能获得的研究样本较为有限。为了获得大样本的数据,同时排除调查所造成的主观干扰,本文采用目前较为主流的文本分析( Textual Analysis) 的方法来提取变量企业合作文化所需要的信息。
在文本分析所使用的方法上,参考 Loughran and McDonald ( 2013) 以及姜付秀等( 2015) 的研究,本文采用关键词词频来判断企业文化中是否包含合作。具体的判别方法如下: 首先,参考 Fiordelisi and Ricci( 2014) 所构建的词库,将其中与“合作”相关的英文词根翻译成中文词语,并筛选出与“合作”近义程度较高的词语; 其次,阅读 1000 家上市公司的愿景、使命以及核心价值观的相关内容,对与“合作”相关的词进行凝练和总结; 最后,将上述步骤中明确的关键词在《汉语同义词词典》中进行查找,补充遗漏的近义词词语。据此本文最后确定“合作、团结、联合、配合、协作、协同、协力、合力、互助、分享、共享、同舟共济、沟通、交流、双赢”作为文本分析的词库。
本文所使用的文本信息来自于两个不同的披露渠道。一方面,本文搜集上市公司网站企业文化部分中有关企业愿景、使命、核心价值观的文字描述信息。这部分内容是对企业行为准则的凝练和浓缩,反映了企业内部一直以来所崇尚的行为准则; 另一方面,本文还收集并整理 2006 年至 2015 年所有上市公司年度报告中的董事会报告部分。在上市公司年报的董事会报告部分中,企业的董事长会总结企业过去发展的成绩,构建企业未来发展的目标,同时,还会对如何实现目标进行阐述,这中间就会提及他个人所崇尚的价值观以及如何塑造与目标相称的企业文化。这两种自上而下的文化灌输方式都会潜移默化地影响员工的行为决策,使得员工按照企业价值观认可的方式来处理工作中所遇到的问题。为了更全面的度量企业的合作文化,本文同时采用以上两个不同的指标。
在文本分析的过程中,本文考虑了以下四种偏差: 第一,为了确保本文所提取的词频不是由歧义所产生,在分析的软件中已经设置了汉语的分词工具; 第二,为了防止在有词库关键词的句子中出现否定词导致句子出现反义,本文搜集表达否定含义的否定词词库,并对关键词与否定词设置并列条件,保证同一句子中不会同时出现表示否定的词汇与词库中的关键词; 第三,为了避免特殊组合的词语组合所带来的干扰,本文构建了特殊词汇表,用来排除特殊词语组合所带来的歧义?。第四,在董事会报告中,当企业提到“合作”及其关键词时,表达的内容可能有明显不同。一种是主动表达企业鼓励、倡导合作的倾向,这是本文想要提取的关于合作文化的具体内容。另一种是被动描述企业的合作行为,包括企业已经签署的战略合作协议、正在进行中的合作研发等等,这些不属于企业合作文化的范畴,也是本文需要剔除的度量噪音。通过对比总结这两种表述方式的差异,本文发现上市公司在被动描述合作行为时,会具体指出合作对象的名称。为此,本文整理了一系列描述企业、大学或者个人等具体合作对象名称的排他词汇表?,当这些对象名称与“合作”及其近义词出现在同一句子中时,关键词的词频则不被计入。通过这种方法,本文剔除了被动描述合作行为的文本信息。
本文构建以下基本模型:
需要注意的是,第一,本文的因变量创新产出以及创新效率都是以 0 为下限的截尾变量,故而本文采用 Tobit 模型进行估计。第二,考虑到合作文化对企业创新的影响有一定的滞后性,本文将自变量以及控制变量滞后一期。
( 1) 因变量。创新产出( Patent) : 从国家知识产权局专利检索系统中,搜集并整理当期上市公司的专利申请数。为了避免异方差带来的干扰,本文对专利申请数加 1 之后取自然对数,并以此作为企业创新产出的代理指标。创新效率( Inno_Eff) : 从上市公司年报的附注中提取研发支出数据,用专利申请数除以研发费用( 十万元人民币) ,并以此作为创新效率的代理指标。特别的,对于研发费用和专利申请数都为 0 的公司,该变量的值取为 0,但是对于研发费用为 0,但是专利申请数不为 0 的,该变量的值记为缺失。
( 2) 实验变量。基于年报的合作文化指标( Culture_annu) : 根据本文所确定的合作文化词库,利用文本分析的方法统计上市公司年报中董事会报告部分合作及其近义词的词数,并将该词数除以该部分的总词数。基于网站的合作文化指标( Culture_web) : 根据本文所确定的合作文化词库,分析上市公司官网的企业文化部分中对于愿景、使命和核心价值观的描述,如果该部分提到合作及近义词,变量则取 1,否则取 0。参考姜付秀等( 2015) ,为了确保网站所宣传的企业文化是延续的,本文还通过媒体对企业文化的报道确认文化所存在的最早年份。
(3) 控制变量。借鉴相关研究,本文选取行业的赫芬达指数、企业年龄、第一大股东持股比例、国有控股、经营性现金流量净额与总资产之比、资产规模的自然对数、净资产收益率、总资产负债率、流动资产周转率和销售增长率作为回归方程的控制变量。当然,模型还需要控制地区、时间和行业的固定效应。
表 4 列示的实证检验结果。结果显示,无论是单变量的回归结果还是考虑更多控制变量后的回归结果,变量企业合作文化的系数都显著为正。 说明企业文化鼓励合作会对企业创新产生正向的促进作用,即企业内部合作文化的强度越大,企业创新的产出越多,创新效率越高。
Language”,Journal of Financial Economics,2013,109( 2) : 307-326.
见推文末尾。
本数据为高级会员专属数据,添加客服微信,购买年度高级会员299元,永久高级会员899元,可享CNDeepData所有数据免费获取。
添加客服微信,购买年度高级会员299元,永久高级会员899元,可享CNDeepData所有数据免费获取。
▪ 客服微信方式:
扫描下方二维码,或搜索下方微信号。
1. 除中国深度数据库(CNDD)特殊声明外,CNDD对基于合法来源的数据的选择、整理和编排具有独创性。任何自然人、法人、其他组织未经CNDD授权,不得以任何目的截取、上传、下载、复制、修改、使用、编译等或者以任何方式任何媒介传播上述作品的任何部分,否则视为侵权。
2. 对于存在侵害CNDD上述权利违法行为的主体,CNDD保留依法追究其法律责任的权利。
任何使用CNDD数据等产品的单位和个人,承诺只将CNDD的数据等用于学术研究,并在所得研究成果(包括但不限于学术论文、咨询报告等)中注明数据来源于CNDD。数据来源的注明方式请参考:“本研究数据来源于中国深度数据库CNDD”;英文参考:“We get the data from CNDeepData (CNDD)”。
中国深度数据库:让精品数据 得以流动
CNDeepData:Let high-quality data flow without barriers
部分图片来源于网络,如涉侵权请告知,本站将第一时间删除。客服微信号:DeepData001