CNDD文献复刻 | 人工智能技术、创业生态与新企业进入(免分享)
01 文献简介
02研究方法
▪数据来源与指标构建:
本文选取 2007~2022 年地级市—行业层面新进入企业为研究对象,考察地区人工智能技术发 展对新创企业成立的影响。以 2007 年作为样本起点的原因在于,第一,中国人工智能兴起较晚,直 到 2006 年深度学习算法的出现使得大规模运算成为可能,这是人工智能发展历史上的重大技术突 破,自 2007 年开始,人工智能发展进入新的阶段;第二,根据《2019 年中国人工智能行业市场前景研 究报告》,自 2007 年起,中国人工智能专利申请量显著增长,为利用专利衡量地区人工智能发展水 平提供数据支持。本文使用的人工智能专利数据来源于国家知识产权局;新企业进入数据来自全 国企业工商注册数据库;城市层面变量来自《中国城市统计年鉴》;企业层面数据来源于国泰安数据 库(CSMAR)和中国研究数据服务平台(CNRDS)。

1.人工智能技术指标
既有研究多采用工业机器人或计算机等 ICT 资本来表征人工智能技术(Beaudry 等,2010;吕越 等,2020;陈东和秦子洋,2022),使用工业机器人和 ICT 资本作为人工智能技术代理变量存在如下 问题:其一,工业机器人仅为人工智能技术应用众多领域之一,且工业机器人主要应用在制造业部 门,因其难以反映人工智能发展水平全貌,可能会低估人工智能技术真实发展水平;其二,计算机等 ICT 技术覆盖范围较为宽泛,人工智能技术仅是 ICT 技术发展和延伸的子集,使用 ICT 资本则难以 准确识别出人工智能技术,从而高估人工智能发展水平。
通常而言,专利是衡量创新和技术进步的重要指标,能够反映技术投入和技术发展水平。为 精确识别人工智能技术,并将人工智能技术和其他数字技术做出区分,现有文献通常采用文本分 析法,通过检索专利文本中与人工智能相关的关键词来识别人工智能专利(王林辉等,2023;姚加 权等,2024)。Autor 等(2024)基于 1920~2018 年美国颁发的所有实用新型专利的语料库来识别自 动化创新,以考察新出现的工作类别在缓解自动化任务挤出劳动力过程中的作用。类似地,本文 使用人工智能授权专利数量作为人工智能技术的代理变量。首先,根据政府官方文件、人工智能 发展报告以及相关文献,本文整理出与人工智能相关的关键词词典,力求尽可能准确、科学反映人工智能发展水平。其次,根据关键词词典在授权专利文本中检索出人工智能专利,并将所有 识别出的人工智能授权专利在地级市层面加总,用来表征城市人工智能发展水平。为排除反向 因果问题,本文将人工智能授权专利滞后一期,并作加 1 取对数处理(王林辉等,2023;姚加权等, 2024)。
2.新企业进入指标
本文使用全国工商注册数据来识别新注册企业。该数据记录 1949 年以来 2 亿多条新企业注册 或注销信息,包括企业名称、注册时间、营业期限、行业信息、注册地址、注册资本以及企业类型等。 本文将数据加总到城市—行业—年份层面,得到 337 个城市、90 个 2 位码行业的面板数据,涵盖新 注册企业、注销或吊销企业以及现存企业。具体地,本文的被解释变量为新企业进入率,以新注册 企业数量与现存企业总量的比值表示。
3.控制变量
为排除城市层面其他因素可能干扰人工智能技术对新企业进入的影响,本文控制城市层面与 人工智能发展相关的部分特征变量。考虑到在回归中直接加入城市—年份控制变量可能会产生 “坏的控制变量”问题(Angrist 和 Pischke,2009),参考封进和李雨婷(2023)、Cui 和 Li(2023),本文在 基准回归中加入基期(2007 年)城市特征变量与时间趋势的交互项,以尽可能避免“坏的控制变量” 问题。基期城市特征变量包括经济发展水平(Pgdp),以城市人均 GDP 的对数值表示;人口密度 (Pop),为城市每平方公里的人口数量;固定资产投资比例(Fix),用城市固定资产投资总额与地区 生 产 总 值 之 比 衡 量 ;产 业 结 构(Stru),即 第 二 产 业 占 地 区 生 产 总 值 的 比 重 ;金 融 发 展 水 平 (Finance),为城市年末金融机构存贷款余额与地区生产总值之比;工业发展水平(Firmnum),采用 规模以上工业企业的对数值表示;数字基础设施建设水平(Internet),以互联网宽带接入用户数的 对数值表示。将上述变量与时间趋势交乘后加入回归方程中,以控制期初城市特征对估计结果可 能产生的影响。

03 数据与代码

▪ 获取方式:关注本微信公众号,输入“rgcy”,即可获得。
04 实证结果
表 1 报告人工智能技术对新企业进入的影响。为排除反向因果的干扰,本文采用滞后一期的 人工智能授权专利对数来表征城市人工智能发展水平;为保证估计结果的稳健性,第(3)列也汇报 运用当期人工智能授权专利对数的估计结果。第(1)~(3)列将稳健标准误聚类在城市—行业层面, 第(4)列将标准误聚类到更高维度的省份水平上。其中第(1)列包括核心解释变量(LagAI)、基期城 市特征变量与时间趋势的交互项、时间固定效应以及城市—行业固定效应,结果显示,人工智能技 术的估计系数在 1% 水平上显著为正。第(2)列进一步加入行业—年份固定效应,以控制行业层面 时变特征对估计结果的影响,如行业进入壁垒和技术水平的变化等。不难发现,在控制行业—时间 固定效应后,LagAI 的系数为 0.002,且在 1% 水平上显著,表明在考虑诸多因素影响后,人工智能技 术对新企业进入的促进作用是真实存在的。同时人工智能技术的估计系数基本保持不变,也说明 本文潜在的遗漏变量问题不严重,计量回归模型构建较为合理。第(3)列报告使用当期人工智能技 术指标作为核心解释变量的回归结果。第(4)列汇报使用省份层面稳健聚类标准误的估计结果,人 工智能技术的系数均未发生明显变化。上述结果表明人工智能技术对新企业进入的显著促进作用 是稳健的,证实人工智能技术在激发地区创业活力过程中发挥着积极作用,这将赋能城市经济高质 量发展。

05 获取方式
见推文末尾。
或长按扫描下方二维码(客服工作时间为每天9:00—22:00),关注本微信公众号,在对话框输入“sjcz”,即可获得文章原文、复刻数据与代码。(数据和代码仅供参考)
▪ 客服微信方式:
扫描下方二维码,或搜索下方微信号。
1. 除中国深度数据库(CNDD)特殊声明外,CNDD对基于合法来源的数据的选择、整理和编排具有独创性。任何自然人、法人、其他组织未经CNDD授权,不得以任何目的截取、上传、下载、复制、修改、使用、编译等或者以任何方式任何媒介传播上述作品的任何部分,否则视为侵权。
2. 对于存在侵害CNDD上述权利违法行为的主体,CNDD保留依法追究其法律责任的权利。
任何使用CNDD数据等产品的单位和个人,承诺只将CNDD的数据等用于学术研究,并在所得研究成果(包括但不限于学术论文、咨询报告等)中注明数据来源于CNDD。数据来源的注明方式请参考:“本研究数据来源于中国深度数据库CNDD”;英文参考:“We get the data from CNDeepData (CNDD)”。

中国深度数据库:让精品数据 得以流动
CNDeepData:Let high-quality data flow without barriers
部分图片来源于网络,如涉侵权请告知,本站将第一时间删除。客服微信号:DeepData001