关于本数据的说明: 本数据采用甄红线(2023)的研究文献所提供的139个关键词,对83000多份新三板上市公司年度报告文本进行词频统计后,再进行关键词总词频求和,并做对数化处理后得到。 注:由于经过从pdf文本转换为txt文本的原始年度报告的内容排列散乱,所以在词频统计前,我们对txt文本进行清洗,即删除其中所有除中文内容之外的所有空格、数字、英文、空格、换行符以及其他各类符号等内容。最后利用清洗后的txt文本进行词频统计。