TAG标签 | 网站地图 现代商业杂志,国内统一刊号:CN11-5392/F,国际标准刊号:ISSN1673-5889,全国中文流通经济类核心期刊
热门搜索:商业模式 现状 发展 数字化转型 新常态下 目录 企业财务管理 影响因素 人力资源管理 高质量发展

金融视线

当前位置:主页 > 文章导读 > 金融视线 >

基于文本挖掘的重污染企业年报环境信息披露质量综合评价研究

2026-07-02 17:47 来源:www.xdsyzzs.com 发布:现代商业 阅读:

宋莹莹

(广州理工学院计算机科学与工程学院,广东 广州 510080)

摘要:随着生态文明建设和“双碳”目标推进,环境信息披露质量已成为衡量企业环境责任的重要依据。研究以重污染企业为对象,构建基于文本挖掘的环境信息披露质量评价体系,利用关键词检索、TF-IDF、模糊词频等技术,从完整性、可靠性、相关性、可比性、可理解性、及时性和模糊性七个维度实现量化评价。研究结果显示重污染企业的环境信息披露质量整体偏低,近年改善有限;各维度发展不均衡,相关性和可靠性不足尤为突出;企业间披露水平差异显著。基于此提出应细化披露要求、完善差异化监管,并强化披露内容与实际环境绩效的联动,以促进披露从形式化向有效性转变。

关键词:环境信息披露;文本挖掘;质量评价;重污染企业

一、引言

实现碳达峰、碳中和目标已成为国际社会应对气候变化的普遍共识。中国在2020年9月提出2030年前实现碳达峰、2060年前实现碳中和,标志着能源革命全面启动,对企业绿色发展提出了更高要求。在此背景下,企业环境信息披露的质量与透明度尤为关键。为提升披露评价的客观性与效率,本文基于文本挖掘技术,构建自动化的年报环境信息披露质量综合评价体系,对重污染企业的披露水平进行系统分析与量化评估

二、文献综述

关于环境信息披露质量的研究主要集中在指标体系构建与评价方法两个方面。在指标体系构建方面,早期研究多基于信息特征设计评价框架。李傲(2021)从可靠性、相关性、可理解性、可比性、谨慎性和及时性六个维度构建指标体系,对煤炭上市企业披露质量进行评价[1];杨海治(2020)以可靠性、完整性、准确性和相关性为核心,并结合四级赋分标准,对造纸行业开展评估[2]Li M(2018)进一步拓展评价维度,引入模糊数与直觉模糊集方法处理专家评分[3]

在评价方法方面,学界形成了多元探索的评价模式。早期研究多依赖人工审阅与主观赋分Hooks Staden(2011)通过逐句分析环境报告验证披露篇幅与信息质量的正相关关系[4]Marwa M(2020)采用是否披露即记分的方式对企业披露水平进行量化评估[5]。随后,Yan Li(2022)、任媛媛(2025)等学者引入AHP、熵值法及模糊综合评价方法,对环境信息披露质量进行多维度综合评估,实现主客观赋权的有机结合[6–7]。随着文本挖掘与机器学习技术的发展,张秀敏(2016)、段钊(2022)和谢诗蕾(2022)等将语义分析、可读性测度等方法引入研究,推动环境信息披露质量评价由人工判断向自动化与客观化方向演进[8–10]尽管评价方法不断演进,但现有研究仍在一定程度上依赖人工审阅,难以兼顾效率、可重复性与大样本分析需求。

2024年11月发布的《企业可持续披露准则—基本准则(试行)》首次在国家层面统一了企业可持续信息披露标准,明确了信息质量特征。区别于现有ESG评级对企业整体环境表现的综合评价,本文聚焦环境信息披露质量本身,基于文本挖掘方法构建涵盖完整性、可靠性、相关性、可比性、可理解性、及时性和模糊性七个维度的评价体系,并通过关键词检索与TF-IDF等方法实现量化测度,为重污染企业环境信息披露质量评价提供新的研究路径。

三、研究设计

本文以文本挖掘技术为核心,结合自然语言处理与机器学习算法,对重污染企业年报的环境信息披露进行定量化分析与质量综合评价。研究方法总体包括数据获取、文本预处理、特征提取、质量指标综合评价4个技术环节,并通过统计分析得到可视化结果。

(一)数据获取

本文依据《上市企业行业分类指引》和《重污染行业划分标准》,选取2022-2024年16个重污染行业的A股上市企业作为研究样本,剔除曾被标记为ST或*ST的企业,并剔除缺失任意一年年报的企业,最终获得536家企业3年的年度报告作为有效样本,共计1608个样本观测点。通过PythonrequestsBeautifulSoup库调用巨潮资讯网公告接口,通过参数化方式构造接口请求头解析返回的JSON数据以提取公告标题、日期和链接实现企业年报PDF的自动化批量下载。

(二)文本预处理

文本预处理

本文使用jieba库的分词模块进行中文分词处理,引入GRI环境信息披露标准术语词典以提高专业词汇识别精度,通过正则表达式清除标点符号、特殊符号、数字和乱码等,对分词结果执行停用词过滤、低频词剔除和词干化处理,最终将每篇文本标准化为词项集合形式,从而构建结构清晰的企业年报语料库

(三)特征提取

基于预处理后的文本语料,本文构建了涵盖完整性、可靠性、相关性、可比性、可理解性、及时性和模糊性七个维度的环境信息披露质量评价体系(见表1)。本文通过规则匹配与统计分析相结合的方法,利用正则表达式识别环境相关章节,并结合关键词上下文分布精准提取环境披露文本。在GRI标准、环境法规和既有研究基础上构建关键词库,并通过动态扩展机制补充新兴专业词汇。进一步采用TF-IDF与加权词频密度算法量化关键词特征,计算各维度得分,以展示企业环境信息披露质量差异

1 企业环境信息披露质量评价体系

表1 企业环境信息披露质量评价体系

(四)环境信息披露质量综合评价

在获得各维度得分后,本文采用加权综合法,将各维度的标准化结果汇总为环境信息披露质量的综合评价指数

为消除各维度指标量纲和取值范围差异,本文采用极差标准化方法对原始得分进行归一化处理。对于正向指标(可靠性、相关性、可比性、可理解性、及时性和完整性),采用标准化公式:

环境信息披露质量综合评价

四、研究结果

(一)近年来重污染企业环境信息披露质量总体情况

基于2022-2024年的年报数据分析(见表2和图1),我国重污染企业环境信息披露整体水平保持稳定但略有下滑,综合得分由49.8分微降至49.4分。各维度表现呈现显著差异,其中模糊性表现最,三年均值87以上,表明企业已较好避免模糊表述;及时性和完整性小幅提升,而可理解性则出现明显下滑;更为突出的问题是可靠性与相关性,尤其相关性持续30分,最薄弱的评价指标。总体而言,企业在形式规范方面有所改善,但在相关性、可靠性和可理解性等决策有用性核心维度上仍明显不足,环境信息披露仍以合规性为主,尚未实现实质性提升。

2  近年来重污染企业环境信息披露质量总体情况

表2  近年来重污染企业环境信息披露质量总体情况

1 近年来重污染企业环境信息披露质量指标箱线图

(二)2024年重污染企业环境信息披露质量总体情况

2024年重污染上市企业环境信息披露质量的最终得分均值为49.4分,整体处于中等偏下水平,距离合格有较大差距。从分布来看,得分相对集中(标准差5.7)。各维度表现差异显著,呈现结构性不均衡:模糊性均值达87.1分,且集中度高、极端值少,显示企业普遍能有效避免模糊表述;完整性均值为52.3分,但方差最大(234.9),表明企业间披露完整程度差异极大。可靠性和相关性分得分最低,其中相关性偏度为1.0,呈右偏分布,说明多数企业得分集中于低分区间,严重制约了信息的决策有用性。总体来看,重污染企业在信息验证、数据真实性和利益相关者需求回应等方面存在明显短板。

3  2024年重污染企业环境信息披露质量总体情况

表3  2024年重污染企业环境信息披露质量总体情况

2 2024年重污染企业环境信息披露质量指标分布情况

(三)2024年重污染企业环境信息披露质量聚类分析

基于2024年重污染企业环境信息披露质量的聚类分析结果,企业间披露水平差异显著。聚类1综合得分55.2最高,可比性较好但核心维度仍有欠缺;聚类2得分50.6较高,完整性较优但可靠性和相关性仍待提升;聚类0综合得分44.9较低,相关性和可靠性不足;聚类3披露质量29.7最差,各维度整体偏低。总体来看,可靠性和相关性仍是多数企业环境信息披露的主要短板。

4 2024年重污染企业环境信息披露质量指标聚类分析表

表4 2024年重污染企业环境信息披露质量指标聚类分析表

3 2024年重污染企业环境信息披露质量指标聚类分布情况

(四)2024年重污染企业环境信息披露质量排名分析

2024年重污染企业环境信息披露质量排名呈现出显著的“质效分化”特征:排名前五的企业综合得分均高于62.7分,在相关性和及时性等核心维度上表现较好;而后五名企业综合得分均低于30分,在可靠性、相关性和可比性等关键维度上明显不足,首尾企业得分差距超过38分

本文重点对综合排名首位的001203企业年报进行剖析,该企业在环境信息披露的程序规范性上表现突出:系统披露了污染物排放、行政许可与处罚等关键信息,并通过第三方监测、国家标准引用和明确时间标识等方式,在多个质量维度上满足了高质量披露的形式要求,形成较为完整的披露框架。然而,该企业披露的环境信息与其实际收到的行政处罚及较低的ESG评级之间存在一定的不一致,表明披露质量与实际环境绩效之间的复杂关系,即规范的披露虽然有助于提升透明度,但并不能完全代表卓越的环境管理水平。

五、结论与讨论

我国重污染企业环境信息披露质量总体仍处于中等偏下水平,提升幅度有限,披露行为以满足合规要求为主,尚未实现向高质量、可验证和高相关性披露的实质性转变。从结构上看,各维度发展不均衡,企业在避免模糊表述等基础性方面表现较好,但在相关性和可靠性等关键维度上普遍不足,削弱了信息的决策有用性。同时,企业间披露质量差异显著,呈现“中间集中、两端分化”的特征,核心维度上的分化尤为明显。因此,我国亟需通过细化披露标准、实施差异化监管以及强化披露质量与实际环境绩效的联动,系统提升环境信息披露的实质性与治理效能。此外,本文仅基于年报文本进行分析,且侧重披露形式质量,未来研究可引入多源披露数据,并进一步探讨披露质量与环境绩效及企业价值之间的关系。

参考文献:

[1]李傲.煤炭上市企业环境会计信息披露质量评估研究——基于熵值法和CRITIC赋权[J].商讯,2021(22):38-40.

[2]杨海治.中国造纸业上市企业环境会计信息披露质量评价研究[D].南京:南京理工大学,2020.

[3]Li M, Tian A, Li S, et al. Evaluating the quality of enterprise environmental accounting information disclosure[J]. Sustainability, 2018, 10(7): 2136.

[4]Hooks J , Staden C J V .Evaluating environmental disclosures: The relationship between quality and extent measures[J].British Accounting Review, 2011, 43(3):200-213.

[5]Marwa M, Salhi B, Jarboui A. Environmental audit and environmental disclosure quality[J]. Scientific Annals of Economics and Business, 2020, 67(1): 93-115.

[6]Li Y .Quality Evaluation of Environmental Accounting Information Disclosure of Y Nonferrous Metal Company Based on AHP-FCE Model[J].Discrete Dynamics in Nature and Society, 2022.

[7]任媛媛.环境会计信息披露质量评价研究——基于PSO-AHP与熵值法组合赋权[J].老字号品牌营销,2025(8):31-33..

[8]张秀敏,汪瑾,薛宇,等.语义分析方法在企业环境信息披露研究中的应用[J].会计研究,2016(1):87-94+96..

[9]段钊,周红,周辉.上市公司披露的社会责任信息"通俗易懂"吗?——基于机器学习的可读性质量评估与实证研究[J].宏观质量研究, 2022, 10(4):80-94.

[10]谢诗蕾,周波兰.ESG绩效,投资者关注与企业信息披露质量——基于年报文本挖掘的分析[J].中国注册会计师, 2022(10):54-61.

 

基金项目:2024年广东省社科规划学科共建项目“基于机器学习的企业环境信息披露质量的影响机制研究”(GD24XGL031)

上一篇:金融科技、融资效率与企业ESG表现
下一篇:没有了
相关内容
发表评论