正文复制

提高数据质量的“三个关键点”
数据是数字化、网络化、智能化的基础,是推动社会经济发展的新型生产要素。作为数字经济的重要组成部分,数据在推动社会生产力发展中的作用日趋显著,已深度融入生产、分配、流通、消费和社会服务管理等各个环节。中共中央、国务院印发的《数字中国建设整体布局规划》提出了“数据资源规模和质量加快提升,数据要素价值有效释放”的目标,强调要夯实数字中国建设基础,全面赋能经济社会发展。
数据质量是数据管理和数据分析的基础,决定了各行业的运营效率、服务品质以及决策能力等。高质量数据有助于优化业务流程、提升服务品质、提高决策精准度,对于推动信息化和智能化进程,实现数据驱动的创新发展具有深远意义。然而,在工业数据采集过程中,数据质量往往受多种因素影响:由于传感器故障或读数误差、操作人员失误、环境变化等原因,致使数据存在离群值和缺失值;由于环境干扰或设备老化等原因,造成数据包含噪声、干扰等信息;由于设备不同步、采集频率差异、数据延迟或传输错误等原因,导致数据存在时间不一致性等。低质量数据的产生不仅直接影响数据的可用性,同时会导致员工操作失误、决策偏差,企业运营效率降低和大量资源浪费等。
2022年12月印发的《中共中央国务院关于构建数据基础制度更好发挥数据要素作用的意见》,2024年9月印发的《中共中央办公厅国务院办公厅关于加快公共数据资源开发利用的意见》,提出加强数据管理和利用的具体措施,包括建立健全数据质量管理体系、推动数据标准化、加强数据安全保护等。工信部发布的《“十四五”大数据产业发展规划》也明确了大数据产业的发展方向,强调优化数据资源配置,激发数据要素潜能,推动大数据产业高质量发展。国家系列文件的发布,为数据质量管理明确了发展方向与发展路径。
选择可靠有效的数据处理方法
系统化的数据质量提升流程是维护和提高数据质量的坚固防线。获取准确性高、一致性强的高质量数据,首先要有一套行之有效的数据处理方法,主要包括:异常数据检测、数据去噪以及数据同步对齐等。
异常数据检测是确保数据准确性的首要环节。及时、准确识别异常数据是数据分析中的关键一环。通过对异常数据的检测可以增强数据集的完整性与可靠性,为后续数据分析和模型建立提供坚实的数据基础,是维护整个决策链准确性的重要措施。异常数据通常分为偏差数据、离群值和缺失值等。其中,离群值的产生是由于测量误差或设备故障引起。比如,以特定的距离函数计算数据对象之间的距离来确定离群点,一般认为离其他数据更远的数据点可能是离群点。该方法可以简单直观