统计数据处理的理论与方法探究
作者:杨磊
来源:《卷宗》2014年第10期
摘 要:统计数据处理是提升数据质量的一个重要的手段。主要包括数据的审查、数据的清理以及数据的转换等等。根据数据处理的对象以及不同的目标,统计数据可以使用的处理问题的方法有很多,最主要的方式就是进行探索性的分析以及非正常状态的处理等,还需要选用比较恰当的方法进行数据统计的处理,有利于保证数据的真实性和有效性等等。 关键词:统计数据;处理理论;方法探究 1 统计数据处理理论
数据的处理属于数据挖掘中的一个主要的概念,主要指的是在对数据进行挖掘的之前,能够针对海量的数据进行噪声数据以及其他的一些不和谐的数据采取一些措施,目的就是为了保证数据的真实性以及可靠性。对数据处理的概念进行相应的拓展以及处理,最主要的对象就是包括数据以及调查的对象,能够形成数据的处理,他的范围也更加的广阔、内容也是更加的丰富,使用的主要的方法也是最多的[1]。 2 统计数据处理的意义
统计数据主要用于调查的过程中,能够与不同的调查者进行分析,所选取的抽样的方式是否合理与结果有着非常紧密的联系。利用信息的收回系统就能够主观的去记录相应的数据,因为数据的录入的功能过程中出现失误,能够出现错误性的字段,进而能够记录丢失的数据。在进行正式的数据分析以前,必须要对统计数据进行处理,为了对数据的质量进行诊断以及提升。
数据处理的公布系统不断的加入,就要求我们国家的统计数据的程序进一步加强,对数据的可信程度进行加强,在市场体制的不断改革之下,政府对于数据的可信程度提出了更高的要求[2],能够不断的反应经济的整体运行的趋势以及统计数据,数据也一定要及时和准确,能够及时的反应经济的运行的统计。
社会各界对于统计数据的需求也在逐渐的增加,对于数据的质量要求也在逐渐的提高,数据质量确不能够满足现状,为了解决这个矛盾,人们经常在各个角度去完善统计制度,构建各个方面的合理化的指标,适当的使用合理的调查分析额方法,不能够忽略统计数据的处理这个步骤,缺少对于检测以及数据质量关键性的步骤的研究的手段。 3 数据处理的过程
龙源期刊网 http://www.qikan.com.cn
整体概括来说,统计数据的处理主要包括几个大的步骤。首先就是数据的审查,数据的审查就是为了保证满足数据的最低的要求,内容就是包括能否能够实际的调查一致,利用整体的统计观点进行分析,检查各个字段的数据类型进行检查,字段的大小可以根据实际所测的数据来确定,可以将其分为大小、平均数据等等几个类型。其次,就是数据的清理工作,在审查的过程中如果能够发现比较明显的错误的话,就需要选取适当的方法进行数据的清理工作,将数据变为有用的信息,数据的清理还包括对重复性数据进行删除的工作。第三,就是数据的转换。数据的转换最主要强调的就是分析的对象的可比性能,不同的字段因为计量的单位有很大的差距[3],很容易就引起结果出现一定的误差,分析上述过程的其他的一些要求,也需要在分析之前进行数据的变换,其中最主要的就是随数据进行没有量纲进行处理。最后,就需要数据的验证工作,这个步骤目的就是为了初步去评估数据是否满足统计分析的一些具体的要求,决定是否需要进一步去加强或者减少数据的数量。还需要利用整体的数据构建模型,使用线性的模型进行相关性的分析,以此来确保能够把不错误的信息传输给数据库。
以上的几个主要的步骤就是一个由浅及深的一个过程,能够进行整体化的分析需要,进一步检测数据是否能够进行协调,以此来确保数据的优质分析阶段。对已经发现的问题进行及时的处理[4],以及正确的诊断性的工作。 4 统计数据处理的方法体系
首先,就是进行探索式的分析。描述性的统计技术主要就是针对数据进行的一项统计,频数的分析就是为了利用非连续性的频数表,报告出整体的变量的个数,进而能够确定整体的统计分量的数值。在进行探索式的分析的时候,需要使用图形对数据进行直观的考察,使得我们能够认识到数据接近的程度是否有其他的数据掺入其中,数据是否出现了间隙[5]。
其次,就是缺失值的处理,缺失的数据的产生通过探讨缺失的数据是否根据有关数据进行界定,缺失的数据就会随机出现,就能够缺失的数据进行研究,对于变量进行研究,这是不能够忽略的。对于缺失的数据的处理方法也是需要进一步磨灭的。
最后,就是需要异常值处理。异常值又称为孤立的一点,异常处理的首要的任务就是检测孤立的点[6],异常值就是数据处理的质量的问题,也是客观事物的真实性的反映,检测出异常值以后必须要确定检测值的异常,进行统一的几辆以及距离的确定,这都属于偏离的方法。 5 结语
统计数据的处理是在数据的采集以后,进行数据的处理,再进行使用。从统计数据处理的过程来看,无论是数据还是整体的数据,能够进行描述以及探索性的分析。随着数据的本身的质量的好坏以及要求的高低,对于方法的使用各有侧重。 参考文献
[1]吴忠良;;统计数据对农业生产的理论指导与实践[J];甘肃农业;2006年03期
龙源期刊网 http://www.qikan.com.cn
[2]陈震;陈维默;;浅谈数据挖掘技术[A];福建省科协第五届学术年会数字化制造及其它先进制造技术专题学术年会论文集[C];2005年
[3]谢文;翟均平;胡娟;;玉米数据库管理信息系统的设计与实现[J];农业网络信息;2005年12期
[4]章钟基;提高统计数据质量的探讨[J];统计研究;1989年03期
[5]余芳东;国外统计数据质量的涵义及评价和管理[N];中国信息报;2002年 [6]黄树颜;回归方法的数据预处理及其应用[J];统计研究;1986年02期
因篇幅问题不能全部显示,请点此查看更多更全内容