数据清理

计算机术语

数据清理用来自多个联机事务处理 (OLTP) 系统的数据生成数据仓库进程的一部分。拼写、两个系统之间冲突的拼写规则和冲突的数据(如对于相同的部分具有两个编号)之类的错误。数据清理工作的目的是不让有错误或有问题的数据进入运算过程,一般在计算机的帮助下完成,包括数据有效范围的清理、数据逻辑一致性的清理和数据质量的抽查。

简介
该进程必须解决不正确的用来自多个联机事务处理(OLTP) 系统的数据生成数据仓库进程的一部分。拼写、两个系统之间冲突的拼写规则和冲突的数据(如对于相同的部分具有两个编号)之类的错误。
编码或把资料录入时的错误,会威胁到测量的效度。数据清理主要解决数据文件建立中的人为误差,以及数据文件中一些对统计分析结果影响较大的特殊数值。常用的数据清理方法包括可编码式清理和联列式清理。
数据清理是一个过程,它包括两步:第一步是偏差检验,第二步是数据变换。同时这两步迭代进行。
数据清理工作的目的是不让有错误或有问题的数据进入运算过程。数据清理工作一般在计算机的帮助下完成。在录入的过程中,无论组织安排的多么仔细,工作多么认真,还是会或多或少出现一些差错,如原始数据本身存在问题、编码过程中出现差错、录入人员的疏忽所犯的错误。数据的清理通常包括数据有效范围的清理、数据逻辑一致性的清理和数据质量的抽查。
数据有效范围清理
基本思路
有效范围清理的逻辑是:问卷中任何一个变量,其有效编码值往往都有某种范围,而当数据中的数字超出这一范围时,可以肯定这个数字一定是错误的。比如,在数据文件的“性别”这一变量栏中,出现了数字5,7或者9等,我们马上可以判断这是错误的编码值。因为根据编码手册的规定,“性别”这一变量赋值是“1=男,2=女,0=无回答”。凡是超出这三者范围的编码值,肯定都是错误的。
产生错误的原因
产生这种错误的原因,主要是因为:
(1)原始问卷中的答案出现了问题。被调查者在填答问卷时因为笔误填写错误。
(2)错误发生在编码员的程序上。比如,某个调查者的年龄是24岁,编码员在编码的时候由于粗心,编写成42岁,超出了我们实际调查对象的年龄限制。这一超出有效范围的奇异值就来自于编码员。
(3)错误发生在计算机输入人员输入数据的过程中。输入人员在数据输入的过程中,往往都是眼睛看着编码栏,手在计算机键盘上敲打着0~9这10个数字,但是因为键盘上数字之间的距离太近,比价容易输入错误。
对于这一类错误的清理,可以通过在SPSS软件中执行对变量频数分布的命令,当我们发现频数分布表中变量的取值超出了编码手册所规定的的赋值范围,可通过计算机将这些个案查找出来,将这些问卷找出同原始问卷核对和修改。如果一份问卷中错答、乱答的问题不止一两处,则可以将这个个案的全部数据取消,作为废卷处理。
逻辑一致性检查
除了数据输入的奇异值之外,还有一种较为复杂,需要做的就是逻辑一致性清理。
基本思路
逻辑一致性清理的基本思路是:依据问卷中的问题相互之间存在的某种逻辑联系,来检查前后数据之间的合理性。它比有效范围清理要复杂一些,主要针对的是相依性问题。比如,前面问到“性别”属于“男性”,后面出现“怀孕时间”的答案数字;编码为“独生子女”的个案数据中,出现了“哥哥、姐姐的个数与年龄”的答案数字,等等。
解决方法
要查找和清理逻辑一致性问题的个案,可以在SPSS软件中,执行条件选择个案命令(Select Cases)中的If命令,来找出个案进行修改,或者直接用重新设置变量值命令进行变量取值的转换。
如果用Select Cases命令时,现用If命令将所有不符合要求的个案挑出来,再按前述有效范围清理的方法,找到原始问卷进行核对,对其做相应的处理。
逻辑一致性清理还可以采取SPSS中变量值转换的命令(即Record命令)来进行。可以采用Record into same Variables 命令对变量的取值进行转换。用Record命令的好处在于可以把需要修改的变量一次性修改完毕,所以这就要求研究者在运用这一命令时,确定符合条件的变量都是需要修改的,在输入的时候不是因为前面的过滤性问题而产生的错误。
逻辑一致性清理根据问卷调查中各问题的逻辑关系和情况不同,研究者要具体问题具体分析,不能一概而论,根据其内在的逻辑关系进行清理。
数据质量抽查
质量抽查的必要性
在上述两种方法对数据进行清理后,仍可能存在一些错误没有清理出来,假设某个案的数据在“性别”这一变量上输错了,问卷调查上填的答案是1(男性),编码值也是1,但是数据录入时却敲错成了2(女性)。因为2这个答案在正常有效的编码值范围内,因此,有效范围的清理检查查不出这一错误,也不可能通过逻辑一致性进行清理,更不可能拿着问卷一份份的核对,这时人们通常采用的方式时数据质量的抽查。
基本思路
数据质量抽查,是从样本的全部个案中,抽取一部分个案,对这些个案参照原始问卷逐一进行校对。用这一部分个案校对的结果来估计和评价全部数据的质量。根据样本中个案数目的多少,以及每份问卷中变量数和总数据的多少,研究者往往抽取2%~5%的个案进行校对。如一项调查样本的规模为1000个个案,一份问卷的数据个数为100,研究者从中随机抽取3%的个案,也即30份问卷进行核查,结果发现1个数据输入错误。这样1/(100*30)=0.033%,这就说明了数据的错误率在0.033%左右,在总共10万个数据中,大约有33个错误。虽然我们将其找出对其进行修改,但可以知道错误数据所占的比例,对调查结果有多大的影响,了解数据的质量。
技巧
1.首先,你可以下载一些存储分析器。在你的基础架构上运行这个程序,找出90天内没有被访问或修改的所有文件。做一个列表单并尽量将其与活动目录联系起来。
2.找出最大的文件,将其递交给相应的经理。“你看,这些文件占用了大量空间,并且其中许多文件都已经超过90天没有被访问了。这些文件还有用吗?”
3.让用户自由无限制地访问磁带。告诉他们这上面的数据很安全;而且可以通过万维网访问,可能会花费20秒到2分钟的时间。不过我们不想再把它放置在主存储上了,因为我们在主存储上的开销太大。你可能只需这一点点配合就能实现;甚至你都感觉不到。
4.实施文件隔离方案。基本上,指出在首次创建数据时你如何部署它们,并且在其上应用策略。精细地理解数据是最好的方式,即便只是基于人员所属部门来做。假如他在会计部门工作,并且你认为所有的会计系统都是关键业务,这就表示有某种水平的服务和资源承诺。当其进行保存时,文件就在应该在的位置。对用户完全透明,不需要进行任何配合操作。
5.怎样实现呢?你会针对每个资源池中数据的重要程度应用不同的策略。那么你是否会收到错误信息?当然会!不过一旦你收到错误信息,而且在90天内都没有被访问,那么它们会被迁移下线。我们不得不开始考虑应该怎样处理这部分数据了。
全国各地天气预报查询

上海市

  • 市辖区
  • 云南省

  • 临沧市
  • 云南省

  • 丽江市
  • 云南省

  • 保山市
  • 云南省

  • 大理白族自治州
  • 云南省

  • 德宏傣族景颇族自治州
  • 云南省

  • 怒江傈僳族自治州
  • 云南省

  • 文山壮族苗族自治州
  • 云南省

  • 昆明市
  • 云南省

  • 昭通市
  • 云南省

  • 普洱市
  • 云南省

  • 曲靖市
  • 云南省

  • 楚雄彝族自治州
  • 云南省

  • 玉溪市
  • 云南省

  • 红河哈尼族彝族自治州
  • 云南省

  • 西双版纳傣族自治州
  • 云南省

  • 迪庆藏族自治州
  • 内蒙古自治区

  • 乌兰察布市
  • 内蒙古自治区

  • 乌海市
  • 内蒙古自治区

  • 兴安盟
  • 内蒙古自治区

  • 包头市
  • 内蒙古自治区

  • 呼伦贝尔市
  • 内蒙古自治区

  • 呼和浩特市
  • 内蒙古自治区

  • 巴彦淖尔市
  • 内蒙古自治区

  • 赤峰市
  • 内蒙古自治区

  • 通辽市
  • 内蒙古自治区

  • 鄂尔多斯市
  • 内蒙古自治区

  • 锡林郭勒盟
  • 内蒙古自治区

  • 阿拉善盟
  • 北京市

  • 市辖区
  • 吉林省

  • 吉林市
  • 吉林省

  • 四平市
  • 吉林省

  • 延边朝鲜族自治州
  • 吉林省

  • 松原市
  • 吉林省

  • 白城市
  • 吉林省

  • 白山市
  • 吉林省

  • 辽源市
  • 吉林省

  • 通化市
  • 吉林省

  • 长春市
  • 四川省

  • 乐山市
  • 四川省

  • 内江市
  • 四川省

  • 凉山彝族自治州
  • 四川省

  • 南充市
  • 四川省

  • 宜宾市
  • 四川省

  • 巴中市
  • 四川省

  • 广元市
  • 四川省

  • 广安市
  • 四川省

  • 德阳市
  • 四川省

  • 成都市
  • 四川省

  • 攀枝花市
  • 四川省

  • 泸州市
  • 四川省

  • 甘孜藏族自治州
  • 四川省

  • 眉山市
  • 四川省

  • 绵阳市
  • 四川省

  • 自贡市
  • 四川省

  • 资阳市
  • 四川省

  • 达州市
  • 四川省

  • 遂宁市
  • 四川省

  • 阿坝藏族羌族自治州
  • 四川省

  • 雅安市
  • 天津市

  • 市辖区
  • 宁夏回族自治区

  • 中卫市
  • 宁夏回族自治区

  • 吴忠市
  • 宁夏回族自治区

  • 固原市
  • 宁夏回族自治区

  • 石嘴山市
  • 宁夏回族自治区

  • 银川市
  • 安徽省

  • 亳州市
  • 安徽省

  • 六安市
  • 安徽省

  • 合肥市
  • 安徽省

  • 安庆市
  • 安徽省

  • 宣城市
  • 安徽省

  • 宿州市
  • 安徽省

  • 池州市
  • 安徽省

  • 淮北市
  • 安徽省

  • 淮南市
  • 安徽省

  • 滁州市
  • 安徽省

  • 芜湖市
  • 安徽省

  • 蚌埠市
  • 安徽省

  • 铜陵市
  • 安徽省

  • 阜阳市
  • 安徽省

  • 马鞍山市
  • 安徽省

  • 黄山市
  • 山东省

  • 东营市
  • 山东省

  • 临沂市
  • 山东省

  • 威海市
  • 山东省

  • 德州市
  • 山东省

  • 日照市
  • 山东省

  • 枣庄市
  • 山东省

  • 泰安市
  • 山东省

  • 济南市
  • 山东省

  • 济宁市
  • 山东省

  • 淄博市
  • 山东省

  • 滨州市
  • 山东省

  • 潍坊市
  • 山东省

  • 烟台市
  • 山东省

  • 聊城市
  • 山东省

  • 菏泽市
  • 山东省

  • 青岛市
  • 山西省

  • 临汾市
  • 山西省

  • 吕梁市
  • 山西省

  • 大同市
  • 山西省

  • 太原市
  • 山西省

  • 忻州市
  • 山西省

  • 晋中市
  • 山西省

  • 晋城市
  • 山西省

  • 朔州市
  • 山西省

  • 运城市
  • 山西省

  • 长治市
  • 山西省

  • 阳泉市
  • 广东省

  • 东莞市
  • 广东省

  • 中山市
  • 广东省

  • 云浮市
  • 广东省

  • 佛山市
  • 广东省

  • 广州市
  • 广东省

  • 惠州市
  • 广东省

  • 揭阳市
  • 广东省

  • 梅州市
  • 广东省

  • 汕头市
  • 广东省

  • 汕尾市
  • 广东省

  • 江门市
  • 广东省

  • 河源市
  • 广东省

  • 深圳市
  • 广东省

  • 清远市
  • 广东省

  • 湛江市
  • 广东省

  • 潮州市
  • 广东省

  • 珠海市
  • 广东省

  • 肇庆市
  • 广东省

  • 茂名市
  • 广东省

  • 阳江市
  • 广东省

  • 韶关市
  • 广西壮族自治区

  • 北海市
  • 广西壮族自治区

  • 南宁市
  • 广西壮族自治区

  • 崇左市
  • 广西壮族自治区

  • 来宾市
  • 广西壮族自治区

  • 柳州市
  • 广西壮族自治区

  • 桂林市
  • 广西壮族自治区

  • 梧州市
  • 广西壮族自治区

  • 河池市
  • 广西壮族自治区

  • 玉林市
  • 广西壮族自治区

  • 百色市
  • 广西壮族自治区

  • 贵港市
  • 广西壮族自治区

  • 贺州市
  • 广西壮族自治区

  • 钦州市
  • 广西壮族自治区

  • 防城港市
  • 新疆维吾尔自治区

  • 乌鲁木齐市
  • 新疆维吾尔自治区

  • 伊犁哈萨克自治州
  • 新疆维吾尔自治区

  • 克孜勒苏柯尔克孜自治州
  • 新疆维吾尔自治区

  • 克拉玛依市
  • 新疆维吾尔自治区

  • 博尔塔拉蒙古自治州
  • 新疆维吾尔自治区

  • 吐鲁番市
  • 新疆维吾尔自治区

  • 和田地区
  • 新疆维吾尔自治区

  • 哈密市
  • 新疆维吾尔自治区

  • 喀什地区
  • 新疆维吾尔自治区

  • 塔城地区
  • 新疆维吾尔自治区

  • 巴音郭楞蒙古自治州
  • 新疆维吾尔自治区

  • 昌吉回族自治州
  • 新疆维吾尔自治区

  • 自治区直辖县级行政区划
  • 新疆维吾尔自治区

  • 阿克苏地区
  • 新疆维吾尔自治区

  • 阿勒泰地区
  • 江苏省

  • 南京市
  • 江苏省

  • 南通市
  • 江苏省

  • 宿迁市
  • 江苏省

  • 常州市
  • 江苏省

  • 徐州市
  • 江苏省

  • 扬州市
  • 江苏省

  • 无锡市
  • 江苏省

  • 泰州市
  • 江苏省

  • 淮安市
  • 江苏省

  • 盐城市
  • 江苏省

  • 苏州市
  • 江苏省

  • 连云港市
  • 江苏省

  • 镇江市
  • 江西省

  • 上饶市
  • 江西省

  • 九江市
  • 江西省

  • 南昌市
  • 江西省

  • 吉安市
  • 江西省

  • 宜春市
  • 江西省

  • 抚州市
  • 江西省

  • 新余市
  • 江西省

  • 景德镇市
  • 江西省

  • 萍乡市
  • 江西省

  • 赣州市
  • 江西省

  • 鹰潭市
  • 河北省

  • 保定市
  • 河北省

  • 唐山市
  • 河北省

  • 廊坊市
  • 河北省

  • 张家口市
  • 河北省

  • 承德市
  • 河北省

  • 沧州市
  • 河北省

  • 石家庄市
  • 河北省

  • 秦皇岛市
  • 河北省

  • 衡水市
  • 河北省

  • 邢台市
  • 河北省

  • 邯郸市
  • 河南省

  • 三门峡市
  • 河南省

  • 信阳市
  • 河南省

  • 南阳市
  • 河南省

  • 周口市
  • 河南省

  • 商丘市
  • 河南省

  • 安阳市
  • 河南省

  • 平顶山市
  • 河南省

  • 开封市
  • 河南省

  • 新乡市
  • 河南省

  • 洛阳市
  • 河南省

  • 漯河市
  • 河南省

  • 濮阳市
  • 河南省

  • 焦作市
  • 河南省

  • 省直辖县级行政区划
  • 河南省

  • 许昌市
  • 河南省

  • 郑州市
  • 河南省

  • 驻马店市
  • 河南省

  • 鹤壁市
  • 浙江省

  • 丽水市
  • 浙江省

  • 台州市
  • 浙江省

  • 嘉兴市
  • 浙江省

  • 宁波市
  • 浙江省

  • 杭州市
  • 浙江省

  • 温州市
  • 浙江省

  • 湖州市
  • 浙江省

  • 绍兴市
  • 浙江省

  • 舟山市
  • 浙江省

  • 衢州市
  • 浙江省

  • 金华市
  • 海南省

  • 三亚市
  • 海南省

  • 三沙市
  • 海南省

  • 儋州市
  • 海南省

  • 海口市
  • 海南省

  • 省直辖县级行政区划
  • 湖北省

  • 十堰市
  • 湖北省

  • 咸宁市
  • 湖北省

  • 孝感市
  • 湖北省

  • 宜昌市
  • 湖北省

  • 恩施土家族苗族自治州
  • 湖北省

  • 武汉市
  • 湖北省

  • 省直辖县级行政区划
  • 湖北省

  • 荆州市
  • 湖北省

  • 荆门市
  • 湖北省

  • 襄阳市
  • 湖北省

  • 鄂州市
  • 湖北省

  • 随州市
  • 湖北省

  • 黄冈市
  • 湖北省

  • 黄石市
  • 湖南省

  • 娄底市
  • 湖南省

  • 岳阳市
  • 湖南省

  • 常德市
  • 湖南省

  • 张家界市
  • 湖南省

  • 怀化市
  • 湖南省

  • 株洲市
  • 湖南省

  • 永州市
  • 湖南省

  • 湘潭市
  • 湖南省

  • 湘西土家族苗族自治州
  • 湖南省

  • 益阳市
  • 湖南省

  • 衡阳市
  • 湖南省

  • 邵阳市
  • 湖南省

  • 郴州市
  • 湖南省

  • 长沙市
  • 甘肃省

  • 临夏回族自治州
  • 甘肃省

  • 兰州市
  • 甘肃省

  • 嘉峪关市
  • 甘肃省

  • 天水市
  • 甘肃省

  • 定西市
  • 甘肃省

  • 平凉市
  • 甘肃省

  • 庆阳市
  • 甘肃省

  • 张掖市
  • 甘肃省

  • 武威市
  • 甘肃省

  • 甘南藏族自治州
  • 甘肃省

  • 白银市
  • 甘肃省

  • 酒泉市
  • 甘肃省

  • 金昌市
  • 甘肃省

  • 陇南市
  • 福建省

  • 三明市
  • 福建省

  • 南平市
  • 福建省

  • 厦门市
  • 福建省

  • 宁德市
  • 福建省

  • 泉州市
  • 福建省

  • 漳州市
  • 福建省

  • 福州市
  • 福建省

  • 莆田市
  • 福建省

  • 龙岩市
  • 西藏自治区

  • 山南市
  • 西藏自治区

  • 拉萨市
  • 西藏自治区

  • 日喀则市
  • 西藏自治区

  • 昌都市
  • 西藏自治区

  • 林芝市
  • 西藏自治区

  • 那曲市
  • 西藏自治区

  • 阿里地区
  • 贵州省

  • 六盘水市
  • 贵州省

  • 安顺市
  • 贵州省

  • 毕节市
  • 贵州省

  • 贵阳市
  • 贵州省

  • 遵义市
  • 贵州省

  • 铜仁市
  • 贵州省

  • 黔东南苗族侗族自治州
  • 贵州省

  • 黔南布依族苗族自治州
  • 贵州省

  • 黔西南布依族苗族自治州
  • 辽宁省

  • 丹东市
  • 辽宁省

  • 大连市
  • 辽宁省

  • 抚顺市
  • 辽宁省

  • 朝阳市
  • 辽宁省

  • 本溪市
  • 辽宁省

  • 沈阳市
  • 辽宁省

  • 盘锦市
  • 辽宁省

  • 营口市
  • 辽宁省

  • 葫芦岛市
  • 辽宁省

  • 辽阳市
  • 辽宁省

  • 铁岭市
  • 辽宁省

  • 锦州市
  • 辽宁省

  • 阜新市
  • 辽宁省

  • 鞍山市
  • 重庆市

  • 重庆市

  • 市辖区
  • 陕西省

  • 咸阳市
  • 陕西省

  • 商洛市
  • 陕西省

  • 安康市
  • 陕西省

  • 宝鸡市
  • 陕西省

  • 延安市
  • 陕西省

  • 榆林市
  • 陕西省

  • 汉中市
  • 陕西省

  • 渭南市
  • 陕西省

  • 西安市
  • 陕西省

  • 铜川市
  • 青海省

  • 果洛藏族自治州
  • 青海省

  • 海东市
  • 青海省

  • 海北藏族自治州
  • 青海省

  • 海南藏族自治州
  • 青海省

  • 海西蒙古族藏族自治州
  • 青海省

  • 玉树藏族自治州
  • 青海省

  • 西宁市
  • 青海省

  • 黄南藏族自治州
  • 黑龙江省

  • 七台河市
  • 黑龙江省

  • 伊春市
  • 黑龙江省

  • 佳木斯市
  • 黑龙江省

  • 双鸭山市
  • 黑龙江省

  • 哈尔滨市
  • 黑龙江省

  • 大兴安岭地区
  • 黑龙江省

  • 大庆市
  • 黑龙江省

  • 牡丹江市
  • 黑龙江省

  • 绥化市
  • 黑龙江省

  • 鸡西市
  • 黑龙江省

  • 鹤岗市
  • 黑龙江省

  • 黑河市
  • 黑龙江省

  • 齐齐哈尔市