跳到主要内容

拖曳和清理脏数据

数据驱动的决策(D3M)似乎是本世纪信息时代的新“流行语”。老师和管理员在“头脑风暴”以缩小学生成绩差距的过程中,正在年级会议,休息室,走廊和教室中进行以数据为中心的对话。自从2001年颁布《不让任何孩子落后法案》颁布以来,专业教育家之间的讨论急剧增加。作为该法案的结果,教学界正在建立数据库来分析信息,以改善学校环境中的教学。专门从事数据收集,分析和技术报告的商业组织正在迅速涌现,它们在满足州,联邦和地方要求的过程中为学校提供了帮助。同样,许多软件供应商现在通过开发分类产品来服务于教育市场,以帮助学校实现其目标并通过D3M缩小学生成就方面的差距。

资料储存库

学校内部为改善教学质量而进行的数据收集并不是一种新做法。多年来,学校一直在手动收集,分析数据并将其报告给地方,州和联邦机构。随着时间的流逝,技术熟练的员工开始开发电子表格和数据库,以满足对数据不断增长的需求。但是,随着这种需求的持续增长,人们还希望持续不断地提高数据分析的复杂性,从而需要高素质的数据库人员和系统。不再需要使用“扁平”数据库软件(例如Excel,File Maker Pro或类似的计算机电子表格程序)进行大规模数据分析。强大的“关系”数据库系统(例如Microsoft SQL或Oracle引擎)现在用于处理此类数据。

在花费大量时间进行人工“计算”数字后,新技术最大程度地减少了教育报告的负担。技术已经扮演了管理数据的角色,使教师和管理人员可以专注于根据数据做出决策。基于学校互操作性框架(SIF)存储库模型的关系数据库管理系统(RDMS),数据仓库(DW)策略和程序的涌入,正在产生对知识有重大影响的知识库或数据分析专家库学校管理员的决策,因为他们正在审查他们现在可以使用的多种措施。但是,在做出有关开发或购买RDMS的任何决定,结合DW策略甚至是考虑根据SIF存储库模型做出重要决定之前,学校和学区必须制定确保质量数据的程序。

拖地和擦洗

为了确保数据质量,必须执行两个过程:拖把和擦洗。映射或拖移数据是在整个组织中查找或标识数据存储位置和方式的过程。此过程为数据库人员提供了围绕组织需求,需求,成本和期望结果制定数据计划所需的信息。

数据收集和输入是成功进行D3M的数据分析过程中的重要步骤。数据收集从数据映射开始,并且数据映射等同于调查需求以及数据所在的区域。数据可以在意想不到的地方找到,例如存储区域中的盒子。教室内的书桌抽屉或橱柜;属于委托人的文件柜;秘书的档案;或存储在软盘,计算机硬盘驱动器,CD-ROM,记录带,笔记本或便笺簿,成绩簿以及教师手册中的笔记位置。由于数据的各种潜在位置和条件,一旦从其隐藏的位置中复活了,通常就必须解决数据质量问题的难题,然后才能开始进行分析。解决这些异常的最佳方法是清理数据。

在数据收集过程中,经常会忽略数据清理。常见的输入垃圾,输出垃圾与数据收集和输入类似。数据清理与删除数据集中的错误信息有关。这些信息零碎是“脏污”或“污染”的碎片,可能会严重影响数据分析的结果。数据杂质的来源可能来自输入不准确;信息不完整;结构格式不正确;以及最常见的信息重复。考虑不纯或肮脏的数据将导致分析有缺陷,并可能由于实施致命干预而导致不正确的预后和/或诊断。

数据清理不需要特殊的艺术或科学。大量销售数据清理软件的厂商各自将其各自的产品投影为市场上最好的。其中许多产品无法有效地为教育环境服务。例如,当今市场上最受欢迎的洗涤器是邮政编码洗涤器。邮政编码错误对所有在学校环境中影响结果的人口统计数据的影响最小。在大多数情况下,学生在其邮政编码区域内的学校上学,并且不需要使用昂贵的软件来清洁邮政编码。但是,如果没有统一的规则或指南,输入教育数据库的其他人口统计信息确实可能需要将来进行清理。数据清理或清除至关重要。该过程产生适合进行有效数据分析的高质量数据。它可以通过手动或通过一系列脚本通过基准删除错误的标记或碎片基准。

基准逐个基准

在通用数据库存储库中,除非有指定的准则和结构允许一致性,否则很少有常规的数据输入方法。信息可以通过多种方式(例如姓名,姓名缩写,座位表或ID号)进行归档。有时,数据会以名字和姓氏或数字或字母标识存储在电子媒体上。数字标识可以由左对齐或右对齐的多个数字组成。例如,标识号为45632的学生很可能与00045632是同一学生,但不太可能是45632000。

另一个示例是使用学生地址作为标识。一些计算机数据库用户可能仅在地址中输入字母“ W”以表示“ West”,而其他用户则可能在街道名称中键入完整的单词。看起来很简单,错误的输入会污染数据库。输入街道信息“ W. Parker Boulevard”与“ West Parker Boulevard”有很大的不同。前者指的是方向(即街道名称为“ Parker”,街道从东向西延伸)。但是,后一种格式反映的街道方向为南北向或东西向。甚至“ Boulevard”名称也呈现各种格式(例如,Bl。,Blv。,Bd。或Blvd.)。数据输入时一致且统一的格式对于数据质量至关重要。如果忽略了简单的准则程序,并且出现了快捷方式,缩写,粗心的条目或使用了常用术语,则结果数据将是不纯净的,并且会危害正确的分析。信息格式化存在异常模式,很可能会破坏数据。 “干净”数据维护了分析的完整性和有效的D3M。

由于各个键或输入数据的个人喜好,脏数据通常与数据输入快捷键,误解和粗心相关。数据输入仍然是手动过程。它需要一个“平面图”或程序布局。不良数据可以与隐形病毒进行比较。它在后台运行,在公开之前系统地“吞噬”了位于硬盘驱动器上的数据库。最终,它以侵入性方式发生攻击,计算机系统内的所有数据均被破坏。肮脏的数据很像水管中的钙积累。迟早的后果将变得显而易见。数据清理必须成为每个人在任何级别上创建和/或处理数据的角色的责任。它始于用于收集数据的仪器。因此,学校和学区应采用特定且一致的程序来请求数据:

  • 使用标准表格请求数据。
  • 明确要求的信息。
  • 说明请求的目的。
  • 解释如何需要数据。
  • 告知将多久请求一次数据。