手大脚插件依赖功能缺失失值45分凭多少级

当前位置: >>
ETL过程中的数据清洗技术研究与应用
沈 阳航空工业学院硕士学 位论文摘要数      据的抽取、转换和装入是 创建数据仓库系统的 重要环节, 它将组织机构内 多元分散的数据 按照 主题统一装载到数据 仓库 中, 能够很好地解 决组织机构 内部数据一致性与信息 集成化问 题。 然而, T 程序的频繁运行难免会产生 EL 大量的 “ 脏数据”, 直接导致 数 据仓库技术由于 数据质量而不能 产生理想正 确的决策分析结果, 因此数据在进入数据 仓 库之前需要进行清洗。 数据清洗技术一直是近年来数据仓库领域中的 研究热点, 其主要任务是从原始数据 集中去除不一致 的和错误 的数据 。首先描述了      数据质量的基本概念、评 价指标及分类等问 题,在 此基础上按照 数据清洗算法将脏数据划 分为 “ 独立型脏数据 ”、 “ 赖型脏数据”两类,并给 出 了相应 的解 依决 方法。其次描述了 清洗的基本定义及清洗环节, 定义了 T 层的数据清 E L 洗模型 和在元数据库中存储 的清洗 规则后 ,提 出了一种 自 动清洗和人 为清洗相混合 的数据清洗策略 .针对中文地址类信息的数据清洗问      题, 提出了 基于 特征字 符的 分词方案,并 给出了相应的分词算法 。该方案将 中文地 址类信息按逻辑意义分为省、市 、区、街及数字五组 信息,通过与元数据库 中省、市 、区的标准信息 匹配保 证了分词 的准确性 。针对中文地址类相似重复记录的      处理问 题, 建立了 包含分词规则的元数据库, 提出 了 种相似重复 一 检测模型, 并给出了利 用可变 权值策略计算中文地 址类信息相似度的 算 法。 实验结果表明该方案能有效解决中 文地址类重复 信息的 检测, 提高了 算法的 执行效率及检 测精度 。关键词 :E L T ;数据清洗;相似重 复记录;特征字符:分词:可变权值一1一 沈阳航空工 业学院硕士学位论文Ab ta t sr tT ee r o r f m n o n      i t s r ad l i ET )i niPr s Pt on rc d a h xa 几 a o tc t n d a g( L sa m o a t oc s t a t t n e t u twr os s e , h h d t m l 1dPrd a ot o 翻z i sod io ahu y m w i m eh u t e ie e d fh r ao l e n e e s t ca e i s s t P e 8 t n a dt da r osa o i ts e b c st d a ns c a i rao ieri ta h a w e u ec rn o m s e , h a c s e yn n m i n g tn cd g o u t oe t o in d f t n t ao j t o o o a泣 i ol e e l d H wv mn iy a m yep d e it t f 电 ao u n t nc db r o e. e e a r d s v o , r yd t t ab r u dwh h oc e 触qe lr n oE P g n t c caas r us anteb n fmD u ny ni f孔 r r lh o t nys s my Ob ot e r t u n g o a, e r e li i e t l ad o W b a e fh d a a ys t d a e s sP sb ne d e rd aso e e s ot a ql , oh a da i t m t e d b e a il d c u et u i t et nn e u g e e f t o d a io W T t hi od c nn ia t s id a ahu d姗 nWi t t nD e c q h e n u fa l sgs h i en e t e i a o s u a 加 e so t r oe , ch hh ema un t nit ! n eicni e a derr aaf m tent d a es i nf ci s oe1 a no st爪 n o 而 t s r d r o t o h i i a st. i a t lA eir c h ac oc ,s t t t n c e i o fa ql ,      ui t b icn seia na ead agr i od a a y t t f n d n es r o g t P e t i r mn g t oZ n t u i t a t t d d asiddn t0 eoe i ee ecoe d e ne oe c i h i a id i iow c grsn P dn na d edn n a rn er t y t ve t t a i, d n y n P y c c d g o o h a c s l r m n h e e m hda r e Teac o t tt d a lnn a o h a t rad eos P ps .hbs cn Pad e t e i gi , de I a g t t t e r o d o i c n e t od alnn a e re, e a casg e n T r e s fe, s sfa cass d cbdt d a1nn m d iE P csi endad P e t e i r s i h t e i o l L o s di n e t casgre r i e d aa s i s ,h e e n lt h l i u s 时 nm t a s n o - b a t eidc e t na m i d casg s d e u o cb n a l nn 比 t e i t t s8 m i n au m t ss O s sa纷 un a o t a m na e di r o d r e 1 ua c d t l h o P Pe . i nte s A i a h s f h e drsn m n l i t e e e o a     t i o Ci s ad si rao c s , s m nm hd n mg e u 朋 e f t o i n a g e e n h g t t d aot a o ft w r a P ps , wi t C n e d si rao i l r mbs n a ro d gi h d e eu e e o dn r r e ih c h h e a rsn mt ns o h e is d e f i o s m nio v fl, c a P v c c丫aas ea nm e Ma i wtt e e n fe e ss h s r i e i r t tn u b g i ti i d u o n,t e r . e d r t n i h h c 8 he t d di m i sna n rao f h e ad s i e d aa , s m n a ryc b a r f t no Ci s dr snm t a s t e e c a a e o ne e - b at e h g tu c n enue e s rd.Io et l i t P r m e u i er o o h e d rsn mt 氏     emn ehaP ia ld lad c d C nsad si rao nr r i a e o t y d o t x P c e rf i e e f i t o e t t eo g h e da s s e t u s s b id A Po m ydPc e etn t m a a a fem n re ieaI e. a r ia1 ula d co - b l s s n P t h x t e id t i t m d ad c Pti a o h c o i tt v i lw i s e a P ps t oe n a o u ao l r ma rn oh aa e e ht g r r e l m t n gi t cdg e r b g r ye o d t a t o Te xemnr l i i eh tst e c d e aP x a y ula r o s hePr e e t n c t h sa g a e i t s s da a i r yn t u t t t t C P it dPc e e r o r me l i dc d t oC i sad s i r ao e c l n t a o h u i e cny n d e f h e dr sn m i ft 又a h 】 r mr n f i c a e c ne e o f t ne u l a d e gi t ng i e d ttP io c b iP vd c e i n r s n a em re ‘ oK w rs T ; a casgAP m e d l e r o s e rwr S m n y d E e o : L D al i ; r a l u i d r ; aeo d e e ; t e n P o t y Pc e d Ft n i x t a c o ;g t确d lw i b aee g t h一n 一 原 创 性 声 明本人郑重声明:      所呈交的学位论文是本人在导师的指导下独 立完成的。除文中已经注明引用的内容外, 本论文不包含其他个人或集体 己经 发表或 撰写过 的作 品或成 果, 也不包含本人为获得其他学位而使用过的成果。 对本文研究做出重要贡献的个人或集体均 已在论文 中进行 了说 明并表示谢 意。 本声 明的法律后果 由本人承担 。论 文作者签名 :和 祖月    日扣7    年 版权授权说明本人授 权学校 “      有权保 留送 交学位 论文的原件 ,允许 学 位论 文被查阅和借 阅 ,学校 可 以公布 学位 论文 的全 部或部分 内容 ,可 以影 印、缩印或其他复制手段保存学位论文 ” ;愿意 将本 人学位论文 电子版提交 给研 究生部 指定授权单位 收录和 使用 。学校必须严 格按照授 权对论文进 行处理 ,不 得超越 授 权对 毕业论 文进 行任意处置 。授 权人: 年协1 处月    日 沈阳航空工业学院硕士学位论文第 1 绪论 章L 数据清洗的意义 l 随计算机信息化技术的普及和发展,      许多组织机构各部门的日 常业务处理都采用了 计算机进行管理和运行。 纵观信息管理的现状, 大多数的组织机构都存在着多个异构系统, 其数据的组织和存储结构也各不相同, 进而形成了 “ 信息孤岛”、 数据的 唯一性和实时性难以保证等问 信息集成就是针对大量存在的 “ 题。 信息孤岛” 现象, 解决异构环境中 信息的正确性及实现信息的高效共享和交换的重要手段, 而数据仓库技术正是解决 信息集成的有效方法1 1 。 数据仓库概念提出始于2世纪 年代初期。      0 0 9 著名的数据仓库专家 . o在其著 WHI n n l作《ud t D , ros 一 给出 如 描 数据 库是 个面 主 、 B i h a /e u 》 书中 了 下 述: 仓 一 向 题的 l g i n e t ahe 集成的、 相对稳定的、 反映历史 变化的 据集 用于 数 合, 支持管 策 . 主题的 理决 1 面向 ] 2 数据仓库不但为有效地支持组织机构经营管理决 策提供了 全局一致的数据环境, 也为历史数据、 综合数据的处理提供了一种行之有效的解决办法,并最终为各级决策管理者提供 及时、准确、科学、有效地辅助决策依据。数据的      转 装入 E 时 T n r La E ) 创建数 仓库系 重要 抽取、 换、 ( t x r sm Od T 是 af o ,L 据 统的环节, 它能够很好地解决组织机构内部的 数据一致性与信息集成化问 它从所有异构 题, 系统中 采集数据, 并对其进行高效的 转换。 在一个数据仓库项目中, 0 的工作量都 约8 k r O花费 E 阶 . T 程序的 运行 会产生大量的 “ 数据”, 拼写 在 T 段闭 E L L 频繁 难免 脏 如 错误、重复信息、缺损数据等。有统计资料表明,数据错误大约占到总数据量的5 左右,因 %此数据质量问 题是制约数据仓库应用的 “ 瓶颈” 3 之一1 1 。如果数据质量达不到要求, 将 直接导致数据仓库技术不能产生理想的结果, 甚至会产生错误的分析结果, 从而误导决策。因此数据在进入数据仓库前必须进行清洗。数据清洗技术 t e sg      归a a 朗 i ) 研究 a n 的 一直是 近年来研究的 热点问 它能 进数 题, 够改据质量, 被广泛运用于决策支持系统和数据仓库系统中, 其主要任务是从原始数据集中去除不一致的和错误的数据1 前,己 1 4 .目 有一些用于数据清洗的 T 工具提供了 EL 功能强大的软件平台, 利用它们可以从各种数据源中对数据进行抽取、 转换后加载到数据仓库一 1一 沈阳航空工业学院硕士学位论文中。然而由一些著名厂商开发的通用E 工具在具体实际应用中也有其不尽人意的地 L T 方,主要体现在两个方面:一是用固定不变的转换步骤对数据自 动清洗显得力不从心; 二是E 的主要目 L T 标是为O A 提供服务,却缺少姓名、地址等信息的清洗。虽然,目 LP前己 续出 经陆 现了 一些针对姓名 和地址类信息的 清洗工具, 但大多 数是针对西文的数据清洗,很少涉及中文地址类信息。众所周知,地址类信息在数据仓库中出现的频率较高,并对于重复记录的      检测及分 析处理起着非常重要的作用, 因此中文地址类信息的数据清洗在实践中具有非常重要的 意义。基于上述两点考虑,本论文主要研究基于E 平台的数据清洗策略及中文地址类 L T信息的数据清洗。L 数据清洗研究现状 Z L IT 与数据清洗 . L 2E 数据清洗通常认为是数据仓库 ( W)      D 、数据库中的知识发现 ( D )和数据月 息 KD 言质量 理 ( Q ) 个领 数 备 段的 骤 一 . 整的 准 阶 一 管 T M 三 域的 据准 阶 步 之 1 完 数据 备 段, D 4般需要两 种类型的 工具: 其一是 换工具, 转 其二是 清洗工具 . 是既 别, 有 , 1 两者 有区 又功能交叉。转换工具也就是常说的E L      T 工具,主要功能包括数据的抽取、转换和数据装入,但它缺少姓名、地址等信息的清洗、也缺少模糊匹配和合并的功能,它的主要目 标是为O 妙 提供服务。数据清洗工具可以满足一些特别的需求,很多清洗产品都专注于姓名 L和地址等,它的核心工作是净化和匹配, 但不提供数据抽取、装载及更新等功能,而且针对中 文地址类信息的清洗并不多。因此, T 过程中引 在E L 入数据清洗技术是必然的 趋势。 此方案可以 互补两者的功能缺陷, 发挥各自 的优势功能, 只有提高了 数据质量, 才能为决策者提供可信又可靠的数据依据。现在市场上有许多工具支持数据转化和清洗任务,尤其是对于数据仓库应用方面。      EL T 工具通常提供广泛的覆盖大部分数据转换和清洗过程的转换和工作流功能。 有一些工具的功能集中在一些特殊的领域, 如清洗姓名和地址数据; 而另一些工具专著于特定 的清洗阶段,如数据分析和重复删除。由于这些工具应用于特殊的领域,因此它们的效果都不错,但是必须辅助于其它领域工具来完成数据转换和清洗。一 2一 沈阳航空工业学院硕士学位论文L 2T . 2 E L工具的比 较 至今为止,数据仓库在国内的实用化己      走过了近十年的历程,应用领域遍及通信、证券、 银行、 税务、 保险等行 随着D 广泛 业。 w的 应用, T 工具 渐成 6 几个主 E L 也日 熟1 1 。要数据库厂商的E 工具的简单比较如下: L T(班M      Vu 、 汕os9 1 公司的 ” 甲 u . ) s r ’ . i B 公司的 和 M r os 优点 数据 泛, 数据量的 IM      场 目 厄e un的 是 源广 对大 h i g 抽取汇总具 有速度优势; 提供编程 和调 接口 用外部程序的 功能, 按计划自 动执行 数据抽取; 提供Ae gt n把数据抽取分布到工 作站、 小型机、 大型机等各种平台, 但界面不够友好, 在处理复杂的数据源时面临较多的工作量。(o l      2re )a 公司的 r e 代 osB uo c o c wa hu udr a l e0 l      汉e 公司的oa e 厄eosB l 的优点是提供模型构造和设计、 r lV r u ud c he i e r 数据提取、 移动和装载、元数据管 理、 分析工具的整合及数据仓库管理功能。 具有开放延伸的框架,但不能把数据抽取扩充到U x 川 工作站等,且流程繁琐,不易使用。3 i s 公司的D S (M r t     f 》c o o T 入“ 即 公司的 T 的优点是能够从广泛的数据源中抽取数据,提供市场上最有效      f。n DS的编程方式,以 及工作流的任务处理方式; 提供调用外部程序的功能和强大、丰富的被外部程序调用的对象库;按计划自动执行数据抽取.(I r a公司的 川 n a s ,     x 4n n )f o . A et t a Da tI n 公司 沁d as e 优点 提 工 流的 式, 实 部 程,      的 eD a 唱的 是 供 作 方 可以 现内 编 o fx na i nt 切但数据抽取功能简单, 程序高效性及准确性的保证措施少。5 (以 、 tu 公 I 比 m     nm 司的 f u p ) i n o c P 加 司 I bP 优点是 取 度 快, 工 流的 作 式, 户      公 的 n r m 的 Aa m l i t o fu 抽 速 较 非 作 工 方 但用面临过大工作量, 程序高效性及准确性的保证措施少。L3 . 2 数据清洗概况 尽管目      前数据仓库、 数据库中的知识发现、 数据/ 信息质量管理等在理论和应用上都获得了极大的发展, 但数据清洗作为极其重要的、 必不可少的组成部分,针对这方面的研究并不多,将有关数据清洗工具及技术的研究现状概述如下:l (清洗工具概况      )一 3一 沈阳航空工业学院硕士学位论文随着客户关系管理的重要性日      渐突出,地址信息的质量也越来越受到关注。名字和 地址数据的清洗是数据清洗技术在特定领域的典型应用。用于纠正、 标准化、 提高 “ 姓名和地 质量的 具 , rU ms介 a ssm 升功 称 相 , 具 址” 工 有‘ i i o wr y , 护u 户 r 该工 主要由 叨T u e t e m e 解析器, 配器 匹 组成的 ②M c“k , 响距 “ 通过扩展 ; a川 a r 乃 动乙 , t e 通用的 词, 缩写 纠正普通的错拼和识别地址复本来对地址型数据错误问题进行清洗, 得到标准化地址; t ③la rd r M n m 7‘ 劝 t茗G 塑, Ad s a ee , 几 6 尹 t 阳 通过应 进的 模 e 昭 n t 办 用先 基于 糊和语 拼写正 音的误 查 清 名 地 以 ④ A i G 咧 及 胭阳助 人 恻心 招 的 毋材 检 来 洗姓 和 址; 及, N s 阳 D , 娇 d 相 e 叻加 ” 万 左,采用基于标准化格式逆向匹配姓名和地址的方法, 对不同地方的姓名和地址标准化, 并 且还提供拼写和语音功能,以找到确切和模糊的匹配。2 洗技术概况 (清      )目 数据清洗的      前, 相关研究主要集中 下几个方面: 在以①数据异常的检侧      数据异常检测是数据清洗研究的一个热点,已      有的研究提出了许多算法,如基于数理统计的 方法、 模式识别的方法、 基于距离的聚类方法1 1 5 等。②重复记录的清洗      消除数据集中的近似重复的记录问题是目      前清洗领域研究较多的内容。为了从数据集中消除重复记录, 首要的问 题是检测重复记录, 其中字符串的匹配问题是检测重复记 录的基础。 近似字符串匹配问题的研究方法很多, 包括基本字符串匹配法、 递归匹配法、si,狱 谭 法 基于 规 编 距离 N份as 离 快 过 法1 mh e t钊 n a 、 动态 划的 辑 法、 ‘ m距 法、 速 滤 9 1 等。消除大型数据集中 相似重复记录方面的策略有很多, 前主要研究成果有基本近邻排序 目 方法、多趟排序近邻方法1和优先队列策略1等。 0 1 ! 1 1③通用可扩展的      清洗过程模型 商业E L      T 工具或多或少提供了一些数据清洗功能,但是都缺乏扩展性。为此,一些研究人员提出了 数据清洗系统的框架, 并且围 绕该框架, 提出了 数据清洗的 模型和语言, 在通用S 语言基础上扩展了新的数据清洗操作。 L Q④针对海量数据集进行增量处理的数据清洗算法      对于海量数据集进行并行、增量处理的研究。目      前己有的研究成果主要集中在数据E 工具上, L T 某些商业E 工具己 L T 经开始利用多进程、 多线程、 流水、多处理器等技术一 4 ― 沈阳航空工业学院硕士学位论文来进行数据的并行集成与 清洗, 并提供数据的增量复制功能气 1目      前国内对于数据清洗技术的研究还不是很多,相关的书籍介绍也比 较少,只能在一些学术期刊及学术会议上见到一些理论性文章, 但直接针对数据清洗, 特别是中文数 据清洗的论文并不多。大多是在数据仓库、决策支持、数据挖掘的研究中,对其做一些较简单的阐述。I J本文工作 如何进行清洗脏数据,      提高数据质量,减少后续应用的复杂度, 满足决策分析对数据的特定要求, 提高决策分析的效率, 一直以 来都是研究的热点问 本文的主要工作 题。包括:首先,描述了两种数据质量问题的分类方法及相应的解决方法。      一是从单数据源或多数据源、 模式级别或实例级别两个方面的 对数据质量问 题进行分类, 该分类方法需要为每一种类型的脏数据编写单独的清洗算法。 二是从数据清洗算法设计者的角度将脏数据划分为 “ 独立型脏数据”、“ 依赖型脏数据” 两类, 该分类方 法主要关注不同 类型的脏数据在检测和解决方法上存在的差异。其次,在描述了      清洗的基本定义及清洗环节的基础上,给出了 E L层的数据清洗 T 模型及在元数据库中 存储清洗规则的描述, 并针对己知和未知的 错误类型, 以及语义上的错误,提出一种自 动清洗和人为清洗相混合的数据清洗策略。第三,由于地址类信息在数据仓库中出现的频率较高,      且对重复记录的检测及分析 处理起着非常重要的作用。 但地址信息中省、市、区信息常常出现某些缺失, 用传统方 法检测有一定困难, 主要体现在重复记录的位置分离较远、 增加了算法的复杂度及执行 时间三个方面, 文中提出的基于特征字符的分词方案可以 将中文地址类信息按逻辑意义分为省、 市、区、 街及数字五组信息。分词操作的 基本思想是: 首先创建基于省、市、 区标准信息的元数据库, 在此基础上, 应用基于元数据内 容进行匹配的 方法将地址类信息按逻辑意义分为省、市、区、街及数字五组信息。 第四,      介绍了检测重复记录的基本方法, 并针对中文地址类重复信息提出了基于分 词的检测方法。 在清洗地址类信息过程中首先在数据预处理阶段引入了脏数据的清洗过程,即利用元数据库的清洗规则清洗脏字段; 其次在分词的基础上对分词后不同级别的一 5一 沈阳航空工业学院硕士学位论文地址字段采用不同的方法计算其字段相似度,即对省、 市、区字段应用字符精确匹配方 法,而街及数字字段采用编辑距离算法; 然后根据字段缺失程度对省、 市、区字段进行 权值的调整,并结合有效权值计算出记录的相似度后, 利用优先队列算法对重复信息进行了聚类操作;最后给出了实验结果。一6一 沈阳航空工业学院硕士学位论文第 2 数据质量问愚及解决方案 章随着数据仓库技术的深入应用,数据质量问题己经成为关系到数据仓库建设成败和      决策支持系统 ( S 能否提供正确决策的关键问 Ds ) 题。 对于组织机构的决策而言,正所 谓“ 垃圾进垃圾出 ( G )” I G O ― 如果作为决策支持依据的数据仓库中存放的基础数据质量达不到要求, 将直接导致联机分析和数据挖掘不能产生理想的结果, 甚至会产生 错误的分析结果,从而误导决策。由于      数据仓库频繁地从源数据中转换和加载, 不可避免地存在很多异常。 有统计资料表明,数据错误大约占到总数据量的 5 %,因此数据质量问 题是制约数据仓库应用的 “ 瓶颈” 之一1 1 3 。1 数据质量概述 1数 质 (a ui Q 表示 据能 致 满 用 需 程 1。 体而     D Qa D ) 数 够一 地 足 户 求的 度1 具 据 量 t l , v t ) 2言, Q 定义为这样一个过程: 逻辑一 D 可以 以 致的 顺序安排诸如名字、 地址、 峨 1 E 以地址、 1电话号码和零件代码等信息,清洗和增强数据,组合有关记录以避免重复数据项等。 事实上,不同的应用场景对数据质量有各自      不同的观点。对于一个邮件列表的管理 员来说, 数据质量同 姓名和地址有关, 数据质量意味着清晰的、 准确的且不存在二义性 及不重复的邮件传送地址。对于数据清洗工具销售商来说数据质量同姓名和地址有关, 他们的工具是否能够规范化地校验和匹配客户记录; 对于程序员来说数据质量是将他们 接受的应用数据经过合适编辑放到表格或窗口中; 对于数据管理员 ( B ) D A 来说数据质 量是当数据库的引用完整性或大量数据装载过程失败时他们应该做什么;对应用工程 师、 设计师和项目 经理来说, 数据质量被认为是如何减少对他们的应用系统造成失败的数据: 对于一个数据挖掘和决策支持系统的使用者而言, 数据质量意味着准确、 无重复 且符合许多 特定要求的数据。由 此,我们可以 得到这样一个结论:不存在一个固定的、一成不变的关于数据质量的定义, 除了准确性这样的基本要求之外, 数据质量更多地取决于数据的使用者如何使用数据, 即实际数据集和使用者对目 标数据集的期望之间是否存在距离。一7一 沈阳航空工业学院硕士学位论文目      前对数据质量的定义还没有一个统一的认识,许多学者倾向于把数据质量视为信息系统中 数据视图与实际数据的一致性测度1。 2 1 从适用性的角度看, 1 数据质量是一个相对的概念 ( 与决策的上下文有关) 。因为就同一个数据而言,对不同的决策者有不同的价值。对于无关的数据,即使质量再高, 对决策也根本不起作用。例如:一个医院的病人基本信息通常包括病人姓名、 年龄、 地址等内容, 但如果想对某种疾病考察易发生在 哪个年龄段中, 那么年龄信息的数据质量就很重要, 而其它信息的数据质量相对来说作用就不大。 在多用户的数据仓库环境中,由于不同的决策者对数据的要求不一样,如何保证数据的适用性,难度将更大。. 2 数据质量评价指标 2 数据质量主要评价指标包括以      下几个方面: 数据的 准确性 (C r ) 完备性 A a 、 U C yC p e ) 简洁性 Cns ) 用性 pl i 。 用户使用数 角度, ( m l s、 。 e t n (o i 及适 ( i l 从 i n c o A c t b ) a y 据的 还包 可 性 (e v i ) 增 性 ( ua e) 可解 性 ( 呷ra y 和可 括 信 B e l 、 值 ved d、 释 I e i ) 访 ib t la i y l a d m ll b t问 A以i )2 性( 绍 i 1 O sl 1 b 1 y t i .1 ( 准确性      ) 数据的准确性就是要求数据中的      噪声尽可能要少。 对于数据中 偏离常规、 分散的小样本数据,一般可视为噪声或异常,因此判断噪声的存在可用聚类的方法,即用一定的闽值为 标准, 聚类后覆盖实例数目 较少的知识( ) 可能就来源于噪声数据。 规则 ,2 (完备性      )数据仓库的大数据量不等于数据是完备的。完备性体现在属性的取值没有空值及数      据挖掘所需的数据是否全面两个方面。 数据仓库的完整性为选择数据挖掘所需的必要数据奠定了基础,同时,挖掘数据的完整性,也是扩大归纳知识适用范围的必要条件。3 (简洁性      ) 简洁性就是要尽量选择重要的本质属性,并消除冗余。      大数据量并不一定能 保证发现模式的质量。 在进行决策时,决策者往往抓住反映问题的主要因素, 而不是把问题的细节都搞得很清楚。 在数据挖掘时,特征的个数越多,产生噪声的机会越大。因此,选择较小的典型特征集,不仅符合决策者的心理,而且容易挖掘到简洁有效的知识。 4 (适用性      )一8一 沈阳航空工业学院硕士学位论文适用性是评价数据质量的重要标准。      建立数据仓库的目 的是进行O A 和数据挖掘, L P 支持决策分析,而现实世界中, 却难以得到完美的数据。 获得完全满意的数据, 不仅不可能,而且也不必要。问题的关键在于数据的质量能否满足决策的需要。 尽管在前面己 经强调了数据的准确性、完整性和简洁性, 但归根结底是为了数据的实际效用。 从这个意义上讲,适用性标准应该是评价数据质量的核心准则。 . 2 数据质量问题的分类 3. 基于数据源的 21 1 脏数据分类通常,      源数据中 错误的、 一致的 有用的 不 或没 数据称为 数据1。由 数 脏 1 1 2 于 据仓库的数据来自 于底层的数据源, 因此脏数据的根源与数据源密切相关。 如图2 所示, . 1 对于数据源引 起的原始数据质量问 可以 题, 从两个方面进行分析1: 2 1 一是单数据源和多 ) 数据源,即是单个数据源本身的错误, 还是多个数据源之间的不一致造成的错误; 二是模式级和 实例级。 模式级的问 题也反应在实例中, 但它们可以通过对模式设计、 模式转换和模式合并的改进来解决。 实例级问题涉及的是实际数据中出现的错误和矛盾,而这些矛盾在模式级是不可见的。 另外,多数据源中除了自 身问题, 对单数据源所涉及的问 题同样也会发生。所有这些都是数据清洗的主要焦点。单数据源模式层多数据源 实例层模式层实例层缺少唯一性属性依救 完整性约束拼写错误 记录重复 属性值冲突命名冲突 结构冲 突值的不同表示重 复记录   …            …图2 基于数据源的脏数据分类                          . 1                  i . 七 c 1 ao f i d妞h此 o dt F 2 1 e ”5 c i od y a a d . a 口0四r记吧 咨1 l 五t . d a1 ( 单数据源问 ) 题一个数据源的数据质量主要取决于它的模式对数据完整性约束的控制程度。因为数      据模式和完整性约束控制了数据的范围, 如果一个数据源没有数据模式, 就会对进入和一,一 沈阳航空工业学院硕士学位论文存储的数据缺乏相应的限制,此时出现数据错误和不一致的概率将大大提高。实例级的问题则是由于在模式级无法防止的错误和矛盾引起的。典型的实例相关的     问题包括:①空缺值:指一些记录在某些属性上没有值;     ②拼写错误:通常在数据录入时容易发生;      ③内嵌数据:通常是一个具有自由格式的字段包含了多个数据;     ④属性依赖冲突:不满足属性间的依赖关系,      如城市名与邮政编码不满足对应关系等;⑥相似重复记录:      指由于数据输入错误等原因导致有多条记录表示现实世界中的同一个实体。 对于不同范围的数据质量问题,相应的数据清洗方法也会有所不同。清楚的了解 目      标数据存在的质量问题是提供完善的数据清洗基础。2 ( 多数据源问      题 )在单数据源情况下出现的问题在多数据源情况下变得更加严重。在每个数据源中都     有可能包含脏数据, 而且每个数据源中的数据表示方法都各自 不同, 还可能出现数据重叠或者矛盾冲突。 因为在很多情况下, 各个数据源都是为了满足某一个 特定的需要而单 独设计、 配置和维护, 这在很大程度上导致了数据库管理系统、 数据模型、 模式设计和 实际数据的异构性。 多数据源中存在的模式相关的质量问题主要是名字冲突和结构冲突。名字冲突表现      在同一个名字表示不同的对象或不同的名字表示同一个对象; 结构冲突的典型表现是不同的源中同一对象用不同的方式来表示。 除了模式相关的质量问题外,许多质量问题只出现在实例层次上:单数据源中所出     现的各种问题都将以不同方式出 现在不同的数据源中, 如重复记录、矛盾记录等。即使 在具有相同属性名称和数据类型的情况下, 各异构数据源中的数据也可能有不同的表示方式或者不同的解释; 在不同的数据源中信息的聚集程度,以及代表的时间点都有可能不同。. 基于清洗方式的脏数据分类 22 . 3基于数据源的脏数据分类方法需要为每一种类型的脏数据编写单独的清洗算法。本     一 1 一 0 沈阳航空工业学院硕士学位论文文 鉴了 献 借 文 阁的 想 数 清 算 设 者 角 脏数 划分 “ 立 脏 思 从 据 洗 法 计 的 度将 据 为 独 型 数据”、 “ 依赖型脏数据”两类, 这种分类主要关注不同类型的脏数据在检测和解决方法 上存在的差异,如图2 所示。 . 2均值替换 专家经验 统计分析字段匹配 编辑距离 排序近邻图2 基于清洗方式的脏数据分类                              2 .               a 别 d . l 5 肠 Z T 亡 “ 1 to od dt卜 比 o t . 雌即P 鱿七 醉. h d 5 i fi . 爪a . r y t a e 1 ,独立型脏数据指通过记录或属性本身就可以检测出其中是否包含脏数据,      并且不需 要参考其它的记录或属性就能予以解决。 它包括单数据源和多数据源所有模式层的数据 质量问题,以及实例层大部分的数据质量问 题,例如:缩写词、输入错误、 拼写变化、 不同的计量单位及过时的编码等。依赖型脏数据指通过记录本身的信息并不能检测出      其中是否包含脏数据, 如重复信息、汇总错误;或者即使可以检测出但需要参考其它记录才能予以 解决, 如缺损数据。. 2 独立型脏数据清洗 4由于独立型脏数据的检测与解决只需要处理单条记录或属性, 可以      所以 利用较通用 的方法来处理。 使用 “ 数据合法性检验规则”来核查字段实际内容, 如果属性值不满足 这些规则就被视作脏数据, 此时就调用已定义的相关 “ 清洗规则”将其更正, 从而保证数据的合法性和有效性。1 (合法性检验      )合法性检验是判断数据是否符合给定标准的过程,      判断标准则是用户根据业务需要 定义的一些核查规则, 包括: ①数据格式:主要检查记录的某个字段或字段组中的数据是否符合规范格式,主要是针对模式层的脏数据; ②范围检验:检查记录的字段中数据一 砂一 , .一  ̄. . .. , . .. . .一 1 一                                            沈阳航空工业学院硕士学位论文是否在预期的范围之内,常用于数字和有效值检验;③枚举清单:是对照某个己定义的清单来检验字段的值;以 ④相关检验:需要利用 “ 及, 主码与外键关系” 来实现1 3 1 0 1 合法性检验是一个非常耗时但必不可少的过程,      所以该过程应高度自 动化, 清洗应 用程序需要内置许多检验函数和过程,以减少用户定制数据有效性检验规则的工作量。2 ( 数据转换      》 数据转换是将脏数据进行更正的过程,      包括模式转换和实例转换。 模式转换用来解决模式层脏数据问题, 用于协调数据模式之间的差异。 实现此功能需要在元数据库中定义表字段简单映射规则、 字段拆分规则、字段值合并规则等实现数据的清洗。 实例转换是根据源字段的实际内容并结合一定的领域知识来解决缩写词、输入错      误、内 嵌控制信息、 不同的计量单位及过时的 编码等实例层脏数据问 题。. 2 依赖型脏数据清洗 5 依赖型脏数据通常包括重复信息、      汇总错误及缺损数据等。 由于需要综合考虑与其 它记录间的关联, 依赖型脏数据的处理很难有通用的方法, 通常针对特定类型的脏数据来设计特定的清洗算法。Q 缺损数据      ) 缺损数据包括数据空      值和异常数据两种情况。 ①空值:空      值是数据清洗经常遇到的问 一般空值分为 题。 两种: 一是缺失值, 二是空值。 缺失值指值实际存在, 但没有存入值所属字段。 如成年人都有身份证,如果某个成年人身份证号属性值为空, 就属于缺失 空值是指因实际并不存在而空的值, 值; 如未成年人没有身份证, 因此他们的身份证号属性为空。 对空值的处理方法1有: 3 1 忽略元组、通过属性 之间的 赖关 测属性遗失 专 验值 即 输入一个 接受的 ) 依 系预 值、 家经 ( 人工 可以 值,以及可用平均值、中间值、 最大值、 最小值或更为复杂的概率统计函数值 ( 例如:可以 用回归、 基于推导的使用贝叶斯形式化方法的工具或判定树归纳确定) 代替缺失值, 但准确性比较低。②异常:      对于数据中的 异常 ( ui ) 用统计分析的 O l 可以 te s r 方法识别可能的 错误值或异常值。 例如: 计算某个字段的平均值、 标准差。 取值范围、 、 空值出现的数量和频率、最大值、 最小值等。 根据这些统计值和相关的启发式规则可以 发现数据中的异常。 位于一1 一 2 沈阳航空工业学院硕士学位论文字段置信区间 之外的 数据值, 认为是异常值。 还可以 使用数据挖掘技术发现数据中的 异常。解决方法可以使用简单规则库 ( 常识性规则,业务特定规则等)检测和修正错误、使用不同属性间的约束检测和修正错误,以 及使用外部数据检测和修正错误。2 (相似重复记录      ) 相似重复记录是指一个现实实体在数据集合中用多      个不完 全相同的 记录来表示。 重 复元组检测的方法很多,目 前主要研究成果有基本近邻排序方法、 多趟排序 近邻方法1 0 1 】 和优先队 策略1等。 1 1 其中消除重复记录的基本方法是匹配与 合并, 匹配算法的核心是字段匹配。本文第五章将详细介绍。. 2 小结 ‘随着数据仓库的      深入应用, 数据质量问 题己 经成为 关系到数据仓库建设 成败和决策支持系统能否提供正确决策的关键问题。本章描述了      数据质量的 理论基础,包括数据质量的 基本概念及其含义; 评价数据质 量指标的 个主要方面 ( 4 数据的准确性、 完备性、 简洁性及适用性) 及脏数据的分类 ,以等问题。 从数据清洗算法设计者的角度将脏数据划分为 “ 独立型脏数据,、“ 依赖型脏数据” 两类, 这种分类主要关注不同 类型的脏数据在检测和解决方法上存在的 差异; 并给出了解决两类脏数据的相应的解决方法。一 1 一 3 沈阳航空工业学院硕士学位论文第 3 数据清洗方案 章3 数据清洗定义 1 .数      t o n 技术是改 据质 有效方法。 献[将数 据清洗仍a e s a a ) l s n 进数 量的 文 4 ] 据清洗问 题叫做 “ 脏数据”的处理。文献11 指出 4 1中 数据清洗是在数据中消除 错误和不一致,并解决对象识别问 题的过程。 数据清洗是较新的 研究领域, 对大数据集的清洗是很费时的工 作,清洗过程计算量较大,很难用传统的算法操作。 目      前,数据清洗还没有公认的定义,不同的应用领域对其有不同的解释。 数据清洗 主要应用于三个领域:数据仓库 ( W) D 、数据库中的知识发现 (D ) K D 和数据暗 息质量 理( 管 吸坦M 间 )。在数据仓库领域中,当多个数据源进入数据仓库前应使用数据清洗。例如表示相同     实体的 记录具有不同 的表示格式, 产生了 从而 重复元组。 对重复元组检测和清除即可称之为 碗 净问 1, 称为 合并 题 1也 记录实 识 5 例辨 或对象 辨识问 因 在数据仓 题。 此, 库领域,数据清洗定义为清除错误和不一致数据的过程, 并需要解决元组重复问 题。当然, 数据 清洗并不是简单的用优质数据更新记录,它还涉及数据的分解与重组。在数据库的知识发现过程中,      数据清洗是第一个步骤, 即对数据进行预处理的过程。 各种不同的 D 和 w系统都是针对特定的 KD D 应用领域进行数据清洗的。 1 中, 文献1 ] 6 信息的模式被用于发现 “ 垃圾模式”, 即没有意义的或错误的模式, 这属于数据清洗的一种。 数据质量管理是一个学术界和商业界都感兴趣的领域。全面数据质量管理解决整个      信息业务过程中的数据质量及集成问 在该领域中, 题。 没有直接定义数据清洗过程。 有 些文章从数据质量的角度, 把数据清洗过程和数据生命周期集成在一起, 在数据生命周期中, 数据的获取和使用周期包括一系列活动: 评估、 分析、 调整、 丢弃数据。 因此数据清洗过程被定义为一个评价数据正确性并改善其质量的过程。数据的正确性是由      准确性、 及时性、 完整性和一致性l个方面定义的。 l ’ 4 因此数据清洗过程就是评价数据的正确性并提高数据的质量。一1 一 4 沈阳航空工业学院硕士学位论文. 3 数据清洗环节 2数据仓库环境中,数据在准备装入数据仓库前, 可从三个环节进行数据清洗,从而提高并保证 数据质量 问,如图 . 3 所示。 1图1    数据清洗环节 1R仑 . D 妞 c J I a 触阴, t . 1 玉 业 m这三个环节分别是①应用环境层:在数据来源即应用程序环境中进行数据清洗;     ②E 层: L T 当数据离开 应用程序进入整合转换层时进行数据清洗: 及, 以 ③数据仓库层:在数据装入数据仓库后进行数据清洗。本论文中主要讨论在集成转换层的清洗。. 应用环境层清洗 31 . 2由于D      W中需要集成多个数据源的数据,包括关系数据库和非关系数据库等, ’ 这些 数据源本身的正确性和质量会影响D W中的数据质量。显然,入口处的数据越清洁,数 据的质量就越高。 乍看起来, 保障数据质量的最佳环节应该在应用程序层, 但应用程序可能会随用户需求的 改变而改变, 从而导 致数据清洗的 过程繁琐化。 另外, 应用环境中的数据要在E L T 平台上进行整合,因此数据清洗在数据集成转换层进行显然要比 在应用 环境层进行要高效、简单得多。1 2T 层数据清洗 . L 2E 1 L ( T 相关概念      E )定义 1 E 。 T 数 抽 ( 耐 、 换T n r 装 ( d 过 是      L E 即 据 取 x ) 转 (af 、 载 La 的 程, . 3: T L E t rsm o ) o)构建D w的重要环节[ l 气用户从数据源抽取出所需数据,经过数据清洗,      最终按照预先定义好的 W模型, D将数据加载到D W中。 数据源可以 是不同网 络环境、 操作平台 不同 下的不同 B S D M 和不同应用。定义 2 数 抽 口a xa)      据 取 t E rt 是数 接口 包括原 据接口 1: a t c。 据源 , 始数 和外部 接 数据.. .. ,, .月 .. . . . . . .一 !                                           卜 沈阳航空工业学院硕士学位论文口,源数据接口 从业务系统中抽取数据,为D W输入数据。定义 3数据转 归a T n r)转换 多      . 3: 换 t r s m。 来自 个业务 数据源数 处 a af o 系统 据的 理过程,用以 保证数据按要求装入D W。定义 4      装 (a La 。 责 据按 . 3 :数据 载 D a d 负 将数 照物理数据 to ) 模型定 表结 义的 构装入DW o在文 1 将数 取、 据转换 数据加 纳为     中 据抽 数 献【 ] 9 及 载归 数据准备 部分。 据准备部 数分指不同的操作型系统和外部数据源的数据经过修改和转换后, 以适合查询和分析的格式存储, 成为数据仓库的数据准备部分, 也称数据预处理阶段。 对于数据仓库的数据准 备来说必须存在一个独立的数据准备阶段, 因为数据仓库中的数据是面向主题的, 且来 自 多个操作型系统数据源的数据。2 T ( E 层数据清洗      )L E 层清洗是指当      L T 数据离开应用程序进入EL T 平台时进行数据清洗,即在集成转换 过程中完成数据清洗工作。在D 应用中, w 所涉及的 T 过程较多 文献【 指出,一般 EL ( 1 ] 7的 数据仓库系统中 E 中 , T 所涉及的 换往 在8个以 ) 因 E 过 L 转 往 0 上 , 此在 T 程中实 数据 L 现的清洗并保证其正确性是一项富有挑战性的工作。 E L 数据清洗模型将在3 关于 T 层的 3节中介绍。由于各分散的业务系统在描述同一个对象时,相同数据可能有不同的类型、格式和      计量单位, 在对它们进行统一的过程中, 应消除这些差异, 对其进行完整性检查,并核对数据的有效性, 防止将数据源的错误数据带入数据仓库中。 以 在系统方案中 应采用数据转换和数据清洗相结合的方法保证数据的统一性。 其中数据转换主要负责对所有数据单位及空值的检查, 对不同单位的 将其转换为统一的单位值, 对数据空值的按规则改变 为空值或零值; 而数据清洗则负责检查某一特定字段的 有效值, 需要通过范围 检查、 枚举清单、相关检验等来完成。. 3 )数据仓库层清洗 2当数据装入数据仓库后,这就是解决数据质量问题的第三个环节,数据仓库中的数      据质量。 随着数据仓库的持久使用和操作, 可能会出现下列两种情况, 其一是不同系统管理员对数据仓库的维护可能存在矛盾的情形; 其次是新集成来的数据可能与原有数据之间存在某些差异。 因此, 在数据已 经装入数据仓库后仍需要对其不断进行整合, 而在一 1 一 6 沈阳航空工业学院硕士学位论文持续的整合过程中必然会涉及数据清洗问题,以继续提高数据质量,为决策提供可靠的支持。数据仓库中的数据并不是持续不变的。例如,某银行1 8      9 年之前的资金计量单位是本地货币, 但到了1 8 资金计量单 9 年, 位变成了 欧元, 如果希望对1 5 9 年到1 8 9 年进行现金分析的话, 这是非常困难的, 因为数据的潜在意义已 经不同了。因此, 就算数据质 量在其它地方己 经完善了,由于数据年龄问 在数据进入数据仓库后仍须再次进行数 题,据清洗。. 3 基于E L的清洗模型 3 T 数据仓库中,      数据清洗是指将数据从业务环境向数据仓库系统转移时,数据内容和结构的变化整合。 数据的抽取、 转换、 (T ) 装入 E 是建立数据仓库系统的 L 重要环节之一,在一 数 仓库 中 约 o 的 作量 花费 T阶 1 EL 序的 运 难免 个 据 项目 , s 工 都 EL 段 。 T程 频繁 行 会 k 3产生大量的脏数据, 而脏数据在进入数据仓库前必须得到清洗。 然而, 数据清洗不是E L T 中一个单独的步骤,需要与数据抽取、数据转换集成、及数据载入统一使用。在E 层中的数据清洗方式通常可以      L T 使用数据库作为唯一的 控制点。多 种数据源的所有原始数据大部分未作修改就被载入到E 层,因而无论数据源是关系数据库还是非 L T关系型数据集合, 数据都将被置于数据库表中,以 便在数据库内 作进一步地转换, T EL中的数据清洗模型如图3 所示。 2图 . E L 数据清洗模型                          3 T 中的 2                        i F 2 D td a的 。 恤E L 醉. a c 飞m 创 . l T 如果数据源是一个功能比较强的D MS B ,如图3 中的数据源1 2 . 和数据源2 ,则可以在数据 抽取过 使 Q 来完 程中 用s L 成一部分的 数据清洗工 但是 作。 有一些数 源不提供这种 据能力, 3 中的外部文件, 如图 . 2 只能直接将数据从数据源抽取出来, 然后在数据转换的时 候进行清洗。因而, 数据仓库中的数据清洗主要还是在数据转换的时候进行。 使用数据一 1 一 7 沈阳航空工业学院硕士学位论文库E 处理方式中的 B 的转换清洗能力完成大部分的工作, 孔 D MS 这样数据清洗就充分利 用D MS B 提供的功能。1 数据清洗步骤 4通常,      数据清洗涉及如下几个阶段【 , 气 1 ( 分析 “      ) 脏数据” 为确定要清除哪种错误或不一致情况,即脏数据。一个详尽的数据分析是不可缺少     的。 除了手动的检查数据或数据样本外, 还需要使用分析程序来获得关于数据属性的描述,从而发现数据质量问题。通常,模式中反映的元数据可能信息不全,也可能没有及时更新,不能反映数据的     目 前现状。 因此, 通过分析具体实例来获得有关数据属性和不寻常模式的元数据就变得 很重要。 这些元数据可以帮助发现数据质量问 此外, 题。 这些元数据对于发现属性间的依赖关系也是很有效的,根据依赖关系才能实现数据转换的自 动化。2 ( 定义转换工作流和匹配原则      )根据数据源的个数、数据源中数据不一致程度和 “      脏数据”的数量,需要执行大量 的数据转换和清洗步骤。 有时, 甚至需要进行模式转换来把数据源转换到一个标准的模式。 对于数据仓库来说, 通常是转换成关系模式。 数据清洗流程中,首先可以纠正独立 型脏数据, 其次解决依赖型脏数据。另外, 要尽可能地为模式相关的数据清洗和转换指定一种公用的语言,从而有可能自动生成转化代码。3 ( 评估和验证工作流      ) 根据转换工作流的正确性和效率,      应该进行验证和评估。 例如, 先在数据源的样本上进行测试,必要时对工作流进行改进。在真正的数据清洗过程中,往往需要多次的迭代,进行分析、设计和验证步骤,直至得到满意的数据转换工作流。4 ( 执行转换工作流      ) 在数据源上执行预      先定义好的并且己 经得到验证的 转换工作流。需要执行一系列的转换步骤,以解决不同的数据质量问题。应为各种转换做好准备, 这些准备步骤一般包括:①从自由格式的属性字段中抽取值 (      属性分离) 。自由格式的属性 ( 如地址) 一般包含很多信息,这些信息有时需要细化成多个属性, 从而进一步支持后面的清除重复元组一1 一 3 沈阳航空工业学院硕士学位论文的清洗步骤。②确认和改正。处理输入和拼写错误,并尽可能地使其自      动化。基于字典查询的拼写检查, 对于发现拼写错误是很有用的。 此外, 有关地理名字和邮政编码的词典可以帮助改正地址类数据。 ③规范化。为了使实例匹配和合并变得更方便,      应该把属性值转换成一致的和统一的格式。. 3 清洗中的元数据 5元数据是关于数据的数据,      它描述了 数据的结构、内容、 码以 及索引等项内容。传 统0J D 中的数据字典是一种元数据1, 1P B 划 但在D W中, 元数据的内容比传统D 中的数 B据字典 更丰富、 杂 。 更复 1 元数据在数据清 程中 极其重 作 元数据内 6 洗过 起着 要的 用。 容除了满足数据仓库的要求外, 还保存数据清洗过程及有关参数。由于数据清洗是整合在 E 过程中的,因此清洗过程的元数据主要包括以下一些描述信息: L Tl ( 原始数据与目      ) 标数据的 描述在数据仓库中      对经常使用的 数据源需要建档, 信息直接存入元数据库中, 若有新建或不想使用的数据源,则可直接对元数据库执行增加、 删除及修改操作。 存储数据源的元数据模式如表3 所示。 1 数据源的存储模式通常包括用于确定数据源的标识符、 数据源 名称、描述、首次创建时间及安全级别等。表3 存储数据源信息的元数据模式                            l .1 卜3                                    油 .. M ead t d efr O red t l t s amo o .u c a.列名是否主键 字段类型 标识符 砚, C a4 h( r) 名称 N o 确代h ( ) r 0 a5 描述 N o V C 盯 2, 改 加 (5) Da n 姆 I . ’ e 创建时间 N o 安全 N o 物y 加说明 数据库的标识符,唯一确定一个数据源 数据源名称 数据源的描述 首次注册时间安全级别另外,对每个数据源还应为其表及表中的字段分别设置两个存储模式。其中,表的      存储模式中通常包括用于确定数据源的标识符、 表的标识符、 表的名称、 引入时间、 更新时间、字段个数等信息;而表中字段存储模式通常包括用于确定数据源的标识符、确定表的标识符、 列标识符, 列名称、 创建时间、 最近更新时间、 字段类型、 字段长度等。 数据仓库中      数据结构和数据源的结构信息很相似, 按上述方法创建目 可以 的数据表。一 1 一                                            , 沈阳航空工业学院硕士学位论文2 (数据转换中的描述      )数据仓库中的数据来自      不同数据源,各数据源和数据仓库间可能存在冲突,如果是模式冲突可以对数据进行重构, 对于语义冲突可以建立元数据来解决。 识别不同数据源 间的等价实体,通常需要建立三个层次的等价实体关系表l。包括①数据库级索引表; q l②表级等价实体对照表;以 ③字段级等价实体对照表。 及, ) 3 (数据清洗规则的描述     数据清洗规则的描述应包括记录数据质量问题的元数据、针对不同的质量问题而定     义的清洗规则,即所采用的处理方法的描述及清洗过程中 所需参数的描述。 ①记录数据质量问      题的元数据内容如表3 所示。表中未列出 2 所有的数据质量问 题,用户可根据2 节描述的脏数据分类问题并结合实际清洗过程归纳相应的数据质量问题。 3表3 记录脏数据的元数据                              . 2 a J Tb . Md dtf d y a                              2 a a o i d妞 a rd分类独立型问题 非法值脏数据 基数 最大、最小空值说明用0 代表性别, 、1 若值为 则非 2 法 最大、 最小不应该超过值域某列值为N L UL 依赖型 属性值十 初始值 缺失值时用初始值填补 重复记录 代表同一实体 同一记录输入两次 缺失值②清洗规则的描述都应放入元数据库中,以便调度执行或跟踪和修改。      清洗规则的 定义形式如表3 所示。 . 3 在清洗过程中, 用户预先定义一些清洗规则, 可由 随着清洗的进行, 还可将新的数据清洗规则写入 “ 元数据库”中, 便于以 后遇到同 题时实现自 类问 动清洗。 表3 记录清洗规则的元数据模式                              J1 h J Mea aa d fr l 川1 r1                                抽J 砚 d mo o c a . . t e c 仑 翻列名 错误类型 判断条件 记录集名字段名是否主键 N o N o 、. 乞介.字段类型 说明例如字段缺失,重复记录等 C a(0 错误类型, h 2) rC 州5) h 0 C 喊1) 抽 0 C 喊1 抽 0 ) C 喊1 坛 0 ) Ca 1 h 0 ( r )清洗策略 N o 函数名 N O判断错误类型的条件, 例如,若字段为空则表示缺失 需要清洗的记录集合的名称 需要清洗的字段的名称 清洗策略,例如:人工处理、忽略或自 动转换等 由程序员预先定义的自 动处理脏数据的函数名称③清洗过程中所需参数的描述, 包括数值型属性清洗中的参数、 重复记录清洗中的一 2 0 一 沈阳航空工业学院硕士学位论文参数等。 重复记录清洗过程通常包括要检测的记录集名称、 字段名称、 所检测字段相应 的权值、 记录匹配阐值及所选择的匹配算法等。 重复记录清洗的元数据模式如表3 所示。 . 4表3 清洗重复记录的元数据模式                              4 .1 b34 M以皿d 亡                          eo 油 .. 。。mo ft l n1业 u l ae c r e d o c a , d Di tdr d c . c列名是否主键 字段类型 说 明 记录集名 晚, C 抽喊1) 需要清洗的记录集合的名称 0 字段名 y. 七 C 喊1 址 0 需要清洗的字段的名称 ) 权值 N o C州1 h 0 所选属性对应的权值 ) 闭值 N o C a l) 超出阴值即为重复记录 h 0 ( r 函数名 N o C a l) 选择相应的算法 h 0 ( r1 数据清洗策略 ‘. 数据清洗的一般策略 31 . 6 按照数据清洗的实现方式与范围,      数据清洗一般包括四 种策略:①手工清洗方式:人工直接修改脏数据; ②自 动清洗方式: 通过编写专门的 应用程序检测、改正错误; ③特定应用领域的清洗: 如根据概率统计学原理查找数值异常的记录, 然后进行修正;以及, 特定 ④与 应用领域无关的 数据清洗: 主要集中 于重复 录的 测、 阁 数 记 检 删除 。 据装载的不同环节其清洗任务不同, 应为其选择不同的清洗策略。 本文提出的混合清洗策略主要适应于在数据集成转换环节的脏数据清洗。 . 混合的数据清洗策略 32 . 6自      动清洗方式能解决某些特定的问题,适合数据量大时使用。但同时也存在清洗过程不够灵活、 反复的清洗过程导致清洗程序复杂,以 及清洗过程变化时工作量很大等缺 点。 更为重要的是, 可能存在某些潜在的错误类型在自 动清洗过程中不能被发现和纠正,此时必然需要人为的参与。综合上述两种策略的优点, 在集成转换层将两种清洗策略相结合进行混合数据清洗将达到良 好的效果。 混合清洗的 流程如图 3 1 所示。一 2 一                                           1 沈阳航空工业学院硕士学位论文脏数据检测脏 数据清洗质量评估「元数据库制定   清洗规则结果数据男规则归档用户确认 卜-争1 错误定义EI L过程图3 T 过程的数据清洗策略    E L J肠色 J D ac 叨. g t时创 e 抽 E L J 时 l 抽 s e r 6 , T) l 合 (混 清洗 的 理      策略 原混合清洗策略主      要以自 动清洗为主,以 人为清洗扩展自 动清洗。 W的数据初装 在D阶段和增量数据追加阶段, 可以通过编写固定的应用程序来实现批量数据的自 动清洗。 但清洗模式并不能反映语义上的正确性校正问题, 也不能完全涵盖所有的错误类型, 因此,当 无法按照已 有模式来识别某些错误类型, 或者对于某些语义上不统一的数据, 其修正工作就需要人工的监督和确认。 此时, 系统可设定异常报警功能, 通过用户自 身对错误的识别、理解和确认,最终实现数据清洗。2 数据库的 (元      更新 》图3 中实线表示数据流,      3 虚线表示各子过程执行时需要利用的元数据流。 元数据是 指在D W建设过程中 所产生的有关数据源定义、目 标定义、 清洗规则等相关的关键数据。 数据自 动清洗过程中元数据发挥着重要的作用, 并贯穿整个清洗过程, 即清洗脏数据要 按元数据库中提供的清洗规则进行。 随清洗过程的反复执行, 还可将新的数据清洗规则写入 “ 元数据库”中, 便于以 后遇到同 类问 题时实 现自 动清洗。 清洗规则的定义形式在 . 3 节中 5 进行了 描述。 3 动清洗过程 (自      ) 数据自      动清洗过程包括脏数据检测、 脏数据清洗及质量评价等三个步骤。 脏数据检 测用来发现各种脏数据, 它是数据清洗中 有挑战性的工作, 最富 要求正确、 全面和高效地找出各种类型脏数据。 脏数据检测可以使用多种方法,如数理统计的方法、模式识别 的方法、 基于距离的聚类方法和基于元数据的检测方法等。 脏数据清洗过程将根据脏数据检测的结果来解决相应的脏数据问 题,通常通过数据元素化、标准化、校验、匹配、 对象识别、 档案化等步骤实现。 对于自 动清洗过程不能解决的问题, 则尽可能提供完善一 2 一 沈阳航空工业学院硕士学位论文的预警功能, 则交由人为清洗过程来解决。 数据质量评价可以按数据质量评估准则进行 实施,即利用它对清洗后的数据进行评分, 通常可按照完备性、正确性、一致性和可理 解性1 2 1 喀几个指标进行分项计分, 然后用加权平均法计算总分。 若最后得分超过某一阀值,则可以认为数据清洗工作已经满足数据质量的要求。4 ( 人为清洗过程      )人为清洗过程通常包括异常报警、用户确认、错误定义、用户清洗和规则归档五个     步骤。 异常报警由自 动清洗程序完成;用户确认则是在异常报警后, 通过报警程序与用 户的交互, 由用户确认非常规的脏数据类型或某些语义上的错误; 错误定义是指用户在确认某种新的错误类型后, 对比较典型的脏数据类型进行定义, 并为其制订相应的清洗规则; 最后, 把新产生的清洗规则由规则归档程序写入元数据库中, 便于以 后遇到同类 问 题时, 能够实现自 动清洗。 而对于某些非常罕见的, 且今后不可能出现的脏数据类型, 或者某些特殊的语义错误, 不必生成新的清洗规则, 可以 而直接由用户进行修正后写入D W中。 1 7小结数据清洗是保证数据质量的必要手段, 前仍属于较新的研究领域。 W环境下,      目 在D 数据清洗可以在不同阶段实现, 而且存在不同的清洗策略, 其中, 在数据集成转换层实现数据清洗最为高效。 本章在给出 E L过程中 T 数据清洗模型及在元数据库中存储的清洗规则的描述基础上,针对己知和未知的错误类型,以及语义上的错误, 提出了自 动清洗和人为清洗相混合的数据清洗策略。 文中论述的数据清洗模型和关键技术在某特种设 备检验机构的D W环境中得到了 较好的应用, 取得了满意的效果。一 2 一 3 沈阳航空工业学院硕士学位论文第 4 中文地址类信息的分词方法 章在数据仓库中相似重复记录的识别与消除是数据清洗的一个关键问      题,其目的是匹 配、合并和清除那些冗余的、客观上映射同一实体但在语义表示上存在差异的记录脚 . j 判断两条记录是否为相同实体, 通常可以 选取诸如姓名、 地址、 身份证号、出生日 期等 有代表性的字段, 将字段进行匹配后, 再由 这些字段组成的记录进行匹配。由于地址类信息在数据仓库中出 现的频率较高, 且对重复记录的 检测及分析处理起着非常重要的作用,因而中文地址类信息的数据清洗在实践中具有非常重要的意义。. 4 分词概述 1通常计算某一字段的相似度应首先进行初步聚类,      将潜在的可能重复的内容调整到 邻近的位置; 其次是通过算法计算字段的相似度。 但由于地址信息字段中省、 市、区信息常常出 现某些缺失, 为检测带来了 一定困 难, 主要体现在以 下两个方面: ( 重复记录的      位置分离较远 ) 1关键字的选取对排序有重要的影响。按关键字排序后,      可能使重复记录的位置分离 较远而不能在一定范围内进行比较。表4 显示了数据库中的3 1 条记录,如果选择.d s dr s e 字段作为关键字排序, 则记录1 和记录3 在排序之后离得非常远, 这是由于记录1 和记录2 的ad s d r 字段内城市名的缺失造成的。 s e1 h 1 玩时                              、. 4 朋沈od p “妞 代cr f u肠 d o 山王月表4 重复                             . 1 记录样例目山份5月王 王月辽宁黄河大街2 号 3 5 辽宁省铁西区小五路 6 号 3辽宁省沈阳市皇姑区黄河北大街 2 号 3 52 ( 增加了      ) 算法的复杂度及执行时间对于字段匹配通常可以      采用基本字段匹配算法、5 b ae a算法、编辑距离算 而t t n 刀/ r m法价等计算字符串的 2 1 相似度。 很显然, 于字段的缺失问 表4 中 条和第3 由 题使 1 第1 条原本重复记录的相似度不会很大,因此严重影响了重复记录的判断。另外,由于记录3 中的地址信息较长,利用匹配算法计算其相似度的时间必然会增加。―4 2一 沈阳航空工业学院硕士学位论文基于上述原因可将中文地址字符串通过自      动分词划分为更小的语义单元,在此基础上再进行处理1 。 1 3 2 例如: “ 辽宁省沈阳市皇姑区 黄河北大街”, 若分词为 “ 辽宁省耽阳市/ 皇姑区/ 黄河北大街”,就可以在更小的词的基础上进行匹配处理。. 4 已有的汉语分词方法 2 汉语自      动分词是中文信息处理领域的一项关键技术,目 经有很多种方法。传统 前已意义上的 词法分析 ( 简称分词) 指从描述记录的 “ , 字符串”中获取单词串 词汇) ( 供后续过程使用, 所以它又可以称为词汇分析。 对类似英语的语言来说,由于存在天然的分隔符, 分词难度不大。 对于中文而言, 则存在分词规范、 分词歧义和未登录词识别等难题。近年来有很多相关的研究成果, 例如北大的汉语切分与标注软件、 清华大学SG E 分词系统、 及杨c s R, r o 丘 r o e 地c h汉语句法分析器中的分词算法等1 1 5 。已 汉语分词 法可以 结为      有的 方 归 三种: 词典 (c n 七 , ) 机 配方 基于 dta .月 的 械匹 ii 刁 o法、基于统计的分词方法和基于统计及词典相结合的方法1. 训1 (基于词典的      机械匹配 ) 算法基于词典的机械匹配算法通常有正向匹配算法、逆向匹配算法及最小匹配算法等,     这些算法的 优点是易于实现, 在对精确率要求不高的系统中已 经得到了 很好的应用。 其缺点在于由于词典是在分词之前准备的, 其规模和内容受到了一定的限制, 所以没有哪个词典是完备的; 语言中常出现新的词语, 所以没有一个词典能够囊括所有领域的词语。虽然可以 通过加入构词规则的方法识别出一些可构造新词, 但是基于词典的这一类算法无法解决文本中 大量出 现的未登录词的问 致使分词的效果在达到一定的 题, 瓶颈之后无法提 这 未 录 不 包 命名 体 人 地名、 织名、 间 数 ) 升. 里的 登 词 仅 括了 实 ( 名、 组 时 词、 词等 ,也包括了新词。2 ( 基于统计的分词方法      ) 基于统计的分词方法通常有 ( a算法、 M 算法、      N 扮m HM 最大嫡算法及基于 M的算法 E等。 统计方法的优点在于它可以从已 有的大量实例中进行归纳总结, 分析语言内在的关 联信息, 将其加入到统计模型中去; 简单的统计方法不需要词典, 而是通过训练语料的 迭代建立统计模型。 对统计的方法来说, 训练语料库的规模严重影响着分词的效果, 训 练集规模小则模型的可信度低, 分词效果差; 而一旦训练集规模大了, 则会引起数据稀一 2 一 5 沈阳航空工业学院硕士学位论文疏的问题,使得分词的效率大大降低。另一方面,不同领域的语料对于统计模型起着决定性的作用。口语语料跟书面语语料, 不同专业领域的语料都在内容上存在着很大的差 异, 拿书面语语料训练出来的统计模型去切分口 语语料, 势必不会得到很好的切分结果。3 (基于统计及词典相结合的方法      )目      前较为成熟的分词算法是将统计的方法及词典的方法进行结合。例如中国科学院 计算技术研究所的汉语词法分析系统IT L 采用的就是多层隐马尔可夫模型。 c CA S 他们对原有隐马尔可夫模型进行了扩展, 将模型分别应用到原子切分、 简单和复杂的未登录词 识别及基于类的隐马尔可夫分词等多个层面上。 但这种分词算法也存在着不足, 其上下 文信息都是从训练语料库中获取,忽略了 切分文本的上下文的反馈信息。 . 4 基于特征字符的分词方法 3由于      数据库中的中文地址类信息其字符串 是结构化的,内容相对简单,因 此只需结合中文地址领域知识构造一个规模较小的, 能够较好的识别领域词汇的小型分词系统就 能满足要求。 考虑到中文地址类信息往往会出现能够区分出省、 市、区信息特殊字符的特点,首先创建基于省、市、区标准信息的元数据库, 在此基础上,应用基于元数据内 容进行匹配的方法将地址类信息按逻辑意义分为省、市、区、街及数字五组信息。. 分词元数据 41 . 3元数据指描述数据的数据,它是基于特征字符分词方法的基础。在地址信息重复记     录识别过程中, 元数据库中存储了分词规则和分词过程中所依据的省、 区标准信息。 市、随时间推移, 用户还可将新的分词规则或新的省、 区信息写入元数据库中, 市、 实现了分词模块的可扩展性。l (分词规则的存储      )所谓特征字符是指能够对省、市、区级别进行区分的      汉字。例如, “ 省”、 “ 治 自区”、“ 市”等。由于地址信息中 可能出 现特征字符的缺失或部分缺失,因 此分词模块根据地址信息中是否含有 “ 省”、 “ 市”、 “ 区”等特征字符将其定义成不同的规则, 并为每个规则编制相应的分词函数, 用于处理不同的情况。 规则的描述信息存储在元数据库中,结构如表4 所示。 2一 汤 一 沈阳航空工业学院硕士学位论文表4    分词规则表 J规则名Rule haZ 吵 吟 呻 碎 ha7 砂 一函数名SPlit SP1iQ SPIiQ SPIit4 SPli6 SPlito SPlit7 SPli¥ 一几b Z Sgl t llt 4 : e l . r ei l u , e说明执行同时含有省、市及区属级别 特征字符的分词操作 执行只含有省属级别而不含有市及区属级别特征字符的分词操作 执行只含有市属级别而不含有省及区属级别特征字符的分词操作 执行只含有区属级别而不含有省及市属级别特征字符的分词操作 执行只含有省及市属级别而不含有区属级别特征字符的分词操作 执行只含有省及区属级别而不含有市属级别特征字符的分词操作 执行只含有市及区属级别而不含有省属级别特征字符的分词操作 执行不含有任何级别特征字符的分词操作表中只列出了      分词中的主要规则,因为特征字符不仅包括 “ 省”、 “ 市”、 “ 区即 等汉字, 还可能出现 “ 治区,、 “ 自 特别行政区”、 “ 盟”、 “ 旗”等,设计者可以根据具体需求制定不同的规则。2 ( 省市区      ) 标准信息的 储 存中文地址类信息中的分词主要应用于地名方面,本文应用了      地址领域中的专业省、市、区信息,其标准信息表的结构在元数据库中的表现形式如下:①p i r n , 恤 6 r 叮 1 m, 州1   v州p 访c 沁 C 叹)p 明“ 恤 e 比 6; rn o e o - ;o - )②d ( j , 恤(; 坟 确. c吠 2 血 叹坦 ‘ 叹      d c 句 d 夕 , 抽 2 : 山 , 加 6 ; 钾d 匀 ) )③ a 一, a6 。 d ‘叹0 血阮e, 6    (e . 曲 r) 肚 j , 抽 3 ; rd 咖吠 ) 此 r d (; a ) s i o根据我国 5 2      0年1 底的 0 2 月 行政区 域划分, r n 表中 记 p 切 C 的 录个数为 , t 的 o e 4 y 3 幼 表中记录个数为3 ,肚 5 4 既表中的记录个数为34。 1 . 分词基本原理 42 1 中文地址信息的显著特点是有能够区分出省、市、区信息的特殊字符,因此可以按      特征字符出现的位置进行省、 市、区信息的截取 ( 例如: 特征字符 “ 和 “ 之间 省” 市”的字符串 就是城市信息) 将截取的省、 区信息与元数据库中的标准信息进行校验, , 市、 从而保证了分词的 准确性。 基于特征字符的分词操作需要对下述情况做特殊处理:( 征字 市” 省 的      “ 在 或区 级别中 有可能出 ( 1 蹄 符 都 现 例如; 北京市 区, 朝阳 此时的特征字符 “ 代表直辖市) 市勿 ,与元数据库中的城市标准信息进行匹配时,若未匹配成功应继续与其它级别的 地址信息进行匹配;2 词过程中 两次 (分      若 截取的字 ) 符相同, 表示省 或市 则 和市 和区的 称 相同 例 名 可能 (一 2 一 7 沈阳航空工业学院硕士学位论文如:吉林省吉林市 , )应为其分配在不同级别的字段中;3 词模 (分 块对于 识别的省、 区 (      ) 不能 市、 信息 例如: 户填写的 客 地址信息是 其工作单 位的 ) 将其 分词后的 “ 字段中 进行 名称 , 存入 街” 再 后续的 段匹配. 字4 .分词算法描述 J 3为了保证相同      类型字符串间的匹配, 地址信息中若有数字或西文信息应先将其分离:然后根据表4 中列出的分词规则将其分割。 2 分词规则中特征字符的缺失或部分缺失是分词操作的一个难点。 采取以下策略: 可以 若省、 市、区相应级别出现特征字符则按特征字符所在位置截取信息并校验, 若未出 现相应级别的 特征字符, 通过截取部分字符 可以与元数据库中标准信息进行模糊匹配, 若匹配成功则返回元数据库中的标准信息, 删除 地址信息中相应长度的字符后再进行下一级别的信息匹配, 从而实现信息的分割。以下是表月 中列出的分词规则所对应的函数算法。 2l (执行同时 有省、 及区      含 , 市 属级别 特征字 分词 符的 操作。 例如: 宁省 市 辽 沈阳 铁西区小五路6号。 3输入a r j     s d e, d s输出 r l d 份 出。      ,仪留 , 改 p vC on e① 量 始 : p 明C ‘ 已 就 d 赋 n    初 化 将 r 口 ,t盯 氏 代 皆 值为 u; 变 oe 酥 u②若a r 不同时含有特征字符 “ 或 “ 或 “      中 de ds 省” 市” 区”及 “ 治区” “ 自 或 市”或“ 区分及或 “ 治区” “ 自 或 盟”或 “ 区”及 “ 特别行政区” ,则转⑨;③截取 “      或 “ 治区” “ 省” 自 或 特别行政区” 之前 ( 包括特征字符)的 字符串 赋给p e c m v o r, 利 数据库中 并 用元 标准省级信息 进行 对其 校验; ④截取 “      或“ 之前 ( 市” 盟” 包括特征 字符) 字符串 c , 利用元数 的 赋给 i 并 y t 据库中标准市级信息对其进行校验;⑤截取 “      或 “ 之前 ( 区” 县即 包括特征字符)的字符串 赋给aa 并利用元数据库 r, e中标准区级信息对其进行校验; ⑥求ad s     s dr 的长度,赋给I ; e n e⑦若I 为。 则转⑨;      , n e⑧将ad s      s d r 的值赋给s。 ,删除ad s e t改 r d r 中相应长度的字符: s e⑨算法结束。     一 2 一 5 沈阳航空工业学院硕士学位论文2 ( 执行只含有省属级别特征字符的地址信息的分词操作。      ) 例如: 辽宁省黄河北大街5 号。 23 在此操作中, 可能出现市属级别信息和区属级别信息相同,因此需要额外判断。 下述步骤⑧和⑨描述了判断和匹配过程。输入ad j     s dr , s e输出 r n d . e t      ,t叮礼s 以 p VC y o e I e r ①变量      初始化: p vC d 盯 氏 r 皆 将 r i ,t e 滋。 赋值为 u on % e 改 u n;②若ad s      s d r 中不含有特征字符 “ e 省”、 “ 治区”及 “ 自 特别行政区”,则转0:③截取 “      或 “ 治区” “ 省” 自 或 特别行政区” 之前 ( 包括特征字 符) 的字符串 赋给p vc 并利用元数据库中 准省级信息 其进行 rl , on e 标 对 校验;④求ad 的长度,赋给l ;     5 d化 n e⑤若I 为0      ,则转0; n e⑥读取a r 中 刀      。 前 个字符 给临 变 用 ; dc d s 赋 时 量招 尹 ⑦将 朋 与 据库中      元数 阳尹 市级信息 模糊匹 若 进行 配, 不成功则 至 转 ⑨;⑧ 即如 c 的 相同 则 元 据 标准 级 赋 c 删除 e    果与 i中 值不 , 取 数 库中 市 信息 给 衍; 咖 r 招 v t s中相应长度的字符,转至④;⑨ 招卿 数     元 据库中 的 模 匹 , 功 取元 据 标 区 信息 将 期与 区 信息 糊 配 若成 则 数 库中 准 级 赋给aa 删除 d s 应长 字符, 转至④; r ; a r 中相 度的 e de s 并⑩将ad s 值赋给s曰,删除ad s 相应长度的      的 dr e t眺 r drs e中 字符, 并转至 ④:0算法结束。     3 (执行只含有市属级别而 含有省 属级别      ) 不 及区 特征字 分词 符的 操作。 例如: 锦 辽宁州市或辽宁新民市新滨街 ( 特征字符 “ 可能为市属级别或者为区属级别) 市” .输入ad s     s drj el输出 r n ,仪肚 氏 t     C d 。 , 改 p ve o i r 。①变 始 将 r n 声tr , e 皆 值为 u      化: p 叨C i a a rt 赋 加 ; 量初 o e y Os t②若目d 中不含有特征字符 “ 及 “     s e r 市” 盟”,则转0;③读取 “      或 “ 之前的字符串 市” 盟” 长度赋给临时变量I ; n e④如 I不大 等于 则 至      于 刀, 转 ⑧; 果 n e ⑤读 d r 中 刀 字 给 变量仑 ;      s 前 个 符赋 临时 才 尹 取a e d s 用一 2 一 9 沈阳航空工业学院硕士学位论文⑥将 尹 数据 省    期 与元 库中 级信息 模糊匹配, 阳 进行 若不成功则 ⑧; 转至⑦读取元数据库中标准省级信息赋给p v ;删除 d活相应长度字符;      rn oc i e d a 代5⑧读 市” 盟”    “ 或 “ 之前 ( 取 包括特征字 符) 字 赋 用 ; 的 符串 给招 尹 ⑨将 期 与 据 市      元数 库中 级信息进行匹配, 招尹 若不成 转至0; 功则⑩ 招 尹 值 给 i 删除 d s 相应 度的 符;    用 的 赋 c , a r 中 长 字 将 y t de0求ad s     s d r 的长度,赋给I ; e n e 0若拒 为0      ,则转0; ”0 取 d 中 刀 字 赋 时 阳      s 前 个 符 给临 变量 尸 读 ar de 即; oe尹 元 据 区 信 模糊匹 若 则 数 库中 准区 信 给     数 库中 的 息 t 与 用 配, 成功 取元 据 标 级 息赋e r 删除 d 中 应 度的 符; a, a s相 长 字 d e r0 dd s 值赋给成。 ,      的 将a r e r 删除a r 中 眺 de 相应长度的 ds 字符;0算法结束。     4 行 (执 含 属 别 不    只 有区 级 而 含有省 市 别 征字 的 词 作。 如: 辽 ) 及 属级 特 符 分 操 例 辽宁中县榆树乡。输入ad s     s d爬 j l输出 i    v 浦尔‘‘ rt o e r c P n 已就 e ① 初 : p ”C i r , r 皆 值为 眠     化 将 r n 沐ta a t t 赋 n 变量 始 o e y es , e u②若a r 中不含有特征字符 “ 及 “ 及 “     s d e ds 区” 县” 旗”, 则转0;③读取 “      区”或 “ 或 “ 之前的字符串长度赋给临时变量I ; 县, 旗” n e④如果l 不大于等于 ,      n e 刀 则转至⑩;⑤读 a r 中 刀 字 赋给 变 招 少      s 前 个 符 临时 量 州 ; 取d d e ⑥将 州 与 数 库中 级 进行 糊匹 若 成 则 至     元 据 省 信息 模 配, 不 功 转 ⑧; 招甲 ⑦读 元数 库中 准 级 赋给 r n , 除 d e相 长 符; 至      据 标 省 信息 p 访 c 删 a rs 应 度字 转 ③: 取 o e ds ⑧将 用 与 数 库中 级 息 模 配 若 成 则 至     元 据 市 信 进行 糊匹 , 不 功 转 ⑩; 阳夕⑨读      据 标准 级信息 d ; a s 相应长 字符; 取元数 库中 市 赋给 t 删除 d 中 y d e r 度的⑩截取 “      或 “ 之前 ( 区” 县” 包括特征字符) 的字符串赋给盯 a 并利用元数据库 e,中标准区级信息对其进行校验; 0求ad s     s dr 的长度,斌给距 ; e 即一 0 3 一 沈阳航空工业学院硕士学位论文0若拒 为0      ,则转0: ”0将ad 的值赋给set     s dr e te r ,删除ad s d r 中相应长度的字符; s e0算法结束。     5 行只含有省及市属 (执      ) 级别而不含 属级 特征字 分 有区 别 符的 词操作。 例如: 省 辽宁沈阳市皇姑黄河北大街2 号或辽宁省新民市新宾街 ( 3 5 此处的特征字符 “ 市”为区属级别,若新民市在元数据库中标准城市信息未匹配成功应继续在区属级别进行匹配) .输入目 r j     s d l s e输出 r n c . s 滋      ,t肚 ,r p ”C i oe 丫 t 曰 ①变 初     化: p 们c c a a “t 赋 为 u; 量 始 将 r n ,tr , 笼皆 值 nl o ei eS , y t l②若ad s      中不同时含有特征字符 “ 或 “ dr e 省” 市”及 “ 治区”或 “ 及 “ 治 自 市” 自区”或 “ 盟”,则转0;③截取 “      或 “ 治区” “ 省” 自 或 特别行政区” 之前 ( 包括特征字符)的字符串赋给p 叨 c,并 rn o e 利用元数据库中 标准省级信息对其进行校验;④ 取“      或 “ 之 ( 特 字 的 符串 给 州 ; 截 市” 盟” 前 包括 征 符) 字 赋 犯 尹 ⑤ 阳 尹 数 库中 级 息 行匹 若 成功 转至     元 据 市 信 进 配, 不 则 ⑦: 将 用与⑥ 阳尹 的 赋 d , 转至    用 中 值 给 钾 并 ⑧; 将 ⑦ 扭 尹 值赋 a 并 元 据 标 级 对 进行 验;     的 给 , 利用 数 库中 准区 信息 其 校 将 用中 e r⑧求ade 的长度,贼给拒 ;     s d rs 刀⑨若I 为0      ,则转0; n e ⑩将ad s      s d r 的值赋给s。 ,删除ad s e t滋 r d r 中相应长度的字符; s e 0算法结束。     6 (执行只      ) 含有省 属级别而不含有市 及区 属级别 字符的 特征 分词操作。 例如: 省 辽宁沈阳铁西区小五路6号。 3输入 d s      d e a rj s !输出 r l d . 鱿e      ,以盯 ,rt p vC on e ① 量 始 将 r n 声t r s 眺 赋 为 ”     化: p 们C i aa r 皆 值 加 ; 变 初 o e y et , , 。②若ad s     s d r 中不同时含有特征字符 “ e 省”或 “ 区”及 “ 省”或 “ 县”及 “ 治区” 自或“ 区”及 “ 治区”或 “ 自 县,及 “ 治区” “ ,则转0; 自 或 旗”一 3 一 1 沈阳航空工业学院硕士学位论文③截取 省” 自    “ 或 “ 治区” 前 ( 特征字 的字 赋给p v e 并利用元 之 包括 符) 符串 on ri , c数据库中标准省级信息对其进行校验; ④读取 “      区”或 “ 县”或 “ 旗”之前的字符串长度赋给临时变量拒 ; 月⑤如果 不大于 刀 则 ⑨;      彻于 等于 , 转至⑥ 取 d 中 刀 字 赋 时 量 用;    a rs 前 个 符 给临 变 阳 尹 读 de s ⑦ 阳夕 元 据库中 级 息 行 糊 配, 不 功 转至    用 与 数 将 市 信 进 模 匹 若 成 则 ⑨; ⑧ 取 数 中 准市 信 赋 c 删除 d 相 度的 符    元 据库 标 级 息 给 i: a r 中 应长 字 : 读 l y de s⑨截取 “      或 “ 或 “ 之前 ( 区” 县” 旗” 包括特征字符) 的字符串 赋给aa r ,并利用 e元数据库中标准区级信息对其进行校验;⑩求ade     s的长度,赋给l ; dr s n e0若拒 为0      ,则转0; 刀0将ad 的值赋给s。 ,删除ad治中相应长度的字符;     s dr s e t滋 r d 八5 0算法结束。     7 (执行只含有市      ) 及区属级别而不含有省属级别特征字符的分词操作. 例如: 奢 辽宁沈阳市铁西区小五路6号。 3输入 d s     s de l ar j输出 r l t “, 喊      d a班s p vc y on , , e r t①    初 化: p 变量 始 将 r e m o则转0;,饥肚a 阁 皆 值 加 ; c es 赋 为 ” i , t②若ad s      中不含有特征字符 “ 或 “ dr e 市” 区”及 “ 市”或 “ 县”及 “ 盟”或 “ , 旗”③ 取 d s 刀 字 赋 临 变量 州 ;      s 前 个 符 给 时 招 笋 读 ar 中 d e④ t 元 据 省 信 进 模 匹 若 成 则 至   m与 数 库中 级 息 行 糊 配, 不 功 转 ⑥

我要回帖

更多关于 功能级访问控制缺失 的文章

 

随机推荐