手大脚插件依赖功能缺失失值45分凭多少级

solidworks | PHP | c4d | 细胞生物学 | HTML | 冬奥会 | 基因 | 营销策划 | 扫地机器人 | 武侠 | 大学生就业 | 电学 | 国航 | 电子技术研发 | 几何学 | 外星人 | 语言学 | 秦时明月之天行九歌 | 金融数学 | 三国人物 | 休学 | 小店区 | 杨紫 | 植保无人机 | CSS | 陶渊明 | 少数民族 | AutoCAD | 3d打印机 | 香港购物 | 日语语法 | 对联 | matlab | 按键精灵 | 粉丝（Fans） | 语言学习 | 总决赛 | 驾驶经验 | Spss数据分析 | 日本漫画 | 数学建模 | 道德 | 项目管理 | 背景音乐（bgm） | 云主机 | 3D Max | onenote | 游戏原画 | 科学 | 网站建设 | 热血传奇（游戏） | 身高 | 网站运营 | 道教 | 社会学 | 迅雷（软件） | 爬虫（计算机网络） | O2O | 运载火箭 | 遗传学 | 率土之滨 | 百度输入法 | 极限挑战(综艺节目) | 电梯 | 女性主义 | Adobe After Effects | mysql | 办公软件 | 法国 | ps3 | 化学实验 | QQ群 | 中国中央电视台 | 前女友 | 性格 | 免费软件 | 分子生物学 | 金庸小说 | 留学生 | Microsoft SQL Server | 龙珠 | 设计院 | C#编程 | 虚拟机 | 字幕 | 微信群 | 创业项目 | 祛痘 | 图形处理器（gpu） | Microsoft Visual Studio | 动物保护 | C/C++ | facebook | 秦岭 | 燕窝 | 人性 | 下载 | 驾驶技术 | 大学数学 | 封神演义 | 整容 | 西装 | 马克思主义哲学 | 计算机专业 | pdf | thinkpad | 代理 | 参考文献 | 江苏大学 | 游戏手柄 | 城市规划 | 黑洞 | 旅行 | CAD制图 | 风水 | 直播 | 快捷键 | 编辑器 | 机器学习 | 暴走大事件 | 球球大作战 | unity（游戏引擎） | 永恒之塔 | DJI大疆创新 | 传统文化 | wordpress | 仙剑奇侠传（游戏） | 国际物流 | 安徽 | 配音 | 猎头公司 | 在线教育 | 欧洲冠军联赛 | ios游戏 | 洛奇英雄传 | 暗恋 | 网盘 | 星座爱情 | 剧场版 | 面相 | 讯飞输入法 | 记忆力 | 超级战队 | stm32 | 亚马逊中国 | Apple ID | 服装设计 | 网络主播 | 品牌营销 | 情侣 | 新加坡 | 调酒 | 雷欧奥特曼 | 花样姐姐 | 物联网 | 任天堂3ds | 易经 | 户型 | 流氓软件 | 圣经 | 进化 | 垃圾分类 | 函数 | 星际穿越（电影） | 山东工艺美术学院 | 优酷视频 | github | 舰队 Collection | 流行音乐 | 进击的巨人 | playstation vita | 科学研究 | 欢乐麻将 | 史莱姆 | 海关 | Internet Explorer | 刑事案件 | 取名 | 江苏银行 | eDonkey网络 | 表情包 | mfc | 大学军训 | 诸葛亮 | Apple WATCH | 嵌入式系统 | 私募证券投资基金 | iOS应用 | 对外经贸大学 | 最强大脑（电视节目） | 青蛙 | 日本代购 | 巧克力 | 天涯明月刀ol（游戏） | 食用油 | 曹操 | SEO | 生命 | 乌贼 | 我的英雄学院 |

你的位置：网站首页 >> 频道首页 >>网络游戏 >>手大脚插件依赖功能缺失失值45分凭多少级

手大脚插件依赖功能缺失失值45分凭多少级

来源：蜘蛛抓取(WebSpider) 时间：2017-03-08 13:57 标签：功能级访问控制缺失

当前位置： >>
ETL过程中的数据清洗技术研究与应用
沈阳航空工业学院硕士学位论文摘要数　　　　据的抽取、转换和装入是创建数据仓库系统的重要环节，它将组织机构内多元分散的数据按照主题统一装载到数据仓库中，能够很好地解决组织机构内部数据一致性与信息集成化问题。然而，Ｔ程序的频繁运行难免会产生ＥＬ大量的 “ 脏数据”，直接导致数据仓库技术由于数据质量而不能产生理想正确的决策分析结果，因此数据在进入数据仓库之前需要进行清洗。数据清洗技术一直是近年来数据仓库领域中的研究热点，其主要任务是从原始数据集中去除不一致的和错误的数据。首先描述了　　　　数据质量的基本概念、评价指标及分类等问题，在此基础上按照数据清洗算法将脏数据划分为 “ 独立型脏数据 ”、 “ 赖型脏数据”两类，并给出了相应的解依决方法。其次描述了清洗的基本定义及清洗环节，定义了Ｔ层的数据清ＥＬ洗模型和在元数据库中存储的清洗规则后，提出了一种自动清洗和人为清洗相混合的数据清洗策略．针对中文地址类信息的数据清洗问　　　　题，提出了基于特征字符的分词方案，并给出了相应的分词算法。该方案将中文地址类信息按逻辑意义分为省、市、区、街及数字五组信息，通过与元数据库中省、市、区的标准信息匹配保证了分词的准确性。针对中文地址类相似重复记录的　　　　处理问题，建立了包含分词规则的元数据库，提出了种相似重复一检测模型，并给出了利用可变权值策略计算中文地址类信息相似度的算法。实验结果表明该方案能有效解决中文地址类重复信息的检测，提高了算法的执行效率及检测精度。关键词：ＥＬＴ；数据清洗；相似重复记录；特征字符：分词：可变权值一１一沈阳航空工业学院硕士学位论文ＡｂｔａｔｓｒｔＴｅｅｒｏｒｆｍｎｏｎ　　　　ｉｔｓｒａｄｌｉＥＴ）ｉｎｉＰｒｓＰｔｏｎｒｃｄａｈｘａ几ａｏｔｃｔｎｄａｇ（Ｌｓａｍｏａｔｏｃｓｔａｔｔｎｅｔｕｔｗｒｏｓｓｅ，ｈｈｄｔｍｌ１ｄＰｒｄａｏｔｏ翻ｚｉｓｏｄｉｏａｈｕｙｍｗｉｍｅｈｕｔｅｉｅｅｄｆｈｒａｏｌｅｎｅｅｓｔｃａｅｉｓｓｔＰｅ８ｔｎａｄｔｄａｒｏｓａｏｉｔｓｅｂｃｓｔｄａｎｓｃａｉｒａｏｉｅｒｉｔａｈａｗｅｕｅｃｒｎｏｍｓｅ，ｈａｃｓｅｙｎｎｍｉｎｇｔｎｃｄｇｏｕｔｏｅｔｏｉｎｄｆｔｎｔａｏｊｔｏｏｏａ泣ｉｏｌｅｅｌｄＨｗｖｍｎｉｙａｍｙｅｐｄｅｉｔｔｆ电ａｏｕｎｔｎｃｄｂｒｏｅ．ｅｅａｒｄｓｖｏ，ｒｙｄｔｔａｂｒｕｄｗｈｈｏｃｅ触ｑｅｌｒｎｏＥＰｇｎｔｃｃａａｓｒｕｓａｎｔｅｂｎｆｍＤｕｎｙｎｉｆ孔ｒｒｌｈｏｔｎｙｓｓｍｙＯｂｏｔｅｒｔｕｎｇｏａ，ｅｒｅｌｉｉｅｔｌａｄｏＷｂａｅｆｈｄａａｙｓｔｄａｅｓｓＰｓｂｎｅｄｅｒｄａｓｏｅｅｓｏｔａｑｌ，ｏｈａｄａｉｔｍｔｅｄｂｅａｉｌｄｃｕｅｔｕｉｔｅｔｎｎｅｕｇｅｅｆｔｏｄａｉｏＷＴｔｈｉｏｄｃｎｎｉａｔｓｉｄａａｈｕｄ姗ｎＷｉｔｔｎＤｅｃｑｈｅｎｕｆａｌｓｇｓｈｉｅｎｅｔｅｉａｏｓｕａ加ｅｓｏｔｒｏｅ，ｃｈｈｈｅｍａｕｎｔｎｉｔ！ｎｅｉｃｎｉｅａｄｅｒｒａａｆｍｔｅｎｔｄａｅｓｉｎｆｃｉｓｏｅ１ａｎｏｓｔ爪ｎｏ而ｔｓｒｄｒｏｔｏｈｉｉａｓｔ．ｉａｔｌＡｅｉｒｃｈａｃｏｃ，ｓｔｔｔｎｃｅｉｏｆａｑｌ，　　　　ｕｉｔｂｉｃｎｓｅｉａｎａｅａｄａｇｒｉｏｄａａｙｔｔｆｎｄｎｅｓｒｏｇｔＰｅｔｉｒｍｎｇｔｏＺｎｔｕｉｔａｔｔｄｄａｓｉｄｄｎｔ０ｅｏｅｉｅｅｅｃｏｅｄｅｎｅｏｅｃｉｈｉａｉｄｉｉｏｗｃｇｒｓｎＰｄｎｎａｄｅｄｎｎａｒｎｅｒｔｙｔｖｅｔｔａｉ，ｄｎｙｎＰｙｃｃｄｇｏｏｈａｃｓｌｒｍｎｈｅｅｍｈｄａｒｅＴｅａｃｏｔｔｔｄａｌｎｎａｏｈａｔｒａｄｅｏｓＰｐｓ．ｈｂｓｃｎＰａｄｅｔｅｉｇｉ，ｄｅＩａｇｔｔｔｅｒｏｄｏｉｃｎｅｔｏｄａｌｎｎａｅｒｅ，ｅａｃａｓｇｅｎＴｒｅｓｆｅ，ｓｓｆａｃａｓｓｄｃｂｄｔｄａ１ｎｎｍｄｉＥＰｃｓｉｅｎｄａｄＰｅｔｅｉｒｓｉｈｔｅｉｏｌＬｏｓｄｉｎｅｔｃａｓｇｒｅｒｉｅｄａａｓｉｓ，ｈｅｅｎｌｔｈｌｉｕｓ时ｎｍｔａｓｎｏ－ｂａｔｅｉｄｃｅｔｎａｍｉｄｃａｓｇｓｄｅｕｏｃｂｎａｌｎｎ比ｔｅｉｔｔｓ８ｍｉｎａｕｍｔｓｓＯｓｓａ纷ｕｎａｏｔａｍｎａｅｄｉｒｏｄｒｅ１ｕａｃｄｔｌｈｏＰＰｅ．ｉｎｔｅｓＡｉａｈｓｆｈｅｄｒｓｎｍｎｌｉｔｅｅｅｏａ　　　　ｔｉｏＣｉｓａｄｓｉｒａｏｃｓ，ｓｍｎｍｈｄｎｍｇｅｕ朋ｅｆｔｏｉｎａｇｅｅｎｈｇｔｔｄａｏｔａｏｆｔｗｒａＰｐｓ，ｗｉｔＣｎｅｄｓｉｒａｏｉｌｒｍｂｓｎａｒｏｄｇｉｈｄｅｅｕｅｅｏｄｎｒｒｅｉｈｃｈｈｅａｒｓｎｍｔｎｓｏｈｅｉｓｄｅｆｉｏｓｍｎｉｏｖｆｌ，ｃａＰｖｃｃ丫ａａｓｅａｎｍｅＭａｉｗｔｔｅｅｎｆｅｅｓｓｈｓｒｉｅｉｒｔｔｎｕｂｇｉｔｉｉｄｕｏｎ，ｔｅｒ．ｅｄｒｔｎｉｈｈｃ８ｈｅｔｄｄｉｍｉｓｎａｎｒａｏｆｈｅａｄｓｉｅｄａａ，ｓｍｎａｒｙｃｂａｒｆｔｎｏＣｉｓｄｒｓｎｍｔａｓｔｅｅｃａａｅｏｎｅｅ－ｂａｔｅｈｇｔｕｃｎｅｎｕｅｅｓｒｄ．ＩｏｅｔｌｉｔＰｒｍｅｕｉｅｒｏｏｈｅｄｒｓｎｍｔ氏　　　　ｅｍｎｅｈａＰｉａｌｄｌａｄｃｄＣｎｓａｄｓｉｒａｏｎｒｒｉａｅｏｔｙｄｏｔｘＰｃｅｒｆｉｅｅｆｉｔｏｅｔｔｅｏｇｈｅｄａｓｓｅｔｕｓｓｂｉｄＡＰｏｍｙｄＰｃｅｅｔｎｔｍａａａｆｅｍｎｒｅｉｅａＩｅ．ａｒｉａ１ｕｌａｄｃｏ－ｂｌｓｓｎＰｔｈｘｔｅｉｄｔｉｔｍｄａｄｃＰｔｉａｏｈｃｏｉｔｔｖｉｌｗｉｓｅａＰｐｓｔｏｅｎａｏｕａｏｌｒｍａｒｎｏｈａａｅｅｈｔｇｒｒｅｌｍｔｎｇｉｔｃｄｇｅｒｂｇｒｙｅｏｄｔａｔｏＴｅｘｅｍｎｒｌｉｉｅｈｔｓｔｅｃｄｅａＰｘａｙｕｌａｒｏｓｈｅＰｒｅｅｔｎｃｔｈｓａｇａｅｉｔｓｓｄａａｉｒｙｎｔｕｔｔｔｔＣＰｉｔｄＰｃｅｅｒｏｒｍｅｌｉｄｃｄｔｏＣｉｓａｄｓｉｒａｏｅｃｌｎｔａｏｈｕｉｅｃｎｙｎｄｅｆｈｅｄｒｓｎｍｉｆｔ又ａｈ】ｒｍｒｎｆｉｃａｅｃｎｅｅｏｆｔｎｅｕｌａｄｅｇｉｔｎｇｉｅｄｔｔＰｉｏｃｂｉＰｖｄｃｅｉｎｒｓｎａｅｍｒｅ ‘ ｏＫｗｒｓＴ；ａｃａｓｇＡＰｍｅｄｌｅｒｏｓｅｒｗｒＳｍｎｙｄＥｅｏ：ＬＤａｌｉ；ｒａｌｕｉｄｒ；ａｅｏｄｅｅ；ｔｅｎＰｏｔｙＰｃｅｄＦｔｎｉｘｔａｃｏ；ｇｔ确ｄｌｗｉｂａｅｅｇｔｈ一ｎ一原创性声明本人郑重声明：　　　　所呈交的学位论文是本人在导师的指导下独立完成的。除文中已经注明引用的内容外，本论文不包含其他个人或集体己经发表或撰写过的作品或成果，也不包含本人为获得其他学位而使用过的成果。对本文研究做出重要贡献的个人或集体均已在论文中进行了说明并表示谢意。本声明的法律后果由本人承担。论文作者签名：和祖月　　日扣７　　年版权授权说明本人授权学校 “ 　　　　有权保留送交学位论文的原件，允许学位论文被查阅和借阅，学校可以公布学位论文的全部或部分内容，可以影印、缩印或其他复制手段保存学位论文 ” ；愿意将本人学位论文电子版提交给研究生部指定授权单位收录和使用。学校必须严格按照授权对论文进行处理，不得超越授权对毕业论文进行任意处置。授权人：年协１处月　　日沈阳航空工业学院硕士学位论文第１绪论章Ｌ数据清洗的意义ｌ随计算机信息化技术的普及和发展，　　　　许多组织机构各部门的日常业务处理都采用了计算机进行管理和运行。纵观信息管理的现状，大多数的组织机构都存在着多个异构系统，其数据的组织和存储结构也各不相同，进而形成了 “ 信息孤岛”、数据的唯一性和实时性难以保证等问信息集成就是针对大量存在的 “ 题。信息孤岛” 现象，解决异构环境中信息的正确性及实现信息的高效共享和交换的重要手段，而数据仓库技术正是解决信息集成的有效方法１１。数据仓库概念提出始于２世纪年代初期。　　　　００９著名的数据仓库专家．ｏ在其著ＷＨＩｎｎｌ作《ｕｄｔＤ，ｒｏｓ一给出如描数据库是个面主、Ｂｉｈａ／ｅｕ》书中了下述：仓一向题的ｌｇｉｎｅｔａｈｅ集成的、相对稳定的、反映历史变化的据集用于数合，支持管策．主题的理决１面向］２数据仓库不但为有效地支持组织机构经营管理决策提供了全局一致的数据环境，也为历史数据、综合数据的处理提供了一种行之有效的解决办法，并最终为各级决策管理者提供及时、准确、科学、有效地辅助决策依据。数据的　　　　转装入Ｅ时ＴｎｒＬａＥ）创建数仓库系重要抽取、换、（ｔｘｒｓｍＯｄＴ是ａｆｏ，Ｌ据统的环节，它能够很好地解决组织机构内部的数据一致性与信息集成化问它从所有异构题，系统中采集数据，并对其进行高效的转换。在一个数据仓库项目中，０的工作量都约８ｋｒＯ花费Ｅ阶．Ｔ程序的运行会产生大量的 “ 数据”，拼写在Ｔ段闭ＥＬＬ频繁难免脏如错误、重复信息、缺损数据等。有统计资料表明，数据错误大约占到总数据量的５左右，因％此数据质量问题是制约数据仓库应用的 “ 瓶颈” ３之一１１。如果数据质量达不到要求，将直接导致数据仓库技术不能产生理想的结果，甚至会产生错误的分析结果，从而误导决策。因此数据在进入数据仓库前必须进行清洗。数据清洗技术ｔｅｓｇ　　　　归ａａ朗ｉ）研究ａｎ的一直是近年来研究的热点问它能进数题，够改据质量，被广泛运用于决策支持系统和数据仓库系统中，其主要任务是从原始数据集中去除不一致的和错误的数据１前，己１４．目有一些用于数据清洗的Ｔ工具提供了ＥＬ功能强大的软件平台，利用它们可以从各种数据源中对数据进行抽取、转换后加载到数据仓库一１一沈阳航空工业学院硕士学位论文中。然而由一些著名厂商开发的通用Ｅ工具在具体实际应用中也有其不尽人意的地ＬＴ方，主要体现在两个方面：一是用固定不变的转换步骤对数据自动清洗显得力不从心；二是Ｅ的主要目ＬＴ标是为ＯＡ提供服务，却缺少姓名、地址等信息的清洗。虽然，目ＬＰ前己续出经陆现了一些针对姓名和地址类信息的清洗工具，但大多数是针对西文的数据清洗，很少涉及中文地址类信息。众所周知，地址类信息在数据仓库中出现的频率较高，并对于重复记录的　　　　检测及分析处理起着非常重要的作用，因此中文地址类信息的数据清洗在实践中具有非常重要的意义。基于上述两点考虑，本论文主要研究基于Ｅ平台的数据清洗策略及中文地址类ＬＴ信息的数据清洗。Ｌ数据清洗研究现状ＺＬＩＴ与数据清洗．Ｌ２Ｅ数据清洗通常认为是数据仓库（Ｗ）　　　　Ｄ、数据库中的知识发现（Ｄ）和数据月息ＫＤ言质量理（Ｑ）个领数备段的骤一．整的准阶一管ＴＭ三域的据准阶步之１完数据备段，Ｄ４般需要两种类型的工具：其一是换工具，转其二是清洗工具．是既别，有，１两者有区又功能交叉。转换工具也就是常说的ＥＬ　　　　Ｔ工具，主要功能包括数据的抽取、转换和数据装入，但它缺少姓名、地址等信息的清洗、也缺少模糊匹配和合并的功能，它的主要目标是为Ｏ妙提供服务。数据清洗工具可以满足一些特别的需求，很多清洗产品都专注于姓名Ｌ和地址等，它的核心工作是净化和匹配，但不提供数据抽取、装载及更新等功能，而且针对中文地址类信息的清洗并不多。因此，Ｔ过程中引在ＥＬ入数据清洗技术是必然的趋势。此方案可以互补两者的功能缺陷，发挥各自的优势功能，只有提高了数据质量，才能为决策者提供可信又可靠的数据依据。现在市场上有许多工具支持数据转化和清洗任务，尤其是对于数据仓库应用方面。　　　　ＥＬＴ工具通常提供广泛的覆盖大部分数据转换和清洗过程的转换和工作流功能。有一些工具的功能集中在一些特殊的领域，如清洗姓名和地址数据；而另一些工具专著于特定的清洗阶段，如数据分析和重复删除。由于这些工具应用于特殊的领域，因此它们的效果都不错，但是必须辅助于其它领域工具来完成数据转换和清洗。一２一沈阳航空工业学院硕士学位论文Ｌ２Ｔ．２ＥＬ工具的比较至今为止，数据仓库在国内的实用化己　　　　走过了近十年的历程，应用领域遍及通信、证券、银行、税务、保险等行随着Ｄ广泛业。ｗ的应用，Ｔ工具渐成６几个主ＥＬ也日熟１１。要数据库厂商的Ｅ工具的简单比较如下：ＬＴ（班Ｍ　　　　Ｖｕ、汕ｏｓ９１公司的 ” 甲ｕ．）ｓｒ ’ ．ｉＢ公司的和Ｍｒｏｓ优点数据泛，数据量的ＩＭ　　　　场目厄ｅｕｎ的是源广对大ｈｉｇ抽取汇总具有速度优势；提供编程和调接口用外部程序的功能，按计划自动执行数据抽取；提供Ａｅｇｔｎ把数据抽取分布到工作站、小型机、大型机等各种平台，但界面不够友好，在处理复杂的数据源时面临较多的工作量。（ｏｌ　　　　２ｒｅ）ａ公司的ｒｅ代ｏｓＢｕｏｃｏｃｗａｈｕｕｄｒａｌｅ０ｌ　　　　汉ｅ公司的ｏａｅ厄ｅｏｓＢｌ的优点是提供模型构造和设计、ｒｌＶｒｕｕｄｃｈｅｉｅｒ数据提取、移动和装载、元数据管理、分析工具的整合及数据仓库管理功能。具有开放延伸的框架，但不能把数据抽取扩充到Ｕｘ川工作站等，且流程繁琐，不易使用。３ｉｓ公司的ＤＳ（Ｍｒｔ　　　　ｆ》ｃｏｏＴ入“ 即公司的Ｔ的优点是能够从广泛的数据源中抽取数据，提供市场上最有效　　　　ｆ。ｎＤＳ的编程方式，以及工作流的任务处理方式；提供调用外部程序的功能和强大、丰富的被外部程序调用的对象库；按计划自动执行数据抽取．（Ｉｒａ公司的川ｎａｓ，　　　　ｘ４ｎｎ）ｆｏ．ＡｅｔｔａＤａｔＩｎ公司沁ｄａｓｅ优点提工流的式，实部程，　　　　的ｅＤａ唱的是供作方可以现内编ｏｆｘｎａｉｎｔ切但数据抽取功能简单，程序高效性及准确性的保证措施少。５（以、ｔｕ公Ｉ比ｍ　　　　ｎｍ司的ｆｕｐ）ｉｎｏｃＰ加司ＩｂＰ优点是取度快，工流的作式，户　　　　公的ｎｒｍ的Ａａｍｌｉｔｏｆｕ抽速较非作工方但用面临过大工作量，程序高效性及准确性的保证措施少。Ｌ３．２数据清洗概况尽管目　　　　前数据仓库、数据库中的知识发现、数据／信息质量管理等在理论和应用上都获得了极大的发展，但数据清洗作为极其重要的、必不可少的组成部分，针对这方面的研究并不多，将有关数据清洗工具及技术的研究现状概述如下：ｌ（清洗工具概况　　　　）一３一沈阳航空工业学院硕士学位论文随着客户关系管理的重要性日　　　　渐突出，地址信息的质量也越来越受到关注。名字和地址数据的清洗是数据清洗技术在特定领域的典型应用。用于纠正、标准化、提高 “ 姓名和地质量的具，ｒＵｍｓ介ａｓｓｍ升功称相，具址” 工有‘ ｉｉｏｗｒｙ，护ｕ户ｒ该工主要由叨Ｔｕｅｔｅｍｅ解析器，配器匹组成的 ②Ｍｃ“ｋ，响距 “ 通过扩展；ａ川ａｒ乃动乙，ｔｅ通用的词，缩写纠正普通的错拼和识别地址复本来对地址型数据错误问题进行清洗，得到标准化地址；ｔ ③ｌａｒｄｒＭｎｍ７‘ 劝ｔ茗Ｇ塑，Ａｄｓａｅｅ，几６尹ｔ阳通过应进的模ｅ昭ｎｔ办用先基于糊和语拼写正音的误查清名地以 ④ ＡｉＧ咧及胭阳助人恻心招的毋材检来洗姓和址；及，Ｎｓ阳Ｄ，娇ｄ相ｅ叻加 ” 万左，采用基于标准化格式逆向匹配姓名和地址的方法，对不同地方的姓名和地址标准化，并且还提供拼写和语音功能，以找到确切和模糊的匹配。２洗技术概况（清　　　　）目数据清洗的　　　　前，相关研究主要集中下几个方面：在以①数据异常的检侧　　　　数据异常检测是数据清洗研究的一个热点，已　　　　有的研究提出了许多算法，如基于数理统计的方法、模式识别的方法、基于距离的聚类方法１１５等。②重复记录的清洗　　　　消除数据集中的近似重复的记录问题是目　　　　前清洗领域研究较多的内容。为了从数据集中消除重复记录，首要的问题是检测重复记录，其中字符串的匹配问题是检测重复记录的基础。近似字符串匹配问题的研究方法很多，包括基本字符串匹配法、递归匹配法、ｓｉ，狱谭法基于规编距离Ｎ份ａｓ离快过法１ｍｈｅｔ钊ｎａ、动态划的辑法、 ‘ ｍ距法、速滤９１等。消除大型数据集中相似重复记录方面的策略有很多，前主要研究成果有基本近邻排序目方法、多趟排序近邻方法１和优先队列策略１等。０１！１１③通用可扩展的　　　　清洗过程模型商业ＥＬ　　　　Ｔ工具或多或少提供了一些数据清洗功能，但是都缺乏扩展性。为此，一些研究人员提出了数据清洗系统的框架，并且围绕该框架，提出了数据清洗的模型和语言，在通用Ｓ语言基础上扩展了新的数据清洗操作。ＬＱ④针对海量数据集进行增量处理的数据清洗算法　　　　对于海量数据集进行并行、增量处理的研究。目　　　　前己有的研究成果主要集中在数据Ｅ工具上，ＬＴ某些商业Ｅ工具己ＬＴ经开始利用多进程、多线程、流水、多处理器等技术一４ ―沈阳航空工业学院硕士学位论文来进行数据的并行集成与清洗，并提供数据的增量复制功能气１目　　　　前国内对于数据清洗技术的研究还不是很多，相关的书籍介绍也比较少，只能在一些学术期刊及学术会议上见到一些理论性文章，但直接针对数据清洗，特别是中文数据清洗的论文并不多。大多是在数据仓库、决策支持、数据挖掘的研究中，对其做一些较简单的阐述。ＩＪ本文工作如何进行清洗脏数据，　　　　提高数据质量，减少后续应用的复杂度，满足决策分析对数据的特定要求，提高决策分析的效率，一直以来都是研究的热点问本文的主要工作题。包括：首先，描述了两种数据质量问题的分类方法及相应的解决方法。　　　　一是从单数据源或多数据源、模式级别或实例级别两个方面的对数据质量问题进行分类，该分类方法需要为每一种类型的脏数据编写单独的清洗算法。二是从数据清洗算法设计者的角度将脏数据划分为 “ 独立型脏数据”、“ 依赖型脏数据” 两类，该分类方法主要关注不同类型的脏数据在检测和解决方法上存在的差异。其次，在描述了　　　　清洗的基本定义及清洗环节的基础上，给出了ＥＬ层的数据清洗Ｔ模型及在元数据库中存储清洗规则的描述，并针对己知和未知的错误类型，以及语义上的错误，提出一种自动清洗和人为清洗相混合的数据清洗策略。第三，由于地址类信息在数据仓库中出现的频率较高，　　　　且对重复记录的检测及分析处理起着非常重要的作用。但地址信息中省、市、区信息常常出现某些缺失，用传统方法检测有一定困难，主要体现在重复记录的位置分离较远、增加了算法的复杂度及执行时间三个方面，文中提出的基于特征字符的分词方案可以将中文地址类信息按逻辑意义分为省、市、区、街及数字五组信息。分词操作的基本思想是：首先创建基于省、市、区标准信息的元数据库，在此基础上，应用基于元数据内容进行匹配的方法将地址类信息按逻辑意义分为省、市、区、街及数字五组信息。第四，　　　　介绍了检测重复记录的基本方法，并针对中文地址类重复信息提出了基于分词的检测方法。在清洗地址类信息过程中首先在数据预处理阶段引入了脏数据的清洗过程，即利用元数据库的清洗规则清洗脏字段；其次在分词的基础上对分词后不同级别的一５一沈阳航空工业学院硕士学位论文地址字段采用不同的方法计算其字段相似度，即对省、市、区字段应用字符精确匹配方法，而街及数字字段采用编辑距离算法；然后根据字段缺失程度对省、市、区字段进行权值的调整，并结合有效权值计算出记录的相似度后，利用优先队列算法对重复信息进行了聚类操作；最后给出了实验结果。一６一沈阳航空工业学院硕士学位论文第２数据质量问愚及解决方案章随着数据仓库技术的深入应用，数据质量问题己经成为关系到数据仓库建设成败和　　　　决策支持系统（Ｓ能否提供正确决策的关键问Ｄｓ）题。对于组织机构的决策而言，正所谓“ 垃圾进垃圾出（Ｇ）” ＩＧＯ ― 如果作为决策支持依据的数据仓库中存放的基础数据质量达不到要求，将直接导致联机分析和数据挖掘不能产生理想的结果，甚至会产生错误的分析结果，从而误导决策。由于　　　　数据仓库频繁地从源数据中转换和加载，不可避免地存在很多异常。有统计资料表明，数据错误大约占到总数据量的５％，因此数据质量问题是制约数据仓库应用的 “ 瓶颈” 之一１１３。１数据质量概述１数质（ａｕｉＱ表示据能致满用需程１。体而　　　　ＤＱａＤ）数够一地足户求的度１具据量ｔｌ，ｖｔ）２言，Ｑ定义为这样一个过程：逻辑一Ｄ可以以致的顺序安排诸如名字、地址、峨１Ｅ以地址、１电话号码和零件代码等信息，清洗和增强数据，组合有关记录以避免重复数据项等。事实上，不同的应用场景对数据质量有各自　　　　不同的观点。对于一个邮件列表的管理员来说，数据质量同姓名和地址有关，数据质量意味着清晰的、准确的且不存在二义性及不重复的邮件传送地址。对于数据清洗工具销售商来说数据质量同姓名和地址有关，他们的工具是否能够规范化地校验和匹配客户记录；对于程序员来说数据质量是将他们接受的应用数据经过合适编辑放到表格或窗口中；对于数据管理员（Ｂ）ＤＡ来说数据质量是当数据库的引用完整性或大量数据装载过程失败时他们应该做什么；对应用工程师、设计师和项目经理来说，数据质量被认为是如何减少对他们的应用系统造成失败的数据：对于一个数据挖掘和决策支持系统的使用者而言，数据质量意味着准确、无重复且符合许多特定要求的数据。由此，我们可以得到这样一个结论：不存在一个固定的、一成不变的关于数据质量的定义，除了准确性这样的基本要求之外，数据质量更多地取决于数据的使用者如何使用数据，即实际数据集和使用者对目标数据集的期望之间是否存在距离。一７一沈阳航空工业学院硕士学位论文目　　　　前对数据质量的定义还没有一个统一的认识，许多学者倾向于把数据质量视为信息系统中数据视图与实际数据的一致性测度１。２１从适用性的角度看，１数据质量是一个相对的概念（与决策的上下文有关）。因为就同一个数据而言，对不同的决策者有不同的价值。对于无关的数据，即使质量再高，对决策也根本不起作用。例如：一个医院的病人基本信息通常包括病人姓名、年龄、地址等内容，但如果想对某种疾病考察易发生在哪个年龄段中，那么年龄信息的数据质量就很重要，而其它信息的数据质量相对来说作用就不大。在多用户的数据仓库环境中，由于不同的决策者对数据的要求不一样，如何保证数据的适用性，难度将更大。．２数据质量评价指标２数据质量主要评价指标包括以　　　　下几个方面：数据的准确性（Ｃｒ）完备性Ａａ、ＵＣｙＣｐｅ）简洁性Ｃｎｓ）用性ｐｌｉ。用户使用数角度，（ｍｌｓ、。ｅｔｎ（ｏｉ及适（ｉｌ从ｉｎｃｏＡｃｔｂ）ａｙ据的还包可性（ｅｖｉ）增性（ｕａｅ）可解性（呷ｒａｙ和可括信Ｂｅｌ、值ｖｅｄｄ、释Ｉｅｉ）访ｉｂｔｌａｉｙｌａｄｍｌｌｂｔ问Ａ以ｉ）２性（绍ｉ１Ｏｓｌ１ｂ１ｙｔｉ．１（准确性　　　　）数据的准确性就是要求数据中的　　　　噪声尽可能要少。对于数据中偏离常规、分散的小样本数据，一般可视为噪声或异常，因此判断噪声的存在可用聚类的方法，即用一定的闽值为标准，聚类后覆盖实例数目较少的知识（）可能就来源于噪声数据。规则，２（完备性　　　　）数据仓库的大数据量不等于数据是完备的。完备性体现在属性的取值没有空值及数　　　　据挖掘所需的数据是否全面两个方面。数据仓库的完整性为选择数据挖掘所需的必要数据奠定了基础，同时，挖掘数据的完整性，也是扩大归纳知识适用范围的必要条件。３（简洁性　　　　）简洁性就是要尽量选择重要的本质属性，并消除冗余。　　　　大数据量并不一定能保证发现模式的质量。在进行决策时，决策者往往抓住反映问题的主要因素，而不是把问题的细节都搞得很清楚。在数据挖掘时，特征的个数越多，产生噪声的机会越大。因此，选择较小的典型特征集，不仅符合决策者的心理，而且容易挖掘到简洁有效的知识。４（适用性　　　　）一８一沈阳航空工业学院硕士学位论文适用性是评价数据质量的重要标准。　　　　建立数据仓库的目的是进行ＯＡ和数据挖掘，ＬＰ支持决策分析，而现实世界中，却难以得到完美的数据。获得完全满意的数据，不仅不可能，而且也不必要。问题的关键在于数据的质量能否满足决策的需要。尽管在前面己经强调了数据的准确性、完整性和简洁性，但归根结底是为了数据的实际效用。从这个意义上讲，适用性标准应该是评价数据质量的核心准则。．２数据质量问题的分类３．基于数据源的２１１脏数据分类通常，　　　　源数据中错误的、一致的有用的不或没数据称为数据１。由数脏１１２于据仓库的数据来自于底层的数据源，因此脏数据的根源与数据源密切相关。如图２所示，．１对于数据源引起的原始数据质量问可以题，从两个方面进行分析１：２１一是单数据源和多）数据源，即是单个数据源本身的错误，还是多个数据源之间的不一致造成的错误；二是模式级和实例级。模式级的问题也反应在实例中，但它们可以通过对模式设计、模式转换和模式合并的改进来解决。实例级问题涉及的是实际数据中出现的错误和矛盾，而这些矛盾在模式级是不可见的。另外，多数据源中除了自身问题，对单数据源所涉及的问题同样也会发生。所有这些都是数据清洗的主要焦点。单数据源模式层多数据源实例层模式层实例层缺少唯一性属性依救完整性约束拼写错误记录重复属性值冲突命名冲突结构冲突值的不同表示重复记录　　… 　　　　　　　　　　 …图２基于数据源的脏数据分类　　　　　　　　　　　　　　　　　　　　　　　　．１　　　　　　　　　　　　　　　　ｉ．七ｃ１ａｏｆｉｄ妞ｈ此ｏｄｔＦ２１ｅ ”５ｃｉｏｄｙａａｄ．ａ口０四ｒ记吧咨１ｌ五ｔ．ｄａ１（单数据源问）题一个数据源的数据质量主要取决于它的模式对数据完整性约束的控制程度。因为数　　　　据模式和完整性约束控制了数据的范围，如果一个数据源没有数据模式，就会对进入和一，一沈阳航空工业学院硕士学位论文存储的数据缺乏相应的限制，此时出现数据错误和不一致的概率将大大提高。实例级的问题则是由于在模式级无法防止的错误和矛盾引起的。典型的实例相关的　　　　问题包括：①空缺值：指一些记录在某些属性上没有值；　　　　②拼写错误：通常在数据录入时容易发生；　　　　 ③内嵌数据：通常是一个具有自由格式的字段包含了多个数据；　　　　④属性依赖冲突：不满足属性间的依赖关系，　　　　如城市名与邮政编码不满足对应关系等；⑥相似重复记录：　　　　指由于数据输入错误等原因导致有多条记录表示现实世界中的同一个实体。对于不同范围的数据质量问题，相应的数据清洗方法也会有所不同。清楚的了解目　　　　标数据存在的质量问题是提供完善的数据清洗基础。２（多数据源问　　　　题）在单数据源情况下出现的问题在多数据源情况下变得更加严重。在每个数据源中都　　　　有可能包含脏数据，而且每个数据源中的数据表示方法都各自不同，还可能出现数据重叠或者矛盾冲突。因为在很多情况下，各个数据源都是为了满足某一个特定的需要而单独设计、配置和维护，这在很大程度上导致了数据库管理系统、数据模型、模式设计和实际数据的异构性。多数据源中存在的模式相关的质量问题主要是名字冲突和结构冲突。名字冲突表现　　　　在同一个名字表示不同的对象或不同的名字表示同一个对象；结构冲突的典型表现是不同的源中同一对象用不同的方式来表示。除了模式相关的质量问题外，许多质量问题只出现在实例层次上：单数据源中所出　　　　现的各种问题都将以不同方式出现在不同的数据源中，如重复记录、矛盾记录等。即使在具有相同属性名称和数据类型的情况下，各异构数据源中的数据也可能有不同的表示方式或者不同的解释；在不同的数据源中信息的聚集程度，以及代表的时间点都有可能不同。．基于清洗方式的脏数据分类２２．３基于数据源的脏数据分类方法需要为每一种类型的脏数据编写单独的清洗算法。本　　　　一１一０沈阳航空工业学院硕士学位论文文鉴了献借文阁的想数清算设者角脏数划分 “ 立脏思从据洗法计的度将据为独型数据”、 “ 依赖型脏数据”两类，这种分类主要关注不同类型的脏数据在检测和解决方法上存在的差异，如图２所示。．２均值替换专家经验统计分析字段匹配编辑距离排序近邻图２基于清洗方式的脏数据分类　　　　　　　　　　　　　　　　　　　　　　　　　　　　２．　　　　　　　　　　　　　　ａ别ｄ．ｌ５肠ＺＴ亡 “ １ｔｏｏｄｄｔ卜比ｏｔ．雌即Ｐ鱿七醉．ｈｄ５ｉｆｉ．爪ａ．ｒｙｔａｅ１，独立型脏数据指通过记录或属性本身就可以检测出其中是否包含脏数据，　　　　并且不需要参考其它的记录或属性就能予以解决。它包括单数据源和多数据源所有模式层的数据质量问题，以及实例层大部分的数据质量问题，例如：缩写词、输入错误、拼写变化、不同的计量单位及过时的编码等。依赖型脏数据指通过记录本身的信息并不能检测出　　　　其中是否包含脏数据，如重复信息、汇总错误；或者即使可以检测出但需要参考其它记录才能予以解决，如缺损数据。．２独立型脏数据清洗４由于独立型脏数据的检测与解决只需要处理单条记录或属性，可以　　　　所以利用较通用的方法来处理。使用 “ 数据合法性检验规则”来核查字段实际内容，如果属性值不满足这些规则就被视作脏数据，此时就调用已定义的相关 “ 清洗规则”将其更正，从而保证数据的合法性和有效性。１（合法性检验　　　　）合法性检验是判断数据是否符合给定标准的过程，　　　　判断标准则是用户根据业务需要定义的一些核查规则，包括： ①数据格式：主要检查记录的某个字段或字段组中的数据是否符合规范格式，主要是针对模式层的脏数据； ②范围检验：检查记录的字段中数据一砂一，．一￣．．．．，．．．．．一１一　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　沈阳航空工业学院硕士学位论文是否在预期的范围之内，常用于数字和有效值检验；③枚举清单：是对照某个己定义的清单来检验字段的值；以 ④相关检验：需要利用 “ 及，主码与外键关系” 来实现１３１０１合法性检验是一个非常耗时但必不可少的过程，　　　　所以该过程应高度自动化，清洗应用程序需要内置许多检验函数和过程，以减少用户定制数据有效性检验规则的工作量。２（数据转换　　　　》数据转换是将脏数据进行更正的过程，　　　　包括模式转换和实例转换。模式转换用来解决模式层脏数据问题，用于协调数据模式之间的差异。实现此功能需要在元数据库中定义表字段简单映射规则、字段拆分规则、字段值合并规则等实现数据的清洗。实例转换是根据源字段的实际内容并结合一定的领域知识来解决缩写词、输入错　　　　误、内嵌控制信息、不同的计量单位及过时的编码等实例层脏数据问题。．２依赖型脏数据清洗５依赖型脏数据通常包括重复信息、　　　　汇总错误及缺损数据等。由于需要综合考虑与其它记录间的关联，依赖型脏数据的处理很难有通用的方法，通常针对特定类型的脏数据来设计特定的清洗算法。Ｑ缺损数据　　　　）缺损数据包括数据空　　　　值和异常数据两种情况。 ①空值：空　　　　值是数据清洗经常遇到的问一般空值分为题。两种：一是缺失值，二是空值。缺失值指值实际存在，但没有存入值所属字段。如成年人都有身份证，如果某个成年人身份证号属性值为空，就属于缺失空值是指因实际并不存在而空的值，值；如未成年人没有身份证，因此他们的身份证号属性为空。对空值的处理方法１有：３１忽略元组、通过属性之间的赖关测属性遗失专验值即输入一个接受的）依系预值、家经（人工可以值，以及可用平均值、中间值、最大值、最小值或更为复杂的概率统计函数值（例如：可以用回归、基于推导的使用贝叶斯形式化方法的工具或判定树归纳确定）代替缺失值，但准确性比较低。②异常：　　　　对于数据中的异常（ｕｉ）用统计分析的Ｏｌ可以ｔｅｓｒ方法识别可能的错误值或异常值。例如：计算某个字段的平均值、标准差。取值范围、、空值出现的数量和频率、最大值、最小值等。根据这些统计值和相关的启发式规则可以发现数据中的异常。位于一１一２沈阳航空工业学院硕士学位论文字段置信区间之外的数据值，认为是异常值。还可以使用数据挖掘技术发现数据中的异常。解决方法可以使用简单规则库（常识性规则，业务特定规则等）检测和修正错误、使用不同属性间的约束检测和修正错误，以及使用外部数据检测和修正错误。２（相似重复记录　　　　）相似重复记录是指一个现实实体在数据集合中用多　　　　个不完全相同的记录来表示。重复元组检测的方法很多，目前主要研究成果有基本近邻排序方法、多趟排序近邻方法１０１】和优先队策略１等。１１其中消除重复记录的基本方法是匹配与合并，匹配算法的核心是字段匹配。本文第五章将详细介绍。．２小结 ‘随着数据仓库的　　　　深入应用，数据质量问题己经成为关系到数据仓库建设成败和决策支持系统能否提供正确决策的关键问题。本章描述了　　　　数据质量的理论基础，包括数据质量的基本概念及其含义；评价数据质量指标的个主要方面（４数据的准确性、完备性、简洁性及适用性）及脏数据的分类，以等问题。从数据清洗算法设计者的角度将脏数据划分为 “ 独立型脏数据，、“ 依赖型脏数据” 两类，这种分类主要关注不同类型的脏数据在检测和解决方法上存在的差异；并给出了解决两类脏数据的相应的解决方法。一１一３沈阳航空工业学院硕士学位论文第３数据清洗方案章３数据清洗定义１．数　　　　ｔｏｎ技术是改据质有效方法。献［将数据清洗仍ａｅｓａａ）ｌｓｎ进数量的文４］据清洗问题叫做 “ 脏数据”的处理。文献１１指出４１中数据清洗是在数据中消除错误和不一致，并解决对象识别问题的过程。数据清洗是较新的研究领域，对大数据集的清洗是很费时的工作，清洗过程计算量较大，很难用传统的算法操作。目　　　　前，数据清洗还没有公认的定义，不同的应用领域对其有不同的解释。数据清洗主要应用于三个领域：数据仓库（Ｗ）Ｄ、数据库中的知识发现（Ｄ）ＫＤ和数据暗息质量理（管吸坦Ｍ间）。在数据仓库领域中，当多个数据源进入数据仓库前应使用数据清洗。例如表示相同　　　　实体的记录具有不同的表示格式，产生了从而重复元组。对重复元组检测和清除即可称之为碗净问１，称为合并题１也记录实识５例辨或对象辨识问因在数据仓题。此，库领域，数据清洗定义为清除错误和不一致数据的过程，并需要解决元组重复问题。当然，数据清洗并不是简单的用优质数据更新记录，它还涉及数据的分解与重组。在数据库的知识发现过程中，　　　　数据清洗是第一个步骤，即对数据进行预处理的过程。各种不同的Ｄ和ｗ系统都是针对特定的ＫＤＤ应用领域进行数据清洗的。１中，文献１］６信息的模式被用于发现 “ 垃圾模式”，即没有意义的或错误的模式，这属于数据清洗的一种。数据质量管理是一个学术界和商业界都感兴趣的领域。全面数据质量管理解决整个　　　　信息业务过程中的数据质量及集成问在该领域中，题。没有直接定义数据清洗过程。有些文章从数据质量的角度，把数据清洗过程和数据生命周期集成在一起，在数据生命周期中，数据的获取和使用周期包括一系列活动：评估、分析、调整、丢弃数据。因此数据清洗过程被定义为一个评价数据正确性并改善其质量的过程。数据的正确性是由　　　　准确性、及时性、完整性和一致性ｌ个方面定义的。ｌ ’ ４因此数据清洗过程就是评价数据的正确性并提高数据的质量。一１一４沈阳航空工业学院硕士学位论文．３数据清洗环节２数据仓库环境中，数据在准备装入数据仓库前，可从三个环节进行数据清洗，从而提高并保证数据质量问，如图．３所示。１图１　　数据清洗环节１Ｒ仑．Ｄ妞ｃＪＩａ触阴，ｔ．１玉业ｍ这三个环节分别是①应用环境层：在数据来源即应用程序环境中进行数据清洗；　　　　②Ｅ层：ＬＴ当数据离开应用程序进入整合转换层时进行数据清洗：及，以 ③数据仓库层：在数据装入数据仓库后进行数据清洗。本论文中主要讨论在集成转换层的清洗。．应用环境层清洗３１．２由于Ｄ　　　　Ｗ中需要集成多个数据源的数据，包括关系数据库和非关系数据库等， ’ 这些数据源本身的正确性和质量会影响ＤＷ中的数据质量。显然，入口处的数据越清洁，数据的质量就越高。乍看起来，保障数据质量的最佳环节应该在应用程序层，但应用程序可能会随用户需求的改变而改变，从而导致数据清洗的过程繁琐化。另外，应用环境中的数据要在ＥＬＴ平台上进行整合，因此数据清洗在数据集成转换层进行显然要比在应用环境层进行要高效、简单得多。１２Ｔ层数据清洗．Ｌ２Ｅ１Ｌ（Ｔ相关概念　　　　Ｅ）定义１Ｅ。Ｔ数抽（耐、换Ｔｎｒ装（ｄ过是　　　　ＬＥ即据取ｘ）转（ａｆ、载Ｌａ的程，．３：ＴＬＥｔｒｓｍｏ）ｏ）构建Ｄｗ的重要环节［ｌ气用户从数据源抽取出所需数据，经过数据清洗，　　　　最终按照预先定义好的Ｗ模型，Ｄ将数据加载到ＤＷ中。数据源可以是不同网络环境、操作平台不同下的不同ＢＳＤＭ和不同应用。定义２数抽口ａｘａ）　　　　据取ｔＥｒｔ是数接口包括原据接口１：ａｔｃ。据源，始数和外部接数据．．．．，，．月．．．．．．．．一！　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　卜沈阳航空工业学院硕士学位论文口，源数据接口从业务系统中抽取数据，为ＤＷ输入数据。定义３数据转归ａＴｎｒ）转换多　　　　．３：换ｔｒｓｍ。来自个业务数据源数处ａａｆｏ系统据的理过程，用以保证数据按要求装入ＤＷ。定义４　　　　装（ａＬａ。责据按．３：数据载Ｄａｄ负将数照物理数据ｔｏ）模型定表结义的构装入ＤＷｏ在文１将数取、据转换数据加纳为　　　　中据抽数献【］９及载归数据准备部分。据准备部数分指不同的操作型系统和外部数据源的数据经过修改和转换后，以适合查询和分析的格式存储，成为数据仓库的数据准备部分，也称数据预处理阶段。对于数据仓库的数据准备来说必须存在一个独立的数据准备阶段，因为数据仓库中的数据是面向主题的，且来自多个操作型系统数据源的数据。２Ｔ（Ｅ层数据清洗　　　　）ＬＥ层清洗是指当　　　　ＬＴ数据离开应用程序进入ＥＬＴ平台时进行数据清洗，即在集成转换过程中完成数据清洗工作。在Ｄ应用中，ｗ所涉及的Ｔ过程较多文献【指出，一般ＥＬ（１］７的数据仓库系统中Ｅ中，Ｔ所涉及的换往在８个以）因Ｅ过Ｌ转往０上，此在Ｔ程中实数据Ｌ现的清洗并保证其正确性是一项富有挑战性的工作。ＥＬ数据清洗模型将在３关于Ｔ层的３节中介绍。由于各分散的业务系统在描述同一个对象时，相同数据可能有不同的类型、格式和　　　　计量单位，在对它们进行统一的过程中，应消除这些差异，对其进行完整性检查，并核对数据的有效性，防止将数据源的错误数据带入数据仓库中。以在系统方案中应采用数据转换和数据清洗相结合的方法保证数据的统一性。其中数据转换主要负责对所有数据单位及空值的检查，对不同单位的将其转换为统一的单位值，对数据空值的按规则改变为空值或零值；而数据清洗则负责检查某一特定字段的有效值，需要通过范围检查、枚举清单、相关检验等来完成。．３）数据仓库层清洗２当数据装入数据仓库后，这就是解决数据质量问题的第三个环节，数据仓库中的数　　　　据质量。随着数据仓库的持久使用和操作，可能会出现下列两种情况，其一是不同系统管理员对数据仓库的维护可能存在矛盾的情形；其次是新集成来的数据可能与原有数据之间存在某些差异。因此，在数据已经装入数据仓库后仍需要对其不断进行整合，而在一１一６沈阳航空工业学院硕士学位论文持续的整合过程中必然会涉及数据清洗问题，以继续提高数据质量，为决策提供可靠的支持。数据仓库中的数据并不是持续不变的。例如，某银行１８　　　　９年之前的资金计量单位是本地货币，但到了１８资金计量单９年，位变成了欧元，如果希望对１５９年到１８９年进行现金分析的话，这是非常困难的，因为数据的潜在意义已经不同了。因此，就算数据质量在其它地方己经完善了，由于数据年龄问在数据进入数据仓库后仍须再次进行数题，据清洗。．３基于ＥＬ的清洗模型３Ｔ数据仓库中，　　　　数据清洗是指将数据从业务环境向数据仓库系统转移时，数据内容和结构的变化整合。数据的抽取、转换、（Ｔ）装入Ｅ是建立数据仓库系统的Ｌ重要环节之一，在一数仓库中约ｏ的作量花费Ｔ阶１ＥＬ序的运难免个据项目，ｓ工都ＥＬ段。Ｔ程频繁行会ｋ３产生大量的脏数据，而脏数据在进入数据仓库前必须得到清洗。然而，数据清洗不是ＥＬＴ中一个单独的步骤，需要与数据抽取、数据转换集成、及数据载入统一使用。在Ｅ层中的数据清洗方式通常可以　　　　ＬＴ使用数据库作为唯一的控制点。多种数据源的所有原始数据大部分未作修改就被载入到Ｅ层，因而无论数据源是关系数据库还是非ＬＴ关系型数据集合，数据都将被置于数据库表中，以便在数据库内作进一步地转换，ＴＥＬ中的数据清洗模型如图３所示。２图．ＥＬ数据清洗模型　　　　　　　　　　　　　　　　　　　　　　　　３Ｔ中的２　　　　　　　　　　　　　　　　　　　　　　ｉＦ２Ｄｔｄａ的。恤ＥＬ醉．ａｃ飞ｍ创．ｌＴ如果数据源是一个功能比较强的ＤＭＳＢ，如图３中的数据源１２．和数据源２，则可以在数据抽取过使Ｑ来完程中用ｓＬ成一部分的数据清洗工但是作。有一些数源不提供这种据能力，３中的外部文件，如图．２只能直接将数据从数据源抽取出来，然后在数据转换的时候进行清洗。因而，数据仓库中的数据清洗主要还是在数据转换的时候进行。使用数据一１一７沈阳航空工业学院硕士学位论文库Ｅ处理方式中的Ｂ的转换清洗能力完成大部分的工作，孔ＤＭＳ这样数据清洗就充分利用ＤＭＳＢ提供的功能。１数据清洗步骤４通常，　　　　数据清洗涉及如下几个阶段【，气１（分析 “ 　　　　）脏数据” 为确定要清除哪种错误或不一致情况，即脏数据。一个详尽的数据分析是不可缺少　　　　的。除了手动的检查数据或数据样本外，还需要使用分析程序来获得关于数据属性的描述，从而发现数据质量问题。通常，模式中反映的元数据可能信息不全，也可能没有及时更新，不能反映数据的　　　　目前现状。因此，通过分析具体实例来获得有关数据属性和不寻常模式的元数据就变得很重要。这些元数据可以帮助发现数据质量问此外，题。这些元数据对于发现属性间的依赖关系也是很有效的，根据依赖关系才能实现数据转换的自动化。２（定义转换工作流和匹配原则　　　　）根据数据源的个数、数据源中数据不一致程度和 “ 　　　　脏数据”的数量，需要执行大量的数据转换和清洗步骤。有时，甚至需要进行模式转换来把数据源转换到一个标准的模式。对于数据仓库来说，通常是转换成关系模式。数据清洗流程中，首先可以纠正独立型脏数据，其次解决依赖型脏数据。另外，要尽可能地为模式相关的数据清洗和转换指定一种公用的语言，从而有可能自动生成转化代码。３（评估和验证工作流　　　　）根据转换工作流的正确性和效率，　　　　应该进行验证和评估。例如，先在数据源的样本上进行测试，必要时对工作流进行改进。在真正的数据清洗过程中，往往需要多次的迭代，进行分析、设计和验证步骤，直至得到满意的数据转换工作流。４（执行转换工作流　　　　）在数据源上执行预　　　　先定义好的并且己经得到验证的转换工作流。需要执行一系列的转换步骤，以解决不同的数据质量问题。应为各种转换做好准备，这些准备步骤一般包括：①从自由格式的属性字段中抽取值（　　　　属性分离）。自由格式的属性（如地址）一般包含很多信息，这些信息有时需要细化成多个属性，从而进一步支持后面的清除重复元组一１一３沈阳航空工业学院硕士学位论文的清洗步骤。②确认和改正。处理输入和拼写错误，并尽可能地使其自　　　　动化。基于字典查询的拼写检查，对于发现拼写错误是很有用的。此外，有关地理名字和邮政编码的词典可以帮助改正地址类数据。 ③规范化。为了使实例匹配和合并变得更方便，　　　　应该把属性值转换成一致的和统一的格式。．３清洗中的元数据５元数据是关于数据的数据，　　　　它描述了数据的结构、内容、码以及索引等项内容。传统０ＪＤ中的数据字典是一种元数据１，１ＰＢ划但在ＤＷ中，元数据的内容比传统Ｄ中的数Ｂ据字典更丰富、杂。更复１元数据在数据清程中极其重作元数据内６洗过起着要的用。容除了满足数据仓库的要求外，还保存数据清洗过程及有关参数。由于数据清洗是整合在Ｅ过程中的，因此清洗过程的元数据主要包括以下一些描述信息：ＬＴｌ（原始数据与目　　　　）标数据的描述在数据仓库中　　　　对经常使用的数据源需要建档，信息直接存入元数据库中，若有新建或不想使用的数据源，则可直接对元数据库执行增加、删除及修改操作。存储数据源的元数据模式如表３所示。１数据源的存储模式通常包括用于确定数据源的标识符、数据源名称、描述、首次创建时间及安全级别等。表３存储数据源信息的元数据模式　　　　　　　　　　　　　　　　　　　　　　　　　　ｌ．１卜３　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　油．．ＭｅａｄｔｄｅｆｒＯｒｅｄｔｌｔｓａｍｏｏ．ｕｃａ．列名是否主键字段类型标识符砚，Ｃａ４ｈ（ｒ）名称Ｎｏ确代ｈ（）ｒ０ａ５描述ＮｏＶＣ盯２，改加（５）Ｄａｎ姆Ｉ． ’ ｅ创建时间Ｎｏ安全Ｎｏ物ｙ加说明数据库的标识符，唯一确定一个数据源数据源名称数据源的描述首次注册时间安全级别另外，对每个数据源还应为其表及表中的字段分别设置两个存储模式。其中，表的　　　　存储模式中通常包括用于确定数据源的标识符、表的标识符、表的名称、引入时间、更新时间、字段个数等信息；而表中字段存储模式通常包括用于确定数据源的标识符、确定表的标识符、列标识符，列名称、创建时间、最近更新时间、字段类型、字段长度等。数据仓库中　　　　数据结构和数据源的结构信息很相似，按上述方法创建目可以的数据表。一１一　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　，沈阳航空工业学院硕士学位论文２（数据转换中的描述　　　　）数据仓库中的数据来自　　　　不同数据源，各数据源和数据仓库间可能存在冲突，如果是模式冲突可以对数据进行重构，对于语义冲突可以建立元数据来解决。识别不同数据源间的等价实体，通常需要建立三个层次的等价实体关系表ｌ。包括①数据库级索引表；ｑｌ②表级等价实体对照表；以 ③字段级等价实体对照表。及，）３（数据清洗规则的描述　　　　数据清洗规则的描述应包括记录数据质量问题的元数据、针对不同的质量问题而定　　　　义的清洗规则，即所采用的处理方法的描述及清洗过程中所需参数的描述。 ①记录数据质量问　　　　题的元数据内容如表３所示。表中未列出２所有的数据质量问题，用户可根据２节描述的脏数据分类问题并结合实际清洗过程归纳相应的数据质量问题。３表３记录脏数据的元数据　　　　　　　　　　　　　　　　　　　　　　　　　　　　．２ａＪＴｂ．Ｍｄｄｔｆｄｙａ　　　　　　　　　　　　　　　　　　　　　　　　　　　　２ａａｏｉｄ妞ａｒｄ分类独立型问题非法值脏数据基数最大、最小空值说明用０代表性别，、１若值为则非２法最大、最小不应该超过值域某列值为ＮＬＵＬ依赖型属性值十初始值缺失值时用初始值填补重复记录代表同一实体同一记录输入两次缺失值②清洗规则的描述都应放入元数据库中，以便调度执行或跟踪和修改。　　　　清洗规则的定义形式如表３所示。．３在清洗过程中，用户预先定义一些清洗规则，可由随着清洗的进行，还可将新的数据清洗规则写入 “ 元数据库”中，便于以后遇到同题时实现自类问动清洗。表３记录清洗规则的元数据模式　　　　　　　　　　　　　　　　　　　　　　　　　　　　Ｊ１ｈＪＭｅａａａｄｆｒｌ川１ｒ１　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　抽Ｊ砚ｄｍｏｏｃａ．．ｔｅｃ仑翻列名错误类型判断条件记录集名字段名是否主键ＮｏＮｏ、．乞介．字段类型说明例如字段缺失，重复记录等Ｃａ（０错误类型，ｈ２）ｒＣ州５）ｈ０Ｃ喊１）抽０Ｃ喊１抽０）Ｃ喊１坛０）Ｃａ１ｈ０（ｒ）清洗策略Ｎｏ函数名ＮＯ判断错误类型的条件，例如，若字段为空则表示缺失需要清洗的记录集合的名称需要清洗的字段的名称清洗策略，例如：人工处理、忽略或自动转换等由程序员预先定义的自动处理脏数据的函数名称③清洗过程中所需参数的描述，包括数值型属性清洗中的参数、重复记录清洗中的一２０一沈阳航空工业学院硕士学位论文参数等。重复记录清洗过程通常包括要检测的记录集名称、字段名称、所检测字段相应的权值、记录匹配阐值及所选择的匹配算法等。重复记录清洗的元数据模式如表３所示。．４表３清洗重复记录的元数据模式　　　　　　　　　　　　　　　　　　　　　　　　　　　　４．１ｂ３４Ｍ以皿ｄ亡　　　　　　　　　　　　　　　　　　　　　　　　ｅｏ油．．。。ｍｏｆｔｌｎ１业ｕｌａｅｃｒｅｄｏｃａ，ｄＤｉｔｄｒｄｃ．ｃ列名是否主键字段类型说明记录集名晚，Ｃ抽喊１）需要清洗的记录集合的名称０字段名ｙ．七Ｃ喊１址０需要清洗的字段的名称）权值ＮｏＣ州１ｈ０所选属性对应的权值）闭值ＮｏＣａｌ）超出阴值即为重复记录ｈ０（ｒ函数名ＮｏＣａｌ）选择相应的算法ｈ０（ｒ１数据清洗策略 ‘．数据清洗的一般策略３１．６按照数据清洗的实现方式与范围，　　　　数据清洗一般包括四种策略：①手工清洗方式：人工直接修改脏数据； ②自动清洗方式：通过编写专门的应用程序检测、改正错误； ③特定应用领域的清洗：如根据概率统计学原理查找数值异常的记录，然后进行修正；以及，特定 ④与应用领域无关的数据清洗：主要集中于重复录的测、阁数记检删除。据装载的不同环节其清洗任务不同，应为其选择不同的清洗策略。本文提出的混合清洗策略主要适应于在数据集成转换环节的脏数据清洗。．混合的数据清洗策略３２．６自　　　　动清洗方式能解决某些特定的问题，适合数据量大时使用。但同时也存在清洗过程不够灵活、反复的清洗过程导致清洗程序复杂，以及清洗过程变化时工作量很大等缺点。更为重要的是，可能存在某些潜在的错误类型在自动清洗过程中不能被发现和纠正，此时必然需要人为的参与。综合上述两种策略的优点，在集成转换层将两种清洗策略相结合进行混合数据清洗将达到良好的效果。混合清洗的流程如图３１所示。一２一　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　１沈阳航空工业学院硕士学位论文脏数据检测脏数据清洗质量评估「元数据库制定　　清洗规则结果数据男规则归档用户确认卜－争１错误定义ＥＩＬ过程图３Ｔ过程的数据清洗策略　　ＥＬＪ肠色ＪＤａｃ叨．ｇｔ时创ｅ抽ＥＬＪ时ｌ抽ｓｅｒ６，Ｔ）ｌ合（混清洗的理　　　　策略原混合清洗策略主　　　　要以自动清洗为主，以人为清洗扩展自动清洗。Ｗ的数据初装在Ｄ阶段和增量数据追加阶段，可以通过编写固定的应用程序来实现批量数据的自动清洗。但清洗模式并不能反映语义上的正确性校正问题，也不能完全涵盖所有的错误类型，因此，当无法按照已有模式来识别某些错误类型，或者对于某些语义上不统一的数据，其修正工作就需要人工的监督和确认。此时，系统可设定异常报警功能，通过用户自身对错误的识别、理解和确认，最终实现数据清洗。２数据库的（元　　　　更新》图３中实线表示数据流，　　　　３虚线表示各子过程执行时需要利用的元数据流。元数据是指在ＤＷ建设过程中所产生的有关数据源定义、目标定义、清洗规则等相关的关键数据。数据自动清洗过程中元数据发挥着重要的作用，并贯穿整个清洗过程，即清洗脏数据要按元数据库中提供的清洗规则进行。随清洗过程的反复执行，还可将新的数据清洗规则写入 “ 元数据库”中，便于以后遇到同类问题时实现自动清洗。清洗规则的定义形式在．３节中５进行了描述。３动清洗过程（自　　　　）数据自　　　　动清洗过程包括脏数据检测、脏数据清洗及质量评价等三个步骤。脏数据检测用来发现各种脏数据，它是数据清洗中有挑战性的工作，最富要求正确、全面和高效地找出各种类型脏数据。脏数据检测可以使用多种方法，如数理统计的方法、模式识别的方法、基于距离的聚类方法和基于元数据的检测方法等。脏数据清洗过程将根据脏数据检测的结果来解决相应的脏数据问题，通常通过数据元素化、标准化、校验、匹配、对象识别、档案化等步骤实现。对于自动清洗过程不能解决的问题，则尽可能提供完善一２一沈阳航空工业学院硕士学位论文的预警功能，则交由人为清洗过程来解决。数据质量评价可以按数据质量评估准则进行实施，即利用它对清洗后的数据进行评分，通常可按照完备性、正确性、一致性和可理解性１２１喀几个指标进行分项计分，然后用加权平均法计算总分。若最后得分超过某一阀值，则可以认为数据清洗工作已经满足数据质量的要求。４（人为清洗过程　　　　）人为清洗过程通常包括异常报警、用户确认、错误定义、用户清洗和规则归档五个　　　　步骤。异常报警由自动清洗程序完成；用户确认则是在异常报警后，通过报警程序与用户的交互，由用户确认非常规的脏数据类型或某些语义上的错误；错误定义是指用户在确认某种新的错误类型后，对比较典型的脏数据类型进行定义，并为其制订相应的清洗规则；最后，把新产生的清洗规则由规则归档程序写入元数据库中，便于以后遇到同类问题时，能够实现自动清洗。而对于某些非常罕见的，且今后不可能出现的脏数据类型，或者某些特殊的语义错误，不必生成新的清洗规则，可以而直接由用户进行修正后写入ＤＷ中。１７小结数据清洗是保证数据质量的必要手段，前仍属于较新的研究领域。Ｗ环境下，　　　　目在Ｄ数据清洗可以在不同阶段实现，而且存在不同的清洗策略，其中，在数据集成转换层实现数据清洗最为高效。本章在给出ＥＬ过程中Ｔ数据清洗模型及在元数据库中存储的清洗规则的描述基础上，针对己知和未知的错误类型，以及语义上的错误，提出了自动清洗和人为清洗相混合的数据清洗策略。文中论述的数据清洗模型和关键技术在某特种设备检验机构的ＤＷ环境中得到了较好的应用，取得了满意的效果。一２一３沈阳航空工业学院硕士学位论文第４中文地址类信息的分词方法章在数据仓库中相似重复记录的识别与消除是数据清洗的一个关键问　　　　题，其目的是匹配、合并和清除那些冗余的、客观上映射同一实体但在语义表示上存在差异的记录脚．ｊ判断两条记录是否为相同实体，通常可以选取诸如姓名、地址、身份证号、出生日期等有代表性的字段，将字段进行匹配后，再由这些字段组成的记录进行匹配。由于地址类信息在数据仓库中出现的频率较高，且对重复记录的检测及分析处理起着非常重要的作用，因而中文地址类信息的数据清洗在实践中具有非常重要的意义。．４分词概述１通常计算某一字段的相似度应首先进行初步聚类，　　　　将潜在的可能重复的内容调整到邻近的位置；其次是通过算法计算字段的相似度。但由于地址信息字段中省、市、区信息常常出现某些缺失，为检测带来了一定困难，主要体现在以下两个方面：（重复记录的　　　　位置分离较远）１关键字的选取对排序有重要的影响。按关键字排序后，　　　　可能使重复记录的位置分离较远而不能在一定范围内进行比较。表４显示了数据库中的３１条记录，如果选择．ｄｓｄｒｓｅ字段作为关键字排序，则记录１和记录３在排序之后离得非常远，这是由于记录１和记录２的ａｄｓｄｒ字段内城市名的缺失造成的。ｓｅ１ｈ１玩时　　　　　　　　　　　　　　　　　　　　　　　　　　　　、．４朋沈ｏｄｐ “妞代ｃｒｆｕ肠ｄｏ山王月表４重复　　　　　　　　　　　　　　　　　　　　　　　　　　　．１记录样例目山份５月王王月辽宁黄河大街２号３５辽宁省铁西区小五路６号３辽宁省沈阳市皇姑区黄河北大街２号３５２（增加了　　　　）算法的复杂度及执行时间对于字段匹配通常可以　　　　采用基本字段匹配算法、５ｂａｅａ算法、编辑距离算而ｔｔｎ刀／ｒｍ法价等计算字符串的２１相似度。很显然，于字段的缺失问表４中条和第３由题使１第１条原本重复记录的相似度不会很大，因此严重影响了重复记录的判断。另外，由于记录３中的地址信息较长，利用匹配算法计算其相似度的时间必然会增加。―４２一沈阳航空工业学院硕士学位论文基于上述原因可将中文地址字符串通过自　　　　动分词划分为更小的语义单元，在此基础上再进行处理１。１３２例如： “ 辽宁省沈阳市皇姑区黄河北大街”，若分词为 “ 辽宁省耽阳市／皇姑区／黄河北大街”，就可以在更小的词的基础上进行匹配处理。．４已有的汉语分词方法２汉语自　　　　动分词是中文信息处理领域的一项关键技术，目经有很多种方法。传统前已意义上的词法分析（简称分词）指从描述记录的 “ ，字符串”中获取单词串词汇）（供后续过程使用，所以它又可以称为词汇分析。对类似英语的语言来说，由于存在天然的分隔符，分词难度不大。对于中文而言，则存在分词规范、分词歧义和未登录词识别等难题。近年来有很多相关的研究成果，例如北大的汉语切分与标注软件、清华大学ＳＧＥ分词系统、及杨ｃｓＲ，ｒｏ丘ｒｏｅ地ｃｈ汉语句法分析器中的分词算法等１１５。已汉语分词法可以结为　　　　有的方归三种：词典（ｃｎ七，）机配方基于ｄｔａ．月的械匹ｉｉ刁ｏ法、基于统计的分词方法和基于统计及词典相结合的方法１．训１（基于词典的　　　　机械匹配）算法基于词典的机械匹配算法通常有正向匹配算法、逆向匹配算法及最小匹配算法等，　　　　这些算法的优点是易于实现，在对精确率要求不高的系统中已经得到了很好的应用。其缺点在于由于词典是在分词之前准备的，其规模和内容受到了一定的限制，所以没有哪个词典是完备的；语言中常出现新的词语，所以没有一个词典能够囊括所有领域的词语。虽然可以通过加入构词规则的方法识别出一些可构造新词，但是基于词典的这一类算法无法解决文本中大量出现的未登录词的问致使分词的效果在达到一定的题，瓶颈之后无法提这未录不包命名体人地名、织名、间数）升．里的登词仅括了实（名、组时词、词等，也包括了新词。２（基于统计的分词方法　　　　）基于统计的分词方法通常有（ａ算法、Ｍ算法、　　　　Ｎ扮ｍＨＭ最大嫡算法及基于Ｍ的算法Ｅ等。统计方法的优点在于它可以从已有的大量实例中进行归纳总结，分析语言内在的关联信息，将其加入到统计模型中去；简单的统计方法不需要词典，而是通过训练语料的迭代建立统计模型。对统计的方法来说，训练语料库的规模严重影响着分词的效果，训练集规模小则模型的可信度低，分词效果差；而一旦训练集规模大了，则会引起数据稀一２一５沈阳航空工业学院硕士学位论文疏的问题，使得分词的效率大大降低。另一方面，不同领域的语料对于统计模型起着决定性的作用。口语语料跟书面语语料，不同专业领域的语料都在内容上存在着很大的差异，拿书面语语料训练出来的统计模型去切分口语语料，势必不会得到很好的切分结果。３（基于统计及词典相结合的方法　　　　）目　　　　前较为成熟的分词算法是将统计的方法及词典的方法进行结合。例如中国科学院计算技术研究所的汉语词法分析系统ＩＴＬ采用的就是多层隐马尔可夫模型。ｃＣＡＳ他们对原有隐马尔可夫模型进行了扩展，将模型分别应用到原子切分、简单和复杂的未登录词识别及基于类的隐马尔可夫分词等多个层面上。但这种分词算法也存在着不足，其上下文信息都是从训练语料库中获取，忽略了切分文本的上下文的反馈信息。．４基于特征字符的分词方法３由于　　　　数据库中的中文地址类信息其字符串是结构化的，内容相对简单，因此只需结合中文地址领域知识构造一个规模较小的，能够较好的识别领域词汇的小型分词系统就能满足要求。考虑到中文地址类信息往往会出现能够区分出省、市、区信息特殊字符的特点，首先创建基于省、市、区标准信息的元数据库，在此基础上，应用基于元数据内容进行匹配的方法将地址类信息按逻辑意义分为省、市、区、街及数字五组信息。．分词元数据４１．３元数据指描述数据的数据，它是基于特征字符分词方法的基础。在地址信息重复记　　　　录识别过程中，元数据库中存储了分词规则和分词过程中所依据的省、区标准信息。市、随时间推移，用户还可将新的分词规则或新的省、区信息写入元数据库中，市、实现了分词模块的可扩展性。ｌ（分词规则的存储　　　　）所谓特征字符是指能够对省、市、区级别进行区分的　　　　汉字。例如， “ 省”、 “ 治自区”、“ 市”等。由于地址信息中可能出现特征字符的缺失或部分缺失，因此分词模块根据地址信息中是否含有 “ 省”、 “ 市”、 “ 区”等特征字符将其定义成不同的规则，并为每个规则编制相应的分词函数，用于处理不同的情况。规则的描述信息存储在元数据库中，结构如表４所示。２一汤一沈阳航空工业学院硕士学位论文表４　　分词规则表Ｊ规则名ＲｕｌｅｈａＺ吵吟呻碎ｈａ７砂一函数名ＳＰｌｉｔＳＰ１ｉＱＳＰＩｉＱＳＰＩｉｔ４ＳＰｌｉ６ＳＰｌｉｔｏＳＰｌｉｔ７ＳＰｌｉ￥一几ｂＺＳｇｌｔｌｌｔ４：ｅｌ．ｒｅｉｌｕ，ｅ说明执行同时含有省、市及区属级别特征字符的分词操作执行只含有省属级别而不含有市及区属级别特征字符的分词操作执行只含有市属级别而不含有省及区属级别特征字符的分词操作执行只含有区属级别而不含有省及市属级别特征字符的分词操作执行只含有省及市属级别而不含有区属级别特征字符的分词操作执行只含有省及区属级别而不含有市属级别特征字符的分词操作执行只含有市及区属级别而不含有省属级别特征字符的分词操作执行不含有任何级别特征字符的分词操作表中只列出了　　　　分词中的主要规则，因为特征字符不仅包括 “ 省”、 “ 市”、 “ 区即等汉字，还可能出现 “ 治区，、 “ 自特别行政区”、 “ 盟”、 “ 旗”等，设计者可以根据具体需求制定不同的规则。２（省市区　　　　）标准信息的储存中文地址类信息中的分词主要应用于地名方面，本文应用了　　　　地址领域中的专业省、市、区信息，其标准信息表的结构在元数据库中的表现形式如下：①ｐｉｒｎ，恤６ｒ叮１ｍ，州１　　ｖ州ｐ访ｃ沁Ｃ叹）ｐ明“ 恤ｅ比６；ｒｎｏｅｏ－；ｏ－）②ｄ（ｊ，恤（；坟确．ｃ吠２血叹坦 ‘ 叹　　　　ｄｃ句ｄ夕，抽２：山，加６；钾ｄ匀））③ ａ一，ａ６。ｄ ‘叹０血阮ｅ，６　　（ｅ．曲ｒ）肚ｊ，抽３；ｒｄ咖吠）此ｒｄ（；ａ）ｓｉｏ根据我国５２　　　　０年１底的０２月行政区域划分，ｒｎ表中记ｐ切Ｃ的录个数为，ｔ的ｏｅ４ｙ３幼表中记录个数为３，肚５４既表中的记录个数为３４。１．分词基本原理４２１中文地址信息的显著特点是有能够区分出省、市、区信息的特殊字符，因此可以按　　　　特征字符出现的位置进行省、市、区信息的截取（例如：特征字符 “ 和 “ 之间省” 市”的字符串就是城市信息）将截取的省、区信息与元数据库中的标准信息进行校验，，市、从而保证了分词的准确性。基于特征字符的分词操作需要对下述情况做特殊处理：（征字市” 省的　　　　 “ 在或区级别中有可能出（１蹄符都现例如；北京市区，朝阳此时的特征字符 “ 代表直辖市）市勿，与元数据库中的城市标准信息进行匹配时，若未匹配成功应继续与其它级别的地址信息进行匹配；２词过程中两次（分　　　　若截取的字）符相同，表示省或市则和市和区的称相同例名可能（一２一７沈阳航空工业学院硕士学位论文如：吉林省吉林市，）应为其分配在不同级别的字段中；３词模（分块对于识别的省、区（　　　　）不能市、信息例如：户填写的客地址信息是其工作单位的）将其分词后的 “ 字段中进行名称，存入街” 再后续的段匹配．字４．分词算法描述Ｊ３为了保证相同　　　　类型字符串间的匹配，地址信息中若有数字或西文信息应先将其分离：然后根据表４中列出的分词规则将其分割。２分词规则中特征字符的缺失或部分缺失是分词操作的一个难点。采取以下策略：可以若省、市、区相应级别出现特征字符则按特征字符所在位置截取信息并校验，若未出现相应级别的特征字符，通过截取部分字符可以与元数据库中标准信息进行模糊匹配，若匹配成功则返回元数据库中的标准信息，删除地址信息中相应长度的字符后再进行下一级别的信息匹配，从而实现信息的分割。以下是表月中列出的分词规则所对应的函数算法。２ｌ（执行同时有省、及区　　　　含，市属级别特征字分词符的操作。例如：宁省市辽沈阳铁西区小五路６号。３输入ａｒｊ　　　　ｓｄｅ，ｄｓ输出ｒｌｄ份出。　　　　，仪留，改ｐｖＣｏｎｅ① 量始：ｐ明Ｃ ‘ 已就ｄ赋ｎ　　初化将ｒ口，ｔ盯氏代皆值为ｕ；变ｏｅ酥ｕ②若ａｒ不同时含有特征字符 “ 或 “ 或 “ 　　　　中ｄｅｄｓ省” 市” 区”及 “ 治区” “ 自或市”或“ 区分及或 “ 治区” “ 自或盟”或 “ 区”及 “ 特别行政区” ，则转⑨；③截取 “ 　　　　或 “ 治区” “ 省” 自或特别行政区” 之前（包括特征字符）的字符串赋给ｐｅｃｍｖｏｒ，利数据库中并用元标准省级信息进行对其校验； ④截取 “ 　　　　或“ 之前（市” 盟” 包括特征字符）字符串ｃ，利用元数的赋给ｉ并ｙｔ据库中标准市级信息对其进行校验；⑤截取 “ 　　　　或 “ 之前（区” 县即包括特征字符）的字符串赋给ａａ并利用元数据库ｒ，ｅ中标准区级信息对其进行校验； ⑥求ａｄｓ　　　　ｓｄｒ的长度，赋给Ｉ；ｅｎｅ⑦若Ｉ为。则转⑨；　　　　，ｎｅ⑧将ａｄｓ　　　　ｓｄｒ的值赋给ｓ。，删除ａｄｓｅｔ改ｒｄｒ中相应长度的字符：ｓｅ⑨算法结束。　　　　一２一５沈阳航空工业学院硕士学位论文２（执行只含有省属级别特征字符的地址信息的分词操作。　　　　）例如：辽宁省黄河北大街５号。２３在此操作中，可能出现市属级别信息和区属级别信息相同，因此需要额外判断。下述步骤⑧和⑨描述了判断和匹配过程。输入ａｄｊ　　　　ｓｄｒ，ｓｅ输出ｒｎｄ．ｅｔ　　　　，ｔ叮礼ｓ以ｐＶＣｙｏｅＩｅｒ ①变量　　　　初始化：ｐｖＣｄ盯氏ｒ皆将ｒｉ，ｔｅ滋。赋值为ｕｏｎ％ｅ改ｕｎ；②若ａｄｓ　　　　ｓｄｒ中不含有特征字符 “ ｅ省”、 “ 治区”及 “ 自特别行政区”，则转０：③截取 “ 　　　　或 “ 治区” “ 省” 自或特别行政区” 之前（包括特征字符）的字符串赋给ｐｖｃ并利用元数据库中准省级信息其进行ｒｌ，ｏｎｅ标对校验；④求ａｄ的长度，赋给ｌ；　　　　５ｄ化ｎｅ⑤若Ｉ为０　　　　，则转０；ｎｅ⑥读取ａｒ中刀　　　　。前个字符给临变用；ｄｃｄｓ赋时量招尹 ⑦将朋与据库中　　　　元数阳尹市级信息模糊匹若进行配，不成功则至转 ⑨；⑧ 即如ｃ的相同则元据标准级赋ｃ删除ｅ　　果与ｉ中值不，取数库中市信息给衍；咖ｒ招ｖｔｓ中相应长度的字符，转至④；⑨ 招卿数　　　　元据库中的模匹，功取元据标区信息将期与区信息糊配若成则数库中准级赋给ａａ删除ｄｓ应长字符，转至④；ｒ；ａｒ中相度的ｅｄｅｓ并⑩将ａｄｓ值赋给ｓ曰，删除ａｄｓ相应长度的　　　　的ｄｒｅｔ眺ｒｄｒｓｅ中字符，并转至 ④：０算法结束。　　　　３（执行只含有市属级别而含有省属级别　　　　）不及区特征字分词符的操作。例如：锦辽宁州市或辽宁新民市新滨街（特征字符 “ 可能为市属级别或者为区属级别）市” ．输入ａｄｓ　　　　ｓｄｒｊｅｌ输出ｒｎ，仪肚氏ｔ　　　　Ｃｄ。，改ｐｖｅｏｉｒ。①变始将ｒｎ声ｔｒ，ｅ皆值为ｕ　　　　化：ｐ叨Ｃｉａａｒｔ赋加；量初ｏｅｙＯｓｔ②若目ｄ中不含有特征字符 “ 及 “ 　　　　ｓｅｒ市” 盟”，则转０；③读取 “ 　　　　或 “ 之前的字符串市” 盟” 长度赋给临时变量Ｉ；ｎｅ④如Ｉ不大等于则至　　　　于刀，转 ⑧；果ｎｅ ⑤读ｄｒ中刀字给变量仑；　　　　ｓ前个符赋临时才尹取ａｅｄｓ用一２一９沈阳航空工业学院硕士学位论文⑥将尹数据省　　期与元库中级信息模糊匹配，阳进行若不成功则 ⑧；转至⑦读取元数据库中标准省级信息赋给ｐｖ；删除ｄ活相应长度字符；　　　　ｒｎｏｃｉｅｄａ代５⑧读市” 盟” 　　 “ 或 “ 之前（取包括特征字符）字赋用；的符串给招尹 ⑨将期与据市　　　　元数库中级信息进行匹配，招尹若不成转至０；功则⑩ 招尹值给ｉ删除ｄｓ相应度的符；　　用的赋ｃ，ａｒ中长字将ｙｔｄｅ０求ａｄｓ　　　　ｓｄｒ的长度，赋给Ｉ；ｅｎｅ０若拒为０　　　　，则转０； ”０取ｄ中刀字赋时阳　　　　ｓ前个符给临变量尸读ａｒｄｅ即；ｏｅ尹元据区信模糊匹若则数库中准区信给　　　　数库中的息ｔ与用配，成功取元据标级息赋ｅｒ删除ｄ中应度的符；ａ，ａｓ相长字ｄｅｒ０ｄｄｓ值赋给成。，　　　　的将ａｒｅｒ删除ａｒ中眺ｄｅ相应长度的ｄｓ字符；０算法结束。　　　　４行（执含属别不　　只有区级而含有省市别征字的词作。如：辽）及属级特符分操例辽宁中县榆树乡。输入ａｄｓ　　　　ｓｄ爬ｊｌ输出ｉ　　ｖ浦尔‘‘ ｒｔｏｅｒｃＰｎ已就ｅ ① 初：ｐ ”Ｃｉｒ，ｒ皆值为眠　　　　化将ｒｎ沐ｔａａｔｔ赋ｎ变量始ｏｅｙｅｓ，ｅｕ②若ａｒ中不含有特征字符 “ 及 “ 及 “ 　　　　ｓｄｅｄｓ区” 县” 旗”，则转０；③读取 “ 　　　　区”或 “ 或 “ 之前的字符串长度赋给临时变量Ｉ；县，旗” ｎｅ④如果ｌ不大于等于，　　　　ｎｅ刀则转至⑩；⑤读ａｒ中刀字赋给变招少　　　　ｓ前个符临时量州；取ｄｄｅ ⑥将州与数库中级进行糊匹若成则至　　　　元据省信息模配，不功转 ⑧；招甲 ⑦读元数库中准级赋给ｒｎ，除ｄｅ相长符；至　　　　据标省信息ｐ访ｃ删ａｒｓ应度字转 ③：取ｏｅｄｓ ⑧将用与数库中级息模配若成则至　　　　元据市信进行糊匹，不功转 ⑩；阳夕⑨读　　　　据标准级信息ｄ；ａｓ相应长字符；取元数库中市赋给ｔ删除ｄ中ｙｄｅｒ度的⑩截取 “ 　　　　或 “ 之前（区” 县” 包括特征字符）的字符串赋给盯ａ并利用元数据库ｅ，中标准区级信息对其进行校验；０求ａｄｓ　　　　ｓｄｒ的长度，斌给距；ｅ即一０３一沈阳航空工业学院硕士学位论文０若拒为０　　　　，则转０： ”０将ａｄ的值赋给ｓｅｔ　　　　ｓｄｒｅｔｅｒ，删除ａｄｓｄｒ中相应长度的字符；ｓｅ０算法结束。　　　　５行只含有省及市属（执　　　　）级别而不含属级特征字分有区别符的词操作。例如：省辽宁沈阳市皇姑黄河北大街２号或辽宁省新民市新宾街（３５此处的特征字符 “ 市”为区属级别，若新民市在元数据库中标准城市信息未匹配成功应继续在区属级别进行匹配）．输入目ｒｊ　　　　ｓｄｌｓｅ输出ｒｎｃ．ｓ滋　　　　，ｔ肚，ｒｐ ”Ｃｉｏｅ丫ｔ曰 ①变初　　　　化：ｐ们ｃｃａａ “ｔ赋为ｕ；量始将ｒｎ，ｔｒ，笼皆值ｎｌｏｅｉｅＳ，ｙｔｌ②若ａｄｓ　　　　中不同时含有特征字符 “ 或 “ ｄｒｅ省” 市”及 “ 治区”或 “ 及 “ 治自市” 自区”或 “ 盟”，则转０；③截取 “ 　　　　或 “ 治区” “ 省” 自或特别行政区” 之前（包括特征字符）的字符串赋给ｐ叨ｃ，并ｒｎｏｅ利用元数据库中标准省级信息对其进行校验；④ 取“ 　　　　或 “ 之（特字的符串给州；截市” 盟” 前包括征符）字赋犯尹 ⑤ 阳尹数库中级息行匹若成功转至　　　　元据市信进配，不则 ⑦：将用与⑥ 阳尹的赋ｄ，转至　　用中值给钾并 ⑧；将 ⑦ 扭尹值赋ａ并元据标级对进行验；　　　　的给，利用数库中准区信息其校将用中ｅｒ⑧求ａｄｅ的长度，贼给拒；　　　　ｓｄｒｓ刀⑨若Ｉ为０　　　　，则转０；ｎｅ ⑩将ａｄｓ　　　　ｓｄｒ的值赋给ｓ。，删除ａｄｓｅｔ滋ｒｄｒ中相应长度的字符；ｓｅ０算法结束。　　　　６（执行只　　　　）含有省属级别而不含有市及区属级别字符的特征分词操作。例如：省辽宁沈阳铁西区小五路６号。３输入ｄｓ　　　　ｄｅａｒｊｓ！输出ｒｌｄ．鱿ｅ　　　　，以盯，ｒｔｐｖＣｏｎｅ ① 量始将ｒｎ声ｔｒｓ眺赋为 ” 　　　　化：ｐ们Ｃｉａａｒ皆值加；变初ｏｅｙｅｔ，，。②若ａｄｓ　　　　ｓｄｒ中不同时含有特征字符 “ ｅ省”或 “ 区”及 “ 省”或 “ 县”及 “ 治区” 自或“ 区”及 “ 治区”或 “ 自县，及 “ 治区” “ ，则转０；自或旗”一３一１沈阳航空工业学院硕士学位论文③截取省” 自　　 “ 或 “ 治区” 前（特征字的字赋给ｐｖｅ并利用元之包括符）符串ｏｎｒｉ，ｃ数据库中标准省级信息对其进行校验； ④读取 “ 　　　　区”或 “ 县”或 “ 旗”之前的字符串长度赋给临时变量拒；月⑤如果不大于刀则 ⑨；　　　　彻于等于，转至⑥ 取ｄ中刀字赋时量用；　　ａｒｓ前个符给临变阳尹读ｄｅｓ ⑦ 阳夕元据库中级息行糊配，不功转至　　用与数将市信进模匹若成则 ⑨； ⑧ 取数中准市信赋ｃ删除ｄ相度的符　　元据库标级息给ｉ：ａｒ中应长字：读ｌｙｄｅｓ⑨截取 “ 　　　　或 “ 或 “ 之前（区” 县” 旗” 包括特征字符）的字符串赋给ａａｒ，并利用ｅ元数据库中标准区级信息对其进行校验；⑩求ａｄｅ　　　　ｓ的长度，赋给ｌ；ｄｒｓｎｅ０若拒为０　　　　，则转０；刀０将ａｄ的值赋给ｓ。，删除ａｄ治中相应长度的字符；　　　　ｓｄｒｓｅｔ滋ｒｄ八５０算法结束。　　　　７（执行只含有市　　　　）及区属级别而不含有省属级别特征字符的分词操作．例如：奢辽宁沈阳市铁西区小五路６号。３输入ｄｓ　　　　ｓｄｅｌａｒｊ输出ｒｌｔ “，喊　　　　ｄａ班ｓｐｖｃｙｏｎ，，ｅｒｔ① 　　初化：ｐ变量始将ｒｅｍｏ则转０；，饥肚ａ阁皆值加；ｃｅｓ赋为 ” ｉ，ｔ②若ａｄｓ　　　　中不含有特征字符 “ 或 “ ｄｒｅ市” 区”及 “ 市”或 “ 县”及 “ 盟”或 “ ，旗”③ 取ｄｓ刀字赋临变量州；　　　　ｓ前个符给时招笋读ａｒ中ｄｅ④ ｔ元据省信进模匹若成则至　　ｍ与数库中级息行糊配，不功转 ⑥

手大脚插件依赖功能缺失失值45分凭多少级

我要回帖

更多关于功能级访问控制缺失的文章

随机推荐

手大脚插件依赖功能缺失失值45分凭多少级

我要回帖

更多关于 功能级访问控制缺失 的文章

随机推荐

更多关于功能级访问控制缺失的文章