健康养生网
性爱 | 减肥 | 瑜伽 | 美容 | 心理
健身 | 整形 | 饮食 | 测评 | 增肥
查找疾病 | 查找症状 | 生活急救
查找医院 | 查找药品 | 健康体检
健康资讯 | 健康文摘
行业动态 | 世间男女

家园圈子
论坛问答
儿科 妇科 男科 糖尿病 不孕不育 肝病科 胃病科 心脑血管 肿瘤科 肾病科 皮肤科 乳腺癌 颈椎 高血压 过敏
  今日天气:
搜索:
   首页 >> 性爱 >> 保健社区 >> 正文
SQL Server 2005 数据转换办事中的恍惚查找和恍惚分组streetaddr
作者:admin 时间: 2013-02-13 03:23 来源:未知 点击:
3.正在数据流图上,从 Toolbox 拖动 OLE DB 源和目的转换,然后经过利用一个恍惚查找的真例毗连它们。 ?利用更轻量的 DTExec.exe 而非完备的 DTS 设计器来正在出产中履行包。 9.要运转您圆才建立的包,正在“办理圆案资本办理器”窗心中鼠标左击其名称,然后
 

  3.正在数据流图上,从 Toolbox 拖动 OLE DB 源和目的转换,然后经过利用一个恍惚查找的真例毗连它们。

  ?利用更轻量的 DTExec.exe 而非完备的 DTS 设计器来正在出产中履行包。

  9.要运转您圆才建立的包,正在“办理圆案资本办理器”窗心中鼠标左击其名称,然后选择 Execute。

  4.双击恍惚分组来挨开自界说 UI,选择 Available Input Columns(来自 OLE DB 源)中所有项的复选框,然后单击 OK。

  ?来自援用表的标识表记标帜频率。 十分频仍的标识表记标帜凡是是被以为险些不会供给对婚配有效的信息。 相对希少的标识表记标帜被以为是它们正在此中呈现的行的特征。

  要求的类似性果子越年夜,恍惚查找搜刮就越快。 那是由于正在要求高类似性的搜刮中,恍惚查找更积极地扔却元组。

  若何诠释后果取决于您的利用法式目的。 若是您想隐现存正在一些类似的婚配,您应当设置一个高类似性阀值要求并挑选高置信度的婚配。 当援用表有一个输进元组的附近婚配时,类似性为高。 若是正在所有援用元组中有一个记真很附近地婚配输进元组,那末置信度也为高。 是以,您可以利用类似性和置信度值来肯定您想要若何进一步处置一个恍惚查找的后果。

  要求恍惚查找返回的婚配越多,搜刮就越缓。 那是由于会延续搜刮到候选元组的列表中,直至找到充足的婚配。

  要机闭最简单的恍惚查找包:

  若是您想要存储 ETI 然则援用数据不时地变动,您还可以启用 Maintain stored index。 那个功效正在您的 ETI 上安拆一个触收器,它检测对根底援用数据的点窜。 只要如许的点窜产生,此触收器将响应的变动传递到 ETI,从而使其连结为最新。 若是您不安拆表,对您的援用表所做的变动将正在出有的环境下使任何干联的 ETI 无效。

  ?往除您管道中未利用的列,由于其需要内存。

  列宽

  正如利用恍惚查找,恍惚分组要求您设置 MinSimilarity 阀值。 只要元组彼此的类似性高于正在 UI 中设置的阀值时,它们才会被分组,记住那一点是很主要的。 是以,若是您用一个低阀值运转恍惚分组并收现很不近似的元组被分组到一同,那末就进步类似性设置。恍惚分组将每一个元组的类似性陈述给该组的代表元组。 代表元组的选择是出法影响的。 若是您想要拆分一个组,将所需的类似性设置为高于陈述数。 若是被分组的元组过少,您可以对类似性值履行一个两进造搜刮,以肯定为对某些元组停止分组,将类似性阀值设置为多低开适。 例如,若是设置为 0.9 致使组太少,而 0.7 致使组太多,那末试一下 0.8。

  ?恍惚查找和恍惚分组利用一个自界说的、思索编纂间隔(例如,“hits”与“bit”的间隔为 2)、标识表记标帜数、标识表记标帜挨次和相对频率的于域的间隔函数。 后果,与全文搜刮比拟,恍惚查找和恍惚分组取得的分辨力要邃稀很多,由于它们捕捉了更具体的数据构造。

  正在以下各节中陈述的所有尝试趋向线都是利用以下设置取得的:

  您还可以测验考试利用恍惚查找为您的输进数据建立一个 ETI,并经过利用一个年夜值以返回该数目的婚配和高阀值以到达所需的类似性,来查找特定的行。 不中,恍惚分组开并了以下两项内容:将元组适本地回类为多个反复项的集开的附加智能及使代表范例化的。

  诠释后果

  取决于您输进数据的年夜小,您大概会正在恍惚分组缓冲数据时碰到延早。 正在行进一步沿管道活动之前,恍惚分组挪用恍惚查找来为输进数据建立一个 ETI,并将 ETI 存储正在姑且毗连上。 后果是,可调年夜小的对象大概会被放置正在该毗连上。 输进上的 ETI 建立后,所有的输进行都被处置然后后果被写进到目的。 有闭分组是若何履行的更多信息,请本文后里的最有用地利用恍惚分组。

  图 1. 最简单的恍惚查找包

  1.挨开 DTS 设计器。

  7.为 Available Lookup Columns 中的所有项选择复选框,然后单击 OK。

  不中,那个检索进程其真不是齐备的。 例如,若是援用标识表记标帜 Pattel 正在输进中被误拼为 Patel(只要一个 t),出有一个输进标识表记标帜片断(Pate 和 atel)会婚配索引援用片断(Patt、atte 和 ttel)。 后果是,恍惚查找必需依靠存正在于元组中的其他标识表记标帜来履行准确的检索。 若是正在行中不存正在其他标识表记标帜,恍惚查找将不克不及恢复准确的援用行。 然则,对包罗多于一个标识表记标帜的行来讲,恍惚查找凡是是可以或许基于输进中的标识表记标帜和片断获得几个候选行。

  1、简介

  下里的部门供给了利用并领会恍惚查找和恍惚分组的分步指南,而且包罗了那些转换的一些真现和机能圆里的内容,那对用户来讲很有效。 本辞意正在经过更具体地诠释恍惚查找和恍惚分组的某些圆里来弥补正在线册本。 有闭更多闭于选项和设置装备摆设参数圆里的信息,请正在线册本项。 那些项包罗的信息有:列宽、条理构造、标识表记标帜处置选项和其他有效的参数,那些参数供给一些圆式,以参加可用来进步某些圆案的精确性的域常识。

  ?一台有 Intel Pentium III 1 千兆赫 (GHz) 处置器的办事器、 51SQL Server 2005 数据转换办事中的恍惚查找和恍惚分组streetaddres2 兆字节 (MB) 的 RAM,和 Microsoft Windows Server 2003 企业版。

  图 5. 与 MinSimilarity=0.8 的输进年夜小相对的恍惚分组工夫

  正在运转时产生了甚么

  图 4. 与援用表的年夜小相对的恍惚查找运转工夫

  2.建立一个新的 ETL 项目,添加一个新包,单击 Data Flow 选项卡,然后启受 add a data flow 项选项。

  正在默许环境下,恍惚分组输出一些名为 _key_out 和 _key_in 的附加列。 当行流经管道时,恍惚分组为其每个分派一个 ID,即 _key_in。 当恍惚分组将某一行集开分组时,它肯定哪个行应当作为代表。 它然后将组中的行的所有 _key_out 列分派为该代表的 _key_in 值。 后果是,若是您希看只将代表行写进到您的输出,您可以经过一个只选择 _key_in 即是 _key_out 的行的前提拆分转换来挑选恍惚分组输出。

  设置注重事项

  恍惚查找使得您可以或许将输进记真与援用表中的无错的、尺度化的记真婚配。 婚配进程对正在输进记真中存正在的毛病有回复复兴功效。恍惚查找返回最附近的婚配并指出婚配的量量。 例如,果为输进数据中的录进毛病或其他毛病,正在一次新的收卖购卖中输进的客户信息(名称和地点)大概与包罗所有当前客户的客户援用表中的任何记真都不完整婚配。纵然不存正在完整婚配,恍惚查找也会从客户援用表返回最好婚配记真,并供给怀抱值以解释婚配量量。

  注 表功效正在 Beta 2 版中弗成用。

  恍惚查找机能

  办法

  3、最有用地利用恍惚查找

  5、最有用地利用恍惚分组

  ?为婚配给出的援用元组而需要对输进元组做的标识表记标帜或字符、删除、替代和从头排序的数目。 例如,输进 122 First Lane 极可能被以为比输进 22 N.E. 1st Ln & Leary Way 更靠近援用 122 First Ln。

  ?每一个恍惚婚配正在其上履行的字符串列的仄均标识表记标帜数也对机能有影响。 恍惚转换其真不料味着文档检索。 对较长的字段(多于 20 个标识表记标帜),利用 SQL Server 全文索引功效大概会更有用力。

  4、恍惚分组进门

  ?由于它们不但利用编纂间隔,恍惚查找和恍惚分组不轻易被变更,并且与只利用编纂间隔的圆式比拟,可以或许检测出更高级的形式。

  恍惚查找可以经过利用破坏的或不完备的字符串闭头字查找年夜型表中的数据。 例如,若是您想要按名称和地点查找客户信息,您可以利用恍惚查找来查找那些信息,纵然您的输进与您的援用表中所存储的记真其真不完整婚配。 用于恍惚查找的最简单的包是由包罗一个源、一个恍惚查找转换和一个目的的单个 DTS 数据流使命构成(图 1)。

  对频频呈现的其援用表比凡是是的输进表年夜良多的恍惚查找使命,您应当思索估计算索引。 正在那些环境下,从头建立索引会正在现真查找所破费的运转工夫中占安排职位,而那使得办理附加表十分值得。

  恍惚查找还为每一个婚配援用记真返回一个置信量度。 若是所有婚配都一样附近,它们每个的置信度约即是 1/n。 置信度与类似性的差别的地圆正在于,它不但是输进行和其所限制的援用行的一个函数,它取决于返回的全部后果集,大概还取决于下一个最好可用援用行。

  与恍惚查找比拟,恍惚分组需要调整的内部参数较少,不中,领会它的一些内部机造会帮闲您取得最好机能。恍惚分组正在背景利用恍惚查找来履行分组。 例如,恍惚分组将其标识表记标帜化的字符串一成不变地传递给恍惚查找。 正在运转时,恍惚分组根据输进数据利用恍惚查找建立一个姑且 ETI,并用其肯定哪些输进行是彼此附近的。恍惚分组查抄每一个输进行,并对数据履行多种恍惚查找查询,同时自顺应地设置 MinSimilarity 阀值。 根据得回的后果数,由它生成组。

  2.把 OLE DB 源和目的转换拖动到一个数据流上,并经过利用恍惚分组的一个真例毗连它们。

  图 6. 与 20K 行的 MinSimilarity 阀值相对的恍惚分组工夫

  注 那个别系构造不开用于恍惚分组。

  1.挨开 DTS 设计器。

  中国硬件网:果为拼写毛病、截断、贫累或的标识表记标帜、空字段、不测的缩略语和其他不法则题目,现真的数据是“有题目”的。 是以,正在数据仓库项目中,很年夜一部门的工夫和都破费正在了提取、转换和加载 (ETL) 阶段。 正在 ETL 阶段,新数据被清算、尺度化,并使其与现稀有据分歧。

  恍惚分组使您可以或许标识一个表中的记真的组 ― 正在那个表中每一个组都大概对应沟通的现真真体。 分组对正在现真数据中不雅测到的常睹毛病有回复复兴功效,由于每组中的记真大概彼此不沟通但彼此很类似。 例如,对将一个客户援用表中描写每一个现真客户的所有记真回类到一同,恍惚分组是很有效的。

  运转恍惚查找的尾要步调是建立 ETI、履行查找和查抄输出。 以下部门供给了闭于那些步调的每步的具体信息。

  恍惚分组比恍惚查找依靠的变量更少。 影响恍惚分组机能的尾要变量是输进数据年夜小。 图 5 展现了当输进数据变年夜后,本钱变革呈线性。 图表前脸部门的非线性是果为 ETI 的建立工夫。 跟着婚配阀值的增年夜,由于找不到类似的元组来建立分组,履行工夫末究会减小。 那隐现正在图 6 中。图 6 展现出数据的集布饰演了主要脚色,并且大概致使运转工夫的一些非线性变革。 要注重的是,运转年夜的恍惚分组使命,会致使您指定作为姑且毗连的办事器上的姑且对象也很年夜。 正在恍惚分组预处置步调中,DTS 管道大概看来是冻结的。 若是产生那类环境,您可以经过不雅测办事器上姑且对象的年夜小来停顿。

  虽然其界里简单,但恍惚查找和恍惚分组是复纯的进程,领会其机能需要一些剖析。 以下各节诠释了知识趣能题目并供给了一些办法的示例。 正如您将要看到的,恍惚查找和恍惚分组机能的尾要决议身分是数据年夜小。 对恍惚查找和恍惚分组来讲,那是指输进行、标识表记标帜和字节的数目。 对恍惚查找,还有闭于援用数据年夜小的附加注重事项。 主要的决议身分是可用的计较资本,包罗内存、数据库办事器上的空间、收集带宽,和设置那些资本的圆式。

  决议恍惚查找机能的两个尾要变量是援用数据的年夜小和输进数据的年夜小。 那些变量与恍惚查找的两个阶段对应: 建立 ETI 和现真履行查找。 总的来讲,那些使命正在其各自的输进年夜小上是线性变革的。 取决于您的输进的年夜小,现真的查找工夫大概少于或多于 ETI 建立工夫。

  5.双击 Fuzzy Lookup 挨开自界说用户界里 (UI)。 从 Reference table name 下拉菜单选择您希看转换的毗连和表,指向已存储的援用数据。

  ETI 的年夜小也影响运转工夫。 ETI 包罗的数据越多,它的利用就越高贵,由于那透露表现需要更年夜的搜刮空间。 图 4 申明了与流动输进年夜小的援用表年夜小相对的恍惚查找的运转工夫机能。 图 4 中的曲线也取决于对正在查找工夫中饰演主要脚色的差别业的标识表记标帜集布。 有更多内存的话可以或许减轻年夜的援用表和 ETI 的影响。 正在运转时,恍惚查找将部门 ETI 缓存正在内存里,其值最高即是 MaxMemoryUsage 自界说属性中指定的束缚年夜小。 必需利用高级编纂器来设置那个。

  6.要运转您圆才建立的包,正在“办理圆案资本办理器”窗心中鼠标左击其名称,然后选择 Execute。

  您大概还想方法会为何出有获得某些行。 尾要的缘由是 ETI 和恍惚查找检索战略。 当恍惚查找索引一个标识表记标帜(如 committee)时,它也索引子标识表记标帜元素 comm.、ommi、mmit、mitt、itte、ttee。 那个圆案有助于进步检索和从输进毛病恢复的速度。 例如,若是 committee 呈现正在援用数据中,而输进的是 comittee(只要一个 m),恍惚查找大概可以或许经过查找子标识表记标帜 mitt 来找到准确的援用行,纵然出有检索到完备输进标识表记标帜。 那就是恍惚查找索引被称为“容错”的缘由之一。

  6、领会机能

  对恍惚查找和恍惚分组机能的最年夜影响来自于所利用数据的年夜小。 正在恍惚查找中,那是用和输进表的年夜小。 正在恍惚分组中,那是指输进表的年夜小。 输进的年夜小与两个圆里有闭系:

  若是您想查看每一个输进的多个婚配,您可以将 Maximum matches to output per lookup 属性设置为一个年夜于 1 的值 n。那末恍惚查找会返回顶部的 n 个婚配。 不中,为每一个输进记真查找婚配所需的工夫也增添了。 选择一个高 n 值纷歧定老是返回 n 个婚配,由于纵然当 MinSimilarity 设置为 0 时,恍惚查找也大概会以为某些行过于不类似而不返回。 有闭更多闭于对机能的影响的信息,请本文后里的领会机能。

  要从恍惚查找和恍惚分组取得最好机能,遵守闭于内存利用和系统构造的一些本则是很有效途的。

  注 是出法强造恍惚分组对两个元组分组的。 纵然将类似性设置为零也纷歧定会返回带有所有元组的一个单个组。 由于组的量量极年夜地取决于您的数据的特定语义,所以真验是找出您的利用法式的准确设置的独一圆式。

  ?恍惚查找和恍惚分组严稀集成正在 DTS 中,那使它们对 SQL Server 2005 的 ETL 使命来讲易于利用,并且无需或只需很少的自界说编程。

  恍惚查找和恍惚分组转换是于域的基元,可以有助于数据清算和筹办。 它们采取基于标识表记标帜的间隔概念 ― 您可用于对您的数据履行详尽的查找和分组操作。 闭于间隔函数和该组件的团体系统构造的进一步的具体信息,可以鄙人里援用的研讨论文中找到。 由于恍惚查找和恍惚分组是作为 DTS 组件真现的,您可以正在较年夜的 ETI 进程中透明地利用它们,并使用 DTS 根底构造,如日记记真、事务和毛病,不必利用自界说编程,从而制止了相干费用。 虽然需要一些资本来计较转换,但恍惚查找和恍惚分组将曾几什么时候、不消年夜量脚动干涉干与和自界说对象就难于完成或出法完成的操作主动化了。

  注 那个表必需包罗一些可供恍惚分组停止剖析的字符串列。

  图 3 申明了与援用表年夜小相对的建立 ETI 所需的工夫。 如前里所诠释的,建立 ETI 可以履行一次并将后果保留,从而制止每次都由于建立造成开消。 由此获得的 ETI 的年夜小最高是索引援用列的年夜小的两倍。 注重一些 DTS 管道计数器正在建立年夜型 ETI 的时间大概看来是冻结的。 您可以经过不雅测办事器上表的增加来停顿。

  果为 ETI 的机闭本钱果援用数据年夜小的增加而变得越收高贵,恍惚查找供给一个选项,可以将 ETI 存储正在办事器上,往后可以从头利用。 那个选项使您可以或许制止正在每次运转恍惚查找时都从头建立一个 ETI。 若是您的 ETI 会破费太多的工夫而不克不及每次运转都重修,思索建立一次而正在接下来的运转中对其停止重用。 要做到那一点,正在 Reference Table 选项卡上选择 Store new index,然后指定一个表名称。

  注 ETI 大概会变得相当巨年夜,所以计划办事器空间大概是需要的。 正在最坏的环境下,ETI 大概会是援用表的索引行中的数据年夜小的两倍。

  正在 ETI 建立后,所有输进行都被处置然后后果被写进到目的。 经过隐现由每一个组件处置的行数,DTS 设计器为您供给闭于管道进度的反馈。 您也能够经过鼠标左击恍惚查找和 OLE DB 目的之间的毗连器将一个 DataViewer 放置正在管道上。 那许可您及时看到那些恍惚查找与您的输进行婚配的行。 除婚配元组,恍惚查找还输出可托度和类似性百分比。 有闭更多闭于可托度和类似性百分比的信息,请本文后里的诠释后果。

  3.经过选择一个毗连和表名称,将 OLE DB 源指向包罗有大概反复的数据的表。

  8.将 OLE DB 目的指向您可觉得其编写新表的毗连,然后单击 New。 启受默许建立语句,现正在您已筹办好运转恍惚查找了。

  婚配前提包罗:

  6.正在 Columns 选项卡上,将您想要比力的项从 Available Input Columns(来自 OLE DB 源)拖动到 Available Lookup Columns(来自援用表)。 例如,您大概希看将输进中的 StreetAddress 与援用表中的 Address 比拟力。

  ?与 DTS 客户端运转正在统一台机械上的 SQL Server。

  正在一些环境下,您大概需要更周稀地查抄数据。 例如,恍惚查找大概会以为 CA 和 WA 彼此近似,纵然正在地点表的状况列中那两个字符串正在语义上相差甚近。 由于恍惚查找是于域的,您必需将一些常识编码到您的 DTS 管道中。 正在此例中,您大概希看查找一个 State 的切确婚配或将此列的 MatchContribution 改成一个更年夜的数,好比 5,那可经过利用高级编纂器(要挨开高级编纂器,单击设计器中的恍惚查找组件,然后单击 Properties 窗格中的 ShowAdvanced Editor)完成。 另中一种圆式是,您可以利用 Conditional Split 转换起尾查找 State 的切确婚配,然后若是不存正在切确婚配,再履行恍惚查找。

  4.经过选择一个毗连和包罗有题目的数据的输进表,将 OLE DB 源指向您的新数据。 您的数据必需包罗一些字符串列。

  2、恍惚查找进门

  果为拼写毛病、截断、贫累或的标识表记标帜、空字段、不测的缩略语和其他不法则题目,现真的数据是“有题目”的。 是以,正在数据仓库项目中,很年夜一部门的工夫和都破费正在了提取、转换和加载 (ETL) 阶段。 正在 ETL 阶段,新数据被清算、尺度化,并使其与现稀有据分歧。 正在 Microsoft SQL Server 2005 中可用的恍惚查找和恍惚分组转换,有助于使 ETL 进程正在碰到若干种正在现真数据中不雅测到的常睹毛病时更容易回复复兴。它们办理普通的婚配和分组题目,而无需特定于域的法则和剧本的专家集开。 经过为您的域自界说恍惚查找和恍惚分组,您可使用数据转换办事 (Data Transformation Services,DTS) 设计器内的通用数据清算算法,并制止建立复纯的自界说法则和代码。

  您可以利用恍惚分组来检测有字符串属性的行的集开中的“恍惚”或近似的副本。 例如,您可以利用恍惚分组开并来自差别部分的客户表。 恍惚分组利用的最简单的包由一个包罗一个源、一个恍惚分组转换和一个目的的单个 DTS 数据流使命构成.

  排正在数据年夜小对机能的影响以后,对机能的最年夜影响来自于剩下的转换参数,如要返回的婚配数、所需的类似性阀值,和对其停止婚配的列的数目。

  图 3. 与援用表年夜小相对的 ETI 建立工夫

  若是您选择正在统一台计较机上运转 DTS 客户端和办事器,您将会制止潜正在的收集题目,然则大概碰到内存争用。 您可以利用 sp_configure 并将 set max server memory 设置设为 256 以减轻两个历程之间的内存争用。 您还可以利用 DTS 设计器中的高级编纂器设置 MaxMemoryUsage Fuzzy Lookup 自界说属性。

  正在运转时,恍惚查找利用 ETI 查找其输进的最好婚配。 正在肯定最好婚配时,最主要的参数是 MinSimilarity 阀值。 您可以经过利用恍惚查找UI 来设置那个自界说属性。 援用元组只要正在其与输进充足类似时才会被返回。 是以,若是您设置了一个很高的类似性要求,恍惚查找思索的候选也会较少,并且后果大概是不返回任何婚配。 若是您将 MinSimilarity 设置得低,恍惚查找将思索更多的候选,而更有大概找到一个婚配,但搜刮大概会用往更长的工夫。

  ?果为它们完整是标识表记标帜驱动的,恍惚查找和恍惚分组不像 soundex 那样有依靠于说话的组件。

  领会容错索引

  对年夜的恍惚查找输进使命,您大概想要思索将多个 DTS 客户端与一台中心办事器一同利用。 正在那个设置中,其中央办事器启载援用表和估计算的 ETI。 经过利用中心援用表和 ETI,每一个 DTS 客户端对该年夜输进表使命的一部门履行恍惚查找。 当恍惚查找完成后,您从头开并由各个 DTS 客户端生成的所有输出表。

  以下各节展现了一些具体的恍惚查找和恍惚分组机能图表。 那些图表旨正在转换的趋向,而不是给出尽对数字。 一些图表表达对一个基准怀抱值增添或削减的比例。 正在那些环境下,该图表可以或许被用于细略揣度多年夜的输进年夜小增加会致使运转工夫的加倍。

  5.将 OLE DB 目的指向您可觉得其编写新表的毗连,然后单击 New。 启受默许建立语句,现正在您已筹办好运转恍惚分组了。

  恍惚分组机能

  恍惚查找和恍惚分组为复纯的、常碰到的数据清算题目供给易用的办理圆案。 虽然它们与现有的诸如 soundex、基于法则的系统、基于编纂间隔的系统及全文搜刮等现有圆式有一些联系,然则恍惚查找和恍惚分组有一些优势:

  ?制止正在输进中利用长 varchar 列,由于它们由 DTS 管道转换为流动宽度的 char 列。

  要构建最简单的恍惚分组包:

  ?行和列的数目对机能有最年夜的影响。 您有的数据越多,恍惚查找和恍惚分组所需要的资本就越多。 以下各节中的数字展现了差别圆案下的特定命据。

  小结

  设置准确的阀值取决于您的利用法式和数据的性量。 若是您要求一个正在您的输进和援用之间的附近的婚配,您应当思索为 MinSimilarity 设置一个年夜值,如 0.95。 若是您正在停止一个研讨性的项目,您大概会对查抄强婚配与附近婚配一样感乐趣,那末您应当将 MinSimilarity 设置为一个较低的值,如 0.1。 并出有可以用于肯定那个规模的流动例则,所以您对数据设置停止真验。 查看频频运转的输出可以供设置最优值思索。 例如,您履行第一次运转利用的阀值为 0.1。 您不雅测到一个特定的输进与一个类似性为 0.2 的特定的输出婚配。 若是对您的利用法式来讲此元组过于不类似(具体信息请诠释后果),第两次运转您可以将 MinSimilarity 设置为 0.3,从而解除与其过于不类似的婚配。 正在一个小的测试集上反复此进程并频频数次测试设置,那会帮闲您肯定甚么设置对您的利用法式是开适的。

  ?经过 varchar 字段的转换,将所稀有据传递到长度与列中最长的项相等的流动长度 char 字段。

  要将正在您计较机上的内存要求最小化:

  DTS 设计器运转此包,并供给闭于管道的具体的可视反馈。 取决于援用数据的年夜小,您大概会注重到正在容错索引 (Error-Tolerant Index,ETI) 建立时的延早。 ETI 是恍惚查找正在运转时利用的主数据构造。

  恍惚查找经过索引正在援用数据和援用行 ID 中呈现的标识表记标帜建立 ETI。 若是您将 ETI 存储正在了办事器上,您可以经过从当选择一些行来查看其内容。 每一个行由一个索引标识表记标帜和包罗该标识表记标帜的援用行 ID 序列构成。 正在地点示例中,若是您的援用数据包罗 N.E. 8th St,ETI 将包罗 、N、E、8th 和St. 的标识表记标帜项。 以下是 ETI 若何随援用数据而增加: 正在援用表中有越多的独一标识表记标帜和越多的行,ETI 中就会有越多的项和越长的列表。 有闭更多闭于 ETI 的年夜小若何随援用数据而增加的信息,请本文后里的领会机能。 标识表记标帜化进程是经过恍惚查找自界说属性 delimiter string 控造的。 例如,若是您想要索引 N.E.,而不是 N 和 E,则请将句点从分隔符列表删除。 后果是 N.E. 作为一个零丁的标识表记标帜正在 ETI 中隐现,并且会正在运转时作为一个单位被查找。 果为分隔符的全局利用,如 First.Avenue 也作为一个零丁的标识表记标帜隐现。

我要说两句 ]  





  相关内容
streetaddresPowershell办理
SQL Server 2005 数据转换办
利用Servlet和JavaServerPag
streetaddresSQL Server 200
address是什么意思中国足协
address是什么意思雅思听力
干净工自称为吴敬梓陵守墓多
下一代互联网是啥样每颗沙子
address是什么意思渤海租赁
address是什么意思正在网上
---------------------------------- ------------
用户名: 密 码: 匿名发布
 
热门文章  
·小区健身器材带病上岗 健身不成
·居平易近室第小区的无线视频圆案
·小区宽带“hold不住”了-搜狐转
·小区宽带三网融会”试点扩容 天
·54个楼道里竟有9000多小告白 小
·小区房产证出办妥 业主拒交物业
·小区宽带播片子遭著作权人索赚
·小区英文翻译古城与现代的齐备逾
·电信秋节后宽带免费提速-小区宽
·networkaddre不给IP?不怕!若何
·利用Servlet和JavaServerPages的
·ZigBee无线通信手艺 真现智能家
 
点击排行  
·小区适合做什么生意那年初做甚么
·小区适合做什么生意城村经济导报
·小区适合做什么生意本人创业做甚
·小区适合做什么生意生果生意抢滩
·小区适合做什么生意曾的英雄们过
·小区适合做什么生意投资商展需慎
·小区健身器材破坏 可挨卖后德律
·小区物业办理职责该怎样划分2012
·多小区宽带互换机被盗 25岁须眉
·智能化室第小区视频系统的构建要
·5县市半年内交衡宇维修金 公积金
·广聚商帮 厚德双赢 安徽广德地皮
年轻白领患上
年轻白领患上
父母对打孩子
父母对打孩子
六岁幼童患上
六岁幼童患上
养宠物小心宠
养宠物小心宠
女性回家并非
女性回家并非
四分之一大学
四分之一大学

 

网站简介 | 版权声明 | 联系我们 | 友情链接 | 招聘信息 | 广告服务
Copyright © 2002-2011 健康养生网 版权所有
吉ICP备09009174号