视频1 视频21 视频41 视频61 视频文章1 视频文章21 视频文章41 视频文章61 推荐1 推荐3 推荐5 推荐7 推荐9 推荐11 推荐13 推荐15 推荐17 推荐19 推荐21 推荐23 推荐25 推荐27 推荐29 推荐31 推荐33 推荐35 推荐37 推荐39 推荐41 推荐43 推荐45 推荐47 推荐49 关键词1 关键词101 关键词201 关键词301 关键词401 关键词501 关键词601 关键词701 关键词801 关键词901 关键词1001 关键词1101 关键词1201 关键词1301 关键词1401 关键词1501 关键词1601 关键词1701 关键词1801 关键词1901 视频扩展1 视频扩展6 视频扩展11 视频扩展16 文章1 文章201 文章401 文章601 文章801 文章1001 资讯1 资讯501 资讯1001 资讯1501 标签1 标签501 标签1001 关键词1 关键词501 关键词1001 关键词1501 专题2001
全文检索系统整体方案设计
2025-09-28 00:46:15 责编:小OO
文档
1全文检索系统方案

1.1全文检索需求

1)系统提供模糊检索、分类搜索、高级复合搜索、全文检索、图片内容检索、跨库检索等多种检索途径;

2)支持字索引和词索引;

3)检索条件具有完整的关键词布尔逻辑运算AND、OR、NOT能力,支持复合式布尔逻辑运算查询,并且可以配合多组左括号"("与右括号")"作关键词查询优先级的设置;

4)提供用户多次递进查询的功能,用户可根据上一次查询关键词得到的检索结果集,增加查询关键词与缩小搜索日期范围,而得到更准确的查询结果集;

5)能够支持对以上文件中的中文(简体/繁体)、英文、日语、韩语内容实现关键字检索;

6)支持对Word、TXT、PDF等多种主流文档格式全文检索,并提供开发接口以支持特殊文档格式的全文检索;

7)在数据源数据发生更新时,能在索引库中反映出来,保证搜索的信息为最新,即支持增量索引机制;

8)用户可自行设定时间,让系统自动定时进行更新索引;

9)对于百万级记录数的搜索以及结合模糊搜索等查询方式,搜索时间不得超过10秒;

10)提供跨数据源、数据格式的搜索;

11)同过相关性搜索,能够把和搜索条件相关联的信息搜索出来;

12)不但能够对图片的描述信息进行搜索,还能对图片内容的检索;

13)提供COM与SOAP的搜索接口(Interface) 可让其它应用程序或查询网页能够提供用户查询入口和查询结果的呈现,用户可通过应用程序或浏览器访问全文检索服务器,提交查询条件,可在浏览器中查看检索结果;

14)查询结果集中应包含结果集总数、命中的结果文件的完整路径,以及符合关键词出现的内容片断;

15)在搜索结果集中,关键词应被标识出来,用特殊的字体及颜色和其他文字进行区别,查询者可在查询结果片断中一目了然的看到关键词出现的位置;

16)查询结果可按照关键词命中次数,命中结果文件的修改时间,大小等条件进行排序;

17)可提供用户对检索命中结果文件在索引库中进行标记,从而再次检索时,不在标记过的文件中进行查询;

1.2全文检索系统总体方案

系统将采用以下全文检索流程。

针对企业内部的信息,包括文件服务器上的文件、网站网页、ERP等系统存放信息的数据库信息、办公应用中的公文档案文档已经内容管理系统中流转的内容,本系统提供了两种数据适配器来提取其中的正文内容和属性内容,形成一个相对结构化的数据虚拟层;本系统的索引引擎(Indexer)对结构化的数据虚拟层进行中文切分词、文件特征分析和逐步索引,以及其它索引算法,生成索引数据库;使用者(user)在搜索页面中输入查询字串等搜索条件并提交给本系统后,本系统的全文检索查询引擎(Searcher)会在索引库中进行搜索,并将符合搜索条件的搜索结果返回给使用者;使用者(user)可于查询结果页面,进一步链接到信息原文查看详细内容。

对于系统管理,管理员可通过相应web方式的管理程序来管理整个系统运行环境及设置文件;并通过索引引擎(Indexer.exe)实时或定时创建索引,更新索引数据库的内容,使检索信息维持在最新状态。

1.3全文检索系统带来的效益

✓高效率的整合搜索,大幅减少组织成员在取得信息时花费的时间!

本系统和其它搜索系统只针对特定信息源搜索不同,它能对企业内部绝大多数的信息创建索引和搜索,具备强大的信息整合及快速回应能力,让企业成员以单一搜索页面、简易的操作方式,即可在最短时间内,完整、准确、及时地掌握企业内外所有信息,不必再耗费大量时间的找寻信息!

✓信息过量不会造成企业成员的信息焦虑!

通过本系统强大的索引/搜索能力,大量的信息也可在瞬间过滤出符合使用者条件的信息,不必担心迷失在漫漫的信息洪流之中!

✓非结构/非组织的信息,不再是知识管理的盲点!

文件/档案以及非经过分类管理的信息,因为附加信息稀少,往往成为知识利用上难以判断、分析的信息。本系统直接针对内容全文分析、关联,使这类信息同样可让使用者以检索方式,快速筛选利用!

✓整合容易,使用简易,导入迅速,易于接受!

套装化、模块化的设计及灵活的整合能力,能在企业内迅速的安装设置;操作方式简单,企业成员易于接受,导入方便。以最经济的时间、人力及费用成本为企业创建信息流通、充分分享的知识环境。

1.4全文检索系统平台架构

本系统基于组件化和松散耦合架构和设计,系统平台架构示意图如下:

整个系统主要分为信息整合、信息萃取和服务、应用整合三个部分。

✓信息整合

此部分主要作用是将企业内部存储于不同应用系统中的结构化信息、半结构化信息、非结构化信息通过本系统提供的两种数据适配器进行信息提取,形成一个相对结构化的数据虚拟层,以备后期信息萃取和服务。

✓信息萃取和服务

在信息整合层形成的相对结构化的数据虚拟层基础上,本系统将对其中的每笔记录进行中文切分词、索引、文件特征分析、自动分类等各种演算算法处理,形成可以提供搜索服务的索引库。用户利用本系统的搜索引擎处理提供的强大的搜索功能,如中文同音搜索、简繁体对译、模糊搜索、同义词搜索、文章概念搜索、分类浏览等,快速、准确、完整、及时、有效地搜索到符合自己搜索条件的信息。

✓应用整合

本系统还提供了完整的外部程序整合机制。所有组件均提供SDK完整开发接口,方便应用整合和应用扩展。

1.4.1信息整合

此部分主要提供对企业内外部非结构性数据信息源建立自动化数据汇入功能。根据用户实际需求,用户可以选择导入包含Text、Microsoft Office、XML、RTF、PDF、HTML、MHT、AutoCAD及E-mail(含附件文件)等格式及文件影音附件(如影片的文件名或摘要、图片的文件名或摘要、及文字)自动化建立索引数据,建立索引数据所处理之文字包括繁体中文、简体中文等;

同时用户可以选择导入数据库数据,如Oracle、 Informix、Sybase、MS  SQL等。此外和Notes系统也已经有了无缝整合,可挂载Notes Composer对nsf库中正文及附件信息索引,在做索引的过程中自动把每笔记录的权限键入索引库。

本系统提供可挂载的数据适配器(Data Adapter),将异质的数据来源与数据结构进行汇整与粹取,亦扮演将非结构的信息结构化,可以很容易地分析特殊档案格式和管理复杂的数据源结构(如递归、巢状等)的多功能设计,以方便信息检索与管理。

以 e-mail 含附件为例,e-mail Adapter 可解析 e-mail 内文,而当选购 office Adapter 后,原来的 e-mail Adapter 即可解析 office 相关的附件文件,可视需求额外购买 PDF、ZIP、RAR、OCR 等不同数据适配器,即可交互搭配使用。

搭配使用本系统 的 TXT、Microsoft Office、RTF、PDF、HTML、E-mail及 FileMeta资料提取器,将可解析Text、Microsoft Office、XML、RTF、PDF、HTML、MHT及E-mail(含附件文件)及文件影音附档(如影片的文件名或摘要、图片的文件名或摘要、及文字)等格式,包括繁体中文、简体中文、英文、Unicode等;使用数据库数据适配器,将可支持数据库数据汇入处理如Oracle、 Informix、Sybase、MS  SQL等。

1.4.2信息萃取和服务

此部分须提供对数据提取的内容所包含的信息,进行数据处理分析,包含:

✓分类模式建立自动分类功能。

✓针对非结构性数据建立词库,词库须包含同音词库、同义词库、专业词库。

✓自动分类机制与专业词库须具备自动学习与修正之功能以提升数据处理准确度。

✓可针对不同使用层级、项目进行非结构性数据权限控管。依照使用者不同等级提供不同权限的查询功能接口。

应用本系统一系列内容分析与索引核心组件群,将汇整的内容进行断词、索引、分类、文件特征等运算与处理,以便满足信息检索与信息管理的应用,提供多功能全面性的数据分析能力,可针对不同情境应用加以整合,快速达到使用者需求。

同时,用户利用本系统的搜索引擎处理提供的强大的搜索功能,如中文同音搜索、简繁体对译、模糊搜索、同义词搜索、文章概念搜索、分类浏览等,快速、准确、完整、及时、有效地搜索到符合自己搜索条件的信息。

1.4.3应用整合

完整外部程序整合机制—所有组件均提供SDK完整开发接口,方便外部整合。另外大量提供XML的方法来进行信息源更新时的同步以及权限的导入与检查工作。

1.5全文检索系统功能特点

1.5.1基本检索功能支持

✓支持跨数据源索引与整合搜索。将分散在File Server上的文件、远程网站中的网页、群组软件中的资料,以及数据库中的文字与非文字纪录,在一次搜寻条件下,整合搜寻出来。可以对近线数据、在线数据和离线数据分别建立索引库,到时可以通过索引库的选择来控制对哪些性质的数据进行搜索;

✓支持「万用字符(*、?)查询」。使用者可查询部分关键字及*(代表多于一个字)或?(代表一个字)的组合。例如:输入关键词【Chin*】,会找到【China】、【Chine】、【Chinese】等等。输入关键词【Chin?】,会找到【China】;

✓搜寻条件具有完整的布尔逻辑运算AND、OR、NOT能力,支持复合式布尔逻辑运算查询,并且可以配合多组左括号"("与右括号")"作关键词查询优先级的设定,方便查询者输入布尔组合之查询条件;

✓内建「智能型快速响应模式」(Smart cache)机制,可以提供同一种查询条件之重复使用率,提高系统资源的效益。Cache储存目录记录了Cache档案所要放置的地址,经查询过的资料或画面,第二次再进入时,可重复使用第一次查询结果;

✓支持/多字段 / 多条件检索,提高搜索精确度;单一字段内,支持AND/ OR/ NOT逻辑条件,且支持括号方式来提供条件优先权。多字段条件间,支持AND/OR/NOT逻辑条件;

1.5.2词索引与查询功能

系统中提供了传统的字索引,但是为提高查询检索的准确度,系统采用自然语言断词机制和灵活的词索引开关,用户可根据需要选择词索引或字索引。具体功能如下:

中文句子将透过智能型自动断词技术以达到词索引的效果,自动分析与断词,并建立词索引;

词索引功能通过开关灵活设置; 

检索字串首先通过自动断词,将其断词结果进行组合检索;

提供「词库」编辑器,针对断词用的「词库」进行维护和调整;使中文切分词更符合使用者的行业特点,提高查询的速度和准确度。

该功能优势如下:

✓提高精确度: 输入「民法」不会找到「人民」;

✓更小的索引空间:–通过词索引的方式,索引数据库相对字索引需要更少的磁盘空间;同样数据量下,检索时需要的Memory更少;

✓检索性能更高:配合高效算法,词索引的搜索性能相对字索引平均高出3倍以上;

1.5.3多国语系数据索引与查询

✓系统基于Unicode设计。

✓可支持多国语系(英文、繁简体中文、日文、韩文、Unicode等)混合的文件的建置与查询。

✓可支持多种编码格式的索引,包含Big5、GB2312、Unicode、UTF-8、 EUC-JP、Shift-JIS,并支持以Unicode同时输入多国语系条件进行搜寻。

✓同个数据表或一条数据库记录中可以支持多国语言混排内容;

✓一个索引数据库可以存在多国语言的不同数据;

✓可以输入多国语言的检索条件,并使用AND、OR、NOT逻辑关系;

✓检索结果中可以同时显示多国语言记录;

✓搭配多国语言同义词库,可以通过单一语言条件,得到多国语言检索结果;

1.5.4中英文模糊搜索查询功能

✓内建「中英文容错(Fuzzy)」查询功能。

✓中英文容错功能Fuzzy Search,基于文字特性,很多专有名词及词汇依情况不同,也许衍生出通用的简称,或是文字次序对调。也有可能因为模糊不明确的意象,使用者希望只需要输入一 个关键词,就能一并查询性质类似或相关之信息。比如:输入「Mobile Network」可查到「Mobile Appliance Network」等特定距离的词句、输入「产业研究」可查到「产业结构研究」、「产业….研究」等,扩展搜寻的完整性。

1.5.5近似概念词库辅助查询功能

✓可针对不同的索引库设定同义词组。如设定「电脑 $ Computer $ 计算机 」为同义词,则使用者可搜索“电脑”时,可同时查到含有“Computer”或“计算机”的信息。

✓内建18万多组中英文同义词组,具有中英文近似概念与同义词检索,并可提供词库管理工具,使用户可自行修改词库内容。

1.5.6其他检索功能

✓中文同音辅助查询功能,如输入“网骆”,启动中文同音功能后,可以搜索出以“网络”为关键字的记录;

✓英文字根 (Stemming) 辅助查询功能,输入“computing”,可以搜索出以“computer”为关键字的记录;

✓英文错误字提示功能;

✓简繁对译组件功能,输入“中国”,可以搜索出以繁体字“中国”为关键字的记录;

1.5.7搜索结果显示

✓以Web网页形式呈现查询结果,使用者可指定所欲察看的特定笔数或分页浏览。支持二次搜索功能。

✓提供「属性字段权重排序机制」,管理者可自订查询结果的排序规则,让搜寻结果按搜索者的意图显示。

✓提供「树形分类目录」,提供查询结果分类,可以让使用者进一步选取下一层目录,以缩小查询范围。

✓具有标示原文关键词功能,可以直接将原文中有关使用者输入得关键词全数标示出来,同时系统管理者可以自行设定关键词标示的颜色、大小、字型….等属性。

✓查询结果可同时显示文件抬头及重要摘要段落或者仅仅显示文件抬头以加快使用者的查询速度。

✓开发搜索接口,用户可根据开发的SDK自己开发特定形式和显示风格的搜索结果页面。

1.5.8自然语言应用组件

利用自然语言的形似相关词功能,可对数据撷取内容进行新词学习,语意分析等,可自动建立新词,提升数据处理准确度。基于自然语言应用组件,可实现相关文章查询功能、重复文章查询功能、自动摘要功能、语意查询功能、形似相关词建议功能等。从而能够通过关联组织的方式,把不同档案库中的相似、相关内容一次性的搜索出来。

✓相关文件查询

✓    文章自动摘要

1.5.9自动分类应用组件

    搭配自动分类组件,可对撷取数据进行分类,并可辅以导览式分类组件与搜寻组件进行整合,即可逐一依类别筛检过滤资料,并显示类别内符合资料。

✓导览式分类

✓自动分类

1.5.10高效数据同步功能(增量索引)

以前的全文搜索引擎在面对大资料量建立索引时,都会数据量的多少,而解决这个问题通常都是将资料量分为几个部分分开建索引。但是这种方法并无法彻底解决资料同步更新或检索的需求。本系统提供渐进式索引技术,也就是通过增量索引机制可以逐步地分别为数据库建立索引,对于异动的数据或索引,进行实时的更新。

1.5.11高可用性

本全文检索服务可以通过Layer 4 Switch 硬件进行搜寻的负载均衡,提高服务效能。若某台主机因不明原因无法对外服务,则可实时以另一台主机对外进行正常服务。

索引库可存放于网络存储设备上,让备用机共享其索引数据,使全文检索服务可以正常运行。

1.5.12可扩充性:

本系统可依不同需求扩张,分类,自然语言,数据适配器等组件,更可置换其关键性应用组件,例如:企业已使用其它分类组件,透过 本系统提供之 SDK,可取代原本之分类应用组件,且不会影响原本服务机制。

1.6大数据量全文检索解决方案

当需要建立索引的数据量达到上千万条时(大概上百个G),单个服务器检索系统在性能方面是不可能得到保证的,这时候查询一条信息所需要的时间已经远远超出了使用者的容忍范围,所以为保证全文检索系统的高性能特点,使用多台检索服务器机群来实施分布式检索成为当务之急!   

1.6.1大数据量全文检索构架图

如图所示,应用系统的所有资料分散的部署到各个索引服务器上建立索引,之后把索引好的数据存储到索引库中,用户发出一个搜索请求后,龙卷风大数据量分布式检索系统通过SOAP机制把搜索请求发送给索引服务器,然后接收到搜索请求的服务器会去到索引库中把搜索者所需资料查找出来并且把所有查询结果合并到一起通过用户设定的排序方式在前端搜索页面上显示出来。在此期间,用户发送搜索请求后,机群索引调度服务会根据索引服务器状态表把搜索请求发给空闲的服务器,充分利用整个系统的每一分资源。

1.6.2分布式技术优势

●多种数据库信息统一建立索引,支持对数据库的文件附件索引,无需对数据源进行任何改动;

●支持T级总量数据,每天G级的增量数据实现秒级数据检索,并且索引延迟时间保证在1小时以内,即实现用户对每天更新数据能够及时查询,还能保证T级历史数据的快速查询;

●整个系统具有灵活的扩展性,在系统应用过程中,随着用户需检索数据量的增加,可通过扩展索引服务器和查询服务器集群高性价比平滑升级,已经索引过的数据和原有系统的稳定性不受影响;

●高并发用户访问量支持;

1.7搜索的权限控制

IRMS提供的信息搜索并非是指人人皆可随意搜索到任何信息,而是依照组织中的角色,让搜索者只能搜索自己权限范围内的信息,而无权限访问的记录是不会被搜索出来的。

IRMS权限控制主要实现: 

✓保证存取信息的安全性

✓有该文件读取权的人或群组, 才有可能查询到此一文件

✓无该文件读取权的人或群组, 不会知道有哪些无权读取的文件存在

✓如果每个人或群组文件的读取权不同, 查询结果集就会不同

1.7.1搜索系统和应用系统权限整合方法

针对不同的应用及特定的权限规则,有多种方式可以实现IRMS搜索系统和应用系统的权限整合。主要方法包括:

1、分索引库法:此种方法适用于权限较简单,并且权限可以归为几大类的应用。如用户组分为公司领导组、部门经理组、普通员工组,每组用户内部权限相同,组之间才有权限差异。针对此种应用,可以分别针对不用的用户组创建不同的索引库,分别放置于Group_for_公司领导、Group_for_部门经理、Group_for_普通员工。搜索时,首先判断用户所在何用户组,针对不同的用户组再定向到不同的搜索库中去全文检索。

2、特殊属性过滤法:此种方法适用于信息资料源单一,并且有一特殊属性字段可以判断用户权限的情况。如数据库全文搜索时,有一字段值为授权访问该记录的所有用户或组。针对此种特殊情况,可以选择使用多字段属性过滤的方法,在搜索页面提交搜索请求后,使用该特殊属性字段过滤最终的搜索结果。

3、搜索结果过滤法:用户提交搜索后,搜索引擎搜索时并不带入权限信息,只是在搜索结果显示时,使用应用系统的权限规则来过滤搜索结果,并将符合该用户权限范围内的信息显示给搜索者。

4、内建权限规则法:搜索系统内建权限规则,管理员根据搜索信息来源的权限规则定制搜索系统的权限规则,用户提交的搜索请求搜索系统经过权限过滤后再反馈给搜索者。

5、导入权限规则法:搜索系统不内建权限系统,但提供权限导入机制。用户将应用系统的权限规则标准化后,通过搜索系统的API导入到搜索系统中。用户提交搜索请求,搜索系统经过权限过滤后再反馈给搜索者。

各种方法的比较:

适用环境优点缺点
分索引库法权限较简单,并且权限可以归为几大类的应用部署简单适用范围小
特殊属性过滤法信息资料源单一,并且有一特殊属性字段可以判断用户权限的情况部署简单适用范围小
搜索结果过滤法应用系统权限判断用时少部署简单应用系统权限规则复杂时,搜索结果权限判断将很花时间,致使搜索结果显示速度慢
内建权限规则法大部分应用系统权限系统内嵌在搜索系统中,搜索速度和显示速度快管理员需要为搜索系统索引库中的每笔记录分配权限,工作复杂
导入权限规则法大部分应用系统权限系统内嵌在搜索系统中,搜索速度和显示速度快。支持批量导入机制需要将应用系统权限规则导出为特定格式。但一旦确定模式,则可重复使用
按照以上搜索系统权限整合分析,此次应用系统涉及的搜索信息来源所包括的Documentum、OA及其它应用系统都有各自的权限规则,应采用第四或第五种权限整合方法。

IRMS全文检索系统支持第五种权限整合方法,它的主要特点包括:

✓支持实时权限信息导入和定时权限信息导入,用户现有权限规则不用做任何改动;

✓支持使用XML Export与Import的机制提供信息内容权限控管的整合接口;

✓支持权限信息导出为XML文件后,再批量XML文件导入的功能;

✓提供权限组件及 SDK,可单独操作权限组件进行不同的权限系统整合;

✓利用XML进行权限整合描述,和其它系统的权限架构做整合。整合后,不同的权限使用者使用搜寻引擎、自然语言等应用组件时,将得到符合各自权限的数据;

✓权限规则与 IRMS 可以完全分离, 增加可重用性。

1.7.2IRMS和Domino权限整合实例

龙卷风公司已经开发出成熟的Domino适配器,实现将Domino中的文档建立索引,实现全文检索。

1)    通过管理界面设定需要如何连接Domino NSF数据库,同时设定索引哪个View或表及其它信息。

2)    IRMS Domino Composer通过以上配置实现从Domino中提取文档内容,创建索引。

对于Domino ACL信息,龙卷风公司已经开发出一通用Domino权限导出工具,实现一般的Domino数据库权限信息的导出。再结合IRMS提供的SDK和XML导入工具,即可实现Domino数据库权限信息整合到索引库中,最终实现搜索用户带权限信息搜索,即搜索者只能搜索自己权限范围内的信息,而无权限访问的记录是不会被搜索出来的。

XML文件样例:

1

4570

            < AllowPerson>CN=Peter/O=tornado

CN=Boirs/O=tornado

CN=jessie/O=tornado

CN=hello/O=tornado

CN=badboy/O=tornado

2

6174

-Default-

CN=Boirs/O=tornado

目前IRMS支持平面结构的权限规则。当用户应用系统使用较多的嵌套用户组和嵌套角色时,则需要进行客制化开发。开发周期视嵌套复杂度和应用系统权限API灵活程度而定。

1.7.3IRMS和应用系统权限整合总结

综上所述,IRMS采用了及其灵活和方便的一种权限整合方式。系统管理员只要将其应用系统的权限规则导出成以下表格形式,IRMS即可方便的导入到索引库中,从而在索引库层实现搜索者只能搜索自己权限范围内的信息,而无权限访问的记录是不会被搜索出来的。

AllowPersonDenyPersonAllowGroupDenyPerson
记录一
记录二
记录N

1.7.4IRMS整合拓扑图

认证(SSO)

                                     

统一身份管理系统

搜索

索引库

分类库

权限库

索引

                  

1.8概念式搜索

概念式搜索并非我们平时的关键字搜索,她的具体含义是说词与词之间如果包含了整体和部分的关系或者是协同的关系或者是例证的关系或者是同义的关系以及或者是同类别的关系时,这些词就可以说成是概念上一样的词,在搜索一个词的时候,其他和这个词概念相同的词也会被呈现在搜索结果中。

例如毒品和海洛因、等在概念上是属于整体和部分的关系,在输入关键字为毒品时,海洛因、也会被查找出来,但是如果输入海洛因或者,毒品就不会被查找出来,这点说明了概念式搜索和同义词搜索具有本质上的区别。概念式搜索概念图如下所示:下载本文

显示全文
专题