当前位置: 首页> We7站群系统>扩展插件

全文检索系统

IRMS R2 的设计理念是以一种组件化、松散偶合的架构平台所设计的,期望协助企业在面对日趋复杂和不同的应用平台时,能将信息检索技术更深入的嵌入企业的应用基础平台上。IRMS R2 的设计的优势能让软件开发商、系统整合商和经销商能够将信息检索技术作为一应用基础平台,进而对企业异质资料提供更有价值,更实时性及更具相关性的搜索服务。

一、IRMS 平台特色

多语系支持

•  以 Unicode 为基础的设计。

•  可支持多国语系(英文、繁简体中文、日文、西欧语系、 Unicode 等)混合的文件的建置与查询。

•  可支持多种编码格式的索引,包含 Big5 、 GB2312 、 Unicode 、 UTF-8 、 EUC-JP 、 Shift-JIS ,并支持以 Unicode 同时输入多国语系条件进行搜寻。

管理主控台

•  提供词库、同义词管理的接口,使用者可自行修改词库内容。

•  提供管理接口,可透过管理接口进行远程 IRMS 管理设定。

组件化整合式平台

•  采组件化设计,是一个开放式、具弹性的平台,各组件可随插即用,使开发更具延展扩充性。

•  Tornado 将不断推出更多 IR 相关模块及资料撷取组件,使用更为便利。

跨平台的程序开发

•  提供 COM 和 Java 等两种程序整合接口,可轻易结合 ASP 及 JSP ,更可用于弹性设计与整合索引数据库的建立与管理者操作接口、使用者搜寻接口、索引数据库内容浏览等应用。

•  针对特殊档案,提供 Data Adapter 的 SDK ,方便使用者进行客制化或二次开发整合。

权限整合

•  可使用 XML Export 与 Import 的机制提供信息内容权限控管的整合接口。

•  利用 XML 进行权限整合描述,和其它系统的权限架构做整合。整合后,不同的权限使用者使用时,将得到符合各自权限的信息。

内文资料储存同步化

•  开放式内文数据储存,针对新增或修改的数据,做实时内文及索引的同步更新,真正满足对资料实时性与一致性的查询需求,加快索引更新时间同时减少硬件负担,大幅提高系统效率。

•  Universal Index 索引整合技术,可将来自不同资料源的资料内容,统一建置在一个索引数据库,透过资料源的事先整合,大幅提高系统的执行效能

二、Search 搜寻模块产品规格

查询功能

中英文查询功能

•  搜寻条件具有完整的布尔逻辑运算 AND 、 OR 、 NOT 能力,支持复合式布尔逻辑运算查询,并且可以配合多组左括号 "(" 与右括号 ")" 作关键词查询优先级的设定,方便查询者输入布尔组合之查询条件。

•  支持「中英文万用字符( * 、 ? )查询」。英文单字是由多个英文字母组成的,使用者可查询部分英文字及 *( 代表多于一个英文字母 ) 或 ?( 代表一个英文字母 ) 的组合。

•  例如:输入关键词【 Chin* 】,会找到【 China 】、【 Chine 】、【 Chinese 】等等。输入关键词【 Chin? 】,会找到【 China 】。

•  内建「智能型快速响应模式」 (Smart cache) 机制,可以提供同一种查询条件之重复使用率,提高系统资源的效益。 Cache 储存目录记录了 Cache 档案所要放置的地址,经查询过的资料或画面,第二次再进入时,可重复使用第一次查询结果。

•  英数字全角半角互换功能,可将abc123 转换成 abc123 。

中英文同义词查询

•  「中英文同义词组查询功能」。 可针对不同的索引库设定同义词组。如设定「 网际网络 $ Internet $ 互联网 」,使用者可自行设定「网际网络」查到含有「 Internet 」或「互联网」的信息。

•  内建 18 万多组中英文同义词组,具有中英文近似概念与同义词检索,并可提供词库管理工具,使用户可自行修改词库内容。

中英文容错查询

•  内建「中英文容错( Fuzzy )」查询功能。

•  中英文容错功能 Fuzzy Search ,基于文字特性,很多专有名词及词汇依情况不同,也许衍生出通用的简称,也有可能因为模糊不明确的意象,使用者希望只需要输入一 个关键词,就能一并查询性质类似或相关之信息。

•  比如:输入「 Mobile Network 」可查到「 Mobile Appliance Network 」等特定距离的词句、输入「产业研究」可查到「产业结构研究」、「产业 …. 研究」等,扩展搜寻的完整性。

提供中文字、词查询及英文词组检索

•  提供中文字词索引查询功能,透过智能型自动断词技术以达到词索引的效果,解决输入“合资” 会找到“整合信息”等搜寻不精确的问题。

•  可查进行英文词组查询,如可查 take care , in order to …….

阶层式分类目录

•  可自行定义索引库的树状结构,提供查询结果显示该分类所属的子目录,让使用者进一步选取下一层目录,逐步缩小查询范围,迅速找出所需的信息。

多条件式查询及排序

•  支持数字、浮点数、字符串、日期等多种格式字段。

•  支持多字段 / 多条件检索,来取得数据库资料,并可跨资料表、跨信息字段进行索引建置与搜寻。

•  可依据不同字段,滤除搜寻结果噪声。

•  例如:指定查询「新闻类别」字段,过滤内容为「财经」的结果。

•  查询结果可依不同字段来资料来源进行排序,查询者可以依自己的需求选用不同的排序方式,让查询更有效率。

简繁对译功能

•  可将资料来源内容做简繁转换 , 达到资料一致性。

•  于搜寻结果 , 可达到实时的简繁对译。

•  解决简体及繁体互通问题。

•  例如:光盘 à 光盘

English Stemming

•  解决英文常见词性的问题。

•  例如:输入“ find ”可找到“ finding ” , and “ finds ”

中文同音查询

•  搜寻提供同音相关功能查询。

•  例如:意大利 à 意大利;台湾 à 台湾;龙卷风 à 龙卷风

•  支持字同音及词同音功能。

英文错误字提示

•  查询时提供错误提示。

•  例如:输入 computre 提示 computer, compute

三、NLP 自然语言模块产品规格

相关文章查询

•  使用者指定一篇文件,可取得索引数据库中和该文件主题相关的文件列表。

•  支持跨索引的资料查询,不同索引数据库的文件可以交互进行相关文件的查询。

•  例如:使用者可以指定索引数据库 A 的一篇文件,查询索引数据库 B 的相关文件列表。

•  支持以全文当作查询条件来进行查询,因此,查询文件不需被索引即可作为查询条件。

•  查询支持权重排序,使用者可取得关联度最高的前 N 笔文件。

•  例如:使用者可查询文件集合中,和特定文件相关度最高的前 10 笔文件。

重复文章侦测

•  使用者指定一篇文件,可取得索引数据库中和该文件主题重复的文件列表。

•  支持跨索引的资料查询,不同索引数据库的文件可以交互进行重复文章的查询。

•  例如:使用者可以指定索引数据库 A 的一篇文件,查询索引数据库 B 的重复文件列表。

•  支持以全文当作查询条件来进行查询,因此,查询文件不需被索引即可作为查询条件。

•  查询支持权重排序,使用者可取得重复程度最高的前 N 笔文件。

•  例如:使用者可查询文件集合中,和特定文件重复程度最高的前 10 笔文件。

自动摘要

•  使用者指定一篇文件,可取得该指定文件的重点摘要内容。

•  可指定以「百分比」为度量,来取得指定文件的摘要内容。

•  例如:使用者可以指定摘要某篇文件的百分之二十,来当作文件的摘要内容。

•  可指定以「句数」为度量,来取得指定文件的摘要内容。

•  例如:使用者可以指定摘要某篇文件的 10 个句子,来当作文件的摘要内容。

•  可指定以「字数」为度量,来取得指定文件的摘要内容。

•  例如:使用者可以指定摘要某篇文件的 50 个字,来当作文件的摘要内容。

•  可指定以「权重」为度量,来取得指定文件的摘要内容。

•  例如:使用者可以指定摘要某篇文件权重超过 80 的内容,来当作文件的摘要内容。

概念查询

•  可以自然语言作为查询条件,取得索引数据库中和该查询条件语意最相符的文件列表。

•  查询支持权重排序,使用者可取得语意最相符的前 N 笔文件。

•  例如:以 “ 和搜寻引擎相关的产业 ” 为查询条件,可取得语意最相符的前 10 笔文件。

形似词建议

•  具备自动学习机制,可以从使用者指定的文件集合当中,学习出形似词组。

•  可根据使用者指定的查询词汇,回复具备形状相似特性的词组列表。

比方说,「金融」、「金融股」、「金融机构」、「金融市场」因为都包含「金融」这个字,因此会被归类成一组「形似」词组。

•  提供预先断词的查询机制,可自动扩大查询的范围以及完整性。

相关词建议

•  具备自动学习机制,可以从使用者指定的文件集合当中,学习出相关词组。

•  可根据使用者指定的查询词汇,回复具备关连度高的词组列表。

比方说,分析得知「金融」、「控股公司」、「财政部」在文件中同时出现的机率很高,因此,上述词汇就会被归类成一组「相关」词组。

•  提供预先断词的查询机制,可自动扩大查询的范围以及完整性。

四、Classification 分类模块产品规格

导览式分类

•  「查询结果分类显示」,使用者可以清楚知道查询结果对应于整个分类的资料分布状况。同时,使用者只需透过类别的选择,就能快速地透过分类对资料进行去芜存菁,筛选出自己想要的信息。

•  使用者可以任意选取两个类别,指定以这两个类别进行矩阵式的交叉分析。「矩阵式类别交叉分析」的好处是,使用者可以知道两类别的资料分布状况,以及类别与类别之间的资料对应关系。当使用者有了这些信息,透过类别与类别的交叉筛选,就能快速地筛选出自己想要的信息。

自动分类

•  提供类别的模板管理,透过自然语言的理解与分析训练,为类别计算出一组具代表性的概念式词汇集合,进而索引时可以拿分类模型和文章内容的语意进行比对,并将该类别归纳为该文章的一个类别属性。

•  利用文章符合的关键词、属性进行类别定义,可于索引时套用相关规则,赋予文章多重类别属性,与自动分类组成完善的分类机制。

五、Data Adapter 资料撷取组件规格

多型及复合资料转接器

Polymorphism & Complex Data Adapter

Extractor

•  Html, ASP Extractor

可索引并查询 HTML/ASP 。

•  Text File Extractor

可索引并查询 Text File( 如以 Unicode 储存或与操作系统相同语系储存之纯文本文件 ) 。

•  MS Office Files Extractor ( 选配 )

支持 MS Word(Versions 95/97/2000/XP) 、 Excel(Version 95/97/2000/XP) 及 PowerPoint(Version 95/97/2000/XP) for Windows 等档案格式。

•  PDF Extractor ( 选配 )

支持 Adobe Acrobat PDF(Version 1.1/1.2/1.3/1.4) 等档案格式。

•  AutoCAD Extractor ( 选配 )

支持 AutoCAD DXF, DWG(Version R12/R13/R14/2000) 等档案格式。

DynaDoc Extractor ( 选配 )

支持华康 DynaDoc 档案格式。

PostScript Extracor ( 选配 )

支持 Level 1,2,3 格式。

OCR Extracor ( 选配 )

支持 TIF, BMP, JPG 等档案格式; Windows 2000 only

Composer

Local File Composer

可索 引并查询本机或网络芳邻的资料夹及其档案。

Remote File Composer

可索引并查询远程网站 HTML/Text File/ASP 。

•  Database Composer ( 选配 )

•  支持透过 ODBC/JDBC 来取得数据库资料。

•  可跨资料表、跨信息字段进行索引建置与搜寻。

•  Lotus Notes Composer ( 选配 )

•  支持 Lotus Notes NSF 内的文本 , 字段 , 及附件进行索引建置与搜寻。

•  Email Composer ( 选配 )

•  完全遵循 RFC822 : STANDARD FOR THE FORMAT OF ARPA INTERNET TEXT MESSAGE 此一标准规格。

•  完整支持 Mime-Type, 附件及复合文件解析 , 可针对附档(如 Html 、 Text 、 MS Word 、 Excel 、 PowerPoint 、 PDF 等 IRMS 支持之档案格式)进行解析。

•  ZIP Composer ( 选配 )

•  完全遵循 RFC 1950 内容压缩技术,可快速解析压缩内容文件,而不需将压缩档解开。

•  支持附件及复合文件解析 , 可针对附档(如 Html 、 Text 、 MS Word 、 Excel 、 PowerPoint 、 PDF 等 IRMS 支持之档案格式)进行解析。

(C)2010 西部动力(北京)科技有限公司 版权所有 Powered by We7 2.6, 京ICP备 050340009 号