IRMS R2 的设计理念是以一种组件化、松散偶合的架构平台所设计的,期望协助企业在面对日趋复杂和不同的应用平台时,能将信息检索技术更深入的嵌入企业的应用基础平台上。IRMS R2 的设计的优势能让软件开发商、系统整合商和经销商能够将信息检索技术作为一应用基础平台,进而对企业异质资料提供更有价值,更实时性及更具相关性的搜索服务。
一、IRMS 平台特色
|
多语系支持 |
• 以 Unicode 为基础的设计。
• 可支持多国语系(英文、繁简体中文、日文、西欧语系、 Unicode 等)混合的文件的建置与查询。
• 可支持多种编码格式的索引,包含 Big5 、 GB2312 、 Unicode 、 UTF-8 、 EUC-JP 、 Shift-JIS ,并支持以 Unicode 同时输入多国语系条件进行搜寻。 |
|
管理主控台 |
• 提供词库、同义词管理的接口,使用者可自行修改词库内容。
• 提供管理接口,可透过管理接口进行远程 IRMS 管理设定。 |
|
组件化整合式平台 |
• 采组件化设计,是一个开放式、具弹性的平台,各组件可随插即用,使开发更具延展扩充性。
• Tornado 将不断推出更多 IR 相关模块及资料撷取组件,使用更为便利。 |
|
跨平台的程序开发 |
• 提供 COM 和 Java 等两种程序整合接口,可轻易结合 ASP 及 JSP ,更可用于弹性设计与整合索引数据库的建立与管理者操作接口、使用者搜寻接口、索引数据库内容浏览等应用。
• 针对特殊档案,提供 Data Adapter 的 SDK ,方便使用者进行客制化或二次开发整合。 |
|
权限整合 |
• 可使用 XML Export 与 Import 的机制提供信息内容权限控管的整合接口。
• 利用 XML 进行权限整合描述,和其它系统的权限架构做整合。整合后,不同的权限使用者使用时,将得到符合各自权限的信息。 |
|
内文资料储存同步化 |
• 开放式内文数据储存,针对新增或修改的数据,做实时内文及索引的同步更新,真正满足对资料实时性与一致性的查询需求,加快索引更新时间同时减少硬件负担,大幅提高系统效率。
• Universal Index 索引整合技术,可将来自不同资料源的资料内容,统一建置在一个索引数据库,透过资料源的事先整合,大幅提高系统的执行效能 |
二、Search 搜寻模块产品规格
|
查询功能 |
|
中英文查询功能 |
• 搜寻条件具有完整的布尔逻辑运算 AND 、 OR 、 NOT 能力,支持复合式布尔逻辑运算查询,并且可以配合多组左括号 "(" 与右括号 ")" 作关键词查询优先级的设定,方便查询者输入布尔组合之查询条件。
• 支持「中英文万用字符( * 、 ? )查询」。英文单字是由多个英文字母组成的,使用者可查询部分英文字及 *( 代表多于一个英文字母 ) 或 ?( 代表一个英文字母 ) 的组合。
• 例如:输入关键词【 Chin* 】,会找到【 China 】、【 Chine 】、【 Chinese 】等等。输入关键词【 Chin? 】,会找到【 China 】。 
• 内建「智能型快速响应模式」 (Smart cache) 机制,可以提供同一种查询条件之重复使用率,提高系统资源的效益。 Cache 储存目录记录了 Cache 档案所要放置的地址,经查询过的资料或画面,第二次再进入时,可重复使用第一次查询结果。
• 英数字全角半角互换功能,可将abc123 转换成 abc123 。 |
|
中英文同义词查询 |
• 「中英文同义词组查询功能」。 可针对不同的索引库设定同义词组。如设定「 网际网络 $ Internet $ 互联网 」,使用者可自行设定「网际网络」查到含有「 Internet 」或「互联网」的信息。
• 内建 18 万多组中英文同义词组,具有中英文近似概念与同义词检索,并可提供词库管理工具,使用户可自行修改词库内容。 |
|
中英文容错查询 |
• 内建「中英文容错( Fuzzy )」查询功能。
• 中英文容错功能 Fuzzy Search ,基于文字特性,很多专有名词及词汇依情况不同,也许衍生出通用的简称,也有可能因为模糊不明确的意象,使用者希望只需要输入一 个关键词,就能一并查询性质类似或相关之信息。
• 比如:输入「 Mobile Network 」可查到「 Mobile Appliance Network 」等特定距离的词句、输入「产业研究」可查到「产业结构研究」、「产业 …. 研究」等,扩展搜寻的完整性。 |
|
提供中文字、词查询及英文词组检索 |
• 提供中文字词索引查询功能,透过智能型自动断词技术以达到词索引的效果,解决输入“合资” 会找到“整合信息”等搜寻不精确的问题。
• 可查进行英文词组查询,如可查 take care , in order to ……. |
|
阶层式分类目录 |
• 可自行定义索引库的树状结构,提供查询结果显示该分类所属的子目录,让使用者进一步选取下一层目录,逐步缩小查询范围,迅速找出所需的信息。 |
|
多条件式查询及排序 |
• 支持数字、浮点数、字符串、日期等多种格式字段。
• 支持多字段 / 多条件检索,来取得数据库资料,并可跨资料表、跨信息字段进行索引建置与搜寻。
• 可依据不同字段,滤除搜寻结果噪声。
• 例如:指定查询「新闻类别」字段,过滤内容为「财经」的结果。
• 查询结果可依不同字段来资料来源进行排序,查询者可以依自己的需求选用不同的排序方式,让查询更有效率。 |
|
简繁对译功能 |
• 可将资料来源内容做简繁转换 , 达到资料一致性。
• 于搜寻结果 , 可达到实时的简繁对译。
• 解决简体及繁体互通问题。
• 例如:光盘 à 光盘 |
|
English Stemming |
• 解决英文常见词性的问题。
• 例如:输入“ find ”可找到“ finding ” , and “ finds ” |
|
中文同音查询 |
• 搜寻提供同音相关功能查询。
• 例如:意大利 à 意大利;台湾 à 台湾;龙卷风 à 龙卷风
• 支持字同音及词同音功能。 |
|
英文错误字提示 |
• 查询时提供错误提示。
• 例如:输入 computre 提示 computer, compute |
三、NLP 自然语言模块产品规格
|
相关文章查询 |
• 使用者指定一篇文件,可取得索引数据库中和该文件主题相关的文件列表。
• 支持跨索引的资料查询,不同索引数据库的文件可以交互进行相关文件的查询。
• 例如:使用者可以指定索引数据库 A 的一篇文件,查询索引数据库 B 的相关文件列表。
• 支持以全文当作查询条件来进行查询,因此,查询文件不需被索引即可作为查询条件。
• 查询支持权重排序,使用者可取得关联度最高的前 N 笔文件。
• 例如:使用者可查询文件集合中,和特定文件相关度最高的前 10 笔文件。 |
|
重复文章侦测 |
• 使用者指定一篇文件,可取得索引数据库中和该文件主题重复的文件列表。
• 支持跨索引的资料查询,不同索引数据库的文件可以交互进行重复文章的查询。
• 例如:使用者可以指定索引数据库 A 的一篇文件,查询索引数据库 B 的重复文件列表。
• 支持以全文当作查询条件来进行查询,因此,查询文件不需被索引即可作为查询条件。
• 查询支持权重排序,使用者可取得重复程度最高的前 N 笔文件。
• 例如:使用者可查询文件集合中,和特定文件重复程度最高的前 10 笔文件。 |
|
自动摘要 |
• 使用者指定一篇文件,可取得该指定文件的重点摘要内容。
• 可指定以「百分比」为度量,来取得指定文件的摘要内容。
• 例如:使用者可以指定摘要某篇文件的百分之二十,来当作文件的摘要内容。
• 可指定以「句数」为度量,来取得指定文件的摘要内容。
• 例如:使用者可以指定摘要某篇文件的 10 个句子,来当作文件的摘要内容。
• 可指定以「字数」为度量,来取得指定文件的摘要内容。
• 例如:使用者可以指定摘要某篇文件的 50 个字,来当作文件的摘要内容。
• 可指定以「权重」为度量,来取得指定文件的摘要内容。
• 例如:使用者可以指定摘要某篇文件权重超过 80 的内容,来当作文件的摘要内容。 |
|
概念查询 |
• 可以自然语言作为查询条件,取得索引数据库中和该查询条件语意最相符的文件列表。
• 查询支持权重排序,使用者可取得语意最相符的前 N 笔文件。
• 例如:以 “ 和搜寻引擎相关的产业 ” 为查询条件,可取得语意最相符的前 10 笔文件。 |
|
形似词建议 |
• 具备自动学习机制,可以从使用者指定的文件集合当中,学习出形似词组。
• 可根据使用者指定的查询词汇,回复具备形状相似特性的词组列表。
比方说,「金融」、「金融股」、「金融机构」、「金融市场」因为都包含「金融」这个字,因此会被归类成一组「形似」词组。
• 提供预先断词的查询机制,可自动扩大查询的范围以及完整性。 |
|
相关词建议 |
• 具备自动学习机制,可以从使用者指定的文件集合当中,学习出相关词组。
• 可根据使用者指定的查询词汇,回复具备关连度高的词组列表。
比方说,分析得知「金融」、「控股公司」、「财政部」在文件中同时出现的机率很高,因此,上述词汇就会被归类成一组「相关」词组。
• 提供预先断词的查询机制,可自动扩大查询的范围以及完整性。 |
四、Classification 分类模块产品规格
|
导览式分类 |
• 「查询结果分类显示」,使用者可以清楚知道查询结果对应于整个分类的资料分布状况。同时,使用者只需透过类别的选择,就能快速地透过分类对资料进行去芜存菁,筛选出自己想要的信息。
• 使用者可以任意选取两个类别,指定以这两个类别进行矩阵式的交叉分析。「矩阵式类别交叉分析」的好处是,使用者可以知道两类别的资料分布状况,以及类别与类别之间的资料对应关系。当使用者有了这些信息,透过类别与类别的交叉筛选,就能快速地筛选出自己想要的信息。 |
|
自动分类 |
• 提供类别的模板管理,透过自然语言的理解与分析训练,为类别计算出一组具代表性的概念式词汇集合,进而索引时可以拿分类模型和文章内容的语意进行比对,并将该类别归纳为该文章的一个类别属性。
• 利用文章符合的关键词、属性进行类别定义,可于索引时套用相关规则,赋予文章多重类别属性,与自动分类组成完善的分类机制。 |
五、Data Adapter 资料撷取组件规格
多型及复合资料转接器
Polymorphism & Complex Data Adapter |
Extractor |
• Html, ASP Extractor
可索引并查询 HTML/ASP 。
• Text File Extractor
可索引并查询 Text File( 如以 Unicode 储存或与操作系统相同语系储存之纯文本文件 ) 。
• MS Office Files Extractor ( 选配 )
支持 MS Word(Versions 95/97/2000/XP) 、 Excel(Version 95/97/2000/XP) 及 PowerPoint(Version 95/97/2000/XP) for Windows 等档案格式。
• PDF Extractor ( 选配 )
支持 Adobe Acrobat PDF(Version 1.1/1.2/1.3/1.4) 等档案格式。
• AutoCAD Extractor ( 选配 )
支持 AutoCAD DXF, DWG(Version R12/R13/R14/2000) 等档案格式。
DynaDoc Extractor ( 选配 )
支持华康 DynaDoc 档案格式。
PostScript Extracor ( 选配 )
支持 Level 1,2,3 格式。
OCR Extracor ( 选配 )
支持 TIF, BMP, JPG 等档案格式; Windows 2000 only 。 |
|
Composer |
Local File Composer
可索 引并查询本机或网络芳邻的资料夹及其档案。
Remote File Composer
可索引并查询远程网站 HTML/Text File/ASP 。
• Database Composer ( 选配 )
• 支持透过 ODBC/JDBC 来取得数据库资料。
• 可跨资料表、跨信息字段进行索引建置与搜寻。
• Lotus Notes Composer ( 选配 )
• 支持 Lotus Notes NSF 内的文本 , 字段 , 及附件进行索引建置与搜寻。
• Email Composer ( 选配 )
• 完全遵循 RFC822 : STANDARD FOR THE FORMAT OF ARPA INTERNET TEXT MESSAGE 此一标准规格。
• 完整支持 Mime-Type, 附件及复合文件解析 , 可针对附档(如 Html 、 Text 、 MS Word 、 Excel 、 PowerPoint 、 PDF 等 IRMS 支持之档案格式)进行解析。
• ZIP Composer ( 选配 )
• 完全遵循 RFC 1950 内容压缩技术,可快速解析压缩内容文件,而不需将压缩档解开。
• 支持附件及复合文件解析 , 可针对附档(如 Html 、 Text 、 MS Word 、 Excel 、 PowerPoint 、 PDF 等 IRMS 支持之档案格式)进行解析。 |