数据通信的含义范文

admin
发布时间:
2024-01-25 21:04:08

导语:童话寓言

数据通信的含义篇

[关键词]数字图书馆语义模型信息抽取本体

[分类号].

引言

语义是指“数据(符号)”所指代的概念的含义以及这些含义之间的关系,

是对数据的抽象或者更高层次的逻辑表示。

语义通过两种途径产生:①人类赋予;②通过计算模型产生。

通过第二种方式产生的语义可以被计算机理解和处理,可以被获取、传递、共享。

根据实体资源(如文本和图像)来产生语义或挖掘出信息所蕴含的隐性语义是一个挑战性的任务。基于统计的聚类分析、共词分析、信息抽取和挖掘技术可以帮助实现语义的自动抽取。实现的关键在于建立一个语义模型,该模型既适用于显式语义,

又适用于通过显式语义挖掘推导出隐含语义。语义模型是通过模型作为媒介来实现数据语义关系形式化描述的一种方式。

基于本体的语义模型是通过以本体为核心的模型作为媒介,实现数字资源语义关系形式化描述的一种方式。本文基于本体构建了语义模型,并基于该语义模型探讨数字图书馆知识组织过程中信息抽取策略。

信息抽取与本体

信息抽取是从分布的、异构的文本中提取出特定的事实信息,

将其中隐含的语义提取出来并以更为结构化、更为清晰的形式表示,

为用户使用提供便利。信息抽取与语义标注总是融合在一起、互相支持的;信息抽取需要在语义标注的基础上进行,

语义标注的内容是经过信息抽取提取出来的。因此,目前对于信息抽取研究离不开对抽取对象的语义分析和描述。

语义分析与描述技术的研究热点是本体技术。

本体是对面向计算机语言的、已被组织的知识的描述,而信息抽取是面向自然语言,分析文档表达的事实和从这些文档中提取相关信息片段。信息抽取和本体是相辅相成的:作为抽取相关信息的理解程序,

本体被用于信息抽取,是信息抽取的语义知识依据;信息抽取可以丰富本体,因为信息抽取出来的文档可以作为设计和丰富本体的知识资源。

这两方面的任务被结合在循环中(见图)。

本体可以有效地、准确地、解释信息抽取出来的数据,而信息抽取从文档提取出来的新知识可以整合进入本体从而丰富本体。

.本体对信息抽取的支持

在抽取过程中,

本体知识对文档的语义解释具有重要作用。

本体对领域概念以及概念的多种形式进行了规范性说明,因此在信息抽取中可以用来进行字符串的语义分析,

进而进行概念识别;

在信息抽取过程中,需要领域本体对文档中实体名称进行识别与分类。本体中的类可以对信息抽取文档进行概念识别、语义标注和概念规范。

本体的概念层次结构。

传统信息抽取的重点是使用同义词集而不是层次关系。例如,在中,同义词集可以用于语义标注和消歧,

但上下类关系还需要本体参与。本体中包含的语义类型或语义的层次关系,有助于通过抽取内容进行推理和忠实释义。

更先进的信息抽取系统也需要利用领域本体的概念节点、概念节点的属性和相互关系予以描述。本体中的概念与属性值能够清楚地描述信息抽取对象的本质。

对于文档中抽取对象的分析既能提高自然语言处理,

又能指导概念框架的实体构成,

而相应的规则即是基于短语模型,更多是基于语义分析的。

领域概念模型。领域概念模型本身用于推理,它能合并不同表现形式的同一概念,

并且能够揭示出隐含的语义。

.信息抽取对本体的丰富

本体构建一直是公认的语义进程中的瓶颈,而信息抽取有助于本体构建。

已经提出各种方法用于语料库的建设以利于本体构建,如基于规则的信息抽取即是对本体构建方法的补充。基于推理规则抽取出基本数据,通过已有本体对该数据进行概念及概念关系分析,在此基础上将数据中新的概念或概念间的新关系整合到本体。

实体命名抽取:实体命名通过在本体中以实例的形式表示。从这个角度看,需要自动地不断地为本体增添一些热门领域的实体名称。

而信息抽取被广泛应用于识别和分类文档、网页、数据库等中的实体。

关系抽取:在结构化本体中,概念与概念之间存在着语义关联。目前从文档中获取本体关系的方法主要有三种:基于共词分析方法、基于知识库方法和基于信息抽取模式方法。

信息提取模式方法提升了前两种方式:第一种方法需要对基本关系类型进行解释,而信息抽取中的规则就是特色化关系;第二种方法原有的知识可以帮助设计一个提取规则。

信息抽取通过本体进行基于领域的语义分析,提升信息的语义性,为智能检索打下基础;本体通过信息抽取不断学习,不断演化,

解决本体构建的瓶颈问题。

鉴于此,本文基于本体构建数字图书馆知识组织语义互联的语义模型,利用语义模型探讨语义互联实现过程中各个重要环节的策略,

进而最终完成数字图书馆知识组织的语义互联。

数字图书馆互联的语义模型

语义模型是对内容语义、语义类型及语义关系进行描述和组织的机制,

它试图在用户的信息需求和信息资源之间搭建一座桥梁,将两者灵活而有机地结合起来,从语义的角度来解析信息资源,进而从互理解的角度来提升用户检索的准确度和召回率,

更好地满足用户的信息需求。语义模型是影响数字图书馆知识组织语义互联的核心要素。

本文构建了以元数据、领域本体、桥本体和本体解析体系为组成要素的语义模型,

利用语义模型实现数字图书馆知识组织过程中的数字资源、用户需求表达的语义解析,

完成数字图书馆用户交互层、内容管理与功能层、内容层之间的语义映射。其中,

元数据进行资源的标准化描述,领域本体进行概念以及概念之间关系的语义标注,桥本体用于资源之间语义聚合,本体解析主要解决本体的具体效用发挥的方式,如图所示:

.元数据

元数据是数字图书馆用来解决语义互联的重要基础工具。

数字图书馆由资源构成,而资源是可以被标识的。元数据提供了对资源各种属性的描述。元数据通过定义数字图书馆中资源的信息结构以及定义由数字对象构成的资源库的组织结构,决定着数字图书馆知识组织和知识服务方式。

元数据发展比较成熟,已经形成完整规范的元数据体系,

包括元数据格式、元数据标准、元数据方案、元数据应用纲要、元数据注册系统等等,这些为数字图书馆知识组织语义互联打下了基础。

.领域本体

领域本体是知识组织体系中重要组成部分,

其目标是捕获相关领域的知识。领域本体是对领域内共享概念模型的明确的形式化的规范说明;概念以及概念之间的关系是经过精确定义的,

提供了对领域知识的共同理解与描述,能够为计算机所使用并可用数学方

式表达。在领域本体技术驱动下,

信息资源以全新方式进行组织,组织原理发生如下改变:①从用户可理解到机器可理解;

②从信息描述到知识表现;

③从语义隐含到语义揭示;④从“以概念为中心”到“以概念一关系为中心”;⑤从信息表示到智能推理。这些变化要求知识组织理论、形式、方法、技术、体系以及知识组织过程都要随之改变,

实现对资源从语法层面向语义层面深入,最后直至语用层面的组织,在获取、表示、加工、存储、重组、提供、共享、利用、控制等知识组织过程中,充分体现语义性,在数字图书馆系统的各层之间,

在用户、资源、服务之间,形成语义互理解和互操作。

.桥本体

桥本体是一种特殊的本体,

完成不同领域本体概念之间关系的映射,进而实现本体整合,形成领域内的共享本体。

桥本体记作。可以用一个六元组表示:

={,,,

,,}()

其中,表示桥本体概念的集合,表示桥本体概念所对应的属性集的集合,

表示桥本体之间关系的集合;是桥本体之间关系所对应的属性集的集合,代表了概念的层次结构,是一系列公理集合。

在概念上,桥本体具有四层树形结构(见图):第一层是最普遍的概念,

标记为;第二层具有概念桥和关系桥两个概念,它们分别表示了两种不同的桥关系;

第三层由种不同类型的子类桥组成;第四层是一系列动态创建概念的集合,它们的属性描述了不同本体之间关系的信息。其中上面三层是固定的,称之为静态层,

第四层的概念是根据已知的多本体动态产生的,为动态层。

.本体解析体系

数据存储模式的选择直接影响使用的效率。本体是系统多层之间语义联系的纽带,因此本体、桥本体的存储方式影响数字图书馆知识组织和知识服务的质量。

本文选用的本体描述语言为推荐的,将其存储到关系数据库。关系数据库存储本体既有缺点,

对本体含有的丰富语义缺乏精准的表现,又有无可比拟的优点。

已有文献对本体到关系数据库模式映射进行了详尽的阐述,在此仅谈及桥本体的解析。

根据桥本体的概念结构和关系数据库的形式化定义,

下面给出它到关系数据库模式的映射规则。

以桥本体建立数据库,取名为-―。

桥本体中的十个桥关系分别为桥本体的子类,分别以这十个桥关系建立十张表,

表名为―、_、_、_―、、、_、-_、_和_。

将桥本体的属性映射为各个表的属性,属性类型为字符型;

各表属性个数并不相同,主要包括三类:一类表示具有该种桥关系的两个领域本体的名称;

一类表示具有该种桥关系的领域本体的类名称;一类属性代表该类所对应表的地址。

属性值分别取值为领域本体名、领域本体中类名和类对应的表名。

不同领域本体概念之间的关系构成表中的记录。

表中的主键为复合主键,

由不同领域本体名称和不同概念名称组合而成。

基于语义模型的信息抽取策略

抽取对象是异质的、异构的、多语种的、半结构化甚至是非结构化的,

并且可能存在着语义模糊、语义缺失,因此对抽取对象实体命名识别、实体间关系的识别变得更加困难,需要多种技术协作完成。语义模型能有效协助信息抽取:利用元数据对数字信息资源和用户信息资源进行规范化描述,

利用领域本体集和桥本体实现数字资源和用户信息资源语义关系形式化描述,

而语义模型中本体解析体系为信息抽取为利用本体提供了途径。因此,利用语义模型可以有效地进行实体命名识别和信息抽取规则制定。基于规则进行信息抽取能有效过滤掉噪声,

增加新的结构信息。大体过程如图所示:

.数据采集和数据清洗

通过各种数据采集工具对数据库、文档和网页进行数据采集。数据库中的数据是结构化的,采集相对简易;而文档和网页结构各异,

先将它们抓取入系统;数据清洗目的是对有信息价值的各种数据通过处理产生纯文档。首先对抓取的原始数据进行结构分析,去除噪声,

分析数据是表结构、文档结构还是网页结构,网页结构是内容型网页还是表单型网页,并对各种结构进行识别剥离;然后进行内容分析,

例如网页中的广告、图像、版权信息等等;最后对用户关心的信息内容进行提取,产生待处理的纯文档,如图所示:

.文档预处理

文档预处理的任务是自然语言处理,将文档处理切分为待处理的词汇和信息单元。

首先将待处理的纯文档进行词语切分和词性标注,取出分词结果中的名词和动词;然后按标点符号进行短句分割,作为信息单元,并以此作为信息抽取的粒度;

最后对短句进行语法词法分析,并实施初次筛选,保留其中至少包含两个名词和一个动词的信息单元。该过程需要相关领域知识的术语表、词汇表、主题词表等,对分词系统中的词表进行二次加工。

语义模型中的领域本体可以提供规范化的概念及概念中所涉及术语的多种形式,可以对词表进行丰富和规范,如图所示:

.规则生成

信息抽取规则的生成利用了本文构建的语义模型。语义模型中的领域本体描述了概念、属性、实例以及本体内部概念与概念之间的关系,桥本体描述跨本体的概念之间的多种关系。

领域本体和桥本体用描述,将本体映射到关系数据库,形成语义模型数据库;数据库中含有若干个表,

通过表、表的属性、表的主键与外键以及属性之间的约束对本体进行解析。信息规则在此基础上生成:首先从语义模型数据库抽取类、抽取属性、抽取实例、抽取关系,对于桥本体还需要抽取表名;然后通过其解析出的本体中描述的概念、关系、层次结构等来生成三元组,再将此三元组作为信息抽取的规则存入规则库。

如图所示:

.实体抽取

信息抽取主要是对信息单元进行解析后,

对信息单元中的名词基于语义模型中的概念和实例进行实体命名识别,充分利用本体对概念规范描述的优势,提高实体命名识别的准确性;再对信息单元重新规范,形成具有主、谓、宾三元关系的分析树。

将该分析树与抽取规则三元组进行匹配,如果匹配成功则将该三元关系存入数据库中,完成信息抽取;

如果匹配不成功,对该三元关系的概念与语义模型进行语义相似度计算,根据计算结果,形成本体中的新概念或新关系,添加到语义模型中,

完成本体学习,丰富领域本体,

如图所示:

基于语义模型的信息抽取有如下好处:①语义模型的引入既保证了结构的一致性,又保证了数据的一致性,使不同来源的数据都能以统一的标准进行描述和呈现,

方便了信息的继承与交换,提高了信息抽取的准确率及召回率;②驱使整个信息抽取过程都直接来自于语义模型,

这为利用各种各样的本体数据呈现了一条非常自然的路径;③基于语义模型的系统可以促进本体进化,丰富领域本体。

结语

数据通信的含义篇

遍布全世界的主机和服务器,

错综相联的超媒体资源,这是互联网为我们所构建的一个巨大而丰富的电子信息空间。它无疑是现代社会最重要的信息获取手段,但是它的开放性、分布性、无序性以及惊人的发展速度也为人们对信息资源的利用带来了困难。正如在大海中行驶的船只需要导航系统确定方位一样,

要想在茫茫的信息海洋中有效获取有用信息,也必须拥有便捷有效的信息导航技术。

一般来说,网络中常用的信息导航方式有三种:一是利用门户网站的分类索引;二是利用网络搜索引擎;三是利用网站的相关链接。但是目前这三种信息导航方式的效果都不尽如人意。

分类索引所覆盖的网络站点范围太小,更新较慢,难以适应网络的快速增长,而且分类标准的不统一和不规范常常影响到用户对站点所属的判断,造成导航失败。

搜索引擎虽然是目前主要的网络信息检索工具,但是通过简单的逻辑运算检索到的结果往往是数量庞大且鱼目龙杂,充斥着大量的无用和重复信息。

网站的相关链接是指符合当前网站内容主题的内部和外部信息资源的超链接,这种导航方式虽然简单直接,但是信息量非常有限,而且对外部信息的链接常常出现错链和假链,即使是内部信息,

也常常因为组织和描述方式的影响,造成用户的“资源迷向”。

用户在信息空间中的“迷航”会使他们感到厌倦而丧失获取信息的信心,

分析其原因,主要包括以下几个方面[,]:

()网络的巨大信息量使人们必须依赖于自动化的处理技术。但是目前因特网的各个网端的技术支持环境比较复杂,信息资源的内容范围、组织结构和存储方式各不相同,

呈现出分散、无序、变幻多端的特点,这使自动信息处理技术的应用困难重重。因此要提高信息导航的效率和质量,必须先解决资源异构的问题。

()网络信息空间中的数据大多以半结构化和非结构化的形式存在,对信息资源的内容缺乏形式化的语义描述,而且大部分资源间的链接也没有反映语义关系,

这使得机器很难对网络信息空间进行深层次的理解和处理,对信息的自动导航也无法像人工操作那样准确有效。

()目前的网络导航系统缺乏个性化的信息服务。由于知识背景的差异和一词多义等方面的原因,

不同的网络用户之间、用户与系统设计者之间对于问题和信息内容可能会具有不同的理解与认识,当用户按照自己的思路查找信息时,

他所选择的导航路径可能是错误的或者低效的。

因此信息导航必须考虑具体用户的特殊性,有针对性地提供导航服务。

()网络导航系统的设计缺乏规范。

门户网站各自依据不同的标准建立自身的分类导航系统,网站的划分随意性较大,常常引起用户的困惑。一些著名的信息搜索引擎也各自采用不同的检索规则,有些系统不能利用历史信息或者不提供二次检索,

给用户的使用带来不便。另外,在网站内部的导航系统设计上,

也存在着导航结构不合理,导航要素不完整,

导航界面不统一等问题。这些都可能造成用户的导航障碍。

由此可见,造成信息“迷航”问题的主要原因在于缺乏信息空间的合理组织和有效的导航机制,这也是第二代网络技术难以克服的困难。

为此,人们正在研制第二代网络——,

它以结构化信息表示为主,为网络导航研究开辟了新天地。

技术

在年提出了的概念。年月,组织正式推出,使网络环境下的语义处理技术研究渐入佳境。

研究活动的目标是开发一系列可由计算机理解和处理的语义表示语言和技术,通过显式的语义表示和领域本体将网络信息空间编织成为一个巨大的机器可读的知识网络,以支持自动化的信息访问和知识管理,

实现高质量的网络信息服务。

目前关于的研究主要集中在网络信息资源及其内容的语义和语义关系表征,

基于语义的数据自动分析、理解和处理,不同应用领域和系统间的数据自动交换、转换和复用[]。虽然是现有网络的延续,但在信息导航方面具有许多普通没有的优势。

中的节点既可以代表物理页面,

也可以代表知识实体;中网页的内容不但可以被人理解,

而且可以被机器理解;中的链接不再是任意的,而是遵循一定的语义关系。通过技术,

可以改变现有网络松散的数据结构,

将信息资源结构化并赋予含义,使网络信息的整合和自动处理都变得更加容易[]。

.本体

所谓本体(),实质上是描述特定应用领域知识的公认的术语集。

关于奉体的定义,比较著名的观点是“本体是概念模型的一个显式的规格说明”和“本体是共享概念的一个形式化的规格说明”,其中,

“概念模型()”是指通过对某个客观现象的相关概念进行辨析和提取而获得的关于该现象的抽象摸型;“显式()”是指对所使用的概念的类型,以及这些概念在应用上的约束都给予明确的说明;“形式化()”表示本体以计算机可读的形式存在;“共享()”表示本体中反映的是共同认可的知识”[]。

本体通常表达为一组对象(概念)、关系、函数、定理和实例。本体中的对象类按照等级关系组织成基本的结构体系。等级关系包括例化(-)关系、类属(-)关系和整部关系(-)。上层的对象类为父类,

下层的对象类为子类。对象类具有各自的属性,并可依据父子关系继承。对属性的取值对象、取值范围、取值基数等都可以加以限制,

还可以对属性的交换性、对称性、传递性、唯一性等进行定义。除了等级关系,本体中的对象类间还可以具有其他语义关系,形成语义网络形式的概念模型。本体是机器自动推理和智能化高级信息服务的基础,

对网络而言,一个简单的本体的典型例子就是网络的分类索引(如!

的分类目录)。本体的应用对于提高网络导航的精度和效率具有重要的意义[,

)。

.和

是由开发的元数据描述机制,

其目的主要是为元数据在网络上的编码、交换和重用提供一个基础。

它允许在的基础上以一种标准化的、互操作的方式对数据语义进行定义[],提供了一个描述资源的数据模型。包含描述资源的属性和关系的声明。资源是任何用()唯一标识的实体对象。

资源具有属性,属性则具有一定的值,

该值可能是简单的字符串或数字,也可能是自身也具有属性的其他资源。

这样,

资源、资源属性和属性值构成了声明中的三元关系模式,任何本体或描述性元数据都是这种三元关系模式的具体体现”[,

]。

为了描述元数据元素间的复杂语义关系,进一步定义了()。它可以看成是一个本体定义语言,

用来建立概念类体系结构、属性层次和类关系。

基于的智能导航机制

的出现为网络信息导航提供了新的研究思路,

技术是解决无序网络空间中“迷航”问题的关键技术。

基于的智能导航是一种以结构化、语义化的概念知识网络为基础,自动形成个性化导航结构的方法。它分为两个方面,一是基于的信息组织,即利用参考本体对各信息源进行语义描述和整合;

二是基于的个性化导航结构模型的构建,即在有序语义组织的基础上,构造用户语义模型,

并据此建立导航结构。图显示了基于的智能导航机制的概念结构[]。

.基于的信息组织

基于的信息组织的基本思想是,将来自于多个异构信息源中的数据整合到一个语义统一的参考本体中。参考本体是通过分析领域中的各个信息资源集合,

提取公共概念、属性和关系而构建的本体,它为所有信息资源提供统一的概念集合和通用语义。

信息整合的方法是先分别将各个信息源中的数据转换为通用的数据模型,然后建立各个数据模型和参考本体之间的映射关系。网络中的信息源具有各种各样的数据格式,其中大部分是页面,有的包含表格和列表。

另外还有文档、文档以及关系数据库文档等。为了解决分布式异构信息源的语法相异问题,

需要将数据转换为公用的数据模型格式,例如。对于非格式的信息数据,可以利用外覆包()技术将其自动地转换为基于的数据模型。外覆包对特定格式的数据文档进行解析,

并采用声明对其内容进行标注。下面是三种常用的外覆包:

()外覆包。由于页面属于半结构化的信息数据,

因此外覆包采用的是半指导性的标注方法。即预先手工标注一组页面,

然后对新的页面进行结构分析,将新页面与标注页面进行比较,

从中提取相关信息。外覆包还可以处理异构的文件[]。

()外覆包。根据和所定义的文档的内容结构和内容元素,建立概念集与之间的映射关系,

从而自动地将文献中的内容元素标记转换为对应的概念集元数据标记。

()关系数据库外覆包。将关系数据库中的数据元素和二维数据关系映射到概念集中,

形成语义基础,以便从关系数据库中自动创建声明。

由于不同的信息提供者可能会使用不同的词表来标注数据,因此在建立通用数据模型后,还必须在信息数据源和参考本体之间建立概念和关系的映射,

以消除语义差别。根据声明,在参考本体中注册相关内容的来源,使参考本体成为一个知识内容的集成文件。另外,

采用基于本体的元数据发现和漫游技术,探测相关的声明,

可以自动地添加新的信息资源[]。

.基于的个性化导航

通过建立参考本体以及进行信息整合,无序异构的网络信息数据通过语义概念及语义关系被组织到一起,形成一个有序的公共语义知识模型。

但是对于具体网络用户的信息导航,

并不直接在全部公共语义模型上进行,而是依据用户语义模型有针对性地进行。

.。用户语义模型

用户语义模型是反映用户观点的概念集合和概念关系。

概念集合的确定可以由用户直接提交或者根据用户的注册信息(用户的兴趣、爱好和知识背景等)按照一定的规则计算选择。

而构建用户语义模型的关键步骤在于建立用户概念集合与参考本体间的语义映射,寻找参考本体中与用户相匹配的概念和关系。

为了将参考本体映射到用户语义模型,需要预先对参考奉体和用户概念集合进行数据训练,方法是为每个本体概念和用户概念各标注一定的相关资源作为训练数据,

然后利用向量空间模型为每个概念生成向量,并计算其标准权重。

建立语义映射的过程通过计算用户概念集合中的概念向量与参考奉体中的每个概念向量间的匹配度来完成。

假设在维向量空间中,用户概念向量中第项的权重为的匹配度为[]:

首先将计算结果中匹配度高于阀值的若干概念向量与建立映射,形成从用户概念集合到参考本体的一对多的对应关系。如果参考本体的一些概念被重复映射,则需要选择其中匹配度最高的映射,

以保证从参考本体到用户概念集合的一对一关系,即一个本体概念只能和一个用户概念相关,但一个用户概念可以和多个参考概念相关。在建立用户概念集合与参考奉体对应关系的同时,

用户概念也继承了本体中的概念层次结构和其他语义关系,

成为一个独立的语义模型。

原则上应该将参考本体中的所有概念都映射到用户语义模型中,

但是由于用户语义模型是范围相对较小的概念集合,因此参考奉体中的概念实际上不可能被完全映射。为了保持映射的完整性,可以在用户语义模型中设立一个“其他”概念类,

参考本体中的所有没有被映射的概念将成为它的子概念[]。

举例来说,假设用户提供的信息表明其在体育领域感兴趣的概念为“足球”、“足球世界杯”、“足球亚洲杯”、“”、“围棋”、“奥运会”,图显示了这些用户相关概念经过映射后形成用户语义模型的过程。

用户概念集合中的每一个概念都在参考本体中找到了与之相对应的一个或多个概念,将这些概念从参考本体中提取出来,并根据其语义关系重新组合,就形成了用户语义模型的结构。例如:用户概念“”的对应概念为“篮球”、“篮球赛事”和“美国篮球职业联赛()”,

因此这三个概念都被包含在用户语义模型中,且它们之间的父子关系(即等级关系)保持不变。

又如,虽然参考本体中的“其他赛事”概念和用户概念集合没有直接对应关系,但由于该概念和“足球赛事”与“篮球赛事”两个概念间有语义关系,且这两个概念均与用户相关,

因此该概念也被包含在用户语义模型中。另外,“世界杯足球赛”概念实际上与“足球”和“足球世界杯”两个概念间都具有对应关系。但由于它与后者的匹配度比前者高,因此将它映射到后者。

.。个性化导航结构模型

导航结构模型显示了导航系统组织、关联和显示信息内容的方式。站点地图就是一种最简单直接的导航结构模型。个性化导航结构模型是基于用户语义模型创建的针对特定用户的导航结构,

是个性化导航服务的实现。

导航结构的设计需要考虑三个基本要素:卡片、页面和链接。一张卡片只包含一种类型的信息内容,

是导航结构模型中的最小组成单元。页面与物理的页面相对应,一个页面上可以包含若干个卡片。链接则用于连接各个页面中的卡片以形成整体结构[]。

通常,

导航结构模型总是从一个缺省的根页面开始,每一级页面都包含了到下一级页面的链接,信息内容通过卡片和页面进行分类和聚合,

导航通过链接来进行。在个性化的导航结构建模中,

导航结构是根据用户语义模型来确定内容和链接关系的。图显示了一个导航结构的部分示例,它是在图中的用户语义模型的基础上建立的。

导航结构的建模过程就是对各级贞面中的卡片的内容、类型和表示样式的确定过程。卡片的内容根据触发点和用户语义模型来选择,

不同的用户将获得不同的信息内容。

导航结构中的卡片被分为两种类型:静态卡片和动态卡片。静态卡片的内容独立于数据源,主要包含静态文本、图片等。

导航结构中的根页面通常都包含静态卡片,具有预先定义的锚点,指向下一级的页面。动态卡片的内容视数据源而定,

如果数据源改变,则卡片的内容必须重新计算生成。

动态卡片还可以细分为四种类型,每一种都代表了对信息进行结构化的一种典型方法:

()列表型()卡片:显示实体的实例列表,每一条实例都可具有指向该实例具体内容的链接入口。列表中的实例可以按照某种属性排序或索引。图中的页面、、、都包含了列表型卡片。

()事实型()卡片:详细地显示一个实例的具体内容,如图中的页面包含的“新闻内容”卡片和页面包含的“赛事内容”卡片。

()幻灯片型()卡片:顺序显示一组实例的具体内容,

每次一个实例,且具有浏览附近实例的超链接,待显示的实例可以按照某种属性排序或索引。图中的页面包含该类型的卡片,其中每个足球俱乐部的相关信息将被依次显示。

()查询型()卡片:要求用户先填写一组实体属性的值,然后查询符合该值的实例并显示,通常该类型的卡片用于导航系统中的信息检索,

如图中的页面包含的卡片[]。

另外,

不同的卡片具有不同的表示样式,表示样式描述各种表示元素的属性,

例如字体、颜色、布局等。表示样式可以根据用户喜好确定。

个性化导航机制的导航方法采用用户语义模型的查找与语义链的触发相结合的方式。

当导航结构中的一个链接被触发时,

该链接将被赋予一个查询式(,

,),

式中三个变量的含义分别代表卡片的内容、类型和表示样式,

在用适当的值填充变量后,即可利用查询式计算生成链接末端的卡片。

例如在图中,当链接被触发后,

的查询式为:(“体育”,,

),其计算结果为页面中的卡片。

中的变量的值为的触发端点的概念“体育”,在计算时将检索用户语义模型,

获取此概念的相关概念或相关资源作为卡片的内容。中变量的值为,因此生成的卡片将具有列表型的信息结构。

同时,由于中变量的值为,因此还要读取样式表中名称为的表示样式,

并据此决定卡片的外观。同理,

链接的查询式为(“足球俱乐部”,,),其结果是生成一个信息结构为幻灯片类型,

表示样式为,内容与足球俱乐部相关的卡片”[,]。

导航机制采用技术,揭示和整合网络信息资源的深层语义知识模型,

能有效解决无序、异构网络信息空间中的“迷航”问题。它利用映射方法建立用户语义模型,

可以充分表达用户需求的语义知识,以提高个性化导航的效率。

结束语

网络信息的利用状况不容乐观,

迫使人们努力探索更为先进更为成熟的导航理论、方法和技术。第二代技术——在信息服务中的应用,促进了网络导航新技术的发展。它作为导航系统的信息组织框架,

能够使复杂的信息空间变得有序、清晰和直观,它采用机器可读的形式化的知识表示方式,有利于知识内容的自动获取。目前,

技术正获得越来越多的应用,相信经过不断地研究和优化,

以为基础的高级网络信息服务将逐步成熟,

智能、高效、个性化的导航系统将成为开发网络信息资源的主流工具。

参考文献

丛敬军,阎辉。数字图书馆的知识信息导航技术研究。中国图书馆学报,,

():~

马瑞民,衣治安。上超文本数据导航方法的研究。情报学报,,():~

张晓林。与基于语义的网络信息检索。情报学报,

,():~

刘柏嵩。基于知识的语义网:概念、技术及挑战。中国图书馆学报,,():~

,。:,

。,,

():~

。。。//-/

张平,郭金庚。语义网描述语言分析。电脑开发与应用,,():~

--。-。。////。

-。。。/~//。

毕强,刘早学。——一个智能超文本导航系统。情报学报,

,():~

杨卫东,

施伯乐。基于状态图的导航模型及其特征分析。计算机研究与发展,,():~

数据通信的含义篇

一、概述

按照国际组织的定义,

是企业网络财务报告编制、、数据交换和财务报表及所含信息分析的一种标准方法。要正确理解的实质,应当注意与其他相关概念之间的区别:

(一)不是一个会计系统是一种标准方法,

而不是一个新的会计系统,它不会改变会计系统的数据。

企业通过所提供、披露的财务报表数额完全取决于报告主体。

(二)不是一套会计准则并不需要改变现行的会计准则。会计准则属于现行公认会计原则及监督组织机构考虑的范畴。

是用来表述报告标准内容的一个平台。

(三)不是一个通用的明细科目表具有对一个组织经营结构中可能使用的截然不同的应用软件之间进行数据转换的能力,所以通过这种数据转换能力能够促进组织结构更好地运行。

(四)不是一个简单的公认会计原则变换器它不将具有透明度的、反映现行公认会计原则的信息转换成更低层次的信息,它解决的问题是包含同样会计准则信息的企业报告文件是采用格式、格式或是格式。

(五)不是一项专有技术是免费许可和面向公众的。

以为基础,因而希望能被各种应用软件广泛接受,即允许人们通过所有的软件格式和技术自动交换、自由地使用,并能可靠地提取所需要的信息。

(六)不是一种交易协议是为说明包含在企业报告中的相关信息的编制和使用而设计的,

它始于会计系统的分类数据层面。所以是关于企业报告信息的处理方法,而不是在交易层面获取数据的方法。

二、的特性

之所以能应用于网络财务报告披露,

与其自身具有的优势是分不开的。对于信息供给方而言,无须编制不同格式的财务报表,

没有重复输入而导致错误的风险,大大降低了信息的生产成本;对于信息需求方而言,可实时、方便、精确地获取所需的财务信息,

并根据其决策模型加以分析和利用。主要表现在:

(一)协同性(通用性)好具有跨平台使用的特性。不同企业、部门中存在很多不同的操作系统、数据库和应用软件,要想在它们之间传输信息,不得不使用一些特殊的软件,

这样不仅浪费资源,而且使用起来极其不方便。是一种互联网上企业报告通用的语言,

其可以使得信息在不同操作系统、数据和应用软件之间进行传输和交换,使得财务信息得到更有效的利用。

(二)开放性好具有属性良好的开放式技术构架,它使任何处于财务信息供应链上的人都能免费、自由地在不同的软件平台上获得、交换并分析财务信息。因而使采用的所有与财务信息有关的供应链体系上的用户均能受益。

(三)准确性高利用,数据只需要一次输入,

就可能实现多处共享,从而减少人工输入过程中的错误风险。

(四)效益高减少了重复输入资料的次数。在第一次对财务信息进行生成和编排时,

其数据可以被以任何形式保存起来,各种格式的报表都不需要再由手工重新输入或编排即可生成。人们只要对财务信息进行重新组合,就可以生成各类所需文件,

还可以将数据应用于各个会计应用软件中,直接进行种类财务分析,在很大程度上降低了数据输入、传递和分析的成本。

(五)强大的搜索能力使用的标签以标准化的会计业内定义为基础,以描述和识别财务信息的每个项目为目的,

通过对搜索内容加上详细的标签后,搜索引擎就能更精确且快速地找到使用者所需的财务信息。

如某使用者想查找某公司的销售收入,可以通过标签定义快速精确地找到损益表的销售收入。由于采用统一的财务报告标准,使用者还可以通过搜索引擎去抓取特定的比较信息,

如不同年度的某公司的销售收入,

或特定年度不同公司的销售收入;另外还可以取得同一公司跨报表科目来进行比较,如销售收入和保留盈余的比较等。

三、技术构架

比较复杂,有着较多的组成部分与文档。

大致可以从以下方面来观察它的技术框架:规范,分类标准,实例文档和样式单。

(一)规范()规范,

或称规格书,是的核心和基础,它规定了的理念和原则。主要用于定义的各种专用术语,

规范的文件格式,说明怎样建立。

规范定义了表达信息的元素和属性,这些信息可以被用于商务报告的创造、交换和比较等任务。陈述了的框架模型,并详尽地定义了分类标准的实例文档的句法与语义,明确规定要怎样才能写出一份规范的文档。

不同行业、或者不同地区、国家可以自由地基于不同版本的规范制定和自己的分类标准。

(二)分类标准()分类标准是的具体应用,

它必须基于特定版本的制定。换言之,一组相互关联的分类标准是依据特定版本的制定出的一套表达规则,

它规范了特定报告所涉信息的表达方式。在中,分类标准是用来定义特定类型财务报告的实例文档中的数据元素及这些元素之间的关系。其主要目的是提供一个可以让不同公司的财务信息以相同的名称或方式来呈现的标准。

因为各种类型财务报告中的关键数据元素均不同,

需要制订相应类型的分类标准来描述它们。

由多个文件组成。每一个分类标准主要文件包括一个文件(*。)和计算()、定义()、标签()、表示()、参考()这五个链接库文件(*。)。

定义链接库文件:描述文件中包含的元素之间的层次结构关系。

计算链接库文件:描述文件中包含的元素之间的计算关系。表示链接库文件:描述文件中包含的元素的展现关系,通常这种展现顺序和定义链接文件中描述的层次结构关系类似甚至一致。标签链接库文件:为文件包含的元素定义个性化的标签,以便展现时使用。

通常元素的标签名称和元素名称一致。参考链接库文件:为文件中包含的元素提供参考信息,如元素来源依据。

(三)实例文档()实例文档是数据元素的集合,其相当于企业财务信息的原始码,这些数据元素被与该实例文档相关联的分类标准中的定义(“词”)打上了标记()。如某公司年年报资产负债表项目中固定资产的期末余额是万元,则用一个简单的实例可表示如下:

某公司

万元

需要说明的是,

是一个添加标记的计算机程序,用计算机处理的每则信息都有一个可识别的代码或标记相对应。但是因这些标记与其他用于定义计算机视觉特征的格式标记一起内嵌在信息中,当屏幕上显示或打印输出企业数据时,用户看不见这些标记。

实例文档与分类标准的关系如图所示:

(四)样式单()实例文档本身只是数据元素以及标记的集合,它没有向外界提供一个用户友好的界面。所以当你从浏览器中打开一个数据文件时,

它显示的就是该文件的源码,全是的标签,阅读者不能很快弄清楚他看到的数字是什么意思。如果要编制可供打印的财务报表,

实例文档也许不能满足要求,可以通过级联样式单(-,)、可扩展样式单(,

)或电子表格等样式单用以向一个实例文档中添加一些必要的表示元素,生成或其他格式的可输出文档。

四、概念构架

的概念框架包含五种类型:数据项、元组、元素和分类信息。

(一)数据项()数据项是概念框架中最基本的东西。一个数据项通常跟一个数字型的事实()对应。事实的报告是关于商业实体在某个时间范围的。如“某公司年总收入为万”这样一个客观事实就是一个数据项。

数据项通常是数字信息,但也可以是字符型的描述性内容。定义了一种语法,可以描述多种不同的事实和这些事实的背景,如此可以让应用程序有效而可靠地发现、提取和解释相关事实。

(二)元组()元组就是事实的联合体,因为合在一起可以让阅读者更好理解一组事实,它就像数据库表中的一行数据。

在一个特定商业实体的报告中,某些信息需要和其他信息相关联才能得到正确的理解,

尤其是那些在报告中多次出现的同类信息。如上市公司披露的董事、监事及高能管理人员情况可能涉及多个董事、监事或者高级管理人员的信息,每个董事、监事或者高级管理人员都包括姓名、职务、年龄等信息,

且其姓名、职务、年龄是一一对应的。

因此,每个董事、监事或者高级管理人员的信息都是一个信息集合(姓名/年龄/职务/……),这样一种信息集合就被称为。在概念上类似于数据库中的记录行,

而类型的元素则可以被看作一种容器,用来囊括某些数据项或其他类型的元素。

(三)元素()即元素,它对应一个客观概念。如本部分定义的元素“流动资产”即对应财务报表中的“流动资产”这个概念。

元素被用来标记文档部分,也就相当于标签。

元素具有下面的格式:

内容

(四)分类信息()的分类信息中的一些元素及这些元素之间的关系,是框架中非常重要的部分。虽然一个数据项只能引用一个分类信息,但实例文档中其它的数据项又可以引用其它的分类信息,因此一个实例文档中的分类信息可能有多个。

单个的分类信息可以作为“砖块”去建造更大、更复杂的分类信息。用户可以将存在的分类信息组合成高级的形式,

而且为了建立自己特殊的分类信息还可以有选择地向里面添加内容。举例来说,医院有这么一种开销“医生的工资”,但在已有的标准分类中不存在这么一个词汇,那么就可以定义一个小的分类,

在其中定义术语“医生工资”,并将其引用到已有的标准分类中,使它和那里已经存在的概念“开销”产生联系。

综上所述,运用可以高效地编制各种格式的财务报表,

并从各种格式的财务报表中快速、可靠地抽取特殊的财务信息,这是存取网络财务报告的一大创新,

无论是跨国公司还是中小企业都将受益。

参考文献:

数据通信的含义篇

设计重用包括形成重用单元、管理重用单元和利用重用单元个方面。

重用单元是可以被重复利用的设计元素子集,是设计重用的基础。确定重用单元的标准很多:在基于特征建模的设计中可以根据几何、材料等设计特征;可依据设计原理理论,根据相应的功能或实现方法;

可根据重用性还有的研究着眼于设计中使用的知识和推理模式。

重用单元在形成之后、被利用之前,需先以零件的形态存储在单元库中。在存储时,需要选择合适的方式描述其特征,标识其身份,这对于提高存储效率、方便重用时的选用都非常重要。

将重用单元用于新设计是设计重用的最终目标。这个过程要求根据当前应用的特殊性,

从单元库中找出匹配的单元。等提出通过评价单元的相似度来测量可重用度;等提出用可视化的重用单元信息描述方法来查找和比较重用单元。这个过程还包括确定以何种方式重用。如等在其所研究的硬件设计领域就提出了多种重用的程度和方式,如可原封不动地替代,也可采用参数化建模的方法修改某些参数使之符合当前设计的要求,

或重用其设计架构,通过替换部件来实现设计目标等。

对于建筑工程,

虽然其工程与工程之间缺乏通用性,

但其工程内部具有很大的重用潜力。挖掘单一工程内部的设计重用潜力可直接缩短设计周期,对于勘察设计行业具有实际意义。本文在文献[]的基础上提出“五层树状模型”,

对建筑工程设计图纸中平面化的信息进行解析和重构,以更少的数据量和人工干预获得与传统图纸具有相同信息量和表达标准的图纸。该模型的提出为重用单元的确定、命名和部署提供了依据,并便于实现操作过程自动化。

建筑工程的重用需求的特点与难点

在单一建筑工程项目内,重复的设计信息可分成种:)不同标准层之间存在的相同局部;)多个单元构成的建筑物中,

不同单元所采用的相同布局。由于现行建筑设计表达规范要求按标准层描述设计,

因此只要不是完全相同,即使它们存在部分重复的局部,

不同标准层也必须采用独立的图纸表达,而且每张图纸都含有所对应的标准层的完整信息;同样,

多单元建筑物的每个标准层也需表达完整,即使不同单元之间有相同之处,也需逐一表示。因此可以想象,一个工程的全套图纸中存在的重复设计信息数量庞大。

在环境下,工程师可采用“复制-粘貼”的方法快速形成这些重复设计信息所需的图元。问题是当设计变动时,

各个副本都必须逐一修改。每种设计信息的副本数量越多,修改这些信息所需进行的重复操作量就越大。而在建筑工程设计中,

各个局部的设计信息的副本数是很大的,

尤其是在设计后期,为了更新各个副本中的数据将占据大量的设计时间。

究其原因,维护信息副本的麻烦源于副本之间。缺乏数据结构层面的联系,因而不能引导修改操作在副本之间传递。软件提供的“(中的)块”等功能可在一定程度上减少此类重复操作。块是一组图元的集合,在需要重复出现这些图元的位置可以插人该块的“引用”来取代这组图元的副本。由于所有的引用实际上只是该块的映像,

因此只需修改一处,

其他各处引用便可同步更新,自动保持一致。

块的出现为传统设计信息的零件化和设计重用提供了载体,为了更彻底地实现设计重用,还需解决其在零件的定义、重用和更新等方面的问题。本文提出了特定的数据结构模型来重新组织设计信息,以实现设计重用。

建筑工程设计信息数据结构

根据对建筑工程设计信息内容的分析,

本文提出将各个标准层间重复出现的设计信息定义成在建筑工程设计信息的重用单元,也就是设计重用中的零件[]。这种根据零件的重用范围而非零件自身的设计内容定义零件的方法,也为零件的命名提供了依据,

即用可用零件的适用范围为其命名。进而,

系统可以据此搜索合适的零件完成组装。这种定义方法避免了工程师人工为各个设计零件取名而可能引起的混乱,便于处理大型工程中可能出现的大量重用单元;

同时也使从零件库中搜索和组装零件的过程便于实现自动化。

该重用模型的设计的另一个重要特点体现在重用单元更新时。通常,修改后的重用单元很难同时满足各个重用处的边界条件。但由于本文根据重用范围,而非零件自身内容定义零件,因此零件在修改时可解决与各个重用处的矛盾。

例如,如果根据零件的内在信息定义内容,

可以定义像“小型卫生间”这样的零件,

它可能已被重用于,,标准层。则对零件的修改主要考虑是否符合“小型卫生间”的需要,

而不一定兼顾是否仍可用于,,标准层。但根据重用范围定义零件时,定义的零件是“,,

层的相同区域”,

其修改的内容必符合“,,标准层共有”这一前提条件,因此所修改的结果必然仍要适用于,

,标准层。当然,该零件最终的实际内容也不局限于某个特定的工程单元,即它有可能是半个或多个“卫生间”,

或其他,,标准层共有的各种组合。这种定义方式符合建筑工程设计人员的思维习惯。

建筑工程设计信息庞杂且层次较多,

为了将其零件化,本文提出了层树状模型,从顶到底分别为楼终件、层终件、层件、层部件和零件,如图所示。

首先,

本文提出了“主题”的概念将原本叠合在一起的设计信息还原成各自的层次。主题是信息的种类,完整的图纸是多个主题叠加的结果。例如,结构平面布置图是由轴线、柱/墙(外形)、梁(外形)和板面配置等种主题叠加而成的。

在树状模型中,

楼终件含有一个标准层上的所有单元的设计内容,具有完整的主题,含有多个层终件作为其下级;层终件对应一个标准层某个单元的内容,

也具有完整的主题,含有多个层件;层件对应某个主题、某个单元的某个标准层,

由多个层部件拼装而成;

层部件与所在层件具有相同的主题和单元,但可用于多个标准层。层部件由若干零件构成,

零件是最基本的重用单元,它与所在层部件具有相同的主题和相同的标准层,

但可用于多个单元。图中从零件到其他单元的虚线箭头即表示零件能被用于其他单元的性能。

该树状模型依据主题、对应的标准层和单元等项重用属性将设计信息分解成多级重用单元,

并借助树状结构将其层层组装,重构成完整的设计图纸。

基于设计重用的工作模式

基于树状数据模型,工程师需要以新的方式处理设计信息。

)建立重用数据架构,

即确定该项目所包含的主题、标准层和单元等,作为重用单元产生、存储和重用的基础。

)按主题绘制图纸,形成设计信息,这与传统方式不同,

传统方式通常绘制融合有多种主题内容的完整图纸。

本文中形成重用单元的方式与其他设计重用模式略有不同,

它不需要工程师专门绘制零件,

只需绘制对应标准层的层件,这符合建筑领域工程师的设计思维习惯。零件是在绘制不同的标准层时逐渐形成的,当开始新的层件时,如果工程师意识到已经完成的层件中存在可重用的部分,就从这些层件中选出这些图元,

设定其所属的主题、标准层和单元,形成可重用块,以进入重用体系中。

由于可重用块具有完整的重用信息,系统可在重用数据结构的引导下将其自动部署到重用的各处。如对于某个零件,

系统将在数据体系中搜索与其具有相同主题、相同标准层,但单元被包含在该零件所适用单元范围内的层部件,并将该零件的块引用插入该层部件。层部件构成层件、层件构成层终件,以及层终件构成楼终件的过程也是类似的,都是根据重用属性进行筛选,

将前者的块引用插入后者。

系统建议工程师在绘制或插入块引用形成各种部件时采用相同的工程平面坐标系,这样大部分插 入的块引用无需调整坐标就处于正确的组装位置。但对于从零件到层部件以及层终件到楼终件的过程,由于部件要用于不同的单元中,因此需要人工在宿主件中调整其姿态参数才可最终完成组装。通过这种方式形成的设计信息集合中,即使不同标准层或单元间存在重复的内容,

也只对应一套图元。因此只需修改一处,即完成所有重复处的修改。

基于设计重用的工作方式在重用单元的定义、部署以及修改的传递等方面采用自动化手段取代人工操作,已取得很好的效果。

程序数据对象模型

本文提出的重用机制和相应的数据结构充分考虑了自动化实现的需要。树状模型的个层次各自对应一个类,分别为类、?

类、类、/类和类,如图所示;这些类具有共同的父类类,如图所示。

类的主要属性包括所属主题、标准层和单元等重用属性,

还包括一个数据库中的块表记录的标识,即每个类对象均对应一个块表记录,其主要行为包括搜索部件和纳入部件。搜索动作因各子类不同而不同,因此它在子类中具体实现。它需根据不同的子类类型和自身的重用属性采用特定的行为,即每种对象只能搜索其直接下属对象,

并需使两者的重用属性相匹配。例如对象只能搜索对象,搜索的标准为主题与标准层相同;对象所适用的单元包含了?对象所对应的单元。纳人动作即根据搜索到的部件对象所含的块表记录标识,

创建该块表记录的块引用,并将其插入自身对应的块表记录中。

层树状模型便于指定重用单元的边界和重用属性,

并充分考虑了封装和重构等数据组织方面的需要。在该模型中,基本的图元,

如线、圆和文字等均存在于类对象中,

对基本对象的操作约束在零件层,零件重用到特定单元时所需进行的姿态调整均在类对象中实现。这种对数据存储和设定的限定充分考虑了树状模型的不同层次在数据影响范围和传递方式方面的不同,为需要不同存储和传递方式的信息提供了相应的平台,以确保信息能正确、无漏地传递到恰当的地方。层对象模型完整地实现了树状模型的信息组织结构,为从重用单元到最终设计图纸的还原过程提供了载体,

为重用信息的传递提供了通道。

应用程序系统

本文开发的程序系统针对基于重用的特有的工作模式,提供了建立重用数据架构、定义重用单元和管理重用单元等功能。该系统基于环境,采用()技术开发。

)建立重用数据架构。该模块供工程师设定本项目所含的主题、标准层和单元,

以及主题的叠加关系。系统根据这些设定,推算并自动形成楼终件、层终件和层件等层次的对象,并将其纳人树状结构体系中。

)定义重用单元。将提示工程师选择图元,通过对话框在早先设定的主题、标准层和单元等重用属性中点选本重用单元所适用的范围。系统根据这操作自动生成对应的零件和所需的层部件,

并完成它们与层件的连接,与在)中形成的其他层次的对象一起,形成了完整的树状数据结构。

)管理重用单元。通过一个树状目录来反映树状数据模型。该树状目录不仅可以查看数据结构, 还可通过点选切换显示指定节点中的内容,

系统会将选中节点对应块内的图元显示在主界面中供工程师修改。

实例工程

下面选择多个不同类型的实际工程中最有代表

性的一个工程实例介绍本文模型和系统的实际工作性能。

该项目是一座层的高层住宅,高,含个单元、种户型。每个单元含个楼电梯间和户。户型在不同单元间也是重复的:如单元含,

和户型;单元含,和?户型;单元含,

和户型。其标准层布置如图所示。

先以剪力墙配筋设计图纸为例,说明图纸到主题的分解,如图所示。图所示为图中箭头所指局部的放大。图所示为某标准层含全部内容的剪力墙配筋设计图纸片断,它可分解成图,和种主题。本文就是通过这种方式将各种图纸分解成若干主题。

提取重用单元的工作在每个主题内部进行。本工程仅墙体(外形)一项主题共形成个重用单元,

图选取了其中的个。图中每个重用单元旁边的方格表示该单元重用的范围,每个行、列的含义如图例所示,选中的单元格对应的行、列即为其所适用的标准层和单元。如第一个单元表示重用于,单元以及,,

和标准层。

这些重用单元直至设计完成才最终定型。从表面上看,这些单元大小不一、外形零乱、缺乏规律,有的大致能够反映了建筑平面轮廓,

有的支离破碎,有的仅包含几个图元,但正是这种零乱,反映了本文提出的重用方法的渗透性。本文模型将散布在各个角落的重用潜力加以利用,

其外在的表现即为重用单元延伸到各个角落;同时,

从重用单元的形态也可以看出,

这样的重用单元及其重用程度是不可能在设计开展之前事先确定的,

而更适合采用本文提供的手段逐步积累演化而成,

这也是本文研究区别于其他研究的重要特点。

本文借助系统的“块-块引用”机制将设计信息中的重复部分归并成重用单元,为了深人、全面地在全项目范围内挖掘和利用重用潜力,提出了五层树状模型,实现了信息的颗粒化和立体组织、存储,大大地提高了存储效率,

有效地建立了各个信息之间的重用联系。数据模型的提出为重用单元的定义、存储和利用提供了依据,并具有合理的数据结构和良好的数据封装性能,便于重用信息的记录和有效地控制重用动作的作用范围和方式。以此为基础开发的自动化程序可以应对在实际工程中可能出现的大规模数据。

数据通信的含义篇

“这不仅仅需要采集各种各样的信息,

而且还要求这些数据能够以各种格式保存,从表单文件到数据库或者网页。”表达了他的期望。但数据采集工作仅仅是开头。

一旦得到了这些信息,他还需要判断这些以不同格式保存的数据之间有什么样的关系。

“如果你在两个不同的数据库中,

都有一个名为‘’的字段,那么假设它们都代表同样的意思,具有同样的单位,可以直接进行整合,这是否合情合理呢?

”说,

“实际上,它们可能一个代表‘温度’,

而另一个则意味着‘临时’的取值。所以,

为了恰如其分地合并这两个字段,你不得不完全理解这些数据的真实含义。

在和其他大型机构――不管是政府部门还是企业,

整合各种数据都面临着很大的挑战,但是为了能够方便地在内部或者与外部的合作伙伴共享信息,

这又是一个不得不面对的问题。

数据整合的挑战也是及其他很多大型机构转为使用具有语义整合能力的的一个重要原因。由能够通过网络提供相互操作性能力的各种服务组成。

尽管以业务为中心的特性能够激发人们的热情,但它能够让网络服务的整合与动态选择成为可能,这一特点让无数人产生了浓厚的兴趣。这就让语义技术有了用武之地,

它能够用尽可能接近自然语言的模型来处理各种如生物学和经济学一样的专业问题。

语义技术

具有内置推理能力的平台,能够帮助企业迅速作出决策,这是基于其服务能力和根据预定义条件获取相关信息的。

从本身而言,它并不具备这种能力,但加上语义技术的帮助,

能够充分地发挥出彼此的特长,帮助企业作出准确及时的决策。

语义整合技术是基于底层可靠的服务和数据来作出判断的。然而,这些技术目前还没有完全发展成熟。

公司的等工具可以使用普通数据模型追踪这个问题,并验证数据交换的可靠性。

支持本体论的

所谓语义整合技术,就是要在各种纷繁复杂的原始数据中找出其共同具有的匹配模式。如果能够做到这一点,

那么就可以将这种模式定义为一个原模型,

然后将几个原模型根据它们之间的关系连接起来。一种先进的语义整合方法就是(本体论)。本体论是对一个领域的结构化表述――用它我们可以处理如生物学或者经济学之类的专业领域问题――其表述的基础是面向对象的类及各种类之间的相互关系,这些类和关系可以使用基于的网络本体论语言来定义。

使用本体论,

任何一个领域都可以被划分为各种类,然后再描述这些类之间的相互关系。支持本体论的将这一建模技术进行了扩展,

在的各种服务之上建立了一个层模型,其中包含了与服务域相对应的各种本体论类。这些对应关系是在建立本体论的设计阶段就确定的,然后在运行的时候通过服务请求的语义相似性实现。

这里面还用到了策略思想,用来建立查找语义相似性的逻辑。

要建立支持本体论的,有以下四个步骤:

第一步:分析业务流程。

业务流程通常都包含一系列基于条件的任务执行。这些条件可能需要语义能力来展现其智能化的路由选择。我们将这些地方定义为“可变点”,或者是需要推理能力来实现语义特性的区域。

每个任务可能都具有几个可变因素,

或者对于每个可变因素,都可能具有多个可能的取值。而且未来的业务需求可能会引入新的可变因素,或者已有可变因素有新的取值可能。

例如,

早期人们认为物理形态只有固态和液态两种,而随着科学的发展,人们才逐渐认可了气态是另一种物理形态。

因此,在定义本体论模型时,每一个变量都对应一个数据字典,

可以不断地进行扩展,以保证能够满足未来新的业务需求。

第二步:建立本体论模型。

本体论是用术语概念和关系来定义。本体论的概念实现为类。

本体论中的关系被定义为术语的“对象属性”和“数据类型属性”。从可变点组件到本体论模型中元素的映射,能够帮助建立其本体论模型。

要准确地识别出业务流程中的任务和可变点,从而最终将它们映射为本体论模型中的元素,

建立起有用的模型,必须要有足够的业务知识。开源的本体论建模编辑器和基于知识模型的框架工具,如可以用于本体论建模。

第三步:创建上下文相关的参与者。

接下来要做的是,创建运行时的组件,

它们在执行时按照条件调用本体论模型中的元素,并根据上下文具体条件执行不同的分支。

实现这一点的一种方式是使用基于语言的技术。使用业务流程执行语言()和模块的概念,业务流程会被封装为一个线性流程。而使用本体论的运行时组件则映射为决定正确服务调用的端点。

通过定义“策略”和“断言”,

能够实现充分的语义特性。“策略”会决定流程的可用性,并决定端点调用的服务,定义哪个地方可以使用什么服务。

“断言”包含了本体论中映射的所有可能变量取值。运行时对包含端点的判断是基于“断言”与“策略”二者之间的最佳匹配原则的。

第四步:实现网络服务。

网络服务提供最终的业务服务。他们是最终的执行点,

包含了实际的业务功能。

作用于网络服务的策略,是需要包含新服务端点任务的必要组成部分。

改进实施

语义整合被用于各行各业,例如金融服务行业和医疗药品行业,而作为支持本体论的语义整合,

其应用范围会更加广泛。我们将建立的支持本体论的体系结构应用在了一个典型的业务领域――禁毒。所有的禁毒活动都需要化学和生物样品,这些样品的管理包括了获取、注册、保存和分发。

我们的本体论模型通过动态地调用不同的网络服务实现了对样品获取活动的支持。

这个系统大致是这样的:一个研究员请求样品(上面的第一步),

这个请求发出了一个过程(第二步),其中,这个业务流程模型的引擎包括了对一个上下文相关调用的请求(第三步),然后这个调用会与本体论模型引擎相互作用,并根据条件查询相关的“断言”和“策略”。

结果会根据具体条件选择适当的网络服务执行(第四步)。

通过将专业业务领域的流程建模为工作流,

并同时建立业务流程模型和本体论模型,本体论可以用来实现语义整合。本体论模型中的类和关系可以基于专业领域的知识和业务流程创建。

数据通信的含义篇

【关键词】数据;可数据;

视化转换

。数据模型

.数据模型

数据注重描述地理实体的空间位置和几何形状等信息,它以符号化的形式分层管理数据。文件是由诸如颜色、线型、线宽、符号等静态图形特征组织后的图层集合,实体或元素都包含在单一的文件中,

属性数据的主要描述依据图层和注记。

地理实体以线型、图层、颜色、字体等几何特性和空间位置数据记录等方式表达。

.数据模型

能够将地理实体的空间信息和属性信息集成管理。地理实体的属性信息是用来描述地理实体的属性特征的信息,是一个属性数据库。

更重要的是它包含了所没有的空间信息,如实体间的拓扑关系,与地理实体相对应的空间坐标系等空间信息。地理实体的数据既包含数据的空间位置和几何形状的信息,同时又包含地理实体的属性信息,

根据这些信息才能实现空间分析、测量、分类、统计等功能。

.传统数据转换方法

在不同的系统数据格式中对同一实体对象的描述手段与组织方式不尽相同,

如何实现不同系统间数据的转换,最理想的状态是对两个系统间的所有语义建立一一对应的映射关系表。但在实际实现过程中,不可能将所有的元素都建立这样的关系,这样就产生了信息传递过程中的语义变异与信息理解上的语义偏差。

因此,可行的转换模型就是建立一个两种数据格式之间尽可能完备的映射关系表。传统的数据转换技术的是提供一个简单直接地访问外部数据的方法。

此方法的基础是对两种数据结构的有限支持。在某些情况下,他们仅处理特定的数据对象。这时映射关系表中的映射只是完备集命中的一个子集。还有一种常用数据转换的方式是使用各个软件中的公开数据格式。

每个软件为了与其他软件进行数据共享,通常都定义一种公开的数据格式,如和格式。

普通用户可以直接读写这些公开的数据格式,

实质上它们起到了一个数据桥梁的作用,通过这个桥梁可以实现软件之间的数据转换。但是这种方式仅仅是简化了直接读取源数据的难度,

因为这些公开的交换格式又是由各软件厂商自己定义,

所包含的内容和表达方式不尽相同,并没有从根本上解决构建一一对应的映射关系表的问题。

。可视化转换模型

公司的是使用最普遍的应用软件,可怜天下父母心作文最新版本中增加了数据互操作扩展模块,其内核是基于加拿大公司提供的要素操作引擎()技术。

互操作模块提供了空间数据提取,转换和加载()功能,

使用户可以使用多种数据格式工作。基于语义转换技术进行数据共享,

允许用户在数据转换过程中重新构造数据,这些重新构造的数据对用户可能是“灰箱”甚至“黑箱”。使用户可以根据特殊需求,提取相同数据源的不同内容,而不是以单一格式输入和输出数据。

当在系统间数据模型的存在极大的语义异构时,例如系统和系统,

这一技术显得特别实用。在中,数据互操作扩展模块在结构上进行了更新,使用户可以用可视化的方式导入导出大部分数据格式,并且该扩展可以基于属性值输出多个数据集。

.可视化转换模型理论基础

进行转换使用了与传统转换不同的技术,它实现了“语义转换”。语义转换提供了一个引擎,能够分别对输入或输出数据重新进行定义。

支持这个引擎的是所提供的一个非常丰富的数据模型,它比各种专用格式所支持的数据模型要更丰富,

并且具有内部一致性和可扩展性,从而实现很高程度的数据重新定义。

它不是简单的从一种格式到另一种格式的转换,而是完全在一种通用格式上工作,

并且注重提供各种模块来帮助用户操纵数据并转换为需要的形式,其中格式的改变只是数据转换过程中的一小部分工作。通过其内置的“函数”和“分类机”提供了一系列的数据处理功能。这些功能可以用于在数据转换的过程中进行图形数据的操作(如构面或连线),或生成新的属性(如长度或面积)。

语义映射通过构造语义映射文件来实现,

它应用的是一种宏语言,很多映射文件要引用输入数据集、输出数据集,或者其他映射文件。语义映射文件的内容一般包括:读写器定义及其配置、要素表、函数、要素动态生成器部分,其中最灵活的是要素表。

用户可以根据目标数据的要求选择不同的分类器,软件将在调用映射文件时按照要素表选用的函数顺序执行转换。表是用来描述中秋节和国庆节双节日记要素类特征和控制要素类行为的,

是按照目标数据的格式设计的控制文件。表包括两部分内容:一部分用于描述要素类特征,具备这些特征的都属于同一要素类;

另一部分是附加部分,例如在进行数据转换时,需要调入地理信息系统的目标数据所需的某些属性在源数据中没有体现,

那么就要在转换前在语义映射文件中添加。

.可视化转换模型构造

可视化转换模型构造的特点就是在工作台中以可视化的方式构造映射文件。

可视化转换模型构造流程首先,需要创建空间工具,一旦工具被创建,

工作台将呈现,

这是用于可视化数据转换建模的工作环境。模型构建的第一步是选择源数据及其格式。

对,

系统支持、、以及格式,在数据类别选择中的搜索文本框中输入“”,这将在列表过滤的相关数据格式。

通常使用的文件格式是和。其次是选择目标数据和格式。

在的该扩展模块中,基本支持公司的所有数据格式,

包括、、、、,以及网络数据库格式。

源数据和目的数据确定后,即进入可视化操作平台(),该平台提供了数据库、属性、列表等类近个转换模型,这些模型可以通过中典型的“拖”和“拉”的方式将源数据和目标数据连接起来,它们即可以“并联”使用,

也可以“串联”使用,

也不限于单一的源或目标数据。

平台模型构造完成后,可以在平台内直接运行模型,并以图形的方式察看转换结果,针对结果调整数据流动的过程和模型的参数,最后达到转换的目标。

。结束语

数据互操作扩展模块帮助用户在各种类型的数据间建立了桥梁,通过新的空间工具,让我们可以进行复杂的数据转换。其可视化的操作平台简化了数据转换的难度,

提高了转换的效率和精确度,是数据和数据进行转换的理想方法。从更长远的目标看,不同数据格式之间的无缝共享是最终的解决方法,这时数据格式的问题不再是用户需要考虑的对象,

无论什么格式的数据都可以在单一软件内进行无缝的互操作,

就如同操作原生格式一样。

【参考文献】

[]陈年松。基于的与数据共享研究[]。南京:南京师范大学,

[]陈影,程耀东,闫浩文。利用进行数据的无损转换[]。测绘科学,

()。

数据通信的含义篇

环节一:异种数据源集成

企业在经营分析与决策支持系统的建设时,必须将遗留系统()进行高效全面的集成。由于遗留系统是在企业发展的不同时期建设的,往往缺乏全局规划,

所以拥有不同的操作系统、不同的数据库、不同的网络通信机制等,形成了所谓的“信息孤岛”。

系统中采用异种数据源企业应用集成接口,

来实现对异种数据源的透明访问,包括数据源元数据访问及业务操作数据访问。

数据源分为在线数据源和离线数据源,在线数据源是指允许在线抽取的业务数据源,

如营业数据;

离线数据源是指不允许直接在线抽取的数据源,如计费样单数据就是采用以脱机文件数据格式及方式集成进系统。

对数据源实现元数据级的管理,数据源的连接类型(、、、)、连接字符串,

以及数据结构信息都以元数据的形式存储于元数据库中,

通过控制台对其进行业务语义定义,使用户对整个企业的信息系统有了全面的掌握。

环节二:层的设计

操作数据存储()是一个集成了来自不同数据库数据的环境。其目的是为终端用户提供一致的企业数据集成视图。它可以帮助用户轻松应对跨多个商业功能的操作挑战,

是面向主题的、集成的、近实时的数据存储。

设计的核心是实现焦点主题全局试图应用,如企业的客户管理系统,可以建立以客户为中心的客户主题视图,

向上层提供高效的服务。而对于话费结算则采取了从综合结算系统中直接抽取到数据仓库的方式,

抽取周期为结算周期,

能完全满足决策分析的时间窗要求。

环节三:过程的设计

数据抽取、转换和加载,是数据仓库实现过程中,数据由数据源系统向数据仓库加载的主要方法,

整个数据处理过程如下:

数据抽取从数据源系统抽取数据仓库系统所需的数据,数据抽取采用统一的接口,可以从数据库抽取数据,也可以从文件抽取。

对于不同数据平台、源数据形式、性能要求的业务系统,以及不同数据量的源数据,可能采用的接口方式不同,为保证抽取效率,减少对生产运营的影响,

对于大数据量的抽取,采取“数据分割、缩短抽取周期”的原则,对于直接的数据库抽取,采取协商接口表的方式,保障生产系统数据库的安全。

数据转换数据转换是指对抽取的源数据根据数据仓库系统模型的要求,进行数据的转换、清洗、拆分、汇总等,保证来自不同系统、不同格式的数据和信息模型具有一致性和完整性,并按要求装入数据仓库。

数据加载数据加载是将转换后的数据加载到数据仓库中,可以采用数据加载工具,也可以采用编程进行数据加载。数据加载策略包括加载周期和数据追加策略,

对于电信企业级应用,采用对工具进行功能封装,向上提供监控与调度接口的方式。

数据加载周期要综合考虑经营分析需求和系统加载的代价,对不同业务系统的数据采用不同的加载周期,但必须保持同一时间业务数据的完整性和一致性。

环节四:仓库模型设计

由于经营分析需求的不断变化,数据仓库中数据的存储必须采用主题分域的方式,

及尽可能小的业务单元进行数据的组织和存储,以满足数据仓库的灵活性。

此外,任何一个信息系统都具有整体性、结构性、层次性、相对性、可变性,数据仓库的目标逻辑结构的设计要体现这些特征。

例如,某电信运营商的业务可以按照不同的主题域分为八类:客户、账务、资源、服务、客服、营销、服务使用、结算。

客户主题包含与客户相关的基本信息,如客户的自然属性(姓名、年龄、职业等)、分类信息(现有客户、潜在客户、大客户等)、重要属性信息(信用度、忠诚度、消费层次等)。

账务主题中包含了与客户相关的费用信息,如明细账单、综合账单、账本、账户、付费记录、销账流水等;

资源主题中包含网络资源和服务资源信息及占用情况;服务主题包含产品、套餐、资费与优惠规则等的信息;客服主题包含与客户服务相关的部门信息、流程信息、分类信息等;营销主题包含销售机会、营销渠道、促销活动等相关信息;服务使用主题描述客户购买和使用电信服务产品的信息,

包括用户、服务使用记录、清单等;

结算主题包含结算清单、结算明细账单、合作服务方等信息。对于主题的建模采用星型结构,以事实表或概要表加相关维表构成。

环节五:元数据管理

元数据()是关于数据、操纵数据的进程,

以及应用程序的结构、意义的描述信息,其主要目标是提供数据资源的全面指南。

元数据是描述数据仓库内数据结构和建立方法的数据,

可将其按用途分为两类:技术元数据()、业务元数据()和内联映射元数据(-)。

技术元数据是存储关于数据仓库系统技术细节的数据,是用于开发和管理数据仓库的数据,主要包括数据仓库结构的描述(各个主题的定义,星型模式或雪花型模式的描述定义等)、层的企业数据模型描述(以描述关系表及其关联关系为形式)、对数据稽核规则的定义、数据集市定义描述与装载描述(包括的维度、层次、度量以及相应事实表、概要表的抽取规则)。另外,

安全认证数据也作为元数据的一个重要部分进行管理。

业务元数据从业务角度描述了数据仓库中的数据,它提供了介于使用者和实际系统之间的语义层,使得不懂计算机技术的业务人员也能够理解数据仓库中的数据。业务元数据包括以下信息使用者的业务术语所表达的数据模型、对象名和属性名;

访问数据的原则和数据来源;系统所提供的分析方法及公式、报表信息。

内联映射元数据(-)实现技术元数据与业务元数据的层间映射,使得信息系统的概念模型与物理模型相互独立,使企业的概念、业务模型重组,

以及物理模型的变化相互透明。内联映射元数据从技术上为业务需求驱动、企业数据驱动的双驱动建设模型提供了重要保证,使信息系统的建设具有更高的灵活性与适应性。

环节六:专题数据挖掘

数据挖掘一般用于在海量数据集中发现间接、隐藏、新颖的规律,数据挖掘技术的优势在于,通过对数据集进行有限步骤的采集、整理、分析、推理、比较等分析手段,来揭露埋藏数据内部的有用信息。

数据通信的含义篇

关键字:;

用户身份验证和用户授权一般来说都是站点和基于浏览器的应用程序的重要功能。这里验证和授权是不同的概念,

验证()是指“证明你确实是你所说的人”,通常是提供一个用户名和口令,然后与持久存储(比如数据库)中的用户名和口令进行对比。

授权()是指“是否有足够的权限做某件事”,此时身份已经被证明过了,授权通常与用户组或者用户级别联系起来,不同的用户组拥有不同的权限(访问特定页面或者执行特定操作)。下面将从窗体身份验证机制和如何利用其实现自定义身份和角色认证两个方面进行介绍。

一窗体身份验证机制

在应用进行开发的时候,尤其是刚接触。时,

一般会根据要求,自己编码采用+的方式实现身份验证和用户授权的功能。其实为我们提供了一整套的验证和授权机制,只不过主要基于两个原因我们起初都不使用。提供的这套机制,

一是我们的都要使用自定义的数据库用户表,而不是使用安全机制在_目录下自动生成的。中的一系列数据表;除此以外,还有一个原因,

就是。验证机制提供的相应用户信息太少了,当在页面后置代码中使用属性时,其属性只有一个与用户数据相关(与都是与验证相关),而很多时候我们都需要许多额外的用户数据。

其实这只是因为我们还不是十分了解的安全机制所产生的一个误解罢了,以为使用的验证机制和登录控件就一定要使用其附带的数据表,

以为就只能携带一个属性。实际上,

。的安全机制除了验证以外,还包括、、等几个部分,

我们完全可以只使用它的验证机制,而绕过它的、和,

来实现通常我们用+来完成的功能,而且更加高效和安全。

我们在使用验证机制时一般都使用的是基于窗体的验证和授权机制(),

只要在。文件中进行配置,那么就将使用基于窗体的验证和授权机制,主要通过这个类来执行。

与此同时,我们还可以在配置节中为其配置诸如登录页面、默认页面等信息。

在配置节中进行访问授权规则的设置。

该机制的控制流程一般按照下面步骤完成:

。用户访问某个页面。

。服务器寻找包含验证信息的,如果没有找到用户将被重定向到登陆页面。

。浏览器请求浏览登录页面,

服务器进行响应。

。用户输入并且提交数据。

。服务器通过验证用户的信息,登陆页面将创建一个包含认证票据()的。

默认情况下会使用和进行。

。用户验证成功,服务器重新让浏览器指向所指定的页面。

。在重定向的同时,浏览器向重定向页面发送请求,

请求包含验证信息的。

。类对包含身份验证信息的进行验证,验证成功后,

将得到当前的用户信息,并传送给对象。

。验证成功后,允许访问页面。

在此过程中,

类会创建一个的对象(在后台中为。),然后把它存入中。

包含一个的实例的引用(在后台中为。。),实例包含了用户的信息。一般会通过来替我们完成上述工作。

二、实习自定义身份和角色认证

通过对窗体身份验证和授权机制进行了解后可知,如要解决前面提到的两个问题,首先要绕开和,

这样可以使用自定义的验证逻辑和数据进行用户身份验证,实现过程需要调用的。或方法,

或者手动创建验证。

另一方面如果要在认证体系中额外存放数据则要对和进行重构,以创建满足自身需求的和。如下图所示的在实现了接口的基础上,

又增加了属性,

其值可以根据其的属性值(即登录时的用户标示)获取。

如果站点需要进一步实现页面的授权验证,则需要在自定义类的方法中实现。

定义了实现这两个接口的对象之后,我们还需要把它嵌入到应用程序的生命周期中,

具体的做法就是挂接到或者是重写。中的事件,这里我们采用了重写。事件的方式,因此创建一个。文件,然后在应用程序的事件中用我们自定义的和替换掉默认的和实现。

通过以上处理,

我们就可以在使用自定义的用户身份和角色验证逻辑进行用户身份和角色验证的基础上,

应用窗体身份验证和授权机制来进行站点的用户身份和授权验证了。

参考文献:

[]。。.揭秘(卷)。人民邮电出版社,

[]刘霓。

基于。的用户认证模块设计。中国西部科技,

成语大全

Copyright www.jiayuanhq.com 全民百科 版权所有

声明: 本站文章均来自互联网,不代表本站观点.如有异议,请与本站联系,本站为非赢利性网站,不接受任何赞助和广告.