标准查询网-电话:010-62993931

论XinhuaML标准研制及应用中的得与失

点击数: 【字体: 收藏 打印文章 查看评论
 


摘 要:本文先对XinhuaML标准作了说明,阐述了标准对新华社新闻业务改革所带来的革命性变化,然后从该数据交换标准所具备的技术特点入手,描述了新华社应用XinhuaML数据交换标准所得到的实实在在的益处,所谓“得”。作者还对解决语义定义的RDF技术作了简单介绍,并结合自己在XinhuaML研制和应用推广实践中的一些思考,从标准研制的技术、应用和管理几个层面客观具体地分析了XinhuaML存在的不足,所谓“失”。最后,希望在对XinhuaML研制和应用成败得失的分析总结的基础上汲取经验教训,保证正在研制的国家"十五"重大科技攻关项目“中文新闻信息技术标准研制”项目获得圆满的成果。

关键词:新华社;数据交换标准; XML;XinhuaML;RDF


XinhuaML是由新华社新闻信息标准研究项目组制定的内部数据交换标准,它是以XML技术为基础,借鉴了NewsML等国内外相关技术标准的经验,考虑了国内媒体的普遍情况,结合新华社的具体业务要求和实际情况,研制的适合新华社业务的内部数据交换标准,是联系新华社新闻业务流程“采集、编辑、生成、发布、供稿、表现、反馈”各个环节的纽带。XinhuaML经过一年的研制工作,于2003年3月完成制定,目前已在新华社的各个新建技术项目中得到了广泛的应用。

XinhuaML标准的制定完成,结束了新华社内部多种数据交换格式的混乱局面,第一次为新华社业务发展提供一个支持丰富的多媒体信息的数据交换标准。XinhuaML是一套标准体系,标准制定的同时还带动了众多相关标准的制定和配套规范的产生。如,分类标准的规范化,受控词表的标准化,稿号命名规范等,解决了各采编系统多年来主题分类标准不统一的问题,解决了原有各种专用数据格式信息不够完整的问题,解决了系统之间交换数据的不便,同时解决了交换时信息丢失的问题,提高了交换的精确度。使用统一技术标准后,可以为新闻信息的传送、存储、分类、共享,多媒体新闻信息的使用提供方便、快捷、灵活的技术手段,提高新华社的整体竞争优势。

XinhuaML的制定和应用,使得新华社对信息应用的状况得到了革命性改变,彻底结束了新华社没有统一的新闻信息交换标准状况,同时使新闻信息有了统一的元数据描述,以下是我们利用XinhuaML得到的主要益处:

◆为改变新华社原来文字、图片、信息加工完全按照处理的业务不同而划分成独立系统,相互之间基本没有信息交换和互动的局面,起到了推动作用。

◆利用XinhuaML,系统间实现了对多媒体信息的处理和交换,支持多体裁(报道、文章、评论、报告等)、多媒介(文字、照片、音频、视频图像)信息,可以成功地界定各种媒体之间的交互关系和角色,开创了可在多个层面给用户发送满足其个性化需求的多媒体稿件的新业务。

◆打破了原来部门间各行其是,各个系统采用多种各自不同的专有数据格式,资源无法实现有效交换和共享,导致系统的开发和维护成本增高的痼疾,可避免多媒体数据库系统在接收前端各编辑系统的数据时,必须针对多种不同专有格式单独编程进行格式转换,接口复杂性增加状况得到解决。

◆避免了由于没有统一的元数据描述和信息交换标准,系统无法保证从信息提供方得到完整的信息,从而导致在数据转换过程中内容精确性的降低甚至信息遗失的状况。

◆保证了资料保存的有效性,通过各个新闻编辑系统编辑信息的完整,可免去后续资料系统需要投入大量的人力进行人工标引。这非常有利于数据资产的保护和再利用,有利于最终用户对资源的再利用,改善了新闻信息资源严重浪费的局面,使信息的表示和检索更为准确。

◆支持基于相同主题的多媒体互动稿件描述,可通过主题词关联或其他关联,实现了更加丰富的个性化产品。

◆支持多种不同角度的主题分类体系,新闻分类法、地区分类法、行业分类法、图片档案分类法、经济信息细类分类法,多种主题分类机制可以保证不同业务的应用需求,同时可以满足建立在原有分类体系上的历史资料系统的可持续利用要求。

◆提供对新闻信息产品的完整描述。针对新华社发稿业务的新要求,提供对发稿产品的描述支持,包括产品名称、稿件发稿栏目和当日产品发稿序号,为新华社1+X发稿模式提供支持,使用户能方便地按栏目检索和核对稿件。

◆XinhuaML提供了强大的修订支持功能,能够有效地管理新闻信息的不同版本,支持不断更新的新闻报道,帮助用户追溯新闻历史记录,满足了文责自负的要求。

纵观如上几个方面的表现,XinhuaML实现了新闻的可重用性、长久性、共享性、多样性和高效性,适应了新闻传媒发展的需要,可满足不同层次受众的需要。XinhuaML无疑在新华社取得了初步应用的巨大成功,并完成了在数据交换上的一个革命性的转变。但客观地说,我们同时也发现XinhuaML应用推广过程中还有不少不尽如人意的问题,本人曾全程参与了XinhuaML标准的制定,还具体完成了XinhuaML图片应用模板的设计,同时也关注着其他一些应用系统在标准应用过程中的反馈意见,从自己对标准知识的理解以及相关实践经验,加上对各系统应用中遇到的问题进行认真地分析和思考,感觉无论是XinhuaML的研制还是应用推广过程都存在不少的缺憾,以下将从研制技术、对标准理解及标准管理等诸方面进行阐述,纯为个人观点,供大家参考。

一、标准采用的技术存在先天的局限性

1. XML技术不能有效保证语义上不会出现二义性

XinhuaML标准是以XML技术作为技术基础的,为了简化应用,各系统根据标准起草了不同的应用模板,但在各系统对XinhuaML应用过程中,出现了同一元数据在不同的模版中表现形式不统一的情况,但都能通过XinhuaML Schema语法验证,甚至还有相同的元数据在使用中语义解释不同的情况,这主要是由于XML技术本身的局限所致。尽管XML是一种Web上最理想的数据表达方式,其核心有一种以标准化的方式建立数据表示的结构,使用户可以快速、容易地描述任意的内容,但XML并不能解释其标记的含义,技术上还不能满足人们对于数据进行语义上的描述。XML允许用户通过XML Schema来定义相关标记的集合,为XML文档提供一种约束机制,XML Schema也为XML文件提供了一定的语义描述能力,然而XML Schema对语义的描述是隐含的,XML Schema并不能对其所含有的语义进行任何解释。如,XinhuaML Schema并不能告诉我们XinhuaML中元素Creator与ByLine在语义上有任何的不同。而且,由于XML Schema只能对XML的语法合法性进行验证,而不能区分XML属性和元素在含义上的不同,对于同样的信息内容,可以有多种不同的XML结构同其对应,这种表达上的不唯一性意味着相同的XML文档可以有多种不同的解释,而相同的应用也可能对不同的XML作出同样解释。任何对XML文档单方面的扩展都可能会给数据交换带来麻烦以至失败。可见,XML存在的一个重要缺陷是只能表达数据的语法而不具备形式化的语义描述能力,我们还需要可对语义进行准确描述的技术。

2. 客观原因:RDF技术在当时还没有成熟的应用

前述XML的技术局限性从某种意义上讲,是同制定XinhuaML当时国际上相关技术的研究进展密切相关的,回头来看,这也是当时我们无法避免和很难逾越的。目前,解决这种语义定义的最佳技术是W3C推荐的RDF(Resource Description Framework),RDF可以看成一种Web知识表示语言,或者说一个逻辑语言、有形式化的语法、模型论语义、证明论,还有完全性、可靠性定理,总之,它是个完备的形式化系统。但是由于XinhuaML是在2002年初开始启动制定,那时的RDF技术还处于研究发展阶段,没有多少成熟的实际应用,因此当时没有重点研究和使用,但RDF技术的发展之快是我们当时没有预见到的。国际新闻电讯理事会(IPTC)制定的NewsML标准也同XinhuaML一样存在类似问题。

RDF技术如何解决语义问题呢?RDF提出一个简单的模型用来表示任意类型的数据。这个数据类型由节点和节点之间带有标记的连接弧所组成。节点用来表示Web上的资源,弧用来表示这些资源的属性。因此,这个数据模型可以方便的描述对象(或者资源)以及它们之间的关系。RDF的数据模型实质上是一种二元关系的表达,由于任何复杂的关系都可以分解为多个简单的二元关系,因此RDF的数据模型可以作为其他任何复杂关系模型的基础模型。RDF和XML是互为补充的,首先,RDF希望以一种标准化、互操作的方式来规范XML的语义,XML文档可以通过简单的方式实现对RDF的引用。如下例所示。

xmlns="http://www.w3.org/TR/WD-rdf-syntax#"

about="http://www.w3.org/xinhuaml"

s:Author="http://www.w3.org/photo/sport"/>

XML对RDF的引用示例:

借助RDF,表达同一事实的XML描述就可以被转化为统一的RDF陈述。通过在XML中引用RDF,可以将XML的解析过程与解释过程相结合。也就是说,RDF可以帮助解析器在阅读XML的同时,获得XML所要表达的主题和对象,并可以根据它们的关系进行推理,从而做出基于语义的判断。XML的使用可以提高Web数据基于关键词检索的精度,而RDF与XML的结合则可以将Web数据基于关键词的检索更容易地推进到基于对象的检索。其次,RDF是以一种建模的方式来描述语义的,这使得RDF可以不受具体语法表示的限制。任何的RDF声明形式都可以用XML来表示。在RDF中,节点是任何可用URIS标识的资源,因此RDF又是一种元数据语言。

XML和RDF的结合,不仅可以实现数据基于语义的描述,也充分发挥了XML与RDF的各自优点,便于Web数据的检索和相关知识的发现。

基于RDF的数据语义描述仍然可能存在语义冲突。为了消解语义冲突,我们在描述数据语义的时候可以通过引用Ontology(本体)的相关技术,对语义描述结果作进一步的约束。

二、 标准在技术实现上的一些设计缺憾

1. 元数据内容过于依赖NewsML

IPTC组织的NewsML在元数据的设计上在新闻信息领域是比较有代表性的,也得到了国际各大媒体的公认,但中国的新闻毕竟有很多中国特色的内容,且要在设计的总体思路上考虑新华社正在进行的业务改革的需求,因此XinhuaML所关注的侧重点多,业务层次更丰富,这些都与NewsML有所差异,虽然XinhuaML在设计上考虑了一些新华社独有的新闻元素,增加了流程元数据、采用反馈元数据、二次通信分发及更丰富的发稿产品描述等内容,但在基本新闻元数据的设计方面没有突破NewsML的固有框架,对于一些我们比较关注的新闻稿签没有上升为系统元数据,因此造成各应用系统使用时需要采用扩展来解决,这些扩展的随意性客观上造成系统间交换数据时这些元素语义交流方面难于把握。由于现在新华社的数据整体上已经形成一个系统间环环相套的完整的业务流,这种扩展对系统业务流通的顺畅客观上造成了相当大的不便。

2. 继承了NewsML的技术复杂性

XinhuaML在整体架构上是以NewsML为基础的,因此它也继承了NewsML的相应缺点,NewsML目前的版本具有很多已经公认的缺点。在今年5月香港举办的“第二届中文新闻标识语言国际研讨会”上,IPTC执行主席Michael W.Steidl 先生所作的报告中也进行了阐述,其中很主要的一条就是技术实现的复杂性,还有数据冗余过多的问题,这导致了它的应用推广不尽如人意。

3. XinhuaML Schema对元素数据类型的约束不强

由于XinhuaML的语法规范Schema文件只是由DTD文件转换生成的,所以它没有利用上XML 语法提供的丰富数据类型定义的优点,导致对XinhuaML元数据数据类型定义比较宽泛,造成XinhuaML应用过程中对相同元数据在取值上的不易统一。

4. 对音视频方面的元数据设计考虑不足

XinhuaML在2002年设计之初,新华社还没有数字化的音视频编辑系统,标准研制课题组对音视频方面的具体需求还不清楚,这方面的需求收集有较大困难,因此,课题组这方面没有开展太多研究,不利于今后音视频数据的交换。

5. XinhuaML还有其他一些设计缺憾

功能说明书可读性较差,受控词表不完整。功能说明书有些元数据含义表达得不够清楚,同时应用样例例示不够,不利于应用参考。受控词表(controlled vocabulary)的标准化,是标准化工作中很重要的一部分,工作量应该也是非常大的,但XinhuaML在这个方面下的工夫还不够,同国际接轨不够,不利于今后的应用扩展及同外通社进行数据交换。

模板设计步骤上考虑不周。在模板建设初期,如果能及时在应用之前收集齐各系统的模板,进行规范和统一,生成总模板,再从规范后的总模板中摘出各系统用到的子模板,可能后续系统的实现不会有后来出现的混乱。

应用推广和培训工作做的不够,大家不知如何去使用其中的一些功能,以至在应用过程中出现一些遗憾。例如,目前各个项目组对改稿、撤稿等方面的元数据都没有进行很好的应用,这会导致后端资料数据库内容的自动更新机制丧失,引发数据库冗余和其他一些问题。还有在以ISO8601为基础格式的日期时间表示格式的使用上,作为国际性通讯社,使用应该加上时区表示更为合适,但目前这些方面的应用似乎都不太理想。

三、 在理解和实现方法上有误区

XinhuaML推出使用已经有一年多时间,新华社各个新建技术系统基本上都使用了XinhuaML作为主要的数据交换格式,但一些系统在对XinhuaML的具体理解和实现方法上似乎存在不同程度的误区。问题列举如下:

1. 力求将编辑完成的丰富界面表现形式通过XinhuaML文件本身来解决。从原理上说,这种方式是不应该提倡的。首先,XML是一种元数据描述语言(Meta Language),它的主要目的和设计重点是用来描述数据或数据交换的文件格式,排版样式的显示问题需要通过其他相关技术来解决,如,CSS(Cascading Style Sheet)与XSL(eXtensible Stylesheet Language)。如果引入复杂的样式,从总体设计思路上会造成混乱,也提高了应用实现的复杂性。

2. 新华社文件交换的传统方法是直接通过文件名中提供的有关信息来完成交换,做相应的转发处理,这种方式的优点是简单快捷,但在引入XinhuaML后是否仍旧继续保持这种方式,我认为值得商榷。首先,这种方法对复杂业务需要增加文件名的复杂程度,其次,也违反了XinhuaML设计的本意,不符合国际上相应标准的应用习惯。XinhuaML中包含了我们所需要的完整信息,就目前计算机的运算能力,只要采用合适的XML解析器,速度完全能达到我们的应用要求,绝对不会成为应用的瓶颈,且增加文件名长度并不能解决所有的问题,文件名过长还会造成人工查找和核对稿件等方面的困难。

3. 不同应用模板的设计是为了简化系统实现,但目前有些接口对模板解析处理的方式很死板,甚至完全按照XinhuaML文件中template模板名来决定对元数据的解析,因此会出现虽然解析的XinhuaML文件在符合标准的范围内有微小变动还可能会导致系统程序崩溃或解析工作无法进行。较理想的方式是结合Schema文件的要求,在生成和解析XinhuaML文件的时候,进行灵活处理。XinhuaML模板中有必填项和可选项,可选的空值元素应该在生成XinhuaML文件时不打入XinhuaML文件包内,这样不但可以减少冗余数据,还可以增加文件的可读性。在解析时,也应该避免因为值为空的某个元数据没有打入XinhuaML文件中或多打入了某个元数据,或者元数据值的某种变化就导致应用程序崩溃的情况。

四、 标准管理方面存在的一些不足

XinhuaML在推广过程中出现了一些问题,同标准管理上的不足有直接关系,这些不足有如下几个方面:

1. 在一定范围内,对这样一个数据交换标准重要性的宣传力度不够,重视程度也不够,大家对数据标准的认识高度还不一致,导致各课题组对标准使用上的态度和积极性不同;标准组人员不知道有哪些新项目,也不了解哪些项目将涉及到XinhuaML,同各课题组之间没有交流渠道,因此很难在各个项目之间进行标准的协调和推进

2. 不具有任何管理职能的标准组,无法监督和督促各课题组的标准应用情况,如果哪个课题组不配合,标准组基本上无能为力。有时课题组不报告标准组就对模版进行扩展,没有考虑新华社的各个系统已是一个环环相扣的整体,自己课题虽然得到一些方便,但导致了接口出现混乱的局面;不少项目组对XinhuaML应用模版统一的发布出口都不了解,有些项目组随意从其他项目组要一个模版就作为正式模版使用,导致后来出现了模版多、统一难度、协调工作难度加大的局面。

3. 标准本身需要研究的内容很多,标准组人员都是从各处临时抽调的,组织较松散,且承担着本岗位较多的工作,无法保证全身心地投入研制,这也是标准组力量不够的一个重要原因; XinhuaML是一项新的技术,不管是各个项目组还是开发公司都没有太多的经验,推广工作力度不够,也会造成应用过程出现一些偏差

4. 没能抓紧建设一个高效的标准维护管理平台。任何一个标准都需要不断维护和完善,XinhuaML在研制完成后配套需要的API接口工具和标准的管理平台没有得到及时建设,在一定程度上影响了整个标准的推广和规范化管理工作,如果抓紧开发一些通用而高效的API,各个课题不仅会减少大量重复的XinhuaML处理编程,还有利于实现对标准元数据的统一解释,有利于保证课题的开发进度。同时,及时建成一个有效的XinhuaML维护管理平台,有利于对XinhuaML及其配套词表实施正常的维护管理:统一发布、统一管理、统一使用,有利于XinhuaML的业务管理走向一个规范化管理的正常程序。

制定标准是一个非常严肃和严谨的过程,影响广泛,来不得稍许疏忽和随意,尤其是推广阶段的任务非常艰巨,从以上对XinhuaML研制和应用中问题的分析,可以总结许多的经验教训,这对目前由新华社牵头承担研制的国家"十五"重大科技攻关项目“中文新闻信息技术标准”研制项目是前车之鉴,希望在国家标准的研制中能充分汲取这些经验,扬长避短,使“中文新闻信息技术标准”研制获得最后的圆满成功!

参考资料:

1. 作者:XML工作室陈锦辉 王景皓,XML与Java程序设计大全,中国铁道出版社

2. Tim Berners-Lee. Why RDF model is different from the XML model. http://www.w3.org/DesignIssues/RDF-XML.html September 1998 主要从查询的角度来比较XML于RDF。

3. Graham Klyne. Information Modelling using RDF - Constructs for Modular Description of Complex Systems. citeseer.nj.nec.com/422203.html. 该文介绍了以RDF对复杂系统建模的一些实验性工作。

4. 周竞涛 王明微,XML+RDF--实现Web数据基于语义的描述,西北工业大学CAD/CAM国家专业实验室。(武国卫)

作者:佚名 来源:中国传媒科技 发布时间:2005年06月17日
相关信息
没有相关内容
用户信息中心
本月排行TOP10
  • 还没有任何项目!
联系我们  |  关于我们  |  友情链接  |  版权声明  |  管理登录
Copyright ©2010 - 2015 北京中标金质科技有限责任公司 电话:010-62993931 地址:北京市海淀区后屯南路26号专家国际公馆5-20室
备案编号:京公网安备11010802008867号 京ICP备09034504号 新出发京零字第海140366号