在中心我主要负责西文书的书目数据检查、以及中、西文重复数据的处理工作。在此对各馆编目部门对中心编目工作的大力支持表示衷心地感谢,对各位馆领导对编目工作的大力支持表示衷心地感谢。下面向各位馆领导主要汇报两项内容:一是中、西文书目数据存在的问题;二是提几点建议。
在我看来Talis各成员馆在同一系统平台的联机合作编目工作是天津高校联盟的最重要工作之一,这种联合编目避免了成员馆编目员大量的重复劳动,降低了编目成本,加快了编目速度,做到了优势互补、提高了编目的一致性、标准化和规范化。由于每条数据都上载了各馆的索书号、条码号以及典藏信息,它就完全支撑了图书馆全部传统业务的正常运行,其中包括采访、签到、各种检索、借、还、阅览、预约、剔除、各类统计报表等。真正实现了一馆式垂直管理模式,也最大程度地实现了编目的共知共建共享。因此联合编目的优势与重要就决定了必须要以高质量的编目数据为依托,决定了对编目人员的综合素质要求比较高。编目员既要有精湛的编目专业知识和技能。还要具备良好的敬业精神与大局意识。但从目前情况看我们的编目数据质量仍参差不齐,并不断产生许多重复数据。直接影响了我们联合编目数据库的整体质量,具体问题是:
1.编目队伍不稳定 在过去的一年里,TALIS成员馆中,仅西文书
编目员至少有7家馆都上了新人,中文编目外包人员更是不稳定,从数据情况看,有些馆由于人员变动导致了编目工作的连续衔接性较差,传帮带不到位,换人之后编目质量马上下降了很多。由于新人对各种规则不熟悉,对MARC格式各个字段与著录单元之间的关系、字段指示符的特殊意义等的理解都存在差异,导致数据过于简单,必备字段不完整,该提供的检索点不全、不规范。但是数据上载到系统后这个馆就不再有人管了,形成了问题数据。
2.对编目外包疏于管理 编目外包后,外包人员只求速度,不顾质量。中文数据中的很多问题,比如,重复数据问题,缺题名(书名)数据问题,套录数据不修改问题……,这都在系统中造成了很大的混乱,但据各馆反映这都是编目外包人员做的,现在实际上有的馆对编目外包人员基本上是处于失控状态。
3.原始编目数据质量不高 有些馆原始编目水平不高,差错较多,包括文献基本信息著录不准确、检索点不规范、不标引主题、以及Marc格式使用有误等各个方面,数据不经修改很难正常使用。
4.套录数据不注意修改 目前在套录数据占绝大多数的情况下,有的编目员对套录数据鉴别不认真、特别是借用相似数据改为新数据时不按现编书修改。造成定长字段代码错误、混乱,其他各字段的基本信息与现编书也经常对不上。甚至有的馆粘贴的是公共图书馆数据也不按照CALIS规则修改。
5.重复数据问题 这个问题比较严重,主要原因是:
5.1 国际标准书号简称ISBN 号录入不全造成重复数据,ISBN号以前是10位,07年以后改为13位,系统同时都承认,若一种书第一次出版
时是10位,重印后变为13位了,应作为一条数据处理,两种号都需著录,而我们许多数据是10位、13位各做一条数据,造成重复数据。
5.2 同一种书有精装本和平装本时,ISBN号有的书相同,有的不同,在其他信息都相同时应整合为一条数据,但有许多数据都做成了两条,造成重复数据。
5.3 多卷书著录时,有的数据是1、2卷一条数据,3、4卷一条数据,造成重复数据,或者有的多卷书其中一条数据是多卷书合在一起的集中著录,另外还有多条数据是按单卷做的分散著录,就造成了多条重复数据。
5.4 同一责任者检索点的规范与不规范形式造成重复数据,即:题名与责任者字段内容完全相同,其他基本信息也相同,但在责任者检索点字段有的数据责任者名称是规范的,有的不规范,造成重复数据。
5.5 借用相似数据改为新数据时不按现编书修改完全造成重复数据,比如借用1版书数据改为2版时,只在新数据添加了版次,其余像ISBN号,页数,出版年、丛书等关键字段都不修改,或者数据中定长和非定长字段的两处出版年,只改一处。但是在系统中凡是需要系统自动选择出版年时,系统对西文选择的是上边定长字段的出版年,对中文选择的是下边数据字段(210字段)的出版年,如果系统选择的恰好是你没改的,系统就会显示是重复数据。
5.6 国内出版物的重印书应与第一次出版的书作为一条数据处理,若因重印后页数发生改变,只需在附注字段加以说明即可,但有很多数据都将重印书另做成一条数据,造成重复数据。
5.7 对版次与重印概念混淆,将再版年按重印年处理,即:在再版书的数据中应该只著录再版年,但由于在出版年位置仍保留了第一版出版年,就造成了与第一版书的重复数据。
5.8 文献带有丛书名时,有的数据入了丛书字段,有的数据入了附注字段,由于没整合为一条数据,造成重复数据。比如丛书名是:“经济法系列教材”有的数据就入了丛书字段,有的数据入了附注字段,一般说丛书名是系列教材时还是应该入丛书字段。
5.9同一馆同一条数据下载多次,只有一条数据有馆藏,其余都是既无馆藏又无采购订单的空数据,由于没有删除空数据造成重复数据。
5.10 数据下载有误造成重复数据,现在因为各种原因下错数据现象是时有发生的。
5.11 由于缺题名(书名)的数据不注意删除造成重复数据,这样的数据在题名字段统一显示为:REQUIRED FIELD字样(意思是说题名是必备字段,现在是空的),这种数据的产生大致有三种原因:一是对 Workflow 系统的编目模块不熟悉,对 SmartPORT 的设置与要下载的数据格式、文种不匹配造成的,比如本台计算机之前做的是西文书,设置的是西文MARC格式,当前拟下载中文数据,但格式没改为中文就造成缺题名数据;二是做数据过程中由于英文与搜狗汉字输入法的切换造成系统退出而产生缺题名数据,(英文与QQ汉字输入法切换有时也会造成系统退出现象);三是由于做数据过程中网络掉线造成缺题名数据。以上原因产生的缺题名数据多数情况下显示的其他字段也很少,但有的编目员也不加甄别地挂上馆藏。这说明编目员在做完数据后没有返回自查的习惯,这样的数据在系统内有的永远也检不出来。在系统里形成了垃圾数据。
5.12 不查重或查重不到位造成重复数据,有些重复数据内容完全相同,甚至一个字符都不差,这让人怀疑你做书查重了吗,甚至有些重复数据是自己馆与自己馆重,而且索书号还不一样,这是图书馆最忌讳的同书异号现象,会给本馆馆藏造成很大的混乱。在去年第一次做西文重复数据报表时,属于自己与自己重,而且没有其他馆藏,只有自己馆藏的重复数据,有三个馆分别高达100多条。有的馆由编目外包人员做的中文书也出现过两个月内产生100多组(合计200多条)的重复数据现象。如果说一个馆偶尔出现两条重复数据,虽然不对,但也可以理解,但如果一个馆每个月都有10来条重复数据,有的馆甚至几十条重复数据,这就是一个不可忽视的问题了。据了解我们有的馆确实没有“编目必须要查重”这样的规定。另外有的编目员虽然查重但查重不到位,比如有的馆外包人员为了赶速度不用书名查重,只用ISBN号查重,而且只用10位或13位查,不是两种号都查,如果系统里原有的那条数据不是你查的位数或原数据没有ISBN号就造成了重复数据。
目前我们的重复数据问题比较严重,以中文为例,平均每个月都要产生 200多组重复数据,每组至少两条,每个月至少要打开400多条重复数据进行比对,再发回各馆修改,每次除了要占用很多时间外,更主要是影响的不仅是本馆馆藏,也给其他成员馆上载馆藏、给整个系统带来很大的混乱。