您好,欢迎来到抵帆知识网。
搜索
您的当前位置:首页检全率与检准率的辩证思考

检全率与检准率的辩证思考

来源:抵帆知识网
维普资讯 http://www.cqvip.com

98图 书 锥 学醑充2ii(i2 I 检全率与检准率的辩证思考 范晴 【摘要】检奎童与植准率是一对最重要的评价桩砉糸境赫 果的指标,它 :统一亍每一个桂零系统,每一班具体植索,兄 存在被消我长的相互矛盾,两者的关系符台辩证法的对立统 一厚理 丰文对撞垒率与检准童的社证关最进行了韧步论述. 并间进了与植全率,桎准率檀关曲几对于盾曰素 【关键词】检垒率 :_盘准章 信息桂索 辩证唯轴王义 矛盾 哲学是关于世界观的理论体系.是普遍适用于各学科的 方 马克思主义哲学是科学的世界观和方,是图书馆 学,情报学的理论基础辩证唯物主义是马克思主义哲学的主 要组成部分之一 对于图书馆学和情报学的具体同题具有重 要指导意义=检生率与橙准率从被提出之日起就成为评价主 题检索系统性能的两个关键指标,两者的相互关系也成为图 书馆学界和情报学界研究的一大课题,引起了广泛的争鸣 1检全率与检准率的定义 我们首先需要建立一个“数据库”的概念.此处可 将 数 据库”理解为:包台有一批相关数据的集合,每条数据信息都 统一格式加以标识,并按一定提序排列起来 因此,一个数据 库在一定时期内是稳定的.即其承载的数据信息量是固定的= 每次检索总要存在误差.祸检一部分有用的,同时又多检出 一些无用的(噪声) 那么,检全率就是说明一个系统避免漏检的 能力。检准率则是说明一个系统排除干扰.减少噪声的能力= 对于一改检索的效果评价.单独使用两者中的任何 个 均不能垒面说明其效果。结台使用两者.可以表示系统的过滤 能力(filtering capacity),即系统让所需文件通过并阻止不需 文献的能力。在此我们应谖明确 检全率与检准率的定义是有 一定道理的.既有量化的可行性,叉非常直观.易于从感性上 理解 不愧为评价检索系统性能最重要的测度和指导检索策 略制定的重要指标= 2检全率与检准率的辩证关系 2.1唯物辩证{击的对立统一原理 辩证法认为矛盾是指一切事物内部或事物之间既对立叉 统一的关系.任何事物、现象和过程都是由相互矛盾着的两个 方面构成的.任何时矛盾都包台着同一和斗争两个方面,同 一性就是矛盾碾 相互依存、相互贯通的陆质;斗争陛就是矛 盾双方相互排斥、相互分离的性质。 检垒率与检准率同时作为评价检索系统检索性能的指 标,统一于每一个具体的检索系统中。如果只看检垒率而不顾 检准率,其结果难免偏颁,当检准率达到用户无法接受的状 态.仅由检垒率推出的评价结果毫无意义,反之亦然 两者必 须结台使用,综台权衡,才是可行的 因而两者存在同一性 检 全率与检准率的彼消我长、被高我低的关系在现实操作中屡 屡发生 这不争的事实虽然不能否定两者有同时优化、同时提 高的可能性.但至少体现出两者存在对抗的特征,即存在斗争 性,所以,我们认为检垒率与检准率是评价检索系统的两千方 面,是矛盾的关系 2 7检全率与捡准率的同一性 检全率与检准率统一于检索系统功能这一客观事物之 中,段有矛盾的一个方面,另一个方面的存在是没有意义的 事物的发展是无限的,矛盾的同一性是保持事物相对稳定 的方面。也就是说对于一个特定的信息检索系统,在主题明确 度、要求系统响应时间、检索员对系统熟悉程度和操作水平等外 在条件相对不变的条件下.其检全率与捡准率是相对稳定的 检垒率与检准率的同一性还体现在两者存在同时优化、 同时提高的可能性。 从历史长期发展的进程来看,人们在某一个集合中查找 关于某一主题的数据过种活动是不是从随意走向规模化、系 统化?数据库和检索系统.检索模型的建立,是不是使科学传 播更具有方向性.速度越来越快了呢?回答是肯定的 数据库 检索发展的一个明显过程就是:手工检索——计算机捡索 联机检索——网络检索 网络检索做到了在全球范围内 将全人类的研究成果作为被检索对象.其检全率是手工检索 无法比拟的,网络检索做到了几秒钟内输出检索结果,而手工 检索需要几年或几十年,手工榆索的检准率再高也是没有意 义的.更何况情报学家正在努力完善检索机制与检索策略来 提高检准率.非专业的检索员检索某 专业课题时未必比计 算机做得更好 另外.现在的又一趋势是数据库建设朝着小型 化、专业化发展 数据库的专业化使相关主题的数据信息更加 集中和细分化,有利于专业人员的使用,其检全率与捡准率都 会比大型综合性数据库高 维普资讯 http://www.cqvip.com

其次 从宴例 理泡的Ⅱ 看 邛霞戊等在 ll’年第= 期日々《情报学报,卜发表文章.公布r他 ¨的研究结_粜 他们对 1 990~1997年的f:I门:程索引1进行检索,检索课题选取了一 个提问表达相当叫确的主题,通过改褒砬索策略 丹别做了检 全率保持不变、检准率保持不变和检垒率下降变化的提问试 验.得出结论为捡全率与检准率的关系和具体的检索提问结 构有关 根据具体数据绘出的图显示.检全率与捡准宰之问可 以存在五种基车荚系.其中包括互顺关系 又通过数学方法进 行论证。其结论与实例分析的结论一致 2 3检全率与检准率的斗争性 检全率与检准宰的斗争性主要体现于两者的互逆属性。 检垒率与检准率的互逆性非常明显。克里维顿在Oran{ie]d II 试验中就提出了过一观点,美国的F W.兰卡斯特在他的《情 报检索系统~特性.试验与评价》一书中也明确提出 检全 率与检准率总是相反的关系”(P12t),国内学者也利用 SWEIS模型建立了检全率与检准率之阃互逆关系的数学模 型 从检全率与捡准率的定义很难推出两者的变化关系。从 感性角度,许多实例证明了两者的互逆关系。一般说来,当选 用比较精确和专指的词作为检索剥时.所检出的数据信息往 往比较符台检索需求,但数量有限,使检索者担心仍有许多数 据被过滤掉了 当扩大检索范围,选用广义的词作为检索词 时,检准率会大大降低,检索结果会很庞大,使检索者不得不 进行人工的再次筛选 一方面是学者们对检全率与检准率关系的讨论日趋激 烈,另一方面是两青的无法同时优化结数据库建设带来了相 当的困难 随着计算机和网络的推广普及和^们对网上资源 的需求日益增长,旧上数据库建设蓬勃兴起 数据库建得越来 越大,越来越全,大家都想以太而生显示自己的实力,吸引更 多的用户 组织大量数据已不成问题.检索效果成了数据库发 展的瓶颈。数据库越大越全,相对于某一主题的数据集台所占 的比例就越小.捡全率与检准率都会受到影响。一般是捡全率 上升了.而捡准率却大大下降.很常见的一种现象就是.联机 检索的一次检索会输出几百或上千条数据信息,也就是说噪 声(检出的不相关数据量)的绝对值会很大,常常超出检索者 可以忍受的范围.使检索者不得不放弃谊次检索。这样降低了 数据库的有效使用率,也给检索者带来了许多烦恼。 3影响因素的对立统一关系 检全率与捡准率的变化关系是一个相当复杂的课题;对 于学界争论激烈的检全率与检准率是互逆关系还是互顺关系 的问题,笔者认为不能轻易下结论。一是固为对现实模型的量 化存在很大难度,量化统计结果所总结出的模型也往往只能 说鹕现实的某一侧面(也许这一侧面表现得比较突出)。二是 因为现实中的矛盾l蚁方障了事物内部联系外.还存在外部联 系,矛盾双方的变化发展也受外因的影啊。 对于捡全率与检准率的矛盾,除了两者是对立统一关系, 与之相关的许多因素问电是对立统一关系 RESEARCHES 1\】 IBRARY SCIENCE 99 I价格与陛能的矛盾 对于数据库检索系统的生产首、购买者(倒如图书馆和情 报中心)和使用者,价格与性能无疑是一对矛盾。对于生产者, 授^的资金越多,^力物力也就越多,其标引深度的适当·检 索语卣的简便明确.都会使系统的性能优良.数据库的建设就 会越完善,质量就越高.也就是捡全率与检准率都比较满意。 对于国书馆选择检索系统媒体时.也有一个辩证思考的问题 使用方便的媒体系统价格就高=同一种检索系统的价格按高 低顺序排依改为光盘、磁盘及印刷型媒体,其附加使用费用的 高低顺序也相同 对于用户就更是如此.比如现在我国许多农 药研究人员反映,正在进行的项目是填补国家空白的项目,国 内刊物上基车技不到相关资料.项目经费又不允许经常检索 美国的CA(化学文摘)或BA(生物学文摘),给工作带来了许 多田难。 总的来说,性能与价格是一对矛盾。一般地说,彼此是对 立的 但是,它们也有统一的一面,即世上既没有性能可使用 户绝对满意的检索系统,也没有用户绝对满意的检索系统价 格 因此,系统生产者在设计系统性能与制定价格时,应辩证 地对待这对矛盾。 3.2人工检索与机器检索的矛盾 计算机技术广泛应用于检索,确实给用户带来了很大的 方便.并节省了大量的时间。因此,有的用户便认为在计算机 检索普及的情况下人工检索已无用武之地,似乎依赖于计算 机检索,便可轻而易举地获得所需文献了。其实,人工检索与 计算机检索像任何事物一样,都有其自身的优点与缺点 计算机检索系统较人工检索系统的经费投A要大得多, 用户在利用计算机检索系统时的花费也较大。就花费而言,人 工检索则比计算机检索优越。从检索过程与检索结果来说,在 制订检索策略和随时修改检索策略方面,计算机是不能完全 替代人脑的,尤其替代不了经验丰富的用户大脑所积累的智 慧与经验。因此.计算机永远不会超过发明人对检索原理、检 索过程的理解,它永远要依赖于^脑对检索的理解。 3.3检索结果的矛盾 在投人一定的时间和金钱进行检索后,捡索结果命中文 献的数量是多为好?还是少为好呢?关于检索文献多与步的问 题,我们应该辩证地看待。有的用户为科研立题而检索,为论 证开创 科研课题而检索.如果检索出的文献很多这就糟了, 这说明已有许多人从事同一课题,还谈什么开创性 多数用户 是为自己正在从事的科研项目找寻参考资料而捡索的。这些 用户也应辩证地看待检索结果。检索到的相关资料较多,对推 动科研有利,当然是件好事 但检索到的相关资料较少,也不 一定就是坏事 所以,在确信检索正确,即未发生错检与漏检的前提下, 检索用户以及检索服务^员对于检索结果都应进行辩证的丹 析.客观地、全面地面对检索结果,才不致产生迷惑。 (下转第64页) 维普资讯 http://www.cqvip.com

64图 书蜉学研宄2032 如: 人本经济学:经济学应有的科学状态 可抽出关键词 人 事经济学”{《多媒体通信技术 可抽出关键词 多媒体通信” 等 倒(1)《野菜资蕊皿其开发利坷} 全书侧重论述了我匡的 野菜资褥概况、产品加工利用等。该书的主题标引为: 606 S a野生植物:蔬菜 S X资谭 S x分布 ¥Y中 606¥a野生植物:蔬菜 0.2从丈献的内容(可“是文摘 甚至正文)中抽取可揭示主 题内窑、井具有检索意殳的词语作关键词,能为读者提供更多 的主题检索 。 例如,《陕西省近520年早涝特征分析 ,本书的中心主题 是陕西省近520年早涝特征分析,该书的主题标引可在606 字段用两条主蹈款目概括lc1)干旱一一¥x资源 发 606 ¥a野牛植物:蔬菜 ¥x贷慷利用 610 ¥a野菜 特征陕西一15世纪 20世纪,(2)求灾特征一陕西一I5世纪~20世纪。“旱涝 转移概率”是本书论述的重要内容,也是专业术语,宜在61o 字段作关键词标引。 以上是笔者对关键词标引的粗浅认识。在主题词应用中, 将叙词与关键词共存互补的效果明显,将它们共用的观点已 设越来越多人接受.建议编目人员在具体的编且实践中多采 用关键词标引。 参考文献 1 曹村尘,罗喜劳出版社,2ooo }’析:查词表,虽有 野生植物 、“野生稻 、 野果”等主题 词,但却没有主题词“野菜”,所以才考虑用“野生植物”和 蔬 菜”进行交叉组配标引,但组配的概念不及关键词概念“野菜” 直观、专指,在6l 0字段配台使用关键词“野菜”标引,使人一 目了然. 2.3对于使用频率较高,溪者熟悉,有较大的标引、检索价值 的主题概念,可作关键词标引, 满足读者检索的需要 例如:《透视信息高速公路》可在6]0字段作关键词 信息组织的分类击与主题击 托京:北京图书馆 标引 信息高速公路”;《西部增值》可作关键词标引“西部走开 发”;《善侍生死,人生终扳关怀的》可作关键词标引“安 乐死” 2肺树年《中国分娄主题词表}标il手册.靠京:北京图书馆出版 社,l9 8 3用井恒 中立圉卑机读目录格式使用手册2000 北京:毕艺出版社, 3关键词标引的方法 3.1从文献的题名抽取关键词 题名,尤其是科技文献的蹈名能贴切表达其内容的比例 李育嫦肇庆学院囝书馆 较高,从题名中抽取的关键词,一般能有效地将检索者指向所 需的文献,增强主题表选的直观性和专指度,提高检准率 侧 (上接第99页) 4结论 发生部分质的改变,并通过改善外因促使两者发生变化,在一 综上所述 哲学辩证法对于研究图书馆学情报学的具体 问题具有相当重要的指导意义,站在哲学高度探讨检全率和 定程度上破坏旧的统一体,建立新的统一体,从而实现优化检 索系统性能的最终且的 参考文献 1 粜乃鹏.试论情报妊索的逻辑槿型.情报学报,2000(1) 检准率的相互关系,使我们对这一问题有了更加清晰的理解。 世界上的一切事物、显像和过程都存在矛盾 检全率与检准率 的互逆属性使科学家们很难实现两者同时提高,从而使垒面 提高系统性能的愿望多年来一直是困扰图书情报界的一太难 题 矛盾分析方法要求我们揭示和具体分析事物的内在矛盾, 进而揭示事物的本质和规律 从而找到船决矛盾的正确方法 解决矛盾的方法分析检全率与检准率的关系,我们不可能 在原有系境中实现两者的同步提高,必须打破两者之间的平 2邓汉直等.札幢素娈州看挂奎率与桂准革之同的羌车,情报学报, 2000(3) 3橱建#信息幢索的逻辑模型.情报学报.2000(4) 情报检索革钝——特性 4兰卡斯特著.肺光祚,王知津、王津生译试验与评价北京:书目文献出版社 1984 衡,着眼于检索机制的改革,通过改变系境的某种属巨(例如 捡索语言的优化.检索策略结构的优化),使检全率与检准率 范睛南开大学国书馆学系 

因篇幅问题不能全部显示,请点此查看更多更全内容

Copyright © 2019- dfix.cn 版权所有 湘ICP备2024080961号-1

违法及侵权请联系:TEL:199 1889 7713 E-MAIL:2724546146@qq.com

本站由北京市万商天勤律师事务所王兴未律师提供法律服务