一、项目概况
1.1.项目背景及意义
企业的发展离不开正确的决策。长期以来,正确的决策指明了企业的发展方向,为企业带来了巨大的经济效益。而正确的决策来源于对问题度的考察,分析,需要大量的情报作为参考依据,因此,如何更好的利用情报,一直是各大企业急需解决的问题。
随着计算机技术的迅猛发展,互联网应用的普及,各种先进的情报处理技术层出不穷,大大降低了情报的处理与收集工作的难度,为企业的情报建设工作带来了深远影响。企业通过获取情报,整理情报,分析情报等步骤辅助决策,而情报的获取与处理工作可完全交由计算机系统实施,所以,利用计算机技术搭建一套集情报采集、整理、发布、分析、服务一体化的情报服务系统,对于企业的未来发展,意义重大。
1.2 需求分析
就目前情报服务需求来看,良好的情报服务系统在搭建的过程中需要能够解决以下几个方面的问题:
1.情报资源的收集与整合
情报服务的流程是在庞大的情报资源基础上,通过整理分析得到相应的结果,最终辅助使用人员决策分析。因此,情报资源的收集与整合是情报服务的基础,所以,对应的情报系统首先要解决情报资源的建设问题。
2.分角色提供不同的情报服务
情报服务的一个重要特点是“分别对待”,即不同的角色对于情报服务有着不同的要求。而情报系统作为提供情报服务的工具,其本身同样要具备“因人而异”的功能,即不同的角色拥有的权限,享受的功能是不同的,系统在建设过程中需要考虑用户角色涉及的业务场景问题。
3.系统的功能模块搭建
情报服务系统是通过功能模块提供情报服务。功能的好坏直接影响着情报服务的整体质量。因此,功能模块的确定、达到的效果等问题在搭建系统时需要考虑。
二、总体设计方案
2.1 建设目标
情报服务系统建设目标:以旨在通过梳理集团内部和外部资源为基础,通过搭建情报共享系统实现资源的收集、整理、统筹、管理、分享及有效利用,并配备相应的功能模块,帮助集团领导等相关工作人员提供决策支持,进而最终提升集团技术和市场情报研究的可持续发展能力。
上述目标主要包括以下内容:
(1) 建设内容:情报服务系统;
(2) 服务对象:集团所有员工,包括集团领导、研发部门等; (3) 实现方式:通过采用购进优质情报资源等方式完成针对资源
建设工作,并按需梳理角色业务,结合实际需求确定系统功
能模块,完成系统建设。 (4) 服务方式:网站平台
(5) 服务特点:提供普适化与个性化资源建设服务;基于情报服
务特点的系统服务功能
(6) 最终目标:提高情报资源的利用率,为所有员工开展相应工
作提供决策帮助,帮助集团实现可持续发展。
结合当前的情报服务现状及存在的现实需求,建议通过分期的方式实现,具体的实施可参考如下:
一期:完成资源的收集建设工作,并针对情报业务场景确立相应的用户角色,针对用户需要的功能建立服务功能模块。
二期:在一期系统的基础上,开发或引进相应的功能模块,提高情报服务质量。
2.2 建设思路
1)收集相关情报资源,完成资源建设工作
通过分析情报服务的实际工作情况,确立情报资源种类,来源,并针对不同的资源运用不同的方式获取收集。收集后的资源按需进行梳理入库,确保情报资源的充足性。为后续的情报服务奠定基础。 2)结合业务场景,确立用户角色业务用例
通过分析情报服务的工作业务场景,梳理系统的用户角色,确定用户角色权限,建立用户用例。从用户的角色维度,对系统的构建进行初步的规划。
3)结合用户角色,确立功能模块
结合用户业务用例,并综合考虑系统建设需求。确定系统的功能模块,包括系统服务支持功能、门户功能、管理功能三个模块。确定每个模块具体的功能要求。完成系统的搭建。
2.3 技术特色
2.3.1 技术架构
2.3.2 关键技术 (1)全文搜索技术
搜索引擎采用先进的索引技术,支持任意字、词、短语、句和片段的全文检索,保证对采集的海量WEB页面较高的查全率和查准率。提供智能化的全文检索和各类复合检索手段。支持逻辑组合检索、多字段复合精确检索、历史检索、相关词扩展检索、分类导航检索、聚类、二次检索、自定义排序等。检索关键词在标题和摘要中高亮显示,检索结果分别按照标题、摘要、内容进行类聚,并剔除重复性的内容。检索结果可以按相关性和时间排序。
(2)中文分词技术
以字符串匹配的分词方法为基础,结合万方数据积累多年的信息服务过程中积累的汉语词汇表,采用前向最大匹配方式,优先在待分析字符串中识别和切分出一些带有明显特征的词,以这些词作为断点,可将原字符串分为较小的串再来 进行机械分词,从而减少匹配的错误率。支持对 GBK(汉字内码扩展规范)、GB2312(简体)、 BIG5(繁体), UTF-8 编码、以及 GB18030 等主流字符集。 (3)OAuth
OAUTH协议为用户资源的授权提供了一个安全的、开放而又简易的标准。与以往的授权方式不同之处是OAUTH的授权不会使第三方触及到用户的帐号信息(如用户名与密码),即第三方无需使用用户的用户名与密码就可以申请获得该用户资源的授权,因此OAUTH是安全的。
(4)Web Service接口
Web Service是一个平立的,低耦合的,自包含的、基于可编程的web的应用程序,可使用开放的XML(标准通用标记语言下的一个子集)标准来描述、发布、发现、协调和配置这些应用程序,用于开发分布式的互操作的应用程序。
Web Service 技术,能使得运行在不同机器上的不同应用无须借助附加的、专门的第三方软件或硬件,就可相互交换数据或集成。依据 Web Service 规范实施的应用之间,无论它们所使用的语言、平台或内部协议是什么,都可以相互交换数据。Web Service 是自描述、
自包含的可用网络模块,可以执行具体的业务功能。 Web Service 也很容易部署,因为它们基于一些常规的产业标准以及已有的一些技术,诸如标准通用标记语言下的子集 XML、HTTP。Web Service 减少了应用接口的花费。Web Service为整个企业甚至多个组织之间的业务流程的集成提供了一个通用机制。 (5)XML
XML技术是目前公认的对内容管理影响最大、贯穿于其整个生命周期的技术。将结构简单、易于理解的XML结构作为动态内容管理的组织结构。XML可以很方便地将内容从规则和表达中分离出来,XML标记的文档可以使用户更方便地提取和重用自己想用的内容,并使用自己喜欢的表达格式,这为客户提供了一个很好的按需定制的特性,具有非常好的灵活性。通过XML还可以使内容脱离格式,成为只和上下文相关的数据,以便于内容的检索、合并或者重用,满足了的需求。一个基于XML的通用存储方式,还可以帮助用户管理和维护大量的不同内容。
目前,XML主要用于内容管理中数据存储及其结构设计、应用之间的数据交换格式和标准设计等方面。 (6)ASP.NET
又称为ASP+,不仅仅是ASP的简单升级,而是微软公司推出的新一代脚本语言。ASP.NET基于.NET Framework的Web开发平台,不但吸收了ASP以前版本的最大优点并参照Java、VB语言的开发优
势加入了许多新的特色,同时也修正了以前的ASP版本的运行错误。
ASP.NET具备开发网站应用程序的一切解决方案,包括验证、缓存、状态管理、调试和部署等全部功能。在代码撰写方面特色是将页面逻辑和业务逻辑分开,它分离程序代码与显示的内容,让丰富多彩的网页更容易撰写。同时使程序代码看起来更洁净、更简单。 (7)分布式存储系统
Ceph 是一个统一的、分布式的存储系统,包含了对象存储,块设备和文件系统三大功能。Ceph的主要特点:1.可轻松扩展到数 PB 容量 2.支持多种工作负载的高性能 3.高可靠性
基础存储系统RADOS(Reliable, Autonomic, Distributed Object Store,即可靠的、自动化的、分布式的对象存储)这一层本身就是一个完整的对象存储系统,所有存储在Ceph系统中的用户数据事实上最终都是由这一层来存储的。而Ceph的高可靠、高可扩展、高性能、高自动化等等特性本质上也是由这一层所提供的。
CEPH特性:高可用、高性能、存储多样性(块存储、文件系统、对象存储)、运维性价比高(运维简单、自我恢复)。
三、系统详细建设方案
3.1 平台设计图
3.2 平台架构
情报共享系统的建设需分阶段进行,一期的系统建设架构图如下:
门户网站管理系统用户管理资源管理系统管理统计管理辅助管理系统服务支持功能模块应用服务平台支撑平台数据交互层系统登录数字资源导航个人中心情报专题库资源检索技术分析代理登录搜索引擎代理登录服务万方SAAS服务用户统一登录互联网采集数据规范运维体系消息传输数据交换数据整合服务集成流程集成数据层本地数据互联网数据三方资源基础设施网络设备服务器存储设备数据库
系统的使用环境为主流现代浏览器,包括(IE9+、Edge、Chrome、
Firefox等),同时兼容IE8以及360、搜狗等浏览器。系统的建设共由三个部分构成:
资源建设:根据情报服务要求,完成情报资源的收集整合工作。 角色建设:结合情报服务要求及实际业务场景,确定情报服务系统的角色种类,并确定角色的权限范围。
功能模块:根据情报服务要求,确立功能模块,实现基本的情报服务。
3.3 资源建设方案
3.3.1 资源来源
结合情报服务需求,在资源建设过程中资源来源可以分为三大类:互联网资源、内部资源、三方资源,需要分别购进或采集,资源的内容如下: 1.互联网资源
来源内容包括但不限于: a) 行业相关信息发布网站 b) 行业协会官方网站 c) 竞争对手官方网站 d) 信息门户网站 2 三方资源
来源包括一些购买的三方网站(账户),三方服务商(万方、知网)提供的相应资源(期刊、学位、会议等)。 3.自有资源
自有资源主要包括员工上传,公司收集等本地资源。 来源内容包括但不限于: 1) 2) 3) 4) 5)
国内外企业对标数据,构建模板,平台管理及分析 销售部门业务上报数据,构建模板,平台上传、管理及分析 各职能部门情报产品,分权限上传及管理
员工外出走访、外部来访、出差等收集到的情报信息 其他可以共享的信息,如培训、通知等内容
3.3.2 资源获取整合方案
1.互联网资源
通过引入万方互联网采集工具,采集指定网站指定位置信息。采集工具可针对用户实际情况进行自动标引等相关处理,采集后的信息进入到采集数据库,由管理员进行审核后发布到前台相应位置。具体流程如下:
开始互联息采集工具采集信息入库Y是否直接发布N后台管理NY人工检测数据是否符合需要Y发布结束
2.三方资源
在绝大多数三方资源中,知名资源厂商的资源(万方、知网)占绝大多数,对于购进这类资源,在资源整合建设中,可利用万方学术搜索产品实现,学术产品本身包括几大服务厂商资源的所有文摘,购进后只需将学搜产品与本地全文资源想对接即可实现资源服务。
其他类型的资源一般存储在不同的网站中(需购买用户名和密码方可使用),这种类型的资源可通过网站代理登录的方式完成资源的建设以及后续的服务。具体业务流程如下:
在购买的资源服务中,有些是需要通过机构账户及密码才能进行登录,不同资源服务产品的机构账户数量以及对应的密码不一致,考虑到保密问题,也无法做到告知所有人。因此,提供统一的网络代理登录服务,方便用户使用。
用户通过网站代理登陆服务可以直接访问需要输入账户密码的网站;代理登陆参数信息由管理员进行维护。 3.自有资源
自有资源为客户本地的资源,以word、PDF等附件为主。针对这类资源的整合方式包括三种:
方式一:通过模板或批量录入的方式进行资源的建设。 方式二:对于存储到本地数据库中的自有资源,可直接与本地资源数据库对接,也可直接建立索引库。
方式三:对于存储在大数据平台中无法直接访问数据库的情况,可提供接口对接的方式实现数据的同步。数据同步的周期可以按一定的时间设置进行同步。
3.4 角色建设方案
角色的建立来源于业务场景,根据情报建设的需求分析,业务场景可总结如下:
class 业务用例收集情报信息处理情报信息«business actor»系统维护人员提供情报服务监控情报使用
业务场景一
class 业务用例«business actor»部门员工使用情报服务«business actor»分公司员工«business actor»事业部员工«business actor»集工
业务场景二
deployment 系统拓扑研究人员相关工具使用门户网站网站代理登陆访问代理原文传递业务管理数据接口A搜索服务维护人员云端搜索本地搜索引擎信息服务管理系统万方学术仓储接口索引服务元数据管理上传研究成果本地元数据库元数据汇集«flow»加工信息库存储«flow»采集加工工具不可整合镜像元数据«flow»可整合镜像元数据«flow»«executionEnvironm...本地第三方镜像产品 业务架构图
从业务场景分析,情报服务系统的业务场景涉及的角色可以分为两类:系统的使用者、系统的维护者。为了更好的实现情报服务信息安全和实际业务的需要,在为组织机构分配权限时按照下图建设:
用户角色
建设要点介绍如下:
1)系统拥有一个最高权限的管理员。
2)集团情报服务组织建设按照: “集团—事业部—分公司—部门”进行管理。
3)权限范围也按照“集团—事业部—分公司—部门”,举例来讲:集团管理员既可以管理集团人员的访问权限,也可以管理事业部等其他机构的资源访问权限。
其中使用人员的功能权限用例如下:
uc Use Case View资源检索资源阅读未注册用户使用资源专题库数字资源导航用户注册用户资源下载个人信息管理«include»个人中心«include»订阅管理专利资源分析代理登录
用户用例—使用人员
uc Use Case View管理用户管理专题库系统管理员管理代理登录维护人员管理订阅三方资源管理«include»资源管理人员阅读资源收集«include»互联网资源管理 用户用例—维护人员
3.5 功能建设模块
针对角色建设方案,结合情报服务建设实际需求,确立系统建设相关功能模块。
情报服务系统功能模块建设分为三个部分,门户首页功能建设、后台管理功能建设、系统服务支持功能建设。具体内容如下:
序号 1 功能模块名称 门户系统 功能模块作用描述 门户首页是相关情报服务的载体,包括了整个系统的情报服务功能,如:资源的查阅、下载、个人中心等服务。 后台管理是对情报服务的管控。通过对人员、资源的调整,保证情报服务的质量。 服务支持功能建设保证了系统服务运行,可以更好促进情报服务的质量。包括系统的接口设计、支撑工具等。 2 3 后台管理 系统 系统服务支持功能模块 3.5.1 门户系统
门户首页是情报服务的应用表现层。具备的功能介绍如下:
3.5.1.1 系统登录
系统登录平台方式共有三种:
1、登录页:用户通过账户名密码的方式登录。
2、统一认证:通过单点登录服务技术实现单点登录,比如使用CAS框架实现统一认证。
3.LoginByURL方式:通过地址栏传递加密后的用户名密码实现登录,其他平台可以通过添加link方式实现自动登录。 3.5.1.2 个人中心
具体业务功能包括: 1.修改个人信息。 2.订阅各类消息。 3.向管理员提交全文申请。
4.管理自己常用的检索策略。保留检索式,方便快速检索。 5 管理自己收藏的情报专题库。管理自己收藏的情报资源。 6.管理自己的反馈问题,可查看问题反馈和新增相关问题。
3.5.1.3 资源检索
门户网站向用户提供简单关键词检索、高级表达式检索等两种方式。用户根据需要输入关键词,门户网站输出检索结果。在门户网站首页,检索对象为默认检索全库。用户对检索结果可以进行过滤、相关度排序,可以对聚类结果进行二次类别过滤等操作,进一步缩小搜索结果范围。
(1) 支持一框式跨库检索,可以对标题、关键词、摘要等实现统一检索;
(2) 支持高级检索,根据资源类型不同,按照不同字段组合设置复杂的查询条件;
(3) 支持关键词的逻辑与或非的布尔逻辑表达式检索;
(4) 支持对结果二次过滤,过滤条件根据文献类型不同可以设定不同的字段;
(5) 支持对检索结果的聚类;
检索结果页面分为资源导航栏、二次检索框、检索结果标题栏(包括排序和检索结果数量)、资源结果列表、相关关键词栏和相关作者栏。
资源导航栏包括资源多导航的各种分类方式。二次检索框包含标题、作者、关键词、年代范围等检索条件,也可以根据资源类型的不同设定不同的检索条件。资源结果列表包括标题、资源类型、作者、年代、摘要、关键词以及全文下载。点击标题栏打开资源详情页面。点击作者或是相关作者可以进入检索该作者的学术成果检索结果页面。点击相关关键词进入关键词检索结果页面,页面形式和本页面一致。
搜索结果中带有“全文使用”,是受用户权限和资源权限的控制。
1. 受限的资源,系统显示所有资源文件名称,并提供在线阅读功能,但不提供下载功能,并显示受限原文申请按钮,用户点击后
系统显示受限原文申请画面。
2. 非受限的资源,系统表示所有资源文件名称,并提供在线阅读功能和下载功能。
3. 文献资源在没有原文时,系统显示原文调用申请按钮,用户点击后系统显示原文调用申请画面。
analysis 全文申请全文申请用户全文申请服务全文获取全文获取权限授予第三方人工获取上传 情报管理员 原文申请流程图
3.5.1.4 情报专题库
情报专题库是情报资源展示服务的一种方式。可根据实际需要建立多个专题库将整个平台资源进行有“针对性”的划分。专题库的建立需遵从专一性,即每个情报专题库涉及的主题内容均一致。例如:硅钢专题库中的内容均与硅钢有关,不会涉及到轧钢内容。
情报专题库具体使用如下: 1.浏览情报专题列表 浏览专题的相关列表页。
2.浏览专题
包括:浏览专题情报、浏览情报列表、浏览情报详情页。 3.检索专题库
(1) 在专题库涉及内容范围内进行检索 (2) 支持结果聚类
(3) 支持结果正序或倒序排序 (4) 支持检索结果列表自动分页 (5) 支持相关标题与相关关键词联想搜索 4.专题情报收藏
收藏感兴趣的专题库到个人中心。在个人中心点击直接进入该专题。
5.资源共享权限
资源权限可为资源、栏目、库分别设置权限,逐级包含;权限分为保密、受限和非受限。保密的资源,管理员或专题组长可以设置专题组员,具有专题组员权限的用户可以查看保密资源。
6.资源评价功能
管理员可以设置栏目或资源是否可评价,可评价的资源在详情页面出现用户评价表单,可定义标签,输入评价内容,打分。 3.5.1.5 数字资源导航
数字资源相当于几大资源库的集成。用户可进入并按照分类进行导航。其中资源大类分为中文资源、外文资源。大类下再挂接各子类资源。如:期刊,会议等。点击后进入相应的数字资源详情页。
3.5.1.6 代理登录
代理登录相当于一种资源的浏览方式。主要适用于购进的三方网站资源(需要用户名和密码才能登录)。具体的业务流程详见3.3.2资源建设方案—网站代理登录。 3.5.1.6 专利技术资源分析
专利技术资源分析模块引用了万方数据开发的产品,在竞争情报系统中作为一个工具嵌入其中。用户登录后,进入专利分析工具可进行针对专利资源的相关分析统计操作,以此更好的辅助决策。其主要的服务功能介绍如下:
1.专利检索
提供模糊、表格、高级及专业的检索模式,让专利检索更为便捷。检索结果提供度的聚类排序。
2.专利分析
提供灵活多样的统计分析与可视化分析展示,并可一键生成统计报告。
3.专利预警
专利预警是对该检索条件进行监视,监测符合该条件的相关专利是否有变化,如果有变化,可以根据预警规则,定期对用户进行通知提醒。
3.5.2 后台管理功能模块
用户管理资源统计管理资源管理管理人员辅助管理统一后台管理用户界面展示系统管理 后台管理系统业务流程
后台管理功能模块包括5个子模块,实现对资源、用户、前台界面展示的修改管理。具体内容如下: 3.5.2.1 用户管理
用户管理主要内容包括用户信息维护、用户反馈信息管理。 1)用户信息维护:对用户信息进行的相关操作。包括:新增、编辑、冻结、解冻、配置角色5个功能。
2)用户反馈管理:对用户反馈意见进行处理操作。包括:搜索反馈用户、回答用户问题。 3.5.2.2 统计管理
统计管理主要对用户行为进行的一个统计,便于了解平台及用户的使用情况。
包括用户访问总量统计、部门访问总量统计、分栏目用户访问量统计和明细、分栏目部门访问量统计和明细、用户检索词统计、部门检索词统计、网站用户浏览路径分析等。
3.5.2.3 资源管理
资源管理主要目的是为了实现有权限的信息资源共享。通过建设专题库、专题组实现资源的按需分类和按需访问,使得不同工作人员具有不同的系统访问和应用权限。
资源管理按照业务可分为两部分:资源管理和人员管理。其中,资源管理内容包括:库管理、栏目管理、栏目资源管理。人员管理包括:专题组管理。具体如下:
库管理:对信息专题库进行的相关操作。包括:专题库新增、编辑、删除、复制、启用、停止等功能。
栏目管理:对专题库内不同栏目进行的相关操作。包括:栏目的新增、编辑、复制、复制到等功能。
栏目资源管理:对栏目包含的资源进行的相关操作。包括:资源的新增、资源编辑、资源删除、资源复制、资源复制到等功能。
专题组管理:对专题库对应的专题组员进行管理的相关操作。包括:专题组的新增、编辑、删除、管理组员等功能。 3.5.2.4 辅助管理
辅助管理主要针对系统服务业务进行的管理操作。便于更好的开展相关的情报服务。具体管理内容如下:
公告通知管理:对系统首页面的通知公告信息进行的相关操作。包括:公告信息新增、公告信息编辑、公告信息删除。
代理登录管理:对三方网站在登录方面进行的相应操作。包括:新增三方网站网址、编辑网址、删除网址等功能。
订阅配置管理:对用户进行信息邮件推送服务的相关操作。包括:填写用户邮件信息(邮件账号)、配置推送策略(推送周期等)等功能。
订阅信息管理:对用户提交的订阅信息进行管理的相关操作。包括;搜索用户订阅的信息(按用户名称、订阅类型、状态),退订用户订阅申请等功能。
受限资源下载申请管理:对用户提交的受限资源下载申请进行的相关操作。包括:查阅申请信息(按资源标题、用户名称、申请时间)、审核提交申请(确定为通过或者不通过)。 3.5.2.5 系统管理
系统管理主要针对系统权限方面建设的相关操作。便于与用户管理相对接,更好的完成用户角色建设情况。具体内容如下:
菜单权限管理:对后台管理系统的菜单项进行的管理操作。 包括:新增菜单、编辑菜单、删除菜单、新增权限等功能。 角色管理:对系统使用角色进行建设的管理操作。包括:新增角色、编辑角色、删除角色、配置菜单(用户角色能访问哪些菜单,进行哪些操作)。
3.5.3 系统服务支持功能模块
系统服务支持功能模块主要体现在系统建设过程中引入的先进工具或者采用的先进技术。主要目的是为了更好的保证情报服务质量。具体内容包括两个部分:
3.5.3.1 接口建设
系统在建设的过程中会预留相应的接口,不同的接口适用于不同的问题场景,具体如下: 1. 数据接口
数据接口的主要目的是为了拓展数据来源,保证检索服务的效果。 万方数据在情报服务搭建的过程中预留的接口可接收两种格式的数据XML和json。接口可返回检索结果列表数据,用户据此通过跳转到数据的站点上,进行查看文摘信息,查看全文,支付等操作来进行详情页的操作。包括文摘信息,全文信息等。根据用户购买的资源,进行权限设定) 2. 接口安全
认证接口的主要目的是为了降低系统之间的耦合度,使其功能扩展更灵活。万方数据在认证接口方面采用了OAuth技术,实现了接口访问权限控制,接口的流量控制由用户服务模式确定。认证接口的工作流程如下:
3.5.3.2 支撑工具
为了缩短系统的开发周期,提高情报服务效果。系统在搭建过程中引入了相关的工具。成熟的工具产品不仅与系统功能完美配合,同时也能大大提高了服务效果。具体内容如下: 1. ETL工具
ETL用来描述将数据从来源端经过抽取、转换、加载至目的端的过程,是构建数据仓库的重要一环。很多企业通过各种技术手段,并把数据转换为信息、知识,已经成了提高其核心竞争力的主要瓶颈。而ETL则是主要的一个技术手段。
万方数据采用了由Java编写的kettle ETL工具,可以在Window、Linux、Unix上运行,数据抽取高效稳定。 用途:提高资源建设的效率。 2. 互联网采集工具
目前,通过人工获取互联网相关情报信息的阶段,这种获取情报信息的方式十分耗费人力资源,降低了情报获取与公布的工作效率。 通过我公司的成型工具产品——互联息采集工具,可实现对指定的互联息的自动抓取工作,并且可实现情报信息的分类功能,通过这种自动获取互联网情报信息的方式,可以人力,投入到其他工作中,提高工作效率。
互联息采集工具实现对于各种外部互联网网站信息的监测和采集,其主要的功能要求如下:
需求类别 网页下载 功能要点 支持整个网站或网站的某一个频道、某一栏目的作为一个的下载任务 支持多个网站、多个栏目的多任务、多线程下载 下载任务支持静态网页下载,支持基于数据库查询链接的网页下载 下载任务支持对网页链接跟踪和链接保存进行过滤 支持网页正文图片下载和本地保存 支持需要验证的网页下载,如提供用户名/口令,支持基于POST/GET、Cookie等方式的口令提交和验证支持 支持网页或链接的基于广度和深度策略的遍历下载,支持仅保持在站内或在域内的下载,支持广度、深度、是否站内下载等设定 支持对于某一网站和某一栏目相关网页的持续的监控、下载和更新 支持对于下载任务启动时间、下载频度等设置 元数据提取和内容过滤 下载任务支持对于网页的各种元数据的抽取,如标题、作者、时间、来源、正文等 元数据提取支持模板定义,可根据不同模板提取实际数据内容,剔出不必要的垃圾数据 下载任务支持对于文档标题和内容进行过滤 排重 支持对于下载网页的基于原始链接的排重 支持对于下载网页的基于文档标题的排重 支持对于下载网页的基于文档标题和原始链接的组合排重 输出、排序与加载 支持将下载任务采集信息加载到某一信息分类对应类目或数据表,支持对于提取元数据与加载数据库的字段对应设置 支持下载信息在加载到某一分类时,根据与分类特征向量进行相似度比较,根据比较结果进行自动排序。 根据信息分类流程定义设置,可选择将下载信息存储到某一素材库或直接存储到发布库 配置与管理 基于浏览器进行互联网采集工具的参数配置和管理 支持对于下载任务的远程管理,如启动、暂停、停止等 支持下载任务配置参数保存为模板,或从模板导入配置参数进行适应性修改 配置参数存储支持XML格式和基于RDBMS的统一存储管理方式,在系统安装实施时可以定制选择 支持每一下载任务完成后,任务相关配置管理参数的刷新 支持互联息下载任务的持续监控和信息更新 用户能够根据自己对网页信息源的需求,实现网页信息的抽取与加载入库 经互联息采集工具采集的信息,自动归类至国际资讯、法规、行业瞭望、能源企业、最新成果、最新标准、最新会议、最新论文八个栏目。用户点击每一个栏目中的文章标题,则直接显示该文章的页面,如点击“more”,则进入内容详细列表页面。
每个栏目的特征向量集和排序算法是信息采集是否准确、完全,信息排序是否合理的关键,投标人在投标时应给出科技信息8个栏目
的初步特征向量集,提出算法设计的思路,并在以后信息平台建设过程中,配合招标人进行训练维护。互联息采集工具的配置属系统管理员的权限。
用途:应用在信息的自动采集、自动分类。 3. WFASS万方学术搜索系统
WFASS万方学术搜索系统(简称学搜)整合了用户拥有的中外文主流数据库资源厂商的元数据(收集资源量近10亿条),以学科、主题、人物、组织机构、基金等知识获取五要素进行元数据标引,构建中外文元数据仓储知识库,为用户提供各种学术文献资源的统一检索、资源揭示、资源调度与全文定位,灵活地将元数据仓储知识库和本地或异地的原文进行有效链接,为用户提供学术搜索和文献资源调度获取服务。
4.专利分析系统工具
由万方数据打造的专利分析服务系统V1.0涵盖了全球11国家2组织5500万件专利信息,对专利数据进行了数据清洗和加工,提供国内外专利二次文献的整合、检索、发现,同时与企业知识产权工作相结合,提供专利的批量下载、保存检索式、预警、监视、分析、报告等多项功能与服务。帮助客户跟踪技术最新发展,规避侵权风险,提供高附加值情报。具体功能见3.5.1.6节。
3.6 二期建设方案
二期建设宗旨在保证一期服务质量的前提下,着重拓展情报资源的智能化处理,开发情报资源自动监测、分析等功能模块。建设的思
路梳理如下:
1.从实际需求出发,明确各个智能化模块的运作过程。梳理好参与其中的情报资源、涉及的用户角色、最终的结果等各种因素。 2.明确需求后,先考虑引入功能类似的产品工具或者在产品的基础上实施简单的二次开发,再考虑个性化开发。
因篇幅问题不能全部显示,请点此查看更多更全内容
Copyright © 2019- dfix.cn 版权所有 湘ICP备2024080961号-1
违法及侵权请联系:TEL:199 1889 7713 E-MAIL:2724546146@qq.com
本站由北京市万商天勤律师事务所王兴未律师提供法律服务