主要内容:从海量数据中迅速、准确地获取与炼油催化剂相关的知识信息有利于节约新型炼油催化剂开发的时间成本。科研档案作为记录过程数据和经验知识的载体,是炼油催化剂生产技术再发展的重要基础。本文通过对炼油催化剂科研档案利用现状的分析,发现档案资源并未与研发生产过程进行有效的契合,造成了资源的严重浪费。为提升档案资源在产品开发过程中的使用价值,本文提出以炼油催化剂为核心的档案专题数据库建设思路,介绍了数据库的系统体系架构、技术总体架构和部署运行架构,阐述了如何利用炼油催化剂档案专题数据库实现企业研发过程中不同用户对档案知识多样化利用的需求,使档案专题数据库在科研创新中发挥出应有的支撑作用,期望为我国石油化工领域中科研档案的数据管理和知识挖掘提供借鉴。
关键词:石油;催化剂;科研档案;知识挖掘;专题数据库;知识图谱
随着我国碳达峰、碳中和目标的提出,各行各业都致力于清洁环保、节能转型的大规划发展[1]。从石油加工的角度来看,以催化剂为核心的加工工艺占据了炼油工业的半壁江山,如何进一步发展炼油催化剂以应对新形势下市场强劲的化工原料需求、减少大气污染等政策规定,有待人们进行深入的思考和探索[2]。对于石油化工类科研单位,档案不仅是一种科研活动的证据留存,其承载的经验知识更能直接或间接地为科学研究进行服务,帮助提升研发速度和生产效率。因此,建立炼油催化剂档案专题数据库无论是面向国家重大需求,还是提升企业市场竞争实力,都将起到高效率的支撑和服务作用。但是,在工业研发和生产过程中却存在着另一番场景,一方面研究人员在实践过程中产生了大量的科研档案数据,另一方面许多生产问题仍需要高度依赖实时数据和主观经验的判断和试错,这就造成了研发过程中时间成本的提高以及信息资源的浪费[3]。因此,应积极探索如何高效地利用档案信息,深入挖掘并构建知识网络体系,使其为开发生产提供附加价值,而不是将文件长年积存在密集架中无人问津。
本文为提高科研档案的利用效率展开了积极的探索,以炼油催化剂领域为例,从科研档案利用的现状分析找出档案资源与实际开发生产不匹配的原因,提出建立炼油催化剂档案专题数据库的解决办法,通过数据的采集加工提升档案的价值密度、丰富档案的利用形式、拓宽用户的档案知识获取渠道,使档案知识高效服务于实际开发和生产活动。
1 炼油催化剂档案利用现状分析
我国在石油的催化加工领域创造了大量的辉煌业绩,在不断探索中积累了丰富的科学知识和工艺、工程经验,形成了以科研课题、科研报告、论文和专利等为代表的珍贵科研档案资料,这些经验成果无论是对研发过程的回溯还是对创新项目的发展都具有十分重要的参考价值。然而,受传统档案管理模式和利用方式的局限,这些档案资源并未在实际使用中充分发挥其借鉴和引导作用,分析其原因主要有以下4个方面。一是目前各类档案资料多数是以纸本形式进行统一归档、整理和保存,无法与当今网络数字化的发展模式相匹配。二是档案的利用形式相对单一,仍是以借阅为主。用户需要到档案管理部门提出诉求,由档案管理人员协助检索,再经涉及多方审批的借阅手续办理,最终实现档案的借阅。整个过程较为耗时、繁琐,打消用户对于档案利用的积极性。三是档案资源管理相对封闭,不能实现知识的智能共通。以炼油催化剂相关的编研为例,档案管理人员需根据实际需求进行档案资源的检索、筛选和再整理,但传统的著录模式仅使不同种类的科技档案实现有限的共通(如仅通过著录的方式将科研报告与所属科研课题进行匹配),其余大部分档案资料并未建立联系,仍呈现信息孤岛的状态,造成使用中检索不全的情况发生。单纯依靠人工收集、组织和加工利用极大地减缓了高质量编研成果的产出速度,进而降低了此类成果对于用户的参考和使用价值。四是我国石油化工行业的科研档案未受到足够重视,多数单位的档案管理系统底层架构落后,仅支持目录式和关键词的扁平化、低效率检索,且有限的档案元数据不能完全满足用户群体的检索需求,仅凭题名、责任者等信息无法对结果进行有效筛选,降低了档案的服务属性,不利于发挥档案对实际生产的指导和启发作用。
针对科研档案利用效率不高的问题,近年来我国各石油化工企业、事业单位正积极推进数据资源的知识化管理改革举措,陆续开展了以档案为试点的数字化信息平台建设,逐步实现档案信息资源存储的数字化及档案利用的网络化,一些单位也在此基础上开展了档案专题数据库的建设。但是,这些档案专题数据库多以展示功能为主,不能实现用户对于知识层面的数据自主分析,因此发挥的参考价值仍十分有限。对此,本文作者所在团队尝试建立动态维护的档案专题数据库,通过调用档案管理系统的数据接口及数据归集,让零散的档案信息迅速汇聚成特色鲜明、价值密度高、具有关联关系的档案知识,通过设置个性化展示和分析功能,用户可以根据自身需要有选择地对知识进行筛选,从而达到辅助解决炼油催化剂研发和实际生产中相关问题的目的。
2 炼油催化剂档案专题数据库的建设规划
在进行炼油催化剂档案专题数据库的架构设计之前,应充分做好用户调研工作,保证知识建模“对症下药”。在整体设计方面,档案专题数据库界面应简单、明快,具有较好的系统兼容性和稳定性,可以与其他平台和数据库接口,方便资源的同步更新。首界面支持一站式检索功能,同时设置不同模块的入口及简介,让用户既能一目了然地了解数据库自身功能,又能根据需求直接参与检索。
2.1 为研究人员提供知识参考
由于研究人员更加关注于科学技术类问题本身,因此对于此类用户群,应积极有效地组织档案资源,梳理炼油催化剂的发展脉络,将炼油催化剂研究项目从资助来源、研发、生产过程、评议、工业应用、鉴定、资源化利用等方面进行全生命周期的展示,辅助研究人员对学术前沿及行业发展趋势进行预测。在进行信息调研时,研究人员希望通过档案专题数据库快速获取以往研究资料中某种特定类型的催化剂关于生产原料、合成方式、工业应用、牌号、评议及鉴定意见、废剂废料资源化利用方式等知识,通过直接导出检索结果及可视化数据分析服务,形成可编辑、下载的数据分析报告。同时,检索结果应标注在馆状态、载体类型及档号等信息,方便进行实体档案的借阅。在个性化方面,档案专题数据库应配有订阅、收藏和推荐功能,使研究人员对目标信息进行动态追踪。
2.2 为项目管理者提高工作效率
对于项目管理者来讲,科学技术成果奖的申报也是体现科研生产价值的重要方面。在进行奖项申报前,管理者需要获取某人研究方向、参与课题项目、获奖情况及合作者等方面的信息,具体表现为对某机构某研究方向的某一人物在过去某一时间段内参与的课题、合作信息及发表文章、专利、获奖等情况的可视化统计分析与展示,使管理者能快速、全面获取相关信息,提高工作效率。
2.3 为领导层提供决策支持
专题数据库应实现炼油催化剂相关档案的智能化检索,即在原有档案数据资源简单利用的基础上实现档案信息价值的深度挖掘、提炼与分析推理。届时呈现给用户的不再是仅具有凭证价值的原始档案文件,而是基于知识层次上的概念与逻辑关系[4]。随着档案数字化进程的推进及全文检索功能的开发应用,炼油催化剂档案专题数据库将具有人工智能的属性,为用户制定、调整和执行相关科研生产计划提供便利。
为满足领导层对于行业趋势的研判需求,数据库应同步增加档案热点趋势分析功能,对档案中最新归档的文本进行数据分析,形成研究领域的热点主题信息,最终以词频图等形式加以展示,辅助决策实施。
3 炼油催化剂档案专题数据库架构设计
炼油催化剂档案专题数据库系统体系架构设计如图1所示。数据库系统整体基于B/S架构开发,支持Windows/Linux和衍生的国产操作系统,客户端程序要求IE9及以上版本及Firefox、Chrome等主流浏览器。应用软件系统包含数据层、知识组织层、应用层和客户端层,支撑环境由数据信息获取、网络传输、系统软硬件组成,由基于业务、技术、管理等方面的标准规范体系、安全保障体系和运维管理体系作为整体架构上的支撑和保障。在应用软件系统中,数据层主要是由数据库系统和文件系统构成,用于为各类用户提供信息存储服务,其中,Mysql用于存储系统基础信息,图数据库Neo4j用于复杂关系数据存储和建模,非结构化数据保存于Mongodb服务器或其他存储设备;知识组织层为软件系统建设提供技术手段,主要基于自然语言处理组件以及基于半监督的机器学习技术实现文本分析、知识实体抽取、实体关系关联;应用层是技术支撑层的具体技术实现,主要包含统一检索和数据分析等前台展示功能以及知识图谱构建、系统搭建等后台功能;客户端层为用户提供交互界面,支持常用浏览器访问。
图1 系统整体架构
系统采用Java语言SpringMVC框架进行开发。技术总体架构分为数据层、逻辑处理层、服务层和应用层。数据层主要用于存储各类系统数据;逻辑处理层用来完成不同模块的Web应用的部署;服务层即为接口层,重点是对外提供数据接口及协议;应用层用于向用户提供服务、接受用户的请求,调用业务功能并把结果返回到客户端。
部署运行架构如图2所示,整体上分为3层,即应用层、服务层和数据层,各层之间具有相对独立性,应用层主要提供Web端访问,发送数据请求,主要基于浏览器进行系统访问;服务层负责提供可复用的服务及数据处理逻辑;数据层负责数据的存储与访问,主要提供检索服务、关系数据存储服务及图谱数据检索服务。
图2 部署运行架构
4 炼油催化剂档案专题数据库的功能实现
根据炼油催化剂生产活动中不同用户的多样化功能需求,分析需求背后所对应的数据资源也是档案专题数据库开发过程中一项必不可少的环节,基础资源的收集程度直接决定档案专题数据库相关功能可否顺利实现。
4.1 档案资源整合
由于炼油催化剂档案专题数据库具有突出的主题特征,因此在开发前应对档案管理系统中与炼油催化剂相关的档案资源进行抽取整合,进而实现数据的编辑与发布。在数据的获取、分类过程中,一些对用户不重要的元数据信息可不在用户端进行展示,如保管期限、著录人、著录日期等。同时为满足用户及时了解相关领域研究动态的需求,可以通过信息采集、数据挖掘和分析模型技术加以实现,例如对借阅次数较多的档案文件进行滚动推荐以及对最新归档文件进行实时词云分析等。
4.2 知识图谱构建
为实现档案的知识化管理,需构建专业化知识图谱,建立领域知识概念体系。在此之前,应进行实体属性及关系的定义。例如定义加氢催化剂种类、加氢催化剂原料、加氢催化剂生产过程、柴油加氢催化剂、汽油加氢催化剂、渣油加氢催化剂等为实体,添加实体之间的关联关系为加氢催化剂种类,具体分为柴油加氢催化剂、汽油加氢催化剂、渣油加氢催化剂等。这些实体既可以是档案元数据中的内容,也可以是档案全文中的一个有效信息,不同档案因为同一个实体而形成有效联系,并且这些联系会随着数据量的增多而继续拓展、交叉,形成一个三维立体的数据网络。因此,由确定实体和逻辑关系所组成的知识图谱有利于用户较为迅速地捕获相关信息。同时,为保证知识图谱的专业性,还应对领域术语进行规范处理,如参考标准化炼油催化剂领域的中英文主题词、同义词,整理俗称或缩略语表,便于术语统一化和消歧化管理。
4.3 用户身份配置
在进行用户管理时,应注意对其身份进行定义。用户根据身份不同可分为前台用户和后台用户,前台用户仅可对前台个性化信息进行增、删、改、查,后台用户除具备前台用户拥有的权限外,还具备系统维护及数据编辑权限。涉及与档案类型和保密要求相关的问题,应根据不同岗位的业务范围而配置具体用户的查阅权限。
4.4 语义检索定义
语义检索是指对用户提出的问题,系统将进行实体和关系的识别分析,通过查询最相关的信息,推理得出问题的答案并反馈给用户的过程,常见的语义解析流程如图3所示。首先是用户输入待查询语句,系统对查询文本进行分词和词性标注,为分词结果中的每个单词标注一个正确的词性,确定每个词是名词、动词、形容词或其他词性。通过对查询文本中的分词结果进行实体识别分析,标记文本中的人名、地名、机构名、时间、领域词等实体,再进行依存句法分析,选择这些单词的语法作用和词之间的语法关系来选择具有标引意义的词或短语,并以此为基础构建语义图,实现对句法分析结果的语义意图分析。最终,系统将根据语义意图分析,结合专业领域知识图谱进行知识查询,返回最匹配的结果,实现实体查询功能。由上述流程的逻辑关系可知,在档案专题数据库语义检索的建设方面,为机器学习提供常见的语义检索案例有望提高专业领域语义检索质量,使检索结果能更高精度地匹配用户需求。以专业研究人员的角度出发,常见的语义检索案例有“统计某研究室承担过的国家级炼油催化剂项目、与柴油加氢催化剂相关的研究课题都有哪些、加氢催化剂第一次工业应用的时间和地点”等。
图3 语义解析流程
5 炼油催化剂档案专题数据库的现实作用
5.1 炼油催化剂档案专题数据库的实际应用情况
炼油催化剂档案专题数据库作为内部知识载体平台仅支持内部开放,在保障经验知识安全性的同时又最大化地实现了档案资源的共享,得到了以炼油催化剂为研究方向的用户群体高度的关注和肯定,如今已基本实现其使用价值,用户坐在办公桌前仅需几分钟的时间就可实现档案的知识获取和数据分析的目的,摆脱了过去纸本档案管理体系中常需几个小时甚至几天的手续办理程序,也减轻了自身重复录入及作图分析的工作量。通过该档案专题数据库,炼油催化剂相关研究人员能够更有针对性地获取本研究领域的研发生产信息,帮助其拓宽分析问题和解决问题的思路,降低研究人员在催化剂的开发过程中走弯路的概率;在读研究生通过对直观展示的专业化知识图谱进行学习,可以快速理清不同催化剂之间的关系,加快科研上手速度;管理者和决策者通过对专题数据库中相关研究的订阅和检索,可以准确把握项目进度,及时促成研究成果的产业化。
5.2 档案专题数据库与催化剂专业管理的信息化融合
炼油催化剂档案专题数据库作为信息化共享平台的组成之一,除实现档案自身的利用价值之外,还实现了与催化剂专业管理的信息化融合,为形成催化剂产品成套解决方案奠定基础。炼油催化剂档案包括从立项、研究直至成果转化的全流程数据信息,建立不同种类催化剂数据之间的联系,有利于打破催化剂不同研究方向之间的数据壁垒,致力于催化剂开发的学者可以掌握更多的工艺数据,从而对催化剂的研发方向进行动态的调整和优化;致力于催化剂工艺领域的研究人员可以根据产品工业化的应用经验对催化剂性能和工艺发展布局提出新的要求,双方合作共赢,加速成套技术产品的更新迭代。
5.3 档案专题数据库对行业的科研、生产、营销和创效的实际效果
虽然炼油催化剂是一个研发周期长、涉及工艺复杂的研究主体,但一种首创型炼油催化剂的成功研制可为一个企业带来数亿甚至数十亿的利润。炼油催化剂档案专题数据库对行业创效的影响可以从直接和间接两种方式体现。从直接影响的角度上看,档案专题数据库实现了对已有数据资源的二次加工,是对信息的精简提炼,是提升附加值的外在体现,利用档案专题数据库获取相关信息,可以大幅节约用户获取知识的时间,降低同一单位内部科研工作重复开题的现象,避免造成资源浪费。同时完整的经验数据有利于开展全方位催化剂工艺流程的配置优化,达到提升产品净利润的效果。从间接影响的角度上看,档案专题数据库的建设为科研信息的共享提供了一个良好的示范,通过对不同领域的数据库进行接口,可将档案专题数据库拓展为石化行业的智库,形成以经济性模型分析、行业预测报告和商业化数据库等为特征的知识创效。
6 结论
炼油催化剂档案专题数据库的建设是档案资源开发利用的一种新尝试,可为解决科研实际问题提供更多的集中性线索依据。按照总体部署、分步实施的原则,档案专题数据库在中远期可实现对历史数据的分析挖掘,形成历史脉络梳理、原因分析、发展趋势预测等结果呈现,为石油化工乃至更多行业的企业和科研单位提供从档案编研、科学研究到决策部署的经验材料、数据依据和建设性意见。
为进一步提升档案专题数据库中所展示的知识的广度和深度,还应进一步探索并完善符合机构实际情况及未来发展趋势的档案归档制度,将更多有价值的文件列为档案的归档范围之内,通过专业化的知识标引及著录目录与数字化档案文件的充分挂接,使专题数据库在维持动态发展的前提下发挥出档案数据在科研生产工作中的影响力和实用价值。
作者:胡一鸣(中国石油化工股份有限公司石油化工科学研究院)。