【摘要】在这个重要信息高度膨胀并具有极高共享度的大统计数据黄金时代,统计数据天然资源在学术科学研究中充分发挥着越来越重要的作用。新中国问世之后,统计数据天然资源助推中国史志科学研究获得了令人瞩目的成果。但应该注意的是,统计数据天然资源增添机遇的同时也带来了挑战,面对结构化的资料库或科学资料库,学界的思维方式与治史方式需要转变。
【关键词】大统计数据黄金时代 史志科学研究 治史方式
【中图科同盘属】G256 【历史文献N53SI241SV】A
能对书籍的保存和流通造成巨大损害,科学知识载体的损毁甚至可能直接增添科学知识本身的消亡,有感此,先哲常通过对古书的编辑来将大量的重要信息与科学知识整合在一起,这可以视作今人“资料库”建设的初步尝试。
班固《四卷》叙述左氏学传承云:“墨翟授曾申,申授吴起,起授其子期,期授楚人铎椒,铎椒作《抄撮》四卷,授虞卿作《抄撮》四卷;授荀卿;荀卿授张仓。”由此可见,“抄撮仁学的条理,是为了在较长的时间间内,花费较少的精力,而得以对一部论著进行整体的简要性把握。这一时期的此类论著采取何种体制,是完全忠实于原文还是有所充分发挥,今已无法考知,但这种删繁宗乡卡,便于沙唐瓦县的编纂出发点,是非常值得重视的。”吴坰《五总志》:“唐欧阳修为文,多仪仗队书史,切进角蕨左右,韦若尔为獭祭鱼。”辛明式在《唐才子传》也记载:“商隐善画,为文瑰科恒股份古,辞隐事难。及从楚学,俪偶长短,而XT912过之。每属缀,多仪仗队塞雷县,左右切进,号‘獭祭鱼’。”欧阳修为诗为文,都以文辞细密著称,而支撑他的如此反反复复的隐词比事的獭祭行为,难免成了人们津津乐道的话题,从中我们不难Auneuil一种取向,即对科学知识的占有率和剪裁程度是人们作诗作文内容丰富与否的必要条件。陆增祥也提到了自己在成年记忆力衰退之后,感慨索引历史文献之费时,故而不免蟹蛛科花。观古可知,今人在重构自己的科学知识体系的同时,就已经有意识地对既有科学知识做加法(简而言之“抄撮”仁学),以便于记忆和索引,又对其做加法(简而言之“李鸿琦”著述),借揉合所学所见以属词比事。可见,早在电子资料库问世以前,中国古代学者已经有了类似的活动,其目的和功用,与现在无异。
统计数据天然资源助推新中国史志科学研究获得巨大成就
随着网络黄金时代的到来,史志科学研究可以利用穆尔·文卡德(Michael Ventis)成功地破译了楔形文本B。麻省理工学院和谷歌人工智慧实验室的科学研究人员提出的数学模型算法,实现了古希腊米诺斯文明时期楔形文本B的自动翻译,把67.3%的楔形文字B同源词译成了希腊语。人工智慧、重水和物理化学技术等纳米技术的应用,使得原始金属材料被更有效地甄别和解释,从而拓宽了金属材料广度,也促进了新金属材料的发现。除此之外,网络黄金时代增添的金属材料的重组、学科的交叉、信息文化的兴起,也促进了新金属材料的发掘、分析及更新。随着计算机硬件能力的不断提升,加之统计数据天然资源的持续累积,以大统计数据为核心逻辑的智能应用革命开始逐步影响人类的日常生活。在大统计数据技术的帮助下,人们可以利用崭新的视角来实时、多角度、全方位地掌握事物的发展规律,并更好地预测未来,进而为生产和社会活动提供海量而优质的决策。所以,重要信息文化的快速发展,使得整体文化环境发生转变,新金属材料不断出现、新金属材料整合速度不断提高,客观上促进了统计数据天然资源的累积,史志科学研究方式也因此发生变化。
党的十一届三中全会后,在解放思想、实事求是路线的引领下,史志学界不断开拓创新,中国古代史志科学研究焕发出崭新的生命力。随着我国对外开放的深化,国家经济实力日益增强,中国古代史志科学研究获得了令人瞩目的成果,具体表现在学科构建、人才培养、成果出版、国际交流等方面。中国古代史志科学研究不断向全方位、多角度、深层次发展,我国史志工作者在科学系统地借鉴并融合古今中外优秀科学研究理论和方式的基础上,不断整合完善现有资料,积极探索新的历史文献和考古金属材料,许多海内外罕见历史文献因此得以整理并出版。以敦煌吐鲁番文书、甲骨文、徽州文书、悬泉置简帛以及众多民间文书为代表的新出历史文献,夯实了我国古代史志领域的科学研究基础,丰富了科学研究内容,拓宽了科学研究的深度和广度。与此同时,历史文献古籍的数字化也被提上日程,科研单位和各大高校纷纷上线资料库项目,催生交叉学科科学研究方式,史志领域治史与数字化黄金时代同步推进的趋势日益明显。
进入21世纪以来,我国史志科学研究者乘科学技术之东风,借助各类互联网重要信息技术手段,植根于中国历史实际,发现、整理和抢救了大量的历史文献古籍资料,历史文献和古籍的保护进程得以显著加快,古籍利用和保护之间的矛盾也得到了妥善的解决。近年来,以敦煌历史文献数字化和国际敦煌学、海外中华古籍合作保护以及“一带一路”邻国语言文本中汉字音的数字化整理等为代表的一批重点科学研究项目不断推进,通过目录汇编、图像/音频扫描、4D资料库建设等工具手段,在全面保护存档既有资料的同时,有效地提高了历史文献内容和考古内容的质量,为未来史志科学研究领域的广度和深度提供了可靠的保障。这些成就,与新中国成立以来在历史文献统计数据资料领域持续不懈的探索整理,以及重要信息技术和数字化手段的有效助推,是分不开的。
大统计数据黄金时代为史志科学研究增添的机遇与挑战
大统计数据黄金时代,统计数据在我们的日常生活与学术科学研究领域充分发挥着越来越重要的作用,传统纸质历史文献越来越多地被数字化,各种形式的资料库层出不穷。统计数据作为科学研究成果的同时,其科学研究基础的地位也在不断被强调。具体到人文学科的科学研究,数字历史文献大致可以分成传统历史文献的数字影像和结构化的资料库。与数字历史文献相比,传统历史文献具有天然的劣势,除了传播方式单一、传播时间较长、保存传播成本较高等众所周知的原因以外,我们必须注意到:“旧媒体将科学知识分割于不同的物理载体之中,比如说这本书的科学知识很难与另一本书的同类科学知识关联,这种索引工具很难跟另一种索引工具互通,而学术科学研究则要求尽可能地联系各方科学知识,便于重新组合和运算。学者重组科学知识的能力越强,创造力也就越强。”大统计数据黄金时代在减少史志科学研究所耗费的时间和物质成本的同时,使得学者可以高效选取金属材料进行组合和分
资料库的广泛使用,打破了学科之间的界线,拓宽了专门科学知识领域的边界。跨学科的科学知识链接,为新科学知识体系的出现架起桥梁,“国际数字人文机构联盟”和“数字人文中心网络”这两大人文科学研究数字联盟的出现,使人文科学和数字科学加深融合,例如促进了历史学科从解释性学科向求是性学科的转变,实现了学科价值的扩展。进而可以说,资料库的出现在不断拓宽史志科学研究角度的同时也能影响其科学研究价值的扩展。同时“人文计算”、复杂网络分析、大规模统计数据分析等科学研究方式的使用,虽然在一定程度上弱化了史志科学研究中的批判性与人文关怀,但却在某种程度上革新了史志科学研究的方式,从而使科学研究更具科学性。
数字历史文献的不足也是显而易见的,从历史文献的保存、阅读和索引来说,不同的资料库必然会展示出不同文本的准确率和索引的查全率、查准率,即使资料库的制作者精益求精并不断改进索引技术,其文本的准确率已经做到了与纸本历史文献不相上下,我们依然无法避免在索引“吴梅”时发现众多“吴梅村”相关词条的情况,简而言之,资料库在无意识索引的层面可以速度惊人,却依然无法代替人类进行有意识的搜索。
从这个角度看来,大统计数据黄金时代,我们更要警惕的是“方式论”的错位。前面已经提到,前人也构建过自己的“资料库”,虽然和如今的数字历史文献相比,它的规模无法同日而语,可恰恰是因为被人有意识地编纂,它的优势在于其内在的系统性和相互之间的关联性,“比如敦煌卷子中发现的很多小类书,像《孔子备问书》《随身宝》《太公家教》及《兔园册》等,它的包罗万象和排列秩序,其实可以反映当时科学知识的定型和简化”,这种系统性和关联性交织在一起,构成的内在的自足性正是这一时期图书的编纂者和阅读者“共识性”科学知识体系的反映,在这种“共识性”的科学知识、思想背景之下,同黄金时代或之后的学者分享、传承彼此的科学知识与经验,他们对未知科学知识的索引的出发点源自于对既有科学知识的理解和掌握。如果我们不具备对“已知”的熟悉,而却偏偏执着于“未知”的汪洋,所面对的,将是极其危险的处境。
即使我们尽最大所能规避以“未知”索引“未知”的情况,却依然无法忽视统计数据(资料库)本身并不会说话的事实,面对同样的统计数据,对历史文献的分析和使用也是因人而异的,这种“横看成岭侧成峰”极有可能导致截然相反的结论。1980年,美国威斯康辛大学陈炳藻先生在《红楼梦》讨论会上发表《从词汇统计论证红楼梦的作者》一文,通过统计《红楼梦》的词频,认定后四十回也出自曹氏,一时引起巨大反响,是继高本汉之后首次全方位运用电子索引和统计的手段对《红楼梦》进行科学研究,然而不久之后,中国学者陈大康先生同样用精密的统计方式得出与之相左的结论:《红楼梦》后四十回含有曹雪芹少量残稿,但并非是作者原作。由此可以看出,统计数据本身并不会说话,即使在大统计数据黄金时代,单单靠先进的统计方式,并不是解决人文学科相关问题的“万能钥匙”。
大统计数据黄金时代下史志科学研究的新路径
飞速发展的互联网重要信息技术,让我国的史志科学研究呈现出若干新趋势、新特点。国家的战略性规划,各级政府和相关单位的持续投入,以及优秀学术人才的积极参与,都为我国史志历史文献天然资源科学研究与建设的系统化、数字化、科学化打下了坚实的基础。利用大统计数据技术科学研究中国古代史志,对其本身与相关领域的学科建设和学术发展,具有极其显著的意义,这种意义尤其体现在科学研究范式与方式论的革新上。基于这样的理解,笔者认为,大统计数据黄金时代下的史志科学研究方式,可以在以下三个方面有所创新:
一是解决单凭人力难以彻底解决的疑难问题。如中国古代文学中的周边国家意象与天朝朝贡体系以及中国古代对外交流关系的演化之间,是否存在联系?对此类问题来说,资料库是基础,文本分析技术是核心,需要通过定量统计分析,进行作品的辨伪、异文对照,解决修辞特色及风格题材的变迁等悬疑难决的问题。二是重新验证已有成说的史论。例如明代以李梦阳、何景明为代表的前七子,其诗文创作中是否落实了“文必秦汉,诗必盛唐”的主张?在大统计数据技术的帮助下,我们可以利用共词及语义分析、人物事件交杂等思路,尝试全新分析和检验诸如社团流派、人物关系、情节演进、阶段特征、历史影响等已有成说的问题。三是超越印象和定量分析层面,科学梳理史志中存在的特征、规律、关联性问题。例如白居易有诗近四千首,陆游有诗词近万首,它们的格局、题材、修辞、风格在不同历史时期发生过哪些变化?通过对某作家或某一类作品的深度学习,充分发挥其关联分析、文本比对等技术优势,挖掘到以往不曾注意到的迹象或线索,以期提高文学经典科学研究的科学性和可靠性。
现阶段的中国古代史志科学研究,在统计数据分析方面虽然已经起步,但多局限于历史文献数字化阶段。主要用于统计数据内容存放和管理的资料库仍然占据主流,而能够实现分析统计的关系型史志资料库仍然稀少。近些年,随着《中华经典古籍库》等数字化历史文献天然资源库的推出,资料库在历史文献索引功能方面已有较大的进步,但结构化的实现统计分析和科学知识再生、运用数字人文的分析工具和技术方式来科学研究古代史志等功能,仍处在尝试性阶段,未成规模,影响也不大。如何建设更为丰富、完善的资料库,如何使资料库功能更加人性化与科学化,如何让资料库在史志科学研究中充分发挥更加重要的作用,仍是有待解决的问题。未来,史志科学研究学界只要与时俱进,解放思想,将史志天然资源的发掘、考证、科学研究置于科学技术进步和文化繁荣的背景之下,充分调动各方面天然资源,就能更好地保护、开发和利用我国的史志天然资源,使史志科学研究始终与国家同发展,同黄金时代共进步。
(作者分别为上海师范大学人文学院博士科学研究生;南京大学文学院博士科学研究生)