他们好,我是梓羽。
那时跟他们撷取一个 Github 上古诗象征主义遗稿开放源码资料库(或称作统计数据集):chinese-poetry
chinese-poetry:最Jamnagar古诗遗稿资料库
chinese-poetry统计数据集包涵 5.5 六百万古诗、26 六百万古诗、2.1 六百万五言诗和其它象征主义遗稿。著名诗人主要包括唐从效近 1.4 千载著名诗人,和两宋末期 1.5 千载女诗人。(总之现如今统计数据可能将早已闻所未闻那么多了,该工程项目有许多志同道合者始终在重大贡献着、健全着,今后统计信息量可能将更为巨大)
该工程项目开放源码迄今年末, GitHub Star 数也达至了 40.8k,那个star数目相当大了,采用数目及COBOL总之也大有人在。那时详尽如是说下用工程项目吧。
工程项目如是说
GitHub工程项目门牌号:
https://github.com/chinese-poetry/chinese-poetry译者做那个工程项目的本意?
古诗是中华文明以至在世界上的珍品,他们如果发扬下来,尽管有象征主义遗稿,但绝大多数人并没保有那些书刊。从某种程度上而言,那些巨大的遗稿离他们是有很大距的。而印刷版方便快捷复本,因此此开放源码资料库问世了。此资料库透过 JSON 文件格式递送,能让他们很方便快捷的早已开始工程项目合作开发。
chinese-poetry 统计数据分散的大部份统计数据均源自于互联网,透过互联网食腐形式展开收集,储存,预测并开放源码。
如何采用该工程项目?
在采用该工程项目时,能根据自己的需要选择相应的统计数据文件
统计数据收集过程预测
在工程项目中,译者也着重的说明了全五言诗收集过程及针对各个维度高频词做了词云预测。让人一目了然,能更为直观的了解五言诗,五言诗的主要重大贡献译者等等。
比如:针对收集的五言诗统计数据,展开五言诗译者产量预测
从下图词云能发现,辛弃疾是两宋现存词最多的作家, 还有一些尽管产量丰富但未必是他们所熟知的。
五言诗译者产量预测
还有,最受欢迎的词牌名排名预测
而从下图词云,能发现,浣溪沙 作为婉约、豪放两派所常用的词牌, 在两宋末期作为最受欢迎的词牌名。
最受欢迎的词牌名排名预测
统计数据收集技术栈
技术栈:Python + parsel + peewee + requests + jieba
利用Python语言的特性,再加之丰富的第三方库,可快速展开互联网统计数据请求,并解析处理预测出他们想要的统计数据,从而健全了 chinese-poetry 开放源码中文散文古集资料库。
完整代码:
https://gist.github.com/jackeyGao/d73381087b1278177aab60636f635119#
file-crawl_songci_parse-py收集代码截取片段
统计数据集
全古诗全古诗全五言诗五代·花间集五代·南唐二主词论语诗经幽梦影四书五经蒙學纳兰性德诗集案例展示
1、古诗解谜小游戏
工程项目门牌号:https://peotik.com/
古诗解谜小游戏
2、中文散文主页
中文散文主页是一个基于浏览器的古诗网站,包涵古诗三百首、五言诗三百首等遗稿。呈现形式有古诗周历、日历小程序等。
工程项目门牌号:https://shici.store/
中文散文主页
3、古诗墨客小程序
该工程项目采用 Wepy 框架 + iview-weapp UI组件库,古古诗统计数据源源自于 chinese-poetry 开放源码仓库,包涵5.5六百万古诗、26六百万宋诗和2.1六百万五言诗. 唐从效近1.4千载著名诗人, 和两宋末期1.5K女诗人。
工程项目门牌号:
https://github.com/nslogx/weapp-poem古诗墨客小程序
总结
基于该中文古诗统计数据集工程项目,能集成相关古诗 API 接口,嵌入第三方平台、系统、小程序中,也能作为练手的工程项目小试牛刀,嵌入到自己的小工程项目中作为每日古诗集推荐等等。
最后,值得一提的是,该工程项目的合作开发和维护是由一群热爱中华文化的志愿者完成的。为更多人了解和学习中华文化提供支持和帮助。那个工程项目的开放源码精神和志愿者精神也值得他们学习和借鉴。
总之,该工程项目是一个非常有价值的开放源码资料库,为研究和发扬中国文化传统提供了重要的资源和支持。如果对中国古代文学和文化传统感兴趣,或者需要相关的语料库资源,那么那个工程项目绝对值得一试。