ScienceMetaBench 开源:科学文献元数据提取评测基准
发布时间 - 2026-01-23 00:00:00 点击率:次上海人工智能实验室 opendatalab 团队正式推出 sciencemetabench 科学文献元数据

数据集地址:https://www./link/918d2d39616621eedbe76248d1e3abcb
评测工具代码 (Dingo):https://www./link/2ab507032a57dc82c268ea84eeecab35
据悉,ScienceMetaBench 聚焦于科学文献 PDF 中结构化元信息的精准识别与抽取能力评估,覆盖三大主流文档类型:学术论文(Paper)、教科书(Textbook)及电子书(Ebook)。在构建过程中,团队特别强化了对中英文双语场景的支持,从文本识别、字段解析到语义对齐均实现语种自适应,保障元数据提取结果与原文语言高度一致。
下图展示了从学术论文 PDF 首页中成功抽取的元数据字段实例:
需从论文首页准确提取以下核心字段:{
"sha256": "8d3e...f3a", // 文件级唯一哈希值,支撑数据溯源与版本管理`` "doi": "10.1186/s41038-017-0090-z", // 国际数字对象标识符`` "title": "Children are not little adults...", // 文献标题(保留原始大小写与标点)`` "author": "Tina L. Palmieri, ...", // 作者列表,统一采用英文逗号分隔格式`` "keyword": "Blood transfusion, Pediatric", // 关键词集合,同样以英文逗号分隔`` "abstract": "Blood transfusion in burns larger than...", // 完整摘要文本(不含冗余符号或页眉页脚)`` "pub_time": "2017" // 标准化出版年份(仅保留四位数字)``}
为增强样本多样性与现实鲁棒性,研究团队融合多源异构PDF数据采集策略,并引入 K-Means 图像聚类方法对页面布局进行无监督分组,有效覆盖从紧凑单栏到复杂多栏、含图表/公式/多语言混排等典型困难案例。标注流程采用“大模型预标注 + 领域专家人工校验”的协同范式,并严格对标 OmniDocBench(MinerU 评测所采用的权威基准),确保标注规范性、字段完整性与评测维度的前沿性。
源码地址:点击下载
# word
# git
# go
# github
# 人工智能
# 工具
# pdf
# 多语言
# 大模型
# 上海
# 标识符
# 对象
# https
# 关键词
# 英文
# 首页
# 三大
# 点击下载
# 不含
# 四位
# 对中
# 过程中
相关栏目:
【
网站优化151355 】
【
网络推广146373 】
【
网络技术251813 】
【
AI营销90571 】
相关推荐:
如何在腾讯云服务器快速搭建个人网站?
悟空浏览器如何设置小说背景色_悟空浏览器背景色设置【方法】
Windows家庭版如何开启组策略(gpedit.msc)?(安装方法)
学生网站制作软件,一个12岁的学生写小说,应该去什么样的网站?
html如何与html链接_实现多个HTML页面互相链接【互相】
百度输入法全感官ai怎么关 百度输入法全感官皮肤关闭
Laravel中间件起什么作用_Laravel Middleware请求生命周期与自定义详解
IOS倒计时设置UIButton标题title的抖动问题
大学网站设计制作软件有哪些,如何将网站制作成自己app?
Laravel如何实现API版本控制_Laravel版本化API设计方案
iOS发送验证码倒计时应用
bootstrap日历插件datetimepicker使用方法
DeepSeek是免费使用的吗 DeepSeek收费模式与Pro版本功能详解
Laravel如何实现文件上传和存储?(本地与S3配置)
品牌网站制作公司有哪些,买正品品牌一般去哪个网站买?
Laravel项目怎么部署到Linux_Laravel Nginx配置详解
Laravel如何使用Blade模板引擎?(完整语法和示例)
制作企业网站建设方案,怎样建设一个公司网站?
Laravel Fortify是什么,和Jetstream有什么关系
MySQL查询结果复制到新表的方法(更新、插入)
如何快速搭建FTP站点实现文件共享?
如何彻底删除建站之星生成的Banner?
Swift中switch语句区间和元组模式匹配
微信推文制作网站有哪些,怎么做微信推文,急?
百度浏览器网页无法复制文字怎么办 百度浏览器复制修复
Laravel如何处理CORS跨域请求?(配置示例)
清除minerd进程的简单方法
PythonWeb开发入门教程_Flask快速构建Web应用
Laravel如何实现模型的全局作用域?(Global Scope示例)
Laravel如何实现数据导出到PDF_Laravel使用snappy生成网页快照PDF【方案】
如何在香港免费服务器上快速搭建网站?
EditPlus 正则表达式 实战(3)
如何在建站之星绑定自定义域名?
Laravel怎么集成Vue.js_Laravel Mix配置Vue开发环境
车管所网站制作流程,交警当场开简易程序处罚决定书,在交警网站查询不到怎么办?
香港服务器选型指南:免备案配置与高效建站方案解析
Laravel如何实现数据导出到CSV文件_Laravel原生流式输出大数据量CSV【方案】
大连网站制作公司哪家好一点,大连买房网站哪个好?
消息称 OpenAI 正研发的神秘硬件设备或为智能笔,富士康代工
Laravel如何处理文件下载请求?(Response示例)
微信小程序 input输入框控件详解及实例(多种示例)
如何用ChatGPT准备面试 模拟面试问答与职场话术练习教程
作用域操作符会触发自动加载吗_php类自动加载机制与::调用【教程】
如何用VPS主机快速搭建个人网站?
零基础网站服务器架设实战:轻量应用与域名解析配置指南
iOS中将个别页面强制横屏其他页面竖屏
Laravel如何实现本地化和多语言支持_Laravel多语言配置与翻译文件管理
Win11摄像头无法使用怎么办_Win11相机隐私权限开启教程【详解】
微博html5版本怎么弄发语音微博_语音录制入口及时长限制操作【教程】
Laravel怎么使用Blade模板引擎_Laravel模板继承与Component组件复用【手册】

