科技魔方

利用大模型研究失落语言,荷兰学者发布伊特鲁里亚语数据集

大模型

2023年10月13日

  据 HuggingFace 页面显示,来自荷兰马斯特里赫特大学的一个研究团队近日发布一款可用于大模型研究的伊特鲁里亚语数据集。

  品玩报道,伊特鲁里亚语是一种被用于公元前7世纪至公元1世纪的语言,被用在意大利地区。目前没有公开的伊特鲁里亚语语料库可用于自然语言处理。

  因此,该研究团队出了一个从伊特鲁里亚语到英语的机器翻译数据集,其中包含来自现有学术资源的 2891 个翻译示例。其中一些例子是人工提取的,另一些则是自动获取的。

  据研究团队表示,发布该数据集有助于未来对该语言、类似语言或其他资源稀缺语言的研究。

+1

来源:DoNews

延展资讯