admin 深度学习数据集 2026-04-21

大型语言模型数据集

一、数据集概述

大型语言模型数据集，包含丰富的数据样本，适用于机器学习、数据分析和学术研究。具体内容请参考以下数据详情章节。

文件夹结构

本数据集包含 1 个子文件夹，共计 1 个文件。其中：CSV 1 个。

文件夹：（根目录）

数据统计汇总

文件: LLMs.csv

字段说明

数据样本（前3行）

四、数据类型与标注情况

五、应用场景

• 数据探索与可视化分析

• 机器学习模型训练与验证

• 统计分析与报告生成

• 学术研究与教学实践

六、使用建议

• 使用前请进行必要的数据清洗和预处理

• 建议在使用前仔细查看数据集原始说明文档

• 表格数据请先检查缺失值、异常值等数据质量问题

属性	值
数据集名称	大型语言模型数据集

字段名	中文含义	说明
name	名称
owner	owner
trained on x billion parameters	trained on x billion parameters
date	日期
note / * = parameters undisclosed	note / * = parameters undisclosed
link	link

name	owner	trained on x billion parameters	date	note / * = parameters undisclosed	link
BERT	Google	0.34	Oct 2018		https://en.wikipedia.org/wiki/BERT_(language_model)
GPT-2	OpenAI	1.5	Feb 2019	trained on Reddit only	https://en.wikipedia.org/wiki/GPT-2
T5	Google	11	Oct 2019		https://arxiv.org/abs/1910.10683