大型语言模型数据集
大型语言模型数据集
一、数据集概述
大型语言模型数据集,包含丰富的数据样本,适用于机器学习、数据分析和学术研究。具体内容请参考以下数据详情章节。
二、基本信息
三、数据内容详情
文件夹结构
本数据集包含 1 个子文件夹,共计 1 个文件。 其中:CSV 1 个。
文件夹:(根目录)
数据统计汇总
文件: LLMs.csv
字段说明
数据样本(前3行)
四、数据类型与标注情况
五、应用场景
• 数据探索与可视化分析
• 机器学习模型训练与验证
• 统计分析与报告生成
• 学术研究与教学实践
六、使用建议
• 使用前请进行必要的数据清洗和预处理
• 建议在使用前仔细查看数据集原始说明文档
• 表格数据请先检查缺失值、异常值等数据质量问题
| 属性 | 值 |
| 数据集名称 | 大型语言模型数据集 |
| 类型 | 数量 / 内容 |
| 文件总数 | 1 个 |
| CSV文件 | 1 个 |
| 统计项 | 数值 |
| 子文件夹数 | 1 个 |
| 总文件数 | 1 个 |
| CSV数据总行数 | 80 行 |
| 属性 | 值 |
| 记录数 | 80 行 |
| 字段数 | 6 个 |
| 文件大小 | 9.15 KB |
| 字段名 | 中文含义 | 说明 |
| name | 名称 | |
| owner | owner | |
| trained on x billion parameters | trained on x billion parameters | |
| date | 日期 | |
| note / * = parameters undisclosed | note / * = parameters undisclosed | |
| link | link |
| name | owner | trained on x billion parameters | date | note / * = parameters undisclosed | link |
| BERT | 0.34 | Oct 2018 | https://en.wikipedia.org/wiki/BERT_(language_model) | ||
| GPT-2 | OpenAI | 1.5 | Feb 2019 | trained on Reddit only | https://en.wikipedia.org/wiki/GPT-2 |
| T5 | 11 | Oct 2019 | https://arxiv.org/abs/1910.10683 |
| 属性 | 说明 |
| 数据格式 | CSV (逗号分隔值) |
| 数据类型 | 结构化表格数据 |
| 标注情况 | 字段即标签,无额外标注需求 |
