返回探索

详细介绍
DataClaw 仓库中文介绍文档
DataClaw 是一款将 Claude Code、Codex 等代码生成器的历史对话记录转化为 Hugging Face 数据集的工具,由 peteromallet 提供,支持用户将个人与 AI 的编码协作数据进行结构化处理并发布。它汇聚了真实世界的人机编程合作数据。
要点:
- DataClaw 是一个开源工具,用于将代码生成器的历史对话转化为可共享的数据集
- 支持用户将私人对话数据公开到 Hugging Face
- 可以用于构建分布式数据集,促进 AI 模型训练和研究
示例: OpenBB 是一款面向金融分析师、量化交易员与 AI 智能体的开源金融数据平台,以"一次连接、随处消费"为核心架构,统一接入股票、期权、加密等多资产数据。
一、核心信息速览
| 维度 | 详情 |
|---|---|
| :--- | :--- |
| 仓库地址 | [dataclaw](https://github.com/peteromallet/dataclaw) |
| 许可证 | MIT |
| 核心定位 | 将代码生成器的历史对话记录转化为 Hugging Face 数据集 |
| 主要语言 | Python |
| 适用人群 | 开发者、AI 研究者、数据科学家、开源贡献者 |
| 关键亮点 | 一键发布;自动脱敏;支持多种代码生成器;构建分布式数据集 |
二、核心功能
| 功能模块 | 描述 | 典型场景 |
|---|---|---|
| :--- | :--- | :--- |
| 数据导出 | 将代码生成器的对话历史转换为结构化数据 | 将个人与 AI 的编程协作数据整理成可用格式 |
| 自动脱敏 | 自动识别并删除敏感信息(如 PII) | 保护隐私,避免泄露公司或个人敏感数据 |
| Hugging Face 发布 | 直接上传至 Hugging Face 平台 | 快速分享数据集给社区或研究者 |
| 多源支持 | 支持 Claude Code、Codex 等多种代码生成器 | 适配不同 AI 工具的对话数据 |
| 项目管理 | 选择特定项目或排除不需要的数据 | 控制导出范围,提高效率 |
| 配置管理 | 设置红名单和黑名单,自定义脱敏规则 | 更灵活地控制数据内容 |
| 交互引导 | 提供逐步指导流程,确保操作正确 | 帮助用户顺利完成数据导出过程 |
| 分布式数据集 | 通过多个用户的数据积累形成大规模数据集 | 为 AI 模型训练提供多样化数据来源 |
三、快速上手
1. 环境准备
Python 3.6 或更高版本
2. 安装方式
pip install -U dataclaw
3. 基础配置
安装后执行以下命令:
dataclaw update-skill claude
4. 核心示例
dataclaw prep
dataclaw config --source all
dataclaw config --exclude "project1,project2"
dataclaw export --no-push --output dataclaw_export.jsonl
四、核心亮点
- 一键发布:通过单条命令即可将数据发布到 Hugging Face。
- 自动脱敏:智能识别并移除敏感信息,保护用户隐私。
- 多源支持:兼容多种代码生成器,如 Claude Code、Codex 等。
- 构建分布式数据集:鼓励用户共同贡献数据,形成大规模人机协作数据集。
五、适用场景
- 数据科学与 AI 研究:用于训练和测试 AI 编程模型。
- 开源社区贡献:帮助开发者分享自己的 AI 编程经验。
- 企业数据管理:保护企业内部数据的同时,实现数据价值共享。
- 教育与培训:为教学和学习提供真实的人机协作案例。
六、优缺点
优势
- 简单易用,无需复杂设置即可使用
- 自动脱敏功能有效保护隐私
- 支持多种 AI 工具,扩展性强
不足
- 当前仅支持部分 AI 工具,如 Claude Code 和 Codex
- 需要用户手动确认导出范围,流程稍显繁琐
七、与同类工具对比(可选)
| 工具 | 类型 | 核心差异 |
|---|---|---|
| :--- | :--- | :--- |
| DataClaw | 开源工具 | 免费开源,支持多源 AI 工具,注重隐私保护 |
| 闭源数据平台 | 商业工具 | 功能强大但价格昂贵,不支持用户自定义数据导出 |



