DataClaw 仓库中文介绍文档

DataClaw 是一款将 Claude Code、Codex 等代码生成器的历史对话记录转化为 Hugging Face 数据集的工具，由 peteromallet 提供，支持用户将个人与 AI 的编码协作数据进行结构化处理并发布。它汇聚了真实世界的人机编程合作数据。

要点：

示例： OpenBB 是一款面向金融分析师、量化交易员与 AI 智能体的开源金融数据平台，以"一次连接、随处消费"为核心架构，统一接入股票、期权、加密等多资产数据。

一、核心信息速览

维度	详情
:---	:---
仓库地址	[dataclaw](https://github.com/peteromallet/dataclaw)
许可证	MIT
核心定位	将代码生成器的历史对话记录转化为 Hugging Face 数据集
主要语言	Python
适用人群	开发者、AI 研究者、数据科学家、开源贡献者
关键亮点	一键发布；自动脱敏；支持多种代码生成器；构建分布式数据集

功能模块	描述	典型场景
:---	:---	:---
数据导出	将代码生成器的对话历史转换为结构化数据	将个人与 AI 的编程协作数据整理成可用格式
自动脱敏	自动识别并删除敏感信息（如 PII）	保护隐私，避免泄露公司或个人敏感数据
Hugging Face 发布	直接上传至 Hugging Face 平台	快速分享数据集给社区或研究者
多源支持	支持 Claude Code、Codex 等多种代码生成器	适配不同 AI 工具的对话数据
项目管理	选择特定项目或排除不需要的数据	控制导出范围，提高效率
配置管理	设置红名单和黑名单，自定义脱敏规则	更灵活地控制数据内容
交互引导	提供逐步指导流程，确保操作正确	帮助用户顺利完成数据导出过程
分布式数据集	通过多个用户的数据积累形成大规模数据集	为 AI 模型训练提供多样化数据来源

Python 3.6 或更高版本

pip install -U dataclaw

安装后执行以下命令：

dataclaw update-skill claude

dataclaw prep
dataclaw config --source all
dataclaw config --exclude "project1,project2"
dataclaw export --no-push --output dataclaw_export.jsonl