标题: 我们实验室开源了一本《大模型数据工程》指南,梳理了 LLM 从预训练到 RAG 的完整数据流水线
正文:
大家好。
最近我和团队( datascale-ai )在集中精力维护一本关于大模型数据工程( Data Engineering for LLMs )的开源书。目前内容已经基本成型,这也是我们近期开源输出的一个核心项目,想和大家分享一下。
GitHub 地址: https://github.com/datascale-ai/data_engineering_book/
在线阅读: https://datascale-ai.github.io/
为什么要做这个项目?
现在行业里大家都认可 "Data-centric AI",但现实是,网上的资料非常碎片化。多数教程都在教怎么调 API 、怎么写 Prompt ,但当开发者真正在一线干活时,怎么清洗几十 TB 的预训练数据?多模态数据怎么对齐?怎么搭一个稳定不翻车的 RAG 数据流水线?踩的坑极其多。
我们发现系统性的实战资料极度稀缺,所以干脆把实际工作中的经验和主流方案沉淀下来,写了这本开源书。希望帮大家从“摸着石头过河”到建立完整的底层逻辑。
这本书里有什么?
项目整体遵循“基础设施 -> 专项场景 -> 端到端实战”的结构:
- 拒绝玩具框架,全企业级技术栈: 没有停留在纯理论,直接上目前主流的工具。分布式计算用 Ray Data / Spark ;存储讲 Parquet / WebDataset ;多模态对齐涉及 CLIP / ColPali 等。
- 四大核心场景全覆盖:
- 文本预训练数据工程(采集、清洗、去重)
- 多模态数据工程(图文对、重描述、音视频)
- 对齐与合成数据(指令微调 SFT 、偏好数据)
- 应用级流水线(文本 RAG 与多模态 RAG )
- 5 个直接可跑的实战项目: 全书包含 5 个端到端的实战代码,比如“Mini-C4 预训练集构建”、“垂直领域法律专家 SFT 数据集”、“企业财报多模态 RAG”。代码都在仓库里,可以直接复用落地。
写在最后
项目采用 MIT 协议,支持中英双语,基于 MkDocs 构建。
目前还有很多可以完善的地方,如果你对 LLM 数据流水线感兴趣,或者正在做大模型相关的业务,欢迎来看看。非常欢迎大家在 Repo 里提 Issue 交流,或者提交 PR 一起共建。
如果觉得内容对你有帮助,求个 Star ⭐️ 支持一下,感谢!
• 请不要在回答技术问题时复制粘贴 AI 生成的内容