xuxin123122
V2EX  ›  程序员

《大模型数据工程》指南,梳理了 LLM 从预训练到 RAG 的完整数据流水线

By xuxin123122 at 11 小时 7 分钟前 · 236 次点击

标题: 我们实验室开源了一本《大模型数据工程》指南,梳理了 LLM 从预训练到 RAG 的完整数据流水线

正文:

大家好。

最近我和团队( datascale-ai )在集中精力维护一本关于大模型数据工程( Data Engineering for LLMs )的开源书。目前内容已经基本成型,这也是我们近期开源输出的一个核心项目,想和大家分享一下。

GitHub 地址: https://github.com/datascale-ai/data_engineering_book/

在线阅读: https://datascale-ai.github.io/

为什么要做这个项目?

现在行业里大家都认可 "Data-centric AI",但现实是,网上的资料非常碎片化。多数教程都在教怎么调 API 、怎么写 Prompt ,但当开发者真正在一线干活时,怎么清洗几十 TB 的预训练数据?多模态数据怎么对齐?怎么搭一个稳定不翻车的 RAG 数据流水线?踩的坑极其多。

我们发现系统性的实战资料极度稀缺,所以干脆把实际工作中的经验和主流方案沉淀下来,写了这本开源书。希望帮大家从“摸着石头过河”到建立完整的底层逻辑。

这本书里有什么?

项目整体遵循“基础设施 -> 专项场景 -> 端到端实战”的结构:

  1. 拒绝玩具框架,全企业级技术栈: 没有停留在纯理论,直接上目前主流的工具。分布式计算用 Ray Data / Spark ;存储讲 Parquet / WebDataset ;多模态对齐涉及 CLIP / ColPali 等。
  2. 四大核心场景全覆盖:
  • 文本预训练数据工程(采集、清洗、去重)
  • 多模态数据工程(图文对、重描述、音视频)
  • 对齐与合成数据(指令微调 SFT 、偏好数据)
  • 应用级流水线(文本 RAG 与多模态 RAG )
  1. 5 个直接可跑的实战项目: 全书包含 5 个端到端的实战代码,比如“Mini-C4 预训练集构建”、“垂直领域法律专家 SFT 数据集”、“企业财报多模态 RAG”。代码都在仓库里,可以直接复用落地。

写在最后

项目采用 MIT 协议,支持中英双语,基于 MkDocs 构建。

目前还有很多可以完善的地方,如果你对 LLM 数据流水线感兴趣,或者正在做大模型相关的业务,欢迎来看看。非常欢迎大家在 Repo 里提 Issue 交流,或者提交 PR 一起共建。

如果觉得内容对你有帮助,求个 Star ⭐️ 支持一下,感谢!

2 条回复
ghostben
   1
ghostben  
   6 小时 40 分钟前
https://datascale-ai.github.io/
404
There isn't a GitHub Pages site here.
xuxin123122
   2
xuxin123122  
OP
   6 小时 29 分钟前
• 请不要在回答技术问题时复制粘贴 AI 生成的内容
© 2026 V2EX · 22ms · 3.9.8.5