⚡️ Reverse Engineering OpenAI's Training Data — Pratyush Maini, Datology

AIMachineLearningDataLLMTrainingData
Latent Space
Latent Space
27:02
2026/2/10

无效的视频链接

本次播客邀请了Datology的联合创始人Pratyush Maini,深入探讨了AI模型训练数据中的关键问题,特别是关于数据质量、模型行为以及训练策略的演变。Pratyush分享了他关于“数据即怪诞”(Data is Weird)的观察,指出数据集中存在的各种意想不到的“怪癖”,以及这些怪癖如何影响模型的表现。他详细阐述了模型在面对模糊问题(如“海马表情符号是否存在?”)时出现的“自我纠错”行为,并追溯了这种行为的出现与模型版本更新(如GPT-4.1及之后)以及训练数据中是否包含“思考痕迹”(thinking traces)之间的关联。播客还讨论了从“生成器驱动范式”(generator-driven paradigm)到“源重述范式”(source rephrasing paradigm)的数据生成策略的转变,强调了在预训练阶段就融入核心能力的重要性,而非仅仅依赖后期微调。最后,Pratyush介绍了Datology在合成数据和模型训练方面的最新研究成果,如“Beyond Web”项目,展示了如何通过高效的数据策略训练出高性能的模型。