当前位置: 首页 > 在线期刊 > 2026年 > 第3期目录(总第二百二十一期) > 正文

教育研究中应用AI合成数据的机遇与挑战

作者:褚乐阳,仇星月
阅读数:1

来源:《现代教育技术》2026年第5期


要:随着大语言模型的兴起,AI合成数据作为重塑教育研究证据来源的新型工具备受关注。然而,这一从统计学领域跨越至教育科研的新兴实践,引发了关于科学证据性质变化的深刻争议,其应用边界与潜在风险尚不明晰。本研究追溯了合成数据从统计披露控制到大模型生成的演进脉络,剖析了大模型如何通过世界模型、心理理论模拟等机制重塑合成数据的生成逻辑,并系统分析了其在量化、质性、实验仿真、评估研究等场景中的应用形态。研究进一步揭示了代表性失真、认知机制差异、伦理规范缺失及质量评估困难等核心挑战,强调合成数据有效应用的情境依赖性,呼吁建立适应人机协同研究的新认识论体系,审慎、负责任地应用这一新兴工具。

关键词:合成数据;教育研究;大语言模型;数据生成;伦理


一、引言

以大语言模型(Large Language Model,以下简称“大模型”)为代表的生成式人工智能(Generative AI)正在重塑科学研究的基础逻辑与实践形态。这场被称为“AI4S”(AI for Science)的变革,不仅体现在知识发现的效率提升,更在于研究的范式、方法论与工具体系的深层重构。传统上,合成数据(Synthetic Data)依赖于对原始数据的统计建模,主要用于隐私保护、数据增补等特定场景。然而,大模型能根据研究者的提示直接创造数值、文本、图像等多模态内容,引发了关于大模型生成的合成数据(以下简称“合成数据”)能否作为有效科学证据的广泛讨论。正如Grossmann等所指出的,大模型在底层机制上展现出的模拟人类思维与行为的潜力,使其生成的合成数据在统计特征和语义逻辑上高度逼真,为大规模、低成本地检验关于人类行为的理论与假设提供了前所未有的机会。一些观点甚至进一步设想将合成数据视为硅基样本(Silicon-Based Sample),即将合成数据视为人类被试的替代性反应。倘若大模型能够在研究中扮演人类被试等角色生成回答、做出决策,甚至对自身行为进行元认知层面的“反思”,教育研究的诸多环节将被重塑。

然而,当研究数据不再必然来自对真实世界的观察,科学证据的来源与性质将发生变化,必将触及一系列深层次的认识论问题:合成数据能否作为有效的科学证据?使用合成数据“发现”的规律,究竟是对未知现象的揭示,还是对既有知识的再生产?这些问题的严肃性,与当前研究现状形成了鲜明对比:基于合成数据的实证研究正在快速增长,但关于这一实践的认识论合法性、方法论规范和伦理边界的讨论却明显不足。

在这一背景下,本研究聚焦于合成数据对教育研究带来的机遇与挑战,追溯合成数据历史脉络,阐明大模型带来的多重影响;分析合成数据在哪些场景创新教育研究,并结合大模型技术特点与现实影响深入剖析合成数据应用所面临的多维挑战,旨在为合成数据在教育研究中的负责任应用提供思路与风险警示。

二、合成数据的应用脉络

合成数据较为公认的定义是:使用明确的数学模型或算法生成的数据集,而非直接来源于现实世界的观测或常规数据采集过程。换言之,研究者以对数据生成机制的假设为起点,借助模型化与抽样来“制造”可用于分析的数据。基于历史视角,合成数据的应用经历了三个关键阶段:起源于统计披露控制领域、随深度学习技术扩展至计算机视觉等领域、随大模型的出现推向至科学研究前沿。

20世纪90年代,合成数据在统计学与信息隐私保护的交叉领域被提出。Rubin将其描述为“非经直接测量而获得、利用统计模型生成的人工数据”,并将多重插补(Multiple Imputation)的思想用于为人口普查与大型社会调查构造可发布的“替身数据”,以在不披露微观个体信息的前提下保留统计推断所需的结构特征。随后,Little等发展出“部分合成”策略,即只对原始数据中的敏感变量进行替换,从而在隐私保护与分析效度之间取得更细粒度的平衡。由此,合成数据确立了其作为公共数据治理工具的功能,并随开放科学运动扩展至包括教育研究在内的多个学术领域,为研究者在合规框架下验证方法、复现研究提供了数据基础。

2010年前后,合成数据进入了以深度生成为特征的第二阶段。随着机器学习与计算机视觉技术的兴起,以生成对抗网络、变分自编码器为代表的技术通过直接学习原始数据的概率分布来生成新样本,合成数据开始在图像、文本与表格数据上得到大规模应用,其应用场景也从公共数据治理扩展至计算机视觉、机器学习训练等领域。这一阶段合成数据应用的核心动因从隐私保护转向控制与可扩展性。合成数据能够以更低成本覆盖稀有场景、长尾分布与边缘条件,以提升模型训练的充分性。

2022年至今,大语言模型的广泛应用标志着合成数据进入了新的发展阶段。与前两个阶段主要依赖对原始数据的统计拟合不同,这一阶段合成数据的生成主要基于大模型对语言模式的预测与表征能力。通过在海量语料上的预训练,大模型掌握了通用的语言规则与知识结构,能够根据研究者的提示生成符合逻辑与语义规范的文本,使得人类思想与行为也可被以语言的形式合成,这为教育研究提供了数据获取的新途径。

、大语言模型对合成数据的影响

自大模型问世以来,越来越多的研究开始利用大模型直接生成研究数据。在这一实践进程中,可以看到大模型能力泛化的迹象。例如,同一基座模型能具备不同学科背景知识与通用规律的一般性理解;探索大模型的“人格特征”,验证其在被设定为特定角色时,能否像真实人类一样表现出稳定的思维与回答模式;随着多模态技术成熟,模型不仅能生成文本,在此基础上也能生成与之语义对齐的图像或视频,实现了同一主题在不同媒介形式上的统一表达。更有趣的是,面对训练数据中未曾明确包含的复杂任务,现有研究开始分析大模型在这些任务上的推理过程,将模型输出的思维链(Chain of Thought)作为过程性数据,以此模拟人类的认知过程。

这些前沿动向反映了合成数据领域的快速进步,为辨析大模型如何影响合成数据提供了关键线索。如图1所示(图1略),大模型使合成数据在四个维度上发生了变化:模型在跨领域常识与因果逻辑方面的“世界模型”能力,确立了合成数据的知识基础;模型能推断并模拟人类意图与信念,以“心理理论”能力实现个体级别的模拟仿真;对文本、图像等多种媒介的驾驭扩展了合成数据的表达形式;模型因规模扩展所带来的能力涌现,使得合成数据具备动态演化的特点。

(一)世界模型为合成数据提供知识基础

大模型的介入使得合成数据从对数据分布的表面模仿转变为对客观规律的表征。世界模型指大语言模型通过海量预训练,在参数空间内形成对现实世界的深层表征。研究发现,基于Transformer架构的AI模型,尽管其训练数据与构建目标各异,却正在趋向对客观现实底层结构形成共识性的理解,这赋予了大模型区别于传统合成方法的知识基础。

具体而言,传统合成方法主要是对原始数据统计特征的学习与再现,重点是捕捉变量间的统计关系与数据特征,一旦涉及复杂的教育情境,往往因缺乏对背后机制的理解而导致逻辑混乱。相比之下,大模型在预训练过程中,将从海量文本中习得的领域知识、因果关系、常识逻辑等以分布式表征的形式编码于模型参数中。当研究者通过自然语言提示描述数据合成任务时,这些内隐的知识表征即被激活,从而生成在语义和逻辑上均符合教育学规律的数据。例如,模型可能习得了考前焦虑会通过占用工作记忆从而降低考试表现这一因果机制,因此当研究者通过提示要求模型生成一组“高焦虑”学生的问卷数据时,模型会依据习得的知识,压低这些虚拟学生在相关变量上的得分。

(二)心理理论实现个体级别的模拟仿真

大模型心理理论方面的能力使合成数据转变为具备内在心理状态的“硅基样本”。“心理理论”(Theory of Mind)原本指代人类独有的心理能力,由于大模型通过对海量社会互动文本的学习,研究发现模型习得了推断他人信念、意图与情感的能力。这一能力赋予了合成数据个体级别的“心智内核”:根据设定的角色身份提示,大模型可以为虚拟样本构建独特且稳定的信念系统与知识状态,并据此预测和解释其在特定情境下的行为反应,研究者可据此提取相关的生成内容作为合成数据来源。

传统合成方法主要基于对群体统计特征的采样,生成的数据缺乏个体级别的内在一致性。由于大模型能够基于特定的角色提示文本生成模拟的回应,合成数据便不再是孤立的数据点,而是能够依据提示情境的要求,包含理解他人意图、进行决策等反映心理变化的非结构化数据。研究者可以利用这些数据检验个体发展轨迹或群体间的互动演化,探索在真实伦理限制或采样困难下难以开展的研究议题。

(三)内容生成扩展合成数据的表现形式

随着多模态对齐技术的成熟,像是Gemini3、Sora2等大模型能够将图像、音频等感官数据映射到与语言一致的语义空间中。这扩展了合成数据的表达维度,确立了自然语言作为跨模态数据生成的逻辑枢纽。研究者只需输入语言提示,模型便能依据对文本的语义理解,生成相对应的画面或声音,从而丰富了合成数据的表现形式。

因此,构造高保真的多模态合成数据成为可能。研究者不仅可以利用大模型生成虚拟学生的问卷得分,同时也可以获得具有一致性的访谈录音甚至课堂表现视频等。这允许研究者在统一的内容分析框架下对大量合成的图像、音频与文本数据进行综合处理,为探索复杂的教育现象提供了多维度的证据来源。

(四)能力涌现实现合成数据的动态生成

涌现是指当大模型规模突破特定阈值后,自发展现出的未在训练目标中预设的复杂推理能力,如多步推理、任务规划与指令遵循等。推理大模型的出现使得研究者能够记录上述推理的过程性文本,形成新的合成数据类型。例如,在著名的斯坦福小镇研究案例中,大模型智能体的行为得到了完整记录,每个智能体的决策节点都有清晰的因果“痕迹”。

对于教育研究而言,展示推理过程的合成数据允许研究者直接观察“虚拟学生”的思维链路,识别其知识应用的断点或迷思概念的形成路径,为理解学习过程、诊断学习挑战等微观学习机制研究中提供富含认知细节的过程证据。

四、AI合成数据在教育研究中的应用场景

当研究者可以“提示”AI生成问卷数据、访谈文本、实验轨迹甚至虚拟教室时,合成数据的应用边界在哪里?现有的研究探索已经横跨量化、质性、实验等多种研究范式,但缺乏系统梳理。本研究按照教育研究的四种常见分析方法,即量化研究、质性研究、实验研究以及评估研究,组织合成数据的应用实践(见图2)(图2略)。需要说明的是,这一分类并非泾渭分明(许多研究本就跨范式),而是为了揭示合成数据对不同研究范式的应用可能性,展示合成数据为教育研究带来的机遇。

(一)增强量化研究的数据获取与验证

合成数据改变了量化研究数据采集以及验证分析的流程,引入了生成、验证及优化的迭代机制。与传统数据采集面临的高成本、长周期与不可逆性不同,大模型允许研究者在正式进入田野之前,通过参数化配置构建大规模的合成数据集。

首先,合成数据为理论验证提供了低成本的测试空间,研究者可利用合成数据识别测量工具中潜在的语义歧义或结构缺陷。例如,Vogelsmeier等利用大模型生成了动机学习策略问卷(Motivated Strategies for Learning Questionnaire,MSLQ)的虚拟数据,发现模型生成的认知策略题项在统计上与考试焦虑题项意外聚类,揭示了经典量表在研究应用中可能被忽视的测量偏差。其次,针对量化研究中常见的数据稀缺难题,研究者可以在小规模真实数据的基础上,利用大模型生成符合原始分布特征的合成数据以扩充样本库。例如,杜君磊等利用GPT-4o等大模型生成了反映初中生在线自我调节学习能力的虚拟样本,分析结果验证了合成数据具有较高保真度。最后,个案级的合成数据可支持统计假设的敏感性分析。研究者通过调节提示词中的变量参数构建合成数据集,模拟仿真真实世界中复杂多变的样本结构。正如Zhang等在计算社会科学领域所展示的,通过在仿真系统中操纵“攻击者”智能体的比例及配置不同类型的“用户”智能体,研究成功量化了社交媒体生态对投毒攻击的敏感性边界。因此,研究者可以在理论层面预先推演不同样本结构对统计结果的影响,评估模型的统计功效与鲁棒性,降低实证工作的试错成本。

(二)拓展质性研究材料的获取渠道

质性材料的获取高度依赖研究者与真实参与者的实地接触,往往受限于时间成本与信任关系的建立。正如前文所述,大语言模型可以代替人类参与研究,因此,合成数据也可以被视为人类与大语言模型代理进行意义协商的结果。在这一视角下,质性研究因时空阻隔或伦理限制而难以实现的深度互动,转化为一种人机协同的计算模拟。具体而言,该应用体现在以下三个维度:

首先,获取深度的个体叙事。研究者可以像采访真实被试一样,向大模型提出问题,并根据其回答进行追问。Hämäläinen等的研究表明,在模拟玩家对电子游戏体验的描述中,合成数据在可信度上甚至超过真实参与者的回答,这表明合成数据有助于研究者在缺乏真实被试时预先探索可能的话语模式。

其次,捕捉隐性认知过程。该路径侧重于观察虚拟个体如何处理特定任务,例如,有研究在物理教学研究中要求大模型扮演学生完成测试,并在提示中要求其出声思维,生成解题时的内心独白。这种互动直接将学生头脑中隐性的迷思概念(如对离心力的误解)外化为可见的解释文本,为分析学习困难的微观机制提供有价值的认知语料。最后,实现多模态视角解读。多模态大模型具备的视觉处理能力使其能作为虚拟观察者介入研究,这与以往仅能处理文本输入的语言模型有所不同,极大地拓展了合成数据生成的媒介范围与应用场景。例如,在城市环境感知研究中,利用大模型扮演的虚拟市民能够评估街景图片所反映的城市宜居性。迁移至教育领域,研究者可以要求扮演不同教学风格的虚拟教师观看同一段课堂视频,并输出反思日志,丰富质性分析的维度。

(三)丰富实验研究的控制条件

实验研究通过控制条件和随机分配建立因果关系,合成数据能够在两个层面拓展传统实验的研究能力:一是丰富控制条件的设置空间,二是支持对因果机制的过程追踪。借助大模型,研究者可以配置包含虚拟教师、同伴、学习任务、文化背景等要素的模拟环境,驱动智能体在其中交互,生成具有丰富过程信息的行为数据。这一趋势在开源智能体仿真平台的推动下迅速发展,为教育研究提供了方法论借鉴。具体而言,合成数据对实验研究的支持体现在以下两个维度:

其一,构建数字孪生体,实现个体化的干预预测。数字孪生体是指基于真实个体的数据构建其虚拟镜像,用以模拟该个体在不同条件下的行为表现。例如,Helm等开发的在美国国会数字孪生项目通过收集每位议员的社交媒体数据,利用大模型为其建立数字孪生体,发现能较准确地预测议员在具体法案上的投票行为。在教育研究中,研究者可以基于学生的历史学习数据建立数字孪生体。在实施新的教学方法之前,可以基于学生数字孪生体生成的合成数据,分析该方法是否适合学生的学习风格,从而为个性化干预决策提供数据支持。其二,生成反事实场景,创造理论检验的虚拟对照。合成数据能够生成理论上可能但现实中难以观察或存在伦理限制的研究材料。如关于社会运动的研究所示,研究者使用文生图模型生成“妇女游行中出现燃烧汽车”等现实中不太可能出现但理论上需要检验的社会事件,通过对比真实与反事实场景下公众反应,揭示了暴力元素对运动支持度的影响。研究者若要检验教师负面情绪表达对学生学习动机的影响,直接实施此类干预存在伦理风险;而利用多模态模型生成不同情绪强度的虚拟课堂场景,则可在受控条件下验证理论假设,同时规避对真实学生的潜在伤害。

(四)促进评估研究的基准构建

评估类教育研究的有效性依赖于标准化数据集与科学测量工具的支撑。合成数据能够为评估研究提供公开可用的基准数据集与结构可控的检验材料,具体体现在以下三个维度:

首先,创建公开数据集,提供跨机构方法验证的基准。合成数据能够在保护隐私的前提下生成可公开共享的教育数据集,为不同研究团队提供统一的测试平台。例如,SCALEFeedback的研究开发了一套四步递归模仿框架,生成了超过10000份学生作业及其对应的教师反馈数据。验证结果表明,基于合成作业生成的教育反馈在多个质量维度上与真实反馈几乎相同。研究者可以使用该合成数据集进行后续研究,无需担心侵犯学生隐私或违反机构政策。其次,支持测量工具开发,实现效度检验。合成数据可为新开发的测量工具提供结构可控的检验材料。传统测试题库往往在内容分布上存在不均衡问题,例如,有研究按布鲁姆认知分类框架分析发现某些标准化测试集在“记忆”“理解”层级拥有大量题目,但在“评价”和“创造”层级题目稀缺。借助大语言模型,研究者可以按照特定理论框架进行分层配额生成,确保各层级样本充足且分布均衡。合成数据可以检验新开发的评估量表能否有效区分不同认知层级的表现,或是否会因题目措辞的细微变化而产生测量偏差,从而在正式施测前完成工具的效度优化。最后,构建前瞻性实验场,探索新兴能力的评估需求。例如,面对“AI素养”“人机协同能力”等尚无成熟测评体系的新兴能力维度,研究者可以在较短时间内生成覆盖相关内容的题库,进行多轮预测试,识别传统测评可能忽视的能力维度或潜在的测量盲区。

综上所述,当前合成数据的应用已覆盖了量化、质性、实验及评估研究等重要领域。但随着大模型技术的迭代,合成数据的应用场景也将不断延伸。例如,近期Google Deep Mind的Genie3模型以及World Labs发布的Marble模型使得创建可交互、动态世界的合成场景成为可能。这些模型能够从文本/图像创建完整的交互式3D环境,能够识别和建模环境中的行动与反馈机制,对用户的交互做出符合逻辑的实时响应。这为教育研究提供了适度的想象空间:未来的合成数据可能不再仅仅是待分析的材料,而是承载研究过程的“动态容器”。研究者或许能够在具备一定因果逻辑的虚拟场域中,对教学过程、师生互动或政策干预进行长时段的连续模拟,从而深入地变革现有研究方法与体系。

五、AI合成数据带来的挑战

大模型生成的合成数据具有广泛的应用形式,这为解决教育研究数据的诸多限制提供了一条低成本、规模化的技术路径。然而,伴随着合成数据应用范围的快速扩张,学术共同体内部关于其科学有效性和研究伦理的质疑也日趋激烈。这些挑战主要源于技术能力与研究需求之间的现实差距,以及新兴技术对传统研究范式带来的根本性冲击,具体体现在以下几个方面。

(一)合成数据的代表性失真风险

当研究者宣称使用AI合成数据“发现”某种规律时,可能面临一个尴尬的悖论:这个发现有可能是对研究者自身预设的确认,甚至是对模型训练数据中既有内容的再生产。这一悖论代表着合成数据在社会科学领域广泛存在的争议,也即代表性失真的问题,具体表现在三个层面:

首先,提示词层面的主观预设。研究者在设计提示词时,经常会嵌入理论框架或假设关系,这极有可能使合成数据符合研究者的理论期待。例如,Park等与Dai等的社会模拟仿真研究均表明,无论是为智能体设定详细的“种子记忆”,还是植入特定的动机框架(如“荣誉重于生存”),这些初始配置都在很大程度上直接“编程”了智能体后续的社会互动模式。其次,大模型的表征偏差。即使研究者给出中性的角色提示,模型生成的数据仍可能携带其在训练过程中内化的先验知识。例如,当训练数据中缺乏足够的教师内部语料时,如果要求大模型扮演特定教师生成回应时,模型会基于语义关联去重构外部群体对该角色的描述(如互联网上关于教师的社会舆论或公众的外部评价),这导致其生成的往往是被外部视角“平均化”后的角色响应。最后,“安全护栏”的反作用。主流的商用大模型大多设置了防止性别、种族、文化等层面偏见的安全护栏,但对于研究而言,反映社会中现存的问题可能需要大模型能如实呈现这些偏见。例如,当研究者试图生成企业高管群体的性别分布时,主流模型可能输出接近50%男女比例以体现性别平等,这与现实中男性数量占主导的客观数据形成鲜明反差。因此,很难武断地相信,当需要探索如低收入家庭学生等群体时,合成数据能够忠实地反映这些群体真实的分布特点。

(二)认知机制的模拟有效性困境

鉴于合成数据在模拟人类方面的广泛应用,学界开始关注大模型是否真具备人类的思考方式。换言之,即使合成数据在统计分布上具有代表性,其背后大模型的“认知过程”是否等同于人类。这一质疑主要源于以下两个维度的证据:

一方面,模型超常能力引发的机制差异。近期发表在Nature上的“Centaur”大模型研究引发了激烈的学术争论,在文章发表当日,Science迅速刊发评论文章质疑其有效性。质疑的核心在于,这个旨在模拟人类认知的AI系统展现出了远超人类的生物学能力。例如,Centaur能轻松记住256位数字;缺乏人类的注意力聚焦限制,且不受疲劳、情绪波动的影响等。虽然模型生成的行为数据在结果上可能逼真,但其产生过程可能是不同的机制,这使得利用其研究人类认知规律时可靠性存疑。另一方面,基于概率预测的拟合范式缺陷。大模型的核心策略是通过统计学习来拟合人类的语言模式,这与人类基于概念理解的认知存在结构性差异。例如,早期的gpt-3.5-turbo等模型无法正确判断3.11大于3.9,也无法准确统计单词“strawberry”中字母‘r’的数量。这些错误表明模型可能尚未建立真正的数值或字符概念。即便最新的思维链技术能够通过生成显式的推理步骤来解决此类问题,其运作逻辑仍倾向于对人类“慢思考”过程的功能性模拟,容易制造出机制上的混淆,误导研究者将算法层面的文本生成路径错误地等同于人类内在的认知发展机制。

(三)伦理规范体系的缺失与滞后

当合成数据能够轻易绕过传统研究伦理的所有制度性保障时,教育研究共同体正面临一个危险的规范真空。与传统的人类参与者研究不同,合成数据的生成目前几乎没有任何制度性门槛,这极有可能导致严重的伦理风险,具体包括以下三个方面:

首先,隐私泄露与身份剥削的隐蔽性。大模型的“记忆效应”使攻击者可能通过逆向分析合成数据,推断出训练集中特定个体的敏感信息。更为隐蔽的风险在于“身份剥削”,研究者可以无限制地调用特定教育群体(如留守儿童、学困生)的身份标签来生成数据。一旦合成数据存在表征偏差,这些错误的刻板印象将被固化在学术文献中,进而影响相关政策制定。其次,知情同意原则的失效。近期苏黎世大学Reddit研究案例引发了极大争议,研究者利用大模型冒充真实用户,生成评论内容并与真实用户互动,试图通过生成的评论来改变其他用户的观点,而参与者完全不知道自己正成为实验对象。在这一场景中,合成数据直接介入了现实世界,这彻底打破了传统伦理的透明性契约。最后,对学术诚信体系的冲击。近期MIT博士生的数据造假案表明,合成数据正在成为“完美造假”的工具。该研究利用AI伪造的调研数据不仅通过了同行评议,甚至获得了领域内顶级专家的背书。传统的造假往往因统计特征的不自然而被识别,但AI生成的合成数据能够完美模拟真实数据的复杂性,甚至包括合理的缺失值与随机误差。这种高保真的造假能力击穿了现有的学术质控体系,使得基于数据的信任机制面临崩溃。

(四)数据质量评估与控制的难题

当研究者决定使用合成数据时,面临着如何建立稳健质量评估体系的方法论挑战。由于合成数据生成深受提示设计与模型随机性的影响,其质量控制目前主要受制于两个维度的张力:

首先是“效用性”(Utility)与“保真度”(Fidelity)的权衡困境。追求高保真度的数据倾向于“平滑”真实世界的噪声,可能导致数据缺乏研究必要的变异性;而过分追求效用性,则可能使生成的数据刻意迎合理论假设,人为放大统计显著性。目前,学界尚未建立标准化的评估流程来在二者之间取得平衡,这使得研究者容易根据发表需求而非科学标准来选择数据。其次是多变量交互关系的检验盲区。Johnson等的研究表明,合成数据在单一变量的统计分布上可能完美复刻真实数据,但在变量之间复杂的相互关系上却存在严重偏差。具体而言,研究使用的量化合成数据虽然在人口统计学等单项特征上高度逼真,但在涉及“学习困难类型”“策略使用”与“学业成绩”三者的交互分析中,却表现出与真实数据截然不同的模式。这意味着传统的单变量检验方法无法捕捉这种深层的结构性偏差,而这种偏差会误导教育研究中关于因果机制的核心判断。

六、结语

Nature和Science近期密集报道合成数据在经济学、社会学、医学、物理学、天文学等广泛学科领域的突破性应用,标志合成数据已从单纯的技术性实验走向了科学前沿。大语言模型的出现,使合成数据从早期的统计披露控制工具,演变为具备知识基础、主体模拟、多模态表达以及动态演变特征的新型研究工具。这一变革重构了教育研究的数据生态:在量化研究中实现数据增强与理论验证,在质性研究中构建包含认知细节的叙事材料,在实验研究中拓展因果推断与反事实探索,在评估研究中支持工具开发与动态更新。随着大模型技术的迭代,类似生成式交互环境的出现将进一步拓展合成数据的应用可能性。这些应用解放了研究者的想象力,使其能在低成本的“可能性空间”中探索理论与现实的连接。

合成数据带来的极大便利,极易诱导研究者忽视其背后的挑战。正如本研究剖析的,合成数据面临着代表性失真、认知机制差异、伦理规范缺失以及质量评估盲区等多重挑战。当前的研究实践已开始探索应对之道:在输入端,研究者尝试通过“隐式提示”“知识注入”来缓解刻板印象的负面影响,提升合成数据的准确度;在过程端,通过“指引向量”等技术实现从黑箱到灰箱的可控生成;在评估端,则发展出“反事实设计”与“多维情境检验”来对冲记忆效应与幻觉风险。尽管这些策略在操作层面提供了部分解决方案,但必须承认,这些策略多为技术框架内的局部优化,尚无法根本解决伦理责任等深层问题。

因此,教育研究不能止步于技术层面的修补,而需建立新的认识论框架与规范体系。这要求超越简单的可用性判断,转向情境化的审视。明确合成数据在何种约束条件下能产生真知识,如何建立从模拟到真实的桥接原则,以及如何确立人机协同科研范式中的伦理边界。在AI重塑知识生产的时代,唯有坚守对教育复杂性与人的主体性的敬畏,才能在拥抱技术红利的同时,守护教育研究的科学灵魂。


(本文参考文献略)


AI-generated Synthetic Data in Educational Research: Opportunities and Challenges

ChuLeyang QiuXingyue


Abstract: The rise of large language models (LLMs) has brought AI-generated synthetic data to the forefront as an emerging tool for reshaping evidence sources in educational research. However, this practice--originating in statistical disclosure control and now crossing into educational inquiry--has sparked debate over the changing nature of scientific evidence, with its boundaries and risks remaining unclear. This study traces the evolution of synthetic data from statistical methods to LLM-driven generation, analyzing how LLMs reshape data generation logic through world models and Theory of Mind simulation. It further examines applications across quantitative, qualitative, experimental, and evaluative research contexts. Key challenges are identified, including representational distortion, cognitive mechanism disparities, ethical gaps, and quality assessment difficulties. Emphasizing the context-dependent validity of synthetic data, this study calls for a new epistemological framework for human-AI collaborative research and advocates for its cautious, responsible use.

Key words: synthetic data; educational research; large language models; data generation; ethics


初审:普清筠

复审:孙振东

终审:蒋立松


版权所有 |教育学在线 京ICP备1234567号 在线人数1234人