使用示例

本章节提供了不同规模数据量的使用示例,帮助您了解 AutoSTAT 在处理不同大小数据集时的性能表现。 注意,所有耗时测试均在自动模式下进行。

备注

我们对每个实验进行了 5 次独立重复测试,并以 “均值 ± 标准差” 的形式报告耗时结果。测试结果不包括数据上传与解析为 DataFrame 的时间。需要注意,由于大模型生成内容存在一定的不确定性,且不同模型间性能差异较大,实际运行中的耗时可能会出现一定波动。

小规模数据量示例(<1000 条)

我们使用 UC Irvine 中的数据集 “ Wine ”(包含 178 条数据,去除 Index 文件)作为测试数据集。 各部分耗时情况如下(单位:秒):

环节

ChatGPT-4o 耗时

Deepseek 耗时

数据导入

6.33±0.63

16.06±0.36

数据预处理

23.86±11.77

171.19±34.30

数据可视化

25.55±10.81

135.00±34.32

建模分析

25.38±12.35

105.24±53.80

报告生成

123.48±19.30

391.11±40.41

生成报告示例:

ChatGPT-4o: 点击以下载doc文档

Deepseek: 点击以下载doc文档

中等规模数据量示例(1000 条–10000 条)

我们使用 UC Irvine 中的数据集 “ Seoul Bike Sharing Demand ”(包含 8760 条数据)作为测试数据集。 各部分耗时情况如下(单位:秒):

环节

ChatGPT-4o 耗时

Deepseek 耗时

数据导入

6.79±0.79

16.93±0.46

数据预处理

27.99±5.52

144.17±41.80

数据可视化

34.43±16.81

194.93±87.03

建模分析

83.91±67.99

93.05±3.47

报告生成

125.02±18.91

364.67±42.61

生成报告示例:

ChatGPT-4o: 点击以下载doc文档

Deepseek: 点击以下载doc文档

大规模数据量示例(>10000 条)

我们使用 UC Irvine 中的数据集 “ Steel Industry Energy Consumption ”(包含 35040 条数据)作为测试数据集。 各部分耗时情况如下(单位:秒):

环节

ChatGPT-4o 耗时

Deepseek 耗时

数据导入

6.33±0.63

18.03±0.48

数据预处理

40.99±32.55

197.18±62.19

数据可视化

26.52±5.82

136.03±11.65

建模分析

65.94±50.33

180.77±61.61

报告生成

142.34±18.76

375.53±57.79

生成报告示例:

ChatGPT-4o: 点击以下载doc文档

Deepseek: 点击以下载doc文档

超长报告生成示例(>100 页)

ChatGPT-5(Forty Soybean Cultivars from Subsequent Harvests): 点击以下载doc文档

ChatGPT-5(SkillCraft1 Master Table Dataset): 点击以下载doc文档

ChatGPT-5(Real Estate Valuation): 点击以下载doc文档

备注

实际耗时可能因硬件配置、网络状况和具体操作而有所不同。由于大模型返回结果不稳定,如果在自动模式下出现预处理、可视化及建模环节 debug 次数过多的情况,请清空数据并重新开始流程;如为手动操作,请切换至其他环节并再切回对应出错环节重试。