Python/使用多进程处理 DataFrame
基本思路是,将DataFrame拆成若干组分,最后通过pandas.concat合并起结果
1 | def parallelize_dataframe(df, func, n_jobs=3, split_num=10): |
还可以使用tqdm
在处理数据时显示进度条。
基本思路是,将DataFrame拆成若干组分,最后通过pandas.concat合并起结果
1 | def parallelize_dataframe(df, func, n_jobs=3, split_num=10): |
还可以使用tqdm
在处理数据时显示进度条。