|
本帖最后由 冰释之川 于 2022-8-9 13:27 编辑
最近老板说要搞机器学习,于是乎我又开始折腾起了Scikit-learn囧RZ:
下面分享一下本人所写的调用scikit-learn (sklearn)库中各种算法进行机器学习的脚本集合(Linux平台)的【脚本文件清单】:
Models文件夹中:(1)*_CUTLOSS.py、*_MA100.py 和*_TAND.py文件为模型训练脚本
(2)*_GS.pkl 和 *_best.pkl 是用各种算法优化后保存的模型
(3)ML_prediction.py为预测脚本,需要导入优化好的模型(*.pkl文件)
(4)1502_LYL.csv 数据集(特征变量为连续变量)
(5)folder_pred_all.sh 批量预测脚本,配合ML_prediction.py文件使用(预测信息汇总于Extract_sklearn_predictions.txt)
(6)Extract_sklearn.sh 训练结果信息汇总脚本(训练信息汇总于Extract_sklearn_results.txt)
Models2文件夹中:(1)Hardness_*.py、MA10_*.py 、MA100_*.py、MA300_*.py和pd_*.py文件为模型训练脚本
(2)*_best.pkl 是用各种算法优化后保存的模型
(3)ML_predictions_find_best.py为预测脚本,需要导入优化好的模型(*.pkl文件),这里采用枚举法遍历每个离散特征变量的组合,从而寻找最佳特征变量
(4)TZ038-41.csv 数据集(特征变量为离散变量)
(5)folder_pred_find_best_all 批量预测脚本,配合ML_predictions_find_best.py文件使用(预测信息汇总于Extract_sklearn_predictions_find_best.txt)
(6)Extract_sklearn.sh 训练结果信息汇总脚本(训练信息汇总于Extract_sklearn_results.txt)
这里所有的模型训练脚本都采用pipeline + grid-search 方法对数据集进行预处理(编码或者标准化)、流程化以及寻找最佳超参数。
不知道啥是pipeline的同学,请看下图:
不知道啥是grid-search 方法的同学,官方文档(https://scikit-learn.org/stable/)里搜"GridSearchCV".
其余的内容直接见脚本代码吧,感觉也没啥好描述的
脚本大礼包下载地址:
Scikit-learn_scripts.zip
(1.32 MB, 下载次数 Times of downloads: 221)
|
评分 Rate
-
查看全部评分 View all ratings
|