◎欢迎参与讨论,请在这里发表您的看法、交流您的观点。
大家好,我是sea_turt1e。本文将分享我构建机器学习模型预测美国职业篮球联赛(NBA)球员化学反应的过程和结果。
模型概述
关于NBA
对于不熟悉NBA的读者,部分内容可能难以理解。“化学反应”在此处可以理解为球员间的配合默契程度。虽然本文以NBA为例,但该方法可应用于其他运动,甚至人际关系的化学反应预测。
化学反应预测结果
首先展示预测结果,之后再详细介绍数据集和技术细节。
边缘和分数解读
红色边缘表示球员间化学反应良好,黑色边缘表示中等,蓝色边缘表示较差。边缘分数代表化学反应分值,范围为0到1。
明星球员化学反应预测
下图展示了从未在同一球队效力的明星球员的化学反应预测:
预测结果并非总是符合直觉。例如,勒布朗·詹姆斯和斯蒂芬·库里在奥运会期间展现了极佳的配合,模型也预测了他们较高的化学反应。而令人意外的是,尼古拉·约基奇与其他球员的化学反应预测值较低。
2022-23赛季主要交易球员化学反应预测
为了验证模型有效性,我测试了2022-23赛季实际交易球员间的化学反应。由于2022-23赛季数据未用于训练,因此预测结果与实际情况的吻合度可以体现模型的准确性。
2022-23赛季发生了一些重大交易,以下是对凯文·杜兰特、凯里·欧文和八村塁等关键球员的预测:
新球队化学反应预测:
考虑到2022-23赛季的实际情况,这些结果似乎相当准确。(尽管之后几个赛季太阳队和小牛队的情况有所变化。)
技术细节
接下来解释技术细节,包括GNN框架和数据集准备。
什么是GNN?
GNN(图神经网络)是一种处理图结构数据的网络。在本模型中,球员间的“化学反应”用图的边表示,学习过程如下:
对于负边,模型优先考虑“助攻数低的队友”,而非“来自不同球队的球员”。
什么是AUC?
AUC(曲线下面积)是ROC曲线下面积,用于评估模型性能。AUC越接近1,准确度越高。本研究中,模型AUC约为0.73,这是一个相当不错的结果。
学习曲线和AUC变化
下图展示了训练过程中的学习曲线和AUC变化:
数据集
数据集构建是本研究的创新之处。基于“高助攻数”代表良好化学反应的假设,数据集结构如下:
此外,助攻数低的队友被明确视为化学反应差。
代码详情
所有代码可在GitHub上获取:https://www.php.cn/link/02fcf87d7e0a9c73d5cb511f8bae4ba4
未来展望
模型仍有改进空间,我的目标是:
结论
本文介绍了我预测NBA球员化学反应的尝试。虽然模型仍在开发中,但我希望通过进一步改进获得更有趣的结果。欢迎在评论区提出您的想法和建议!
◎欢迎参与讨论,请在这里发表您的看法、交流您的观点。