当前您的位置:

首页 < 科学研究 < 学术成果 <

正文

于辉教授团队的研究成果在UTD24/FT50期刊《PRODUCTION AND OPERATIONS MANAGEMENT》在线发表
来源: | 发布时间:2025-05-16 | 点击:

2025年5月,全讯白菜网002于辉教授(通讯作者)与博士生阎晓丽(第一作者)合作的研究成果“Newsvendor Problems with Product Unbundling: An Approach Combining Robust Optimization with Deep Reinforcement Learning”在UTD24/FT50期刊《Production and Operations Management》网络首发。

在时尚、食品加工、石油化工生产和农业领域,产品通常以预先固定的搭配组合形式进行捆绑销售,且各产品具有给定比例。例如,一箱男鞋可能包含24双同款不同尺码的鞋:其中1双为7码,4双为9码,以此类推。这些鞋以独立包装形式进行零售。零售商以组合形式采购产品,再以拆零形式销售。本研究提出并分析了一种报童模型:零售商需在各产品的随机需求实现之前,决定整个产品组合的订购量。本研究将其称为产品拆零报童问题(PUNP):零售商应如何确定产品组合的订购量,以满足未知的个体产品需求,从而实现预期利润最大化?该研究采用鲁棒优化方法处理该问题,该方法仅需知道随机需求的均值与协方差矩阵,而无需掌握具体需求分布。然而,考虑最坏需求场景的鲁棒方法通常被认为过于保守。为此,本研究将分布鲁棒优化(DRO)与深度强化学习(DRL)相结合,提出了一种改进决策质量的鲁棒学习新范式。将鲁棒解(即订购量与利润)作为人类领域知识,通过设计策略迁移机制将其融入DRL的决策过程。由于精确的鲁棒解在计算上难以处理,本研究提供了近似解法。基于有限数据规模的仿真实验表明,该方法能有效提升鲁棒性能,且这种混合方法显著优于纯DRL方法。同时,降低的计算成本与增强的决策建议可解释性,有助于DRL算法在运营实践中的部署。此外,该混合方法在解决PUNP多个变体问题时的成功应用表明,所提出的机制可能为复杂运营问题的解决提供新路径。

请升级浏览器版本

你正在使用旧版本浏览器。请升级浏览器以获得更好的体验。