小慕正在开发一个深度学习项目,项目由一系列称为的计算单元组成。在深度学习中,完成矢量运算的算子被称为。在项目所用的NPU(神经网络处理单元)中,都可以执行这些矢量算子,并且它们是独立且可以并行执行的。然而,它们的计算效率有所不同,比例为6:1。这意味着,如果一个矢量算子在矩阵计算单元上执行的时间为`N`,那么在向量计算单元上执行的时间将是`6N`。 给定一组矢量算子,假设它们都可以部署在矩阵计算单元或向量计算单元上。为了充分利用计算资源,小慕需要合理部署这些算子的执行单元,以使总体的执行时间最短。总执行时间由矩阵计算单元和向量计算单元中执行时间较长的那个决定。 为了简化计算模型,小慕做了以下约定: 单个算子只能部署在矩阵计算单元或向量计算单元上。 部署在向量计算单元上的算子必须是按照给定顺序连续的。
提示:带虚线的词点一下有通俗解释。
时间限制 1000 ms · 内存限制 128 MB