Attention Is All You Need 1. 概括 1.1 是什么 Transformer 摒弃了循环性质、完全依赖于注意力机制来绘制输入和输出之间全局依赖关系的模型架构 a model architecture eschewing recurrence and instead relying entirely on an attention mechanism ...
C++ 和 Python 中的引用的区别 一、引言 今天读代码的时候,看到了这样一段: graphs = [torch.cuda.CUDAGraph() for _ in range(4)] tensors = sequential_V_exec(models, caches, graphs) 我对 Python 的掌握称不上熟练,读到这里时突然恍惚了: 传入函数 sequent...
解题记录 3 月总结 本月有价值的题目: 2024-03-01 2369 检查数组是否存在有效划分 给一个数组,做划分,如果存在划分,使得每个子数组都能满足以下之一: 子数组恰由 2 个相等元素组成,例如,子数组 [2,2] 。 子数组恰由 3 个相等元素组成,例如,子数组 [4,4,4] 。 子数组恰由 3 个连续递增元素组成,并且相邻元素之...
MIRASOL3B: A MULTIMODAL AUTOREGRESSIVE MODEL FOR TIME-ALIGNED AND CONTEXTUAL MODALITIES 1. 概括 1.1 是什么 Mirasol3B,是一个多模态自回归模型,处理异构模态:video, audio, text 1.2 为什么 不同模态的特征不同,video audio 通常以较高的频率获取,它...
Memory Placement Policy Exploration for Dynamic Multi-model Multi-task ML Workloads * 精简概括 *.1 What 针对 real-time multi-task multi-model (RT-MTMM) mechine learning 问题,通过建立模型,分析往 scratchpad 中放置模型的...
GPU Architecture Overview 主要参考 GPU Architecture Overview 1 MMIO CPU 通过 MMIO 与 GPU 进行通信。 DMA 支持传输大量数据,但是 commands 是通过 MMIO 2 GPU Context context 代表了 GPU 计算的状态,拥有 GPU 中的虚拟地址空间。 GPU 上可以同时存在多个...
解题记录 12 月总结 本月有价值的题目: 2023-12-01 2661 找出叠涂元素 很简单的题目,就是题目描述的不清楚 2023-12-02 1094 拼车 简单的模拟题 2023-12-03 1423 可获得的最大点数 比较简单,维护两个前缀和即可 需要注意边界处理 2023-12-04 1038 从二叉搜索树到更大和树 二叉树后序遍历,没啥难度,不做...
Sia: Heterogeneity-aware, goodput-optimized ML-cluster scheduling * 精简概括 *.1 What *.2 Why *.3 How 0 Abstract Sia 调度器高效地将异构深度学习集群资源分配给弹性的资源自适应作业 efficiently assigns heterogeneous deep lear...
UGACHE: A Unified GPU Cache for Embedding-based Deep Learning * 精简概括 *.1 What 一种用于 EmbDL 的统一 multi-GPU 缓存系统 找到一个接近最优的解决方案,以最小化提取时间 充当了一个嵌入层,可以无缝集成到嵌入式深度学习应用程序工作流中 通过在多个 GPU 之间缓存嵌入式条目,同时隐藏平台细节...
Efficient Memory Management for Large Language Model Serving with PagedAttention * 精简概括 *.1 What 提出了: 算法 PagedAttention,是一种关注算法 vLLM:基于 PagedAttention 算法,是一个 LLM 服务系统,实现了以下两个目...
A new version of content is available.