Paper Reading Attention Is All You Need

Attention Is All You Need 1. 概括 1.1 是什么 Transformer 摒弃了循环性质、完全依赖于注意力机制来绘制输入和输出之间全局依赖关系的模型架构 a model architecture eschewing recurrence and instead relying entirely on an attention mechanism ...

Mar 7, 2024 Paper Reading

C++ 和 Python 引用的区别

C++ 和 Python 中的引用的区别一、引言今天读代码的时候，看到了这样一段： graphs = [torch.cuda.CUDAGraph() for _ in range(4)] tensors = sequential_V_exec(models, caches, graphs) 我对 Python 的掌握称不上熟练，读到这里时突然恍惚了：传入函数 sequent...

Mar 1, 2024 C++

LeetCode 2024-03

解题记录 3 月总结本月有价值的题目： 2024-03-01 2369 检查数组是否存在有效划分给一个数组，做划分，如果存在划分，使得每个子数组都能满足以下之一：子数组恰由 2 个相等元素组成，例如，子数组 [2,2] 。子数组恰由 3 个相等元素组成，例如，子数组 [4,4,4] 。子数组恰由 3 个连续递增元素组成，并且相邻元素之...

Mar 1, 2024 LeetCode

Paper Reading MIRASOL3B

MIRASOL3B: A MULTIMODAL AUTOREGRESSIVE MODEL FOR TIME-ALIGNED AND CONTEXTUAL MODALITIES 1. 概括 1.1 是什么 Mirasol3B，是一个多模态自回归模型，处理异构模态：video, audio, text 1.2 为什么不同模态的特征不同，video audio 通常以较高的频率获取，它...

Feb 29, 2024 Paper Reading

Paper Reading Memory Placement Policy Exploration for Dynamic Multi-model Multi-task ML Workloads

Memory Placement Policy Exploration for Dynamic Multi-model Multi-task ML Workloads * 精简概括 *.1 What 针对 real-time multi-task multi-model (RT-MTMM) mechine learning 问题，通过建立模型，分析往 scratchpad 中放置模型的...

Dec 18, 2023 Paper Reading

GPU Architecture Overview

GPU Architecture Overview 主要参考 GPU Architecture Overview 1 MMIO CPU 通过 MMIO 与 GPU 进行通信。 DMA 支持传输大量数据，但是 commands 是通过 MMIO 2 GPU Context context 代表了 GPU 计算的状态，拥有 GPU 中的虚拟地址空间。 GPU 上可以同时存在多个...

Dec 9, 2023 GPU

LeetCode 2023-12

解题记录 12 月总结本月有价值的题目： 2023-12-01 2661 找出叠涂元素很简单的题目，就是题目描述的不清楚 2023-12-02 1094 拼车简单的模拟题 2023-12-03 1423 可获得的最大点数比较简单，维护两个前缀和即可需要注意边界处理 2023-12-04 1038 从二叉搜索树到更大和树二叉树后序遍历，没啥难度，不做...

Dec 2, 2023 LeetCode

Paper Reading Sia

Sia: Heterogeneity-aware, goodput-optimized ML-cluster scheduling * 精简概括 *.1 What *.2 Why *.3 How 0 Abstract Sia 调度器高效地将异构深度学习集群资源分配给弹性的资源自适应作业 efficiently assigns heterogeneous deep lear...

Nov 25, 2023 Paper Reading

Paper Reading UGACHE

UGACHE: A Unified GPU Cache for Embedding-based Deep Learning * 精简概括 *.1 What 一种用于 EmbDL 的统一 multi-GPU 缓存系统找到一个接近最优的解决方案，以最小化提取时间充当了一个嵌入层，可以无缝集成到嵌入式深度学习应用程序工作流中通过在多个 GPU 之间缓存嵌入式条目，同时隐藏平台细节...

Nov 23, 2023 Paper Reading

Paper Reading vLLM

Efficient Memory Management for Large Language Model Serving with PagedAttention * 精简概括 *.1 What 提出了：算法 PagedAttention，是一种关注算法 vLLM：基于 PagedAttention 算法，是一个 LLM 服务系统，实现了以下两个目...

Nov 16, 2023 Paper Reading

1
2
3
1 / 3