🧠

深度学习与机器学习

神经网络 · Transformer · 强化学习 · 前沿方法

StableDiffusion 详解

StableDiffusion 是一种基于扩散模型的生成模型,能够生成高质量的图像。记得第一次使用的时候还是高一,用 qq 登录一个啥网站,然后生成第一张图片的时候的惊奇感,那个时候生成一次图片还需要排队,还需要等好久。=v=往事
阅读全文

一个基于元数据门控机制的论文复刻与改善

本文记录了我复刻论文 “Fusing Metadata and Dermoscopy Images for Skin Disease Diagnosis” 的完整过程,以及在原方法基础上所做的多项改进实验与结果分析。虽然最后的结果与期待的有所差异,提升不大,但这个过程的确发现了许多问题,也算’辗转反侧’解决了。
阅读全文

Transformer 架构详解(未完善)

如果你只能读一篇关于 Transformer 的文章,希望是这一篇。本文从最基础的问题出发,一步步推导出 Transformer 的每一个核心设计,保证看完能理解为什么它如此强大。
阅读全文
📖

论文精读

经典论文逐段精读 · 理解核心思想与技术细节

GPT 系列精读

GPT 系列彻底改变了人工智能的格局。从 2018 年 GPT-1 的 1.17 亿参数到 GPT-4 的多模态能力,这篇带你完整走一遍 GPT 的进化之路。
阅读全文

BERT 论文精读

2018 年,BERT 的出现如同 NLP 领域的”ImageNet 时刻”。它在 11 项 NLP 基准上取得 SOTA,开启了「预训练 + 微调」的全面应用。
阅读全文

Qwen3 技术报告精读

2025 年 4 月 29 日发布,Qwen3 是阿里巴巴通义千问系列的最新成员。235B 总参数仅激活 22B(9.4%),多项基准超越 DeepSeek-R1 和 OpenAI o1,Apache 2.0 协议开源。
阅读全文
🔬

论文复刻

从零复现经典论文代码 · 深入掌握模型实现

一个基于元数据门控机制的论文复刻与改善

本文记录了我复刻论文 “Fusing Metadata and Dermoscopy Images for Skin Disease Diagnosis” 的完整过程,以及在原方法基础上所做的多项改进实验与结果分析。虽然最后的结果与期待的有所差异,提升不大,但这个过程的确发现了许多问题,也算’辗转反侧’解决了。
阅读全文
名词速览
AdaptiveMoE Attention Auxiliary Loss BERT DDPM DSA Degradation Problem Diffusion Model FP8 GPT GQA GRPO Gaussian Noise HyperMLA KL Divergence Llama MLA MLM MTP Markov Process MoDE MoE Multi-Head Attention NeuralCache PPO Positional Encoding Qwen RMSNorm Reparameterization Trick ResNet Residual Learning SFT Self-Play RL Shortcut Connections SwiGLU Transformer U-Net VAE 信噪比 最大似然估计 AdaptiveMoE Attention Auxiliary Loss BERT DDPM DSA Degradation Problem Diffusion Model FP8 GPT GQA GRPO Gaussian Noise HyperMLA KL Divergence Llama MLA MLM MTP Markov Process MoDE MoE Multi-Head Attention NeuralCache PPO Positional Encoding Qwen RMSNorm Reparameterization Trick ResNet Residual Learning SFT Self-Play RL Shortcut Connections SwiGLU Transformer U-Net VAE 信噪比 最大似然估计