yuyu - yuyu的个人博客

【论文阅读】：A multimodal vision–language model for generalizable annotation-free pathology localization

发表于2026-03-10

本论文在分享会中分享，点击查看论文PPT 👆 ⭐论文信息文献类型：Nature 子刊发表刊物：nature biomedical engineering（IF=26.7）发表时间：2026 发表单位：中国科学院深圳先进技术研究所 ⭐Abstract第一句话：开门见山：现有基于临床影像数据的病理定义深度学习模型高度依赖专家标注，且在开放式临床环境中泛化能力有限。第二句话：所提方法：本文提出了一种具有良好泛化能力的视觉–语言模型——无标注病理定位模型（Annotation-Free pathology Localization，AFLoc）。第三句话：核心创新：AFLoc 的核心优势在于基于多层级语义结构的对比学习机制，该机制在无需专家影像标注的情况下，将多粒度医学语义概念与丰富的图像特征进行全面对齐，从而适应病理在不同影像中的多样化表达形式。第四句话：阐述无标注性能：我们首先在包含 22 万对影像–报告的胸部 X 光数据集上进行了主要实验，并在 8 个外部数据集上进行了验证，覆盖 34...

【论文阅读】：MedKlip：Medical Knowledge Enhanced Language-Image Pre-Training for X-ray Diagnosis

发表于2025-12-11

本论文在JC CLUB中分享，点击查看论文PPT 👆 ⭐论文信息文献类型：CCFA 发表刊物：ICCV 发表时间：2023 发表单位：上海交通大学、上海AI lab ⭐Abstract第一句话：一句话概括本文贡献：本文旨在利用放射科日常实践中产生的成对图像—文本报告，引入领域特定知识，以增强医学视觉-语言预训练（VLP）模型的能力。第二句话：创新一：第一，与直接处理原始报告的现有工作不同，我们设计了一种新颖的三元组抽取模块，用于提取与医学相关的信息，从而避免自然语言语法所带来的不必要复杂性，并强化监督信号。第三句话：创新二：第二，我们提出了一种结合知识库实体翻译的三元组编码模块，通过查询医学知识库充分利用丰富的领域知识，并在语言嵌入空间中隐式建模各医学实体之间的关系。第四句话：创新三：第三，我们采用基于 Transformer...

【AI生成】：如何标准地写一个AI工程文件夹？

发表于2025-11-05

好的，我会将前述的内容整理成一个完整的、详细的标准AI工程框架，并转化为一个 .md 格式的文档。这个文档将详细描述每个文件和文件夹的职责、代码结构和如何组织整个深度学习项目。标准AI工程框架文档项目文件结构1234567891011121314151617181920212223242526272829303132project_name/│├── data/│ ├── raw/ # 原始数据（如果有的话）│ ├── processed/ # 处理后的数据│ └── utils.py # 数据相关的工具函数（例如数据增强）│├── models/ # 模型相关│ ├── __init__.py # 模型模块│ ├── model.py # 模型的定义│ ├── layers.py # 定义不同的神经网络层│ └── loss.py # 损失函数│├── scripts/ ...

【论文阅读】：TME-guided deep learning predicts chemotherapy and immunotherapy response in gastric cancer with attention-enhanced residual Swin Transformer

发表于2025-10-19

本论文在论文分享会中分享，点击查看论文PPT 👆 ⭐论文信息文献类型：Cell 子刊发表刊物：Cell Reports Medicine 发表时间：2025 发表单位：美国纽约布法罗大学等 ⭐summary第一句话：任务背景：辅助化疗和免疫检查点抑制剂已被证明对胃癌有持久的抗肿瘤作用。但目前缺乏有效的生物标志物，（无法准确预测哪些患者会真正从这些治疗中获益）。这限制了个体化治疗的发展。第二句话：本文方法与任务：我们提出了一种注意力增强的残差Swin...

【论文阅读】：Semantic-Aware Representation Blending for Multi-Label Image Recognition with Partial Labels

发表于2025-08-24

本论文在论文分享会中分享，点击查看论文PPT 👆 ⭐论文信息文献类型：CCFA 发表刊物：AAAI 发表时间：2022 发表单位：中山大学 ⭐Abstract第一句话：介绍本文的研究任务：用部分标注的标签去训练多标签分类模型时一个极具挑战性和实际性的任务。第二句话：概括现有算法：为了解决这个问题，现有算法主要利用预训练模型或半监督模型为”unknown label（未发现标签）”生成伪标签。第三句话：介绍现有方法的局限性：然而，这些方法需求足够多的”known label（已知标签）”来训练模型，因此在标签稀缺的情况下效果不佳。第四句话：介绍本文的思路：为了解决这个问题，本文提出将“在不同图像中将类别特定（category-specific）的表征进行融合，将已知标签的信息传播到未知（未发现）标签中作为补充，进而避免对预训练模型的依赖” 第五句话：介绍本文的具体设计：具体来说，本文提出了一种语义感知的表征融合（Semantic-Aware Representation Blending,...

【论文阅读】：Med-2E3：A 2D-Enhanced 3D Medical Multimodal Large Language Model

发表于2025-04-21

⭐论文信息文献类型：预印本 arxiv 发表刊物：arxiv 发表时间：2024 发表单位：清华大学 1.1 拟解决的科学问题✨ 本论文旨在构建一个适用于3D医学影像理解的多模态大模型，主要解决三维特征提取问题。✨ 本文属于医学大模型、多模态大模型、3D特征提取、局部全局特征融合等领域。 ⭐论文背景2.1...

【技术篇】BCE or CE? 多标签还是多分类？

发表于2025-03-16

我们在选择损失函数的时候，经常会遇到这样的问题，是选择二元交叉熵（Binary Cross Entropy，BCE），还是选择交叉熵（Cross Entropy，CE）？或许有人简单的认为，二分类问题选择BCE，多分类问题选择CE。那是不是BCE就只能用于二分类问题呢？那么到底有什么细节需要注意呢？本文将为你一一解答。读完本文你将明白如下： BCE不仅适用于二分类问题，还适用于多标签问题； CE是不会注意负标签的损失的，而BCE会计算负标签的损失；（BCE不是简单的二元CE） BCE 和 CE 在torch中计算log的底数取e，即ln； CE 在torch中输入接收为logits，而BCE接收为概率值； BCE 和 CE 在torch中还有一个参数reduction，用于控制损失的计算方式； CE 在torch接受的标签是向量而不是矩阵。 ⭐二分类、多分类、多标签二分类问题在正式描述 BCE 和 CE 之前，我们先来了解一下二分类、多分类和多标签的概念。二分类任务很简单，就是将输入图片分成俩类，即True 和...

【技术篇】transformer解析

发表于2025-03-04

...

【论文阅读】：Med-Former： A Transformer-based Architecture for Medical Image Classification

发表于2025-02-28

⭐论文信息文献类型：会议论文(CCFB) 发表刊物：MICCAI 发表时间：2024 发表单位：纽约州立大学石溪分校 1.1 拟解决的科学问题✨ 本论文旨在解决Transformer在医学图像分类任务中的应用问题，主要解决了Transformer在医学图像分类任务中特征提取不佳和不能很好地传播有效的信息的问题。✨ 本文属于医学图像分类领域，我还将其归为多尺度融合领域，具体涉及到局部全局特征融合领域。 ⭐论文背景2.1 基本背景和前提技术✨ 多尺度融合：多尺度融合是指将不同尺度的特征进行融合，以提高特征的表达能力，在图像特征提取中，多尺度融合常表明图像的不同分辨率的特征融合，例如在CNN中设计的多尺度卷积核，卷积核的大小不同，意味着卷积核能够提取不同尺度的特征：越小的卷积核提取的是细节特征，越大的卷积核提取的是全局特征，如何将这些各种尺度的特征融合起来，学术界称之为多尺度融合任务。 ✨...

【论文阅读】：Large Loss Matters in Weakly Supervised Multi-Label Classification

发表于2025-02-21

本论文在论文分享会中分享，点击查看论文PPT 👆 ⭐论文信息文献类型：会议论文(CCFA) 发表刊物：CVPR 发表时间：2022 发表单位：首尔国立大学 1.1 拟解决的科学问题✨ 本论文旨在解决多标签数据集中标签部分遗漏的问题。✨ 本文属于弱监督学习领域。具体属于弱标签学习领域或弱监督多标签学习（WSML）领域。 ⭐论文背景2.1 基本背景✨ 弱监督多标签学习（WSML）In a WSML setting, labels are given as a form of partial label, which means only a small amount of categories is annotated per image. This setting reflects the recently released large-scale multi-label datasets [12,19] which provide only partial label. ✨...