笔记：ShapeSpeak: Body Shape-Aware Textual Alignment for Visible-Infrared Person Re-Identification

淬炼之火

210人浏览 · 2026-04-16 19:50:03

淬炼之火 · 2026-04-16 19:50:03 发布

论文来源： 2025 ACM International Conference on Multimedia （CCF-A）

研究方向：VI-ReID 红外可见光行人重识别

问题来源：传统 VI-ReID 主要靠身份监督，难以充分学到高层语义。之前引入 CLIP/文本描述的方法，虽然增强了语义信息，但没有显式建模人体形状（body shape）。作者认为body shape天然更跨模态稳定，所以应该单独拎出来建模。

主要贡献：

1. 提出了一种“身体形状文本对齐框架（BSaTa）”，通过显示建模人体形状将其变为文本原型，再冻结生成好的文本描述，用他们监督视觉编码器的学习。

2. 设计了一个体形文本对齐模块，该模块带有跨模态一致性正则化器，可将体形图转换为结构化的文本表示，从而确保生成的文本表示的质量。

3. 引入了一种体形感知表示学习机制，该机制结合了多文本监督和分布一致性约束，以强调体形信息并增强特征表示。

方法：

整个框架分为两个阶段，人体形态文本对齐和形态-感知表征学习。

Stage 1：Body Shape Textual Alignment

工作：先从图像中提取 shape 信息，再把它变成文本原型。

具体做法：

1. 用 SCHP human parsing 生成人体 shape map。

2. 用一个额外的 shape encoder 提取 shape visual feature。

3. 然后借助 CLIP 的文本编码器，把 shape feature 对应到一个可学习文本模板上。
A photo of a [X_s1]...[X_sM] [CLS] shape

这里 [X_s] 是可学习 token，[CLS] 实际上对应 identity label。
4. 同时，他们还保留了 appearance 文本分支，也就是 appearance 和 shape 两条文本监督都存在。
A photo of a [X_a1]...[X_aN] [CLS] person
Stage 2：Shape-aware Representation Learning

工作：冻结生成好的文本描述，用它们去监督视觉编码器学习。

具体做法：

1. 用appearance text 和 shape text 一起监督视觉特征。

2. 用DCC模块让可见光和红外图像相对于同一组文本原型的相似度分布尽量一致。

最后推理时，appearance feature + shape feature 直接拼接检索。

关键模块：

Text-Visual Consistency Regularizer （TVCR）

对于 $sim(v_i,t_i)$ 的矩阵（余弦相似度），分别代表第 $i$ 个图片对应的特征，理论上来讲，这个矩阵应该是近乎对称的，即 $sim(v_i,t_j),sim(v_j,t_i)$ 的值应该是基本一致的。这也是TVCR被提出的原因，因为对比学习只能拉近正样本距离 $sim(v_i,t_i)$ 和拉远负样本距离 $sim(v_i,t_j) \ \ \ \ \ i\neq j$ 。

最终这个矩阵要达到对称、稳定、一致。这三种状态代表着：交叉关系不失衡，关系不是偶然的，图像端和文本端的语义结构要互相对应。

所以 TVCR 不是在做新的身份监督，而是在做：让学出来的文本 prototype 更像一个可靠原型，而不是一个碰巧能降 loss 的 embedding。

Distribution Consistency Constraint （DCC）

前面的多文本监督做的事情是：每个 visible / infrared 图像特征，都要靠近自己的文本 prototype。但这还不够，因为即便两边都各自靠近了文本原型，也可能出现：visible 特征靠近文本原型的方式是一种几何形状，infrared 特征靠近同一文本原型的方式是另一种几何形状。

所以作者提出DCC，不再只看“某个样本和它自己的原型近不近”，而是看：visible 和 infrared 对所有 identity 文本原型的相似度分布，是否一致。

相对于普通Loss，DCC不仅要求真类得接近，而且对所有类的相对距离模式也要尽量一致。

AI硬件创业社区

智能硬件社区聚焦AI智能硬件技术生态，汇聚嵌入式AI、物联网硬件开发者，打造交流分享平台，同步全国赛事资讯、开展 OPC 核心人才招募，助力技术落地与开发者成长。

更多推荐

《梳理Kubernetes基础环境：通过kubeadm完成集群初始化》

AI硬件创业社区

C# 扩展控件+组件式自定义定时器控件

归属：扩展式自定义控件，最简单的自定义控件继承关系：直接继承系统原生控件TextBox特性：保留文本框全部原生功能，仅拓展自定义属性控件(Control)：可视化、可以拖拽到窗体界面、继承Control组件(Component)：无界面、后台运行、不可渲染，直接继承Component，例如原生Timer、ImageListnamespace _1自定义控件//继承Component：无界面自定义组

AI硬件创业社区

STM32F10x 串口指令控制单路共阳极数码管

摘要：本设计基于STM32F103开发板实现串口控制共阳极数码管显示功能。系统通过USART1（9600波特率）接收上位机发送的0-9、A-F字符指令，由PB8-PB15输出对应段码驱动数码管显示。采用模块化设计，包含数码管驱动、串口通信（中断接收）、SysTick延时等核心模块。主程序通过轮询方式处理串口接收标志，实现非阻塞式指令解析，并采用ODR寄存器高8位直接输出段码技术。系统具备实时响应、