type
status
date
slug
summary
tags
category
icon
password
初次接触“跨域”领域,下面多记录一些基本概念。
摘要翻译
近年来,已经开发了基于骨架的动作识别的无监督的表示学习,有效地解决了人体结构的智能脱敏问题,由于完全未标记的数据集,该脱敏的人体结构的敏感性有限。无监督的域适应性(UDA)由于其在域知识转移中的可比性而引起了很多关注。 UDA的核心思想是通过利用来自目标域的未标记数据并在源域和目标域之间对齐分布来增强目标域的模型适应和概括。但是,直接将UDA方法应用于骨骼视频,遇到了不同领域之间的异质性。在本文中,我们调查并总结了阻碍训练范式的关键挑战:领域漂移,缺乏利用和认知偏见。为了解决这些局限性,我们通过相似性匹配(CROSM)范式开创了一种基于新颖的跨域骨架识别的新型跨域骨架识别,该范式使知识以参数方式迁移到源域向目标域的迁移。具体而言,我们引入了跨域合成(TDS)策略,以生成中间域,桥接域间隙并促进先验的知识转移性。此外,提出了通过相似性匹配(DASM)进行的分布对齐,以进行特征学习的主线,该特征学习是通过标签平滑技术来完善的。此外,通过相互学习和一致性约束正规化探索与多名专家(CME)的合作,以减少预测偏见并进一步提高绩效。我们对多个基于3D骨架的动作识别数据集进行了广泛的实验,结果证明了我们方法的有效性和优势。
近年来,基于骨架(skeleton-based)的无监督表示学习(unsupervised representation learning)在动作识别(action recognition)领域得到了发展。该方法有效地解决了人体结构的智能去敏感化问题(intelligent desensitization of human body structures),但由于完全无标注的数据集(completely unlabeled dataset)的限制,其性能仍然有限。
1. 什么是 Skeleton-based Action Recognition?
- *骨架(Skeleton)**是指从人体姿态数据中提取的关键点(如关节)。
- *动作识别(Action Recognition)**是指根据这些骨架数据自动识别人的动作,如走路、跳跃、挥手等。
- *无监督表示学习(Unsupervised Representation Learning)**指的是在没有人工标注的情况下,让模型自动学习数据的特征。
👉 例子:假设我们有一组视频,其中每一帧都包含一个人的骨架关节信息(如头部、肩膀、肘部、膝盖等的 3D 坐标)。我们希望训练一个 AI 模型来识别这些视频中的动作,而无需人工标注。
2. 什么是 Unsupervised Domain Adaptation (UDA)?
无监督域适配(UDA, Unsupervised Domain Adaptation) 因其在**领域知识迁移(domain knowledge transferring)**中的可比性而受到了广泛关注。
UDA 的核心思想是:
- 利用目标域(target domain)中的无标注数据,通过对齐源域(source domain)和目标域的分布,来增强模型在目标域上的适应性和泛化能力(adaptation & generalization)。
👉 例子:
- 源域(source domain):一个包含大量标注数据的动作数据集(如实验室条件下采集的动作数据)。
- 目标域(target domain):一个没有标注的动作数据集(如真实世界中不同环境下的动作数据)。
- 目标:让模型从源域数据学习,然后在目标域数据上仍然表现良好,即使目标域数据没有标注。
然而,直接将 UDA 方法应用于骨架视频会遇到不同域之间的异质性(heterogeneity)问题,导致性能下降。
3. 什么是 "Intelligent Desensitization of Human Body Structures"?
"Intelligent desensitization of human body structures" 直译为 “人体结构的智能去敏感化”,听起来比较抽象。我们可以拆解一下这个概念:
- Intelligent(智能的) → 说明是由 AI/深度学习模型自动完成的,而不是人工设计的规则。
- Desensitization(去敏感化) → 让某些特征不再过度影响模型,或者减少模型对某些信息的依赖。
- Human Body Structures(人体结构) → 指的是人体的骨架数据(Skeleton),通常由多个关键点(关节)组成,如头部、肩膀、肘部、膝盖等。
👉 综合来看,这个概念的意思是:
“让 AI 模型在学习人体动作时,减少对具体人体结构(如身高、体型等)的依赖,而更加关注动作本身。”
4. 本文的贡献
在本文中,我们研究并总结了阻碍训练范式(training paradigms)的关键挑战:
- 领域漂移(Domain Drifts):源域和目标域的数据分布不同,导致模型难以泛化。
- 特征利用不足(Underutilization):模型未充分利用目标域的无标注数据。
- 认知偏差(Cognitive Bias):模型可能会过度依赖源域的特征,影响目标域的识别效果。
为了克服这些限制,我们提出了一种新的跨域骨架动作识别方法,称为 CroSM(Cross Domain Skeleton-based Action Recognition through Similarity Matching),该方法可以以无参数(parameter-free)方式实现源域到目标域的知识迁移。
5. 主要方法

本文提出了以下三种创新技术:
(1) 跨域合成(Trans-Domain Synthesis, TDS)
见Fig 2的左半边。
- 通过**生成中间域(intermediate domain)**来弥合域间差距,并促进先验知识的可迁移性(transferability)。
- 简而言之:我们创建一个“中间版本”的数据,使得源域和目标域的数据更相似,从而减少域漂移(domain drift)。
👉 例子:
- 如果源域是实验室采集的骨架数据,目标域是真实世界中的骨架数据,我们可以合成一个介于两者之间的数据集(例如,添加适量的噪声或变化),作为“桥梁”来帮助模型适应目标域。
(2) 通过相似性匹配进行分布对齐(Distribution Alignment through Similarity Matching, DASM)
- 这是主要的特征学习方法,并通过**标签平滑技术(label smoothing)**进行优化。
- 目的是让源域和目标域的数据在特征空间中更加对齐,以减少模型的认知偏差。
- 采用“Weakly augmented view”来生成两类伪标签:语义伪标签和实例伪标签
- 随后计算语义相似性和实例相似性,再采用展开和聚合操作合并这两种类型的相似性,最终是心啊伪标签的推导并实现一致的训练。
👉 例子:
- 如果源域的动作数据分布和目标域的动作数据分布不同,我们可以通过调整特征,使得它们在同一个空间中“看起来更相似”。
(3) 多专家协作(Collaboration with Multiple Experts, CME)
- 通过**互学习(mutual learning)和一致性约束正则化(consistency constraint regularization)**来减少预测偏差,并进一步提升性能。
👉 例子:
- 训练多个模型(多个“专家”),让它们互相学习,并确保它们的预测结果在不同数据集上保持一致,从而提升泛化能力。
6. 实验结果
我们在多个基于 3D 骨架的动作识别数据集(3D skeleton-based action recognition datasets)上进行了广泛的实验。
结果表明,我们的方法在跨域动作识别任务上具有显著的效果和优越性。
总结
这篇论文研究的是跨域骨架动作识别(Cross-Domain Skeleton-based Action Recognition),核心思想是:
- 利用无监督域适配(UDA)技术来迁移知识,使模型在目标域(无标注数据)上表现良好。
- 但是在该数据集环境下,遭遇不同域之间异质的问题,于是提出 CroSM 方法,主要包含:
- TDS(跨域合成):生成中间数据,减少域漂移。
- DASM(相似性匹配对齐):调整特征,使源域和目标域数据更相似。
- CME(多专家协作):多个模型互相学习,提高泛化能力。
- 实验结果证明了该方法的有效性。
看上去UDA是该领域的一个关键工作,择日阅读一下UDA的原文,其核心目标是解决训练时数据集和真实部署时数据集数据间异质性(数据分布不同、特征表示不同、列别分布差异,而且数据集可用标签极少)的问题。
- 作者:CrystalPuNK
- 链接:https://crystalpunk.top/article/1925d734-b731-80fa-95c2-cb5195530bbd
- 声明:本文采用 CC BY-NC-SA 4.0 许可协议,转载请注明出处。
相关文章