Look into Person(LIP)是一个新的大规模数据集,专注于人的语义理解,该数据集包含 50,000 张图像,其中包含精心设计的像素注释、19 个语义人体部位标签和具有 16 个关键点的 2D 人体姿势。带注释的 50,000 张图像是从 COCO 数据集中裁剪的人物实例,大小大于 50 * 50。从真实场景收集的图像包含以具有挑战性的姿势和视图出现的人类、严重遮挡、各种外观和低分辨率。