
1. 项目缘起为什么我们需要一个“多感官”的食品数据集在计算机视觉领域我们谈论“食品识别”已经很多年了。从早期的简单分类“这是苹果还是香蕉”到后来的菜品识别“这是宫保鸡丁还是鱼香肉丝”再到如今结合卡路里估算、食材分割等更精细的任务视觉技术正试图教会机器“看懂”食物。然而作为一个经常和算法打交道的从业者我越来越感觉到仅仅“看懂”是远远不够的。我们人类对食物的感知从来都不是一个纯粹的视觉过程。回想一下你面对一碗刚出锅的红烧肉时的体验你不仅看到了它油亮的酱色和肥瘦相间的纹理视觉你可能还仿佛闻到了浓郁的酱香嗅觉甚至能“脑补”出它入口即化、咸甜交织的口感味觉与触觉。这种由视觉触发进而唤醒其他感官体验的联觉现象是我们理解、记忆和渴望食物的核心。而现有的主流食品数据集如Food-101、UEC-FOOD100/256甚至更大规模的Recipe1M几乎都只停留在“这是什么菜”的视觉分类层面。它们标注了菜名有些还提供了边界框或食材分割图但数据集本身是“沉默”和“无味”的——它无法回答“这道菜尝起来是甜的还是辣的”、“口感是酥脆的还是软糯的”、“闻起来香吗”这些更贴近人类真实感知的问题。这就是我们启动“FoodSense”数据集构建项目的初衷。我们想挑战一个更复杂、但也更有趣的问题能否构建一个数据集让机器不仅学会识别食物还能初步“理解”食物的多感官属性换句话说我们希望通过视觉图像关联并预测食物可能带来的味觉、嗅觉、口感等多维度感官体验。这不仅仅是增加几个标签那么简单它涉及到对食品科学、认知心理学和机器学习交叉领域的深入探索。其潜在的应用场景非常广阔可以为智能营养推荐系统提供更细腻的用户偏好画像比如推荐“酸甜口、口感爽脆”的零食可以赋能食品电商让用户通过图片更直观地感受食品风味甚至可以为机器人厨师或食品研发中的风味模拟提供数据基础。2. 核心挑战定义与量化“不可见”的感官属性构建FoodSense数据集的第一步也是最核心的一步就是如何将人类主观、模糊的多感官体验转化为机器可学习、可量化的客观标注。这远比画一个边界框或标一个类别名要困难得多。2.1 感官维度的选择与定义我们参考了食品感官评价的经典方法并结合大数据标注的可操作性最终确定了以下几个核心标注维度基础味觉甜、咸、酸、苦、鲜。这是相对最客观的维度有明确的化学物质对应如糖、盐、酸、生物碱、谷氨酸钠。我们采用强度等级评分例如从0无到5极强。一个关键点对于复合型食物如糖醋排骨需要标注多种味觉及其强度。口感/质地脆、软、硬、糯、滑、弹、酥、绵、干、润等。这个维度非常依赖于咀嚼的物理过程。我们将其拆分为入口初始质地如脆和咀嚼过程质地如弹。同样采用强度等级评分。风味/香气这是一个更综合、更主观的维度包含了嗅觉和部分味觉的融合。我们采用开放式关键词标注与预设风味标签库相结合的方式。标注者首先从我们构建的一个包含数百个常见食品风味词如果香、奶香、焦香、辛辣、清香、醇厚等的库中选择也可以自行添加关键词。整体感官愉悦度一个从1到9分的整体喜好度评分反映标注者个人对该食物综合感官体验的接受程度。这个数据对于推荐系统至关重要。辣度作为一个具有强烈刺激性的特殊维度我们将其单独列出使用通用的斯高维尔辣度单位SHU区间进行标注如微辣500-1000 SHU中辣1500-5000 SHU等或直接使用“不辣”、“微辣”、“中辣”、“重辣”的等级。注意我们刻意没有引入“嗅觉”的独立标注因为通过静态图像直接标注气味极其困难且不准确。我们通过“风味/香气”这个融合维度来间接捕捉这更符合人类看到食物图片时产生“闻香”联觉的认知习惯。2.2 标注者筛选与一致性校准感官评价的主观性是最大的噪声来源。为了解决这个问题我们设计了一套严格的标注者管理流程筛选我们招募的标注者必须是通过了基础味觉敏感度测试如品尝不同浓度的糖/盐/酸溶液并能正确排序的成年人且自我报告无嗅觉、味觉障碍并非极端饮食偏好者如完全不能吃辣。培训所有标注者必须完成一个标准的感官评价培训模块。培训中使用“黄金标准”样本如已知甜度的糖水、已知脆度的薯片让标注者练习评分使其评分尺度尽可能统一。锚定样本在整个标注系统中我们嵌入了约5%的“锚定样本”。这些是经过核心团队预先品尝并达成一致评分标准的食物图片如柠檬图片对应“酸度5甜度1”。在标注过程中这些样本会随机出现用于持续监测和校准标注者的评分稳定性。如果某个标注者对锚定样本的评分持续偏离共识其此前的部分标注可能需要重新评估或作废。3. 数据采集与视觉基础构建一个高质量的多感官数据集必须建立在高质量的视觉数据基础上。我们不能在模糊、失真或背景杂乱的食物图片上去谈论细腻的口感。3.1 图像来源与质量控制我们采用了混合数据源策略以确保数据的多样性和真实性专业拍摄占比40%我们与食品摄影师合作在可控的光照条件采用D65标准光源箱和纯色背景下对数百种常见食材、菜肴、零食进行多角度标准化拍摄。这构成了数据集的“干净”核心确保了视觉信息的最高质量。精选公开数据集占比30%我们从现有的高质量食品数据集如Food-101, UEC-FOOD中筛选出图像清晰、主体突出、未被过度处理的图片。这些数据带来了菜品种类的长尾分布。众包真实场景图片占比30%通过众包平台征集用户在日常用餐环境中拍摄的食物照片。这部分数据最关键它包含了复杂的背景、多样的摆盘、不同的光照条件餐厅暖光、自然光等是模型最终落地到真实场景必须克服的“噪声”。我们对众包图片进行了严格筛选剔除过于模糊、主体不完整或经过重度滤镜美化的图片。所有图像均统一处理为分辨率不低于512x512的格式并存储了原始的EXIF信息如有可能以备后续光照分析之用。3.2 基础视觉标注为多感官提供“锚点”在邀请标注者进行多感官评分之前我们必须先为每张图像建立准确的视觉理解基础。这包括细粒度类别标签不仅仅是“披萨”而是“玛格丽特披萨”或“夏威夷风情披萨”。我们建立了一个三级分类体系如主食-面食-意大利面水果-浆果-草莓。实例分割掩码使用类似COCO数据集的格式对食物主体进行精确的像素级分割。这对于后续关联食物的质地例如只对“炸鸡”的酥脆外皮部分标注“脆”而不是对整块鸡肉至关重要。食材成分标注在分割的基础上对复合菜品中的主要可见食材进行标注。例如在一张“宫保鸡丁”的图片中标注出鸡肉、花生、葱段、干辣椒等。这为理解风味来源辣味来自辣椒坚果香来自花生提供了视觉依据。视觉属性标签这是一组描述食物视觉状态的标签如“油亮”、“多汁”、“焦黄”、“绵密”、“有颗粒感”等。这些属性是连接视觉与口感/质地预测的重要桥梁。这部分标注我们大量借助了半自动化工具体以提高效率。例如使用预训练的实例分割模型如Mask R-CNN生成初始掩码再由人工进行精细修正使用视觉语言大模型如CLIP为图像生成候选的视觉属性词供标注者勾选确认。4. 多感官标注平台与流程设计有了高质量的图像和基础视觉标注核心战役——多感官标注——才真正开始。我们自主开发了一个专用的Web标注平台其设计核心是降低认知负荷提高标注一致性和趣味性。4.1 平台交互设计要点分步引导避免信息过载标注界面不是将所有评分项一次性铺开。而是采用向导模式第一步整体感受。首先快速给出“整体愉悦度”评分和“辣度”判断。第二步味觉与口感。展示一个模拟的“味觉雷达图”标注者通过拖动滑块来调整甜、咸、酸、苦、鲜的强度。下方是口感选择区采用图标文字的形式让标注者选择最突出的1-3种质地。第三步风味描述。系统根据图像类别和已标注的食材推荐高频风味词。标注者可以点击选择也可以在输入框内自由输入。平台会实时联想和提示标准化库中的近义词。视觉辅助与记忆唤醒在标注界面侧边栏始终显示该食物的高清大图、食材成分列表和视觉属性标签。同时平台会提供一些“参考锚点图片”。例如当标注“脆度”时旁边会显示标准“薯片脆度5”和“面包脆度1”的图片帮助标注者校准尺度。防疲劳与质量控制每完成20-30个标注平台会强制插入一个锚定样本或休息提示。标注者的每次评分、耗时、与锚定样本的偏差都会被记录形成个人的可靠性指数。4.2 标注流程与冗余设计每张图像至少由5名通过筛选和培训的标注者独立完成。平台会智能分配任务确保同一张图片的标注者在地域、年龄、性别上有一定分布以覆盖口味的多样性。对于数值型评分味觉强度、愉悦度我们取中位数作为最终值以抵御极端评分的影响。对于风味关键词我们采用词频统计选取至少被2名标注者提及的词作为有效风味标签并记录提及次数作为“置信度”。5. 数据集结构与统计分析经过数月的努力FoodSense V1.0版本包含了约5万张图像每张图像都关联了一个丰富的多模态标注文件JSON格式。一个典型的标注条目如下{ image_id: food_0045321.jpg, fine_grained_category: [甜点, 蛋糕, 芝士蛋糕], segmentation: { mask_path: masks/0045321.png, ingredients: [ {name: 饼干底, mask_id: 1}, {name: 芝士层, mask_id: 2}, {name: 草莓, mask_id: 3} ] }, visual_attributes: [绵密, 湿润, 有光泽], multi_sensory_annotations: { taste: { sweet: 4.2, salty: 0.5, sour: 1.8, bitter: 0.3, umami: 1.2 }, texture: { primary: [绵软, 细腻], secondary: [湿润] }, flavor_keywords: [奶香, 芝士, 微酸, 清甜], spiciness: none, overall_hedonic: 7.5 }, annotator_metadata: { count: 5, agreement_score: 0.78 } }我们对数据集进行了初步统计分析发现了一些有趣的模式视觉-味觉相关性颜色饱和度、光泽度与“甜”、“油润”的感知有显著正相关焦褐色区域与“苦”、“焦香”相关。食材-风味图谱通过共现分析我们能够自动构建出“番茄-酸-鲜”、“奶油-甜-奶香-绵密”、“花椒-麻”等强关联对这与我们的常识相符验证了数据的合理性。标注一致性数值型评分如甜、咸的标注者间一致性较高ICC 0.7而风味关键词的一致性相对较低这反映了风味描述的主观性和多样性本身也是一种有价值的数据。6. 基线模型实验与初步洞察为了验证FoodSense数据集的价值我们设计了几组基线实验探索从视觉到多感官属性的预测能力。6.1 任务定义与模型架构我们将问题定义为多任务学习任务1回归预测5种基础味觉的强度值0-5。任务2多标签分类预测主要口感标签如脆、软。任务3多标签分类预测风味关键词。任务4回归预测整体愉悦度1-9。我们以在ImageNet上预训练的ResNet-50或EfficientNet作为视觉编码器Backbone。在编码器提取的全局特征基础上我们设计了几个不同的预测头Head方案A共享底层所有任务共享同一个Backbone在最后一层特征后接四个独立的全连接层分支。方案B任务特定特征Backbone的中间层特征被分别提取用于不同任务。例如浅层纹理特征可能对口感和味觉预测更重要而深层语义特征对风味关键词预测更重要。方案C引入先验我们尝试将基础视觉标注如食材列表、视觉属性作为额外的输入与图像特征拼接后再送入预测头。这相当于给了模型一些“提示”。6.2 实验结果与发现在保留的测试集上我们得到了一些启发性的结果可预测性差异味觉强度尤其是甜、咸和整体愉悦度的预测相对最容易回归任务的RMSE能达到可接受的水平~0.8 on 5-point scale。这说明视觉线索颜色、形态、酱汁状态与这些感官体验存在较强的跨模态关联。口感的预测次之模型对“脆”、“软”这类对比强烈的质地判断较好但对“糯”、“弹”等细腻差别的判断力较弱。风味关键词的预测最具挑战性精确率Precision尚可但召回率Recall很低模型只能捕捉到最突出、最普遍的风味如“奶香”、“果香”。视觉特征的重要性消融实验表明如果仅使用图像特征方案A模型性能一般。当引入食材成分作为先验知识方案C时所有任务的性能均有显著提升尤其是风味预测。这证实了我们的假设知道“是什么”食材是推断“怎么样”风味的关键桥梁。“愉悦度”预测的复杂性预测整体愉悦度的模型其表现与味觉预测模型高度相关但又不完全一致。我们发现模型学会了“甜味适中、咸味适中、色泽诱人”的食物通常愉悦度更高但对于某些特定组合如高酸度高甜度代表“糖醋味”可能很受欢迎或文化特定偏好如某些地区对“辣”的喜爱模型仍难以把握。这揭示了愉悦度是更高层次的、受个人和文化影响的综合评判。6.3 遇到的挑战与思考标注噪声的鲁棒性感官标注的固有噪声要求模型必须具有更强的鲁棒性。我们尝试了使用标注者一致性分数作为训练样本的权重或在损失函数中引入对噪声不敏感的损失如Huber损失取得了一定效果。长尾分布问题和所有真实世界数据集一样某些风味或食材组合的样本很少。我们采用了标签平滑、对稀有类别过采样等策略但根本解决还需要更大规模的数据收集。跨文化差异我们第一版数据主要来自单一文化圈。一个明显的例子是对于“豆腐脑”的甜咸之争我们的数据无法覆盖。这是未来版本必须扩展的方向需要建立文化敏感的标注指南。7. 潜在应用、局限与未来展望FoodSense数据集的构建只是打开了“视觉-多感官”计算这个新领域的一扇门。它的直接应用包括智能食品推荐与搜索用户可以用“寻找酸甜开胃、口感爽脆的零食”这样的自然语言查询系统结合视觉和多感官模型从图片库中精准匹配。食品工业与研发辅助新产品开发通过分析竞品图片的感官预测结果定位风味和口感的空白市场。饮食健康管理更细致地理解用户的感官偏好从而提供不仅营养均衡也更“好吃”、更可能被长期坚持的个性化食谱。当然V1.0版本有明确的局限它基于静态图片无法捕捉温度、声音如薯片的咔嚓声这些重要的感官维度它反映的是“预期感知”而非真实的品尝体验文化多样性不足。在后续的工作中我们计划从几个方向深化动态多模态扩展引入短视频数据关联食物被切割、搅拌时的动态视觉和声音线索以更好地预测口感。个性化建模收集标注者的长期偏好数据尝试建立个性化的感官预测模型理解“甲之蜜糖乙之砒霜”。与生成式AI结合探索利用多感官描述作为条件生成符合特定风味和口感描述的逼真食物图像这将是食品营销和设计的强大工具。构建FoodSense的过程是一次将人类微妙的主观体验“翻译”成机器可读数据的艰难尝试。每一个评分滑块背后都是我们对食物认知的一次量化。它不完美但迈出了从“识别是什么”到“理解怎么样”的关键一步。对于任何想探索视觉与感官计算交叉点的同行来说希望这个数据集和其中踩过的坑能成为一个有用的起点。毕竟让机器更好地理解我们的“口腹之欲”或许也能让我们反过来更科学地理解自己为何会对某种味道念念不忘。