围绕人工智能规模化应用样本需求,国家电网有限公司大数据中心初步建成具备样本清洗、分类、标注、质检等能力的人工智能样本库——
近期,国家电网有限公司大数据中心设计中心(人工智能样本中心)技术攻关团队队员正依托公司级人工智能样本库,针对公司总部及各省级电力公司人工智能模型训练需求,开展样本归集、治理、共享全流程研发,为各专业人工智能模型研发及上线提供样本支撑。
公司于2023年启动人工智能规模化应用专项工作。样本是人工智能应用的基础资源,样本规模和质量是影响人工智能模型应用效果的关键因素。高质量样本有助于提升人工智能模型精度和普适度,缩短模型训练周期。
围绕人工智能模型验证、训练和规模化应用样本需求,国网大数据中心构建了覆盖公司各专业领域的样本资源体系,以专项归集、定向归集等方式开展全量样本归集等工作。
作业现场典型违章行为识别场景是人工智能技术在安监专业的重要应用场景。“我们此前在应用识别场景时发现,现有模型识别准确率较低,容易出现误告警、漏告警等问题。技术人员分析认为,主要是高质量样本不足、样本标注缺乏统一规范导致训练的模型精度不高,影响了应用成效。”福建福州供电公司作业安全督查员李冰鑫说。
人工智能样本中心技术攻关团队进一步优化样本标注方式,支撑模型训练调优。针对高质量样本数量不足的问题,该团队与各省级电力公司建立协同机制,加强与公司设备、营销、安监、物资等专业部门对接,开展样本资源盘点、归集,使原始图像、文本的归集及标注数量显著提升。最终,该团队应用场景重现、增广技术等手段解决了高质量样本获取难的问题。
样本有了,但由于质量参差不齐,仍然无法完全满足模型训练需求。“对于归集上来的样本,我们刚开始缺乏统一的质量评价标准,且在自动化、智能化开展样本治理方面缺乏有效手段。”人工智能样本中心技术攻关团队队员葛鑫亮说。
为了解决这一问题,人工智能样本中心技术攻关团队联合公司各单位业务、技术专家开展样本治理技术标准与治理规范提升行动,制订了2套质量评价标准、1套治理规范,建成了具备重复、模糊、损坏等图像质量问题自动处理能力的图像样本自动化清洗治理流水线,并开发了41个文本样本清洗算子,提高样本治理能力。
清洗治理后的样本还需要通过精确标注才能提供给模型进行训练。“样本清洗、标注工作涉及人工筛选、备份、交接,每个环节都需要手工记录和统计,要耗费大量人力且容易出现统计误差。”人工智能样本中心技术攻关团队队员冉仲阳介绍。
人工智能样本中心面向27家省级电力公司开展用户需求调研,基于人工智能样本库自主开发了全新的样本任务管理工具。该工具具备样本任务线上下发、样本流转状态动态监控等功能,实现了任务分配、质量检查、任务审核、流程管理全部环节线上化、自动化,大幅提升样本标注等工作的效率。
目前,公司规模最大的人工智能样本库已初步建成,具备样本清洗、分类、标注、质检等能力,可以面向公司各单位提供高质量样本共享服务。
原标题:高质量样本库助推人工智能规模化应用