JavaScript开发人员必备的5项高薪技能
|
当下的AI数据呈现三个特征,一是由于AI产品落地场景的复杂性导致数据场景需求的多元化,如光线强度、拍摄角度、噪声要求、室内室外等;二是同类数据表现出样本多样性,仅就声音的数据,可能就包括年龄、性别、口音等差别;三是针对同一应用目标的数据多维化,例如智能驾驶就可能同时需要摄像头、激光雷达、超声波雷达等不同传感器产生的数据。 很显然,在这种背景下,AI发展初期那种直接应用或者购买成品“数据集”的做法行不通了,它们可以帮助算法快速成型,但却难以支撑更多样化的AI落地需求。 于是,“数据工艺”般的精细化作业对数据标注的需求自然而然就超出了单纯数据标注的业务范畴,必然要整合上游数据采集这个关键环节。可以看到,以云测数据为代表的企业都在大力提升场景化数据采集的能力。帮助客户还原落地场景所需要的AI数据,从源头保证AI数据的质量,才能更好的应用于AI产业化的深度落地。 或许正因为这样的原因,可以看到,云测数据在发布了最高项目交付99.99%精准度的同时,为了贴合实际场景、帮助更多行业实现“AI产品更快更好的落地”, 云测数据结合自身的服务能力积累和行业专业性,还推出了智慧城市、智能家居、智能驾驶、智慧金融四个场景下的“AI训练数据服务解决方案”。 在这些整合了数据采集与标注的场景AI数据解决方案中,可以发现更明显的“数据工艺”痕迹。 例如,在户外场景中,摄像头囊括了大量的行人、机动车、自行车等道路场景数据,但智慧城市的AI应用可能需要识别人流检测、突发事件等长尾场景数据。 在云测数据的智慧城市解决方案中,就通过行业首创的数据场景实验室来还原搭建真实场景,用于采集长尾场景数据,例如多种不同光线下的人员检测、危险动作检测等。 类似的还有智能驾驶场景。智能驾驶的车外环境感知需要大量真实场景数据用于算法训练,为了确保行驶安全,需要覆盖非常多的长尾场景数据,例如举伞的行人、突然出现的宠物等,疫情发生后,带口罩的行人也是另一种车外环境感知所需要的“场景AI数据”。 从细节上满足更复杂深度的AI数据需求,提供独特的、无法替代的AI数据获取能力,将帮助数据标注持续获得更高的产业地位。 人力建设:应对高精细化的“数据工艺”,出现专业的“人工智能训练师” “流水线”的生产基础加上更高的生产工艺之后,“精益制造”考验的还有产业工人是否能将工艺实现的能力,在产业升级的浪潮下,产业工人的素质成为“精益制造”的关键因素之一。 映射到数据标注,为了应对高精细化的“数据工艺”,专业的“人工智能训练师”开始出现,这表现在三个方面。 一是体系化的人才培训,整体技能专业性、领域知识专业性、人员素养等都在提升。 以云测数据为例,云测数据不仅提供岗前培训,还带有员工技能培训、职能培训、行业领域知识、责任培训、标注内容的培训,以及一对一的持续交流来提升员工的能力;与此同时,配备在线化、体系化的打分系统来评估员工的能力。 过去,数据标注那种随便在街上、学校里拉一些人,只要认得图片、懂基本的语法拼写就开始干活的做法,已经不再具备任何竞争力了。 二是匹配不同需求的“人才梯队”开始出现。 这一点,如同“精益制造”里更复杂产品配以技艺手段更高的工人一样,在数据标注领域,出现了一些数据需求上的分化,倒逼企业培养某种意义上的“人才梯队”。 典型的如医疗、法律、金融、家居等高度专业化的领域中,不论是CV还是NLP,人工智能训练师需要非常专业,才能进行正确的数据标注与解读,这甚至不是光有培训就能解决的。云测数据在NLP领域就吸纳了一些金融及家居行业的专才来提升对应领域的数据标注能力,这也意味着数据标注产业开始对人才来源口径有了一些要求,不再是泛化的人群。 三是大量的操作细节和专业性不断叠加。 产业工人变成“老师傅”,一方面来源于苛刻的工作要求,另一方面来自不断的专业经验积累。在数据标注这里也是如此。 粗放式管理下,传统数据标注行业有一种“混乱”的旗气质,草台班子稀里糊涂完成了大量的数据标注工作。但现在,高精准度的大旗下,数据服务团队的专业化能力被严格要求,在云测数据,智能客服单个场景的意图标注就分为10-20个大类、上百个子类(表达同一个意图,算法面临的用户可能有不同的表达方式,故越细分越好),根据业务需求可能还会有进一步的标注细分。 这倒逼数据标注员提升对话意图的判断能力,需要对句子进行泛化、以不同的描述方式重组或扩充句式、标签(比如,用户只是单纯口误了,或者夹杂了方言,数据都需要标注清晰,供AI算法去学习)。
在整体素质不断提升的基础上,人工智能训练师呈现出更多样化的梯度,更多优质的标注人才将脱颖而出。 (编辑:揭阳站长网) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |

