人工智能行业里的推动者:数据标注员
时间:2020-02-21 17:14:09来源:青鸾传媒
在如今高速发展的人工智能行业里,有一群奠定了算法学习的基础的人,他们的职业是数据标注员。
据业内人士评估,全职的数据标注员如今已达到 10 万人,兼职人群的规模更是达到 100 万。他们将庞大的数据分类、画框,教会算法识别。经过他们标注的数据从原始数据变为标签化数据,从而推动算法模型的深度学习。
24 岁的刘雪(化名)从未见过自动驾驶汽车,但她的工作却和自动驾驶的AI算法息息相关。
坐落于距北京市中心约两个小时车程的房山,有一家数据标注基地,刘雪就在这里办公。她每日的工作是在电脑前进行图片、文本或者声音的标注。比如通过数据标注工具,放大图片,将一辆巴士用矩形框圈出,并给这个框打上“巴士”的标签,然后继续在图像上标记其他车辆、行人及自行车。
Testin云测旗下的云测数据,通过自建数据标注基地和数据采集场景实验室为人工智能提供数据采集和标注服务。云测数据拥有行业内最大规模的专业数据服务全职人员,刘雪就是他们其中之一。这些数据标注员为自动驾驶、智慧城市、智能家居、金融AI等行业进行相关的数据采集标注,最终转化为产业智能化的数据动力。
鲜有人知的是,人工智能是需要被人为教导训练而成。人工智能所需要的教导,背后是由大量的训练数据训练而成。AI依据大量有效数据总结规律,并最终形成自己的工作模式。机器并不能理解原始数据,这些原始数据需要人为的“标签化”,赋予希望被机器所识别的内容才可以被用于训练。
Testin云测总裁徐琨接受CGTN采访时表示:“我们可以将标注好的数据比喻成学生所学习的课本,若课本内容不好,则学出的成果也达不到好的效果”,同时补充道“低精确度的算法可能有安全隐患,例如可能更容易用伪造身份骗过人脸识别应用”。
鉴于人工智能在各个行业的广泛应用,对数据标注的质量要求也在不断提高