澎湃Logo
下载客户端

登录

  • +1

大厂流水线上的数据标注员

2024-03-28 11:57
来源:澎湃新闻·澎湃号·湃客
字号

采写 | 陈晶晶 陈一诺 郭眉含 林昱彤

指导老师 | 李东晓

编辑 | 郭昊懿 

数据标注在大众初印象中,是枯燥乏味的赛博流水线工作。当数据标注进入大厂,情况会有所改变吗?大厂的糖衣吸引了高学历的求职者,但几番周转之后,有人觉得被大厂 title“欺骗”,有人却后悔“冲动”辞职。当众多名校生成为大模型背后的标注员,是技术变革下的更高要求,还是市场内卷下的学历浪费?大厂的标准化流程制度是否又把标注员带入了新的“流水线”?对于在大厂做数据标注,不同站位的他们给出了不同的答案。

“之后我又找了很多段实习,过程都很美好,只有数据标注这段实习,我提一次骂一次。”对于研一时期的大厂数据标注实习,陈乐感到非常失望。

早晨九点,陈乐照常来到工位。她的工位是大厅里临时摆放的一张会议桌,桌上只有一台电脑和一个可以随身携带的保温杯。在这个“无聊死板又没有人情味”的岗位上,陈乐快坚持不下去了,她准备挨过三个月就去提离职。

“陈乐,mentor(工作导师)叫你过去。” 陈乐深吸了一口气,快步走近 mentor 的工位。

“干不好就走人!别在这儿占实习生名额,浪费我们预算。”还没等陈乐反应过来,mentor 就指着她一顿臭骂。虽然已经计划离职,但陈乐万万没想到,她会因为完成新任务的正确率 不高就被当众责骂,甚至被辞退。

离职还算顺利,“考核表到 xx 工位找 xxx 签字,实习证明找 xxx 拿”,写着离职流程的牌子贴在楼道的墙上。陈乐说,她正式办完离职手续的那一刻,感觉如释重负。

数据标注领域的多面人生

北京时间 11 月 7 日凌晨 2 点,推出 ChatGPT 的美国人工智能公司 OpenAI 举行了首届开 发者大会。会上,OpenAI 的首席执行官萨姆•阿尔特曼称,在今年 3 月发布的 GPT-4“至今 仍是世界上能力最强的 AI 大模型”。

引发全球大模型热潮的巨头产品不停迭代,供养大模型的数据标注行业方兴未艾。根据数智前线的报道,大厂正加速进入数据标注市场,数据标注被纳入了大厂的服务范围,比如京东的数据标注平台“京东众智”和网易旗下的人工智能机构“网易伏羲”。在网易官网的数据标注相关岗位中,除了数据标注实习生,还有数据标注产品销售和产品运营等。

陈乐回想起自己在网易的数据标注实习经历,一连串的比喻从她的口中飞出,“我就像一个数据女工,没有什么有价值的产出;像一个机器一样,不需要脑子,没成就感”。尽管陈乐为了获得这次网易的实习 offer 经历了多轮面试,但在工作了三个月后,她毅然辞去了这份大厂实习。

数据标注主要是对未经处理过的语音、图片、文本、视频等数据进行加工处理,从而转变成机器可识别信息的过程。简单的数据标注有语义分割、拉框标注等,比如,标注员给每张图片的椅子打框,为的是让跑数据的机器在不断的学习训练中认识“椅子”。

打框标注的页面(图源网络)

陈乐面试的数据标注岗招聘要求不高,不在乎专业技能,只说要认真和吃苦耐劳。在面试前,陈乐对数据标注工作并没有多详细的了解,她坦言,“只是看中了大厂的名头,要是个小公司,在简历上反而是个减分项”。

枯燥单一的工作内容和超高强度的工作任务,逐渐盖过了大厂的光环。陈乐所在的数据标注岗每周都要考核投入产出比,未达标就会被警告,三次未达到平均值就让职员自己离职。 即便工作达标,“mentor 也常常会质疑你的工作不饱和”。陈乐觉得在这份工作中“学不到任何东西”,只是照着操作手册直接开始干活,“有错误(mentor)就直接骂你”。

相比之下,严东慧对数据标注工作并不反感。

在本科英语专业毕业后,她进入了北京一家公司工作,当时应聘的岗位是“英语数据编 辑”。正式工作后,严东慧才发现干的是数据标注。

她最近在做的项目是地图数据相关的标注。这个项目有时候会涉及到一些专业的英语和地理词汇,需要有一定的地理常识和英语语言基础。除了这些,在技术操作上公司还有专门的数据处理平台,工作前也会提供较为详细的培训。

严东慧并不觉得工作枯燥,“因为每天处理的数据是不同的”,并且她觉得这份工作“对工作人员细心程度的要求还挺高”。

“千万别轻易辞职,数据标注技术含量低,也不用跟人打交道,社恐友好”,沈多觉得当初离职还是太冲动了。

在飞猪,沈多负责听入驻的酒店商家和消费者的通话录音,总结大意,并对对话中出现 的特定语句进行标注。公司并没有告诉沈多这样做的原因,她猜测是为了监控商家和消费者。 部分商家会通过私下和消费者沟通,让他们跳过平台,加商家微信拿到更便宜的价格。“这一类是工作重点监控的,就是防止消费者和商家不通过平台交易。还有一类重点就是违法犯罪的。”

今年三月,沈多辞去了在飞猪的数据标注工作。她回忆起当时辞职的原因,“流水线的工作,每天都一样,让人感觉很倦怠,工作压力也比较大,就辞职了”。

之后的半年里,沈多兜兜转转找了很多工作,但因为自身学历限制,再也没能找到比数据标注更满意的工作。“有高薪的都是互联网运营相关的工作,我学历只有大专也比不上; 我这种只能找到做客服的,工资没之前高,工作时间长,还没社保”,沈多后悔地说。

学历带来了人,也带走了人

不同于沈多的懊悔,陈乐作为北外英语专业的硕士,在数据标注岗位上感到了工作难度与个人能力的严重不匹配,她认为:“(数据标注)以后招大专就好了,名校硕士以上干这个太浪费。”

在实习中,陈乐遇到了许多高学历的小语种专业学生。她透露,“我周围实习的就有很多北京名校的学生,以及国外名校留学的学生,做这份工作真是极大的浪费,所以他们的离职率也很高,撑到三个月拿实习证明就不会干了”。

莉莉在网易从事数据标注技术与管理工作已经三年。她所在的团队之前招募了三名计算机专业的数据标注实习生,“两名女生是浙大的,另一名男生毕业于东北一所普通本科院校; 他们的工作,主要是在人像上进行特征点的标注,这是个重复且细致的过程。”一个月后, 两位女生因为工作内容与预期不符选择离开,但男生坚持了下来。

莉莉回忆,主管当时最初想招的是可以兼顾其他开发业务的实习生,因此在招聘要求上标明“计算机背景优先”。她猜测,“招聘需求有写优先的话,有背景的人来投的会多一些”。 但实际上,实习生主要做的还是数据标注工作。

“我可能还觉得不是计算机背景的人会稍微好一些”,莉莉坦言,“数据标注有比较大的需求,但是工作本身没有技术含量,有计算机背景的来了以后很容易离开。”

严东慧公司的职员流动性也比较大。“小语种专业的离职多”,他们处理相对应的语种的基本语句数据。“离职的主要原因可能还是薪资方面吧”,严东慧透露,“公司小语种专业的学历都不错,按标注量来算的薪资还是满足不了(他们),标注部分的钱平均一天只有 200 元,不标注休息的话就没有这部分钱。”

作为美团智慧交通平台地图服务部的数据产品经理,小白直接参与了地图数据和算法训练策略的制定。他透露了团队的招聘要求,出于对团队稳定性的考虑,“学历上的要求不会很死,大专以上都可以”,“其实一般标注工作不需要多少知识,只要会用电脑会动鼠标就能做”。 即便如此,他们团队依然面临着留不住人的难题,“一个季度下来可能一个标注组的流动率会至少有一半,然后一年(下来)可能整个组的老员工都不在了”。为了留住员工,他们制定了激励政策,“承诺(员工)干够三年可以获得一笔奖金,或者入职的时候签合同, 干够一年,给一半,干够三年,再给剩下的一半”。

正在工作的数据标注员(图源网络)

大厂“流水线”

李偶作为曾负责印度某 app 信息流推荐项目的产品经理,对接过一个数据标注的外包团队。由于时间紧迫、预算有限,团队招到的数据标注员学历多为大专以下。回忆过去,她抱怨起管理和培训时的不易,“要教他们先学会使用公司内部软件和在线编辑的文档”。

尽管公司固定工作流程为李偶增加了管理的负担,但她依然觉得一套标准化的流程是必要的,“是必须要有要求的,只要这个公司想继续开下去”。

流程的标准化,是大厂有别于小公司的重要特征。作为标注策略的制定者,小白肯定了流程规范的积极作用,“做大厂的数据标注,好的地方在于本身比较成熟和规范的企业能提供非常有力的 SOP(标准作业程序),能非常明确地告诉你:我们应该做怎么样的一个事情, 这个事情分为几步,每一步的流程是怎么样的,这一步你的规范达到什么样了”。

但对于担任标注员的陈乐来说,大厂的这些标准化流程是“没有人情味”的。陈乐抱着学习的心态入职,却发现不仅“工作没人教,发个操作手册就直接开始派活”,而且“一有错误或者进度比别的实习生慢就会被骂”。她不禁感慨:“在这里学不到任何东西,也不会得到指点。”

在陈乐看来,大厂的标准化流程是矛盾的。规范的流程可以提高工作效率,但为了保证规范性和准确度,标注完成后,“组内实习生互相审核,再交给高级一点的实习生审核,然后交给 leader 审核”,这样的“层层加码很浪费时间”。

更让陈乐不解的,是对工时的苛刻要求,“连一个小时都要走请假流程”,“入职考试比别的实习生晚两三个小时就要被骂”,“大厂太死板了”。站在项目管理者的角度,小白认为大厂的严格要求是无奈之举,“标注员一天的工时是一个什么样的工作量,这些是在前期根据任务紧急程度都已经细化好排期的,延迟的成本很高”。

正在打框的数据标注员(图源网络)

AI 与数据标注的并行之路 

在 2022 年版的《中国职业大典》中,“数据标注员”首次出现,它被归为“人工智能 训练师”类目下,编号“4-04-05-05”,主要工作任务包括标注和加工图片、文字、语音等业务的原始数据等等。

人工智能行业持续成长,拉动数据标注需求快速增长。根据Cognilytica 数据统计,2021 年 全球 AI 训练数据市场需求约为 42 亿美元,并预计到 2027 年这一需求将增长到 220 亿美元, 2021-2027 年复合增长率达 32%。而观研天下《中国数据标注行业发展趋势与投资前景研究 报告(2022-2029 年)》的数据显示,2021 年我国数据标注行业市场规模达到 43.3 亿元, 同比增长约 19.2%,预计到 2029 年市场规模将达到 204.3 亿元,CAGR(产值年均复合增长 率)约为 21.4%。数据规模以及质量需求升高将拉动数据标注行业的快速成长。

(数据来源:中国数据标注行业发展趋势调研与投资前景研究报告(2022-2029 年)

简单的数据标注工作正在被愈发完善的大模型取代,但小白认为短期内,人依然在数据标注工作中发挥重要作用。另外他提到,互联网公司对数据的质量和专业性要求逐渐提高, 比如在他的前公司,招聘地图数据标注员时,会要求有测绘相关的专业背景或从业经验。

李偶提到,有足够数据积累的人工智能不仅可以进行简单的数据标注工作,还能辅助人工,进行双重验证。她强调在其中人工的重要性:现在的人工智能远没有达到理想的精度, 许多杂糅的语料对于人工智能来说难以界定。不断迭代的模型在不断带来新的问题,依然需要人工处理后的语料的滋养。

当下的数据标注可分为三类,计算机视觉类、自然语言处理类和语音工程类。李偶提及 一个辅助医疗的计算机视觉项目,为了提升 AI 识别病理图片的能力,项目需要大量的数据积累。但它的数据标注要求高,需要相关方向的医生参与。计算机视觉数据经计算机处理后成为像素,“人看不懂,模型出错后调整难度大”,因此比起自然语言,训练计算机视觉数据的大模型更难。

李偶强调,这类医疗辅助目的的数据标注项目,在数据获取阶段就有棘手的问题需要解决:比起容易爬取的社交媒体信息,病理照片涉及患者隐私,需要经过严密的审批程序。另外,由于医疗项目需要确认责任归属的问题,即使能够积累足够的数据,初步的大模型走向应用也困难重重。

大模型的发展离不开由数据标注滋养的语料库的完善,但即使是风靡全球、较为完善的 ChatGPT 在语料库上依然存在不足。在中文语料库上的数据短缺,让它有时难以有效处理中文问题。比如,可以对莎士比亚十四行诗对答如流的 ChatGPT3.5,却在收录于人教版小学课本的白居易名词《忆江南》上出错。

与 ChatGPT 关于中文诗句的中文对话

与 ChatGPT 关于英文诗句的英文对话

(文中陈乐、严东慧、沈多、莉莉、小白、李偶均为化名,图源网络)

    本文为澎湃号作者或机构在澎湃新闻上传并发布,仅代表该作者或机构观点,不代表澎湃新闻的观点或立场,澎湃新闻仅提供信息发布平台。申请澎湃号请用电脑访问http://renzheng.thepaper.cn。

    +1
    收藏
    我要举报

            扫码下载澎湃新闻客户端

            沪ICP备14003370号

            沪公网安备31010602000299号

            互联网新闻信息服务许可证:31120170006

            增值电信业务经营许可证:沪B2-2017116

            © 2014-2024 上海东方报业有限公司

            反馈