澎湃Logo
下载客户端

登录

  • +1

【创业故事】陈运文:通达乐观,坚定国产垂直大模型创新

2023-10-08 18:16
来源:澎湃新闻·澎湃号·政务
字号

引言

他们是理想主义者,是坚韧的行动派,是新时代新青年。

掌舵创业这条路,信念是他们的指南针,家国是他们的精神灯塔,实干是他们共同的行动和语言。守正创新而不是踯躅不前,坚守初心而不是随波逐流,坚韧而行奋斗不止,他们是汇聚在上海市工商联青创联的优秀青年企业家们。

我们开设“建功新时代,奋斗正青春——听理事讲创业故事”专栏,见微知著,听创业故事,赏创业风采,赞创业青年!

陈运文:通达乐观,

坚定国产垂直大模型创新

进窄门——

创办智能文本处理企业

提到“文本智能处理”,表面理解起来倒不难,但背后的处理却有很高技术门槛——它是计算机科学、AI、语言学的交叉领域,本质在于找出自然语言的规律。在国内,百度、搜狗、阿里、腾讯等互联网巨头应用较早,最近大热的“大语言模型”正是基于该技术,人们在对话框敲出文字,文本智能处理在后台搞懂文字的意思,再从海量数据中把相关内容找出来。

在创业之前,陈运文就从事类似的技术研发工作,接触的是大量C端用户。而创业之后,意外发现:文本智能处理技术在To B领域的价值更高,且这在国内处于真空地带。

2015年底,陈运文和十余位百度、盛大、腾讯等公司精英,放弃高薪,白手起家!

陈运文这样诠释创业动机:“想想职场前半生倏忽已过,后半生绝不能犹豫了,一个人,应该做点对得起人生而不后悔的事。”他们在张江租赁了一个只有20多平方米的小小办公室,开启了他们的创业之路。

在业内,图像识别、语音信息识别、文字资料识别,被认为是拉动人工智能发展的三驾马车。比尔·盖茨曾经说过,文字资料处理是人工智能皇冠上的明珠。因为文字资料是人类智慧的高度浓缩,在今天的人工智能产业里,文本识别是最难的一个领域。文本挖掘工作经历了第一代符号主义、第二代语法规则、第三代统计学习,目前处于第四代深度学习阶段,将实现用一个复杂的模型模拟人脑神经网络运作,从而能够像人类一样地进行说文解字、阅读理解。

创业之初,面对缺资金、缺办公楼、缺客户、缺项目、缺人才、缺技术等问题,陈运文和他的团队食宿不安。陈运文这样说:“有一段时间,我觉得公司平衡增长速度,跟不上客户需求,担心公司产品不能让客户眼前一亮。那段时间刚好有个戈壁徒步活动,我想借助这次艰苦行旅既锻炼意志,又可以独步思考问题,就毫不犹豫地参加了。” 陈运文这次沙漠行旅,是在敦煌附近的沙海,每天酷日高温下行走三四十公里,只带少量水,身背沉重行囊,要连续不断走三天,步行一百多公里。燥热的八月,烈日之下,口角干裂,脚生水泡,漫漫长途,只有目标,没有援助。这次沙漠行旅,他仿佛用汗水完成一次生命和事业朝圣的洗礼,由此,陈运文无畏艰辛,勇往绿洲,创业的信心更坚定了。陈运文非常珍惜这次沙漠孤旅,一直以此激励自己。

走远路——

国内首批研发垂直GPT“曹植”大模型

在智能文本处理领域,达观数据在陈运文的带领下从未停止过前进的脚步,一直致力于引领国内智能文本处理技术的发展新高潮。2016年,首家开发IDP智能文档处理平台,原创了文档版面自动分析技术;2017年首创表智能识别功能,全面解析跨页、倾斜、无框等复杂表;2018年首创无锚点OCR解析和文字提取算法,攻克无固定格式的票据识别;2019年率先宣布兼容华为鸿蒙和欧拉系统,并兼容国内信创平台;2021年首家将知识图谱技术用于制造业FMEA故障定位和推导应用。自2022年底宣布研发大语言模型以来,达观数据一直积极探索大语言模型的专业化、特长化和产品化,通过多年的高质量数据积累,不断精进算法创新,结合多年的文本处理工程实践经验,研发出具有长文本、多语言、垂直化三大特点的专用国产“曹植”大语言模型。

今年的第六届世界人工智能大会上,陈运文携手“曹植”大模型在“AI生成与垂直大语言模型的无限魅力”主题论坛上进行首次公开对外亮相,并以《“曹植”大语言模型的创新与应用》为主题展开分享。在演讲中,陈运文介绍到,“达观数据本次大模型的研发采用了多模型并联(Ensemble)的创新方法,通过整合经典的知识图谱、搜索引擎等工具和大语言模型,实现了模型性能的优化和提升。已经能与多个行业专业领域的产品相结合,能够处理各种报告,处理专业领域的应用场景。”

8月底,为促使“曹植”大模型在各垂直领域中可以更低成本高效能地落地与应用,达观数据正式推出私有化大模型一体机,可在企业内部一键部署大模型应用,能同时为多种垂直大模型业务提供文档智能审阅、智能知识管理、知识搜索与问答、文档智能写作、智能推荐等智能化服务,帮助企业实现智能管控、降本增效。

此外,达观数据也联合复旦大学、北京大学、上海同济大学、上海交通大学、上海外国语大学等数十所高校共同探索前沿科技,实现产学研的闭环。

最后,陈运文也提到:“在当下,国内在大模型的研发和应用上还有很长一段路要走。当然达观数据也还有更长的路需要去探索。未来,我们也将在自研的的先进人工智能技术和丰富的应用经验之上,不断去创新和研发,为各行业提供更好、更快、更安全的智能化解决方案,为客户提供更好的服务和支持,让大模型赋能百业,促进科技进步和社会发展。”

见微光——

获得市场多方面认可

如今,达观数据已经收获满满一整面墙的奖项荣誉,有国家级专精特新“小巨人”企业、中国人工智能领域最高奖“吴文俊人工智能奖”以及国内外13家机构颁发的奖项——2021福布斯中国企业科技50强、毕马威2021Fintech50领先金融科技企业、德勤2021中国高科技高成长50强暨明日之星、IDC China Fintech50/2021值得关注的新兴金融科技公司、艾瑞Fintech卓越者50强等。

陈运文个人也收获了诸多荣誉,如在2020年获得了共青团中央颁发的“全国向上向善好青年”创新创业好青年奖后,2021年又获共青团中央、人力资源和社会保障部共同发起的“中国青年创业奖”,同年,他还获得上海市“五一劳动奖章”。

这几年,达观中标的企业越来越多,项目也越来越大,在银行、证券、保险、政府、制造、地产、能源、通讯多行业里遍地生根发芽开花结果。达观的高速大发展引来多家创投公司的看好。2015年,陈运文仅用30分钟现场答辩,一锤定音,当场获得创投基金青睐,首次即获1000万元人民币投资。随后,2017年获5000万元;2018年获1.6亿元;2020年获2.7亿元;在2022年更是刷新了中国自然语言处理与知识图谱领域的融资记录,完成C轮5.8亿元的融资,荣获中信、招商、广发和中信建投等多家投资机构的青睐。

陈运文表示:“未来,我们要做的最重要的事情是把我们的技术能够更多地推而广之,让更多的行业能够知道这样的技术,应用上这样的技术。国家这么大,这么多的地区,这么多的机构,其实都有潜在的需求。我们接下来就是要让更多的企业使用达观的产品和服务,帮助企业实现数字化转型、企业智能管控、降本增效。”

供稿:市工商联宣教部

原标题:《【创业故事】陈运文:通达乐观,坚定国产垂直大模型创新》

阅读原文

    本文为澎湃号作者或机构在澎湃新闻上传并发布,仅代表该作者或机构观点,不代表澎湃新闻的观点或立场,澎湃新闻仅提供信息发布平台。申请澎湃号请用电脑访问http://renzheng.thepaper.cn。

    +1
    收藏
    我要举报

            扫码下载澎湃新闻客户端

            沪ICP备14003370号

            沪公网安备31010602000299号

            互联网新闻信息服务许可证:31120170006

            增值电信业务经营许可证:沪B2-2017116

            © 2014-2024 上海东方报业有限公司

            反馈