【快播报】达观数据陈运文：攻克关键核心技术，咬着牙也得上

2023-05-19 07:17:13 | 来源:文汇 |

口述者：陈运文（达观数据董事长）

整理：本报记者占悦

(资料图片)

当 ChatGPT 风靡全球时，对于我们专注于文档智能化处理与大数据挖掘的一家科技公司而言，一场漫长而艰苦的 " 拉锯战 " 开始了：我们要做自主研发版的大语言模型。

早在 6 年前 OpenAI 就发布了第一代 GPT 技术，那时除了学术圈，社会大众少有关注。直至去年 11 月底 ChatGPT 正式发布，才像一块石头砸入水中，激起浪花无数。短短数年时间，技术迭代以光速般跨越，撬动整个社会与行业的变革。

尽管我们作出了自主研发的决定，首先要做足的是心理建设——从哪里入手才能尽快追赶同行脚步？开弓没有回头箭，咬着牙也得上。

这一路都是 " 黑夜独行 "。海外同行没有公布 GPT 训练过程的工程细节和参数方法这类核心要素，大模型优异的效果隐藏在诸多技术细节里，为了给团队更多知识补给，我们向复旦大学计算机科学技术学院的教授们请教，翻阅了许多业界顶尖论文和技术报告。每周技术团队都在反复讨论技术方案，开展各种交流研讨，逐字逐句探究 " 核心指南 "。

同时，硬件试验设备也得跟上。由于大语言模型需要消耗大量的算力与海量的数据，我们采购了一批高性能的科学运算 GPU（图形处理器）。这确实是相当大的技术投入，但为了加速国产模型的研发还是非常值得的。

除了作为人工智能基础设施的算力平台，大模型的训练还需要巨大规模的训练数据。数据好比智能时代的 " 石油 "。我们投入了非常大精力来积累和提炼文本数据，源源不断地投入模型的训练——这些数据规模比一所大学图书馆所有藏书量都要大得多。

我们的研发团队每天都在绞尽脑汁攻克技术难关。训练过程中，有监督的精调技术十分关键，提示词的设计也有技巧。我们尝试了上百次各种有监督精调技术的试验，与各类数据蒸馏加工的技巧，逐步摸索出了一个有效的大语言模型蒸馏和精调方法。测试效果很好，我们越来越有信心。截至目前，公司申请有国家发明专利 200 余项，授权国家发明专利 42 项，拥有 8 项国际发明专利（PCT），授权软著 200 余项。

年初至今，我们一直在思考垂直场景下大模型的落地产品。不同于 ChatGPT 的通用模型，我们选择面向垂直行业的企业客户来开发文档资料处理系统，实现模型的本地化部署，让模型具备更高的可靠性、安全性与准确性，由此更符合市场需求。

就连产品取名也费了些脑筋，大家在 90 多个候选名字中最终挑选了 " 曹植 " 这个独特的名字，因为曹植有 " 七步成诗 " 的美名，希望我们的系统也能流畅地创作写作，源源不断生成内容。

我们的目标是：今年 6 月底发布正式版本。现在团队每天都很紧张，日拱一卒，还有无数技术 " 鸿沟 " 等着我们翻越——只有对质量细节 " 吹毛求疵 " 才能让产品更精致。

创新创业生涯中这次的挑战很苦很累，但我相信这会带来中国文档智能处理方面的重要突破。我们公司的每一个会议室都是以计算机算法来命名的，等到 " 曹植 " 这一产品亮相后，将会用新的核心算法名称挂在会议室门口，以记住这段与时间赛跑的日子。

>>>记者手记：最艰难的挑战永远是下一个

务实求真、通达乐观，这是达观数据的企业信条，也是陈运文创业以来的经验总结。

企业健康发展，就得扎扎实实写好每一行代码、交付好每一个项目，创业长路漫漫，对未来时刻保有信心，才能守得云开见月明。

创业刚起步时，他也曾碰过不少钉子，主动向各行业请教经验，学习新趋势、研究新方法；面对 " 无人区 "，他将其视作机遇，一头扎进文档智能处理研发；如今，飞速迭代的人工智能更燃起他的 " 征服欲 "，要跑得比技术更快一些。

最难的挑战永远都在下一个。如果说创业初期是基于自信，如今陈运文凭借的是实打实的乐观与扎实的技术，更不惧怕失败。创新创业的他，有着青年人最闪耀的样子：立桅扬帆，乘风破浪。

作者：占悦

编辑：范菁

* 文汇独家稿件，转载请注明出处。