海天瑞声张哲：布局大模型数据业务，建设标准化数据集产品-汇君网

①海天瑞声将建设标准化的数据集产品，满足市场主流需求，解决我国大模型目前面临的数据痛点；

②海天瑞声将建设数据生产垂直大模型，构建大模型数据处理技术通用化解决方案能力，形成长期技术实力支撑。

《科创板日报》7月21日讯（记者张洋洋）2023科创板开市四周年论坛今日在上海举行。本届论坛由上海报业集团指导，《科创板日报》联合财联社主办，以“硬核驱动数字创新”为主题。

在圆桌对话环节，海天瑞声证券部总经理张哲对公司的大模型数据业务布局进行了分享。

海天瑞声张哲：布局大模型数据业务，建设标准化数据集产品

在大模型范式下，数据的被依赖性被进一步抬升，其之于模型的意义就相当于书籍与教材之于学生学习的意义。

海天瑞声主营业务是为人工智能全领域的模型训练提供数据支撑。张哲称，过往6个多月的时间，大模型新一波的浪潮把AI应用端的天花板一下子打开，给了大家很大的想象空间。

“基于这半年跟国内头部已经宣布要做大模型厂商的深度交流，我们逐渐把一件事情想明白了，既然大模型所带来的范式级别的变革是不可逆的，如果海天瑞声能把握住这个机会窗口的话，下一个5年-10年竞争当中，就将能继续保持过往10年的市场地位。”张哲说到。

也因此，在6月21日，海天瑞声发布了7.9亿元的定增方案。“我们下定决心围绕两个方向发展大模型相关业务”，谈及该定增计划时，张哲如是说到。

具体而言，一个是坚持现有的商业模式的一大特色，做标准化的数据集产品，一次性投入建设，满足市场上大模型训练、调优、评测需求，这不仅会为海天瑞声带来规模化收益，也将经济化的解决我国大模型目前面临的数据痛点。

张哲表示，在大模型领域专有数据集方向，海天瑞声将建设不少于10个品类，涵盖通用及垂直领域的大语言模型训练数据集，覆盖中文、多语言大模型预训练语料数据集（含通用场景、特定场景、对话场景、指令集等）；此外，还将面向多模态领域建设多语言图文大模型训练、多模态数字人训练、全场景自动驾驶大模型训练等场景的跨模态数据集，这是打开更大市场空间的切入点；还有就是评测领域，主要是面向在评测大模型能力、各项指标时提供数据集支撑。

另外一个方向则是，海天瑞声也要建设自己的大模型。张哲称，海天瑞声将基于在深度学习阶段数据集生产所积累的know-how，自主研发数据生产垂直大模型，构建大模型数据处理技术通用化解决方案能力，实现完整、可持续迭代的大模型数据技术框架和数据策略，进一步提高公司在人工智能基础数据服务领域的智能化水平，巩固公司的核心技术壁垒，形成长期技术实力支撑。

本文内容由互联网用户自发贡献，该文观点仅代表作者本人。如发现本站有涉嫌抄袭侵权/违法违规的内容，请发送邮件至 3587015498@qq.com 举报，一经查实，本站将立刻删除。本文链接：https://www.xmnhj.com/h/192748.html