北京海天瑞声科技股份有限公司
- 企业全称: 北京海天瑞声科技股份有限公司
- 企业简称: 海天瑞声
- 企业英文名: Beijing Haitian Ruisheng Science Technology Ltd.
- 实际控制人: 贺琳
- 上市代码: 688787.SH
- 注册资本: 6032.518 万元
- 上市日期: 2021-08-13
- 大股东: 贺琳
- 持股比例: 20.12%
- 董秘: 张哲
- 董秘电话: 010-62660772
- 所属行业: 软件和信息技术服务业
- 会计师事务所: 容诚会计师事务所(特殊普通合伙)
- 注册会计师: 陈君、贾美慧
- 律师事务所: 北京市天元律师事务所
- 注册地址: 北京市海淀区知春路68号院1号楼4层401
- 概念板块: 互联网服务 北京板块 专精特新 百元股 融资融券 预亏预减 预盈预增 智谱AI AI语料 数据要素 算力概念 ChatGPT概念 机器视觉 AIGC概念 抖音概念(字节概念) 百度概念 小米概念 车联网(车路云) 无人驾驶 人工智能
企业介绍
- 注册地: 北京
- 成立日期: 2005-05-11
- 组织形式: 中小微民企
- 统一社会信用代码: 91110108776388751R
- 法定代表人: 贺琳
- 董事长: 贺琳
- 电话: 010-62660053,010-62660772
- 传真: 010-62660053
- 企业官网: www.haitianruisheng.com
- 企业邮箱: ir@haitianruisheng.com
- 办公地址: 北京市海淀区知春路68号院1号楼4层401
- 邮编: 100098
- 主营业务: AI训练数据的研发设计、生产及销售业务
- 经营范围: 技术开发、技术服务、技术咨询、技术转让、技术推广;销售计算机、软件;货物进出口、技术进出口;出租办公用房;经营电信业务、增值电信业务、互联网信息与服务业务。
- 企业简介: 北京海天瑞声科技股份有限公司(股票代码:688787)成立于2005年,是我国最早从事AI训练数据解决方案提供商之一。海天瑞声作为AI数据行业首家主板上市公司,致力于为AI企业、研发机构提供AI数据集及服务。海天瑞声向全行业提供多语言、跨领域、跨模态的人工智能数据及相关数据服务,涵盖智能语音(语音识别、语音合成等)、计算机视觉、自然语言等多个核心领域,覆盖全球近200个主要语种及方言。深耕行业近20年,与阿里巴巴、腾讯、百度、科大讯飞、海康威视、字节跳动、微软、亚马逊、三星、中国科学院、清华大学等全球810家科技互联网、社交、IoT、智能驾驶等领域的主流企业,以及教育科研机构等建立了深度合作关系,以专业、可靠、安全的数据服务,成功交付数千个定制项目,深得客户信赖。依托覆盖70多个国家、近200种语言及方言的优质资源,技术完善的算法研发团队,经验丰富的项目团队,全方位助力AI前沿项目的全球商业落地。
- 商业规划: 2024年,受益于多模态大模型的快速发展以及“AI+”在应用端的进一步落地,全球训练数据需求快速增长。一方面,大模型语音交互需求持续攀升,公司凭借多年在语音数据方面的积累,获得以智能终端厂商、科技互联网公司等为代表的国内外科技巨头多类语音数据订单,带动大模型相关业务收入快速增加,并成为公司收入增长的核心引擎。另一方面,为更好拥抱新一轮全球化市场机遇,公司持续加大海外市场拓展力度,丰富品牌营销策略、推动销售提速,并通过建设海外交付能力完善海外供应链体系,启动海外全链条服务能力的延展,进一步带动境外业务收入显著复苏。此外,公司不断拓展智能驾驶服务能力边界,抢抓车企出海机遇,积极探索布局境外数据采集业务;同时继续保持有竞争力的研发投入,持续优化迭代智能驾驶数据处理相关算法研发和平台建设,以及智能化标注能力数据服务能力逐步延伸至4D数据标注、大点云分割等更复杂场景,以更好适应以BEV技术为主、稳步向OCC技术方向探索的高阶智能驾驶技术需求。受上述各项积极因素带动,公司整体营业收入实现同比增长。此外,由于标准化数据集产品收入占比大幅提升,同时公司整体数据交付能力在管理能力优化、平台技术提升、供应链进一步整合和扩展等因素的共同推动下,使训练数据定制服务的毛利率也同比显著增长,共同驱动公司整体毛利率增加至66.46%。此外,应收账款减值减少导致信用减值损失同比下降。以上因素共同驱动公司全年净利润大幅增长,实现扭亏为盈。报告期内,公司实现营业收入2.37亿元,较上年同期增长39.45%;归属于母公司所有者的净利润1,133.61万元,较上年同期增加4,172.13万元;归属于母公司所有者的扣除非经常性损益的净利润为497.35万元,较上年同期增加4,844.42万元;经营性现金流净额2,873.34万元,较上年同期增加5,977.96万元。截至报告期末,公司总资产为8.08亿元,归属于母公司的所有者权益为7.43亿元,分别较期初减少1.95%和4.99%。2024年公司具体经营情况如下:(一)核心业务板块经营情况1.训练数据全球化业务2024年,受益于大模型技术的快速发展以及应用领域不断拓展,以智能终端厂商为代表的科技巨头纷纷加大多模态数据投入,全球数据服务市场持续增长。在此背景下,公司凭借多年在语言研究方面的技术积累、以及全球领先的标准化数据集产品储备,进一步赢得了境外客户信赖。与此同时,《促进和规范数据跨境流动规定》等法规出台,为数据出境提供了更为高效简明的路径。得益于行业发展以及政策环境的改善,截至报告期末,公司境外业务收入较上年同期显著增长89.53%至1.14亿元。此外,为更好把握行业机遇、进一步扩大全球客户辐射范围,公司从体系搭建、市场研究、品牌升级、营销推广等多维度提升业务、客户触达及服务能力。报告期内,公司持续加强境外销售团队建设,进一步织密客户服务网络;同时,通过参与包括WebSummitQatar、ICASSP、AIEXPOTOKYO、AutosenseandInCabin、CVPR、ACL、Interspeech、SLT及NeurlPS等全球知名行业及AI学术顶会,以及布局搜索广告投放、社交媒体矩阵等多类宣传渠道等方式,向全球市场展示公司先进技术实力及创新产品,提升行业影响力和美誉度。2024年公司获得由AcquisitionInternationalMagazine颁发的"BestAI-PoweredDataSolutionsCompany"奖项和Datarade颁发的"TopAITrainingDataProvider"奖项。截至报告期末,公司境外客户数量已超过260家。报告期内,公司通过在新加坡投资设立控股公司的方式拓展海外首个自主可控的数据交付基地,在订单、产能两端同步实现增量覆盖,不仅有助于培育新的营收增长点,更为下一步提升海外定制化业务能力奠定基础。2.大模型数据服务业务伴随大模型技术的不断突破,人工智能行业被按下发展“快进键”,数据作为大模型的“燃料”,已成为模型公司打造差异化优势的战略性资源,高质量数据需求快速增加。报告期内,公司不断拓展自身大模型数据服务能力,从预训练、后训练、到指令微调、对齐、评测等全链条环节为客户提供立体支撑;同时,也逐渐从通用的基座模型的数据服务,拓展至艺术、工业、教育、医疗等多类垂直领域;服务的客户范围也已覆盖至主要大模型厂商和研究机构。报告期内,公司持续加大大模型数据方向的研发投入,增厚大模型领域的数据储备,新增开发了多类多语种、多音色、多情感、多场景的ASR和TTS语音数据集;以及服务视觉理解以及视觉生成的视觉数据集;同时,前瞻性建设了用于提升大模型推理能力的CoT数据集,通过详细的推理步骤注释,让大模型学习从问题到答案的逻辑推导过程,有效填补传统数据集缺乏推理结构的空白。与此同时,为更好理解大模型技术方向,报告期内,公司通过前瞻性研究,探索大模型数据的规模化生产方式,全面助力公司大模型业务的扩张。公司已和清华大学联合启动多语种语音大模型研发计划,该项目将基于最新的E-Branchformer、CTC-Attention技术,自研东方40语种、以及中国22方言数据清洗技术,训练了0.1B-1.7B等4个不同规模的语音大模型,模型效果达到了业界同等尺寸的领先水平。公司的算法团队联合清华大学语音与音频技术实验室充分利用公司海量高质量语音数据集储备,充分发挥各自所长,促进大模型技术在数据生产领域的更深层次的应用。3.智能驾驶行业数据服务业务2024年,为更好抢抓智能驾驶行业机遇,同时应对更为复杂的数据处理需求,公司加大了对高级别数据标注工具的研发力度,截至报告期末,DOTS-AD平台新增3D动静分离标注工具,BEV多图层4D车道线标注工具,并升级点云分割工具支持连续帧叠加标注和大点云分段加载、点云区域分割等核心能力,有效支撑了自动驾驶BEV和OCC主流算法演进对数据标注工具的需求。此外,公司不断优化算法中台中枢能力,开发了2D&3D融合的动静分离检测追踪算法,在点云连续帧融合产线实现提效30%以上;迭代优化点云分割算法和地面检测算法,在点云分割产线实现提效20%以上;研发3D点云预刷式跟踪技术、4D点云重建技术,均取得了20%以上的提效成果。此外,为进一步支撑我国车企的国际化战略,公司在全球范围内扩展了道路采集业务,可提供包括采集方案设计、采集人员组织、车队管理、车辆改装及数据清洗与脱敏等在内的全链条服务。截至报告期末,公司采集业务已覆盖包括德国、西班牙、捷克等多个国家,为公司构建智能驾驶全球化数据服务能力奠定了基础。同时,舱内支撑DMS和OMS研发需求的采集业务也已拓展至俄罗斯、奥地利等多个欧洲国家,为众多客户出海业务提供有力数据支持。(二)核心技术能力建设情况2024年,按照技术+产品双轮驱动的定位,公司继续保持有竞争力的研发投入强度,不断提升技术和平台工具先进性、在大模型数据处理技术方向进行积极探索储备、巩固标准化数据集产品储备、增厚语音语言学基础研究领先性,持续巩固公司核心竞争力。报告期内,公司研发费用共计6,343.91万元,占当期营业收入的26.76%。截至报告期末,公司研发人员数量79人。1.算法及平台能力建设、大模型数据处理技术持续探索储备报告期内,公司持续加大基础研发投入,进一步提升人工智能基础算法、一体化数据处理平台、前沿技术研发等领域能力;在智能驾驶数据处理综合性平台上继续提升自动化能力,并落地更多面向智能驾驶数据预处理的相关算法;同时,在面向大模型预训练、后训练、微调、对齐及评测技术上持续保持技术探索、储备,推动相关领域的数据服务,并形成了一些代表性成果:1.1算法智能语音领域,完成Whisper推理框架升级、显存占用降低59%、推理延迟降低59%,新增ASR模型11个、语音识别算法支持语种数增至130+个,大幅提升了算法在实际项目中的降本增效能力。在计算机视觉领域,引入Detzero-track、CenterPoint、Lane-Marking-Detection、FaceFusion、roop、Ultralytics、BoT-SORT等有代表性的计算机视觉框架或算法,上线3D点云目标检测多模型融合算法、4D大点云车道线检测算法、GDINO-零样本目标检测等算法,优化2D细分类视频跟踪算法、2D异形红绿灯跟踪算法、4D车道线长度动态自适应调整算法等多个智能驾驶场景下的模型,并新增超过27种不同场景的视觉类算法预处理技术。在大模型算法领域,针对公司自有知识产权的语音数据集,设计通用的数据清洗、模型训练、模型评测框架,已完成数据清洗pipeline搭建,并初步清洗出通用格式的语音数据数十万小时,同时完成语音大模型训练所需要的算力集群搭建、算法框架研发、模型训练pipeline搭建、并完成东方语种语音大模型的训练、微调、评测等。针对视觉大模型应用领域,构建起基于特征向量的去重技术、美学评分模型、图文生成模型等多个基础能力,并在项目中投入应用,取得了良好的降本效果。1.2平台公司在训练数据生产与管理的一体化平台建设方向精耕细作,展现了一系列创新成果,具体可归结为以下核心维度:(1)重点推进以数据为核心的一体化平台体系建设,通过集中研发DataX数据中台,优化整合原有数据存储、数据可视化和数据流转等功能,全面提升一体化数据处理平台的处理过程柔性管理能力,数据处理管道新增可视化编排工具,集成20+新型算子,实现了十余类核心预处理算法模型自动化对接、数据切片、数据加工处理管道的快速搭建与灵活编排,以及数据处理算子集成与统一管理,共计近60个功能点。(2)实现贯穿数据采标、模型训练、模型效果展示全生命周期管理:重点优化多源多模态非结构化与结构化数据的标准化与一致性管理,以及点云与图像类算法模型对比与模型评测支撑能力。深度集成预处理算法库,算法评测体系扩展至15+量化指标,支持多模型对比测试与算法结果可视化展示,扩展模型版本效果量化对比展示及分析能力等超60个功能点,大幅提升公司对训练数据的一站式全生命周期管理能力,形成从数据管理到模型迭代的完整算法增强闭环。(3)积极投入人工智能数据运营平台的全链路智能化体系革新,重点建设数据共建共享机制、全面升级多模态AI标注算法矩阵、有效优化分级流通合规保障体系等核心功能,创新研发自动化标注工具集群,搭建覆盖开源开放、成员共建、可信空间的三级数据生态,形成覆盖文本、语音、图像、视频的智能化处理矩阵。同时,逐步建设形成从资质认证、脱敏加密到合规审计的全流程安全管控体系,强化跨平台数据流动追溯与多角色协同能力,构筑起集数据汇聚、生产、治理、流通、应用于一体的智能化基础设施平台,推动数据要素市场基础设施向智能化、合规化、生态化方向加速演进。通过上述投入,截至报告期末,公司共获得专利授权41项,获得登记的软件著作权180项。同时,公司实质性地提升了自身的数据全生命周期管理与运营能力、算法能力、工程化数据研发及生产能力,形成了更为合理、高效的人机协同智能化解决方案,持续降低训练数据开发成本,以AI赋能训练数据开发,以训练数据驱动AI产业发展。2.标准化数据集产品标准化数据集产品,是公司区别于众多竞争对手以定制化服务为主的特有商业模式,也是公司核心竞争力之一,标准化产品是公司基于未来行业需求的研判,在市场需求出现之前,预先开发的数据集,具有即用即取的特点,可帮助客户大幅缩短模型研发周期并有效降低数据投入成本。同时,由于产品本身的知识产权由公司享有,具有一次性研发生产、可重复多次销售的特点,因此可更好帮助公司实现未来可持续性销售、以及毛利空间提升。因此,为更好适应行业发展需求,公司2024年在产品研发方面持续投入,用于开发覆盖智能语音、计算机视觉以及自然语言等传统深度学习以及大模型领域的相关数据集产品。截止报告期末,公司新增研发超150个训练数据集产品,自有知识产权的训练数据产品储备超过1,700个,尤其在多语种及多音色语音数据集和发音词典、动作捕捉等多模态数据集、以及多语种OCR和手写体数据集等方面积累了更丰富的标准化产品资源,并建成包括“大语言模型中文对话预训练数据集”、“语音大模型(声音复刻、歌曲)预训练及微调数据集”、“视觉大模型(图像-文本)预训练及微调数据集”等在内的多领域大模型数据集。截止报告期末,公司标准化数据集产品储备情况如下:截止报告期末,公司已向下游客户提供了累计超过9,500次/个定制或标准化训练数据集,并已应用于个人助手、语音输入、内容生成、智能家居、机器人、语音导航、智能客服、智能播报、语音翻译、移动社交、虚拟人、智能驾驶、智慧医疗、智慧教育、智慧交通、智慧城市、智慧金融、机器翻译、智能问答、信息提取、情感分析、OCR识别等22类创新应用领域,赋能人工智能技术与实体经济的深度融合。3.语音语言学能力随着全球化扩张成为头部AI企业收入增长的重要引擎,多语种数据的作用和价值更加凸显。为更好满足客户多语种拓展需求,公司持续保持语音语言学研究力度,在语音语言学基础研究方面,公司不断丰富合作语言学家团队资源,成员遍布世界各地的学校及研究机构,在语音语言学领域具备丰富经验和技术储备。截止报告期末,公司已经拥有超过205个语种/方言的覆盖能力,不仅包括含英、法、德、意、西、日、韩等常见语种,还包括东南亚、一带一路等国家地区的罕见小语种,尤其在亚洲小语种、中东欧小语种的服务上具备竞争优势。同时,公司建立了成熟的发音词典构建流程,公司已积累下近140个多语种的发音词典,覆盖波斯尼亚语、塞尔维亚语、巽他语、尼泊尔语、奥利亚语、基隆迪语、茨瓦纳语、达利语等小语种,累计词条数超过1,200万条,可支撑构建高质量的智能语音、以及多模态训练数据,是公司的主要竞争壁垒及核心技术之一。(三)其他综合能力建设情况1.数据安全及合规2024年,中央和地方出台了一系列有关数据要素、数字经济的法律法规和政策,同时,《促进和规范数据跨境流动规定》等法规出台,都对企业的数据安全水准和能力提出了更高要求,也为企业在数据要素、人工智能等领域的发展提供了新的机遇。公司一直以来非常重视数据安全管理以及相关能力的提升,并将其作为把握新发展机遇所必须练好的“基本功”。2024年,公司在数据安全方面取得了多项工作成果。公司“AIGC训练数据业务的综合合规管理机制”案例荣获中国互联网协会首届“金灵光杯”中国互联网创新大赛企业合规赛道优秀奖。公司积极参与行业发展,提出立法建议、参与行业调研,数据安全能力获得广泛认可。公司也一直坚持统筹安全与发展并重的原则,在守住安全合规底线的前提下积极拓展包括数据跨境流通在内的数据要素业务。2.供应链体系2024年,在AI大模型技术快速迭代的驱动下,公司战略布局医疗、金融、法律、艺术等垂直领域,深度整合产学研资源,通过与各行业的专业机构及专家的合作成功构建了覆盖诊断、智能投顾、合规风控、数字版权等细分场景的供应链资源池,不仅提升了供应链体系的响应敏捷度与行业适配性,更通过知识图谱与区块链技术的融合应用,实现了跨领域资源的智能匹配与全流程可信溯源,显著增强了供应链生态的多样性与专业壁垒。在战略供应商生态构建方面,公司深度践行“共生共赢”理念,与战略供应商建立了长期稳定的合作关系,加强了与供应商的风险共担机制,共同应对市场波动和不确定性。公司也进一步优化了供应链网络,特别是在海外一手资源群体的扩展方面取得了重要进展。通过建设大型数据基地及精细化管理资源池,供应链的多样性和稳定性得到了显著提升,为实现可持续性产能扩张和成本优化奠定了坚实基础。在供应链管理体系建设方面,通过建立更细致的成本核算模型和流程监控节点,实现了对供应链各环节成本和效率的精准把控。同时,全面升级线上管理系统,实现了订单处理、资源配置和结算审批的一体化和实时化。3.人力资源报告期内,公司完成销售、生产、研发体系的绩效管理机制优化,并对内部反馈机制及奖金核算机制进行迭代,以期增强绩效牵引力实现更加公平和富于激励性的管理效果。上半年公司组织多种类专项培训及人才发展项目,在大模型领域的探索与应用进行广泛深入的内部交流,组织销售、生产、职能等多体系的软技能培训,对应届高潜毕业生、新锐力量、中坚力量、中高层管理人员采取不同的梯队建设规划,以保障人才队伍的不断夯实。文化建设方面,强化高度敬业和持续创新文化,进行榜样之星等多样化的文化倡导和活动辐射,打造更加尊重信赖和追求卓越的组织基因。同时在人才引进方面,启动海外人才招募、研发专项人才和高潜毕业生吸引计划,引入多名欧美同业专家、优质研发人员、及卓越背景应届毕业生,充实销售、研发及项目交付队伍的人才密度,发展健康、可持续、多元化的人才队伍。
财务指标
财务指标/时间 |
总资产(亿元) |
净资产(亿元) |
少数股东权益(万元) |
营业收入(亿元) |
净利润(万元) |
资本公积(万元) |
未分配利润(亿元) |
每股净资产(元) |
基本每股收益(元) |
稀释每股收益(元) |
每股经营现金流(元) |
加权净资产收益率(%) |
企业发展进程