11月19日至22日,2024年全国互联网大会乌镇峰会在浙江嘉兴桐乡举办。11月 19 日下昼,行业大模子、具身智能、算力、芯片、数据合成等10 项首发效果在乌镇峰会登台路演, 其中 AI 数据合成与坐褥平台AIGD(AI Generated Data)因聚焦“数据合成”获平淡怜惜。“昔时的AI哄骗需要大量稀缺且难以取得的长余数据,如自动驾驶中的顶点天气与顶点路况数据,具身智能进修所需要的复杂场景数据。在此配景下,数据合成成为要害。”蚂蚁数科AI科技本领认真东谈主、蚂蚁天玑推行室主任李哲现场说谈。
在业内东谈主士看来,AI 发展正濒临着高质地数据缺少的问题。连年来,伴跟着大模子本领的快速发展,机器学习也正从“以模子为中心”转向“以数据为中心”,高质地数据不错更好地模拟客不雅全国,升迁模子的准确性和褂讪性,然而“到 2026 年,现有的用于 AI 模子进修的高质地言语数据将消费”,据Epoch AI Research探讨团队瞻望。Gartner 暗意,到 2030 年,合成数据将成为 AI 模子的主要进修数据开首;2024 年, 60% 的 AI 数据将是合成数据,被用于模拟、瞻望场景和裁汰风险。
据南边+记者了解到,AIGD平台是由蚂蚁数科申报的首发效果,平台可通过大界限合成互联网所不阴私的高质地、高价值垂直语料数据,匡助科技厂商进行 AI 模子进修。记者了解到,AIGD具备 PB 级数据坐褥才智,支握数据从生成到进修全过程自动化处分,自动化率达到 80%,这极大提高了数据处分的服从和质地。此外,平台自研15 余种数据合成器具,现在不错合成图片、视频、3D模子、多模态图文视频对话、多轮对话、语音讯号、心率脑电信号、结构化交游数据等多模态数据,以欢乐多种哄骗场景下的 AI 模子进修需求。
业内东谈主士宽阔合计,“高质地数据”是 AI 大模子长远到产业的遑急基础,莫得好的数据作念撑握,一切 AI 哄骗王人是空中楼阁。近日,OpenAI职工爆料说,“新模子‘莫得那么大飞跃’”,主要原因之一即是高质地数据不及所导致的。本年 9 月份, OpenAI 发布推理模子o1,带来了强化学习进修新范式,通过自博弈强化学习,将合成数据的阵势进修给大模子,从而大幅增多大模子逻辑推理才智。
据先容,“数据合成”是蚂蚁数科 AIGD 平台的主邀功能之一,此外还包括数据标注、质检等才智。在数据标注方面,通过东谈主机协同进行标注,东谈主工智能算法不祥自动识别和预处分大部分基础信息,预标注模子依赖东谈主工标注量裁汰了 70%以上。在数据质检方面,平台会字据元信息支握不同粒度的数据质地统计,最猛进程意会数据,保证合成及标注后的数据妥当预期质地条件。
南边+记者了解到,蚂蚁数科本年不息迭代发布了多款 AI 居品,包括大模子安全评测与刺目居品“蚁天鉴”、反深伪造居品 ZOLOZ Deeper 等。看成一家面向 ToB 作事的科技公司,蚂蚁数科旗下主要包含“企业用云作事”“企业区块链作事”“企业AI作事”三大中枢业务,李哲在乌镇峰会上暗意,“咱们行将迎来 AI 作事产业的黄金年代,蚂蚁数科将会执意在 AI ToB 领域插足,让 AI 长远千行百业。”
南边+记者 叶丹kaiyun欧洲杯app(官方)官方网站·IOS/安卓通用版/手机APP下载