发现者网
产业经济 科技业界 3C数码 文化传媒 移动智能 家电行业 AI大模型 汽车出行 热点资讯

合合信息:以文档解析技术赋能大模型,破解语料难题

2024-09-22来源:发现者网编辑:汪淼

在大模型迅速发展的背景下,模型训练语料的质量和数量成为关键因素。然而,当前面临着高质量语料短缺的问题,大量有价值的语料沉睡在各种文档中,难以被有效利用。合合信息的文档解析技术为解决这一难题提供了新的途径。

据人工智能研究人员小组Epoch研究估计,机器学习数据集可能会在2026年前耗尽所有“高质量语言数据”。以中文语料为例,其在全球通用的大模型数据训练集中占比仅为1.3%,数量和质量都存在不足。同时,文档的复杂版面结构也制约了大模型的训练语料处理能力。

为了应对这一挑战,合合信息在WAIC 2024和CCIG 2024上分别展示了其用于大模型语料训练的“加速器”产品——TextIn智能文档处理平台。该平台由TextIn文档解析、TextIn Embedding(文本向量数据模型)以及OpenKIE三大工具组成。

TextIn文档解析在处理复杂语料方面表现出色。以银行基金对账单托管业务为例,面对众多基金公司不同的账单样式和复杂表格,TextIn文档解析能够快速、准确地从非结构化图文信息中抽取数据,并智能还原文档的阅读顺序。它还能处理无线表、跨页表格、公式等复杂元素,最快1.5秒就能完成百页长文档的解析。此外,在面对多类型样本问题时,TextIn文档解析注重图表数据训练,能将柱状图、折线图、饼图等十余种常见图表还原为Json或Markdown格式,让大模型更好地理解图表数据和学习专业文档的论证逻辑。

TextIn Embedding模型则能提高大模型信息搜索和问答的质量、效率和准确性。它像“指南针”一样,通过深入学习大量中文语料,迅速找到目标信息定位并提取有效文本特征,完成分类和聚类任务。该模型还引入了持续学习训练方式,支持可变输出维度,提升了模型系统的性能和体验。

OpenKIE是一个可用于图像文档的信息抽取工具,能自动抽取文档中所需信息,并应用或导入到其他系统中。例如,合合信息与百川智能合作,将百页文档的整体处理速率提升超过10倍,共同破解了多文档元素识别、版面分析等难题。

在CCIG 2024上,合合信息智能创新事业部研发总监常扬分享了智能文档处理技术在文档解析领域的工作。文档解析的难点在于准确识别文档元素和理解其逻辑关系,需要关注“物理版面分析”和“逻辑版面分析”。合合信息通过十几年技术积淀,打通了文档智能化处理的全流程,能灵活识别各种版面元素,准确还原文档阅读顺序,为大模型提供精准的训练语料和文档问答应用体验。

目前,TextIn智能文档处理平台已可覆盖金融、医学、财经、媒体等47个场景,共3200余类文档,被用于百川智能等多家头部大模型厂商的预训练流程,并积累了小批量开发者用户。

未来,合合信息将重点瞄准金融、医疗等行业推出垂直领域产品,同时面向开发者推进内测计划,吸纳更多用户参与到产品共创和优化中,以持续提升文档解析技术在大模型领域的应用价值。

合合信息的文档解析技术为大模型的发展提供了有力支持,有望推动大模型在各行业的广泛应用,为数字化转型带来新的机遇。

中国电信2025年云网路由交换设备集采结果揭晓
中国电信近日宣布,其云网路由交换设备(2025年)集中采购项目已顺利完成评审工作。此次采购项目规模庞大,涉及多个关键网络设备领域,旨在进一步优化和提升云网基础设施能力。

2025-11-13

Kernelcom“智能键盘”来袭:12.5英寸超宽屏,AMD/Intel双版本可选
快科技11月12日消息,近日一款名为Kernelcom的设备正在Kickstarter上众筹,虽然其本质上是一款功能完备的笔记本电脑,但制造商还是将其宣传为“智能键盘”。 这款设备最大的特点是其12.5英寸超…

2025-11-13

漫步者花再拍拍耳机拆解:时尚设计遇上趣味彩屏,内部配置大揭秘
耳机内部搭载了13mm大动圈单元,内置一颗麦克风拾音,采用MIC-POWER微电新能源3.85V/40mAh钢壳扣式电池供电;主板上,搭载了JL杰理科技JL6973D8的蓝牙音频SoC,WINSEMI稳先微…

2025-11-10

2025年AI智能鼠标深度体验:星火大模型赋能,它能替代哪些办公工具?
AI智能鼠标2025深度测评:星火大模型加持,AI问答、AI绘图能替代哪些工具?当一款鼠标,内嵌了如科大讯飞星火这般强大的认知大模型时,它所带来的,远不止是光标移动的流畅,更是一场关于效率与创造力的革命。我们…

2025-11-10

王江:借互联网之力 促多元文化交流 共筑网络空间文化新辉煌
王江认为,随着互联网深度融入人类生产生活,网络空间已成为全球多元文化繁荣发展的新平台、文明交流互鉴的新场域、各国人民情感共鸣的新纽带,网络文化交流发展呈现了许多新气象。要高度重视青年群体在网络文明对话和交流…

2025-11-09

即时配送系统深度剖析:万象生鲜系统如何助力企业配送效率与服务双提升
通过有效整合这些功能和应用场景,即时配送系统能够支撑企业在激烈市场中处于竞争优势。万象生鲜系统如何优化配送效率与服务体验万象生鲜系统通过集成先进的即时配送技术,大幅提升了配送效率和服务体验。 结论即时配送系…

2025-11-08

HPE深耕中国40年:以科技之力,共答可持续数字化转型的时代之卷
作为全球领先的科技企业,HPE在推动2040年全价值链净零的过程中,通过在人工智能、混合云与网络技术领域提供低碳高效的解决方案,帮助企业在数字化转型的同时加速IT的可持续发展,携手上下游生态合作伙伴以更可持续…

2025-11-07

小米通话App即将停服,王化回应称与手机通话功能无关,服务终止时间已定
王化在其个人微博发文表示,2010年12月10日发布的米聊中就嵌入了小米通话的功能,当时市面上的“网络通话”App有限,小米通话的初衷是解决米粉之间移动网络沟通的需求。 而如今大家可以通过很多常见的App实…

2025-11-07

中兴AI全光智会屏亮相移动大会,以融合创新赋能多行业数字化转型
具体而言,AI全光智会屏以中兴通讯领先的全光网技术为核心底座,具备4K无损画面、零延迟智能交互、可靠安全及统一运维四大核心优势,能够为高端智能会议应用提供极致服务体验。 从应用价值来看,AI全光智会屏以全光…

2025-11-07

中兴携手中国移动推出移动屏,融合多技术成家庭智慧生活新枢纽
此次推出的移动屏,依托中国移动爱家泛屏一体化解决方案,深度融合5G通信与AI智能技术,集超大PAD、电视、云电脑等多元功能于一身。27英寸高清触控大屏成为家庭信息交互的核心载体,打破传统设备功能边界,将通信、…

2025-11-07