OE1(光电查)是国内领先的光电产品数据平台,致力于为用户提供丰富准确的光电产品数据和技术支持。其核心竞争力是拥有全面且优质的光电产品数据,然而这些数据的背后是大量的人工成本,因为从数据的获取、整理再到产品数据库是一个极其繁琐复杂的过程。
内容提取存在的挑战
首先,产品的原始信息通常来自供应商的产品规格说明书,多数是 PDF 格式。这些规格书的内容是复杂的非结构化数据,其中融合了文字描述、图像以及表格数据等多种形式,且没有固定的编排格式,这给我们内容提取带来了极大的挑战。倘若要实现内容自动提取,那么计算机程序必须能够识别出产品规格书中纷繁多样的格式。
其次,由于产品规格书来自于不同的供应商,同一种产品参数在描述上可能存在不尽相同的方法,譬如“Multi Mode”、“Multi-Mode”、“Multimode”以及“MM”这些词汇,虽然他们所表示的实际含义完全一致,对于工程师而言,他们可以凭借丰富的行业经验轻松理解。然而,对于没有该领域背景知识的计算机系统来说,很难将这些不同形式的表述联系起来,除非采用硬编码的方式将这些概率事先联系起来。然而,由于涉及的产品数量极为庞大,任何一种硬编码策略都难以涵盖所有可能的情况。
SEO 存在的挑战
鉴于光电查所涉及的产品种类繁多,数量庞大,若由人工逐个提炼出符合要求的网页标题、关键词等搜索引擎优化(SEO)需要的元素,无疑将会非常耗时。更重要的是,考虑到产品涉及各个领域的专业知识,即使是经验丰富的 SEO 人员也无法很准确地提取出关键数据。因此,在这个过程中必须有专业的工程师协助,如此一来,会产生非常高的人力成本支出。
解决方案
经过分析,我们发现绝大多数产品规格书中的图片都是装饰性元素,真正有意义的是其中的文字描述和表格数据。为了保留文本描述和表格数据,我们采用 Markdown 作为预处理格式,然后结合已经调试好的提示词完成对产品规格书数据的提取,实现了信息从非结构化到结构化的转变。
到目前为止我们已经完成了内容的提取,事实上我们完全可以利用大语言模型同时执行内容提取和 SEO 优化,而这一切只需要对提示词稍作调整即可。
将整个自动化处理集成到 OE1 的现有流程种,就形成了一套完整的内容提取和 SEO 优化的自动化处理机制。
在平台引入了大语言模型的能力后,我们完成了对十多万产品的内容质量和搜索引擎优化,如果没有通过人工智能实现自动化,这是不可想象的
光电查(oe1.com)