|
人工智能:或许是解救苦海中IPer的一味良药2016年,AlphaGo事件将人工智能从推向了风口浪尖上,人工智能也迅速成为一个最火热的话题。最近,关于摩根大通利用人工智能将36万小时的工作缩至秒级也在挑战华尔街。 《哈弗商业评论》提到:几乎所有的工作都有计算机在可预见的未来无法处理的主要元素。但是,我们不得不承认,有一些知识性工作将会屈服于人工智能的兴起。对于我们这些处于知识性工作旋涡中的IPer,未来面临什么样的挑战?笔者认为人工智能或许是解救苦海中IPer的一味良药。 智能专利审查在笔者还是一名审查员时,每天面对专利审查工作时,就幻想着能否有一天能实现专利的智能审查,将机械重复性工作由机器来替代,也曾钻到各类书籍中去寻找解决方案,甚至还尝试开发审查辅助软件,现在想来真是Too young Too simple。 专利审查是一个非常复杂的智力劳动,包括了技术理解、专利检索、法律判断、流程处理等一系列工作,主要涉及到的核心技术在于语义检索、自然语言处理以及机器学习,而这每一项技术目前都处于尚不成熟的状态,难度非常高。 即便是这样,日本特许局也开始向智能专利审查发起了挑战。据报道,日本特许厅将于2017年开始将人工智能活用于专利审查并进行实际验证,将能活用人工智能的业务与特许厅主体业务实施分离,试运行人工智能。 专利审查程序首先通过给申请资料加索引的方式对其进行分类,以此判断资料不全或费用减免的情况。接下来理解发明内容,调查现有技术,最终认定其专利性。 基于人工智能的审查效率化,2023年从专利申请到权利化实现的时间将降至平均14个月。可见,这也会最大限度的通过人工智能提高审查效率,减轻审查员的工作负担。 专利机器翻译专利文献翻译,在行业早期确实是技术含量和难度非常大的高端智力服务。专利文献翻译实际上比普通的文字翻译要难很多,首先是专利文献本身就是非常晦涩的法律语言,其次是专利文献还涉及到艰深的技术内容,因此对于翻译人员的要求非常之高。 但是随着近年来专利大数据的普及以及机器翻译算法的进步,专利机器翻译发展非常迅速。对专利有一些了解的读者可能都知道,专利中有个同族的概念,当申请人希望到不同语系的国家去申请专利时,必须将同一份申请文件翻译成不同的语言。而这却成为了专利文献一个天然的优势——具有大规模的双语语料库,这也是机器学习算法的一个先决条件。 正是具有这样天然的优势,在机器学习算法领域获得突破时,专利文献翻译的质量也会越来越靠谱。去年,WIPO就是基于所拥有的大规模语料库,开发出了一种基于人工智能的翻译机Wipo,Wipo项目的成员主要来自爱丁堡和蒙利利尔这两所大学的工程师与AI学术专家,主要采用神经网络算法。 根据测评结果,Wipo的表现不仅优于我们常用的Google翻译,也碾压了“欧洲专利局专利翻译系统”,更重要的是这一神器对公众还是免费的。可以预测,纯粹的专利文献翻译的工种可能会逐步走向消亡,而机器翻译无疑会大大减轻专利检索分析实务人员以及一些涉外代理人的工作。 专利语义检索专利的语义检索是无数专利检索人员所追求的一种诱人的终极检索模式,犹如飞蛾扑火,因为一旦实现,专利检索人员也就消亡了。对于语义检索,笔者认为应该包括两个层面,第一个层面是语义理解,另外一个层面是相似度排序。 对于相似度排序,目前理论基础和算法已经非常成熟,通过将每篇专利文本转换到向量空间中去,每一篇文本就是一个向量,通过计算两个向量之间夹角的余弦值来计算两个向量之间的相似度,从而对检索结果进行排序。 另一个层面是语义理解,涉及到自然语言处理的领域。在语义理解上,英文比中文(包括韩文和日文等亚洲语系)具有很大的优势,因为英文文本中有天然空格进行分割,不涉及到分词的问题,而且英文的语义网络已发展的比较健全(例如Wordnet)。对于中文,专利文献的中文分词和中文语义网络的构建还有很长的路要走。 对于专利的语义检索,目前已经有很多商业性工具能够提供,例如以语义检索作为主打的Patentics。而尤为值得一提的是,2016年10月26日,日本野村综合研究所有限公司NRI-CyberPatent与日本人工智能大数据分析服务公司FRONTEO启动人工智能专利检索联合项目。NRI CyberPatent Desk 2检索系统将提供专利信息搜索引擎,FRONTEO公司Lit i View PATENT EXPLORER将提供专利研究和分析系统。 此次合作将为不同层次的专利分析(例如现有技术和无效检索)开发设计有效的解决方案,并设计了基于人工智能的流程。语义检索仍然是未来专利检索发展的方向,无限逼近理想,同样也能最大限度的降低专利检索的难度。 专利价值评估关于专利价值评估,笔者觉得现在越来越觉得像是一种玄学。专利价值只有在发生了体现价值的事件才能够最终确定,在此之前进行的评估,多半是自圆其说,只不过各有各家的理论罢了。 笔者本次讨论的并不是严格意义上的专利价值评估,而只是一种专利的量化评分。这种评分只能是用于专利管理或者是专利分析的一种指标。对于专利量化评分体系的构建,目前通常采用的是一种确定影响专利价值的评价指标,然后分别对各指标赋予权重,最后经过数理统计的方法进行回归分析,建立一套评分模型。 而这种模型的构建方法其实仍然是一种最原始的线性回归分析方法,对于所选取的指标和所赋予的权重存在很大的人为因素。而在专利的量化评分方面引入人工智能,则可以采用更为复杂的机器学习算法,机器学习尤其擅长回归分析。 提到专利量化评分,就必须提及INNOGRAPHY的专利强度。INNOGRAPHY的专利强度就是一种采用大数据和机器学习的算法获得的评分。对于机器学习算法,训练样本的选择是重中之重。INNOGRAPHY的专利强度理论依据主要来自《valuable patent》这篇论文,其中阐述了与专利价值相关的一系列指标,同时根据实际情况,通常发生诉讼的专利的价值相对会比较高,这些涉诉专利自然也就成为用于机器学习训练的天然样本。 通过这个训练样本建立评价模型,从而进行量化评分。由于样本是动态变化的,因此这个评分模型不是一成不变的,而是动态的,这也就是INNOGRAPHY专利强度的精妙之处。即便如此,专利强度评分与专利价值评估也是不能等同的,只不过是可以作为一个重要的参考指标。 在上篇发文之时,恰逢两会召开,关于人工智能也受到广泛关注,并被写入2017年政府工作报告。但是人工智能在专利信息领域的运用可能还有较长的路要走,因为人工智能需要密集性资金和高水平人才投入,只有在商业前景逐渐明朗的情况下,这些要素才会聚集。不管怎样,人工智能仍然是专利信息服务未来发展的方向。 (文章转自starblog,仅供学习) |