Preview

Научные и технические библиотеки

Расширенный поиск

Кластерный подход к формированию наборов патентных данных и оценивание качества поиска «уровня техники»

https://doi.org/10.33186/1027-3689-2025-5-58-80

Аннотация

По мере расширения мирового патентного фонда возрастает и сложность поиска уже опубликованных патентных документов для оценки новизны технических решений – так называемого извлечения «релевантного уровня техники», «предшествующего уровня техники» или «уровня техники» из общедоступных патентных данных. Поиск такой информации связан со значительными трудностями, обусловленными её объёмом и сложностью. Результаты ряда исследований свидетельствуют о растущем масштабе использования машинной обработки естественного языка (NLP) для повышения точности и комплексности патентного поиска. Несмотря на достигнутые успехи, до сих пор не представлено системы автоматического патентного поиска, способной демонстрировать приемлемые точность и полноту. Автор статьи считает, что развитие новых, эффективных подходов к построению таких систем существенно ограничивается недостатком подготовленных наборов данных для обучения и тестирования. Автоматизированное создание наборов данных произвольной конфигурации – с учётом различных критериев отбора (документы одного или нескольких патентных ведомств; все опубликованные документы за ограниченный период времени; виды документов; классы патентной классификации и т. д.) – позволит снять ограничения и создавать наборы данных, соответствующие потребностям и целям разработчиков систем автоматического патентного поиска. В статье предложены новые подходы как к созданию наборов данных для обучения и тестирования систем автоматического патентного поиска уровня техники, так и к оценке эффективности созданных систем.

Об авторе

А. В. Горбунов
Федеральный институт промышленной собственности
Россия

Горбунов Александр Владимирович – начальник Центра развития научного направления «Искусственый интеллект»

Москва



Список литературы

1. WIPO Publication. WIPO Intellectual Property Handbook Second Edition, volume No. 489 (E). WIPO, 2004. ISBN 978-92-805-1291-5.

2. Rubilar-Torrealba R., Chahuán-Jiménez K., de la Fuente-Mella H. Analysis of the Growth in the Number of Patents Granted and Its Effect over the Level of Growth of the Countries: An Econometric Estimation of the Mixed Model Approach. Sustainability 2022, 14, 2384.

3. OECD. Patents and Innovation: Trends and Policy Challenges; OECD Organization for Economic Co-operation and Developmemt. Paris, France, 2004.

4. Shalaby W., Zadrozny W. Patent retrieval: A literature review. Knowl. Inf. Syst. 2019, 61, 631–660.

5. Risch J., Krestel R. Domain-specific word embeddings for patent classification. Data Technol. Appl. 2019, 53, 108–122.

6. Pogiatzis A. NLP: Contextualized Word Embeddings from BERT. 20 March 2019. URL: https://towardsdatascience.com/nlp-extract-contextualized-word-embeddings-from-bert-keras-tf-67ef29f60a7b.

7. Humayun M. A., Yassin H., Shuja J., Alourani A., Abas P. E. A transformer fine-tuning strategy for text dialect identification. Neural Comput. Appl. 2023, 35, 6115–6124.

8. Roda G., Tait J., Piroi F., Zenz V. CLEF-IP 2009: Retrieval Experiments in the Intellectual Property Domain. In Proceedings of the Workshop of the Cross-Language Evaluation Forum for European Languages. Corfu, Greece, 30 September – 2 October 2009. Volume 1175.

9. Piroi F. CLEF-IP 2010: Retrieval Experiments in the Intellectual Property Domain. In Proceedings of the CLEF 2010. Padua, Italy, 20–23 September 2010.

10. Piroi F., Lupu M., Hanbury A., Zenz V. CLEF-IP 2011: Retrieval in the intellectual property domain. In Proceedings of the CLEF 2011. Amsterdam, The Netherlands, 19–22 September 2011.

11. Piroi F., Lupu M., Hanbury A., Magdy W., Sexton, A., Filippov I. CLEF-IP 2012: Retrieval experiments in the intellectual property domain. In Proceedings of the CEURWorkshop. Melbourne, Australia, 10–12 December 2012; Proceedings 1178.

12. Iwayama M., Fujii A., Kando N., Takano A. Overview of patent retrieval task at NTCIR-3. In Proceedings of the CL-2003 Workshop on Patent Corpus Processing. Sapporo, Japan, 12 July 2003.

13. Fujii A., Iwayama M., Kando N. Overview of Patent Retrieval Task at NTCIR-4. In Proceedings of the NTCIR-4. Tokyo, Japan, 2–4 June 2004. URL: https://research.nii.ac.jp/ntcir/workshop/OnlineProceedings4/PATENT/NTCIR4-OVPATENT-FujiiA.pdf.

14. Fujii A., Iwayama M., Kando N. Overview of Patent Retrieval Task at NTCIR-5. In Proceedings of the NTCIR-5. Tokyo, Japan, 6–9 December 2005. URL: https://research.nii.ac.jp/ntcir/workshop/OnlineProceedings5/data/PATENT/NTCIR5-OV-PATENT-FujiiA-pp.pdf.

15. Fujii A., Iwayama M., Kando N. Overview of the Sixth NTCRWorkshop. In Proceedings of the NTCIR-6. Tokyo, Japan, 15–18 May 2007. URL: http://ntur.lib.ntu.edu.tw/retrieve/170726/26.pdf.

16. Lupu M., Piroi F., Huang X., Zhu J., Tait J. Overview of the TREC 2009 chemical IR track. In Proceedings of the TREC 2009. Gaithersburg, MD, USA, 17–20 November 2009.

17. Lupu M., Tait J., Huang J., Zhu J. TREC-CHEM 2010: Notebook Report. In Proceedings of the TREC 2010. Gaithersburg, MD, USA, 16–19 November 2010; NIST Special Publication, 500–294. URL: https://trec.nist.gov/pubs/trec19/papers/CHEM.OVERVIEW.pdf.

18. Lupu M., Gurulingappa H., Filippov I., Zhao, J., Fluck J., Jacobs M., Huang J., Tait J. Overview of the TREC 2011 Chemical IR track. In Proceedings of the TREC 2011. Gaithersburg, MD, USA, 15–18 November 2011.

19. SIGIR'19: Proceedings of the 42nd International ACM SIGIR Conference on Research and Development in Information Retrieval July 2019. Pp. 1213–1216. https://doi.org/10.1145/3331184.3331346.

20. Положение о Государственном патентном фонде. URL: https://www.fips.ru/documents/npa-rf/prikazy-rospatenta/polozhenie-o-gosudarstvennom-patentnom-fonde.php#4.

21. WIPO Standard ST.96. Version 6.0 (approved by the Task Force, October 3, 2022), Standard ST.96 (Main Body). URL: https://www.wipo.int/export/sites/www/standards/en/pdf/03-96-01.pdf, Annexes I to VII. https://www.wipo.int/standards/en/st96/v6-0/.

22. Mohammad M. Rahman,·Chanchal K. Roy,·David Lo. Automatic query reformulation for code search using crowdsourced knowledge. Empirical Software Engineering. URL: https: //doi.org/10.1007/s10664-018-9671-0 https://www.researchgate.net/publication/330514983.

23. Prior Art Candidates Search Task, Публикация международного исследовательского проекта IRF (Information Retrieval Facility). URL: https://www.ir-facility.org/prior-art-search1.

24. The Effect of Content-Equivalent Near-Duplicates on the Evaluation of Search Engines, Maik Fröbe, Jan Philipp Bittner, Martin Potthast, Matthias Hagen; 42nd European Conference on Information Retrieval (ECIR). Lissabon, April 14–17, 2020.

25. Горбунов А. В., Генин Б. Л., Золкин Д. С. Семантические кластеры патентных документов и генератор наборов данных для машинного обучения // Сборник трудов X Международной научно-практической конференции «Интеллектуальная инженерная экономика и Индустрия 5.0» (ИНПРОМ), 25–28 апреля 2024, Санкт-Петербург. В 2 т. Т. 2 / под ред. д-ра экон. наук Д. Г. Родионова, д-ра экон. наук А. В. Бабкина. Санкт-Петербург: Изд-во ПОЛИТЕХ-ПРЕСС, 2024. С. 457–461. ISBN 978-5-7422-8536-2.

26. Kundu R. F1 Score in Machine Learning: Intro & Calculation. Machine Learning. 16 December 2022. URL: https://www.v7labs.com/blog/f1-score-guide.

27. Otten N. V. Mean Average Precision Made Simple [Complete Guide]. 14 September 2023. URL: https://spotintelligence.com/2023/09/14/mean-average-precision/.

28. Manning C. D., Raghavan P., Schütze H. Introduction to Information Retrieval. Cambridge University Press: New York, NY, USA, 2008.

29. Горбунов А. В., Генин Б. Л., Золкин Д. С. Искусственный интеллект в работе патентных ведомств // Информационные ресурсы России. 2021. № 3. С. 18–23.

30. Frome A., Corrado G. S., Shlens J. et al. DeViSE: A Deep Visual-Semantic Embedding Model // Advances in Neural Information Processing Systems 26 (NIPS 2013), December 5–10, 2013, Harrah and Harveys. NV, USA. Curran Associates, Inc., 2013. P. 2121–2129.

31. Горбунов А. В., Генин Б. Л., Золкин Д. С. Задача выявления элементов семантического кластера патентных документов для поиска уровня техники // ISSN 0548-0019, НТИ. Сер. 1: Организация и методика информационной работы. 2023, № 8. С. 27–32.

32. Kumaravel G., Sankaranarayanan S. PQPS: Prior-Art Query-Based Patent Summarizer Using RBM and Bi-LSTM. Mob. Inf. Syst. 2021, 2021, 2497770.

33. Zihayat M., Etwaroo R. A non-factoid question answering system for prior art search. Expert Syst. Appl. 2021, 177, 114910.

34. Pradeep. Understanding TF-IDF in NLP: A Comprehensive Guide. Medium. 2023. URL: https://medium.com/@er.iit.pradeep09/understanding-tf-idf-in-nlp-a-comprehensive-guide-26707db0cec5.


Рецензия

Для цитирования:


Горбунов А.В. Кластерный подход к формированию наборов патентных данных и оценивание качества поиска «уровня техники». Научные и технические библиотеки. 2025;(5):58-80. https://doi.org/10.33186/1027-3689-2025-5-58-80

For citation:


Gorbunov A.V. The cluster approach to acquiring patent datasets and assessing the quality of “prior art search”. Scientific and Technical Libraries. 2025;(5):58-80. (In Russ.) https://doi.org/10.33186/1027-3689-2025-5-58-80

Просмотров: 60


Creative Commons License
Контент доступен под лицензией Creative Commons Attribution 4.0 License.


ISSN 1027-3689 (Print)
ISSN 2686-8601 (Online)