Пучило Т.Н., Щегрикович Д.В.
Email: Puchylo636@scientifictext.ru
Пучило Татьяна Николаевна – магистрант;
Щегрикович Дмитрий Васильевич – кандидат физико-математических наук, доцент,
кафедра интеллектуальных систем,
Белорусский государственный университет, г. Минск, Республика Беларусь
Аннотация: целью данной работы является разработка веб-приложения для предсказания количества просмотров интернет-публикаций на основе содержащейся в них текстовой информации. В работе для достижения поставленной цели решаются такие задачи, как сравнительный анализ методов машинного обучения и разработка с использованием методов обработки естественного языка функций для извлечения признаков из текстов публикаций. Описываются классификация извлекаемых 120 признаков и преимущества использования выбранного метода машинного обучения «Случайный лес».
Ключевые слова: обработка естественного языка, корпусная лингвистика, машинное обучение, бинарная классификация, извлечение признаков, веб-приложение.
WEB APPLICATION FOR EVALUATION OF NUMBER OF ONLINE PUBLICATIONS VIEWS
Puchylo T.N., Shchegrikovich D.V.
Puchylo Tatsiana Nikolaevna – Graduate Student;
Shchegrikovich Dmitry Vasilevich – Candidate of Physico-Mathematical Sciences, Associate Professor,
INTELLIGENT SYSTEMS DEPARTMENT,
BELARUSIAN STATE UNIVERSITY, MINSK, REPUBLIC OF BELARUS
Abstract: the goal is to develop web application for prediction of viewing count of news online publications based on the text of these publications. This has been done by using natural language processing for features extraction functions creating and machine learning algorithms comparison. Upon examination of these algorithms, it becomes clear to use 120 features and Random forest method to estimate of viewing count of news online publications. Web application was created using microframework "Flask" on Python.
Keywords: natural language processing, corpus linguistics, machine learning, binary classification, feature extraction, web application.
Список литературы / References
- Szabo G., Huberman B.A. Predicting the popularity of online content // Communications of the ACM 53(8), 2010. 80–88 p.
- Deza Arturo, Parikh Devi. Understanding Image Virality // Computer Vision and Pattern Recognition (CVPR), 2015 IEEE Conference, 2015. 1818–1826 p.
- Lee Jong Gun, Sue Moon, Kav´e Salamatian. An Approach to Model and Predict the Popularity of Online Contents with Explanatory Factors // IEEE, WIC, ACM International Conferences on Web Intelligence and Intelligent Agent Technology. Toronto,. Canada, 2010. 623–630 p.
- Herbrich Ralf, Graepel Thore. Handbook of natural language processing. Second edition // Microsoft Research Ltd. Cambridge. UK // Chapman and Hall // CRC; 2 edition February 22, 2010. 704 p.
- Kao Anne and Stephen R. Natural Language Processing and Text Mining // Poteet (Eds). UK, 2007. 272 p.
- Manning Christopher D., Schiitze Hinrich. Foundations of Statistical Natural Language Processing // The MIT Press. Cambridge. Massachusetts. London, England. 704 p.
- Package ‘koRpus’ for R // The Comprehensive R Archive Network. [Электронный ресурс]. Режим доступа: https://cran.r-project.org/web/packages/koRpus/index.html/ (дата обращения: 02.2017).
- Stefan TH. Gries. Quantitative corpus linguistics with R: A Practical Introduction // Routledge; 1 ed. – February 22, 2009 – 260 p.
- Rahul Sharnagat. Named Entity Recognition: A Literature Survey // Indian Language Technology (CFILT), June 30, 2014 – 27 p.
- Package ‘suyzhet’ for R // The Comprehensive R Archive Network. [Электронный ресурс]. Режим доступа: https://cran.r-project.org/web/packages/syuzhet/syuzhet.pdf/ (дата обращения: 11.02.2017).
- Recourse of global media, branding and Technology Company, with a focus on news and information about business, investing, technology, entrepreneurship, leadership and affluent lifestyle. [Электронный ресурс]. Режим доступа: http://www.forbesmedia.com./ (дата обращения: 11.02.2017).
- Guha R., Manjunath Shreya, Palepu Kartheek. Comparative analysis of machine learning techniques for detecting insurance claims fraud // Wipro limited, Doddakannelli, Bangalore. 560 035, India. 19 p.
- Alesheykh R.. Comparative Analysis of Machine Learning Algorithms with Optimization Purposes // Department of Information Technology. Payame Noor University. P.O. BOX. 19395-3697. Tehran. Iran, 12 p.
- Flah Р. Machine Learning: The Art and Science of Algorithms That Make Sense of Data // Cambridge University Press. 1 ed., November 12, 2012. 409 p.
Ссылка для цитирования данной статьи
Тип лицензии на данную статью – CC BY 4.0. Это значит, что Вы можете свободно цитировать данную статью на любом носителе и в любом формате при указании авторства. |
||
Электронная версия. Пучило Т.Н., Щегрикович Д.В. ВЕБ-ПРИЛОЖЕНИЕ ДЛЯ ОЦЕНКИ КОЛИЧЕСТВА ПРОСМОТРОВ ИНТЕРНЕТ-ПУБЛИКАЦИЙ // Вестник науки и образования №12 (36), 2017. [Электронный ресурс]. URL: http://scientificjournal.ru/images/PDF/2017/VNO-36/veb-prilozhenie.pdf (Дата обращения: ХХ.ХХ.201Х). Печатная версия. Пучило Т.Н., Щегрикович Д.В. ВЕБ-ПРИЛОЖЕНИЕ ДЛЯ ОЦЕНКИ КОЛИЧЕСТВА ПРОСМОТРОВ ИНТЕРНЕТ-ПУБЛИКАЦИЙ // Вестник науки и образования №12 (36), 2017, C. {см. журнал}. |
Поделитесь данной статьей, повысьте свой научный статус в социальных сетях
Tweet |