Тел.: +7(915)814-09-51 (WhatsApp)
E-mail:

Russian English
scientificjournal-foto2

Если Вы хотите напечататься в ближайшем номере, не откладывайте отправку заявки. Потратьте одну минуту, заполните и отправьте заявку в Редакцию.

Печатная версия журнала «Вестник науки и образования» выходит ежемесячно (ориентировочно 19 числа, ежемесячно уточняется). Следующая печатная версия журнала выйдет - 21.01.2025 г. Статьи принимаются до 17.01.2025 г.

В электронной официальной версии (Роскомназдор Эл № ФС77-58456) журнала Вы можете опубликовать статью моментально после одобрения её публикации. Как отдельный электронный журнал, журнал выходит каждую пятницу. Следующая электронная версия журнала выйдет - 10.01.2025 г. Статьи принимаются до 09.01.2025 г.



Пучило Т.Н., Щегрикович Д.В.

Email: Puchylo636@scientifictext.ru

Пучило Татьяна Николаевна – магистрант;

Щегрикович Дмитрий Васильевич – кандидат физико-математических наук, доцент,

кафедра интеллектуальных систем,

Белорусский государственный университет, г. Минск, Республика Беларусь

Аннотация: целью данной работы является разработка веб-приложения для предсказания количества просмотров интернет-публикаций на основе содержащейся в них текстовой информации. В работе для достижения поставленной цели решаются такие задачи, как сравнительный анализ методов машинного обучения и разработка с использованием методов обработки естественного языка функций для извлечения признаков из текстов публикаций. Описываются классификация извлекаемых 120 признаков и преимущества использования выбранного метода машинного обучения «Случайный лес».

Ключевые слова: обработка естественного языка, корпусная лингвистика, машинное обучение, бинарная классификация, извлечение признаков, веб-приложение.

WEB APPLICATION FOR EVALUATION OF NUMBER OF ONLINE PUBLICATIONS VIEWS

Puchylo T.N., Shchegrikovich D.V.

Puchylo Tatsiana Nikolaevna – Graduate Student;

Shchegrikovich Dmitry Vasilevich – Candidate of Physico-Mathematical Sciences, Associate Professor,

INTELLIGENT SYSTEMS DEPARTMENT,

BELARUSIAN STATE UNIVERSITY, MINSK, REPUBLIC OF BELARUS

Abstract: the goal is to develop web application for prediction of viewing count of news online publications based on the text of these publications. This has been done by using natural language processing for features extraction functions creating and machine learning algorithms comparison. Upon examination of these algorithms, it becomes clear to use 120 features and Random forest method to estimate of viewing count of news online publications. Web application was created using microframework "Flask" on Python.

Keywords: natural language processing, corpus linguistics, machine learning, binary classification, feature extraction, web application.

Список литературы / References

  1. Szabo G., Huberman B.A. Predicting the popularity of online content // Communications of the ACM 53(8), 2010. 80–88 p.
  2. Deza Arturo, Parikh Devi. Understanding Image Virality // Computer Vision and Pattern Recognition (CVPR), 2015 IEEE Conference, 2015. 1818–1826 p.
  3. Lee Jong Gun, Sue Moon, Kav´e Salamatian. An Approach to Model and Predict the Popularity of Online Contents with Explanatory Factors // IEEE, WIC, ACM International Conferences on Web Intelligence and Intelligent Agent Technology. Toronto,. Canada, 2010. 623–630 p.
  4. Herbrich Ralf, Graepel Thore. Handbook of natural language processing. Second edition // Microsoft Research Ltd. Cambridge. UK // Chapman and Hall // CRC; 2 edition February 22, 2010. 704 p.
  5. Kao Anne and Stephen R. Natural Language Processing and Text Mining // Poteet (Eds). UK, 2007. 272 p.
  6. Manning Christopher D., Schiitze Hinrich. Foundations of Statistical Natural Language Processing // The MIT Press. Cambridge. Massachusetts. London, England. 704 p.
  7. Package ‘koRpus’ for R // The Comprehensive R Archive Network. [Электронный ресурс]. Режим доступа: https://cran.r-project.org/web/packages/koRpus/index.html/ (дата обращения: 02.2017).
  8. Stefan TH. Gries. Quantitative corpus linguistics with R: A Practical Introduction // Routledge; 1 ed. – February 22, 2009 – 260 p.
  9. Rahul Sharnagat. Named Entity Recognition: A Literature Survey // Indian Language Technology (CFILT), June 30, 2014 – 27 p.
  10. Package ‘suyzhet’ for R // The Comprehensive R Archive Network. [Электронный ресурс]. Режим доступа: https://cran.r-project.org/web/packages/syuzhet/syuzhet.pdf/ (дата обращения: 11.02.2017).
  11. Recourse of global media, branding and Technology Company, with a focus on news and information about business, investing, technology, entrepreneurship, leadership and affluent lifestyle. [Электронный ресурс]. Режим доступа: http://www.forbesmedia.com./ (дата обращения: 11.02.2017).
  12. Guha R., Manjunath Shreya, Palepu Kartheek. Comparative analysis of machine learning techniques for detecting insurance claims fraud // Wipro limited, Doddakannelli, Bangalore. 560 035, India. 19 p.
  13. Alesheykh R.. Comparative Analysis of Machine Learning Algorithms with Optimization Purposes // Department of Information Technology. Payame Noor University. P.O. BOX. 19395-3697. Tehran. Iran, 12 p.
  14. Flah Р. Machine Learning: The Art and Science of Algorithms That Make Sense of Data // Cambridge University Press. 1 ed., November 12, 2012. 409 p.

Ссылка для цитирования данной статьи

scientificjournal-copyright    

Электронная версия. Пучило Т.Н., Щегрикович Д.В. ВЕБ-ПРИЛОЖЕНИЕ ДЛЯ ОЦЕНКИ КОЛИЧЕСТВА ПРОСМОТРОВ ИНТЕРНЕТ-ПУБЛИКАЦИЙ // Вестник науки и образования №12 (36), 2017. [Электронный ресурс]. URL: http://scientificjournal.ru/images/PDF/2017/VNO-36/veb-prilozhenie.pdf (Дата обращения: ХХ.ХХ.201Х).

Печатная версия. Пучило Т.Н., Щегрикович Д.В. ВЕБ-ПРИЛОЖЕНИЕ ДЛЯ ОЦЕНКИ КОЛИЧЕСТВА ПРОСМОТРОВ ИНТЕРНЕТ-ПУБЛИКАЦИЙ // Вестник науки и образования №12 (36), 2017, C. {см. журнал}.

scientificjournal

Поделитесь данной статьей, повысьте свой научный статус в социальных сетях

      Tweet   
  
  

Кто на сайте

Сейчас на сайте 429 гостей и нет пользователей

Импакт-фактор

Вконтакте

REGBAN