Исследовательский потенациал молодых ученых: взгляд в будущее

«Исследовательский потенциал молодых ученых: взгляд в будущее» 87 2017 рубрикам. Как повлияет нахождение одного и того же документа од‐ новременно в обучающих выборках нескольких рубрик. 3) Рубрикация при исчезающей малом количестве «своих» доку‐ ментов – часто бывает необходимо «найти иголку в стоге сена». В современное время в период развития электронно‐вычисли‐ тельных и электронно‐информационных систем, растет количество текстовой информации. Ведь, чтобы получить необходимую инфор‐ мацию из базы данных необходимо просмотреть большое количество текстовой информации, как говорит народная поговорка «Чтобы най‐ ти крупинку золота необходимо пересеять гору песка». На сегодняш‐ ний момент нужно знать методы, которые могут классифицировать и отбирать информацию, которая сокращает время и объем просмат‐ риваемой литературы. Ведь основная проблема при поиске информа‐ ции затрата большого количества времени. Объектом исследования является набор и классификация доку‐ ментов научной текстовой информации. Предмету исследования относится методы и алгоритмы обра‐ ботки классификации научной текстовой информации [2, c. 391]. Целью настоящей работы является повышение эффективности математической обработки научной информации, представленной в виде отдельных текстовых документов. Поставленная цель решается при помощи задач: 1. Разработать системный анализ и обработки классификации текстовой информации для выявления определяющих характеристик свойств документов. 2. На основе латентно‐семантического анализа создать модель для классификации текстовых документов. 3. На сгенерированный семантический модель корпуса смодели‐ ровать алгоритм уточнения поискового запроса. Скрытый семантический анализ (LSA) – вычислительная лин‐ гвистическая модель, которая предлагает математическое представ‐ ление семантического домена. Это может быть также задумано как автоматический и статистический метод для представления значения текстовых слов. Этот инструмент способен к анализу огромной раз‐ мерной матрицы, где каждая строка представляет слово (термин), и у столбца есть один абзац (документ). Для определения текста в семантическом пространстве сравни‐ вают модули данных (предложение, абзац, сводка или целый текст) со смежными модулями текста, с которым оба семантически связаны. Так же с помощью LSA сравнивают разные по семантическому подобию части текстовой информации, такие как предложения или словосочетания (Foltz, 1996; Landauer, 1998; Landauer & Dumais, 1997;

Исследовательский потенациал молодых ученых: взгляд в будущее - 2017