Сервис Автореферирования
Запустил небольшой сервис автореферирования. Суть построения реферата следующая: из большого текста необходимо получить смысловую “выжимку” – наиболее значимую и информативную часть.
Мой алгоритм достаточно прост: сначала разбиваем весь текст на отдельные предложения и слова, подсчитываем “вес” каждого слова, а потом и каждого предложения и выбираем наиболее значимые предложения для реферата. На вес каждого слова могут влиять различные факторы, например, частота повторений внутри текста, местоположение в тексте и т.д. При этом нужно учитывать морфологию слов и отбросить стоп-слова.
Практических применений может быть достаточно много. Как вариант – “белая” уникализация текста, с сохранением полной читабельности и информационной составляющей.
Функция автореферирования больших кусков текста в последних апдейтах были встроены в генераторы сайтов Кисточка и BRush.
Проверил несколько текстов, всё же не по-человечески получается, солянка из отдельных обрывков. Потому и “белая” в кавычках
До изобретения искусственного интеллекта все-равно лучше не станет
Ну и конечно от текста много зависит, например, выбрать 3-5 предложений из огромной статьи в википедиа получается в прицепи неплохо.
Хорошо придумал! но как оно на практике будет?
Извините заранее, но Кисточка это твой проект? =)
Как я понял, это логическое продолжение статьи “Про копипаст и будущее поисковых систем”.
Было бы замечательно увидеть плагин к ВП.