Сервис Автореферирования

29.06.2010

Запустил небольшой сервис автореферирования. Суть построения реферата следующая: из большого текста необходимо получить смысловую “выжимку” – наиболее значимую и информативную часть.

Мой алгоритм достаточно прост: сначала разбиваем весь текст на отдельные предложения и слова, подсчитываем “вес” каждого слова, а потом и каждого предложения и выбираем наиболее значимые предложения для реферата. На вес каждого слова могут влиять различные факторы, например, частота повторений внутри текста, местоположение в тексте и т.д. При этом нужно учитывать морфологию слов и отбросить стоп-слова.

Практических применений может быть достаточно много. Как вариант – “белая” уникализация текста, с сохранением полной читабельности и информационной составляющей.

Функция автореферирования больших кусков текста в последних апдейтах были встроены в генераторы сайтов Кисточка и BRush.

Еще по теме:

Комментарии (6) на "Сервис Автореферирования"

  1. Тормоз says:

    Проверил несколько текстов, всё же не по-человечески получается, солянка из отдельных обрывков. Потому и “белая” в кавычках :)

  2. Arser says:

    До изобретения искусственного интеллекта все-равно лучше не станет :)
    Ну и конечно от текста много зависит, например, выбрать 3-5 предложений из огромной статьи в википедиа получается в прицепи неплохо.

  3. Misha says:

    Хорошо придумал! но как оно на практике будет?

  4. MV says:

    Извините заранее, но Кисточка это твой проект? =)

  5. Дима says:

    Как я понял, это логическое продолжение статьи “Про копипаст и будущее поисковых систем”.
    Было бы замечательно увидеть плагин к ВП.

  6. “белая” уникализация текста ? очень сомневаюсь

Отправить комментарий