Уникализация контента
Задумался над вопросом, как из неуникального текста, сделать уникальный хотя бы в глазах поисковиков. Сразу оговорюсь, что сейчас я рассматриваю только автоматические варианты работы с контентом, при этом на выходе получить хочется по-возможности качественный и читабельный текст.
Все методы баянистые, просто хочу собрать в кучу и проанализировать.
Синонимайзер.
Помню, впервые мысль про синонимайзер закралась в мою голову года 4 назад, ну все, думаю, гугл попал… Но полазив по просторам Интернета, так и не нашел подходящий словарь, были платные продукты, но как-то не решился.
Сейчас различные словари синонимов уже гуляют в свободном доступе, и только ленивый не попробовал этот метод.
Мое ИМХО – получить “нормальный” текст с помощью синонимайзера вполне возможно, но нужны маленькие узконаправленные словари, аккуратно составленные вручную. Кстати, хорошая идея для нового проекта, на сколько я знаю, подобные словари еще не продаются. Как работает синонимайзер на многотысячном универсальном словаре можно посмотреть здесь.
Для русскоязычных текстов метод замены слов на синонимы работает гораздо хуже, чем для английских текстов. Тут уж приходится вникать во все глубины морфологии и принципы словообразований языка. Такую работу мы проводим уже некоторое время, но пока хвастаться особо нечем.
Имитирование опечаток.
Например, в каждом десятом слове текста, имитировать опечатку или просто заменять символы на html entities (надо подумать, можно ли так сделать). Текст остается читабельным, но разбавляется “новыми” словами.
Еще можно попробовать просто скрыть некоторые куски текста от роботов, для Яндекса – тег <noindex>, для Google часть предложений или слов можно выводить на JavaScript.
Переводчик.
Машинный перевод с одного языка на другой, или, например, английский-русский-анлийский.
Недавно игрался с Google Translate – действительно, отлично переводит, да и еще онлайн сервис
Но как-то это неинтересно, добиться приемлемого качества без ручной правки пока невозможно.
Mashup.
Я как-то уже упоминал про этот метод, проверенно – работает. Это когда мы перемешиваем куски текста.
Понятно, что если мы перемешаем абзацы или предложения какой-то статьи – то смысл уходит. Но если это база товаров (например, amazon), и поменять местами в списке характеристики товара, то с точки зрения восприятия человеком смысл текста не изменится вообще, но с точки зрения бота, возможно, он станет более уникальный (точные алгоритмы нам конечно не известны).
Но есть способ перемешать и текст наподобие статьи. Каждое предложение можно поместить в div, перемешать их, а потом с помощью CSS расставить по нужным местам. Кто-то видел такую реализацию?
Сюда бы я отнес еще более глобальный метод, когда контент – это винегрет, нарубленный из многих источников, понемногу с каждого. По такому принципу, например, работает BRush. Ведь поисковые роботы скорее всего оценивают всю страницу целиком. Добавьте сюда еще локальную уникализацию каждого блока – и мы уже имеем кое-что…
Можно придумать и другие способы смешивания контента из различных источников в один текст, тут все зависит от исходного материала и того, что мы хотим получить на выходе. Например, мы имеем 10 статей одной тематики, из них вполне можно сделать краткую выжимку основных мыслей и или тезисов по теме, более того, этот текст может быть очень полезен человеку, ему не придется перечитывать все 10 статей.
зы. Руки рулят
Понравилась идея с перемешиванием дивов. Но как верстальщик, скажу что на чистом сss реализовать это будет довольно сложно. Может, лучше яваскриптом собирать их обратно? Как к этому отнесутся Яндекс и Гугл? Они исполняют скрипты, или нет? Просвети пожалуйста, а то я не знаю.
Гугл типа исполняет… но можно считать, что нет…
Для русскоязычных текстов есть хороший синонимайзер, в комплекте с которым идет база синонимов! Тексты получаются вполне читаемыми.
seodimas.ru/sinonimajzer-pod-ru.html
proraritet, давайте примеры текстов, посмотрим какие там хорошие тексты. а так это просто реклама…
Проблема уникального контента стоит остро. Меня интересует пока только английский. Вот в нем без своей базы узкотематической получить нормальный контент сложно. Нормальный – для человека, а не для поисковика.
В принципе, разные стандартные описания товаров для шопов можно превращать в тексты при помощи шаблонов+синонимов.
От себя добавлю: желательно при перепечатке статей/новостей никогда не оставлять первоначальный заголовок
По опыту могу сказать, что в рунете не плохо работает Mashup.
proraritet.
Я этим синонимайзером пользуюсь. Сказать хочу следующее – все виды синонимайзеров хорошои, если есть БАЗА СИНОНИМОВ суперская. А такую базу можно сделать только руками и годами.
Arser
Ты мне по аське видал как то текст – я тебе его синонимимзировал. Речь идет о том синонимайзере…
Стёпыч
И как гугля с ним дружит?
Да не желательно, а я бы сказал ОБЯЗАТЕЛЬНО!!! Аргументировать? Тег тайтл вспомните
Вот интересный сервис http://datapresser.com/ на эту тему. По сути – автоматический генератор контента из узкотематических баз.
[...] Читать [...]
Перемешивание рулит!
еще можно в русском тексте после запятых вклинивать свои реплики, в репликах замешивается нужный ключевик в итоге получаем достаточно уникальный текст+ имеющий некий смысл
Как вариант из простых предложений делать сложные и подпровлять пунктуацию.
Посмотри на этот словарь:
http://kerkzone.net/2008/01/09/angliyskiy-slovar-sinonimov/
Он доступен в SQL формате
Замечаю неоднократно, что не так важно читать новости, как коменты! Спасибо за хорошую информацию!
to Xzorro: это как в бородатом известном стебе- если после заятых ставить БЛЯ, то текст не теряет смысл, а приобретает эмоциональную насыщенность
Мой синонимайзер получше будет.
Вообще, можно попробовать замутить конкурс программ-синонимайзеров, у кого лучше получается переделывать текст с сохранением читаемости.
alexf2000, где твой можно глянуть? он у тебя в генерилке твоей спрятан?
конкурс можно, главное знать какой приз
Мой разве что на сайтах наткнёшься, так нигде не выложен. С призом как раз всё ясно, у кого лучше синонимайзер, у того потенциально больше страниц в серпах и трафа.
Для русского языка юзайте словарь Трушина – ASIS
Рерайт рулит и ничего с этим неподелать.
если добавить перед прилагательным наречие, то смысл текста не нарушится, а вот структура шинглов, будет нарушена и тем самым контент будет уникализирован. Как известно «Яшка» вычисляет дублирование контента в Интернете используя в том числе алгоритм шинглов. В Интернете можно найти описание этого алгоритма. Замечу только, что если в текст предложения вставить новые слова, то такой текст для Яндекса становиться уникальным (ИМХО).
такая фишка есть в последней версии feedmaster
Непомню где , но читал как составлять фарма-объявления для Adwords . Типа заменять похожие символы их аналогами или цифрами .
Можно например изменить “слово” на “cлoвo” . Читаемо , но совсем другое . Возможно такой тип уникализации используется иногда.
Можно например изменить “слово” на “cлoвo”
Т.е. буква “о” в одном варианте русская а в другом английская? Интересно, боты умеют такое отсеивать?
Если нет то проблема уникализации решена, наверное
khalid, не решена она ничего, на “бессмысленный” текст не будет поискового траффика.
Arser , а если “бессмысленный текст” разбавить нормальными кеями ? На твой взгляд будет толк ? Просто провел маленький экспериментик , проверил с пяток слов с измененным написанием . Такое впечатление , что эту тему уже вовсю юзают , или поисковики спалили такой тип контента
проблема неуникального контента близка сердцу каждого сеошника! И каждый бореться с ней как может, особенно в свете последних попыток Яндекса ограничить доступ сателлитов в индекс. пробывал большинство методов, но добить от синонимайзкра качественно текста так и не смог
перлы повесил на стенку)))
За неуникальность контента ничего не будет. Разве что трафика меньше. Бывали случаи, что сайт поднимался дажке выше источника на одной странице Я.
да, синонимы – это вещь!
Хотя копирайтера думаю этим не удивишь:)
За неуникальность будет склейка рано или поздно
За неуникальность склуйка будет в скором времени. Реврайтинг- наиболее подходящая штука для белых проектов.
Сининимы, разбавление+ вставки на Маркове (3 порядка)- под доры и т.п.
Из всех перечисленных способов только синонимизацию контента считаю нормальным способом получения уникального контента. сама использую синонимейзер на макросах в ворде, называется syn, где скачала, уже не помню… Текст получается вполне читабильным, после небольшой ручной доработки.
Свой словарь для замен + с вариациями (не тупая замена каждый раз).
Не плохие идея, надо будет воспользоваться
Лучший способ уникализировать контент – использование синонимов, правда нужен немалый их словарь
Я бы синонимы использовал…и переписал бы 80% исходного текста.
Идеи правда не плохие. Но пусть сначала их опробует кто нибудь другой
Тут рулит синонимайзер…
А никто не пробовал например в тексте пару букв(в каждом или почти каждом слове) на английские заменить
А лучше сканировать газеты. Адоб Ридер все равно правильно все не разберет, будет эффект опечаток и уникальность будет.
По поводу замены букв в слове – яндекс недавно объявил об автоматической замене запросов написанных с ошибками, и замена букв может отрицательно сказаться на колличество посетителей.
[...] “Тщательно охраняемые” и “только продаваемые” секреты, наконец, расшарены на русском: Уникализация контента [...]
Руки рулят однозначно
Надо все способы пробовать.
У меня скрипт рифму подбирает- новости получаются оборжаться
> Можно например изменить “слово” на “cлoвo”
а можно поподробнее про замену?
тут не просто замена русских букв на похожие английские, а замена букв с учетом кодировки, т.е. у этих двух “слов” просто кодировки разные
как такое сделать? и как составить словарь для соответствий?
пните хотя бы в нужном направлении
Разные кодировки не получится – иначе просто не будет читабельно. Нужно на английские буквы заменять.
нет, вы не поняли,
нужно найти соответствия в разных кодировках так, чтобы слова выглядели одинаково, но ascii-коды у них отличались.
ПС видит только ascii-коды, а человек – изображение, так что такая замена имеет место быть
Я думаю, что боты и так не будут расшифровывать ascii-коды, без дополнительных ухищрений…
http://www.ascii.cl/htmlcodes.htm
[...] Вот здесь я недавно пытался рассуждать про способы уникализации текста, но потрепаться это одно, гораздо интереснее попробовать все на практике. Поэтому я сделал демку уникализатора контента, чтобы можно было посмотреть на эти методы воочию. [...]
Да со всеми этими способами ПС давно знакомы
и имхо толк если и будет то только временный, а затем или бан или поклейка.
Я пока сам пишу, но темпы надо всё же наращивать.Спасибо за опыт.
[...] Во первых это ДЫЦ! Ни одного нормального упоминания данного сервиса в рунете, кроме как тут и тут в комментариях. [...]
Отличная статья, но хотелось бы от автора увидеть эту же статью, но более свежую,т.е. апгрейд бы сделать. Тенденции то меняються и методики поисковых роботов так же эволюционируют.
Недавно появилась система по уникализации контента.
Используется много методов (в том числе шинглы и синонимы).
Есть возможность объединять методы.
http://generi.ru/?ref=35
Вопрос!!!! А Яша может забанить за Уникализацию контента ??????????? А то просто будешь так делать возьмут и забанят к чертям
за уникализацию не банят, самое страшное в индекс не попадет результат трудов твоих
А может кто пробовал метод подмены русских букв английскими? Напишите отзывы пожалуйста!
На мой счет машинный перевод – лучший способ – в буржу нете есть много сайтов с нужным вам контентом – перводите, ненмого правите до читабильного и готово
Я думаю, что лучший вариант для уникализации контента http://www.phpsin.ru/gold/ попробуйте и убедитесь сами.
[...] Arser собрал воедино методы уникализации контента в автоматическом режиме. [...]