Дело – труба (часть 1)

21.12.2007

Я тут как-то Тормозу пообещал обменяться сантехническим опытом по монтажу и пуско-наладке трубопроводов. И хоть я почти нихрена не понял из его закрученной системы коммуникаций, а пояснения к чертежам мы так и не дождались, обещания все же надо выполнять. Только я пойду по другому пути – буду публиковать небольшие и полезные идеи для труб, а собрать из этого конструктора цельный рабочий движок вы и сами сможете.

Как получить полный текст статей из RSS ленты поиска по блогам?
Задача: у нас есть список кивордов, по которым мы хотим получить свежие тексты из различных тематических блогов и новостных сайтов. Сразу скажу, что мой метод основывается на утверждении о том, что большинство блогов сейчас отдают полный текст статей в rss фиде. А как лучше всего искать свежие новости и статьи? Правильно – с помощью поисковиков по блогам, таких как google blogsearch или technorati. Далее лишь остается пройтись по найденным url, и взять текст поста уже непосредственно с фида сайтов. Собственно, ниже скрин реализации этой простой и гениальной идеи :)

pipe1.gif

Как можно догадаться, в таком самом простом виде эта труба не даст 100% гарантируемый результат. Во-первых, блог может отдавать статьи под катом, во-вторых, если блог обновляется довольно часто, то мы получим не ту статью, что хотели, а другую – более свежую. И хотя лично меня такие результаты вполне устраивают, все же эти проблемы можно решить с большой долей вероятности успеха. Можно запрашивать не один блог и не одну статью, а “с запасом” в 3-5 постов. Далее просто нужно отсечь все лишнее:

- Отфильтровать резаные стать, например, заблокировать тексты с “…” или по другим признакам.
- Можно искать ключевые слова в title и description, и если их нет – не пропускать пост.
- Сравнивать url из поиска по блогам непосредственно с линками в фиде блога. Как это реализовать с помощью yahoo pipes я не знаю, но метод надежный, и можно запрограммить свои пару строчек кода.
- Делать сортировку по дате поста, а не по релевантности в поисковиках по блогам.

Если это будет интересно, далее я планирую рассказать, как в Yahoo Pipes можно использовать Google Trends и как решить проблему с RU кодировками.

Да, вы ведь поняли что делать со всем этим дальше?

Еще по теме:

Комментарии (18) на "Дело – труба (часть 1)"

  1. Тормоз says:

    Неплохо ) А пояснения я планирую чуть попозже сделать, просто некогда как-то.
    Насчёт трендов многие спрашивают, тут, например.

  2. Тормоз says:

    Заклинило, bb-коды вставил ))

  3. [...] вам использовать в качестве добытчика контента Yahoo.Pipes-трубу by Arser. Она может искать контент по заданному кею и тянуть [...]

  4. [...] что, заработало? Тогда зайдите еще и сюда. Теперь вы можете считать, что поимели совершенно [...]

  5. [...] Дело – труба (часть 1) [21.12.2007] [...]

  6. mommalomas says:

    привет. Вроде всё повторил один в один,но почему-то не показывается полный текст поста. Как будто все фиды под катом. Твоя схема еще работает, или это у меня руки кривые? :)

  7. Arser says:

    mommalomas, смотри результат в rss-ридере ;-)

  8. mommalomas says:

    ага. точно. работает.
    бум прикручивать к сплогам.
    Vielen Dank!

  9. Alex says:

    а можно ссылку на трубу ?
    на мыло хотя бы

  10. Arser says:

    Alex, нет. У меня уже нет этой трубы в таком виде, специально составлял для поста…

  11. Maksimo says:

    С этой трубой у меня проблема. На выходе вобще ничего нет.
    Адрес прописывал
    api.technorati.com
    в пункте key написал свой API в technorati
    что значит пункт authority в URL builder не понял, поэтому прописал как и в скрине a4.
    В качестве блока который находится справа на скриншоте, и задаёт ключевик , использовал блок Text input.

    Где может быть ошибка? Помогите. Могу дать ссылку на трубу.

  12. Arser says:

    api.technorati.com/tag

  13. Maksimo says:

    Вот труба http://pipes.yahoo.com/pipes/pipe.edit?_id=PALx2pXC3BGu6XcinkartA. Всё равно и с tag не помогло

  14. Arser says:

    Да, вместо tag должно быть search. Киворды всякие попробуй, уже предвижу вопросы следующие :)

  15. Maksimo says:

    Вопрос конечно ты предугадал “Как объеденить две трубы в одну?” :)
    Ещё у меня есть к тебе вопрос по Widgetbucks, вставляю их блоки в сплоги, но увидеть их немогу, возможно из-за IP?

  16. Arser says:

    Посмотри слева в меню – My pipes, а дальше думай сам :)
    Если widgetbucks новый код – то там для не usa ip должна все-равно отображаться графическая реклама с оплатой за показы. Может что-то с твоим браузером, флеш-плейером или фаерволом, хз…

  17. Alex says:

    Полезная статья. Спасибо

Отправить комментарий