Дело — труба (часть 1)

Дата Автор Arser19 комментариев

Я тут как-то Тормозу пообещал обменяться сантехническим опытом по монтажу и пуско-наладке трубопроводов. И хоть я почти нихрена не понял из его закрученной системы коммуникаций, а пояснения к чертежам мы так и не дождались, обещания все же надо выполнять. Только я пойду по другому пути – буду публиковать небольшие и полезные идеи для труб, а собрать из этого конструктора цельный рабочий движок вы и сами сможете.

Как получить полный текст статей из RSS ленты поиска по блогам?
Задача: у нас есть список кивордов, по которым мы хотим получить свежие тексты из различных тематических блогов и новостных сайтов. Сразу скажу, что мой метод основывается на утверждении о том, что большинство блогов сейчас отдают полный текст статей в rss фиде. А как лучше всего искать свежие новости и статьи? Правильно – с помощью поисковиков по блогам, таких как google blogsearch или technorati. Далее лишь остается пройтись по найденным url, и взять текст поста уже непосредственно с фида сайтов. Собственно, ниже скрин реализации этой простой и гениальной идеи 🙂

pipe1.gif

Как можно догадаться, в таком самом простом виде эта труба не даст 100% гарантируемый результат. Во-первых, блог может отдавать статьи под катом, во-вторых, если блог обновляется довольно часто, то мы получим не ту статью, что хотели, а другую – более свежую. И хотя лично меня такие результаты вполне устраивают, все же эти проблемы можно решить с большой долей вероятности успеха. Можно запрашивать не один блог и не одну статью, а «с запасом» в 3-5 постов. Далее просто нужно отсечь все лишнее:

— Отфильтровать резаные стать, например, заблокировать тексты с «…» или по другим признакам.
— Можно искать ключевые слова в title и description, и если их нет – не пропускать пост.
— Сравнивать url из поиска по блогам непосредственно с линками в фиде блога. Как это реализовать с помощью yahoo pipes я не знаю, но метод надежный, и можно запрограммить свои пару строчек кода.
— Делать сортировку по дате поста, а не по релевантности в поисковиках по блогам.

Если это будет интересно, далее я планирую рассказать, как в Yahoo Pipes можно использовать Google Trends и как решить проблему с RU кодировками.

Да, вы ведь поняли что делать со всем этим дальше?

19 комментария на «Дело — труба (часть 1)»

  1. привет. Вроде всё повторил один в один,но почему-то не показывается полный текст поста. Как будто все фиды под катом. Твоя схема еще работает, или это у меня руки кривые? 🙂

  2. С этой трубой у меня проблема. На выходе вобще ничего нет.
    Адрес прописывал
    api.technorati.com
    в пункте key написал свой API в technorati
    что значит пункт authority в URL builder не понял, поэтому прописал как и в скрине a4.
    В качестве блока который находится справа на скриншоте, и задаёт ключевик , использовал блок Text input.

    Где может быть ошибка? Помогите. Могу дать ссылку на трубу.

  3. Вопрос конечно ты предугадал «Как объеденить две трубы в одну?» 🙂
    Ещё у меня есть к тебе вопрос по Widgetbucks, вставляю их блоки в сплоги, но увидеть их немогу, возможно из-за IP?

  4. Посмотри слева в меню — My pipes, а дальше думай сам 🙂
    Если widgetbucks новый код — то там для не usa ip должна все-равно отображаться графическая реклама с оплатой за показы. Может что-то с твоим браузером, флеш-плейером или фаерволом, хз…

  5. Ребят, подскажите, как получить выдачу с сайта, на котором нет RSS?
    Знаю, что вопрос простой, но быстро разобраться не получилось.

Добавить комментарий

Ваш e-mail не будет опубликован. Обязательные поля помечены *