Уникализатор контента WordPress Unikalizator

В моей сборке wordpress для создания сплога присутствует плагин-уникализатор контента Unikalizator (за авторством  Arser). В связке с RSS-граббером WP-o-Matic они автоматически наполняют сплог-говноблог уникальным конетентом.

Именно на Уникализаторе я хочу остановиться подробней. Конкретно — рассмотрю вопрос добавления синонимов в базу данных плагина. В комментариях на странице описания плагина поднимается вопрос о том, как же добавить в базу синонимов сколь-нибудь приличный словарь русских синонимов? Для решения задачи предлагается «один раз добавить синонимы руками, а затем делать экспорт таблицы mySQL с последующим импортом для каждого нового сайта». По-моему подход в корне неверный — добавлять синонимы руками нужно в последнюю очередь. Да и зачем хранить дампы таблиц, если у нас есть текстовый файл с синонимами? Я предлагаю воспользоваться такой возможностью phpMyAdmin, как Импорт.

Итак, идём в phpMyAdmin, выбираем нужную таблицу (она называется wp_unik_synonims_ru, вместо wp может быть другой префикс имени базы данных, указанный вами в файле конфигурации wordpress (wpconfig.php), вместо ru — соответственно другой язык). Выбираем вкладку Импорт:

sql_importУказываем Формат импортируемого файла как CSV и заполняем поля так, как показано на картинке:

Импорт CSV в mySQLОбратите внимание на то, что файл словаря синонимов можно загружать сжатым (zip или gzip). Сэкономите время на загрузку и трафик. Также проверьте кодировку файла с синонимами. Лучше всего, если это будет UTF-8 (немного про перекодирование я писал раньше). Замещение данных и Игнорирование повторяющихся строк включите при необходимости.

Итак, параметры импорта указаны, осталось нажать OK, дождаться завершения операции и убедиться, что всё прошло успешно:

Успешный импорт CSV в mySQLЯ считаю, что предложенный мной способ добавления синонимов в базу wordpress-плагина для мутации контента «Уникализатор» удобней, чем ручное внесение словаря с последующим экспортом-импортом дампа БД.

Теперь настало время воспользовться плодами своего труда и проверить работу Уникализатора на практике. Со стандартным словарём синонимо результат будет пригоден только для машинного восприятия, человек же подобную белиберду читать вряд ли станет. Выход есть — составить свой собственный, тематический словарь синонимов для плагина — тогда обработанные им тексты станут намного лучше. Оценить результаты синонимизации поможет проверка текста на плагиат — с её помощью можно наглядно понять, насколько обработанный Уникализаторм текст отличается от оригинала и прикинуть, каковы его шансы проскочить фильтры поисковых систем.

Добавление: выкладываю дамп MySQL таблицы с синонимами для уникализатора (zip | gzip, словарь Абрамова).



Category Рубрики: seo, Блоггинг | Tag Метки: , | Comments 56 комментариев »

56 комментариев

  1. alexander says:

    По ссылке недоступен более архив синонимов. Залей по новой а?

  2. ifti says:

    ссылка на словарь не работает 404!

  3. dimio says:

    Перезалил, качайте. Спасибо за баг-репорт 🙂

  4. Только вчера на эту тему думал, так что пост определенно в тему!

  5. Я его себе установил, только он сплошные ошибки выдаёт и всё тут. Нифига не хотит работать.

    • dimio says:

      Для начала неплохо бы знать, какие именно ошибки. Если конечно Вы не просто для справки это написали.
      У меня проблем с этим плагином не было, нормально отрабатывает на сайте.

  6. Уже разобрался с чем это связано. выдержка с другого блога
    > А когда жму “Опубликовать”, пишет:
    Fatal error: Call to undefined function mb_strtolower() in Z:\home\wordpress26\www\wp-content\plugins\unikalizator.php on line 390
    Короче нужно поставить mbstring библиотеку.
    > …это значит на твоем хостинге php собран без модуля mbstring. Если сервер свой, пересобери ПХП и счастье наступит, если нет — то только замена хостера. Можно поменять mb_strtolower на strtolower в коде уникализатора, но тогда кириллица перестанет поддерживаться.

  7. Да в том-то и проблема, что мой хостинг не подходит, а жаль, вещь действительно интересная…
    Если бы у моего блога была кодировка windows-1251, то можно было бы просто поменять mb_strtolower на strtolower и тогда бы всё работало (как говорят), но у меня utf-8.

    • dimio says:

      Ну можно переписать в принципе попробовать, отказавшись от mbstring. Я так понимаю, что это конвертация кодировок? Реализовать нужные функции этой либы внутри самого плагина.

  8. Поставил базу. все норм. только непонятко как связывать WP-o-Matic с Уникализатором! Нарыл в нете вот такую инфу

    к плагину wp-o-matic для автоматической регистрации. В файле wpomatic.php нужно найти функцию insertPost, и заменить строку
    ‘post_content’ => $content,
    на сторку
    ‘post_content’ => unikalizator_do_action ($content),

    Но когда прописываю эту строку WP-o-Matic грабить отказывается!

    • dimio says:

      Я тоже эту строку менял, всё нормально работало. Кстати, потом поменял обратно — разницы не заметил, последний wp-o-matic и так прекрасно с уникализатором взаимодействовал.
      В чём конкретно выражается отказ грабить? Какие-то сообщения об ошибках присутствуют?

  9. Да собственно никаких ошибок нет, тупо показывает 0 постов! И кстати уникализации я как то вообще не почувствовал(((

    • dimio says:

      Тогда не знаю, чем помочь. Попробуем по-другому. У меня связка wp-o-matic + уникализатор работает в такой конфигурации:

      1. WordPress версия 2.8.4
      2. WP-o-Matic версия 1.0RC4-6
      3. Unikalizator версия 1.0
      • Аноним says:

        Уважаемый dimio! Делаю импорт по Вашему рецепту, однако в результате phpmyadmin показывает пустую таблицу. Что делать?

        • dimio says:

          И никаких диагностических сообщений не выводит? Кодировка файла со словарями и кодировка базы совпадают?

      • Аноним says:

        Да, ещё один вопрос: где взять хотя бы 2-3 новостные ленты с полными новостями?
        Спасибо!

        • dimio says:

          Искать «агрегаторы RSS» — это каталоги с лентами разных сайтов. Потом просто выбираешь для себя что нужно. Разные популярные сайты отдают RSS, среди них бывают и полные версии, сайты газет (в т. ч. электронных).
          Ещё можно сделать из неполной ленты полную используя yahoo pipes (в простом случае — 5 минут работы и получаем полную лента, а для сложного случая — проще найти другой сайт с RSS нужной темы 🙂 ). Yahoo pipes кстати можно ещё и перевести контент, т. е. можно с иностранных сайтов новости получать.

  10. Аноним says:

    И файл со словарём и база в кодировке utf-8. Идёт процесс загрузки, проходит спокойно и ничего не происходит, не вываливается никаких сообщений, просто обычное окно phpmyadmin со списком баз слева и пустым местом справа. Кликаешь на базу — показывает 0 строк.@ dimio:

    • dimio says:

      Формат разделителя строки при импорте? А можете мне кинуть словарь или его кусочек на почту, я бы вечером попробовал себе импортировать. Любопытно, что же там может не работать.

  11. Аноним says:

    Да, в левом нижнем углу пишет «готово».@ :

  12. Аноним says:

    Формат разделителя строки при импорте? Как и у Вас на картинке — auto. Уже пробовал названия столбцов keyword и syn разделять и точкой и запятой, и ставить/не ставить две/одну галки в параметрах… А словарь я взял у Вас, по ссылке в посте…@ dimio:

    • dimio says:

      Даже не знаю, что ещё предположить. Разные версии phpMyAdmin? У меня на хостинге phpMyAdmin — 2.11.9.5

  13. Аноним says:

    А у меня phpMyAdmin — 2.11.9.1, неужели из-за этого?. Интересно, а может быть вообще убить таблицу unik_synonyms_ru и создать её заново?@ dimio:

    • dimio says:

      Вполне может быть. По крайней мере мне пока больше ничего в голову не пришло, кроме как разные ошибки в разных версия ПО.
      Попробуйте, почему бы и нет. Всё равно она пустая.
      Кстати, а через интерфейс плагина-то добавляются синонимы?

  14. Аноним says:

    Да. Но это длительный процесс. Хотелось ускорения. Теперь придётся всё делать ручками. Спасибо за помощь!@ dimio:

    • dimio says:

      Не за что пока… Это я спросил на случай, если вдруг и через плагин не добавляются — тогда можно было бы с той стороны подойти к проблеме.
      А вы пробовали сжатый файл импортировать или несжатый? Может тут проблема кроется. Сделайте небольшой тестовый словарик на несколько строк синонимов и на нём попробуйте проверить так и этак.

  15. Аноним says:

    Несжатый маленький файл добавляется успешно (сообщение phpmyadmin), но в таблицу данные не попадают!!! Видимо всё дело в другой версии админа…@ dimio:

    • dimio says:

      Да, тогда пожалуй проблема где-то в самом админе. Могу дамп таблицы сделать вечером, чтобы руками словарь не забивать. Всё проще будет.

  16. Аноним says:

    Спасибо, не стоит. Больше половины уже сделано. Работы осталось на полчаса. @ dimio:

  17. Алексей says:

    Доброго времени суток вам, люди добрые — угостите пожалуйста готовым sql дампом на ящик , iactiv@mail.ru, заранее благодарен

  18. Андрей says:

    ее публиковть не через csv, а просто sql да и еще, у меня на ПхПадмине нету формата zip. если я возьму и просто изменю его на gzip. Т.е. твой последний файл который выше.. схавает ли его моя бд ?

  19. Андрей says:

    Выложи дамп табл. пож в gzip

      • Андрей says:

        Благодарствую, но по непонятным мне причинам… не кушает даже так… все делаю 1 в 1

        К тому же вчера сел и руками за 4 часа вбил 97к слов 🙂 Попробовал сохранить и в тхт и в гзипе и потом залить в другую БД… на другой саттел… не хочет.. браузер прогружает от 5-10 мин и скидывает еррор.. все перепроверял, размер для атача 50 Мб… даже вот свой дамп не хавает…

        • dimio says:

          В общем-то я тоже так сделал, только сжимал gzip’om. Можно попробовать tar -czf в ещё, но не думаю, что дело в этом. Мы тут выше с человеком обсуждали уже проблему с невозможностью импорта в базу. Может дело в phpMyAdmin. Я для проверки скачал дамп в gz — нормально импортировался, новая таблица создалась автоматом, phpMyAdmin версии 3.2.4 у меня.
          Если есть шелл на хостинге — можно через него импортировать в принципе.
          Кстати, только заметил — на вкладке импорта показан макс. возможный размер импортируемого файла — может у вас там будет отличное от заданного в настройках значение из-за какого-нибудь сбоя?
          sql_import

          • Андрей says:

            phpMyAdmin Информация о версии: 3.2.4

            Версия MySQL-клиента: 4.1.22

            Размер для атача у меня 50 Мб

            Да странно… даже в тхт база на 17 Мб. и в архиве в зависимости чем и как ужимать от 3,5-4,8 Мб до лимита еще далековато…

            При атаче у меня еррор вылетат с указанием обычно 1к+ строки .. мол 1068 строка не верно заданы параметры что то вроде того..

            Спасибо за помощь и не бери в голову, я решил все же отказаться от словомешали с контентом такой.. это ж самый настоящий спам 🙂

            Хотя обязательно в ближайшее время парочку запущу потестю…

            • dimio says:

              Я, честно говоря, один сплог сделал ради интереса, но как-то понял, что не моё.
              А чтобы уникализатор более-менее нормальный текст давал — надо ему тематический словарь скармливать, причём самостоятельно составленный (или хотя бы проверенный), тогда результат поосмысленней будет.

  20. Братан, ты просто молорик што написал этот пост, блин ты бы знал как я замучался на одном своем блоге в ручную вбивать синонимы….
    их там ведь почти 100к, много сразу не засунешь…кароч мату было пзц)….а тут буквально все за минуту добавилось…ваще кароч респект за инфо!

Добавить комментарий