Уникализатор контента WordPress Unikalizator

В моей сборке wordpress для создания сплога присутствует плагин-уникализатор контента Unikalizator (за авторством  Arser). В связке с RSS-граббером WP-o-Matic они автоматически наполняют сплог-говноблог уникальным конетентом.

Именно на Уникализаторе я хочу остановиться подробней. Конкретно – рассмотрю вопрос добавления синонимов в базу данных плагина. В комментариях на странице описания плагина поднимается вопрос о том, как же добавить в базу синонимов сколь-нибудь приличный словарь русских синонимов? Для решения задачи предлагается “один раз добавить синонимы руками, а затем делать экспорт таблицы mySQL с последующим импортом для каждого нового сайта”. По-моему подход в корне неверный – добавлять синонимы руками нужно в последнюю очередь. Да и зачем хранить дампы таблиц, если у нас есть текстовый файл с синонимами? Я предлагаю воспользоваться такой возможностью phpMyAdmin, как Импорт.

Итак, идём в phpMyAdmin, выбираем нужную таблицу (она называется wp_unik_synonims_ru, вместо wp может быть другой префикс имени базы данных, указанный вами в файле конфигурации wordpress (wpconfig.php), вместо ru – соответственно другой язык). Выбираем вкладку Импорт:

sql_importУказываем Формат импортируемого файла как CSV и заполняем поля так, как показано на картинке:

Импорт CSV в mySQLОбратите внимание на то, что файл словаря синонимов можно загружать сжатым (zip или gzip). Сэкономите время на загрузку и трафик. Также проверьте кодировку файла с синонимами. Лучше всего, если это будет UTF-8 (немного про перекодирование я писал раньше). Замещение данных и Игнорирование повторяющихся строк включите при необходимости.

Итак, параметры импорта указаны, осталось нажать OK, дождаться завершения операции и убедиться, что всё прошло успешно:

Успешный импорт CSV в mySQLЯ считаю, что предложенный мной способ добавления синонимов в базу wordpress-плагина для мутации контента Уникализатор” удобней, чем ручное внесение словаря с последующим экспортом-импортом дампа БД.

Теперь настало время воспользовться плодами своего труда и проверить работу Уникализатора на практике. Со стандартным словарём синонимо результат будет пригоден только для машинного восприятия, человек же подобную белиберду читать вряд ли станет. Выход есть – составить свой собственный, тематический словарь синонимов для плагина – тогда обработанные им тексты станут намного лучше. Оценить результаты синонимизации поможет проверка текста на плагиат – с её помощью можно наглядно понять, насколько обработанный Уникализаторм текст отличается от оригинала и прикинуть, каковы его шансы проскочить фильтры поисковых систем.

Добавление: выкладываю дамп MySQL таблицы с синонимами для уникализатора (zip | gzip, словарь Абрамова).

56 мыслей о “Уникализатор контента WordPress Unikalizator”

    1. Для начала неплохо бы знать, какие именно ошибки. Если конечно Вы не просто для справки это написали.
      У меня проблем с этим плагином не было, нормально отрабатывает на сайте.

  1. Уже разобрался с чем это связано. выдержка с другого блога
    > А когда жму “Опубликовать”, пишет:
    Fatal error: Call to undefined function mb_strtolower() in Z:\home\wordpress26\www\wp-content\plugins\unikalizator.php on line 390
    Короче нужно поставить mbstring библиотеку.
    > …это значит на твоем хостинге php собран без модуля mbstring. Если сервер свой, пересобери ПХП и счастье наступит, если нет – то только замена хостера. Можно поменять mb_strtolower на strtolower в коде уникализатора, но тогда кириллица перестанет поддерживаться.

  2. Да в том-то и проблема, что мой хостинг не подходит, а жаль, вещь действительно интересная…
    Если бы у моего блога была кодировка windows-1251, то можно было бы просто поменять mb_strtolower на strtolower и тогда бы всё работало (как говорят), но у меня utf-8.

    1. Ну можно переписать в принципе попробовать, отказавшись от mbstring. Я так понимаю, что это конвертация кодировок? Реализовать нужные функции этой либы внутри самого плагина.

  3. Поставил базу. все норм. только непонятко как связывать WP-o-Matic с Уникализатором! Нарыл в нете вот такую инфу

    к плагину wp-o-matic для автоматической регистрации. В файле wpomatic.php нужно найти функцию insertPost, и заменить строку
    ‘post_content’ => $content,
    на сторку
    ‘post_content’ => unikalizator_do_action ($content),

    Но когда прописываю эту строку WP-o-Matic грабить отказывается!

    1. Я тоже эту строку менял, всё нормально работало. Кстати, потом поменял обратно – разницы не заметил, последний wp-o-matic и так прекрасно с уникализатором взаимодействовал.
      В чём конкретно выражается отказ грабить? Какие-то сообщения об ошибках присутствуют?

    1. Тогда не знаю, чем помочь. Попробуем по-другому. У меня связка wp-o-matic + уникализатор работает в такой конфигурации:

      1. WordPress версия 2.8.4
      2. WP-o-Matic версия 1.0RC4-6
      3. Unikalizator версия 1.0
      1. Уважаемый dimio! Делаю импорт по Вашему рецепту, однако в результате phpmyadmin показывает пустую таблицу. Что делать?

        1. И никаких диагностических сообщений не выводит? Кодировка файла со словарями и кодировка базы совпадают?

      2. Да, ещё один вопрос: где взять хотя бы 2-3 новостные ленты с полными новостями?
        Спасибо!

        1. Искать “агрегаторы RSS” – это каталоги с лентами разных сайтов. Потом просто выбираешь для себя что нужно. Разные популярные сайты отдают RSS, среди них бывают и полные версии, сайты газет (в т. ч. электронных).
          Ещё можно сделать из неполной ленты полную используя yahoo pipes (в простом случае – 5 минут работы и получаем полную лента, а для сложного случая – проще найти другой сайт с RSS нужной темы 🙂 ). Yahoo pipes кстати можно ещё и перевести контент, т. е. можно с иностранных сайтов новости получать.

  4. И файл со словарём и база в кодировке utf-8. Идёт процесс загрузки, проходит спокойно и ничего не происходит, не вываливается никаких сообщений, просто обычное окно phpmyadmin со списком баз слева и пустым местом справа. Кликаешь на базу – показывает 0 строк.@ dimio:

    1. Формат разделителя строки при импорте? А можете мне кинуть словарь или его кусочек на почту, я бы вечером попробовал себе импортировать. Любопытно, что же там может не работать.

  5. Формат разделителя строки при импорте? Как и у Вас на картинке – auto. Уже пробовал названия столбцов keyword и syn разделять и точкой и запятой, и ставить/не ставить две/одну галки в параметрах… А словарь я взял у Вас, по ссылке в посте…@ dimio:

    1. Даже не знаю, что ещё предположить. Разные версии phpMyAdmin? У меня на хостинге phpMyAdmin – 2.11.9.5

  6. А у меня phpMyAdmin – 2.11.9.1, неужели из-за этого?. Интересно, а может быть вообще убить таблицу unik_synonyms_ru и создать её заново?@ dimio:

    1. Вполне может быть. По крайней мере мне пока больше ничего в голову не пришло, кроме как разные ошибки в разных версия ПО.
      Попробуйте, почему бы и нет. Всё равно она пустая.
      Кстати, а через интерфейс плагина-то добавляются синонимы?

  7. Да. Но это длительный процесс. Хотелось ускорения. Теперь придётся всё делать ручками. Спасибо за помощь!@ dimio:

    1. Не за что пока… Это я спросил на случай, если вдруг и через плагин не добавляются – тогда можно было бы с той стороны подойти к проблеме.
      А вы пробовали сжатый файл импортировать или несжатый? Может тут проблема кроется. Сделайте небольшой тестовый словарик на несколько строк синонимов и на нём попробуйте проверить так и этак.

  8. Несжатый маленький файл добавляется успешно (сообщение phpmyadmin), но в таблицу данные не попадают!!! Видимо всё дело в другой версии админа…@ dimio:

    1. Да, тогда пожалуй проблема где-то в самом админе. Могу дамп таблицы сделать вечером, чтобы руками словарь не забивать. Всё проще будет.

  9. Спасибо, не стоит. Больше половины уже сделано. Работы осталось на полчаса. @ dimio:

  10. Доброго времени суток вам, люди добрые – угостите пожалуйста готовым sql дампом на ящик , iactiv@mail.ru, заранее благодарен

  11. ее публиковть не через csv, а просто sql да и еще, у меня на ПхПадмине нету формата zip. если я возьму и просто изменю его на gzip. Т.е. твой последний файл который выше.. схавает ли его моя бд ?

      1. Я сделал проще, разархивил zip твой и 7zip заархивил в гз.. результат в посте ниже )

      1. Благодарствую, но по непонятным мне причинам… не кушает даже так… все делаю 1 в 1

        К тому же вчера сел и руками за 4 часа вбил 97к слов 🙂 Попробовал сохранить и в тхт и в гзипе и потом залить в другую БД… на другой саттел… не хочет.. браузер прогружает от 5-10 мин и скидывает еррор.. все перепроверял, размер для атача 50 Мб… даже вот свой дамп не хавает…

        1. В общем-то я тоже так сделал, только сжимал gzip’om. Можно попробовать tar -czf в ещё, но не думаю, что дело в этом. Мы тут выше с человеком обсуждали уже проблему с невозможностью импорта в базу. Может дело в phpMyAdmin. Я для проверки скачал дамп в gz – нормально импортировался, новая таблица создалась автоматом, phpMyAdmin версии 3.2.4 у меня.
          Если есть шелл на хостинге – можно через него импортировать в принципе.
          Кстати, только заметил – на вкладке импорта показан макс. возможный размер импортируемого файла – может у вас там будет отличное от заданного в настройках значение из-за какого-нибудь сбоя?
          sql_import

          1. phpMyAdmin Информация о версии: 3.2.4

            Версия MySQL-клиента: 4.1.22

            Размер для атача у меня 50 Мб

            Да странно… даже в тхт база на 17 Мб. и в архиве в зависимости чем и как ужимать от 3,5-4,8 Мб до лимита еще далековато…

            При атаче у меня еррор вылетат с указанием обычно 1к+ строки .. мол 1068 строка не верно заданы параметры что то вроде того..

            Спасибо за помощь и не бери в голову, я решил все же отказаться от словомешали с контентом такой.. это ж самый настоящий спам 🙂

            Хотя обязательно в ближайшее время парочку запущу потестю…

            1. Я, честно говоря, один сплог сделал ради интереса, но как-то понял, что не моё.
              А чтобы уникализатор более-менее нормальный текст давал – надо ему тематический словарь скармливать, причём самостоятельно составленный (или хотя бы проверенный), тогда результат поосмысленней будет.

  12. Братан, ты просто молорик што написал этот пост, блин ты бы знал как я замучался на одном своем блоге в ручную вбивать синонимы….
    их там ведь почти 100к, много сразу не засунешь…кароч мату было пзц)….а тут буквально все за минуту добавилось…ваще кароч респект за инфо!

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *