В моей сборке wordpress для создания сплога присутствует плагин-уникализатор контента Unikalizator (за авторством Arser). В связке с RSS-граббером WP-o-Matic они автоматически наполняют сплог-говноблог уникальным конетентом.
Именно на Уникализаторе я хочу остановиться подробней. Конкретно – рассмотрю вопрос добавления синонимов в базу данных плагина. В комментариях на странице описания плагина поднимается вопрос о том, как же добавить в базу синонимов сколь-нибудь приличный словарь русских синонимов? Для решения задачи предлагается “один раз добавить синонимы руками, а затем делать экспорт таблицы mySQL с последующим импортом для каждого нового сайта”. По-моему подход в корне неверный – добавлять синонимы руками нужно в последнюю очередь. Да и зачем хранить дампы таблиц, если у нас есть текстовый файл с синонимами? Я предлагаю воспользоваться такой возможностью phpMyAdmin, как Импорт.
Итак, идём в phpMyAdmin, выбираем нужную таблицу (она называется wp_unik_synonims_ru, вместо wp может быть другой префикс имени базы данных, указанный вами в файле конфигурации wordpress (wpconfig.php), вместо ru – соответственно другой язык). Выбираем вкладку Импорт:
Указываем Формат импортируемого файла как CSV и заполняем поля так, как показано на картинке:
Обратите внимание на то, что файл словаря синонимов можно загружать сжатым (zip или gzip). Сэкономите время на загрузку и трафик. Также проверьте кодировку файла с синонимами. Лучше всего, если это будет UTF-8 (немного про перекодирование я писал раньше). Замещение данных и Игнорирование повторяющихся строк включите при необходимости.
Итак, параметры импорта указаны, осталось нажать OK, дождаться завершения операции и убедиться, что всё прошло успешно:
Я считаю, что предложенный мной способ добавления синонимов в базу wordpress-плагина для мутации контента “Уникализатор” удобней, чем ручное внесение словаря с последующим экспортом-импортом дампа БД.
Теперь настало время воспользовться плодами своего труда и проверить работу Уникализатора на практике. Со стандартным словарём синонимо результат будет пригоден только для машинного восприятия, человек же подобную белиберду читать вряд ли станет. Выход есть – составить свой собственный, тематический словарь синонимов для плагина – тогда обработанные им тексты станут намного лучше. Оценить результаты синонимизации поможет проверка текста на плагиат – с её помощью можно наглядно понять, насколько обработанный Уникализаторм текст отличается от оригинала и прикинуть, каковы его шансы проскочить фильтры поисковых систем.
Добавление: выкладываю дамп MySQL таблицы с синонимами для уникализатора (zip | gzip, словарь Абрамова).
По ссылке недоступен более архив синонимов. Залей по новой а?
ссылка на словарь не работает 404!
Перезалил, качайте. Спасибо за баг-репорт 🙂
Только вчера на эту тему думал, так что пост определенно в тему!
Я его себе установил, только он сплошные ошибки выдаёт и всё тут. Нифига не хотит работать.
Для начала неплохо бы знать, какие именно ошибки. Если конечно Вы не просто для справки это написали.
У меня проблем с этим плагином не было, нормально отрабатывает на сайте.
Уже разобрался с чем это связано. выдержка с другого блога
> А когда жму “Опубликовать”, пишет:
Fatal error: Call to undefined function mb_strtolower() in Z:\home\wordpress26\www\wp-content\plugins\unikalizator.php on line 390
Короче нужно поставить mbstring библиотеку.
> …это значит на твоем хостинге php собран без модуля mbstring. Если сервер свой, пересобери ПХП и счастье наступит, если нет – то только замена хостера. Можно поменять mb_strtolower на strtolower в коде уникализатора, но тогда кириллица перестанет поддерживаться.
Ну что ж, прекрасно, что всё благополучно разрешилось 🙂
Да в том-то и проблема, что мой хостинг не подходит, а жаль, вещь действительно интересная…
Если бы у моего блога была кодировка windows-1251, то можно было бы просто поменять mb_strtolower на strtolower и тогда бы всё работало (как говорят), но у меня utf-8.
Ну можно переписать в принципе попробовать, отказавшись от mbstring. Я так понимаю, что это конвертация кодировок? Реализовать нужные функции этой либы внутри самого плагина.
Поставил базу. все норм. только непонятко как связывать WP-o-Matic с Уникализатором! Нарыл в нете вот такую инфу
к плагину wp-o-matic для автоматической регистрации. В файле wpomatic.php нужно найти функцию insertPost, и заменить строку
‘post_content’ => $content,
на сторку
‘post_content’ => unikalizator_do_action ($content),
Но когда прописываю эту строку WP-o-Matic грабить отказывается!
Я тоже эту строку менял, всё нормально работало. Кстати, потом поменял обратно – разницы не заметил, последний wp-o-matic и так прекрасно с уникализатором взаимодействовал.
В чём конкретно выражается отказ грабить? Какие-то сообщения об ошибках присутствуют?
Да собственно никаких ошибок нет, тупо показывает 0 постов! И кстати уникализации я как то вообще не почувствовал(((
Тогда не знаю, чем помочь. Попробуем по-другому. У меня связка wp-o-matic + уникализатор работает в такой конфигурации:
Уважаемый dimio! Делаю импорт по Вашему рецепту, однако в результате phpmyadmin показывает пустую таблицу. Что делать?
И никаких диагностических сообщений не выводит? Кодировка файла со словарями и кодировка базы совпадают?
Да, ещё один вопрос: где взять хотя бы 2-3 новостные ленты с полными новостями?
Спасибо!
Искать “агрегаторы RSS” – это каталоги с лентами разных сайтов. Потом просто выбираешь для себя что нужно. Разные популярные сайты отдают RSS, среди них бывают и полные версии, сайты газет (в т. ч. электронных).
Ещё можно сделать из неполной ленты полную используя yahoo pipes (в простом случае – 5 минут работы и получаем полную лента, а для сложного случая – проще найти другой сайт с RSS нужной темы 🙂 ). Yahoo pipes кстати можно ещё и перевести контент, т. е. можно с иностранных сайтов новости получать.
И файл со словарём и база в кодировке utf-8. Идёт процесс загрузки, проходит спокойно и ничего не происходит, не вываливается никаких сообщений, просто обычное окно phpmyadmin со списком баз слева и пустым местом справа. Кликаешь на базу – показывает 0 строк.@ dimio:
Формат разделителя строки при импорте? А можете мне кинуть словарь или его кусочек на почту, я бы вечером попробовал себе импортировать. Любопытно, что же там может не работать.
Да, в левом нижнем углу пишет “готово”.@ :
Формат разделителя строки при импорте? Как и у Вас на картинке – auto. Уже пробовал названия столбцов keyword и syn разделять и точкой и запятой, и ставить/не ставить две/одну галки в параметрах… А словарь я взял у Вас, по ссылке в посте…@ dimio:
Даже не знаю, что ещё предположить. Разные версии phpMyAdmin? У меня на хостинге phpMyAdmin – 2.11.9.5
А у меня phpMyAdmin – 2.11.9.1, неужели из-за этого?. Интересно, а может быть вообще убить таблицу unik_synonyms_ru и создать её заново?@ dimio:
Вполне может быть. По крайней мере мне пока больше ничего в голову не пришло, кроме как разные ошибки в разных версия ПО.
Попробуйте, почему бы и нет. Всё равно она пустая.
Кстати, а через интерфейс плагина-то добавляются синонимы?
Да. Но это длительный процесс. Хотелось ускорения. Теперь придётся всё делать ручками. Спасибо за помощь!@ dimio:
Не за что пока… Это я спросил на случай, если вдруг и через плагин не добавляются – тогда можно было бы с той стороны подойти к проблеме.
А вы пробовали сжатый файл импортировать или несжатый? Может тут проблема кроется. Сделайте небольшой тестовый словарик на несколько строк синонимов и на нём попробуйте проверить так и этак.
Несжатый маленький файл добавляется успешно (сообщение phpmyadmin), но в таблицу данные не попадают!!! Видимо всё дело в другой версии админа…@ dimio:
Да, тогда пожалуй проблема где-то в самом админе. Могу дамп таблицы сделать вечером, чтобы руками словарь не забивать. Всё проще будет.
Спасибо, не стоит. Больше половины уже сделано. Работы осталось на полчаса. @ dimio:
Доброго времени суток вам, люди добрые – угостите пожалуйста готовым sql дампом на ящик , iactiv@mail.ru, заранее благодарен
Дамп таблицы для уникализатора со словарём из публикации.
ее публиковть не через csv, а просто sql да и еще, у меня на ПхПадмине нету формата zip. если я возьму и просто изменю его на gzip. Т.е. твой последний файл который выше.. схавает ли его моя бд ?
Сомневаюсь. Сам я не пробовал по карйней мере.
http://www.dimio.org/wp-content/uploads/2009/wp_unik_synonyms_ru.sql.gz
Я сделал проще, разархивил zip твой и 7zip заархивил в гз.. результат в посте ниже )
Выложи дамп табл. пож в gzip
См. выше
Благодарствую, но по непонятным мне причинам… не кушает даже так… все делаю 1 в 1
К тому же вчера сел и руками за 4 часа вбил 97к слов 🙂 Попробовал сохранить и в тхт и в гзипе и потом залить в другую БД… на другой саттел… не хочет.. браузер прогружает от 5-10 мин и скидывает еррор.. все перепроверял, размер для атача 50 Мб… даже вот свой дамп не хавает…
В общем-то я тоже так сделал, только сжимал gzip’om. Можно попробовать tar -czf в ещё, но не думаю, что дело в этом. Мы тут выше с человеком обсуждали уже проблему с невозможностью импорта в базу. Может дело в phpMyAdmin. Я для проверки скачал дамп в gz – нормально импортировался, новая таблица создалась автоматом, phpMyAdmin версии 3.2.4 у меня.
Если есть шелл на хостинге – можно через него импортировать в принципе.
Кстати, только заметил – на вкладке импорта показан макс. возможный размер импортируемого файла – может у вас там будет отличное от заданного в настройках значение из-за какого-нибудь сбоя?
phpMyAdmin Информация о версии: 3.2.4
Версия MySQL-клиента: 4.1.22
Размер для атача у меня 50 Мб
Да странно… даже в тхт база на 17 Мб. и в архиве в зависимости чем и как ужимать от 3,5-4,8 Мб до лимита еще далековато…
При атаче у меня еррор вылетат с указанием обычно 1к+ строки .. мол 1068 строка не верно заданы параметры что то вроде того..
Спасибо за помощь и не бери в голову, я решил все же отказаться от словомешали с контентом такой.. это ж самый настоящий спам 🙂
Хотя обязательно в ближайшее время парочку запущу потестю…
Я, честно говоря, один сплог сделал ради интереса, но как-то понял, что не моё.
А чтобы уникализатор более-менее нормальный текст давал – надо ему тематический словарь скармливать, причём самостоятельно составленный (или хотя бы проверенный), тогда результат поосмысленней будет.
Братан, ты просто молорик што написал этот пост, блин ты бы знал как я замучался на одном своем блоге в ручную вбивать синонимы….
их там ведь почти 100к, много сразу не засунешь…кароч мату было пзц)….а тут буквально все за минуту добавилось…ваще кароч респект за инфо!
Пожалуйста! Рад, что оказалось полезно.