Сап ДвачПредлагаю создать тред посвященный DataCol'у и вообще парсингу в целом.Тред будет посвящен:-DataCol-ContentDownloader-EmailParsing-Плагинам-Прочей хуйне вопрос ответыСам юзаю крякнутый датакол ибо чет неохота платить 3.5к за оригинал обновляемый Версия 5.54 + Плагины какие то хуевыеКто сам с чего парсит, кто такой же на датаколе?Есть у кого мб какие паки плагинов полезные? Сегодня обыскался -d5plugin_uniqueplugin-datacolemailparserниче нет, кроме коней на комп и браузера амиго в добавок
>>78970 (OP)Хороший тред. Я, например, использую https://magic.import.io/У только у меня возникают проблемы с обработкой данных.
>>78974У меня такой алгоритм. Если задача простая:https://magic.import.io/Если средняя:ContentDownloaderЕсли сложная:http://simplehtmldom.sourceforge.net/
Лол блять. Это все на js делается. Веб-мастера млин)))
>>78977Но лучше на питоне.
Че, даже 2975 рублей нет? По сравнению с остальным софтом это не сильно заоблачные цены. Но да, это у них просто лицензирование пидорское такое. С толпой плагинов по 15 баксов.
ContentDownloader, если не получается - zennoposter.Кто юзает и Кд и датакол - какие у датакола профиты? Стоил покупать или там перекрывается функционал на 99%?>https://magic.import.io/Прикольно, никогда не слышал.
>>79002Я короче ниче из этого не юзаю, но под НГ собираюсь закупиться по полной программе. 10к на ZP, CD, DC - вполне посильные деньги.Правда я хуй знает насколько оно надо мне. Есть мнение что для регулярного ПАРСИТЬ НАДО ПАРСЕРАМИ 10М запросов придется ебаться с программированием и серверными решениями с нуля.>мэджик импортпоебота какая-то, не вкурил.
>>79007>мэджик импорт поебота какая-то, не вкурил. А ты кури в затяг, упорыш.https://magic.import.io/?site=http://2ch.hk/web/res/78970.html
>>79008Брат, братишка, спасибо что дал покуритьОни говорят что парсят 10М данных ежедневно. Так-то неплохо.
кстати двач веб мастеракто в курсе как ускорить скорость парсингаи что на это влияет? можете покидать годной инфы
>>79009crawler парсит-обрабатывает 1,5-3к урлов в час а их, есть мнение что если предварительно напарсить урлы - extractor напарсит эти данные быстрее.
Парсинг 2ГИС. Есть демка. http://gisdb.ml
Кто-нибудь использует PhantomJS или подобное?
>>79023хзя парсил через датакол потребовалось по 1 часу на 300 урлов что бы собрать инфу о наименовании, тел, линк
<bump>
На правах бампаБлядский ДНС со своими бонусами и автоподгрузкой не дает нормально данные спарсить со страницы категории. Потом еще поди бугуртят от запросов на каждую страницу.Попробовал тут вытягивать данные через гуглотаблицы, в целом неплохо.Непонятно мне только как разные цены в разных городах-регионах обрабатывать.>>79009 >>79023-нуб
>>79229апдейт, те же spreadsheets
бамп
а кто-то парсил зун.ру?
B U M P
>>79113>>потребовалось по 1 часу на 300 урлов Пиздос. Датаколу до CD, как до Китая раком. Там до сих пор через xpath нужно пердолиться в датаколе?
Пользуюсь парсером на Битриксе, хуячит до 10 000 элементов в час (если структура простая). За год нечастого парсинга наворовал около 3 миллионов немецких фирм (ток не знаю, зачем лол).Поделитесь идеями для парсинга, братишки. А то сервер простаивает
Аноны, а вам вот это зачем? Я программер, по работе часто пишу парсеры, хотел бы понять, можно ли это делать на заказ.
>>79637> Аноны, а вам вот это зачем? Я программер, по работе часто пишу парсерыТы не нужен, у нас уже все есть. Заказывают только нубы. Ну и стартаперы берут в штат ещё на всякие агрегаторы.
>>79637>>79642почему нет то?я уже заебался парсить в 500 шагов, когда какой-либо программер может это соединить все в одну кнопку и программу...
>>79608да, xpath причем он его и хуево считываетпоясни за КД твойв чем плюсы, простота использования? платность проги/плагинов?
>>79655Это как сравнивать обычный бейсик и javascript. CD насколько далеко ужел в развитии, что так и не опишешь в двух словах. Полазай по сайту, там куча видео.Пользуюсь CD с 2011 года. Эксперт, можно сказать. Куплено 2 unlim лицензии и 10 базовых.
>>79661Мне в CD катастрофически не хватает полей для парсинга . Не понимаю нахуя их вообще ограничивать. Поэтому иногда приходилось парсить все зеннопостером и ебаться с десятками регулярок.Впрочем, это пожалуй единственный недостаток КД, да и то проявляющийся только в специфических случаях, когда надо парсить более 20 полей.
>>79662сажа приклеилась
>>79662>Мне в CD катастрофически не хватает полей для парсинга . Это редкость. Ты либо не выносишь, все, что можно вынести в повторяющиеся границы.Либо тупо можно, раз такое дело, через getmorecontent с той же страницы выдергивать.
>>79674Это редкость, но несколько раз упирался в именно в это. >через getmorecontent с той же страницы выдергиватьЭто как?
>>79677<GETMORECONTENT><URL="[SELF]"><START=""><STARTCOUNT="0"><END=""><ENDCOUNT="0"><PARAMS=""></GETMORECONTENT>Задай начало и конец.И инструкцию почитай.
есть туторы по КД?
>>79740Ты совсем еблан? Никак не найдешь официальный сайт с туторами и видео?
>>79745Я думаю автор имел в виду чет тип складчин каких-нить