[Ответить в тред] Ответить в тред

26/03/16 - Конкурс: Помоги гомункулу обрести семью!
15/10/15 - Набор в модераторы 15.10 по 17.10
27/09/15 - Двач API — Инструкция к применению


[Назад][Обновить тред][Вниз][Каталог] [ Автообновление ] 35 | 5 | 19
Назад Вниз Каталог Обновить

DataCol тред DataCol тред 10/12/15 Чтв 22:55:58  78970  
14497773584560.jpg (91Кб, 604x429)
Сап Двач
Предлагаю создать тред посвященный DataCol'у и вообще парсингу в целом.
Тред будет посвящен:
-DataCol
-ContentDownloader
-EmailParsing
-Плагинам
-Прочей хуйне вопрос ответы
Сам юзаю крякнутый датакол ибо чет неохота платить 3.5к за оригинал обновляемый
Версия 5.54 + Плагины какие то хуевые
Кто сам с чего парсит, кто такой же на датаколе?
Есть у кого мб какие паки плагинов полезные?
Сегодня обыскался
-d5plugin_uniqueplugin
-datacolemailparser
ниче нет, кроме коней на комп и браузера амиго в добавок
Аноним 11/12/15 Птн 10:49:00  78974
>>78970 (OP)
Хороший тред. Я, например, использую https://magic.import.io/

У только у меня возникают проблемы с обработкой данных.
Аноним 11/12/15 Птн 10:50:40  78975
>>78974
У меня такой алгоритм.

Если задача простая:
https://magic.import.io/

Если средняя:
ContentDownloader

Если сложная:
http://simplehtmldom.sourceforge.net/
Аноним 11/12/15 Птн 12:36:16  78977
Лол блять. Это все на js делается. Веб-мастера млин)))
Аноним 11/12/15 Птн 17:26:11  78993
>>78977
Но лучше на питоне.
Аноним 11/12/15 Птн 21:40:44  78995
Че, даже 2975 рублей нет? По сравнению с остальным софтом это не сильно заоблачные цены. Но да, это у них просто лицензирование пидорское такое. С толпой плагинов по 15 баксов.
Аноним 12/12/15 Суб 12:36:09  79002
ContentDownloader, если не получается - zennoposter.
Кто юзает и Кд и датакол - какие у датакола профиты? Стоил покупать или там перекрывается функционал на 99%?

>https://magic.import.io/

Прикольно, никогда не слышал.
Аноним 12/12/15 Суб 14:53:23  79007
>>79002
Я короче ниче из этого не юзаю, но под НГ собираюсь закупиться по полной программе. 10к на ZP, CD, DC - вполне посильные деньги.

Правда я хуй знает насколько оно надо мне. Есть мнение что для регулярного ПАРСИТЬ НАДО ПАРСЕРАМИ 10М запросов придется ебаться с программированием и серверными решениями с нуля.

>мэджик импорт

поебота какая-то, не вкурил.
Аноним 12/12/15 Суб 15:12:01  79008
>>79007
>мэджик импорт поебота какая-то, не вкурил.
А ты кури в затяг, упорыш.
https://magic.import.io/?site=http://2ch.hk/web/res/78970.html
Аноним 12/12/15 Суб 17:08:28  79009
14499293085570.png (72Кб, 873x443)
>>79008
Брат, братишка, спасибо что дал покурить

Они говорят что парсят 10М данных ежедневно. Так-то неплохо.
Аноним 12/12/15 Суб 17:42:39  79011
кстати двач веб мастера
кто в курсе как ускорить скорость парсинга
и что на это влияет?
можете покидать годной инфы
Аноним 12/12/15 Суб 19:09:37  79023
14499365779770.png (34Кб, 967x366)
>>79009
crawler парсит-обрабатывает 1,5-3к урлов в час а их, есть мнение что если предварительно напарсить урлы - extractor напарсит эти данные быстрее.
Аноним 13/12/15 Вск 09:38:46  79041
Парсинг 2ГИС. Есть демка. http://gisdb.ml
Аноним 13/12/15 Вск 10:31:13  79042
Кто-нибудь использует PhantomJS или подобное?
Аноним 14/12/15 Пнд 18:28:48  79113
>>79023
хз
я парсил через датакол
потребовалось по 1 часу на 300 урлов
что бы собрать инфу о наименовании, тел, линк
Аноним 15/12/15 Втр 10:35:31  79134
<bump>
Аноним 16/12/15 Срд 16:56:25  79229
14502741857820.png (41Кб, 629x356)
На правах бампа

Блядский ДНС со своими бонусами и автоподгрузкой не дает нормально данные спарсить со страницы категории. Потом еще поди бугуртят от запросов на каждую страницу.

Попробовал тут вытягивать данные через гуглотаблицы, в целом неплохо.

Непонятно мне только как разные цены в разных городах-регионах обрабатывать.

>>79009 >>79023-нуб
Аноним 16/12/15 Срд 19:54:01  79238
14502848419200.png (28Кб, 537x435)
>>79229
апдейт, те же spreadsheets
Аноним 18/12/15 Птн 17:59:59  79384
бамп
Аноним 18/12/15 Птн 18:03:03  79385
а кто-то парсил зун.ру?
Аноним 20/12/15 Вск 17:57:29  79478
B U M P
Аноним 22/12/15 Втр 21:06:20  79608
>>79113
>>потребовалось по 1 часу на 300 урлов

Пиздос. Датаколу до CD, как до Китая раком. Там до сих пор через xpath нужно пердолиться в датаколе?
Аноним 22/12/15 Втр 22:41:09  79623
Пользуюсь парсером на Битриксе, хуячит до 10 000 элементов в час (если структура простая). За год нечастого парсинга наворовал около 3 миллионов немецких фирм (ток не знаю, зачем лол).

Поделитесь идеями для парсинга, братишки. А то сервер простаивает
Аноним 23/12/15 Срд 00:31:07  79637
Аноны, а вам вот это зачем? Я программер, по работе часто пишу парсеры, хотел бы понять, можно ли это делать на заказ.
Аноним 23/12/15 Срд 00:54:03  79642
>>79637
> Аноны, а вам вот это зачем? Я программер, по работе часто пишу парсеры

Ты не нужен, у нас уже все есть. Заказывают только нубы. Ну и стартаперы берут в штат ещё на всякие агрегаторы.
Аноним 23/12/15 Срд 08:58:14  79654
>>79637
>>79642

почему нет то?
я уже заебался парсить в 500 шагов, когда какой-либо программер может это соединить все в одну кнопку и программу...
Аноним 23/12/15 Срд 08:59:12  79655
>>79608
да, xpath причем он его и хуево считывает
поясни за КД твой
в чем плюсы, простота использования? платность проги/плагинов?
Аноним 23/12/15 Срд 12:57:54  79661
>>79655
Это как сравнивать обычный бейсик и javascript. CD насколько далеко ужел в развитии, что так и не опишешь в двух словах. Полазай по сайту, там куча видео.

Пользуюсь CD с 2011 года. Эксперт, можно сказать. Куплено 2 unlim лицензии и 10 базовых.
Аноним 23/12/15 Срд 13:06:00  79662
>>79661
Мне в CD катастрофически не хватает полей для парсинга . Не понимаю нахуя их вообще ограничивать. Поэтому иногда приходилось парсить все зеннопостером и ебаться с десятками регулярок.

Впрочем, это пожалуй единственный недостаток КД, да и то проявляющийся только в специфических случаях, когда надо парсить более 20 полей.
Аноним 23/12/15 Срд 13:06:23  79663
>>79662
сажа приклеилась
Аноним 23/12/15 Срд 16:21:38  79674
>>79662
>Мне в CD катастрофически не хватает полей для парсинга .

Это редкость. Ты либо не выносишь, все, что можно вынести в повторяющиеся границы.

Либо тупо можно, раз такое дело, через getmorecontent с той же страницы выдергивать.
Аноним 23/12/15 Срд 17:15:17  79677
>>79674
Это редкость, но несколько раз упирался в именно в это.
>через getmorecontent с той же страницы выдергивать
Это как?
Аноним 23/12/15 Срд 17:44:47  79678
>>79677
<GETMORECONTENT><URL="[SELF]"><START=""><STARTCOUNT="0"><END=""><ENDCOUNT="0"><PARAMS=""></GETMORECONTENT>

Задай начало и конец.
И инструкцию почитай.
Аноним 25/12/15 Птн 06:03:32  79740
есть туторы по КД?
Аноним 25/12/15 Птн 10:50:33  79745
>>79740
Ты совсем еблан? Никак не найдешь официальный сайт с туторами и видео?
Аноним 27/12/15 Вск 00:25:15  79861
>>79745
Я думаю автор имел в виду чет тип складчин каких-нить

[Назад][Обновить тред][Вверх][Каталог] [Реквест разбана] [Подписаться на тред] [ ] 35 | 5 | 19
Назад Вверх Каталог Обновить

Топ тредов