Сап дващанский, давно уже есть необходимость вкатиться в статистику, но сил на это стало хватать лишь с недавних пор. Того что нам читали в университете явно было мало, так как в моей области физики основной упор делался на диффуры, а статистика шла вспомогательным инструментом. И то и то нам читали отвратно, так что для прикладных целей всё равно приходится всё осваивать самостоятельно. Думаю Я не один такой тут, так что надеюсь что в треде соберется полезная инфа и другие смогут ей воспользоваться.
Дано: -Частая необходимость в анализе данных и выявлении зависимостей. Как в работе, так и за её пределами. Даже в играх. -Учебник Каплана "Практические занятия по высшей математике" 1967 -Учебник Колмогорова "Введение в теорию вероятностей" 2015 -Учебник Ивченко "Введение в математическую статистику" 2010 -Учебник Колмогорова "Элементы теории функций и функционального анализа" -Junior-навыки программирования на Python, C++, Rust. -Junior-навыки работе в Экселе. -middle-навыки в области отображения данных работал дизайнером, так что инфографика была в стеке основных навыков -средний пека с GTX1066, для случаев если нужны параллельные вычисления -желание в дальнейшем вкатиться в ML и DS, на уровне выше макаки-кодера
Ищу: -Задачники по статистике, чтоб отработать навыки работы со стат. данными -Годные книги о практическом применении статистики -Книги о применении статистики в финансовых и экономических областях работы вплоть до технического анализа для скальперов -каналы на ютубе -программы обучения, если такие есть -реальные проекты, где для решения проблемы использовали анализ статистических данных и где показан процесс работы с этим -опыт работы со статистикой, в личных проектах как вы собирали данные, как обрабатывали, какие отклонения получили или какие данные смогли выделить
Практическая задача #1 (из игр)
Аноним# OP18/08/21 Срд 16:32:00№5421222
Есть игоря Workers & Resources, где нужно налаживать логистики на разных уровнях и в разных масштабах. Для оценки экономической эффективности автотранспорта, Я решил собрать статистику в серии экспериментов. Официальные разрабы, как и мододелы, не предоставляют никакой инфы о модели работы техники, чтоб произвести нужные экономические расчеты, так что единственный способ получить нужные данные - через эксперимент.
Экперимент #1 Доставка грузов со склада А, на склад Б, за время ограниченное запасом топлива. Запас топлива это начальные 20% бака + 4 тонны на заправке. Заправка и депо (место старта) расположены четко в центре маршрута. Маршрут это прямая и ровная (без наклона) дорога, с ограничением в 110км/ч, что выше максимальной скорости любого из грузовиков. Следовательно "в отсечке" никто ехать не будет. Протяженность маршрута составляет 6000+54м. 6000м это расстояние между складами, заезд в каждый склад составляет ещё 27м (27*2=54). Известные данные -Мощность двигателя [кВт] -Крейсерская скорость [км/ч], но мы ей пренебрегаем в этот раз -Масса грузовика [т] -Грузовая вместительность [т], -Количество перевезенного груза -Начальное количество топлива в % полного бака и игровых единицах -Количество потраченного топлива [т] -Количество совершенных рейсов -Длина маршрута, без учёта заезда на заправку могу его получить, но тогда придется считать количество дозаправок, чтоб точнее узнать пройденный путь [м]
Интересует -Расход топлива на перевозку 1т, на 1000м ровной поверхности. [число, индекс] -Цена тонны груза, с поправкой на затраты топлива [формула, индекс] -Количество груза, которое можно перевести на 1000м ровной поверхности, за 0,1т топлива [число, индекс] -Точный перевод единиц топлива в баке, в единицы массы топлива [формула] -Получение индекса топливной эффективности, для грузового транспорта, применяемого в идентичных условиях
Пик 2 - сбор экспериментальных данных. Расстояние - расстояние от депо/заправки, до каждого из складов, не считая заезда на них. Вместительность - сколько тонн груза может взять грузовик Я использовал груз из досок, так как у них самая низкая плотность и данные по грузу получатся наиболее точными Перевезено - масса груза, которую грузовик успел доставить на склад Б, до того как у него закончилось топливо. Важно: если решите работать с данными, учтите что это значение нужно округлять в большую сторону, так как грузовики иногда загружались на 99% своей емкости. Так что если грузовик вместительность в 5 тонн доставил на склад 499 тонн, это значит что он совершил 100 полных рейсов и реально там должно было быть 500 тонн. Мощность - мощность двигателя в кВт. Нужна для расчета потребления топлива, через массу пустого/полного транспорта, но пока хз как посчитать. Скорость - пригодится в дальнейшем. Заправка - начальное количество топлива на АЗС, в тоннах. Осталось - конечное количество топлива на АЗС, в тоннах. Порожний вес - вес пустого грузовика. Длина маршрута - указанное игрой расстояние от зоны загрузки на складе А, до зоны разгрузки на складе Б. 20% бака - начальное количество топлива в баке, в единицах топлива. Нужно чтоб посчитать реальную емкость бака грузовика и его реальные затраты топлива, в тоннах топлива.
Таблица не полная, как видно по скрину, так что Я всё ещё в процессе сбора первичных данных.
Гешефт После ряда экспериментов и получения всех нужных данных, систему автотранспортной доставки можно будет привести к уравнению, системе уравнений или дифференциальному уравнению, используя которое можно будет легко рассчитывать и строить автотранспортные системы в игре, добиваясь максимальной экономической эффективности. То есть можно будет применять автотранспорт так-же легко и эффективно, как конвейерные соединения.
>>542122 >систему автотранспортной доставки можно будет привести к уравнению Нельзя, так как количество точек не сильно превышает количество переменных (например затраты на 1 маршрут имеют десяток переменных, а каждый маршрут по своему уникален за счёт разных улиц, а потому переборка маршрутов не сводится к одной переменной). Точнее, точность расчёта обратно пропорциональна натуральному логарифму от отношения количества точек к количеству переменных.
>>542124 Хорошо. А если разбить её на части и попытаться описать отдельно? Или, например, создать серию испытаний, получить из них данные и сделать график или несколько графиков, по которым можно будет проводить аналогии и производить хотя бы примерные вычисления?
Например есть реальный горный маршрут, с известным перепадом высот и известной протяженностью. Однако из-за поворотов и разных динамических характеристик транспорта, просто так его посчитать не получается (неизвестных больше, чем известных). Поэтому можно взять 3 разных единицы техники и пустив их по маршруту получить первичные данные, о количестве перевезенного груза, времени перевозки и затратах топлива. Затем эти данные можно будет сравнить с "лабораторными", полученными во время одного из экспериментов (как например выше, шоссейный эксперимент) и зная как с задачей справились лёгкая, средняя и тяжелая техника, можно будет прикинуть как бы с ней справились другие. Если это сработает, то можно будет создать систему оценки маршрута. Количество поворотов, количество перепадов высот, результат тестовой техники на маршруте. Это позволит создать шаблон оценки, который можно будет применять на практике, без необходимости тестировать каждый маршрут тремя видами техники.
Другого решения пока не вижу, хотя и это немного всратое.
День был откровенно безрезультатным. Поэтому поделится нечем. А посему есть вопрос. >>542124 Анон, а как ты пришел к формуле точности расчета? Не получилось её вчера найти. Нашел только на вики статью про погрешность, но там всё через суммы считают. Расскажи пожалуйста.
>>542344 >формуле точности расчета? Прикидка по аналогии с выявлением полезного сигнала на фоне шума: мощность полезного МЕНЬШЕ мощности шума в логарифм от отношения выборок к полезному кол-ву информации (например на частоте 1 ГГц можно передавать 1 Гц полезного сигнала мощностью в 20 раз меньше шума).
>>542115 (OP) >Того что нам читали в университете явно было мало, так как в моей области физики основной упор делался на диффуры, а статистика шла вспомогательным инструментом потому что образование в совке заточено под клепание танчиков и ракеток. А это в основном физические явления. Нормальные распределения и параметрическая статистика.
Как делать жизнь лучше (то есть, непараметрическая статистика малых N) нахуй никого не интересовала.
Ребят, накидайте литературы по теме, чем вкинуться. Лучше с серьезной теорией. Университет закончил 5 лет назад, многое уже забывается, так что неплохо было бы освежить статистику и линейную алгебру. Колмогорова и Агрести уже наворачиваю.
>>542507 >Учебник Каплана "Практические занятия по высшей математике" 1967 Задачник с примерами и ссылками на другие книги, которые рассматриваются в той или иной главе. Очень годная штука. Если бы не эта книга - отчислили бы к хуям.
Собрал данные по грузовикам в Workers & Resources. Интернета не было, так что первая серия испытаний так и останется оффлайн. На этих двух пиках данные, о перевезенном количестве груза, за фиксированный объем топлива, по грунтовой дороге с предельной скоростью в 35км/ч. Как видно, некоторые модели грузовиков сасают бибу, пока имбовые Татра 8х8 и Урал (фура) раскидывают налево и направо. Но ситуация начнет меняться уже на гравийной дороге. А на асфальте в топах по экономичности будут уже совсем другие модели, хотя прочие условия испытаний будут всё те же.
У ОПхуя сейчас плохой и нестабильный интернет, так что хз когда будут новые посты. Пока есть интернет, постараюсь разобраться с тем как настраивать Парето в экселе. Очень хотел бы увязать зависимость мощности двигателя и топливной эффективности (не столь очевидна, на первый взгляд), с массами грузовика и груза. Там есть на что глянуть, хотя анализировать приходится пока интуитивно pepehands.jpg, потому что нет интернета чтоб почитать теорию.
>>542115 (OP) Ну я гамма-спектрометрией занимаюсь, импульсы от поглощенной энергии на ацп распределяются по гауссовскому закону, если интересно. Похожая ситуация есть в дозиметрии, так как радиоактивный распад это случайная величина, то можно посчитать ее дисперсию.
Предварительный результат по топливной эффективности. Немного всратый, но пытаюсь пофиксить.
Есть прямая зависимость между топливной эффективностью тонн груза на 1 тонну топлива, а также максимальной скоростью транспорта и скоростью дороги. Топливная эффективность в таблице указана как "Т. груза на Т. топлива", а так-же процентный индекс ТГТТ, который считается от лучшего результата среди (выборки?) кандидатов. Во всех трех случаях это Татра 813, поэтому её индекс везде единица. Лимиты скорости: Асфальт - 110км/ч Гравий - 60км/ч Грунт - 35км/ч
Пикрил это таблица с результатами топливной эффективности каждой модели по трем покрытиям. Как видно, для всех моделей на грунтовой дороге ухудшен показатель эффективности, однако не для всех он ухудшен на гравии (относительно асфальта). Например есть Урал-377, с максимальной скоростью в 60км/ч, что соответствует максимальной скорости, позволенной на гравийной дороге. Он одинаково эффективен как на гравии, так и на асфальте. Обратная ситуация наблюдается у скоростных грузовиков, с большим объемом груза. Например Камаз 5410 и МАЗ-504, которые на асфальте уступиле только имбовой Татре 813. Следовательно, это доказывает обратную зависимость между топливной эффективностью и отношением скорости грузовика, к максимальной скорости дороги. Я почему то туплю и не могу вывести норм формулу, чтоб указывать в правых столбцах не показатель эффективности на грунте/гравии, относительно асфальта, а % уменьшения этой эффективности. Например, КамАЗ-5320 на 72% хуже себя показывает на грунтовой дороге, чем на асфальте. Это эквивалентно Кразу 256, который в три раза хуже КамАЗа-5320 на асфальтной дороге. Думаю, идею вы поняли. Помогите, пожалуйста, вывести нужную формулу.
Сейчас интересует: -формула чтоб показать, на сколько % ухудшился результат модели, при переходе на другое покрытие (относительно асфальта)
Остальные таблицы прилагаю и вот ссылочка на мегу, с файлом.
P.S. XL это седельные тягачи (фуры). LCV это Light Commercial Vehicle — лёгкий коммерческий автомобиль, грузовой микроавтобус. Синие полосы это обычные 2х или 3х-осные грузовики. Например двухосный Зил-130 или трехосный Краз 256. Я их разделил на три категории, так как они по разному загружают транспортную инфраструктуру. Фуры очень медленно входят в поворот и легко создают пробки, даже если у них максимальная скорость выше такой у прочего трафика. Думаю пока, как можно было бы это увязать с массой и длиной, чтоб поставить эксперимент и как-то выразить это в данных. По идее, должны быть условия, при которых фуры будут уступать обычным грузовикам и LCV в экономичости и провозной способности, в единицу времени. Хз пока как это замерять и как поставить эксперимент.
>>546074 Спасибо анон. Намедни задавался вопросом, кому всё это надо кроме меня и была мысль бросить тред и просто хавать курсы на ютубе. Но как-то мораль восстановилось и снова сижу за табличками, пытаюсь подобрать формулы или придумать критерии оценки.
В продолжении поста >>546167 Это успех! Ухудшение эффективности по грунту = ((Эф по грунту/Эф по афсальту)-1)*(-1). Теперь осталось сделать 3 красивых графика и можно будет обоснованно утверждать, что какой-то грузовик прям создан для грунтовых дорог, а какой-то для асфальта.
Конечно, 30 минут назад узнал о целой системе критериев оценки статистических данных как минимум Пирсона и Спирмена, но на практике ещё не применял. Думаю, они потребуются когда попробую выявить влияние массы грузовика и массы груза. Надо только придумать как привести к общему знаменателю мощность двигателя. Ну или исключить её как-то, чтоб она не влияла.
>>546156 Но тебя ведь интересует некая конечная величина или градиент, не так ли? Или тебе требуется выявлять и доказывать связь между какими-либо факторами. Рассказывай подробней тут два с половиной инвалида все свои.
>>546192 Вам там уже про методы что-то рассказали? Писали какие-то простенькие программы, или может давали задания в Statistica, как в прошлом семестре?
>>546196 >зачем статистика на небазовом уровне стандартным биологам. Как это "зачем"? Сейчас же чуть ли не вся современная наука на статистике построена.
>По данным ЕМИСС в 2020 году в России распалось 73 % браков Как это? Всех браков существующих в РФ или из тех что зарегали в 2020 73% распалось в этот же год? Получается процентов под 90%, что любой брак распадется наверное? Или как это считают?
>>542115 (OP) Не могу найти по моделированию алгоритм протяжки времени Delft приклейтед, может кто-нибудь знает где искать или есть другое название? Он объединяет в себе событийную и dt протяжку времени.
>>542115 (OP) Хуй его знает, какие стат инструменты тебе еще нужны. В рамках практического применения физики это Гаусс и МНК. >>542122 Ну положим, составляй функционал, находи экстремумы, статистика причем тут?
>>548299 >Хуй его знает, какие стат инструменты тебе еще нужны Как это ни странно, но чем больше Я в это вникаю, тем больше кажется, что мне нужен data science. Но обычно, в него вкатываются в программирование и сосут, когда дело доходит до статистики. Я вот хочу сперва разобраться с математической стороной проблемы, а потом уже что-то кодить.
>>551000 Изучал статистику и матешу для неё последние пару месяцев, подтвердить свою квалификацию никак не могу (пеняй на себя). Про школьную матешу не знаю, попробуй найти на mathprofi ссылки на какую-нибудь школьную программу. Когда наверстаешь, пройди на mathprofi базовое понимание пределов, производных, интегралов, теорвер, матстат. Всё то же самое, но менее структурировано и попроще (особенно, что касается теории вероятностей) есть на khanacademy, если тебе норм по видео смотреть. Старайся структурировать знания и составлять общую картину как можно раньше. Допустим, в теории вероятностей, смотришь: есть такие-то такие-то базовые понятия, есть такие-то такие-то определения вероятности, есть такие-то такие-то случайные величины, с такими-то такими-то распределениями. В общем, по ходу старайся представлять, что на что делится и в какую систему всё складывается. На ютубе есть плейлист с Бояршиновым теорвер-матстат, можно смотреть для закрепления. На степике курсы по статистике по содержанию норм, но изложено часто куцо, сбивчиво и без внимания к целому. Гланц тоже норм учебник, но мб лучше с хоть какой-то базой к нему подходить. Ещё часто советуют Лагутина, но туда без норм математики лучше не соваться.
>>551000 Роадмап можно получить самоу, используя ЕГЭ ЗНО если ты из хохланда, как ориентир. Смотришь задания/темы оттуда и постепенно собираешь список того что ты знаешь, а так-же список того что не знаешь. Как только сможешь делать задания ЕГЭ за прошлый годы, можно будет рекомендовать тебе, например, "Практические занятия по высшей математике. Каплан И.А.". Но тебе реально лучше закрыть дыры из школьной программы. Я вот их закрыл уже после универа и в универе было больно с ними жить. Плюс, пример из каплана могут быть тебе не понятны, если у тебя проблемы со школы.
Попробуй анон! У меня был низкий старт и всё получилось. Получится и у тебя, если ты начнешь с малого.
>>551000 >В математике шарю на уровне 5го класса Это как?
То есть ты даже решать квадратные уравнения не в состоянии? Строить график квадратичной функции? Решать неравенства, решать системы уравнений? Арифметическая и геометрическая прогрессия? Основы тригонометрии? Теорема Пифагора? Уравнение окружности? sin^2+con^2=1?
Вообще нифига из этого не помнишь? Вся школьная программа это ведь по сути решение одних и тех же уравнений.
>>551673 >Ты полистай Полистал, выглядит как линейная алгебра для выпускников детсада "Тормозок". Много какого словесного говна, мало сути. Посмотрел что за степени у автора. Удивление ушло сразу. Автор мешает в кучу множество независимых друг от друга структур. Вероятно для среднего бакалавра в области инженегрии на западе сойдет, впрочем читать такое я бы и не стал в студенчестве, ибо стиль раздражает.
>>551669 >Кто нибудь мне может объяснить почему в постсовке так дрочат на советские учебники 60-70х годов? Может потому что там всё по сути? Если книги по торговле и гуманитарным наукам и меняются, то физика и математика остаются примерно такими-же, как и 50 лет назад. Действительно сильно продвигаются прикладные аспекты, но нахуй при изучении теории сразу задрачивать кейсы на жабаскрипте или другом ЯП? Если ты ПОНИМАЕШЬ материал, то сможешь даже на арифмометре Однера решать прикладные задачи. В том блять и суть.
Смотрел курсы по линейке от MIT и видел всё тоже самое, что и в советских учебниках, только это омйгадблэтажиЭМАЙТИтынишаришь.
>>552172 Полезай обратно в /po, говно. Нахуй ты сюда это дерьмо тащишь? Мне поебать какой ты национальности, пола, веса, цвета кожи, ровно как и другим тут. ТРЕД О СТАТИСТИКЕ, а не манядоёбах рандомного шиза. Добро пожаловать отсюда
ЖивеБеларусьстатыстыка! Было много проблем, так что пришлось бросить тред на время. Тем более, не было норм интернета почти пол года. Смог со временем вернутся к обучению и вот о нём тезисно:
>торговлю и производство легче рассматривать, через цепочки Например производство хлеба. Изучаешь полный цикл, от выращивания зерна, до развоза по магазинам. Создаёшь структуры денежного оборота для каждого этапа: выращивание, хранение, транспорт, помол, хранение, транспорт и так до момента твоей сферы деятельности и немного за неё. >промышленные образования лучше сразу считать кластером Это что-то вроде микрорайонного проектирования жилых комплексов. Вместо того чтоб вдрачиваться в ситуацию с позиции одного предприятия, сразу смотришь на общую картинку, а потом на интересующее предприятие. Это позволяет намного более качественно контролировать производство и, если получится, через недельку покажу с примерами в W&R и Экселе, как это можно реализовать. >эксель отжирает много времени, траты времени можно сократить автоматизировав некоторые процессы В идеале конечно нужно ебануть CRM и настроить его под целевой бизнес-процесс или предприятие, но такой возможности у меня ещё нет. Посему упёрся в два стула варианта: 1. Научится профессионально использовать эксель и программировать в нём. Функционал предусмотрен. Всё так-же просто как на Паскале в Дельфи, даже туториалы от индусов есть. Но тут пока хз даже как запросы формировать, чтоб гуглить. Приходится методом перебора искать нужные темы. 2. Вкатится в парсинг и UI на питоне, чтоб сделать огрызок CRM и со временем перевести всё это на C++ и может использовать что-нибудь готовое от MS. Но этот вариант время-затратный пиздец, что мешает учить экономику и финансы в целом и чревато ещё 4 месяцами голода без интернета.
Текущие проблемы: 1. Хочу сделать автозаполнение строк, по информации с другого листа в Excel. То есть вписываешь в строку тип предприятия или вставляешь иным образом, а эксель сам импортирует столбцы параметров предприятия и вставлял их в нужные ячейки, в пределах используемой строки. В душе не ебу как такое даже гуглить. Если можете подсказать хотя-бы название - буду признателен. 2. Выбор структуры данных, для обработки. Вот есть EvE Online с её рыночком, терминал которого можно найти на https://evemarketer.com/ . Даже если бы Я умел парсить прямо сейчас, мне нужно собрать информацию об ордерах на продажу/покупку относительно времени размещения/закрытия ордера и структурировать так, чтоб можно было собрать информацию о региональном обороте. То есть получается что-то вроде [товар, место, регион, дата размещения, цена, размер ордера, код-идентификатор на основе сочетания места, даты размещения и типа товара. И это лишь первичные данные, а их нужно ещё как-то собирать в категории товаров, с функциями региональных и временных когда разместили фильтров. В дальнейшем это даст статистику торговли в недельном фрейме, на свободных рынках евы. А официальная стата выходит лишь раз в месяц. И не содержит исходников, а только аналитические графики и некоторые, процентные отношения.
пикрил: жилая часть города в W&R, сейчас буду рассчитывать под него жилой и промышленный кластер, а так-же сроки их возведения под сумме трудодней и доступным рабочим
>>554688 Не одними шортами живём. А если бы ты серьезно следил за темой, то уже знал бы что формируется проект совместной китайско-российской биржи. Плюс крипты далеко не все ушли, а некоторые нельзя просто взять и запретить где-то в принципе.
>>554694 Если ты ищешь "справедливую" систему денег, то её создали 100 лет назад. Но при твоей жизни она не будет внедрена, потому что выпуск свободных деньги всегда контролирует государство. Вплоть до внедрения смертной казни, как при использовании валюты в СССР.
Пишу сейчас вкр, нужно обсчитать собранный материал и показатели в statistica или в stadia, но бесплатных версий их хуй накопаешь. Статистика есть на рутрекере, но старая 6 версия у меня нихрена не ставится, а остальные только англоязычные, а я в англдийском вообще не алло, а стадию пиратскую найти я не смог вообще.
Кто имеет заинсталенную рабочую версию дайте линк, умоляю