Хранение огромного числа книг.Допустим у нас есть 130 миллионов книг. Можно ли их уместить на обычный компьютер, если хранить в таком виде:Каждое слово это число. Значение чисел хранятся в отдельном словаре.Если нет, то каким образом можно?
12451= Архиватор23684= Бабушкина
война и мир занимает всего ~1мб если сжать ее в quad\balz\bcm. нормальный кудахтор (с хорошим процем) делает это за милисекунды. твоя задача решается покупкой\созданием нормального сервака-хранилища, стоит это все нидораха
>>1981698А 130 млн книг сколько займет?
>>1981700
>>1981700Каких блять книг? Советских энциклопедических словарей? Сборников стихов пятого а на десять страниц каждый? Артбуки в пнг? Если ты будешь ориентироваться на вышеуказанную войну и мир, ты в 100-130 терабайт всего уложишься, это один рэковый корпус стандартный, заталкиваешь туда десятитерабайтных сиагейтов десять-пятнадцать штук и готово.
>>1981707Не так уж много.Всего 28 внешних тоненьких WD на 4tbИли 22 Seagate на 5tb
>>1981708самые дешевые по цене за тб это на 3 и 5 тб диски, 10 тб немнош дороже будут. один хуй, подобную хуергу можно даже в домашний кудахтер запихать, если корзины копеечные купить с того же амазона.
>>1981696Неплохая идея же. Можно число на два делить, 10n степени раз.
>>1981711Тебе на 5тб придётся в 2 раза больше мест в серваке занять, а sata-контроллер не резиновый. Погляди как Линус свой петабайтный проект собирал, там как раз про это в деталях.> в домашний кудахтер запихатьЛол, это если выкинуть оттуда вообще всё и все PCI слоты забить контроллерами дисков и обмазаться тремя блоками питания, и будет это всё хозяйство снаружи пекарни стоять стеной с бумажкой "ИО GIЯLZ ALOWED".
>>1981718>Лол, это если выкинуть оттуда вообще всё и все PCI слоты забить контроллерами дисковИ что?
>>1981730И то, что по цене как тот же самый рэковый сервер получится, только не на китайских комплектующих и монтируемый в стойку, а не крепящийся сам на себя малярным скотчем. Ещё и с мониторингом нормальным и десятигигабитной сетью.
>>1981739>только не на китайских комплектующих и монтируемый в стойкуПроиграл со свидетеля тырпрайза. Давай, удачи.
>>1981742Удачи тебе, когда эта хуйня будет в половину от заявленной скорости работать. Также вдруг потом оказывается, что китайское железо, которое выглядит не как куча говна посреди комнаты, а как один закрытый корпус со слотами под диски, не портит тебе рейд, не сделано в подвале на коленке проводами-паутинками и способно выдержать нагрузки по питанию как раз стоит как бэушный рэковый сервак с барахолки, вот удивительно-то.
>>1981748Какая именно "эта хуйня", дебич?
>>1981620 (OP)>Каждое слово это число. Значение чисел хранятся в отдельном словаре.Ты только что алгоритм хаффмана
>>1981620 (OP)Слушай, нормальная идея. Только вот, а что если надо будет туда ещё книги добавлять? И в одной из книг - новое слово? Каждый раз словарь обновлять, да и вообще слов разных много, заебёшься по словарю бегать, когда расшифровываешь. Вот если бы в числовые коды преобразовывать что-нибудь, чего мало (чтобы словарь был покороче) и куда редко что-то добавляют...О, придумал! А давайте числовыми кодами заменять буквы!
>>1981835Ты стебешься?Буквы и так закодированы в нулях и единицах на жестком диске и имеют вид в несколько цифровых знаков. Если одна буква будет иметь числовое значение больше одного, то это увеличит объем.
>>1981838Для некоторых это может оказаться шоком, но слова, состоят из букв, а значит они тоже >закодированы в нулях и единицах на жестком диске и имеют вид в несколько цифровых знаков.
>>1981848Запятая там лишняя прилипла.
>>1981848Из твоего ответа вытекают две идеи:- двоичный код использовать для обозначения одного слова в словаре;или- или использовать вместо цифр последовательность букв, чтобы было меньше знаков. Из алфавита в 26 букв можно создать больше двухзначных комбинаций, чем из 10 цифр.
>>1981620 (OP)Шизик переизобретает архивирование.
>>1981861>двоичный код использовать для обозначения одного слова в словареТы же понимаешь, что никакого другого электронного способа хранения информации не используется? Если ты не участник экспериментов по использованию троичных электронных систем счисления или по записи и считванию информации из ДНК (четверичная система), то и для слов в словаре и для папки с цопе ты только двоичные коды и используешь.>10 цифрЯ очень надеюсь, что это была остроумная шутка про двоичное счисление.
>>1981879> 10Я не о двоичном здесь говорил.
>>1981708Архив Либрусека с 300 000 книг в формате fb2 занимает 105 ГБ.
>>1981943С картинками.
>>1981620 (OP)Всё уже давно придумали. Либрусековская библиотека
>>1981945Если они есть, то очень редко.
>>1981963Ее блокируют, а значит мешают развитию.
>>1981713>>1981620 (OP)Эта "неплохая идея" и так уже давно реализована.ОП предлагает составить словарь для слов, а сами книги хранить как последовательность адресов. При этом если прикинуть сколько слов в русском языке, окажется что адреса будут по разрядность больше, чем слова.Уже давно это все именно так и работает, только гораздо эффективнее - у тебя каждая буква - это адрес в словаре кодировки.Бука в koi-8 занимает один байт.То есть это именно то что ты, ОП, предлагаешь, просто гораздо атомарнее, дешевле и универсальнее, и сделано это хуй знает когда.Понимаешь о чем я?
>>1981976А вот хуй, картинок в нормальных книгах дохуя.
>>1981989Комиксоблядь закукарекала. В нормальных книгах как раз наоборот иллюстраций по минимуму, и те за авторством скучающего графомана как правило. Остальное - книжки для сосницких с акварелью во всю блять страницу с текстом в уголке и твои любимые дебильные пострелушки про человеков-кабанов.
>>1982411Чёто ты туговатый, проектор.Иди сохрани http://flibustahezeous3.onion/b/378948/read с картинками и без, а потом кукарекай.
>>1982441> http://flibustahezeous3.onion/b/378948/readИ где ты там нашёл картинки, кроме обложки и полутора иллюстраций, пережатых в монохромный gif, а потом зачем-то разжатых обратно в жепег? Может, ты ещё в bmp предложишь их сохранять, любитель картиночек?
>>1981878Самый смешной тред квартала. Особенно рационализаторские идеи радуют.
>>1981620 (OP)Любой архиватор так и делает