Заархивировал 151 палату оффлайн

Аноним Анонимыч

Со дня смерти Сталина (05 марта) и до праздника весны и труда (1 мая) старательно архивировал 151-ю палату посредством сохранения тем в формате "версия для печати" браузером "Опера" старой версии. Сохраняемый формат темы - html-файл + папка с аналогичным названием.
Всего получилось 9099 тем на 22:00 01.05.2017.
Общий их размер - 7,85 ГБ (8 438 031 704 байт)
На диске - 8,36 ГБ (8 981 098 496 байт)
(Конечно, сюда не вошли максимизированные версии картинок (то есть, подгружающиеся по щелчку на превьюшке), видеоролики, а также удалённые темы (их ещё предстоит найти и скачать на других ресурсах 😛)

Сразу же заархивировал всю папку "151 палата" в архив формата .rar с добавлением 10% информации для восстановления, получился файл размером
6,22 ГБ (6 686 955 778 байт).
То есть, на 1 однослойный DVD-R не влезает, к сожалению, на двухслойку, если только.
Архивирование в .rar заняло около 50 минут.

Теперь осталось проиндексировать контент локальным софтом:
Advanced CATaloguer Pro (для поиска тем по названию файлов) и
Архивариус 3000 (для полнотекстового поиска информации).

Следующий этап - всё это прочитать.

Max-Rite

Неплохо. Будем следить за развитием проекта.

Половник

Во дает! После Васька, на второе место среди кумиров метишь.

zair

Неуместный вопрос. Зачем? Что тут есть такого за что стоит убивать время и зрение?

Аноним Анонимыч

zair
Неуместный вопрос. Зачем? Что тут есть такого за что стоит убивать время и зрение?
Я давно читаю Палату, мне тут очень многое интересно и полезно узнавать.
Не считаю получение информации отсюда потерей времени, а зрение пока ОК 😛

Stayn

Классно. Теперь если одновременно сдохнут Ганза, Аллзип и Попган, будем знать к кому обращаться. 😊

zair

Вдруг кто то захочет повторить подвиг. Чисто из жалости к вашему времени, откройте любой линукс и в консоль скопируйте

wget -k -r -E -x -p -np -c -e robots=off 'http://forum.guns.ru/forummessage/151/'

получите весь форум на диске в удобочитаемом виде.

любительбулок

Идея светлая и почин зачетный.Если будете иметь возможность и/или желание скопировать это на двухслойный настоящий Тошибу,то будут и желающие такой диск приобресть.
Естесственно,я первый в очереди,ставлю резерв 😊

------------------
Прожить бы мне эти полмига,а там я 100 лет проживу..

Аноним Анонимыч

"в удобочитаемом виде." - что имеется ввиду?
У меня вот есть целый ряд форумов, скачаных тем же Teleport Exec, не сказал бы, что такого рода оффлайновая копия меня устраивает. Поэтому приходится заниматься "ручной работой".

Аноним Анонимыч

любительбулок
иметь возможность и/или желание скопировать это на двухслойный настоящий Тошибу,то будут и желающие такой диск приобресть.Естесственно,я первый в очереди,ставлю резерв
Да, есть возможность и желание 😛
Я вот думаю, а что если на Яндекс-диск попробовать копирнуть, там сейчас вроде как до 10 Гб. максимальный размер файла:

"Загрузить файлы на Диск
Внимание. Максимальный размер файла на Диске - 10 ГБ.

Для загрузки файлов размером больше 2 ГБ используйте программу 'Яндекс.Диск' (в версии для Windows, для Mac OS или для Linux) или WebDAV-клиент. Браузеры не смогут обработать такие большие файлы."
https://yandex.ru/support/disk/uploading.html

Riteg2013

1. 1 тема с картинками = 1 файл
прогнать корневую папку с темами через Batchwork Batch HTML to MHT Converter

2. текстовой поиск по содержимому
прогнать через Архивариус 3000 (можно Portable-версию)

3. текстовой поиск по названию темы (в Вашем случае не актуально, но если кто скачивает автоматом и получает имена типа 2082793.html)
в программе ReNamer пакетное переименование всех html с использованием мета-тега HTML_Title

Riteg2013

wget -k -r -E -x -p -np -c -e robots=off 'http://forum.guns.ru/forummessage/151/'
Смысл есть только в "версии для печати" (forum.guns.ru/forum_light_message) и в картинках.

И не 151 палатой единой...

Riteg2013

Идея светлая и почин зачетный
+1, я этим не занимался после краха Ганзы в 2013.
Возможно, указанная мной технология и программы дико устарели.

Homo_erectus

во автор дает в ДВЕ ТЫСЯЧИ СЕМНАДЦАТОМ ГОДУ ручками копировать большие массивы информации из интернета 😊 сильный ход.

надеюсь вы хотя бы догадались число "сообщений на странице" в настройках изменить на 1000. хотя в этом бы случае вам бы не понадобился целых 2 месяца. неплохой выживальческий урок 😀 не всегда стоит тупо биться головой в стену.

с другой стороны я со своими светлыми мыслями про образование детей вышивальщика получается вошел в историю 😀

на самом деле если что то и стоило сохранять то не наш философский кружок а конкретно практические разделы ганзы об оружии и то не все целиком а содержательные темы. в палате же максимум 10-20 тем которые достойны сохранения в виду хоть какой то значимости для жизни.

Riteg2013

в настройках изменить на 1000
И как это поможет с темами, которые давно утонули и доступны через календарь?

Нужен список номеров тем (2082793.html), в том числе и древних, в папке 151. Может список номеров старых тем можно вытянуть автоматом с

Аллзип и Попган

Homo_erectus

Riteg2013
И как это поможет с темами, которые давно утонули и доступны через календарь?

Нужен список номеров тем (2082793.html), в том числе и древних, в папке 151. Может список номеров старых тем можно вытянуть автоматом с


человек руками сохранял темы и даже найдя старую тему ганза же все равно ее откроет по умолчанию в 20 сообщений на странице дофига страниц так что для упрощения ручного скачивания явно нужен увеличивать число сообщений на странице. мое вашему не противоречит.

Бывший

Че, и мой флуд что-ли туда же заархивировали для далеких потомков???

любительбулок

Так,все метнулись свои флуды тереть везде по форуму 😊

------------------
Прожить бы мне эти полмига,а там я 100 лет проживу..

zair

Не бойтесь, 7 гиг прочитать это не два месяца горб за компьютером культивировать, а гораааздо дольше ))

Аноним Анонимыч

Riteg2013
1. 1 тема с картинками = 1 файл прогнать корневую папку с темами через Batchwork Batch HTML to MHT Converter2. текстовой поиск по содержимому прогнать через Архивариус 3000 (можно Portable-версию)3. текстовой поиск по названию темы (в Вашем случае не актуально, но если кто скачивает автоматом и получает имена типа 2082793.html) в программе ReNamer пакетное переименование всех html с использованием мета-тега HTML_Title

MHT - несколько "неудобный" формат (чистое имхо). Хотя, может просто "непривычный".
А пакетное переименование по тэгам хоть и удобно, но не страхует от орфографических ошибок самих авторов тем при их назывании. Я вручную исправлял порой по 2-3 ошибки в одном названии за раз 😛


Riteg2013
Смысл есть только в "версии для печати" (forum.guns.ru/forum_light_message) и в картинках.И не 151 палатой единой...
Безусловно, да. Ещё есть смысл в видеороликах, но как сделать их сохранение одновременно с веб-страницей - уму непостижимо.
А что не 151-й единой - так у меня ещё 52 палаты намечены для "экстрадиции" 😛


Homo_erectus
надеюсь вы хотя бы догадались число "сообщений на странице" в настройках изменить на 1000. хотя в этом бы случае вам бы не понадобился целых 2 месяца. неплохой выживальческий урок не всегда стоит тупо биться головой в стену.
Нет, я же "версии для печати" сохранял, там это не нужно.

zair
Не бойтесь, 7 гиг прочитать это не два месяца горб за компьютером культивировать, а гораааздо дольше ))
Да, я за 2016-й прочитал и прослушал 37 мегабайт книг и аудиокниг (в пересчёте на текст).
Но форумы (в отличие от блогосфер) сильно избыточны цитированием в коментах, да и картинок в этих гигах очень существенная доля.

artmel

Надо архивировать 7Z http://www.7-zip.org/ архиватором, будет намного меньше занимать места.

zair

Аноним Анонимыч
MHT - несколько "неудобный" формат


Когда нужно сохранить например отдельную тему, сохраняю в формат PDF. Весит мало, читается всеми устройствами, картинки и ссылки не проблема.

Вручную делать это удобнее всего, открыв версию для печати, параллельно открываем LibreOffice Writer (аналог ворда) вставляем туда сплошной лентой, лишнее убирается по шаблону через "найти-заменить", причем делается это массово, например можно вырезать все посты определенного человека или разделительные линии (там есть возможность вырезать спецсимволы и знаки форматирования)

Затем можно сделать оглавление (делает автоматом) и когда все вас устраивает, нажимаете кнопку "Экспорт в PDF"


Как пример - тема по блокам питания: http://transfiles.ru/kt1hy

почти аноним

Следующий этап - всё это прочитать.
10 гиг текста прочитать?
открою глаза: книга в 500стр умещается в 1 МБт

почти аноним

и не проще было-бы сделать это в автоматическом режиме специальными программами? 😊

lv333

почти аноним
10 гиг текста прочитать?
открою глаза: книга в 500стр умещается в 1 МБт

Если собрать более менее полезную инфу с ганзы, то она и в меньший объем влезет 😊

Аноним Анонимыч

почти аноним
10 гиг текста прочитать?открою глаза: книга в 500стр умещается в 1 МБт

Название : ПАЛАТА 151

Размер индекса : 524,16 МБ (549 626 956 байтов)
Дата создания : 05.03.2017 22:45:39
Дата изменения : 01.05.2017 23:11:15

Документов : 33 596
Слов в словаре : 886 680
Обработанных слов : 105 693 169
Количество архивов : 17
Размер файлов : 2,51 ГБ (2 700 749 250 байтов)
Размер текстов : 1,26 ГБ (1 362 804 132 байта)
Время индексирования: 13:37

Статистика индекса - форматы документов:
Двоичный файл (.bin) : 26 0,07%
Hyper Text Markup Language (.htm): 12542 37,33%
Простой текст (.txt) : 11327 33,71%
Extensible Markup Language (.xml): 2 0%
Изображение BMP (.bmp) : 2 0%
Ролик Adobe Flash (.swf) : 9697 28,86%

Итого : 33 596 100%


Там ВСЕ тексты-то занимают около 16% общего объёма скачанных файлов.
Да и как уже писал, тексты изобилует повторами/цитатами, то есть "полезной нагрузки" ещё меньше. Есть огромные "флудовые" темы, типа "Бар 100 рентген" (во многих его инкарнациях), которые читать смысла нет особого.

Бар ''100 рентген'' open for 24 hours.html - размер - 55 мегабайт.

Есть темы, в которых "полезной нагрузки" лишь одно название (раньше там был только видеоролик, текст его кода проиндексирован и подсчитан, но что толку?).
Опять же, html-разметка сколько ещё занимает и от этих 1,26 Гб...

Бывший

Аноним Анонимыч
Бар ''100 рентген'' open for 24 hours.html - размер - 55 мегабайт.

Есть темы, в которых "полезной нагрузки" лишь одно название (раньше там был только видеоролик, текст его кода проиндексирован и подсчитан, но что толку?).


Ну блин, прикиньте, после ядреного песца какая скукотишша, кругом одни зомби ходят, с которыми даже не по ругаешься. А тут у вас в БП-ноутбуке будет тема - бар 100 рентген. Откроете, почитаете, и станет вам веселее 😊

Аноним Анонимыч

Бывший
Откроете, почитаете, и станет вам веселее
боюсь, наоборот, рыдать захочется 😛

Бывший

От ностальгии? 😊

Бывший

С мыслями "Кто бы мог подумать, что БП окажется ВОТ ТАКИМ,а не таким к которому мы столько готовились..."

любительбулок

В плане организации информации она будет ценнее,если нужная информация будет быстро уметь находиться.В идеале по палате 151 организация как Джим организовал и рассортировал все по профильным темам.

------------------
Прожить бы мне эти полмига,а там я 100 лет проживу..

Lev007

artmel
Надо архивировать 7Z http://www.7-zip.org/ архиватором, будет намного меньше занимать места.

Плюсую.
7Z крайне хороший архиватор.
Есть алгоритмы сжатия выше классом,
но он не в широком доступе ((

mks221

Не понял, а где ссылка на сам архив? Мне 7 гиг не проблема.. Как и большинству. О чём вообще срач? Чел как смог так и сделал. Респект ему, если выложит ссылку. А если речь о том как сжать, как скачать в один сд- диск - так это не в этом форуме должно быть.

Безнадёжный пациент

Скока умных слов... А тута, как то, была тема про покемонов. Чем там дело кончилось? "Хома с эрекцией" всех победил? Тема заглохла.... Никак не могу найти топик....

Аноним Анонимыч

mks221
Не понял, а где ссылка на сам архив?
Куда можно выложить ещё, кроме Яндекс-диска?

angrifer

А не проще натравить оффлайн-браузер на http://guns.allzip.org/forum/151/1.html
Тут и так все архивируется для "потомков" в автоматическом режиме.

Братеньков А

За труды конечно респект автору, но кмк палата носит развлекательный характер(уж простите меня кого обидел)больше нежели практический.

mks221

Аноним Анонимыч
Куда можно выложить ещё, кроме Яндекс-диска?
Можно и на него. Я просто не увидел ссылки.
А если затем на трекер, то вообще будет замечательно. Сейчас так библиотеки расходятся (Либрусек).

Lev007

Все? Тема ушла вниз?

MrWho

Аноним Анонимыч
Куда можно выложить ещё, кроме Яндекс-диска?
На mega.nz - скорость, шифрование, 50Гб места