Конвертация файлов.

Кливленд

Камрады, подскажите плиз!
Нужно конвертировать PDF книгу в Word doc.
Конвертирую. На выходе получается текст, как в PDF, вроде все в порядке, но при попытке уменьшить шрифт в Word , вылазят эти "тире" в словах. Текст книги большой. Неужто вручную все эти тире удалять?


Супрадин

чо за книга?

Князь Тишины

Конвертирую
Как?

Кливленд

чо за книга?

Большая игра на понижение.

Как?

К примеру, через это:

http://www.jinapdf.com/ru/pdf-to-word-file.php

AllBiBek

сначала жмешь "показать нечитаемые знаки".

Затем Ctr+F, выскочит "Найти и заменить".

Копируешь из текста дефис в верхнюю строку (именно из текста и именно копируешь, это не дефис а знак переноса), ставишь курсор в нижнюю, копируешь туда нечитаемый знак пробела, затем Backspace (удаляешь его нафиг), и "Заменить всё".

На старых версиях ворда срабатывало.

Торус!

Кливленд
вылазят эти "тире" в словах

Нажми в ворде значок, выделенный зеленой стрелкой, и откроются скрытые символы.
Станет видно, что (в данном случае) столбец заделан так, что изменить его не получится,
так как в конце строчки вместо обычного пробела стоит командный знак абзаца.

То же и с переносами.
Они уже забацаны под столбец определенной ширины.
И это не переносы, а простые дефисы, блеать (убыв бы).
Поэтому нужно запилить макрос и исправить эту порнографию.
Но это уже совсем другие деньги.
😀


Торус!

AllBiBek
Копируешь из текста дефис в верхнюю строку (именно из текста и именно копируешь, это не дефис а знак переноса), ставишь курсор в нижнюю, копируешь туда нечитаемый знак пробела, затем Backspace (удаляешь его нафиг), и "Заменить всё".

Да можно просто грохнуть все дефисы.
Но тогда будут проблемы со словами типа "что-то" и с прямой речью.
😀

Ващета у него при том раскладе должны быть еще и проблемы с символом абзаца.

Gets

найти-выбрать-удалить.

Лонжерон

Так это же не "тире" по сути, а переносы.
Их скрытыми символами не удалишь.
Если только попробовать "запретить переносы"?

Nick Brake

Торус!
Станет видно, что (в данном случае) столбец заделан так, что изменить его не получится,
так как в конце строчки вместо обычного пробела стоит командный знак абзаца.
Часто приходится иметь дело вот с такой же порнографией.

Со знаками абзаца в конце каждой строки справляюсь так.
Требуется сохранить разметку "настоящих" абзацев, в этом тексте они отделены дуг от друга пустой строкой. Иначе текст станет совсем нечитабельным.

Для этого сначала настраиваю замену на ДВА последовательных знака абзаца, и заменяю их на какой-нибудь редкий символ, не встречающийся в тексте, вроде "&".
Затем запускаю по всему файлу удаление концов абзаца. А когда оно закончилось, и текст снова стал слитным (на автоматическом переносе), меняю обратно "&" на конец абзаца.

К сожалению, с оставшимися в тексте символами переноса (это могут быть и дефисы, и тире, смотря в какой программе текст распознавался) можно справиться только простым удалением, и пострадают и составные слова тоже (в данном примере - "Уолл-стрит"). Придется с этим мириться (иногда помогает проверка орфографии, она многие такие слова распознает как ошибки, и сама предложит замену на составное слово с дефисом.

Если в тексте были слова, разделенные дефисом с пробелами, типа "перво - наперво"), то такие сочетания (пробел/дефис/пробел) предварительно тоже нужно все заменить на какой-нибудь символ (или цепочку символов), чтобы после удаления всех дефисов можно было обратной заменой вернуть их на место.

AllBiBek

Торус!
Да можно просто грохнуть все дефисы.
Хрена лысого.
Там именно знак переноса, они в шрифте могут не отличаться внешне, но комп разницу видит.

Но вообще, по тому же принципу делается "заменить чтото както кемто чемто / чтолибо ктолибо кемлибо чемлибо / чтонибудь ктонибудь кемнибудь чемнибудь на что-то как-то кем-то чем-то / что-либо кто-либо кем-либо чем-либо / что-нибудь кто-нибудь кем-нибудь чем-нибудь" применительно ко всему документу. Возни на несколько минут независимо от объема книги. Я обычно вообще в процессе чтения делал, попалось на глаза - заменил на правильное, распространил на весь документ.

И всё.

Lirikk

В Word есть в верхней строке, где команды, вкладка "Разметка страницы", в этой вкладке есть "Расстановка переносов", там: "нет", "авто", "ручная". Попробуйте нажать "Нет".

Nick Brake

Lirikk
В Word есть в верхней строке, где команды, вкладка "Разметка страницы", в этой вкладке есть "Расстановка переносов", там: "нет", "авто", "ручная". Попробуйте нажать "Нет".
Эти переносы не Ворд расставил. Поэтому он и не может их отменить сам.

AllBiBek

Короче, нате вам радикальное решение этой конкретной проблемы.

Забил пару строк со скана в гуглу, он выдал искомую книгу: "Игра на понижение. Тайные пружины финансовой катастрофы".

В "гугель-книгах" лежит в свободном доступе вот тут:

https://books.google.ru/books?id=TpmqCwAAQBAJ&pg=PT5&lpg=PT5&dq=%D0%BA%D0%B0%D0%BA+%D0%B2+1986+%D0%B3%D0%BE%D0%B4%D1%83+%D0%B3%D0%B5%D0%BD%D0%B5%D1%80%D0%B0%D0%BB%D1%8C%D0%BD%D1%8 B%D0%B9+%D0%B4%D0%B8%D1%80%D0%B5%D0%BA%D1%82%D0%BE%D1%80+salomon+brothers+%D0%B4%D0%B6%D0%BE%D0%BD+%D0%B3%D1%83%D1%82%D1%84%D1%80%D0%BE%D0%B9%D0%BD%D0%B4&source=bl&ots=xsz0exanvD& sig=uE4Ums7H_73T3y2RNl4OWw4zcg4&hl=ru&sa=X&ved=0ahUKEwiAoIaHs-zSAhXGApoKHfOKAsgQ6AEIHzAB#v=onepage&q=%D0%BA%D0%B0%D0%BA%20%D0%B2%201986%20%D0%B3%D0%BE%D0%B4%D1%83%20%D0%B3%D0%B5%D 0%BD%D0%B5%D1%80%D0%B0%D0%BB%D1%8C%D0%BD%D1%8B%D0%B9%20%D0%B4%D0%B8%D1%80%D0%B5%D0%BA%D1%82%D0%BE%D1%80%20salomon%20brothers%20%D0%B4%D0%B6%D0%BE%D0%BD%20%D0%B3%D1%83%D1%82%D1%84% D1%80%D0%BE%D0%B9%D0%BD%D0%B4&f=false

скачать, открыть, вырделить всё, скопировать в блокнот (чтобы убить всё возможное форматирование кроме текста), из блокнота скопировать в Ворд.

Всё!

Торус!

AllBiBek
скачать, открыть, вырделить всё, скопировать в блокнот (чтобы убить всё возможное форматирование кроме текста), из блокнота скопировать в Ворд.

Всё!


Хрен!

Форматирование убьется, а "переносы" останутся.
Патамушо мудак этот текст форматировал - набил дефисов и доволен.
😊

А переносы расставляются автоматически и перескакивают при изменении всяких размеров.

Переносы - параметр не самого текста, а программы.
Установил - будут, снял - пропадут.

Куш-тэнгри

У меня была такая же хня. Переносы не переносятся, "дефис" остаётся посреди строки. Но и не заменяется: как ни пробовал копипаст в окошко поиска/замены - хрен там. Забил (текст был невелик, всё равно вручную вычитывать надо было, прошёлся ручками/глазками и почистил. Час пришлось убить на 50 листов. 😞 Так и не нашёл рецепта.

Гы

"запретить переносы"
Скачайте старую версию акробата

Торус!

Куш-тэнгри
Так и не нашёл рецепта.

Надо макрос хитрый делать.
Ну, не очень хитрый...

😊

Гы

Макрос -хуякрос... За сутки и дилетом бы убрал.

Торус!

Гы
За сутки и дилетом бы убрал

😀

А макрос делается 2 минуты, и убирается чо нинадо еще 1 минуту.

Кливленд

Перевод текста в блкнот, а потом в Ворд, ничего толкового не дает.
Да, всякие тире и дефисы исчезают, но зато текст нужно расширять вручную.
Пробую ваши предложенные методы далее, камрады. 😊


Торус!

Кливленд
текст нужно расширять

Что значит "расширять"?

Nick Brake

Кливленд
но зато текст нужно расширять вручную.
Что нужно делать???

Коллега, на скриншоте у Вас не включен показ скрытых символов (кнопочка с буквой "Пи").
Включите его, и окажется, что у Вас в конце "коротких" строк стоят знаки конца абзаца (которых там быть не должно).
Вот их и нужно удалить поиском и заменой, как выше писали.

Торус!

Кароче.
Очевидно, что дагноз тут простой - "лох чилийский"

😀

Давай твой файл мне, я его запилю.
А то прямо сердце кровью обливается при виде мучений
бедной черножопой обе неумелого афророссиянина.

😊

Кливленд

Коллега, на скриншоте у Вас не включен показ скрытых символов (кнопочка с буквой "Пи").
Включите его, и окажется, что у Вас в конце "коротких" строк стоят знаки конца абзаца (которых там быть не должно).
Вот их и нужно удалить поиском и заменой, как выше писали.

Спасибо. 😊

Очевидно, что дагноз тут простой - "лох чилийский"

Я согласный. 😀 Ну вот так хреново я знаю эти ворды.

Давай твой файл мне, я его запилю.
А то прямо сердце кровью обливается при виде мучений
бедной черножопой обе неумелого афророссиянина.

Э, неее. Я сам! Принципиально, дабы не посрамить Пушкина. 😀

Торус!

Кливленд
Э, неее. Я сам!

Ну сам так сам.
Однако без макросов не обойтись.
Надо осваивать.
Ты хоть знаешь, что это такое?

😊

Кливленд

Ну сам так сам.
Однако без макросов не обойтись.

Спасибо. 😊 Но я сам хочу разобраться таки. Еще в середине 2000-х в версии Ворда 2003 - самой классной сталкивался с такой проблемой, и решал. Я щас не помню как.


Надо осваивать.
Ты хоть знаешь, что это такое?

Ну, я погуглил сейчас.)))

zilberdimm

1) Качаем и ставим gedit: https://gedit.en.softonic.com/download
2) Копируем в него все буквы
3) Жмём Ctrl+H - это поиск и замена
4) В поле поиска пишем -\n (т.е. символ переноса и символ \n обозначающий перенос строки)
5) Жмём "Заменить всё"

И всё 😊

Кливленд

4) В поле поиска пишем -\n (т.е. символ переноса и символ \n обозначающий перенос строки)

А поле "Заменить на" - что писать?

Торус!

Кливленд

А поле "Заменить на" - что писать?

Да не то это все.
Ты меня слушай.

Могу краткую лекцию по макросам прям здесь.

zilberdimm

Кливленд

А поле "Заменить на" - что писать?

Дык, ничего не нужно там писать.

Нам нужно найти все места, где перенос строки идёт сразу после чёрточки и удалить эти сочетания символов, поэтому мы заменяем их на ничего.

Куш-тэнгри

Дык можно и в блокнот было! 😀 Не, тут, как придумал, можно попробовать конвертнуть в RTF (сохраняющий форматирование), и там уже прямо в том же ворде (ничего не качая) сделать такое же самое удаление (с переводом строки дабы простые дефисы не убить). А потом пересохранять уже как DOC опять.