Skip to content

Fix quotes in self.normalize regexp#15

Open
valentin7121 wants to merge 1 commit into
Den4ikAI:mainfrom
valentin7121:fix-self-normalize
Open

Fix quotes in self.normalize regexp#15
valentin7121 wants to merge 1 commit into
Den4ikAI:mainfrom
valentin7121:fix-self-normalize

Conversation

@valentin7121

Copy link
Copy Markdown

Из строки регулярного выражения

self.normalize = re.compile(r"[^a-zA-Z0-9\sа-яА-ЯёЁ—.,!?:;""''(){}\[\]«»„“”-]")

незаметно пропадали двойные кавычки ", т.к. они служат символами начала и конца строки.
Поэтому после обработки строк с двойными кавычками кавычки стирались.
Заэкранировал кавычки.
Но осталась ещё проблемка с пропадающими пробелами между тире и кавычкой. Строка типа:

"Он - 'наш' человек"

После обработки становится:

"+Он -'н+аш' челов+ек"

@valentin7121

Copy link
Copy Markdown
Author

Хотя, перед любыми кавычками пробелы удаляются, не только перед тире

@sergeiterehov

Copy link
Copy Markdown

А в чем смысл функции delete_spaces_before_punc?
И в чем задумка в ней с проверкой на символ -, если этот символ заменяется на ~?

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment

Labels

None yet

Projects

None yet

Development

Successfully merging this pull request may close these issues.

2 participants