fix cb01 -> sezione film (causa oscar..)
This commit is contained in:
@@ -131,7 +131,7 @@ def peliculas(item):
|
|||||||
# esclusione degli articoli 'di servizio'
|
# esclusione degli articoli 'di servizio'
|
||||||
blacklist = ['BENVENUTI', 'Richieste Serie TV', 'CB01.UNO ▶ TROVA L’INDIRIZZO UFFICIALE ',
|
blacklist = ['BENVENUTI', 'Richieste Serie TV', 'CB01.UNO ▶ TROVA L’INDIRIZZO UFFICIALE ',
|
||||||
'Aggiornamento Quotidiano Serie TV', 'OSCAR 2019 ▶ CB01.UNO: Vota il tuo film preferito! 🎬',
|
'Aggiornamento Quotidiano Serie TV', 'OSCAR 2019 ▶ CB01.UNO: Vota il tuo film preferito! 🎬',
|
||||||
'Openload: la situazione. Benvenuto Verystream', 'Openload: lo volete ancora?']
|
'Openload: la situazione. Benvenuto Verystream', 'Openload: lo volete ancora?', 'OSCAR 2020 ▶ VOTA IL TUO FILM PREFERITO! 🎬']
|
||||||
# debug = True
|
# debug = True
|
||||||
if 'newest' in item.args:
|
if 'newest' in item.args:
|
||||||
if '/serietv/' not in item.url:
|
if '/serietv/' not in item.url:
|
||||||
|
|||||||
+3
-24
@@ -39,30 +39,9 @@ def find_multiple_matches_groups(text, pattern):
|
|||||||
|
|
||||||
# Convierte los codigos html "ñ" y lo reemplaza por "ñ" caracter unicode utf-8
|
# Convierte los codigos html "ñ" y lo reemplaza por "ñ" caracter unicode utf-8
|
||||||
def decodeHtmlentities(data):
|
def decodeHtmlentities(data):
|
||||||
entity_re = re.compile("&(#?)(\d{1,5}|\w{1,8})(;?)")
|
import HTMLParser
|
||||||
|
parser = HTMLParser.HTMLParser()
|
||||||
def substitute_entity(match):
|
return parser.unescape(data)
|
||||||
ent = match.group(2) + match.group(3)
|
|
||||||
res = ""
|
|
||||||
while not ent in html5 and not ent.endswith(";") and match.group(1) != "#":
|
|
||||||
# Excepción para cuando '&' se usa como argumento en la urls contenidas en los datos
|
|
||||||
try:
|
|
||||||
res = ent[-1] + res
|
|
||||||
ent = ent[:-1]
|
|
||||||
except:
|
|
||||||
break
|
|
||||||
|
|
||||||
if match.group(1) == "#":
|
|
||||||
ent = unichr(int(ent.replace(";", "")))
|
|
||||||
return ent.encode('utf-8')
|
|
||||||
else:
|
|
||||||
cp = html5.get(ent)
|
|
||||||
if cp:
|
|
||||||
return cp.decode("unicode-escape").encode('utf-8') + res
|
|
||||||
else:
|
|
||||||
return match.group()
|
|
||||||
|
|
||||||
return entity_re.subn(substitute_entity, data)[0]
|
|
||||||
|
|
||||||
|
|
||||||
def unescape(text):
|
def unescape(text):
|
||||||
|
|||||||
Reference in New Issue
Block a user