[data] Add reference data, see #183444

import unittest2
from os import path
import random
random.seed(6) ### Make sure tests are repeatable

from nazca.normalize import loadlemmas, simplify
from nazca.minhashing import Minlsh

TESTDIR = path.dirname(__file__)

class MinLSHTest(unittest2.TestCase):
    def test_all(self):
        sentences = [u"Un nuage flotta dans le grand ciel bleu.",
                     u"Des grands nuages noirs flottent dans le ciel.",
                     u"Je n'aime pas ce genre de bandes dessinées tristes.",
                     u"J'aime les bandes dessinées de genre comiques.",
                     u"Pour quelle occasion vous êtes-vous apprêtée ?",
                     u"Je les vis ensemble à plusieurs occasions.",
                     u"Je les ai vus ensemble à plusieurs occasions.",
        minlsh = Minlsh()
        lemmas = loadlemmas(path.join(TESTDIR, 'data', 'french_lemmas.txt'))
        # XXX Should works independantly of the seed. Unstability due to the bands number ?
        minlsh.train((simplify(s, lemmas, remove_stopwords=True) for s in sentences), 1, 200)
        self.assertEqual(set([(0, 1), (2, 3), (5,6)]), minlsh.predict(0.4))

if __name__ == '__main__':