OGO2.1 Het bepalen van proteinen in het menselijke genoom (2R660)
Laatste updatedatum: 11 november 2001
Ook groep 10 heeft een resultaat (11-11-2001)
Met moeite heb ik een resultaat voor groep 10 weten te genereren.
Alleen van groep 8 zijn er dus nog geen resultaten binnen.
De groepen 2, 6 en 11 zullen op dinsdag verzocht worden een
voordracht te geven.
Bijna alle output binnen (10-11-2001)
Het submitten van de jobs op de unite viel niet mee. De resultaten overigens ook
niet. Tot nu toe kan de output van maar twee groepen helemaal
correct gerekend worden. Met alle andere is er in meer of mindere mate wat aan
de hand. Van alle groepen, behalve 8 en 10 is er output, en wordt nieuwe
output niet meer in beschouwing genomen. Voor groepen 8 en 10 wordt
geprobeerd uit te zoeken wat het probleem is, en wordt geprobeerd voor
dinsdag een resultaat te hebben. Ik zal aan iedere groep die mij daartoe
per mail verzoekt (jfg@win.tue.nl) melden welke resultaten zij hebben
behaald.
Succes! (8-11-2001)
K heeft de waarde 3. Laat de Unite maar runnen! succes.
8 november (30-10-2001)
Op 8 november zal de Unite-expert met usernames en toegangscodes in/rond de zaaltjes
MA1.01,...,MA1.05 aanwezig zijn. In tegenstelling tot wat op het rooster staat, zijn
de zaaltjes MA1.04 en MA1.05 en niet HG8.78 bedoeld voor OGO2.1. HG8.78 is bedoeld
voor de eerstejaars. Conform het rooster kunnen de groepen 1 t/m 6 hier 's
ochtends gebruik van maken. De groepen 7 t/m 11 kunnen hier 's middags terecht.
Merk op dat dit in tegenspraak is met hetgeen op het studentenoverleg is
gezegd.
Nog een Unite expert (26-10-2001)
Groep 2 heeft gesproken met Arjeh Tal (A.L.Tal@tue.nl) die een behoorlijke ervaring
heeft met de Unite, en die zeer behulpzaam, zelfs enthousiast, was
over dit OGO project.
Hij heeft er mee ingestemd dat voor zover hij tijd had, hij nog wel enkele andere
vragen wilde beantwoorden.
Ordening van de output (26-10-2001)
Omdat sommige groepen aangaven dat ze al een bepaalde ordening van de output
hadden geimplementeerd, en wat moeite hadden met de gedachte dat ze alsnog
een extra ordeningsalgorithme zouden moeten schrijven, ga ik akkoord met
alle netjes geordende output. Bv. sortering per chromosoom met daarbinnen
sortering op positie, of vice versa, groepering op voorwaards en achterwaardse
orientatie van de te zoeken string is allemaal toegestaan. Het moet echter
zo zijn dat een duidelijke sortering in de output te ontdekken is. De output
is namelijk zo omvangrijk dat het anders beduidend te veel werk zou zijn
te checken of alle posities correct zijn gelocaliseerd.
Foei! (16-10-2001)
Ik ben het studentenoverleg vandaag vergeten. Volgende week (23-10-2001)
vind het weer gewoon plaats. Mochten er dringende vragen zijn, gelieve
die per mail te stellen (J.F.Groote@tue.nl), en ik zal pogen die te
beantwoorden. Ik ben pas donderdag (18-10-2001) weer op de TU/E.
Een Unite rondleiding op zondag 7 oktober (26-9-2001)
Op zondag 7 oktober is er een open dag op het WCW (Wetenschappelijk Centrum
Watergraafsmeer) waar zich enkele grote wetenschappelijke instituten en het
nationale rekencentrum (SARA) bevinden.
Het programma van de dag is op het net te vinden. Voor een rondleiding bij
SARA is het verstandig van te voren kaarten te bestellen bij Ina Steenman
(ina.steenman@sara.nl). Het is ook mogelijk de CAVE te bekijken. Dit is een grote
kubus met een ribbe van 2.5 meter waarin op de vloer en drie wanden beelden worden
geprojecteerd in 3D [terzijde, onze graphics groep schaft zich binnenkort een "desktop cave"
aan voor onderzoek].
Bij het CWI zal ook een rondleiding worden gegeven door de computerruimtes.
Hier staat de Medusa, een machine die vergelijkbaar is met de Unite. Naast de rondleidingen
zijn er nog veel meer interessante lezingen, demonstraties, etc. Vanuit Eindhoven is het
station Amsterdam Amstel het beste punt om in de pendelbusjes over te stappen. Het WCW is
ook goed bereikbaar per auto, en er zijn voldoende parkeerplaatsen.
Concretere getallen (25-9-2001)
Onder grote druk van de tutoren hierbij concretere gegevens over de lengtes van
de strings. De lengtes van de chromosomen varieren van 21MB tot 284MB.
De lengtes van de proteines is ten hoogste 64. Het aantal fouten zal 3, 4 of 5
bedragen. Het tellen van de inhoud van de file van 280MB met het commando wc kostte
ongeveer 40 seconden op de Unite.
Sheets van prof. Hilbers (25-9-2001)
De sheets van de voordracht van prof.
Hilbers staan hier (verwijderd).
Alweer een referentie (20-9-2001)
Groep 10 heeft
A fast bit-vector algorithm for approximate string matching based on
dynamic programming geschreven door Gene Myers boven water gehaald.
Nog een referentie (18-9-2001)
Groep 7 heeft nog een prachtig overzichtsartikel
over approximate pattern matching ontdekt. Referentie:
Gonzalo Navarro.
A Guided Tour to Approximate String Pattern Matching.
ACM Computing Surveys, Vol 33, No 1, March 2001, pp 31-88.
Sheets van de voordracht van Jos Schoenmakers (18-9-2001)
De sheets van de voordracht
van J. Schoenmakers staan hier in pdf formaat.
Sheets van de voordracht op de Unite (11-9-2001)
De sheets van de voordracht
van dr.ir. R. van Liere staan hier in powerpoint formaat.
Een relevant proefschrift? (10-9-2001)
Tutor G. Zwaan suggereert om het proefschrift van Gonzalo Navarro te
bestuderen met als titel "Approximate Text Searching" (University of Chile,
1998). Het is
online beschikbaar.
Via de webpagina van
Navarro zijn ook nog andere relevante publicaties te
bereiken.
Enkele vragen (Judith Kennes, groep 7, 10-9-2001)
-
Op pagina 5 staat "Een bekende base kan niet succesvol matchen met een
onbekende base N." Betekent dit dat een bekende base niet matcht met een
onbekende base N, of dat hij wel matcht, maar met een 1-fault?
Er wordt gematched, maar dit levert een 1-fault.
-
In de projectwijzer staat niet vermeld wanneer het eindverslag, na de
programmarun op de Unite ingeleverd moet worden. Is deze datum al bekend?
Het eindverslag moet op vrijdag 9 november voor 17:00 worden ingeleverd,
zodat er enerzijds voldoende tijd is om het voor donderdag 15 november na te kijken,
en anderzijds de resultaten van de run op de Unite er nog in verwerkt kunnen
worden. Met excuses. Dit had vermeld moeten worden.
-
Moet de presentatie door alle mensen uit de groep kunnen worden
uitgevoerd, of mogen ook maar één of twee mensen zich hiermee bezig houden?
Je mag hier taken verdelen. Als er bij de eindpresentatie maar iemand beschikbaar
is die de voordracht houdt.
-
Stel dat een proteïne symetrisch is en hij komt voor in een chromosoom,
dan wordt hij in beide richtingen gevonden en dus twee keer geteld. Is dit
ook de bedoeling, of moet hiermee rekening worden gehouden en maar één keer
geteld worden?
Hieruit blijkt maar weer dat ook ik gevallen over het hoofd heb gezien. Beide
zijn mogelijk, en omdat de wijzer hier niet specifiek over is, zullen beide
goed gerekend worden.
Eisen aan het verslag (6-9-2001)
In de OGO wijzer staan de eisen die aan het eindverslag worden gesteld
niet uitdrukkelijk vermeld. Er wordt verwacht dat het
eindverslag een compacte technische uiteenzetting is waarin wordt
uitgelegd waarom voor een bepaald algoritme, of combinatie van
algoritmes is gekozen, waarom de oplossing correct en voldoende snel is,
en wat de run op de unite heeft opgeleverd. Het verslag moet zo volledig
zijn dat iemand die het project zou moeten voortzetten efficient aan de
slag kan gaan. Geef nette wiskundige uiteenzettingen en vermijd
langdurige beschouwingen. Voorzie ook de programmacode van voldoende
uitleg zodat ook snel is in te zien dat de programmacode een weerslag
vormt van de algoritmes in het verslag. Het programma moet ook bij het
verslag worden ingeleverd, maar mag electronisch. De verslagen moeten
op papier worden ingeleverd.
Literatuur en webpagina's (6-9-2001)
De tutor Kees Hemerik heeft een bruikbare webreferentie en
enige mogelijk interessante literatuur opgespoord:
-
Alberto Apostolico, Zvi Galil.
Pattern matching algorithms.
Oxford University Press, 1997
-
Maxime Crochemore Wojciech Rytter
Text algorithms.
Oxford University Press, 1994
-
Graham A. Stephen.
String searching algorithms.
Lecture notes series on computing ; 3
London : World Scientific, 1994
-
Gaston H. Gonnet, Ricardo A. Baeza-Yates.
Handbook of algorithms and data structures: in Pascal and C.
2nd ed.
Workingham : Addison-Wesley, 1991
-
Dan Gusfield.
Algorithms on strings, trees, and sequences.
Cambridge : Cambridge University Press, 1997
-
Pavel A. Pevzner.
Computational molecular biology : an algorithmic approach.
MIT Press, 2000 (wordt aangeschaft)
Terug