Hey David,<br><br>Unfortunately I don't think the sequences are amino acid sequences.<br><br>For the PR sequences, most of them have a length of 297. If it's a<br>DNA sequence, then this means it codes for 99 amino acids. A quick<br>
look shows that HIV-1 Protease (the protein whose sequence we're<br>dealing with in the first sequence column) has 99 amino acid pairs:<br><br><a href="http://www.bioafrica.net/proteomics/POL-PRprot.html">http://www.bioafrica.net/proteomics/POL-PRprot.html</a><br>
<br>Does that make sense? If it does, then the sequences from the data are<br>just noisy and of poor quality, and we're going to have to throw out some<br>of the noisy data before running it through a sequence aligner. I'm in the<br>
process of doing this now, and will let everyone know how things are coming<br>along at the meeting.<br><br>See everyone tonight!<br> <br>   mike<br><br><br><br><br><div class="gmail_quote">On Tue, Jun 22, 2010 at 8:37 AM, David Faden <span dir="ltr"><<a href="mailto:dfaden@gmail.com">dfaden@gmail.com</a>></span> wrote:<br>
<blockquote class="gmail_quote" style="border-left: 1px solid rgb(204, 204, 204); margin: 0pt 0pt 0pt 0.8ex; padding-left: 1ex;">It looks like the sequences are already coded in terms of amino acids rather than nucleotide triples? <<a href="http://www.biogem.org/Accelrys/Sequencing/symbols_amino_acids.html" target="_blank">http://www.biogem.org/Accelrys/Sequencing/symbols_amino_acids.html</a>><br>

<br><div class="gmail_quote"><div><div></div><div class="h5">On Mon, Jun 21, 2010 at 10:29 PM, Thomas Lotze <span dir="ltr"><<a href="mailto:thomas.lotze@gmail.com" target="_blank">thomas.lotze@gmail.com</a>></span> wrote:<br>
</div></div><blockquote class="gmail_quote" style="border-left: 1px solid rgb(204, 204, 204); margin: 0pt 0pt 0pt 0.8ex; padding-left: 1ex;"><div><div></div><div class="h5">
I committed some python for generating base pair triplet count features, and R code for determining frequency and doing a basic GLM including the most frequent triplets.<br>(The Noisebridge machine learning sourceforge git repository is here: <a href="https://sourceforge.net/scm/?type=git&group_id=326816" target="_blank">https://sourceforge.net/scm/?type=git&group_id=326816</a>  To download the files, run "git clone git://<a href="http://ml-noisebridge.git.sourceforge.net/gitroot/ml-noisebridge/ml-noisebridge" target="_blank">ml-noisebridge.git.sourceforge.net/gitroot/ml-noisebridge/ml-noisebridge</a>" or, better yet, ask Mike to give you read/write access to this project so you can upload code as well)<br>


<br>This got me to 53.8462 MCE, 36th out of 49 teams.<br><br>See you tomorrow night at 9 for fun with Hadoop!<br><font color="#888888">-Thomas<br>
</font><br></div></div>_______________________________________________<br>
ml mailing list<br>
<a href="mailto:ml@lists.noisebridge.net" target="_blank">ml@lists.noisebridge.net</a><br>
<a href="https://www.noisebridge.net/mailman/listinfo/ml" target="_blank">https://www.noisebridge.net/mailman/listinfo/ml</a><br>
<br></blockquote></div><br>
<br>_______________________________________________<br>
ml mailing list<br>
<a href="mailto:ml@lists.noisebridge.net">ml@lists.noisebridge.net</a><br>
<a href="https://www.noisebridge.net/mailman/listinfo/ml" target="_blank">https://www.noisebridge.net/mailman/listinfo/ml</a><br>
<br></blockquote></div><br>