Could missing PR.Seq be informative?<div><br></div><div>> d0 <- read.csv("Downloads/ml-noisebridge/kaggle/training_data.csv", stringsAsFactors=F)<br>> d0$PR.Seq.len <- nchar(d0$PR.Seq)</div><div><div>
> mean(d0$Resp[d0$PR.Seq.len == 0])</div><div>[1] 0.2375</div><div>> mean(d0$Resp[d0$PR.Seq.len != 0])</div><div>[1] 0.2032609</div></div><div><div>> sum(d0$PR.Seq.len == 0)</div><div>[1] 80</div></div><div><br></div>
<div><div>posteriorProb1IsGreater <- function(trials1, trials2, reps=10000) {</div><div>  p1 <- rbeta(reps, sum(trials1) + 1, sum(1 - trials1) + 1)</div><div>  p2 <- rbeta(reps, sum(trials2) + 1, sum(1 - trials2) + 1)</div>
<div>  return(mean(p1 > p2))</div><div>}</div></div><div><br></div><div><div>> posteriorProb1IsGreater(d0$Resp[d0$PR.Seq.len == 0], d0$Resp[d0$PR.Seq.len != 0])</div><div>[1] 0.7949</div></div><div><br></div><div>I guess we may want to ignore this anyway though. Well, I will shut up until I have a model to contribute.</div>
<div><br></div><div>Thanks for setting this up!</div><div><br></div><div>David</div><div><br><div class="gmail_quote">On Tue, Jun 22, 2010 at 8:37 AM, David Faden <span dir="ltr"><<a href="mailto:dfaden@gmail.com">dfaden@gmail.com</a>></span> wrote:<br>
<blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex;">It looks like the sequences are already coded in terms of amino acids rather than nucleotide triples? <<a href="http://www.biogem.org/Accelrys/Sequencing/symbols_amino_acids.html" target="_blank">http://www.biogem.org/Accelrys/Sequencing/symbols_amino_acids.html</a>><br>

<br><div class="gmail_quote"><div><div></div><div class="h5">On Mon, Jun 21, 2010 at 10:29 PM, Thomas Lotze <span dir="ltr"><<a href="mailto:thomas.lotze@gmail.com" target="_blank">thomas.lotze@gmail.com</a>></span> wrote:<br>
</div></div><blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex"><div><div></div><div class="h5">
I committed some python for generating base pair triplet count features, and R code for determining frequency and doing a basic GLM including the most frequent triplets.<br>(The Noisebridge machine learning sourceforge git repository is here: <a href="https://sourceforge.net/scm/?type=git&group_id=326816" target="_blank">https://sourceforge.net/scm/?type=git&group_id=326816</a>  To download the files, run "git clone git://<a href="http://ml-noisebridge.git.sourceforge.net/gitroot/ml-noisebridge/ml-noisebridge" target="_blank">ml-noisebridge.git.sourceforge.net/gitroot/ml-noisebridge/ml-noisebridge</a>" or, better yet, ask Mike to give you read/write access to this project so you can upload code as well)<br>


<br>This got me to 53.8462 MCE, 36th out of 49 teams.<br><br>See you tomorrow night at 9 for fun with Hadoop!<br><font color="#888888">-Thomas<br>
</font><br></div></div>_______________________________________________<br>
ml mailing list<br>
<a href="mailto:ml@lists.noisebridge.net" target="_blank">ml@lists.noisebridge.net</a><br>
<a href="https://www.noisebridge.net/mailman/listinfo/ml" target="_blank">https://www.noisebridge.net/mailman/listinfo/ml</a><br>
<br></blockquote></div><br>
</blockquote></div><br></div>