Molecular de-novo design through deep reinforcement learning

Table 2 Randomly selected SMILES generated by the different models

Model	Sampled SMILES
Prior	CCOC(=O)C1=C(C)OC(N)=C(C#N)C1c1ccccc1C(F)(F)F
	COC(=O)CC(C)=NNc1ccc(N(C)C)cc1[N+](=O)[O-]
	Cc1ccccc1CNS(=O)(=O)c1ccc2c(c1)C(=O)C(=O)N2
Agent	CC(C)(C)NC(=O)c1ccc(OCc2ccccc2C(F)(F)F)nc1-c1ccccc1
	CC(=O)NCC1OC(=O)N2c3ccc(-c4cccnc4)cc3OCC12
	OCCCNCc1cccc(-c2cccc(-c3nc4ccccc4[nH]3)c2OCCOc2ncc(Cl)cc2Br)c1
Action level	CCN1CC(C)(C)OC(=O)c2cc(-c3ccc(Cl)cc3)ccc21
	CCC(CC)C(=O)Nc1ccc2cnn(-c3ccc(C(C)=O)cc3)c2c1
	CCCCN1C(=O)c2ccccc2NC1c1ccc(OC)cc1
REINFORCE	CC1CCCCC12NC(=O)N(CC(=O)Nc1ccccc1C(=O)O)C2=O
	CCCCCCCCCCCCCCCCCCCCCCCCCCCCNC(=O)OCCCCCC
	CCCCCCCCCCCCCCCCCCCCCC1CCC(O)C1(CCC)CCCCCCCCCCCCCCC
REINFORCE + Prior	Nc1ccccc1C(=O)Oc1ccccc1
	O=c1cccccc1Oc1ccccc1
	Nc1ccc(-c2ccccc2O)cc1

ISSN: 1758-2946